• 使用LogParser提取日志數據_SEO交流_SEO前線
    發現更大的SEO世界
     找回密碼
     注冊
    搜索
    »首頁»SEO培訓 SEO論壇 SEO交流 帖子
    发新帖
    johnnyzong,請到個人資料頁面設置个人签名    

    使用LogParser提取日志數據

    本帖最后由 johnnyzong 于 2014-11-3 10:23 编辑

    在技術人員的推薦下,使用了一種以前沒用過的windows下日志分析工具提取所需數據——LogParser。
    日志格式爲:

    日志格式

    日志格式
    ,接下來開始對10月20日的日志進行分析(20141020.log):

    完整代碼(被降級了,好像不能直接發布代碼):

    logparser下提取各數據

    logparser下提取各數據


    这里偷懒没有直接拆分出百度爬虫的日志,直接对原始日志进行的操作,不过运行速度方面感觉不慢,平均每条命令都不超过1分钟就执行完毕了,相比cygwin下的shell命令拆分日志的结果,logparser对目录(多层目录)的分析比较方便,之前zero教的提取栏目抓取次数的方法(无论多少层目录 grep -cP 'Get //*?/'试过了好像还是得不到想要的结果啊,大神能不能再耐心仔细教导一下呢)这几条命令,把所需的基础日志抓取信息基本上都获得了并导出为csv。包含了总抓取量、唯一抓取量、每小时抓取量、各个ip抓取的内容、目录抓取、状态码抓取量等。

    在技術的推薦和幫助下,用了一個星期才勉強把cygwin下能實現的數據提取用logparser實現,收獲嘛,只能說又簡單熟悉了一種微軟出品的專業日志分析工具,我shell命令和正則不是很熟,至少在cygwin下提取目錄抓取次數在自己的能力下還實現不了,用logparser,好歹用簡單的命令和參數組合實現了。

    評分

    參與人數 1贊同 +4 收起 理由
    ZERO + 4

    查看全部評分

    发表于 2014-11-3 10:11:46
    回複 收藏
    混混,潛水員    

    日志數據是多大的呢
    发表于 2014-11-3 10:49:02
    回複 收藏
    ZERO,SEO執著愛好者    

    论坛設置已调整,应该可以发代码了。

    命令是:grep -cP 'GET /.*?/ '

    'GET '限定位置,确定匹配到的是URL
    最后的'/ '确定确实以/结尾
    .*?代表當中隨便出現什麽
    发表于 2014-11-3 10:51:35
    回複 收藏
    johnnyzong,請到個人資料頁面設置个人签名    

    混混 发表于 2014-11-3 10:49
    日志數據是多大的呢

    原始日志大概1.38G

    原始日志大小

    原始日志大小
     樓主佳哥seo 发表于 2014-11-3 10:52:18
    回複 收藏
    快速回複 返回頂部 返回列表