• 最近在做個TF/IDF的功能類,用jieba帶的詞庫,(關于idf.txt想咨詢)_SEO交流_SEO前線
    發現更大的SEO世界
     找回密碼
     注冊
    搜索
    »首頁»SEO培訓 SEO論壇 SEO交流 帖子
    发新帖
    小五,請到個人資料頁面設置个人签名    

    最近在做個TF/IDF的功能類,用jieba帶的詞庫,(關于idf.txt想咨詢)

    因爲想直接套用在網站上,所以最近在移植Python上面的jieba分詞組件.
    分詞已經實現了,不過對tf/idf的運算還是有疑問.
    jieba根目錄下有給一批詞的idf運算值.
    假如idf.txt中出现,那么运算也不成问题,假如没出现,那么idf如何設置个初始值呢?
    发表于 2014-9-28 00:50:30
    回複 收藏
    小五,請到個人資料頁面設置个人签名    

    折騰了兩個小時,自己搞定了,說下解決方案.
    給沒查找到的值設定個idf中間值,比如8.0
    然后把重点词根的idf人肉設置高点(比如100),无关词設置为0.几,目前测试了几篇文章,tag提取的都很靠谱.
    如果有朋友有更好的方法,歡迎探討.
     樓主佳哥seo 发表于 2014-9-28 02:58:43
    回複 收藏
    思明,技术宅男SEO之路    QQ:176089710    

    IDF(逆向詞頻)的一個原則是包含這個詞的文檔數越少,即它的值就越大,這個詞就越能做爲區分文檔屬性的關鍵詞.

    根據這個,有一個取巧的方法.

    我们在在度搜 " 的" 这个字,显示结果数 100,000,000个

    我们在百度搜  "python" 显示结果数为 58,400,000个

    我们在百度搜 "SEO前线" 显示结果为 300,000个

    百度的搜索结果就表示了一个词的 IDF 趋势.所以根据这个,我们可以来自己写一个公式,来计算 idf 值.
    发表于 2014-9-28 09:46:56
    回複 收藏
    ZERO,SEO執著愛好者    

    如果目的僅是提取文章tag且無很特殊的要求,jieba自帶的tag提取應該就可以。
    发表于 2014-9-28 10:06:08
    回複 收藏
    小五,請到個人資料頁面設置个人签名    

    思明 发表于 2014-9-28 09:46
    IDF(逆向词频)的一个原则是包含这个词的文档数越少,即它的值就越大,这个词就越能做为区分文档属性的关 ...

    首先,你這個思路一定是對的.
    但是鑒于成本問題,每個不出現的分詞都需要去搜索下,這個時間成本有點大.
    而且還需要消耗代理.
     樓主佳哥seo 发表于 2014-9-28 15:05:24
    回複 收藏
    小五,請到個人資料頁面設置个人签名    

    ZERO 发表于 2014-9-28 10:06
    如果目的僅是提取文章tag且無很特殊的要求,jieba自帶的tag提取應該就可以。 ...

    tag只是局部需求,根本目的是做好相關文章聚類
     樓主佳哥seo 发表于 2014-9-28 15:05:53
    回複 收藏
    刀心,前來膜拜各位大神    

    我寫了一篇(/post/1605)看看能用否。
    发表于 2016-3-11 14:15:15
    回複 收藏
    快速回複 返回頂部 返回列表