南昌莫非傳媒網絡營銷推廣一站式服務平臺

|  讓天下沒有難做的互聯網+

服務熱線:

0791-88196636

我們的主營項目:網站建設,網站開發,網站SEO優化,網絡推廣,網絡營銷,新聞營銷,微信朋友圈廣告,視頻營銷,口碑營銷,全網媒體營銷等等歡迎咨詢!

【網站設計】網站布局之TF-IDF算法

 二維碼 168407
發表時間:2013-08-22 10:39作者:南昌網站設計網址:http://www.fsdongda.com.cn/

【網站設計】網站布局之TF-IDF算法。

說白了在我理解來,這個算法就是通過一個的數學計算,來確定每個詞在文章中的權重,從而得到一篇文章的關于詞的帶權重的向量,知道了這個以后就好辦了,之后什么文章關鍵字提取、概述、不同的文章之前的相似性比較都引刃而解了。

求一個詞的權重就用到TF-IDF算法,其實TF-IDF算法是分為TF(Term Frequency,縮寫為TF)與IDF(Inverse Document Frequency,縮寫為IDF)的計算。

說起來也簡單,TF就是這個詞在文章中的詞頻,出現的次數比上文章的總次數或者出現次數高的詞的個數。而IDF則是表示TF-IDF算法分母上加一是為了防止分母為零。

這個數學的表達式也符合情理,如果關鍵字(除去“的”、“為了”之類的去除字)在越多的文檔中出現,它在本篇文章中的權重自然就低了,舉個簡單的例子:給你一個關鍵字計算機,你一點也不知道這貨表達的意思,因為(從這個算法角度講)它在太多的文章中出現,但是如果你的關鍵字為0day就不一樣了,包含它的文檔數遠遠小于包含關鍵字“計算機”的文檔數。由此,如果在同一篇文章里,如果“0day”與“計算機”的TF(詞頻)相同,IDF就可以保證“0day”的權重較高了。

基本的算法就是這樣了,其實很簡單,但是這個算法是基于這樣一個前提,關鍵詞越重要,出現的頻率越高。同時忽略了詞出現位置的影響,所以這個算法存在漏洞。

咨詢我們快同行一步
在這個好的時代,做快捷的生意獲精準客戶,時刻快人一步!
_______________________________________________________________________________________________________________________________________________________
服務熱線:0791-88196636
南昌莫非傳媒 - 自創立之初就本著“品牌創造價值、營銷鑄就
未來的服務發展理念,始終堅持誠信為本、客戶至上、有效
服務的原則,致力于為每一個企業客戶提供系統完整的網絡營
銷推廣解決方案,讓天下沒有難做的互聯網+
國內知名品牌,上市企業/大中小型企業,初創企業,行業龍頭企業
他們皆選擇了我們的產品(上千家企業的信賴)
地址:江西省南昌市西湖區洪城路6號國貿廣場A座巨豪峰
服務熱線: 0791-88196636            
郵箱  :  2401077293@qq.com
業務QQ  :  272482065                    售后QQ : 2401077293      
業務電話 :  13576039948
微信在線咨詢
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
无遮挡色视频真人免费