《搜索引擎頁面去重算法分析之I-Match算法》文章已經(jīng)歸檔,站長之家不再展示相關內(nèi)容,下文是站長之家的自動化寫作機器人,通過算法提取的文章重點內(nèi)容。這只AI還很年輕,歡迎聯(lián)系我們幫它成長:
互聯(lián)網(wǎng)中存在了大量的重復頁面,據(jù)統(tǒng)計表明近似重復頁面的數(shù)量占據(jù)網(wǎng)站總數(shù)量的29%,而完全重復頁面占據(jù)了22%...
對于I-Match算法來說主要是根據(jù)大規(guī)模的文本集合進行統(tǒng)計,對于文本中出現(xiàn)的所有單詞,按照單詞的IDF(逆文本詞頻因子)來進行由高到低的排序,除去得分最高和得分最低的單詞,保留剩下的單詞最為特征詞典...
獲得全局特征詞典之后,對需要去重的頁面,掃描下就能獲得該頁面上出現(xiàn)的所有單詞,對于這些單詞根據(jù)特征詞典過濾:保留在特征詞典上出現(xiàn)的單詞,用來表達文檔的主要內(nèi)容,刪除沒有在特征詞典中出現(xiàn)的內(nèi)容...
2.穩(wěn)定性不好,對文檔修改敏感...
原算法對文檔的改變非常敏感,主要是因為對單一特征詞典的過度依賴,改進后的I-Match就是減少對特征詞典的依賴性...
......
本文由站長之家用戶“youzu.com”投稿,本平臺僅提供信息索引服務。由于內(nèi)容發(fā)布時間超過平臺更新維護時間,為了保證文章信息的及時性,內(nèi)容觀點的準確性,平臺將不提供完整的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺搜索索引使用。需閱讀完整內(nèi)容的用戶,請聯(lián)系作者獲取原文。
(舉報)