當前位置:趣味科普網>經驗>

怎樣查文章的抄襲

經驗 閱讀(2.98W)

怎樣查文章的抄襲

1、相似度是搜尋引擎去重用的最多的演算法,用的比較多的一種是TF除以IDF演算法,這個也是計算相關性的演算法,TF和IDF的主要意思是說如果某個詞或短語在一篇文章中出現的頻率高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類;

2、資料指紋,當搜尋引擎通過相似度把文章收集起來後,要判別一下是否是重複文章,經常用的就是資料指紋,資料指紋有很多種演算法,常見的比如講文章的標點符號提出,進行對比,你很難想象有兩篇不同的文章,標點符合是一致的。還有對向量進行對比,也就是