目前搜索引擎作弊手段五花八門(mén)且層出不窮,作為應(yīng)對(duì)方的搜索引擎,也相應(yīng)調(diào)整技術(shù)思路,所以如果整理一下反作弊思路,則會(huì)發(fā)現(xiàn)技術(shù)方法很多,理清思路著實(shí)不易。盡管如此,如果對(duì)大多數(shù)反作弊思路深入分析,會(huì)發(fā)現(xiàn)整體思路上還是有規(guī)律可循。從基本思路角度看,可以將反作弊手段大致劃分為以下3種:信任傳播模型、不信任傳播模型和異常發(fā)現(xiàn)模型。
1、信任傳播模型:在海量的網(wǎng)頁(yè)數(shù)據(jù)中,通過(guò)一定的技術(shù)手段或人工半人工手段,從中篩選出部分完全值得信任的頁(yè)面(可以理解為我們?nèi)粘Kf(shuō)的白名單),算法以這些白名單內(nèi)的頁(yè)面作為出發(fā)點(diǎn),賦予白名單內(nèi)頁(yè)面節(jié)點(diǎn)較高的信任度分值,其他頁(yè)面是否作弊,要根據(jù)其與白名單內(nèi)節(jié)點(diǎn)鏈接關(guān)系來(lái)確定。白名單內(nèi)節(jié)點(diǎn)通過(guò)鏈接關(guān)系將信任度分值向外擴(kuò)散傳播,如果某個(gè)節(jié)點(diǎn)最后得到的信任度分值高于一定的值,則認(rèn)為沒(méi)有問(wèn)題,如果低于這個(gè)值則會(huì)被判為作弊。
2、不信任傳播模型:從大的技術(shù)框架來(lái)講,與信任傳播模型極其相似。最大的區(qū)別在于:初始頁(yè)面自己不是值得信任的頁(yè)面節(jié)點(diǎn),而是確認(rèn)存在作弊行為的頁(yè)面集合(即我們?nèi)粘Kf(shuō)的黑名單)。賦予黑名單內(nèi)頁(yè)面節(jié)點(diǎn)不信任分值,通過(guò)鏈接將這種不信任關(guān)系傳播出去,如果最后頁(yè)面節(jié)點(diǎn)的不信任分值大于設(shè)定的那個(gè)值,則被判為作弊。
3、而異常發(fā)現(xiàn)模型:簡(jiǎn)單的譬如分析網(wǎng)頁(yè)內(nèi)容來(lái)發(fā)現(xiàn)詞頻、鏈接等的異常,復(fù)雜點(diǎn)的像分析網(wǎng)站用戶行為異常等。異常發(fā)現(xiàn)模型往往和信任傳播模型和不信任傳播模型進(jìn)行組合處理。
事實(shí)上,純粹技術(shù)手段目前是無(wú)法徹底解決作弊的問(wèn)題,因此現(xiàn)在一般都是用戶在瀏覽搜索結(jié)果甚至是上網(wǎng)瀏覽時(shí)舉報(bào)作弊網(wǎng)頁(yè),搜索引擎公司內(nèi)部會(huì)有專(zhuān)門(mén)的團(tuán)隊(duì)來(lái)審核與主動(dòng)發(fā)現(xiàn)可疑頁(yè)面,經(jīng)過(guò)審核確認(rèn)的網(wǎng)頁(yè)則可以放入黑名單或者白名單當(dāng)中。綜上所述,必須將人工手段與技術(shù)手段相互結(jié)合,才能取得較好的反作弊效果。