降噪去重
去除影響網(wǎng)頁主要信息的無意義以及重復(fù)的內(nèi)容。由于網(wǎng)頁信息中通常含有較多的重復(fù)內(nèi)容,如廣告、頭部和底部信息等;以及文字內(nèi)容中無意義的符號、字詞等,這極大浪費(fèi)了搜索引擎資源,所以服務(wù)器會去除網(wǎng)頁中這些無意義的內(nèi)容。
在以文字為主的網(wǎng)頁中,很多無意義的文字,如“的”“了”“啊”“of”“a”“the”等這些字占了大量的篇幅,但是卻幾乎沒有人會搜索這些字詞。
搜索引擎為了降低無意義內(nèi)容干擾,會去除這些內(nèi)容,就是這些內(nèi)容不會作為網(wǎng)頁關(guān)鍵詞建立索引。
互聯(lián)網(wǎng)資源龐大,網(wǎng)站之間相互轉(zhuǎn)載內(nèi)容,所以會產(chǎn)生很多重復(fù)內(nèi)容;在相同網(wǎng)站中相同的模板,讓很多網(wǎng)頁中含有相同的內(nèi)容,有的甚至占據(jù)了大量的篇幅。所以搜索引象在爬行網(wǎng)頁后,會檢測是否是重復(fù)網(wǎng)頁,如果是通常不會收錄;而相同網(wǎng)站中也有較多網(wǎng)頁含有重復(fù)的內(nèi)容,如相同的列表、廣告、版權(quán)說明等。搜索引擎對于這些網(wǎng)頁的做法就是篩選,將抓取的內(nèi)容與數(shù)據(jù)庫中的內(nèi)容進(jìn)行對比,如果相似度太高會不予收錄,或去除相同的部分進(jìn)行收錄。
但是由于互聯(lián)網(wǎng)中的網(wǎng)頁數(shù)量十分龐大,搜索引擎并不能對每個(gè)網(wǎng)頁進(jìn)行全面的檢測,另外很多內(nèi)容是允許轉(zhuǎn)載的,因此用戶仍能搜索到很多相同的結(jié)果。但是對網(wǎng)頁的降噪是必須的流程,不僅可以減少資源浪費(fèi),還可以提高排名的準(zhǔn)確性。
|