服務(wù)器處理網(wǎng)頁(yè)
服務(wù)器處理是對(duì)蜘蛛抓取的網(wǎng)頁(yè)進(jìn)行處理,是提高搜索準(zhǔn)確度和用戶體驗(yàn)的重要節(jié),和爬行抓取相同,都是搜索引擎后臺(tái)處理的一部分。搜索引擎蜘蛛抓取的網(wǎng)頁(yè)數(shù)據(jù)是不能直接參與排名的。因?yàn)閿?shù)據(jù)過(guò)于龐大,如果直利用檢索器檢索,大量相關(guān)網(wǎng)頁(yè)的排名計(jì)算量非常大,根本不能在一兩秒內(nèi)提供給用戶案,所以搜索引擎會(huì)對(duì)抓取的網(wǎng)頁(yè)進(jìn)行預(yù)處理,得出關(guān)鍵詞的索引,相當(dāng)于對(duì)網(wǎng)頁(yè)上各關(guān)鍵詞進(jìn)行一個(gè)預(yù)排名,用戶檢索時(shí)就能更快地獲得搜索結(jié)果。服務(wù)器處理網(wǎng)頁(yè)的工作通常包括網(wǎng)頁(yè)結(jié)構(gòu)化、分詞、去噪去重、索引、超鏈分析、
據(jù)整合等,下面分別來(lái)介紹這些內(nèi)容。
1.網(wǎng)頁(yè)結(jié)構(gòu)優(yōu)化
提取網(wǎng)頁(yè)有用信息,去除HTML代碼及腳本,剩下的文字信息就是服務(wù)器需要分析處理的數(shù)據(jù)。
搜索引擎蜘蛛抓取到的網(wǎng)頁(yè)是整個(gè)網(wǎng)頁(yè)所有的信息都包含在其中,導(dǎo)航、分類(lèi)列表友情鏈接,甚至廣告都會(huì)被抓取到搜索引擎,這樣的內(nèi)容并不能直接用來(lái)進(jìn)行預(yù)排名處理所以搜索引擎會(huì)去除網(wǎng)頁(yè)的HTML代碼,剩下的文字內(nèi)容,如正文文字、Meta標(biāo)簽文字錨文本、圖片視頻注釋等,都可以進(jìn)行排名的處理,這樣對(duì)排名的干擾也就更小了。
<div class="headlinetop">
<a
blank">
<h3>蘋(píng)果全球十四大最著名零售店</h3>
<p>騰訊科技訊(云松)北京時(shí)間3月12日消息,據(jù)國(guó)外媒體報(bào)道,近日,全球著名雜志《福布斯》發(fā)布了蘋(píng)果公司在……</p></a></dlv>
以上代碼經(jīng)過(guò)服務(wù)器網(wǎng)頁(yè)結(jié)構(gòu)化后就剩下:“蘋(píng)果全球十四大最著名零售店 騰訊科技訊(云松)北京時(shí)間3月12日消息,據(jù)國(guó)外媒體報(bào)道,近日,全球著名雜志《福布斯》發(fā)布了蘋(píng)果公司在……”。
2.分詞
通常在中文搜索引擎中使用,由于中文和英文語(yǔ)系的意義表達(dá)不同,中文的意思表達(dá)一般是詞匯,有的一個(gè)字為一個(gè)詞匯,也可以多個(gè)字組成一個(gè)詞匯,而且中文詞匯之間是沒(méi)有間隔做區(qū)分的。因此在中文搜索引擎中,需要根據(jù)詞典或者日常使用習(xí)慣對(duì)語(yǔ)句按詞匯進(jìn)行劃分,以建立以詞匯為索引的信息數(shù)據(jù)庫(kù)。
例如,上面的網(wǎng)頁(yè)“蘋(píng)果全球十四大最著名零售店”,搜索引擎調(diào)用詞典分詞為“蘋(píng)果”“全球”“十四”“大”“最”“著名”“零售店”,然后根據(jù)一定的條件,建立由這些詞為索引的網(wǎng)頁(yè)數(shù)據(jù),再進(jìn)行一系列的排名程序。但在實(shí)際應(yīng)用中,不只會(huì)用詞典為依據(jù),還會(huì)加入日常搜索的統(tǒng)計(jì)數(shù)據(jù)和該網(wǎng)頁(yè)自身詞匯組成來(lái)分詞。
因?yàn)橹形脑~匯非常多,所以搜索引擎在判斷網(wǎng)頁(yè)詞匯的時(shí)候需要借用詞典進(jìn)行分詞,而搜索引擎分詞的準(zhǔn)確性取決于詞典的準(zhǔn)確性和完整性。主要搜索引擎都會(huì)建立獨(dú)立的詞典,這個(gè)詞典不是一成不變的,會(huì)不斷加人新詞匯,也會(huì)將常用的詞匯進(jìn)行靠前排列,在調(diào)用時(shí)也就更快捷。調(diào)用的過(guò)程就是將抓取到的網(wǎng)頁(yè)文字逐一按詞到詞典中去匹配,也就相當(dāng)于我們查詞典的過(guò)程。
需要注意的是服務(wù)器分詞的時(shí)候,用正向和逆向兩種順序掃描網(wǎng)頁(yè)中的文字,以詞典中含有的長(zhǎng)短詞對(duì)網(wǎng)頁(yè)文字進(jìn)行多次分詞。例如,“中國(guó)地圖”在按詞典分詞時(shí),服務(wù)器正向掃描分為“中國(guó)”“地圖”,這是最短的詞匯,如果按照最大匹配可以分為“中國(guó)地圖”,然后建立與詞對(duì)應(yīng)索引項(xiàng)。圖2.8和圖2.9所示為“中國(guó)地圖”百度分詞的兩種結(jié)果。
依據(jù)統(tǒng)計(jì)數(shù)據(jù)的分詞是對(duì)詞典分詞的一種補(bǔ)充和優(yōu)化。由于詞典對(duì)新詞的匹配度很低,搜索引擎不能很好地對(duì)新關(guān)鍵詞的網(wǎng)頁(yè)進(jìn)行分詞并建立索引,這就大大降低了搜索引擎搜索新關(guān)鍵詞的能力。作為對(duì)詞典分詞的補(bǔ)充,服務(wù)器能根據(jù)網(wǎng)頁(yè)中每個(gè)字的前后字出現(xiàn)頻率(頻率越高說(shuō)明這幾個(gè)字成詞)形成詞匯的統(tǒng)計(jì)數(shù)據(jù)庫(kù),分詞時(shí)調(diào)用并進(jìn)行匹配。例如,搜索“鞋子理論是什么”,由于習(xí)近平主席提出的“鞋子理論”近日受到廣泛關(guān)注,網(wǎng)頁(yè)中“鞋子理論”四個(gè)字出現(xiàn)在一起的頻率非常高,因此在統(tǒng)計(jì)數(shù)據(jù)庫(kù)中就形成了一個(gè)詞條,用以網(wǎng)頁(yè)分詞的匹配。圖2.10所示為“鞋子理論是什么”的百度分詞結(jié)果。
Baid百度快照
您查詞的關(guān)建詞是:鞋子理論是什么,如果打開(kāi)速度餒,司以雪試快過(guò)題,如需想保存快現(xiàn),(伍讀和問(wèn)面1信p/gock 591rx.c0m/ar1ce/2013-03-25/0000678650s 3mbrg0作通無(wú)關(guān),下時(shí)元內(nèi)可
圖2.10“鞋子理論是什么”百度分詞結(jié)果
值得注意的是每種搜索引擎分詞的結(jié)果并不完全相同,滿足用戶需求的能力也有所不同,這主要取決于搜索引擎的詞典的豐富程度與準(zhǔn)確度。因此網(wǎng)頁(yè)在不同搜索引擎的分詞結(jié)果并不完全相同,也是影響搜索結(jié)果的一個(gè)因素。SEO人員在針對(duì)分詞上所能做的就是盡量使常用搜索詞組合在一起,這樣在搜索引擎分詞時(shí)就可以將常用詞化為同一個(gè)詞建索引,也就能獲得更高的匹配度。
|