搜索引擎工作原理–預處理 - 提取文字

時間：2012-03-29 15:10 次來源：未知

搜索引擎工作原理 – 預處理 -- 提取文字

在我們過去說讀的一些關于SEO優(yōu)化的書中，把“預處理”也簡稱為“索引”，因為索引時預處理最主要的步驟。

搜索蜘蛛抓取原始頁面，并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫中的頁面數(shù)都在數(shù)萬億級別上,用戶輸入搜索詞后，如果靠排名程序?qū)︖@么多頁面進行分析計算。計算量太大。不可能在一兩秒內(nèi)返回結(jié)果。因此抓取來的頁面必須經(jīng)過預處理，存入數(shù)據(jù)庫，為后面查詢排名做準備。

爬行和抓取一樣，預處理也是在后臺提前完成的，用戶搜索時感覺不到這個過程。

現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎。蜘蛛抓取HTML頁面中的代碼，除了用戶在瀏覽器可以看到的文字之外，還包含了大量的HTML格式標簽、JavaScript程序等無法用于排名的內(nèi)容，搜索引擎預處理首先要做的就是從HTML文件中去除標簽、程序。提取可以用于排名的網(wǎng)頁頁面文字內(nèi)容。

除了可見文字之外，搜索引擎也會提取一些特殊的包含文字信息的代碼，如Mate標簽中的文字、如片替代文字、Flash文件的替代文字、鏈接錨文字。

寶雞網(wǎng)站建設公司

0917 3876090

搜索引擎工作原理–預處理 - 提取文字