寶雞網站建設公司
搜索引擎工作原理–預處理 - 提取文字
時間:2012-03-29 15:10
次來源:未知
搜索引擎工作原理 – 預處理 -- 提取文字
在我們過去說讀的一些關于SEO優(yōu)化的書中,把“預處理”也簡稱為“索引”,因為索引時預處理最主要的步驟。
搜索蜘蛛抓取原始頁面,并不能直接用于查詢排名處理。搜索引擎數據庫中的頁面數都在數萬億級別上,用戶輸入搜索詞后,如果靠排名程序對這么多頁面進行分析計算。計算量太大。不可能在一兩秒內返回結果。因此抓取來的頁面必須經過預處理,存入數據庫,為后面查詢排名做準備。
爬行和抓取一樣,預處理也是在后臺提前完成的,用戶搜索時感覺不到這個過程。
現在的搜索引擎還是以文字內容為基礎。蜘蛛抓取HTML頁面中的代碼,除了用戶在瀏覽器可以看到的文字之外,還包含了大量的HTML格式標簽、JavaScript程序等無法用于排名的內容,搜索引擎預處理首先要做的就是從HTML文件中去除標簽、程序。提取可以用于排名的網頁頁面文字內容。
除了可見文字之外,搜索引擎也會提取一些特殊的包含文字信息的代碼,如Mate標簽中的文字、如片替代文字、Flash文件的替代文字、鏈接錨文字。
在我們過去說讀的一些關于SEO優(yōu)化的書中,把“預處理”也簡稱為“索引”,因為索引時預處理最主要的步驟。
搜索蜘蛛抓取原始頁面,并不能直接用于查詢排名處理。搜索引擎數據庫中的頁面數都在數萬億級別上,用戶輸入搜索詞后,如果靠排名程序對這么多頁面進行分析計算。計算量太大。不可能在一兩秒內返回結果。因此抓取來的頁面必須經過預處理,存入數據庫,為后面查詢排名做準備。
爬行和抓取一樣,預處理也是在后臺提前完成的,用戶搜索時感覺不到這個過程。
現在的搜索引擎還是以文字內容為基礎。蜘蛛抓取HTML頁面中的代碼,除了用戶在瀏覽器可以看到的文字之外,還包含了大量的HTML格式標簽、JavaScript程序等無法用于排名的內容,搜索引擎預處理首先要做的就是從HTML文件中去除標簽、程序。提取可以用于排名的網頁頁面文字內容。
除了可見文字之外,搜索引擎也會提取一些特殊的包含文字信息的代碼,如Mate標簽中的文字、如片替代文字、Flash文件的替代文字、鏈接錨文字。