寶雞網(wǎng)站建設(shè)公司
搜索引擎建立自然搜索引擎庫
迄今為止,蜘蛛程序已經(jīng)爬過了網(wǎng)頁,搜索引擎已經(jīng)分析了網(wǎng)頁的標記和文本。下一步是創(chuàng)建搜索索引庫,一個特別設(shè)計的
數(shù)據(jù)庫,搜索引擎用它來為任何搜索請求快速查找匹配的網(wǎng)頁。
一個搜索引擎“想起”什么詞在哪個網(wǎng)頁,是通過把詞和網(wǎng)頁存儲在搜索索引庫中。
在最簡單情況下,一個搜索索引庫有一個含有每一個詞的記錄,跟著是含有這個詞的所有網(wǎng)頁的列表。因此,當在Google搜
索“青光眼”的時候,Ooogle搜索引擎查看它的索引庫,先找到“青光眼”的記錄,再找到網(wǎng)頁的列表。
當一個搜索引擎正在創(chuàng)建搜索索引庫,它檢查蜘蛛程序發(fā)現(xiàn)的每個網(wǎng)頁中那些獨特的詞,檢查每一個詞是否已在索引庫中存
有記錄。如果有記錄,就在記錄的末尾加上這個網(wǎng)頁的研址(URL)。如果沒有記錄,那么一個包含有那個網(wǎng)址的新記錄控創(chuàng)建。
現(xiàn)在,實際的地址會占據(jù)索引庫的大量空間,因此搜索引擎將每個網(wǎng)址轉(zhuǎn)換成一個獨特的數(shù)字,也存儲在索引庫中。
搜索引擎額外地儲存關(guān)于每個頁面的元數(shù)據(jù)(metadata).用以顯示搜索結(jié)果。因此,它存儲了網(wǎng)址,標題,和任何必要的信
息摘要(能夠顯示出哪里找到的搜索項)。這樣,當這條記錄需要被顯示為搜索結(jié)果的時候,所有的信息已經(jīng)在其索引中了。