第一步:爬行
搜索引擎通過一個特定規(guī)則的軟件跟蹤網(wǎng)頁的鏈接,從一個鏈接爬到另一個鏈接,就像蜘蛛在蜘蛛網(wǎng)上爬行一樣,所以它被稱為蜘蛛,也被稱為機器人。搜索引擎蜘蛛的爬行輸入了一定的規(guī)則,需要遵循一些生命或文件。
第二步:抓取存儲
搜索引擎通過蜘蛛跟蹤鏈接爬行到網(wǎng)頁,并將爬行數(shù)據(jù)存儲到原始頁面數(shù)據(jù)庫中。頁面數(shù)據(jù)和用戶瀏覽器獲得的HTML完全一樣。搜索引擎蜘蛛在抓取頁面時也會做一些重復(fù)的內(nèi)容測試。一旦有大量的剽竊、收集或復(fù)制內(nèi)容在低重量的網(wǎng)站上,它很可能不會再爬行。
第三步:預(yù)處理
搜索引擎將蜘蛛抓取的頁面進(jìn)行各種步驟的預(yù)處理。
第四步:排名
用戶在搜索框中輸入關(guān)鍵字后,排名程序調(diào)用索引庫數(shù)據(jù),計算排名顯示給用戶,排名過程直接與用戶互動。然而,由于搜索引擎的大量數(shù)據(jù),雖然每天都有小的更新,但搜索引擎的排名規(guī)則通常是根據(jù)每天、每周和每月的不同范圍更新的。