眾所周知,只有搜索引擎和搜索引擎蜘蛛捕獲并包含的頁面才能參與搜索結(jié)果排名的競爭。因此,如何建立網(wǎng)站與搜索引擎蜘蛛之間的關(guān)系是站長們最關(guān)心的問題
搜索引擎蜘蛛(也稱為網(wǎng)絡(luò)蜘蛛和網(wǎng)絡(luò)爬蟲)使用極其復(fù)雜的爬行策略在互聯(lián)網(wǎng)上盡可能多地遍歷網(wǎng)站,并在保證網(wǎng)站用戶體驗(yàn)不受影響的綜合考慮下,抓取更多有價(jià)值的資源。每個(gè)主要的搜索引擎每天都會發(fā)送大量蜘蛛。起點(diǎn)通常是高權(quán)重的網(wǎng)站或訪問量大的服務(wù)器
搜索引擎蜘蛛會沿著內(nèi)外鏈入口訪問更多網(wǎng)頁,并將網(wǎng)頁信息存儲在數(shù)據(jù)庫中。就像圖書館一樣,對不同的書籍進(jìn)行分類和分類,最后對它們進(jìn)行壓縮和加密,使它們能夠閱讀,并將它們放在硬盤上供搜索用戶使用。我們搜索的互聯(lián)網(wǎng)就是這個(gè)數(shù)據(jù)庫
從搜索弓和引擎蜘蛛抓取的原理來看,SEO站長如果想培養(yǎng)蜘蛛定期抓取網(wǎng)站,應(yīng)該做以下三件事:
1、定期更新高質(zhì)量網(wǎng)站文章的內(nèi)容
首先,搜索引擎蜘蛛喜歡抓取定期更新的網(wǎng)站。從某種意義上說,網(wǎng)站的更新頻率與捕獲頻率成正比。即使在網(wǎng)站的早期階段沒有蜘蛛抓取文章,也應(yīng)該定期更新。通過這種方式,蜘蛛將獲取并統(tǒng)計(jì)網(wǎng)站的更新規(guī)則,并定期捕獲新內(nèi)容,這樣網(wǎng)站文章在更新后可以盡快被捕獲
其次,原創(chuàng)度和新鮮度高的文章內(nèi)容更容易被蜘蛛捕獲和收錄。如果網(wǎng)站中存在大量重復(fù)內(nèi)容,會讓蜘蛛覺得爬行太多是沒有意義的,會讓搜索引擎質(zhì)疑網(wǎng)站的質(zhì)量,甚至導(dǎo)致懲罰&;ldquo;新鮮和;rdquo;它主要指內(nèi)容的受歡迎程度和有效性,以及最近的;amp;rdquo;、熱的[doorevents”相對容易被用戶注意到并被蜘蛛捕捉到
除上述兩點(diǎn)外,關(guān)鍵字的分布也對蜘蛛抓取有重要影響。因?yàn)?strong>搜索引擎區(qū)分頁面內(nèi)容的重要因素之一是關(guān)鍵字,但過多的關(guān)鍵字會被視為“欺騙”行為,所以關(guān)鍵詞的分布密度應(yīng)控制在2%-8%左右
確保服務(wù)器工作穩(wěn)定
服務(wù)器的穩(wěn)定性不僅與網(wǎng)站的用戶體驗(yàn)有關(guān),而且對蜘蛛的爬行也有很大影響。站長應(yīng)定期檢查服務(wù)器狀態(tài),查看網(wǎng)站日志,檢查是否有500個(gè)狀態(tài)碼等標(biāo)記,及時(shí)發(fā)現(xiàn)隱患
如果網(wǎng)站遭遇黑客攻擊、誤刪除服務(wù)器網(wǎng)站、服務(wù)器硬件癱瘓等問題,停機(jī)時(shí)間超過12小時(shí),立即開啟百度站長平臺的關(guān)機(jī)保護(hù)功能,防止百度誤認(rèn)為網(wǎng)站存在大量無效、死鏈頁面,網(wǎng)站和服務(wù)器需要及時(shí)修復(fù)
長期不穩(wěn)定的服務(wù)器會導(dǎo)致蜘蛛無法有效抓取頁面,降低搜索引擎的友好度,導(dǎo)致收集和排名下降。因此,網(wǎng)站必須選擇性能穩(wěn)定的服務(wù)器
優(yōu)化網(wǎng)站結(jié)構(gòu)
如果網(wǎng)站內(nèi)容好,但頁面少,大部分是因?yàn)轫撁娓緵]有被蜘蛛抓取。此時(shí),網(wǎng)站應(yīng)進(jìn)行全面測試,主要包括機(jī)器人文件、頁面級別、代碼結(jié)構(gòu)、網(wǎng)站鏈接等
1。Robots文件,全名&;ldquo;網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)&;rdquo;(RobotsExclusionProtocol)。該網(wǎng)站可以通過robotsprotocol
2告訴蜘蛛哪些頁面可以爬網(wǎng),哪些頁面不能爬網(wǎng)。頁面層次結(jié)構(gòu)體現(xiàn)在很多方面,比如網(wǎng)站的物理層次結(jié)構(gòu)和邏輯層次結(jié)構(gòu)。以邏輯層次URL結(jié)構(gòu)為例,靜態(tài)URL以其存儲方便、層次短、長度適中而受到搜索引擎蜘蛛的喜愛。URL結(jié)構(gòu)(標(biāo)記為“/”),一般不應(yīng)超過4層。結(jié)構(gòu)過于復(fù)雜,不利于搜索引擎的收集,也會影響用戶體驗(yàn)
3。網(wǎng)站代碼類別和結(jié)構(gòu)也會影響網(wǎng)頁是否被蜘蛛抓取。例如,iframe、JavaScript等代碼無法被百度搜索引擎蜘蛛有效理解和捕獲,因此我們需要盡量減少此類代碼的使用。此外,過多的代碼也會導(dǎo)致爬行器不完全爬行
4。網(wǎng)站鏈接是&;用于在頁面之間傳遞權(quán)重;ldquo;&;入口rdquo;,鏈接的數(shù)量和質(zhì)量直接影響爬行器能否捕獲和包含頁面。低質(zhì)量鏈接的堆積只會給網(wǎng)站帶來毀滅性的災(zāi)難,及時(shí)消除錯(cuò)誤鏈接和死鏈接,減少蜘蛛捕捉死鏈接的時(shí)間。盡量從正式和相關(guān)的網(wǎng)站獲得更多的反向鏈接,以提高網(wǎng)站的權(quán)重
此外,網(wǎng)站還可以為蜘蛛提供一些快捷渠道,如網(wǎng)站地圖-結(jié)構(gòu)清晰的網(wǎng)站地圖可以讓搜索引擎蜘蛛清楚地了解網(wǎng)站結(jié)構(gòu),從而通過高質(zhì)量的內(nèi)容更新
順利捕獲整個(gè)網(wǎng)站頁面,高質(zhì)量的鏈接交換和合理的網(wǎng)站結(jié)構(gòu),搜索引擎蜘蛛可以更好地理解網(wǎng)站并抓取網(wǎng)站頁面。然而,我們不能發(fā)布一些與網(wǎng)站內(nèi)容無關(guān)的頁面,或過度優(yōu)化網(wǎng)站,以吸引弓和蜘蛛。因?yàn)橹挥姓嬲眯娜プ霾⑶夷芙o用戶帶來價(jià)值的網(wǎng)站才能被搜索引擎和用戶喜歡。