搜索引擎蜘蛛(Search engine spider)在搜索引擎系統(tǒng)中也稱為“蜘蛛”或“機器人”,是一種用于抓取和訪問頁面的程序。
今天小課堂網(wǎng)給大家?guī)硭阉饕嬷┲肴绾巫ト№撁娴慕坛?。希望對大家有幫助?/p>
一、搜索引擎蜘蛛介紹
搜索引擎蜘蛛(Search engine spider)在搜索引擎系統(tǒng)中也稱為“蜘蛛”或“機器人”,是一種用于抓取和訪問頁面的程序。
①爬行原理
搜索引擎蜘蛛訪問網(wǎng)頁的過程就像用戶使用的瀏覽器一樣。
搜索引擎蜘蛛向頁面發(fā)送訪問請求,頁面的服務(wù)器返回頁面的HTML代碼。
搜索引擎蜘蛛將接收到的HTML代碼存儲到搜索引擎的原始頁面數(shù)據(jù)庫中。
②怎么爬?
為了提高搜索引擎蜘蛛的工作效率,通常會有多個蜘蛛分布并發(fā)爬行。
同時,分布式抓取又可以分為深度優(yōu)先和廣度優(yōu)先兩種模式。
優(yōu)先級:沿著發(fā)現(xiàn)的鏈接爬行,直到?jīng)]有鏈接。
廣度優(yōu)先:爬完這個頁面的所有鏈接后,繼續(xù)沿著第二層頁面爬。
(3)蜘蛛必須遵守協(xié)議。
搜索引擎蜘蛛在訪問網(wǎng)站之前,總是會先訪問網(wǎng)站根目錄下的robots.txt文件。
搜索引擎蜘蛛不會抓取robots.txt文件中禁止抓取的文件或目錄。
④常見的搜索引擎蜘蛛
Baiduspider:百度蜘蛛
谷歌:谷歌機器人
蜘蛛:蜘蛛
搜搜蜘蛛:搜搜蜘蛛
有一只蜘蛛:優(yōu)道機器人,優(yōu)道機器人
搜狗蜘蛛:搜狗新聞蜘蛛
冰:冰機器人
Alexa Spider: ia_archiver
第二,如何吸引更多的搜索引擎蜘蛛
隨著互聯(lián)網(wǎng)信息的爆炸,搜索引擎蜘蛛不可能抓取所有網(wǎng)站的所有鏈接,所以如何吸引更多的搜索引擎蜘蛛來抓取我們的網(wǎng)站就變得非常重要。
①導(dǎo)入鏈接
不管是外部鏈接還是內(nèi)部鏈接,只有導(dǎo)入了,搜索引擎蜘蛛才能知道頁面的存在。所以多做外鏈建設(shè),有助于吸引更多蜘蛛訪問。
②頁面更新頻率
頁面更新頻率越高,搜索引擎蜘蛛訪問的次數(shù)就越多。
③網(wǎng)站和頁面權(quán)重
整個網(wǎng)站的權(quán)重和某個頁面(包括首頁也是頁面)的權(quán)重影響蜘蛛的訪問頻率。權(quán)重高、權(quán)威性強的網(wǎng)站一般會增加搜索引擎蜘蛛的好感度。
④與主頁的距離
首頁>一級目錄>:二級目錄>:三級目錄>:四級目錄…顯然目錄越深,蜘蛛訪問的機會和次數(shù)越少,因為外鏈一般都指向首頁,首頁再往下爬,只會越來越少。
給大家的建議是:做外鏈的時候,不要只做首頁的外鏈,偶爾做欄目和聚合頁面的外鏈,還是不錯的~
有時候,當(dāng)網(wǎng)址很短的時候,蜘蛛可能也會感覺到這個鏈接的分量。所以最好只做一級欄目,然后是文章頁面。
第三,搜索引擎蜘蛛地址庫
搜索引擎蜘蛛有專門的地址庫來存儲已經(jīng)找到的網(wǎng)址(被抓取和無人認領(lǐng)的網(wǎng)址都算,只要找到了),這樣就不會出現(xiàn)頁面的重復(fù)抓取和抓取。
①地址庫的URL來源
新的URL在蜘蛛抓取的頁面中找到;
網(wǎng)址;由站長在后臺獨立提交;
網(wǎng)址;在后臺站長提交的XML地圖中;
網(wǎng)站URL后臺站長提交;
②對于未被抓取的網(wǎng)址
對于沒有爬取過的網(wǎng)址,無論如何獲取,即使是被搜索引擎蜘蛛自己發(fā)現(xiàn),也會先放入地址庫,然后統(tǒng)一爬取。
第四,頁面數(shù)據(jù)存儲
搜索引擎蜘蛛抓取的頁面數(shù)據(jù)會存儲在搜索引擎的原始頁面數(shù)據(jù)庫中。其實可以理解為快照中看到的頁面數(shù)據(jù),和用戶看到的一樣。每個頁面的URL地址都有一個唯一的編號。
第五,復(fù)制內(nèi)容檢測
在抓取的過程中,搜索引擎蜘蛛會對復(fù)制的內(nèi)容進行一定程度的檢測。如果一個低權(quán)重的網(wǎng)站發(fā)現(xiàn)大量轉(zhuǎn)載或復(fù)制的內(nèi)容,可能會停止抓取,這些頁面可能不會被抓取或收錄。
但是并不是說網(wǎng)站就不能轉(zhuǎn)載,像一些權(quán)重高的平臺,即使轉(zhuǎn)載了一條舊新聞,也可以很好,因為搜索引擎蜘蛛可能認為即使是舊新聞也可能是高質(zhì)量的。
作者:徐州百都網(wǎng)絡(luò) | 來源: | 發(fā)布于:2022-03-27 00:25:15