【百度官方說(shuō)明】百度蜘蛛抓取流量暴增的原因

時間：2016-09-13 點擊量：368 關鍵詞：抓取 IP 百度蜘蛛 Baiduspider 判斷命令 ip 來(lái)自(zì) .baidu.jp 站長

Spider對網站抓取數量突增往往給站點帶來(lái)很大(dà)煩惱，紛紛找平台想要Baiduspider IP白(bái)名單，但(dàn)實際上BaiduSpider IP會随時變化，所以并不敢公布出來(lái)，擔心站長設置不及時影(yǐng)響抓取效果。百度是怎麽計算分(fēn)配抓取流量的呢(ne)？站點抓取流量暴增的原因有哪些呢(ne)？

總體(tǐ)來(lái)說(shuō)，Baiduspider會根據站點規模、曆史上網站每天新産出的鏈接數量、已抓取網頁的綜合質量打分(fēn)等等，來(lái)綜合計算抓取流量，同時兼顧站長在抓取頻次工(gōng)具裡(lǐ)設置的、網站可(kě)承受的最大(dà)抓取值。

從(cóng)目前追查過的抓取流量突增的case中，原因可(kě)以分(fēn)爲以下幾種：

1， Baiduspider發現站内JS代碼較多，調用大(dà)量資源針對JS代碼進行解析抓取
2，百度其他(tā)部門(mén)（如(rú)商業、圖片等）的spider在抓取，但(dàn)流量沒有控制好
3，已抓取的鏈接，打分(fēn)不夠好，垃圾過多，導緻spider重新抓取
4，站點被攻擊，有人(rén)仿冒百度爬蟲（見(jiàn)下文關于BaiduSpider）

如(rú)果站長排除了自(zì)身(shēn)問(wèn)題、仿冒問(wèn)題，确認BaiduSpider抓取流量過大(dà)的話(huà)，可(kě)以通過百度的反饋中心（http://zhanzhang.baidu.com/feedback）反饋，注：一定要提供詳細的抓取日(rì)志截圖。

關于BaiduSpider

如(rú)何正确識别Baiduspider移動ua

新版移動ua:

Mozilla/5.0 (Linux;u;Android4.2.2;zh-cn;)

AppleWebKit/534.46 (KHTML,like Gecko)

Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

PC ua:Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html）

之前通過“+http://www.baidu.com/search/spider.html”進行識别的網站請(qǐng)注意！需要修改識别方式，新的正确的識别Baiduspider移動ua的方法如(rú)下：　　

1. 通過關鍵詞“Android”或者“Mobile”來(lái)進行識别，判斷爲移動訪問(wèn)或者抓取。　　
2. 通過關鍵詞“Baiduspider/2.0”,判斷爲百度爬蟲。

另外需要強調的是，對于robots封禁，如(rú)果封禁的agent是Baiduspider，會對PC和移動同時生(shēng)效。即，無論是PC還(hái)是移動Baiduspider，都(dōu)不會對封禁對象進行抓取。之所以要強調這一點，是發現有些代碼适配站點（同一個url，PC ua打開的時候是PC頁，移動ua打開的時候是移動頁），想通過設置robots的agent封禁達到隻讓移動Baiduspider抓取的目的，但(dàn)由于PC和移動Baiduspider的agent都(dōu)是Baiduspider,這種方法是非常不可(kě)取的。

如(rú)何識别百度蜘蛛

百度蜘蛛對于站長來(lái)說(shuō)可(kě)謂上賓，可(kě)是也有站長會發出這樣的疑問(wèn)：

我們如(rú)何判斷瘋狂抓我們網站内容的蜘蛛是不是百度的？

其實站長可(kě)以通過DNS反查IP的方式判斷某隻spider是否來(lái)自(zì)百度搜索引擎。根據平台不同驗證方法不同，如(rú)linux/windows/os三種平台下的驗證方法分(fēn)别如(rú)下：

1、在linux平台下，可(kě)以使用hostip命令反解ip來(lái)判斷是否來(lái)自(zì)Baiduspider的抓取。Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名，非*.baidu.com或*.baidu.jp即爲冒充。

2、在windows平台或者IBMOS/2平台下，可(kě)以使用nslookupip命令反解ip來(lái)判斷是否來(lái)自(zì)Baiduspider的抓取。打開命令處理(lǐ)器輸入nslookupxxx.xxx.xxx.xxx（IP地址）就(jiù)能解析ip，來(lái)判斷是否來(lái)自(zì)Baiduspider的抓取，Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名，非*.baidu.com或*.baidu.jp即爲冒充。

3、在macos平台下，您可(kě)以使用dig命令反解ip來(lái)判斷是否來(lái)自(zì)Baiduspider的抓取。打開命令處理(lǐ)器輸入digxxx.xxx.xxx.xxx（IP地址）就(jiù)能解析ip，來(lái)判斷是否來(lái)自(zì)Baiduspider的抓取，Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名，非*.baidu.com或*.baidu.jp即爲冒充。

Baiduspider IP是多少

即便很多站長知道了如(rú)何判斷百度蜘蛛，仍然會不斷地問(wèn)“百度蜘蛛IP是多少”。并想将百度蜘蛛所在IP加入白(bái)名單，隻準白(bái)名單下IP對網站進行抓取，避免被采集等行爲。

百度方面表示，不建議(yì)站長這樣做。雖然百度蜘蛛的确有一個IP池，真實IP在這個IP池内切換，但(dàn)無法保證這個IP池整體(tǐ)不會發生(shēng)變化。所以，建議(yì)站長勤看(kàn)日(rì)志，發現惡意蜘蛛後放(fàng)入黑(hēi)名單，以保證百度的正常抓取。

同時，百度方面還(hái)強調：通過IP來(lái)分(fēn)辨百度蜘蛛的屬性是非常可(kě)笑(xiào)的事(shì)情，所謂的“沙盒蜘蛛”“降權蜘蛛”等等是從(cóng)來(lái)都(dōu)不存在的。

文章(zhāng)内容及圖片來(lái)自(zì)網絡，如(rú)果侵權，請(qǐng)聯系：901070669@qq.com，我們将及時處理(lǐ)；

推薦解決方案

熱(rè)門(mén)解決方案