信息资讯

通过搜索引擎蜘蛛访问日志来看蜘蛛访问网站规律

加载中
信息来源:北京艾多尼 www.bjadn.cn     关键词:
  为了更好的观察网站被蜘蛛爬行的规律,我租用的服务器又没有提供访问日志,不得已,花了不少时间编写了一个基于PHP的专门分析蜘蛛爬行纪录的程序,经过三个月的对几个目标网站的观察,得出以下几个小经验给大家分

  为了更好的观察网站被蜘蛛爬行的规律,我租用的服务器又没有提供访问日志,不得已,花了不少时间编写了一个基于PHP的专门分析蜘蛛爬行纪录的程序,经过三个月的对几个目标网站的观察,得出以下几个小经验给大家分享,当然,因研究有限,肯定有不足的或错误的地方,请大家不要向我扔砖头啊。

  一、百度蜘蛛

  这期间我上了两个新网站,发现,百度蜘蛛一般一到三天就可以爬行到首页,开始更新很猛,大约会持续两天到一个星期,三天后就可以在百度中site到首页,虽然百度蜘蛛爬行了上万个页面,但往往只会收录几个页面,两个星期之后,百度将每天只抓取一两次首页,其它页面很少抓取,这个过程会持续一段时间,长的是几个月,短的几天。但百度在这段时间里收录量会有所增加。这段时间 可能是考察期吧。在这段时间里,我的一个站被百度K了,蜘蛛也就不来了。过了这个时间段后,百度蜘蛛访问将趋于稳定,我有两个站百度每天都只来抓取200到300次,收录量变化不大。而我另一个站 shop.hhbmw.com 可能因为外链较多,百度蜘蛛来得相对较勤,近一个月来,每天来访2万到8万次左右,波动比较大,不过,site一下,百度收录量并不高,这可能要到下次百度大更新时才能反应结果。

  百度蜘蛛访问目标网页时,会把URL中的汉字编码字符转换成汉字,这样就会出现一个问题了,如果主机对中文URL支持不好,可能会影响百度的收录。

  百度蜘蛛访问某个站点时,其访问也有一定的规律,不少都是按汉字的音序来访问的。

  二、谷歌蜘蛛

  谷歌蜘蛛对新网站发现的速度很快,但收录相对平稳,每天的抓取的页面数也比较稳定,PR越高,外链越多的网站更新越快。反之,GOOGLE PR低的网站更新较慢。

  三、搜捭、搜狗、有道蜘蛛

  更新比较快,但不太稳定,每天的访问波动也比较大,比百度更难捉摸,我有个站被搜搜和搜狗都K得只剩首页了。

  四、雅虎、MSN

  雅虎的更新快,但收录少,MSN的更新极慢。

  对于robots.txt的支持,百度、谷歌、搜捭、搜狗、雅虎、MSN等的蜘蛛支持度比较好,对robots的Crawl-delay 语法也能很好的支持。

  而有道蜘蛛基本上不理会robots.txt 的Crawl-delay 语法。

本文由北京网站制作首选品牌北京艾多尼(www.bjadn.cn)原创编辑,转发请注明来源及版权归属。
原文分享地址::/news/zixun/2592.html
所属分类: 建站行业资讯  添加时间:2015-03-01  浏览:人次