各大spider/robot/蜘蛛列表和一个小经验

Category: /blog /website
Tags: website

列几个主要搜索引擎蜘蛛的字符串特征. 我注意Baidu的搜索次序和其它两个不太一样. Google和Yahoo都是先”/”然后是”/robots.txt”, Baidu是”/robots.txt”然后是”/”. 如果大家都照规矩来尊重robots.txt的话, 就没什么区别.

  • Google: “GET /robots.txt HTTP/1.1” 301 0 “-“ “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
  • Baidu: “GET / HTTP/1.1” 200 4087 “-“ “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
  • Yahoo: “GET /robots.txt HTTP/1.0” 301 0 “-“ “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”

小经验

如果有人象我这样同时用Nginx和Apache进行分级配置, 有一点值得注意. 我在log里看到这样的信息:

In nginx_access.log,
[28/Jun/2010:17:34:40 +0000] "GET /favicon.ico HTTP/1.1" 301 0 ... 
[28/Jun/2010:17:34:40 +0000] "GET /favicon.ico/ HTTP/1.1" 404 1179 ...

In apache2_access.log
[28/Jun/2010:17:34:40 +0000] "GET /favicon.ico HTTP/1.0" 301 ...
[28/Jun/2010:17:34:40 +0000] "GET /favicon.ico/ HTTP/1.0" 404 ...

“favicon.ico”和”robots.txt”本来是可有可无的东西, 但即便还没有做, 也就应该放一个空文件. 这样的话Nginx可以直接把空文件传回去交差了. 否则它会把这个request传给Apache. Apache会空忙一番, 最后还得传一个404错误文件. 这不折腾嘛. 咱的原则是“简单, 再简单一些”.

如果定义favicon.ico的话, nginx sample:

  location /favicon.ico {
        alias /path/to/your_folder/favicon.ico;
  }

如果不定义, 但不想让错误信息出现在log文件里,

  location = /favicon.ico {
      return 204;
      access_log     off;
      log_not_found  off;
  }

要不要做sitemap.xml? 至少从我的观察来看, google是看的, baidu就不管. 访问量小的时候, 大家都不看. 所以当网站刚起步时如果没有时间和精力做每个细节的话, sitemap.xml可以先放放.

没什么可多提的了. 有时候看spider一天来好几回也挺不好意思的. 哥没的给你吃啊, 您请回吧.

讨论

提示

  • 如果看不到讨论部分, 请暂时关掉adblock in Firefox/Chrome
  • 本网站使用Javascript实现评论功能, 此处外链对提高您的网站PR没有帮助. (潜台词: 请不要灌水, 谢谢)