Robots.txt
Zac
Web360编辑
搜索引擎用来爬取网页内容的工具,我们称之为“搜索引擎机器人”。
Robot英文直译是“机器人”,在搜索引擎优化中,我们经常翻译为“探测器”。
不同的搜索引擎,给他们自己的探测器(Robot)起不同的名字。有时,你会碰到crawler(爬行器),spider(蜘蛛),都是探测器之一,只是叫法不同。
搜索引擎机器人每次来到要抓取的网站,都会先访问这个网站根目录下的一个文件(robots.txt),如果不存在该文件,则搜索引擎机器人,默认这个网站允许其全部抓取。
如何制作robots.txt文件?
打开你的文本编辑器,选择记事本(开始> 程序 >附件菜单)。切勿使用Word 文件,可以使用HTML编辑器来建立robots.txt文件,但要确保将它命名为txt文件,而不是HTML文件。注意robots.txt的命名,都是小写。
搜索引擎机器人通过robots.txt里的“说明”,理解该网站是否可以全部抓取或部分抓取。
按照以下格式输写robots.txt文件。
阻止所有蜘蛛抓取整个网站:
User-agent: *
Disallow: /
允许蜘蛛抓取网站的所有内容:
User-agent: *
Disallow:
阻止抓取某些目录:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /personal/
Disallow: /photos/staffchristmasparty/
阻止某些蜘蛛的抓取:
User-agent: Googlebot
Disallow: /
允许某种蜘蛛,而阻止其他蜘蛛抓取:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
注意事项:
- 每条命令必须换行。
- 空白行区分不同的指示(如最后一个例子)。
- User-agent后的“星号”有特殊的意义,不能用来作为通配符。如果要阻止抓取所有的gif图像,写成Disallow: *.gif是错误的。
- robots.txt的命名,都是小写。如果你希望搜索引擎,收录网站的全部网页,可以不设置robots.txt或上传一个命名为robots.txt的空记事本到根目录。上传你的robots.txt后,通过 你的域名/robots.txt 可以正常访问。
robots.txt与XML sitemap
如果你学习过我们前面,关于创建XML Sitemaps的课程,应该知道robots.txt文件,可以让搜索引擎快速收入网站地图。
你要在robots.txt文件的最后一行,粘贴下面这行代码:
Sitemap:
如果你有多个网站地图:
Sitemap:
Sitemap:
Sitemap:
所有的蜘蛛都重视的robots.txt文件吗?
搜索引擎Spider是非常有“礼貌”的,但是也有不“礼貌”的探测器,在互联网里肆意搜刮内容,并抓取电子邮件地址,添加到它的垃圾邮件列表中。它们并不在乎robots.txt文件,对此我们也无能为力。
robots.txt文件是可以公开访问的!
不要使用robots.txt隐藏网站内容,任何人输入www.yoursite.com/robots.txt都可以看到你不想公开的内容。
如果有些内容不希望别人看到,最好的选择是目录的密码保护。主机控制面板中的工具,可以帮你做到这一点。
课程总结
在这节课中,我们学习了robots.txt—它是什么,用于什么,以及如何创建。我们已经了解了可以用robots.txt做的一些事情,包括:
- 阻止整个网站的索引
- 阻止特定目录
- 阻止某些机器人
- 标识网站地图的位置