Robots.txt

告诉搜索引擎哪些网页需要收录
Picture of Zac
Zac

Web360编辑

上次更新时间:2021年9月22日

搜索引擎用来爬取网页内容的工具,我们称之为搜索引擎机器人

Robot英文直译是机器人,在搜索引擎优化中,我们经常翻译为探测器

不同的搜索引擎,给他们自己的探测器(Robot)起不同的名字。有时,你会碰到crawler(爬行器),spider(蜘蛛),都是探测器之一,只是叫法不同。

搜索引擎机器人每次来到要抓取的网站,都会先访问这个网站根目录下的一个文件(robots.txt),如果不存在该文件,则搜索引擎机器人,默认这个网站允许其全部抓取。

如何制作robots.txt文件?

打开你的文本编辑器,选择记事本(开始> 程序 >附件菜单)。切勿使用Word 文件,可以使用HTML编辑器来建立robots.txt文件,但要确保将它命名为txt文件,而不是HTML文件。注意robots.txt的命名,都是小写。

搜索引擎机器人通过robots.txt里的说明,理解该网站是否可以全部抓取或部分抓取。

按照以下格式输写robots.txt文件。

阻止所有蜘蛛抓取整个网站:

				
					User-agent: *
Disallow: /
				
			

允许蜘蛛抓取网站的所有内容:

				
					User-agent: *
Disallow:
				
			

阻止抓取某些目录:

				
					User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /personal/
Disallow: /photos/staffchristmasparty/
				
			

阻止某些蜘蛛的抓取:

				
					User-agent: Googlebot
Disallow: /
				
			

允许某种蜘蛛,而阻止其他蜘蛛抓取:

				
					User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

				
			

注意事项:

  • 每条命令必须换行。
  • 空白行区分不同的指示(如最后一个例子)。
  • User-agent后的星号有特殊的意义,不能用来作为通配符。如果要阻止抓取所有的gif图像,写成Disallow: *.gif是错误的。
  • robots.txt的命名,都是小写。如果你希望搜索引擎,收录网站的全部网页,可以不设置robots.txt或上传一个命名为robots.txt的空记事本到根目录。上传你的robots.txt后,通过 你的域名/robots.txt 可以正常访问。

robots.txtXML sitemap

如果你学习过我们前面,关于创建XML Sitemaps的课程,应该知道robots.txt文件,可以让搜索引擎快速收入网站地图。

你要在robots.txt文件的最后一行,粘贴下面这行代码:

				
					Sitemap: <http://www.example.com/sitemap.xml>
				
			

如果你有多个网站地图:

				
					Sitemap: <http://www.example.com/sitemap1.xml>
Sitemap: <http://www.example.com/sitemap2.xml>
Sitemap: <http://www.example.com/sitemap3.xml>
				
			

所有的蜘蛛都重视的robots.txt文件吗?

搜索引擎Spider是非常有礼貌的,但是也有不礼貌的探测器,在互联网里肆意搜刮内容,并抓取电子邮件地址,添加到它的垃圾邮件列表中。它们并不在乎robots.txt文件,对此我们也无能为力。

robots.txt文件是可以公开访问的!

不要使用robots.txt隐藏网站内容,任何人输入www.yoursite.com/robots.txt都可以看到你不想公开的内容。

如果有些内容不希望别人看到,最好的选择是目录的密码保护。主机控制面板中的工具,可以帮你做到这一点。

课程总结

在这节课中,我们学习了robots.txt—它是什么,用于什么,以及如何创建。我们已经了解了可以用robots.txt做的一些事情,包括:

  • 阻止整个网站的索引
  • 阻止特定目录
  • 阻止某些机器人
  • 标识网站地图的位置

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注