Robots.txt

告诉搜索引擎哪些网页需要收录

Zac

Web360编辑

上次更新时间：2021年9月22日

搜索引擎用来爬取网页内容的工具，我们称之为“搜索引擎机器人”。

Robot英文直译是“机器人”，在搜索引擎优化中，我们经常翻译为“探测器”。

不同的搜索引擎，给他们自己的探测器（Robot）起不同的名字。有时，你会碰到crawler（爬行器），spider（蜘蛛），都是探测器之一，只是叫法不同。

搜索引擎机器人每次来到要抓取的网站，都会先访问这个网站根目录下的一个文件（robots.txt），如果不存在该文件，则搜索引擎机器人，默认这个网站允许其全部抓取。

如何制作robots.txt文件？

打开你的文本编辑器，选择记事本（开始> 程序 >附件菜单）。切勿使用Word 文件，可以使用HTML编辑器来建立robots.txt文件，但要确保将它命名为txt文件，而不是HTML文件。注意robots.txt的命名，都是小写。

搜索引擎机器人通过robots.txt里的“说明”，理解该网站是否可以全部抓取或部分抓取。

按照以下格式输写robots.txt文件。

阻止所有蜘蛛抓取整个网站：

				
					User-agent: *
Disallow: /

允许蜘蛛抓取网站的所有内容：

				
					User-agent: *
Disallow:

阻止抓取某些目录：

				
					User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /personal/
Disallow: /photos/staffchristmasparty/

阻止某些蜘蛛的抓取：

				
					User-agent: Googlebot
Disallow: /

允许某种蜘蛛，而阻止其他蜘蛛抓取：

				
					User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

注意事项：

每条命令必须换行。
空白行区分不同的指示（如最后一个例子）。
User-agent后的“星号”有特殊的意义，不能用来作为通配符。如果要阻止抓取所有的gif图像，写成Disallow: *.gif是错误的。
robots.txt的命名，都是小写。如果你希望搜索引擎，收录网站的全部网页，可以不设置robots.txt或上传一个命名为robots.txt的空记事本到根目录。上传你的robots.txt后，通过你的域名/robots.txt 可以正常访问。

robots.txt与XML sitemap

如果你学习过我们前面，关于创建XML Sitemaps的课程，应该知道robots.txt文件，可以让搜索引擎快速收入网站地图。

你要在robots.txt文件的最后一行，粘贴下面这行代码：

				
					Sitemap: <http://www.example.com/sitemap.xml>

如果你有多个网站地图：

				
					Sitemap: <http://www.example.com/sitemap1.xml>
Sitemap: <http://www.example.com/sitemap2.xml>
Sitemap: <http://www.example.com/sitemap3.xml>

所有的蜘蛛都重视的robots.txt文件吗？

搜索引擎Spider是非常有“礼貌”的，但是也有不“礼貌”的探测器，在互联网里肆意搜刮内容，并抓取电子邮件地址，添加到它的垃圾邮件列表中。它们并不在乎robots.txt文件，对此我们也无能为力。

robots.txt文件是可以公开访问的！

不要使用robots.txt隐藏网站内容，任何人输入www.yoursite.com/robots.txt都可以看到你不想公开的内容。

如果有些内容不希望别人看到，最好的选择是目录的密码保护。主机控制面板中的工具，可以帮你做到这一点。

课程总结

在这节课中，我们学习了robots.txt—它是什么，用于什么，以及如何创建。我们已经了解了可以用robots.txt做的一些事情，包括：

Robots.txt

Zac

如何制作robots.txt文件？

阻止所有蜘蛛抓取整个网站：

允许蜘蛛抓取网站的所有内容：

阻止抓取某些目录：

阻止某些蜘蛛的抓取：

允许某种蜘蛛，而阻止其他蜘蛛抓取：

注意事项：

robots.txt与XML sitemap

所有的蜘蛛都重视的robots.txt文件吗？

robots.txt文件是可以公开访问的！

课程总结

相关内容：

网站地图-Sitemaps

robots.txt-告诉搜索引擎哪些网页需要收录

如何301重定向网页

URL标准化

如何隐藏推广链接

网站设计疑难解答

网站设计规范

网页代码剖析（下）

网页代码剖析（上）

如何解析域名

通过FTP工具把网页上传到服务器

手把手教你制作一个简单网页

发表评论取消回复

Robots.txt

Zac

如何制作robots.txt文件？

阻止所有蜘蛛抓取整个网站：

允许蜘蛛抓取网站的所有内容：

阻止抓取某些目录：

阻止某些蜘蛛的抓取：

允许某种蜘蛛，而阻止其他蜘蛛抓取：

注意事项：

robots.txt与XML sitemap

所有的蜘蛛都重视的robots.txt文件吗？

robots.txt文件是可以公开访问的！

课程总结

相关内容：

发表评论 取消回复

发表评论取消回复