【SEO网站优化】— robots.txt文件的作用是什么?
robots实际上指的是robots协议(也称为爬虫协议、机器人协议),它的全称是“爬虫排除标准”,网站通过robots协议告诉搜索引擎哪些页面可以被抓取,哪些页面不能被抓取。而承载这些协议的文件是robots.txt文件,那么robots.txt文件的作用是什么?如何编写robots协议以及需要注意的事项,今天将在本文中向大家详细介绍。
当你开启一个全新站点的时候,默认的情况下网站根目录中是没有Robots.txt文件的,这导致很多站长并不关心Robots协议,这为日后的运营,埋下隐患,比如:
① 产生大量重复页面,动态链接被抓取。
② 新站无内容栏目,被收录,影响站点质量评定。
对于新站而言,由于蜘蛛抓取频率有限,我们应该合理利用Robos协议,巧用Robots.txt文件,引导蜘蛛爬行与抓取。
一、Robots协议是什么,Robots.txt的作用有哪些?
1、Robots协议
简单理解:Robots协议是搜索引擎蜘蛛爬行的一种标准,当蜘蛛来访的时候会首先检测网站根目录下是否存在Robots.txt这个文件。如果存在,它会根据Robots协议的规定,去抓取只被SEO管理允许抓取的页面,而屏蔽不需要抓取的内容,它可以理解为是蜘蛛与站点之间的桥梁。
Robots.txt文本文件带有robots协议,该协议告诉所有搜索引擎该网站的哪些页面可以被抓取,哪些页面禁止被抓取。这有两个意思: 1、保护隐私。有些目录或页面不希望或不能被外界看到。有些搜索引擎可能不知道这些情况,它仍会像往常一样抓取并显示这些页面。如果我们通过robots来设置限制,搜索引擎蜘蛛将会放弃爬行,外界将无法通过搜索引擎知道这些保密信息。
2、调整抓取页面的数量。众所周知,每个网站上蜘蛛爬行的配额是有限的,如果我们禁止一些不重要的页面不被抓取,那么将配额留给那些重要的页面,会有更多的机会被抓取。
二、robots.txt文件的写法
robots协议针对允许或禁止,也可以设置特定的搜索引擎,其实在正常情况下,没有必要区分搜索引擎,而是统一设置允许抓取。
1、所有搜索引擎都被禁止访问网站
User-agent: *
Disallow: /
2、允许所有搜索引擎访问网站
User-agent: *
Allow: /
3、禁止所有蜘蛛访问网站的某个目录
User-agent:*
Disallow: /test/
这是最基本的用法,robots协议的使用有很多技巧,我建议大家仔细阅读其协议。
三、Robots.txt常见问题
① 如何生成Robots.txt文件
目前线上平台有很多SEO推广软件,都支持客户端自动生成Robots.txt文件,它提供了一些便利的条件,比如:自动屏蔽一些没必要的爬虫,避免浪费过多资源,以及相关栏目页面与图片等。
② 网站不收录,熊掌号不出数据
通常出现这个问题,你可以第一时间查看Robots.txt文件,是否由于操作失误,屏蔽了百度蜘蛛,导致网站不收录
③ Robots.txt与nofollow标签
有的时候当你试图屏蔽一个URL的时候,明明在Robots.txt禁止抓取了,仍然会被索引,这种情况是可能存在的,为了安全起见,你可以在标签中,添加nofollow,来达到万无一失的作用。
四、robots.txt文件相关注意事项
有些站长说我的网站上没有任何禁止爬行的页面,所以不用设置robots文件,这在理论上行得通。然而我建议,即使网站是完全开放的,最好建立一个robots文件,比如我网站的文件: http://feiyuseo.cn/robots.txt,通常放在网站的根目录下。
总结:Robots.txt文件是一个值得站长研究的协议,它合理的调配网站资源,有利于站点运营的快速发展。