红枫SEO专注企业网站运营、SEO优化推广交流!

您的位置: 首页 > SEO基础知识 >

如何正确设置网站robots.txt协议文件?

时间:2018-09-17 12:19 来源:未知 作者:成都SEO红枫

  有的时候,SEO站长们希望网站某些页面或者文件不被抓取到,比如一些无须参与排名的后台文件、属于测试阶段的内容部分等,但是想要确保页面不被抓取,需要使用robots文件,那么,如何正确设置robots.txt协议文件?

  作为一名SEO来说,我们需要知道,搜索引擎蜘蛛访问网站时,首先会查看网站根目录下有没有robots.txt的纯文本文件。

  一、什么是robots.txt文件

  用于指令搜索引擎禁止抓取网站某些内容或者指定抓取网站某些内容的。

  只有需要在禁止抓取某些内容时,robots.txt文件才有意义。robots.txt不存在或者是一个空文件意味着允许抓取网站上的所有内容。

  二、robots.txt文件对网站有什么优点

  1、疾速增加网站权重和拜访量;

  2、制止某些文件被查找引擎索引,能够节约服务器带宽和网站拜访速度;

  3、为查找引擎供给一个简洁明了的索引环境。

robots协议

  三、、robots.txt文件由记录组成,记录之间以空行分开。

  格式:<域>:<可选空格><域值><可选空格>

  注意:记录之间应以空行分开。、

  四、robots.txt基本语法:

  User-agent:指定规则适用于哪个蜘蛛(如:如百度是Baiduspider,谷歌是Googlebot或是其他搜索引擎)

  Allow:允许抓取什么URL路径

  Disallow:不允许抓取什么URL路径

  通配符*代表所有搜索引擎

  结束符$:表示以前面字符结束的u

  注意:允许或禁止的目录或文件必须分开写,每个一行

  五、实例分析

  (1) 禁止所有搜索引擎抓取任何页面

  User-agent: *

  Disallow: /

  (2)允许所有的搜索引擎访问网站的任何部分

  User-agent: *

  Disallow:

  (3)仅禁止Googlebot访问您的网站

  User-agent: Googlebot

  Disallow: /

  也可换为其他搜索引擎

  (4) 仅允许Googlebot访问您的网站

  User-agent: Googlebot

  Disallow:

  也可换为其他搜索引擎

  (5)禁止spider访问特定目录

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  注意事项:1、目录要分别写。2、请注意最后要带斜杠。3、带斜杠与不带斜杠的区别。

  (6)允许访问特定目录中的部分url:如:不抓取/ab/目录下的其他目录和文件,但允许抓取其中/cd/目录下的内容

  User-agent: *

  Disallow: /ab/

  Allow: /ab/cd/

  注:允许收录优先级要高于禁止收录。

  (7) 禁止访问网站中所有的动态页面

  User-agent: *

  Disallow: /*?*

  (8)禁止搜索引擎抓取网站上所有图片

  User-agent: *

  Disallow: /*.jpg$

  Disallow: /*.jpeg$

  Disallow: /*.gif$

  Disallow: /*.png$

  Disallow: /*.bmp$

  (9)允许抓取以.htm为后缀的URL

  User-agent: *

  Allow: .htm$

  (10)禁止抓取所有htm文件

  User-agent: *

  Disallow: /*.htm

  六、特殊情况

  被robots文件禁止抓取的URL还是可能被索引并出现在搜索结果中。只要有导入链接指向这个URL,就会被搜索引擎搜索引擎识别出来有这个URL的存在,虽然不会抓取页面内容,但是索引库中会有这个URL的页面信息存在。通常以下面四种情况呈现出来。

  (1)只显示URL,没有标题和描述

  (2)显示开放目录或雅虎等重要目录收录的标题和描述

  (3)导入链接的锚文字显示为标题和描述

  (4)搜索引擎从其他地方获得的信息显示为标题和描述

  其实很多情况呢,要具体分析,只有掌握了robots文件基本语法,才能合理正确的设置robots.txt文件。

创作不易 ,转载请注明出处。谢谢! | 文章来源:成都网站优化