SEO技术

Robots.txt 是什么?

作者:红枫建站公司 发布时间:2021-01-03 23:25点击:
Robots.txt 是什么?,

Robots.txt 是你穿告诉搜索机器人哪些页面你会喜欢他们不能够访问您的网站的文本 (而不是 html) 文件。 Robots.txt 是不是强制性的搜索引擎,但是搜索引擎一般遵守他们都问什么不该做。 务必要澄清 robots.txt 不从防止搜索引擎抓取您的网站 (即它是不一的防火墙或密码保护的一种) 的一种方法,您放置一个 robots.txt 文件的事实是有点像把一条注释"请不要输入"一个解锁的门 — — 上如不能防止小偷进来,但好人,将不打开门,然后输入。 也就是为什么我们说是否真的有森 sitive 数据,是太依赖 robots.txt,以防止被索引,并显示在搜索结果的不完善。


Robots.txt 是什么?


robots.txt 的位置是非常重要的。 它必须是主目录中,因为否则用户代理 (搜索引擎) 不会能够找到它 — — 他们不中搜索名为 robots.txt 的文件的整个站点。 相反,他们首先主目录 (如 http://mydomain.com/robots.txt) 中查找和他们那里找不到它,如果他们只是假定此站点没有 robots.txt 文件,因此他们索引他们发现路上的一切。 因此,如果你不穿 robots.txt 中适当的位置,不要惊讶搜索引擎索引了您的整个站点。

概念与结构的 robots.txt 已发展了十多年前,如果您有兴趣进一步了解它,请访问 http://www.robotstxt.org/ 或因为这篇文章中,我们会处理只与一个 robots.txt 文件的最重要的环节,您可以转到 标准的机器人排除 直。 下一步我们会与结构继续 robots.txt 文件。

Robots.txt File 的结构
一个 robots.txt 的结构是相当简单 (和几乎不能灵活) – 它是用户代理和不允许的文件和目录的一个无穷列表。 基本上,语法如下所示:

用户代理:

不允许:

"用户代理" 是搜索引擎的抓取工具和 不允许: 列出的文件和要从索引中排除的目录。 在"用户代理:"和"不允许:"条目,您可以包含注释行 – 只是在行的开头放置,# 号:

# 所有用户代理不都允许以查看该 /temp 目录。

用户代理: *

不允许: /temp/

Robots.txt File 的陷阱
当你开始做复杂的文件 – 即您决定允许不同的用户代理访问不同的目录 – 可以开始问题,如果你没有支付费用的 robots.txt 文件陷阱,特别重视。 常见的错误包括打字错误和有冲突的指令。 拼写错误的用户-代理后用户代理和 Disallow,, 缺少冒号的目录包括拼写错误等。 打字错误可以很难找到,但在某些情况下验证工具的帮助。

更严重的问题是有逻辑错误。 例如:

用户代理: *

不允许: /temp/

用户代理: Googlebot

不允许: /images/

Robots.txt 是什么?

新闻资讯
相关产品