厦门SEO公司
欢迎评论文章留下链接脚印

什么是Robots.txt-厦门seo顾问

robots.txt的

当搜索引擎经常访问您的网站并索引您的内容时,这是非常好的,但是经常会出现索引您的在线内容部分不是您想要的情况。例如,如果您有两个版本的页面(一个用于在浏览器中查看,另一个用于打印),则希望将打印版本排除在抓取之外,否则您可能会遭受重复的内容惩罚。此外,如果您的网站上有敏感数据,您不希望世界看到,您还希望搜索引擎不会对这些页面进行索引(尽管在这种情况下,唯一可靠的方法是不敏感的数据索引是在一台独立的机器上保持离线状态)。另外,如果要通过从索引中排除图像,样式表和javascript来保存一些带宽,

告诉搜索引擎您可以避免网站上哪些文件和文件夹被使用的机器人元标记的一种方式。但是,由于并不是所有的搜索引擎读取元标记,机器人的matatag可以简单地忽略。通知搜索引擎有关您的意愿的更好方法是使用robots.txt文件。

什么是Robots.txt?

Robots.txt是一个文本(不是html)文件,你放在你的网站上,告诉搜索漫游器你希望他们不要访问哪些页面。Robots.txt对搜索引擎绝对不是强制性的,但通常搜索引擎会遵从他们被要求不做的事情。重要的是要澄清,robots.txt不是阻止搜索引擎抓取您的网站(即它不是防火墙或某种密码保护)的一种方式,而您将robots.txt文件放在一起在一个开锁的门上注意“请不要进入” – 例如你不能防止盗贼进来,但是好人不会开门进入。这就是为什么我们说如果你真的认真的了解数据,那么依靠robots.txt来保护它免受索引和显​​示在搜索结果中太天真了。厦门seo顾问

robots.txt的位置非常重要。它必须在主目录中,因为否则用户代理(搜索引擎)将无法找到它 – 它们不会在整个站点上搜索名为robots.txt的文件。相反,他们首先看到主目录(即http://www.ymeid.com/robots.txt),如果他们没有找到它,他们只是假设这个网站没有robots.txt文件,因此他们索引他们发现的一切。所以,如果你不把robots.txt放在正确的地方,不要惊讶,搜索引擎索引你的整个网站。

robots.txt的概念和结构已经在十年前开发,如果您有兴趣了解更多信息,请访问http://www.ymeid.com/, 或者直接进入机器人排除标准,因为在本文中,我们将仅处理robots.txt文件的最重要方面。接下来我们将继续使用一个robots.txt文件。

Robots.txt文件的结构

robots.txt的结构非常简单(几乎不灵活) – 它是一个无休止的用户代理列表,不允许使用的文件和目录。基本上,语法如下:

用户代理:

不允许:

“ 用户代理”是搜索引擎的抓取工具, 不允许:列出要从索引中排除的文件和目录。除了“user-agent:”和“disallow:”条目之外,您还可以添加注释行 – 只需将#符号放在行的开头:

#不允许所有用户代理查看/ temp目录。

用户代理: *

Disallow:/ temp /

Robots.txt文件的陷阱

当您开始制作复杂的文件 – 即您决定允许不同的用户代理访问不同的目录 – 如果您不特别注意robots.txt文件的陷阱,问题可以开始。常见错误包括打字错误和矛盾指示。拼写错误的用户代理,目录,在User-agent和Disallow之后丢失的冒号等。打字可能很棘手,但在某些情况下,验证工具有帮助。

更严重的问题是逻辑错误。例如:

用户代理: *

Disallow:/ temp /

用户代理:Googlebot

Disallow:/ images /

Disallow:/ temp /

Disallow:/ cgi-bin /

上述示例来自robots.txt,允许所有代理访问除/ temp目录之外的站点上的所有内容。到此为止,这是很好的,但后来还有另一个记录指定了更多的Googlebot限制条款。当Googlebot开始阅读robots.txt时,将会看到所有用户代理(包括Googlebot本身)都允许除/ temp /之外的所有文件夹。这足以让Googlebot知道,所以它不会读取文件到最后,并将索引除/ temp / – 包括/ images /和/ cgi-bin /之外的所有内容,您认为您已经告诉它不要触摸。你看,一个robots.txt文件的结构很简单,但是很容易造成严重的错误。

用于生成和验证Robots.txt文件的工具

考虑到robots.txt文件的简单语法,您可以随时阅读它,看看是否一切正常,但使用验证器更容易,如下所示:。这些工具报告了常见的错误,如丢失的斜线或冒号,如果没有检测到损害您的努力。例如,如果您键入:

用户代理: *

Disallow:/ temp /

这是错误的,因为“用户”和“代理”之间没有斜杠,语法不正确。

在这种情况下,当您有一个复杂的robots.txt文件时,即给不同的用户代理提供不同的指令,或者您有一长串目录和子目录要排除,手动写入该文件可能是一个真正的痛苦。但不要担心 – 有工具会为您生成文件。此外,还有可视化工具可以指定和选择要排除哪些文件和文件夹。但即使您不想购买用于robots.txt生成的图形工具,也有在线工具来协助您。例如,服务器端机器人生成器提供用户代理的下拉列表和一个文本框,您可以列出不想要索引的文件。老实说,这不是很有帮助,

 

欢迎转载:厦门SEO公司_厦门SEO优化 » 什么是Robots.txt-厦门seo顾问
分享到: 更多 (0)

SEO外链区 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址