厦门SEO公司
欢迎评论文章留下链接脚印

网站robots.txt使用

网站robots使用规则

一、Robots.txt的由来

Robots是一个网站和搜索引擎的第三方协议(早期用于隐私的保护)。

屏蔽解释:屏蔽是指不让搜索引擎放出来。百度生效会比较慢,好像就是一个老人,他已经是一个老年人了,他反映特别的慢,谷歌很快。谷歌只要你提交了,他马上抓取,24小时生效,你直接在谷歌站长管理工具里面看到屏蔽被拦截的页面。但百度不行,百度反映非常的慢。

二、Robots.txt的作用
我们的网站有很多不可抗拒性因素而导致我们的网页质量整体下降。
1、屏蔽一些无内容的页面。
登录页: /login_c.jsp
Disallow: /login_c.jsp
注册页:/register_p.jsp
Disallow: /register_p.jsp
留言页……【签到页/论坛的签到页面属于无内容页面】
这点在于不管我们的网站是论坛、商城、博客、企业站都好,现在这些页面都需要我们处理和操作的,我们只能屏蔽,不能删除。我们的目的就是为了能够实现某个功能便于用户找寻,更加好的理解我们网站。
比如我们搜索某一个词,他也会出现这样的内容。还有提示页面[搜索无结果页面]、错误页面、404页面(如果你做了的话)。你会发现我们要屏蔽的东西越来越多了。而这些东西我们都是要处理的。
2、屏蔽一些重复页面。
如评论页、dz论坛的简写版本(ative)、wordpress的RSS,这些重复的页面是我们需要进行处理的。有些重复页面是我们不得不去做的,这是没办法的事了。
3、屏蔽一些死链接页面。
我们只屏蔽那些带有普遍特征的页面。蜘蛛爬不到页面,就会显示一个404页面,就会形成死链接。
蜘蛛他爬不到并不意味着他抓取不到地址。
能否抓取到地址跟能否抓取到是2个概念。
抓取地址,我中需要一个提供地址的源头就行了。比如说我的一个页面里面,我不小心写错了一个地址,而这个超链接是不存在的,蜘蛛就会抓取不到,显示404代码,而死链接就出现了。(无中生有)
我们的网站页面原来是存在的,现在改版了,地址不存在了,而搜索引擎抓到了,现在抓不到了,而形成死链接。(原先有现在没了)
错误链接的比例达到一定程度的时候,搜索引擎就会认为你的网站不及格,给予你较低的评分,开始你的收录会下降,排名会下降。只要死链接的比例比较小,对网站的影响就不大,因为这个是无法避免的。
有的死链接是可以屏蔽的,有些死链接是不可能屏蔽的。
可以进行处理的死链接,是不需要屏蔽的。是由我们站内自己所造成的错误,我们是可以改正的。而有些不是我们造成的死链接,我们就要屏蔽,可以在IIS日志里面显示出来。

三、Robots.txt的使用
1、Robots.txt的建立
Robots.txt是一个记事本文件。
2、Robots.txt放在什么地方。
用flashFXP上传到根目录上面。
常规的根目录一般是wwwroot和web
3、常见的语法
User-agent定义搜索引擎爬取程序的(指定搜索引擎的爬取程序),他不能单独使用,要配合其它2个语法中的一个使用。
Disallow:/ 禁止允许
Allow: /
Allow要和Disallow一起使用。
常见的爬取程序
Baiduspider 百度蜘蛛谷歌机器人
Googlebot
User-agent:Baiduspider
Disallow:/admin/
我现在要指定百度搜索引擎不要抓取我的admin目录
如果robots.txt文件里面什么都没有写,那就代表着所有搜索引擎可以来抓取。默认的就是允许的。(冒号后面要有空格)
User-agent: Baiduspider
Disallow: /admin
指定百度搜索引擎不要来抓取我们的admin目录和含有以admin开头的网址。后面有斜杠的,会收录/admin.php因为这个是在根目录下的。
Allow:
他必须要和禁止一起使用的,一般来说是不会单独使用的,他和禁止语法一起使用的目的便于目录的屏蔽灵活的应用,最终的目的是为了减少代码的使用。
使用robots.txt需要注意的几点地方:

1、指令区分大小写,忽略未知指令,下图是本博客的robots.txt文件在Google管理员工具里的测试结果;

2、每一行代表一个指令,空白和隔行会被忽略;

3、“#”号后的字符参数会被忽略;

4、有独立User-agent的规则,会排除在通配“*”User agent的规则之外;

5、可以写入sitemap文件的链接,方便搜索引擎蜘蛛爬行整站内容。

6、尽量少用Allow指令,因为不同的搜索引擎对不同位置的Allow指令会有不同看待。
Wordpress的robots.txt优化设置

1、User-agent: *

一般博客的robots.txt指令设置都是面对所有spider程序,用通配符“*”即可。如果有独立User-agent的指令规则,尽量放在通配“*”User agent规则的上方。

2、Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

屏蔽spider捉取程序文件,同时也节约了搜索引擎蜘蛛资源。

欢迎转载:厦门SEO公司_厦门SEO优化 » 网站robots.txt使用
分享到: 更多 (0)

SEO外链区 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址