WordPress的Robots.txt规则-直接导入即可使用



自己一直在纠结怎么写robots.txt文件,在网上找了很长时间,但是一直没找到一个系统的具体的写法,于是自己通过综合了几个网站的写法,整理出了一份Robots文档,这个文档对于WordPress站点基本可以说是通用的,没有特殊情况是不用修改的,直接复制黏贴到你的robots.txt里即可。当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。

Robots说明

  • 1. robots.txt可以告诉百度您网站的哪些页面可以被抓取,哪些页面不可以被抓取。
  • 2. 您可以通过Robots工具来创建、校验、更新您的robots.txt文件,或查看您网站robots.txt文件在百度生效的情况。
  • 3. Robots工具目前支持48k的文件内容检测,请保证您的robots.txt文件不要过大,目录最长不超过250个字符。

具体使用方法:

方法一、新建一个txt文档,把以下这段代码复制到txt文档里,重命名为robots.txt,然后用ftp上传到你的网站根目录里,传好后打开 http://你的网址/robots.txt 测试一下,如果能打开就证明可以了。

方法二、如果你不知道怎么上传,就先安装一个“WPJAM”插件,里面有一项“SEO设置”,在那里把上面的代码复制进去,然后保存即可(方法二的前提是网站根目录没有robots.txt文件,换句话说就是你要确保你打不开http://你的网址/robots.txt这个地址)。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /attachment/
Disallow: /comments/feed
Disallow: /feed
Disallow: /*/feed
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /wp-*.php
Sitemap: http://你的网址/sitemap.xml

备注:最后一项:Sitemap: http://你的网址/sitemap.xml 这里,请一定确保你的网站已经生成了站点地图才行,我使用的是“XML 站点地图 & 谷歌新闻订阅源”插件生成的地图,这个是给百度爬虫看的,是为了告诉爬虫你的网站上有站点地图,如果不想生成,请自主移除。但龍猫还是建议大家生成一个呢,方便爬虫也就能更好的收录站点。

下面简单介绍各语句的含义:

1、User-agent: *

上面允许所有搜索引擎爬取网站,如果想禁止或允许某个或多个搜索引擎抓取,就要做相应的改动。举个栗子,下面这种情况就禁止百度和谷歌抓取:

User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /

如果要允许某个搜索引擎抓取可以使用Allow,User-agent: *即为允许所有。

2、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/
可用于告知搜索引擎不要抓取WordPress后台程序文件目录。

3、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。

4、Disallow: /category/*/page/和Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。(这一条龍猫并未添加到上面的robots合集里,因为不同WordPress站点可能会有所不同,大家可以根据需要添加)

5、Disallow: /*/trackback和Disallow: /trackback/
禁止搜索引擎抓取收录trackback等垃圾信息

6、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed
禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,所以与搜索引擎无关。

7、Disallow: /?s=*和Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果

8、Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。

9、Disallow: /wp-*.php
禁止搜索引擎抓取WordPress网站根目录的以wp开头的文件。

PS:百度站长平台是有专门的Robots提交入口的,大家验证站点后即可提交,这样能加快百度对于你站点Robots的更新。

共有 0 条评论

Top