现在的位置: 首页 > Wordpress > WP技巧 > 正文
WordPress配置robots.txt文件
2012年05月26日 WP技巧 ⁄ 共 1770字 评论数 2 ⁄ 被围观 3,338+

谈到robots,那些擅长SEO的童鞋一定不会陌生,但对于我等菜鸟,这完全是个陌生的领域。所以,先来看看维基百科的解释。

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。

robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL,也不能用"Disallow: *.gif"这样的通配符。

先来看一个所谓Wordpress官方的robots.txt文件写法。

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /author/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# digg mirror
User-agent: duggmirror
Disallow: /
Sitemap: http://www.example.com/sitemap.xml

从上述文件可以看出,一个标准的robots.txt文件,通常包括三大部分:第一部分是User-agent,表示对所有的搜索引擎都采用下面的规则;第二部分是Allow及Disallow,也就是允许抓取以及禁止抓取设置;第三部分是Sitemap,也就是站点地图,baidu及google都有。

对照官方的写法,根据本站的实际,也给分文网的博客写个robots.txt文件。

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
Sitemap: http://blog.ifenwen.com/sitemap.xml
Sitemap: http://blog.ifenwen.com/sitemap_baidu.xml

书写robots.txt时,需要注意冒号(:)之后有个空格,然后是斜杠(/)。最后写完了要上传到网站根目录,如果对于你的robots.txt的写法不放心的话,可以利用Google的网站管理员工具测试 robots.txt文件。

要测试网站的 robots.txt 文件,请执行以下操作:
在网站站长工具首页上,点击相关网站。
在运行状况 (Health) 下,点击已拦截的网址。。
请点击测试 robots.txt 标签(如果尚未选中的话)。
复制您的 robots.txt 文件的内容,并将其粘贴到第一个框中。
在网址框中,列出要用于测试的网站。
在 User-agent 列表中,选择所需的 User-agent。



目前有 2 条留言 其中:访客:2 条, 博主:0 条

  1. 黑窝's Blog : 2012年08月24日04:42:45  -9楼

    网站根目录下没有,访问却能访问!
    自己上传了却显示的还是原来的……咋回事?


    • 管理员
      admin : 2012年08月24日08:01:32  地下1层

      额 延时吧 等等就好了。。。


如果觉得文章或者网站对您有帮助请点击 向TA付款 捐赠作者或者点击下面的分享按钮支持作者

更多

给我留言

留言无头像?

无觅相关文章插件,快速提升流量

×