robots.txt 和 WordPress 博客中如何使用

什么是 robots.txt

robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的爬虫(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎获取的,哪些是可以被获取的。via 维基百科

为什么要使用 robots.txt

可能很多人都巴不得搜索引擎收录越多越好,为什么我们还禁止搜索引擎收录我们某些内容呢?第一是防止 Spider 去访问一些无关的页面,造成服务器的压力,第二,可以防止搜索引擎索引一些重复的页面,使网站的权重更加集中,提高网站的排名。

WordPress 博客怎么使用 robots.txt

下面这个是目前我爱水煮鱼博客使用的 robots.txt 文件:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /author/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/

简单说下,它只列了禁止访问的目录:

/cgi-bin/ 这个是服务器的 cgi 目录,所以肯定不能索引。

/wp-admin/ 和 /wp-includes/,一个是 WordPress 后台,一个是 WordPress 程序运行的一些必须库,都无需索引。

/wp-content/ 目录下,插件(/plugins/),主题(/themes/)和缓存(/cache/)都不应该索引的,剩下主要的是 /uploads/ 目录是存放图片和附件,是应该让搜索引擎,特别是图片搜索引擎索引。剩下你自定义的一些目录,就看你自己需求来设置是否让搜索引擎索引。

/author/是某个作者的所有文章列表,基本都是重复内容了,所以也不让索引。

/trackback/ 和 */trackback/,trackback 目录和原来的文字基本一样,完全的重复内容。

/feed/ 和 */feed/,Feed 中也是重复内容。

/comments/ 和 */comments/,留言页面也是重复内容。

robots meta

除了 robtos.txt 之外,WordPress 最好使用 robots meta 对一些页面进行限制,下面是我在主题 header.php 添加的代码:


<?php if(is_single() || is_page() || is_category() || is_tag() || is_home()) { ?>
  <meta name="robots" content="all,noodp" />
<?php } elseif(is_archive()) { ?>
  <meta name="robots" content="noarchive,noodp" />
<?php } elseif(is_search() || is_404()) { ?>
  <meta name="robots" content="noindex,noarchive" />
<?php } ?>

noodp:搜索结果不使用开放目录项目中对本网站的说明。

noindex:当前页面不被索引。

noarchive:防止所有搜索引擎显示您网站的快照

标签:SEO

本人擅长Ai、Fw、Fl、Br、Ae、Pr、Id、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript、Pascal等单词的拼写,熟悉Windows、Linux、OS X、Android、iOS、WP8等系统的开关机。

通过下面的方式来联系我们:

电邮:138762189@qq.com

联系QQ:点击这里给我发消息

官方站:www.tadke.com

※ ※ 联系请加我的企鹅号 ※※

※ ※技术支持请微信联系站长 ※※

Copyright © 2023 Tadke.com. 琼ICP备20000547号