欢迎访问中恒天下,我们为您提供优质的产品和完善的售后服务,公司致力于:外贸网站建设,美国服务器,外贸空间,海外空间等服务!

时间:2012-07-11网站改版后 如何利用robots.txt正确屏蔽一些页面的收录

  本篇分享的是厦门中恒公司SEO团队里的一位站长的亲身经历,下面是他的自述:

  在之前自己厦门SEO博客经过了多次改版,想要利用robots.txt来屏蔽了一些页面的收录,来防止重复页面的产生,本来wordpress就自带了很多页面,就会导致非常多的重复页面,就算你只有一片文章,wordpress也会给你生成许多页面,但是内容都几乎相同,只是聚合的因子不同,这样就对我们做SEO造成了不小的影响,新站上线,就很有可能导致被搜索引擎K掉,或者权重难以提升,今天厦门SEO就给大家说说如何利用robots来屏蔽掉一些页面,控制搜索引擎的爬取。

  今日从新列举一下常见的robots.txt实际使役中的误区:

  误区1:Allow包含的范围超过Disallow,而且位置在Disallow面前。

  譬如有众多人这么写:

  User-agent: *

  Allow: /

  Disallow: /mulu/

  想让所有蜘蛛抓取本站除/mulu/下边的url以外的所有页面,禁阻抓取/mulu/下边的所有url。

  搜引得擎蜘蛛执行的规则是从上到下,这么会导致第二句命令无效。也就是说禁阻抓取/mulu/目次这条规则是无效的。不错的是Disallow应当在Allow之上,这么才会生效。

  误区2:.Disallow命令和Allow命令然后没有以斜杠”/”开头。

  这个也很容易被偏废,譬如有人这么写Disallow: 123.html ,这种是没管用的。斜杠”/”表达的是文件对于根目次的位置,假如不带的话,洒脱无法判断url是哪个,所以是不对的。

  正确的应当是Disallow: /123.html,这么能力屏蔽/123.html这个文件,这条规则能力生效。

  误区3.:屏蔽的目次后没有带斜杠”/”。

  也就是譬如想屏蔽抓取/mulu/这个目次,有点人这么写Disallow: /mulu。那么这么是否正确呢?

  首先这么写(Disallow: /mulu)委实可以屏蔽/mulu/下边的所有url,然而同时也屏蔽了类似/mulu123.html这种开头为/mulu的所有页面,效果等同于Disallow: /mulu*。

  正确的做法是,假如只想屏蔽目次,那么务必在结尾带上斜杠”/”。

  看到这里,不知道大家对robots.txt有没有一个深刻一些的认识呢?之前自己厦门SEO博客改版,因为修改robots.txt导致了搜索引擎不收录,其实最根本的原因还是因为频繁修改robots.txt造成的,所以robots.txt最好建站初期就设定好,然后尽量少修改,不然会造成搜索引擎的不信任。
本篇文章“网站改版后 如何利用robots.txt正确屏蔽一些页面的收录”由中恒天下编辑整理。
如需转载请注明来源:http://www.35zh.com/article/853.html