sem说-步入武汉SEO时代

上一篇: 关于网站301重定向现象的一些观察与思考 下一篇:知行合一,做踏实的SEOER

4,解决重复URL的问题和屏蔽垃圾页面

Discuz! X1.5 还是不可避免的出现重复url的问题。 (希望有渠道的朋友能把这些问题反馈给Discuz相关人员)
这些重复的url即浪费了爬虫大量的时间,又使网站的原创性受到损害。所以一定要屏蔽很多重复页面。
另外还要干掉一些垃圾页面,所谓垃圾页面就是一些没什么SEO价值的页面,也帮助爬虫节约时间。

解决这个问题,最好是用robots.txt文件来解决。因为里面的规则是最强势的,所有爬虫第一次访问一个域名,第一个动作都是下载这个robots.txt文件并读取里面的规则。 其他一些nofollow和rel=canonical等标签适当的时候再用。

虽然Discuz默认写了一些robots规则,但是还是不够理想。

根据从首页的代码中发现的问题,需要在robots.txt里增加的规则有:
 




     

  1. Disallow: /forum.php$    (这条规则在第3节中去掉了)
     

  2. Disallow: /search-search-adv-yes.html
     

  3. Disallow: /space-username-*
     

  4. Disallow: /forum.php?gid=
     

  5. Disallow: /home.php?mod=space&username=
     

  6. Disallow: /forum.php?showoldetails=
     

  7. Disallow: /home-space-do-friend-view-online-type-member.html
     

  8. Disallow: /space-uid-*

     


根据在板块帖子列表页面发现的问题,需要在robots.txt里增加的规则有:

 

  1. Disallow: /search.php$
     

  2. Disallow: /forum-forumdisplay-fid-*


根据在帖子详细信息页面看到的问题,需要在robots.txt里增加的规则有:

 

    • Disallow: /forum-viewthread-tid-*-extra-page%3D.html$
       

    • Disallow: /forum.php?mod=viewthread&tid=
       

    • Disallow: /forum-viewthread-tid-*-page-*-authorid-*.html
       

    • Disallow: /forum-viewthread-tid-*-extra-page%3D-ordertype-*.html
       

    • Disallow: /forum-viewthread-action-printable-tid-*.html
       

    • Disallow: /home-space-uid-*


至于为什么要写这些规则,由于描述起来实在啰嗦,所以大家自行到源代码里查看为什么。

robots的写法是很灵活的。
可以看一下百度的robots写法指南:
http://www.baidu.com/search/robots.html
以及google网站管理员中心的说明:
http://www.google.com/support/webmasters/bin/answer.py?hl=cn&answer=156449

robots.txt写到这里并不是结束,还有两件事情要做。

1,因为robots.txt和nofollow是不同的意思,所以robots.txt并不能代替nofollow。以上这些需要屏蔽的地方还需要用nofollow标注一下。 不过因为要改的源码太多,暂时先不动。需要用nofollow,还有一个原因是某些搜索引擎并不遵守自己所定下的robots规则。

2,因为只看过论坛中的三类主要页面,还有很多页面没查看过,难免会有漏掉的地方,所以需要以后经常到日志中查看爬虫的轨迹,看看爬虫还有哪些抓取问题。

对于上面那些屏蔽规则,如果有不明白为什么要这么屏蔽的地方,可以跟帖提问
 

Discuz论坛SEO优化指南(1)(转)



 

 

原创文章请注明转载自:武汉seo-sem说
本文地址:http://www.semsay.com/technology/80.html

  • Gravatar Icon
    回复
  • quote 17.金田科瑞2011-4-18 1:00:49
  • 很不错的文章,每天都来看老师的文章,顶上!

    风淋室 http://www.klcfilter.com
  • Gravatar Icon
    回复
  • quote 16.广东SEO2011-4-15 0:24:56
  • 在你博客学到不少东西,坚持每天到你博客看看!阅读增知识。像你学习!
  • Gravatar Icon
    回复
  • quote 14.武汉seo2011-4-14 11:03:53
  • 字写的太少了,多打几个字帮你跟新一下博客了 哈哈
  • Gravatar Icon
    回复
  • quote 13.武汉seo2011-4-14 11:03:11
  • 给你的博客增加人气来了 回踩一下吧 www.seo83.com 哈哈
  • Gravatar Icon
    回复
  • quote 11.廊坊seo2011-4-13 12:39:16
  • discuz 我以前是经常用的,而且涉及的用户量很大,国内知名的几乎在用所以。优化是很重要的。、
  • Gravatar Icon
    回复
  • quote 10.声表滤波器2011-4-13 11:59:17
  • dz论坛内容比较多,程序也不复杂,优化起来应该还蛮简单的
  • Gravatar Icon
    回复
  • quote 6.蓝色忧郁2011-4-12 14:04:08
  • 看过无数的博客,基本上不会有感觉了,可是博主的文章让我眼前一亮,原来还会有这么好的文章!不得不来支持博主一下! http://www.gjj-sh.com
  • Gravatar Icon
    回复
  • quote 3.韩国2011-4-11 20:25:38
  • 论坛教程对我很重要,是我现在要学习的。
  • Gravatar Icon
    回复
  • quote 2.南昌seo2011-4-11 15:39:05
  • 文章写的不错,学习拉!可以换个友情链接吗?http://www.0791seo.com.cn
  • Gravatar Icon
    回复
  • quote 1.雪凰2011-4-11 12:32:56
  • 博主的文章真好,支持! http://www.xsindu.cn/airmotor

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于本文

您正在阅读的是:Discuz论坛SEO优化指南(2) 转
jinc 发表于:2011-4-10 19:29:13
分类:技术经验
关键词:seo  网页优化  网站设计  
订阅sem说

什么是RSS订阅?查看解释
订阅到您的在线阅读器

抓虾 google reader my yahoo bloglines 鲜果 哪吒

博客作者

金楚辽

最近发表

最新评论及回复

最近留言

Search

网站分类

文章归档

图标汇集

Copyright 鄂ICP备10202306号-1 semsay.com Inc 武汉seo All rights reserved

Powered By Z-Blog 1.8 Walle Build 100427 Template Designed By houbenbo