APP开发|手机网站制作|企业SEO培训

信息中心

您可以点击在线留言按钮来提交您的意向单:

您也可以通过以下方式在线与我们沟通:

您当前的位置: 首页 > 求谛动态
信息中心

在天津网站建设中百度只收录首页的一大原因:文章目录过深

天津网站建设推荐:百度只收录首页的一大原因:文章目录过深

 

在天津网站建设中,最近一个月我们的网站——百业文摘网百度只收录首页,内容也不再收录了,这很让我们着急,所以我们总结了一下出现这类问题的原因,下面我们就以百业文摘网为例以供出现同类问题的网站分享。

天津网站建设为我们分析了一下,主要问题在于百业文摘网的文章目录太深啦。我们的网站文章目录结构为首页>分类>小分类>内容页,四层,到这个文章的路径就有很多层啦,如下:

 http://k936.com/a/xiuxianyule/meirongmeifa/2011/0530/671.html

这样文章路径就有7层啦,过于深。所以天津网站建设认为搜索引擎的蜘蛛不愿意收取我们的文章啦!

规划合理的网站结构应是三层结构,即主页、分类或目录页以及最终的内容页面。在天津SEO网站优化的学习中我们也被灌输了一点:网站目录不能超过3层。通常在解释原因的时候会说百度、Google等搜索引擎的蜘蛛(Spider)对于网站的抓取,一般就是3层,超过3层了,蜘蛛就有可能不再抓取,不抓取的内容,就更不要说有什么可能排名了。

 搜索引擎爬虫是一个自动提取网页的程序,是搜索引擎的重要组成部分。作为爬虫来讲,就是尽可能多和快地给索引部分输送网页,实现强大的数据支持。网络爬虫是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取页面的内容,找到网页中的其他链接地址,然后通过这些链接寻找下一个网页。理论上可以这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

 但是在天津网站建设的互联网中,网页之间的链接关系是无规律的,如果一个爬虫从一个起点开始爬行,那么他将会遇到无数多的分支,由此生成无数条的爬行路径,如果任其爬行,就有可能永远也爬不到尽头,因此要对他加以控制,于是就有了蜘蛛的深度优先策略和广度优先策略。

1、简化的搜索引擎蜘蛛深度优先网页链接模型

  

 假设搜索引擎爬虫从a出发,根据深度优先的策略,所走的路径为:

1. a-b-c 2. a-b-d 3. a-e-f-g-h 4. a-i-j-k-h 通过所走的路径,我们看到深度优先的策略是尽量往最远的地方走,知道不能再走为止。但是,我们也发现,爬虫爬行了很多重复的节点,所以一定要有一个较好的算法来控制爬虫爬行的路径,以避免重复。在实际应用中,如何确定爬行到停止的程度?一般来说,可以手动来制定爬行的深度。例如,我们可以制定爬行到3层或者4层,具体要根据实际情况来决定。

我们的网站路径至少应该将前面的/a/xiuxianyule/这2个目录去掉。

鉴于我们网站的问题,希望大家不要犯同样的错误。以上问题和总结分享给大家,希望对你们有所帮助,我们很荣幸!

 文章提供者:求谛互动