在天津网站建设中百度只收录首页的一大原因:文章目录过深

天津网站建设推荐：百度只收录首页的一大原因:文章目录过深

在天津网站建设中，最近一个月我们的网站——百业文摘网百度只收录首页，内容也不再收录了,这很让我们着急，所以我们总结了一下出现这类问题的原因，下面我们就以百业文摘网为例以供出现同类问题的网站分享。

天津网站建设为我们分析了一下，主要问题在于百业文摘网的文章目录太深啦。我们的网站文章目录结构为首页>分类>小分类>内容页，四层，到这个文章的路径就有很多层啦，如下：

http://k936.com/a/xiuxianyule/meirongmeifa/2011/0530/671.html

这样文章路径就有7层啦，过于深。所以天津网站建设认为搜索引擎的蜘蛛不愿意收取我们的文章啦！

规划合理的网站结构应是三层结构，即主页、分类或目录页以及最终的内容页面。在天津SEO网站优化的学习中我们也被灌输了一点：网站目录不能超过3层。通常在解释原因的时候会说百度、Google等搜索引擎的蜘蛛（Spider）对于网站的抓取，一般就是3层，超过3层了，蜘蛛就有可能不再抓取，不抓取的内容，就更不要说有什么可能排名了。

搜索引擎爬虫是一个自动提取网页的程序，是搜索引擎的重要组成部分。作为爬虫来讲，就是尽可能多和快地给索引部分输送网页，实现强大的数据支持。网络爬虫是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取页面的内容，找到网页中的其他链接地址，然后通过这些链接寻找下一个网页。理论上可以这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

但是在天津网站建设的互联网中，网页之间的链接关系是无规律的，如果一个爬虫从一个起点开始爬行，那么他将会遇到无数多的分支，由此生成无数条的爬行路径，如果任其爬行，就有可能永远也爬不到尽头，因此要对他加以控制，于是就有了蜘蛛的深度优先策略和广度优先策略。

1、简化的搜索引擎蜘蛛深度优先网页链接模型

假设搜索引擎爬虫从a出发，根据深度优先的策略，所走的路径为:

1. a-b-c 2. a-b-d 3. a-e-f-g-h 4. a-i-j-k-h 通过所走的路径，我们看到深度优先的策略是尽量往最远的地方走，知道不能再走为止。但是，我们也发现，爬虫爬行了很多重复的节点，所以一定要有一个较好的算法来控制爬虫爬行的路径，以避免重复。在实际应用中，如何确定爬行到停止的程度？一般来说，可以手动来制定爬行的深度。例如，我们可以制定爬行到3层或者4层，具体要根据实际情况来决定。

我们的网站路径至少应该将前面的/a/xiuxianyule/这2个目录去掉。

鉴于我们网站的问题，希望大家不要犯同样的错误。以上问题和总结分享给大家，希望对你们有所帮助，我们很荣幸！

文章提供者：求谛互动

上一篇：在天津网站建设中开始入手SEO优化
下一篇：政府门户网站建设解决方案

求谛动态

求谛观点

行业看法

在天津网站建设中百度只收录首页的一大原因:文章目录过深