当前位置: 主页 > SEO教程 >

什么是搜集器?搜集器的搜集策略?

时间:2009-04-22 12:03来源:恒信网站优化 作者:SEO爱好者 点击:
什么是搜集器搜集策略?搜集器的搜集策略是什么?搜索器是一个计算机程序,其实现常常采用分布式和并行处理技术,以提高信息发现和更新的效率.搜集器一般采用以宽度优先搜索策略为主、线性
  

搜集器的功能是在互联网中漫游,发现并搜集信息,它搜集的信息类型多种多样,包括HTML页面、XML文档、多媒体信息、FTP文件、Word、PDF等文字处理类文件等。搜索器是一个计算机程序,其实现常常采用分布式和并行处理技术,以提高信息发现和更新的效率。商业搜索引擎的搜集器每天可以搜集几百万甚至更多的网页。搜索器一般要不停地运行,要尽可能多、尽可能快地搜集互联网上的各种类型的新信息。因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接无效链接。另外,因为Web信息是动态变化的,因此搜集器分析器索引器要定期更新数据库,更新周期通常约为几周甚至几个月。索引数据库越大,更新也越困难。

    在搜集器实现时,系统中维护一个超链队列,或者堆栈,其中包含一些起始URL,搜集器从这些URL出发,下载相应的页面,并从中抽取出新的超链接加入到队列或者堆栈中,上述过程不断重复队列直到堆栈为空。为提高效率,搜索引擎将Web空间按照域名、IP地址或国家域名进行划分,使用多个搜集器并行工作,让每个搜索器负责一个子空间的搜索。为了便于将来扩展服务,搜集器应能改变搜索范围。

由于互联网上的信息在爆炸式的增长,所以搜集器需要采用一定的搜索策略来对互联网进行遍历并下载文档。一般采用以宽度优先搜索策略为主、线性搜索策略为辅的搜索策略。

  1、宽度优先搜集策略

      宽度优先搜集策略是先搜索同一层中的内容,然后再继续搜索下一层。假如一个HTML文件中有三个超链接,选择其中之一并处理相应的HTML文件,然后返回并选择刚才第一个网页的第二个超链接,处理相应的HTML文件,再返回。一旦同一层上的所有超链接都已被处理过,就可以开始在刚才处理过的HTML文件中搜索其余的超链接。这样保证了对浅层的首先处理,当遇到一个无穷尽的深层分支时,也就不会再陷进去。宽度优先搜集策略容易实现并被广泛采用,但是需要花费比较长的时间才能到达深层的HTML文件。

   2、 深度优先搜集策略

      深度优先搜集策略是早期开发搜集器使用较多的一种方法,它的目的是要达到被搜索结构的叶结点。深度优先搜索顺着HTML文件上的超链接走到不能再深入为止,然后返回到上一个接点的HTML文件,再继续选择该HTML文件中的其他超链接。当不再有其他超链接可选择时,说明搜索已经结束。深度优先搜索适宜遍历一个指定的站点或者深层嵌套的HTML文件集,但对于大规模的搜索,由于Web结构相当深,也许永远也出不来了。

    3、线性搜集策略

      线形搜索策略的基本思想是从一个起始的IP地址出发,按IP地址递增的方式搜索后续的每一个IP地址中的信息,完全不考虑各站点的HTML文件中指向其他Web站点的超链接地址。此策略不适用于大规模的搜索(主要原因在于IP可能是动态的),但可以用于小范围的全面搜索,利用此种策略的搜集器可以发现被引用较少或者还没有被其他HTML文件引用的新HTML文件信息源。 

    4、收录搜集策略

      有些网页可以通过用户提交的方式进行搜集,例如某些商业网站向搜索引擎发出收录申请,搜集器就可以定向搜集提交申请网站的网页信息并加入到搜索引擎的索引数据库中。

顶一下
(5)
71.4%
踩一下
(2)
28.6%
------分隔线----------------------------
最新评论 查看所有评论
最新评论 查看所有评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
用户名: 密码: 验证码:
推荐内容