了解搜索引擎抓取收录网站、网页的原理-广州立众网络科技有限公司

了解搜索引擎抓取收录网站、网页的原理

发布日期：2015-11-28 19:07 浏览次数：

笔者曾认真研究和分析过产品从企业到消费者手中的路径，得出一个结论，消费者向企业购买产品共经历了以下四个步骤:找到你、了解你、满意你、忠诚你。企业在建立好网站之后，首先就是要让客户找到你。很显然，要想让客户找到你，那么网站就必须被搜索引擎收录，能在搜索引擎的搜索结果页面上查找到。因此“网站收录”是企业网站进行网络营销的当务之急，

产品从企业到消费者手中共经历的四个步骤

不同的搜索引擎对网站收录情况不一样，但基本收录功能是差不多的，下面以百度收录为例介绍搜索引擎收录网站的原理。

网络蜘蛛的基本原理
要想了解网站收录，首先要了解网络蜘蛛的基本工作原理。网络蜘蛛又称为网络机器人，要想了解网站收录，首先要了解网络蜘蛛的基本工作原理。网络蜘蛛又称为网络机器人，英文名字叫Web Spider,这是一个非常形象的名字，如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站的某个页面(通常是首页)开始，读取网页的内容，找到在网页中其他链接地址，然后通过这些链接地址寻找下一个网页，如此循环下去，直到把这个网站所有的网页都抓取完。
笔者更愿意把网络蜘蛛称为抓取机器人，这是因为网络蜘蛛在抓取所有的页面文件之后，会把抓取到的文件存人数据库，可以把这个数据库比作为一个非常庞大的Excel表格，这个Excel表格的每一行就代表一个网页，而网页的文字则被分解到每个单元格里。

当用户在搜索引擎界面中输人关键词时，搜索引擎程序就会对搜索词进行处理，从搜索引擎数据库找到所有包含搜索词的页面，并根据排名算法计算出各个网页的排名。对于这个“搜索词处理”的环节，就好像在一个庞大的虚拟的Excel表格进行“条件筛选”的过程，当然整个搜索引擎的过程比这复杂得多。
网络蜘蛛在抓取网页时，一般有两种策略:广度优先和探度优先，如图所示。

(1)广度优先
广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页.继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。
(2)深度优先
深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接地跟踪下去，处理完这条线路之后再转人下一个起始页，继续跟踪链接。这个方法有一个优点就是网络蜘蛛在抓取的时候比较容易。
每个网络蜘蛛都有自己的名字，在抓取网页时，都会向网站表明自己的身份。例如Google网络蜘蛛称为GoogleBot,百度网络蜘蛛称为BaiDuSpider,雅虎网络蜘蛛称为Inktomi Slurp等。

为什么要做网站收录
网络蜘蛛虽然不是人，但它同样也有范围.很显然对于如大海般浩瀚的网络世界来说，网络蜘蛛要想抓取互联网上所有的网页几乎是不可能的，从目前公布的数据来看，容量最大的搜索引擎也不过是抓取了整个网页数量的40%左右，有很多网页根本无法被收录。因此.要想让网络蜘蛛抓到你，要想让客户能从搜索引擎中找到你的信息，就必须先做好网站收录工作。

« 上一篇：上一篇：为用户做好网站内容打造高转化网站

» 下一篇：下一篇：如何让百度蜘蛛收录的你网站网页

技术观点

更多>行业新闻

更多>业务范围