关于百度搜索引擎工作原理知识,有不少站长SEO还没有认真阅读和理解,本文解读Baiduspider抓取系统原理与索引建库,让SEOer对百度蜘蛛的收录索引建库有更多了解。
互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、SogouWebSpider等。
Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。
下图为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。
上图看似简单,但其实Baiduspider在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下做简单介绍:
1.抓取友好性
互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。
通常情况下,最基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。
对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。
在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,通过链接分析发现更多网页,再对更多网页进行抓取——分析——是否建库&发现新链接的流程。理论上,Baiduspider会将新页面上所有能“看到”的链接都抓取回来,那么面对众多新链接,Baiduspider根据什么判断哪个更重要呢?两方面:
第一,对用户的价值
内容独特,百度搜索引擎喜欢unique的内容
主体突出,切不要出现网页主体内容不突出而被搜索引擎误判为空短页面不抓取
内容丰富
广告适当
第二,链接重要程度
目录层级——浅层优先
链接在站内的受欢迎程度
Baiduspider抓了多少页面并不是最重要的,重要的是有多少页面被建索引库,即我们常说的“建库”。众所周知,搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足,这也就解释了为什么有些网站的收录量超高流量却一直不理想。
那么,哪些网页可以进入优质索引库呢。其实总的原则就是一个:对用户的价值。包括却不仅于:
有时效性且有价值的页面:在这里,时效性和价值是并列关系,缺一不可。有些站点为了产生时效性内容页面做了大量采集工作,产生了一堆无价值面页,也是百度不愿看到的.
内容优质的专题页面:专题页面的内容不一定完全是原创的,即可以很好地把各方内容整合在一起,或者增加一些新鲜的内容,比如观点和评论,给用户更丰富全面的内容。
高价值原创内容页面:百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。千万不要再问我们伪原创是不是原创。
重要个人页面:这里仅举一个例子,科比在新浪微博开户了,即使他不经常更新,但对于百度来说,它仍然是一个极重要的页面。
五,哪些网页无法建入索引库
上述优质网页进了索引库,那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。那怎样的网页在最初环节就被过滤掉了呢:
重复内容的网页:互联网上已有的内容,百度必然没有必要再收录。
主体内容空短的网页
有些内容使用了百度spider无法解析的技术,如JS、AJAX等,虽然用户访问能看到丰富的内容,依然会被搜索引擎抛弃
加载速度过慢的网页,也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内。
很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。
部分作弊网页
更多关于aiduspider抓取系统原理与索引建库,请前往百度站长论坛查看文档。
相关文章
-
拼多多怎么代销,怎么找代销的商家啊(拼多多如何代卖商家产品)
而且做代销投资少,成本低,不需要有囤货,只需要开一个拼多多店铺就可以开始营业了,并且做起来后,每天只需花一两个小时用上货,有订单了就可以去商家处下单,发货就行了。,3、把阿里的链接复制到平台上,会出现拼多多登录面。,其实做代销相对来说要容易些,而且拼多多上的监管没有淘宝那么严格,所以上货也非常的方面,投入的成本也很低,赚钱相对来说要简单些,但是简单不意味着就不付出努力,想要赚钱肯定是要投入心血的。
2024-03-18 10:28 -
拼多多怎么快速上产品?如何操作?
在拼多多上开店经常需要上架一些新的产品,这样才能保证店铺的产品数量越来越多,很多人上架产品没有技巧,所以上货速度很慢,其实如果你知道了上货的技巧就可以快速上产品了,下面教大家这些技巧。,而怎么快速使用甩手拼多多上货助理来抓取商品上传呢?商家先下载甩手拼多多上货助理,点击需要抓取的电商平台。,有时候店铺如果有大量的上货需求,而你不知道这些上货技巧的话,那么就会手忙脚乱的,如果你有这些技巧,那么上货就
2024-03-13 16:58 -
抖店怎么抓取不了商品了?商品抓取助手有哪些?
抖店是一款热门的电商平台,让用户可以方便地在抖音上购买各种商品。,然而,有时候用户可能会遇到抓取不了商品的问题,这让人困惑不已。,多种设置选项:抖店商品抓取助手具备灵活的设置选项,可以根据用户需求自定义抓取范围、筛选条件等,帮助用户更精准地获取所需商品。
2024-03-22 16:09 -
拼多多代销怎么样?可以做吗?
所以肯定是可以做的,而且做代销投资少,成本低,不需要有囤货,只需要开一个拼多多店铺就可以开始营业了,并且做起来后,每天只需花一两个小时用上货,有订单了就可以去商家处下单,发货就行了。,3、把阿里的链接复制到平台上,会出现拼多多登录面。,其实做代销相对来说要容易些,而且拼多多上的监管没有淘宝那么严格,所以上货也非常的方面,投入的成本也很低,赚钱相对来说要简单些,但是简单不意味着就不付出努力,想要赚钱
2024-03-22 15:38 -
1688怎么把图片传到拼多多?拼多多如何上货?
我们知道,也有很多人都会在1688上拿货,因为这上边的货便宜质量又不错,最近有小伙伴想知道1688怎么把图片传到拼多多?那么接下来,我们就来给大家讲解一下这方面的内容。,下载拼多多上货助理软件,注册登录。,2、把阿里宝贝的链接复制到平台上,点确定,会出现拼多多登录面。
2024-03-22 15:03 -
拼多多如何做人群标签?怎么定位人群标签?
买家标是根据自身的属性及记录进行整合并打上标签,年龄阶段、搜索浏览收藏购买等。,以脑白金举例就是中老年人,这样打造出来的标就会鲜明。,b同学也是体育爱好者,喜欢买球衣、球鞋、护膝等。
2024-03-22 14:30 -
拼多多怎么代销?如何操作?
而且做代销投资少,成本低,不需要有囤货,只需要开一个拼多多店铺就可以开始营业了,并且做起来后,每天只需花一两个小时用上货,有订单了就可以去商家处下单,发货就行了。,3、把阿里的链接复制到平台上,会出现拼多多登录面。,其实做代销相对来说要容易些,而且拼多多上的监管没有淘宝那么严格,所以上货也非常的方面,投入的成本也很低,赚钱相对来说要简单些,但是简单不意味着就不付出努力,想要赚钱肯定是要投入心血的。
2024-03-22 13:59 -
【小细节成就大收获】搜索排名最基础,却被遗忘的角落
如果你们认为商品被隐性降权了,排名下滑很厉害,或者说对突然之间的排名波动没办法理解,可以看看这个帖子。,很多朋友以为综合搜索,是以7天增长,店铺权重,上下架时间来计算排名的,这个没有错,而且很对,但是这些还不够,或者说比较的条件还少了一个,是什么呢?,大家都知道,淘宝搜索时,天猫有三个豆腐块,那么豆腐块的商品是怎么抓取的呢?
2024-03-22 10:38 -
淘宝流量怎么提上到万?实操教程
流量可以说是决定店铺生死的一个重要指标,很多卖家朋友都在说自己不管多么努力,但是店铺流量就是上不去,那么到底该怎么做才可以让流量快速提升上万呢?小编这里有一些经验,跟大家一起分享一下!LL 只要宝贝可以被搜索系统抓取,那么就可以轻松提高店铺的流量,比如说一家中小型店铺,按照一般一天流量一万来算,那么抓取之后就可以变成一天五万,至少翻了4倍,并且它不同于搜索,需要持续,长时间的提升,才能到一个
2024-03-22 09:44 -
怎么篮架站点才华算不上对蜘蛛亲切呢?
关于这个问题咱们来剖析一下:一:是否存在抓取毛病假如发现文章不被搜索引擎录入了,第一点就应该看的是:网站方面是否存在抓取毛病了。,要是你的首页文章后面带了时间的话,快照日期就会根据这个显示。,这几个办法并不是每一个阶段效果都十分明显,一般在前期用外链引蜘蛛办法,中期靠网站带动器来让蜘蛛来爬,当到中后期时分内链的作用就出来,一般3-5个月后这三个办法都用的不错的状况,网站内页录入率达到80%-90%
2024-03-22 09:24
热门标签
-
百度搜索移动落地页新规定:落地页禁止出现折叠
2024-03-21 17:49
-
SEO关键词排名好的方法:5118伪原创+火车头采集教程
2024-03-21 17:49
-
SEO无收录怎么办, 实现网站秒收录不难的8种方法
2024-03-21 17:49
-
seo是什么(网络SEO什么意思作用是在哪里)
2024-03-21 17:49
-
网站SEO打造企业网络推广硬实力(企业通过SEO如何获得流量)
2024-03-21 17:49
-
为什么有人说SEO越来越难做核心原因是什么?
2024-03-21 17:49
-
域名解析记录的类型有哪些(IP解析要选哪个字段值)
2024-03-21 17:49
-
抓取诊断IP报错终极解决方案(昨天又开始做了几十个权重站)
2024-03-21 17:49
-
网站不同阶段的SEO安排与工作内容分配
2024-03-21 17:49
-
培训类网站的布局与SEO优化分析,如何优化地域网站
2024-03-21 17:49
-
网站优化怎么做,挖掘需求关键词重点网站优化的4个方法
2024-03-21 17:49
-
如何洗稿养站:一个月4000关键词+3000IP的优化方案
2024-03-21 17:49
-
百度官方SEO公开课搜索时效性代表什么意思?
2024-03-21 17:49
-
服务器一个IP多个网站(网站对SEO有哪些影响)
2024-03-21 17:49
-
怎么获取站点Logo,百度搜索资源平台怎么用才更好
2024-03-21 17:49
-
外贸企业SEO内容有哪些技巧:查找"建议"关键字
2024-03-21 17:49
-
网站有了排名 如何SEO提升快速升权重
2024-03-21 17:49
-
SEO优化难不难,优化各主流平台搜索模块的排名
2024-03-21 17:49
-
优化网站首页关键词方法:如何优化网站的 SEO排名
2024-03-21 17:49
-
SEO无收录怎么回事,如何做到秒收,需要做哪些工作
2024-03-21 17:49