首页 电商 正文

网站收录及抓取建设指南:百度爬虫官方解释

2024-03-21 17:49
admin

百度爬虫工作原理

首先百度的抓取器会和网站的首页进行交互,拿到网站首页之后会对页面进行理解,理解包含(类型、价值计算),其次会把网站首页的所有超链接提取出来。如下图所示,首页的超链接被称为“后链”,等到下一轮抓取的时候,抓取器会继续和这些超链接的页面进行交互,拿到页面进行提炼,依次不断一层一层的抓取,这就构成了抓取环路。

抓取友好性优化

1、URL规范:

任何一个资源都是通过URL来抓取的,URL相对于网站的门牌号,那么URL的规划就非常重要了。尤其是如上图所示,“待抓URL”的环境,爬虫在首页的时候,并不知道URL是什么样子。

优秀的URL的特点是主流的、简单的,竟可能不要去做一些非主流的样式,让人看起来很直观的URL。

优秀URL示例:

如上图所示,第一条是百度知道的链接,整个链接分成三段,第一段是网站的站点,第二段是资源类型,第三段是资源的ID。这种就是非常简单,并且爬虫看起来非常优质的URL。

如上图所示,第三条相对百度知道多了一个段,首先第一段是网站的站点,第二段是站点的一级目录,第三段是站点的二级目录,最后一段是站点的内容ID。像这种的URL也是符合标准的。

不友好的URL示例:

如上图所示,这种链接一看就很长很复杂,有经验的站长都看得出,这种URL包含了字符,这个URL内包含了文章的标题,导致URL偏长,一个偏长的URL相对比简单的URL是不占优势的,百度站长平台的规则有明确的说到URL不能超过256字节,个人建议URL长度控制在100字节之内,100个字符足够展现出URL的资源了。

如上图所示,这段URL包含统计参数,可能会导致重复抓取,浪费站点权益,所以竟可能不使用参数,如果一定要使用参数,那么也可以保留必要参数,参数字符竟可能使用常规的连接符,比如“?”、“&”,避免非主流连接符。

2、合理发现链路:

爬虫是从首页开始一层一层抓取的,所以就需要做好首页与资源页的URL关系。这样爬虫抓取相对而言比较省力。

如上图所示,从首页到具体内容的超链路径关系叫做发现链路,目前大多数移动站没有太注意发现链路的关系,所以导致爬虫无法抓取到内容页。

如上图所示,这两个站点是移动网站常见的建站方式,从发现链路的角度来讲,这两类站点是不友好。

Feed流推荐:大多数做feed流的站点后台是有非常多的数据,用户不断的刷会有新的内容出现,但你刷新的次数再多,可能也只能刷到1%左右的内容,而爬虫相当于一个用户,爬虫不可能做到以这种方式将网站所有的内容都爬取到,所以就会导致一些页面爬虫不到,即使你有100万的内容,可能只能抓取到1-2万。

仅有搜索入口:如上图所示,首页只有一个搜索框,用户需要输入关键词,才能找到对应的内容,但爬虫不可能做到输入关键词然后再去爬取,所以爬虫只能爬取到首页后,就没有后链了,自然抓取和收录就会不理想。

解决方案:索引页下的内容按发布时间逆序排序的,这样做有一个好处,搜索引擎可以通过索引页即使的抓取到你网站最新的资源,另外新发布的资源要实时在索引页同步,很多纯静态的网页,内容更新了,但是首页(索引页)却没有出来,这样会导致搜索引擎通过索引页无法即使的抓取到最新的资源,第三个点是后链(最新文章)的URL需要直接在源码在露出,方便搜索引擎抓取,最后就是索引页不是越多越好,有少数优质的索引页就足够了,比如长城号,基本上只利用首页来做索引页。

最后这里和大家说一个更高效的解决方案,那就是直接通过百度站长资源平台去主动提交资源,这样搜索引擎可以绕过索引页直接抓取到最新资源,这里需要注意两个点。

Q:资源提交是不是越多越好?

A:收录效果的核心永远是内容质量,如果大量提交低质、泛滥资源会导致惩罚性打击。

Q:为什么提交了普通收录但没有抓?

A:资源提交只能加速资源发现,不能保证短时间内抓取,当然百度方面表示,算法在持续优化,让优质的内容更快得到抓取。

3、访问友好性:

抓取器要和网站进行交互,要保证网站的稳定的,抓取器才能够正常的爬取。那么访问友好性主要包括以下几个方面。

访问速度优化:加载时间建议控制在2S以内,那么无论是用户还是爬虫,对于打开速度更快的网站,都会更加青睐,其次是避免非必要的跳转,这种情况虽然是少部分,但依然有网站出现很多级的跳转,那么对于爬虫来讲,很有可能在多级跳转的同时就断开了。常见的有做了不带www的域名跳转到带WWW的域名上,然后带WWW的域名又要跳转到https上,最后更换新站,这种情况就出现了三四级的跳转。如果出现类似网站改版,建议直接全部跳转到新域名上。

规范http返回码:我们常见的301/302的正确使用,以及404的正确使用,主要是常规的问题,用常规的方式来解决,比如遇到无效资源,那么就使用404来做,不要用一些特殊的返回状态码了。

访问稳定性优化:首先尽可能选择国内大型的DNS服务,以保证站点的稳定性,对于域名的DNS,实际上阿里云还是比较稳定靠谱的,那么其次是谨慎使用技术手段封禁爬虫抓取,如果说有特定资源不希望在百度上展现,那么可以采用robots来屏蔽,比如说网站的后台链接,大多数都是通过robots屏蔽的。如果说抓取频次太高,导致服务器压力过大,影响用户正常访问,那么可以通过资源平台的工具降低抓取频率。其次是避免防火墙误封禁爬虫抓取,那么这里建议大家可以把搜索引擎的UA加入到白名单。最后一点是服务器的稳定性,特别是在短时间内提交大量优质资源,这个时候一定要关注服务器稳定性,因为当你提交大量资源后,爬虫会随之增加,这个时候会不会导致你服务器压力过大而打不开,这个问题是需要站长关注的。

如上图所示,这三个例子就是第三方防火墙拦截的一个状态,当正常用户打开是这个状态的时候,搜索引擎抓取的时候,也会处于这个状态,所以如果遇到CC或者DDOS的时候,我们开启防火墙的前提,一定要放开搜索引擎的UA。

4、识别百度爬虫

对于部分网站,可能对用户方面有特殊的优化,可能有网站想把用户和爬虫区分开来做优化,所以这个时候就需要识别百度爬虫。

首先用简单的方法,我们可以通过百度的UA来识别出百度爬虫,那么目前来讲百度PC、移动、和小程序是三个不同的UA,那么通过简单的识别方法,有出现有第三方的爬虫模拟百度爬虫,导致你识别不出来。那么这个时候,咱们可以通过双向DNS解析认证来区分,具体参考《轻松两步:教你快速识别百度蜘蛛》。

问答环节

Q:新站会不会有一个的抓取限制?

A:对于任何一个新站来讲,都没有抓取限制,不过去年开始,我们已经开始对新站有一个扶持,让你的网站,先在百度上收录起来。然后再进行一个价值判断,那么如何让百度知道你是一个新站,有两个捷径,第一个是去百度资源平台提交,第二个点是去工信部做ICP的备案,我们可以从工信部拿到ICP备案的数据,备案之后我们就知道有人建了一个新的站点,这样就可以给新站一个基础的流量扶持。

Q:每个站点蜘蛛抓取的配额都会有调整,大概多久调整一次?

A:确实会有调整,对于新资源会与你抓取频率相关,对于旧资源会与你内容质量相关,如果说新资源的质量有变化,那么抓取频率也会有变化,网站的规模有变化,那么抓取的频率也会有变化,如果说有很大的改版,那么抓取频率相对而言也会有变化。

Q:网站降权能不能恢复?

A:网站降权恢复的前提是我们会对网站进行重新评估,查看网站是不是有整改,如果有整改是不是做了404,并且有提交到资源平台,如果说完全符合要求后,搜索引擎会经过评估后,对没有违规的网站进行恢复。

Q:新站点是不是有考核期?

A:对我们来讲是没有一个考核期这么一个东西,我们前面也讲到了,竟可能会对新站的一个流量扶持,假设一个新站点流量扶持1-2个月以后,发现网站继续保持这种状态,那么就不会有一个太大的调整,当发现网站质量有明显的提升,那么我们也会相应的提升百度排名。

Q:百度对外国的服务器和国内的服务器有没有区别对待?

A:策略角度上来件,没有硬性区别对待,但是很多外国的服务器对国内部分区域封禁,以及国外服务器网站备案的角度上来讲,国内的服务器都具有优势。

Q:新站旧域名是不是更有优势?

A:如果说老域名和新站是相同的内容,确实在起步阶段有一定的优势,但仅仅是起步阶段,后期还是要看内容的质量,特别要注意的是,如果说老域名的行业和你新网站的内容不相关,即使是所谓高权重的老域名,也会适得其反。百度会认为你今天做这个,明天做那个,效果还不如重新做一个新域名。

Q:蜘蛛是不是有权重之分,比如220和116这种高权重蜘蛛?

A:蜘蛛是没有权重之分的,网站的排名最主要是取决于网站的质量。

相关文章

  • 拼多多怎么代销,怎么找代销的商家啊(拼多多如何代卖商家产品)

    拼多多怎么代销,怎么找代销的商家啊(拼多多如何代卖商家产品) 而且做代销投资少,成本低,不需要有囤货,只需要开一个拼多多店铺就可以开始营业了,并且做起来后,每天只需花一两个小时用上货,有订单了就可以去商家处下单,发货就行了。,3、把阿里的链接复制到平台上,会出现拼多多登录面。,其实做代销相对来说要容易些,而且拼多多上的监管没有淘宝那么严格,所以上货也非常的方面,投入的成本也很低,赚钱相对来说要简单些,但是简单不意味着就不付出努力,想要赚钱肯定是要投入心血的。

    2024-03-18 10:28
  • 拼多多怎么快速上产品?如何操作?

    拼多多怎么快速上产品?如何操作? 在拼多多上开店经常需要上架一些新的产品,这样才能保证店铺的产品数量越来越多,很多人上架产品没有技巧,所以上货速度很慢,其实如果你知道了上货的技巧就可以快速上产品了,下面教大家这些技巧。,而怎么快速使用甩手拼多多上货助理来抓取商品上传呢?商家先下载甩手拼多多上货助理,点击需要抓取的电商平台。,有时候店铺如果有大量的上货需求,而你不知道这些上货技巧的话,那么就会手忙脚乱的,如果你有这些技巧,那么上货就

    2024-03-13 16:58
  • 抖店怎么抓取不了商品了?商品抓取助手有哪些?

    抖店怎么抓取不了商品了?商品抓取助手有哪些? 抖店是一款热门的电商平台,让用户可以方便地在抖音上购买各种商品。,然而,有时候用户可能会遇到抓取不了商品的问题,这让人困惑不已。,多种设置选项:抖店商品抓取助手具备灵活的设置选项,可以根据用户需求自定义抓取范围、筛选条件等,帮助用户更精准地获取所需商品。

    2024-03-22 16:09
  • 拼多多代销怎么样?可以做吗?

    拼多多代销怎么样?可以做吗? 所以肯定是可以做的,而且做代销投资少,成本低,不需要有囤货,只需要开一个拼多多店铺就可以开始营业了,并且做起来后,每天只需花一两个小时用上货,有订单了就可以去商家处下单,发货就行了。,3、把阿里的链接复制到平台上,会出现拼多多登录面。,其实做代销相对来说要容易些,而且拼多多上的监管没有淘宝那么严格,所以上货也非常的方面,投入的成本也很低,赚钱相对来说要简单些,但是简单不意味着就不付出努力,想要赚钱

    2024-03-22 15:38
  • 1688怎么把图片传到拼多多?拼多多如何上货?

    1688怎么把图片传到拼多多?拼多多如何上货? 我们知道,也有很多人都会在1688上拿货,因为这上边的货便宜质量又不错,最近有小伙伴想知道1688怎么把图片传到拼多多?那么接下来,我们就来给大家讲解一下这方面的内容。,下载拼多多上货助理软件,注册登录。,2、把阿里宝贝的链接复制到平台上,点确定,会出现拼多多登录面。

    2024-03-22 15:03
  • 拼多多如何做人群标签?怎么定位人群标签?

    拼多多如何做人群标签?怎么定位人群标签? 买家标是根据自身的属性及记录进行整合并打上标签,年龄阶段、搜索浏览收藏购买等。,以脑白金举例就是中老年人,这样打造出来的标就会鲜明。,b同学也是体育爱好者,喜欢买球衣、球鞋、护膝等。

    2024-03-22 14:30
  • 拼多多怎么代销?如何操作?

    拼多多怎么代销?如何操作? 而且做代销投资少,成本低,不需要有囤货,只需要开一个拼多多店铺就可以开始营业了,并且做起来后,每天只需花一两个小时用上货,有订单了就可以去商家处下单,发货就行了。,3、把阿里的链接复制到平台上,会出现拼多多登录面。,其实做代销相对来说要容易些,而且拼多多上的监管没有淘宝那么严格,所以上货也非常的方面,投入的成本也很低,赚钱相对来说要简单些,但是简单不意味着就不付出努力,想要赚钱肯定是要投入心血的。

    2024-03-22 13:59
  • 【小细节成就大收获】搜索排名最基础,却被遗忘的角落

    【小细节成就大收获】搜索排名最基础,却被遗忘的角落 如果你们认为商品被隐性降权了,排名下滑很厉害,或者说对突然之间的排名波动没办法理解,可以看看这个帖子。,很多朋友以为综合搜索,是以7天增长,店铺权重,上下架时间来计算排名的,这个没有错,而且很对,但是这些还不够,或者说比较的条件还少了一个,是什么呢?,大家都知道,淘宝搜索时,天猫有三个豆腐块,那么豆腐块的商品是怎么抓取的呢?

    2024-03-22 10:38
  • 淘宝流量怎么提上到万?实操教程

    淘宝流量怎么提上到万?实操教程   流量可以说是决定店铺生死的一个重要指标,很多卖家朋友都在说自己不管多么努力,但是店铺流量就是上不去,那么到底该怎么做才可以让流量快速提升上万呢?小编这里有一些经验,跟大家一起分享一下!LL  只要宝贝可以被搜索系统抓取,那么就可以轻松提高店铺的流量,比如说一家中小型店铺,按照一般一天流量一万来算,那么抓取之后就可以变成一天五万,至少翻了4倍,并且它不同于搜索,需要持续,长时间的提升,才能到一个

    2024-03-22 09:44
  • 怎么篮架站点才华算不上对蜘蛛亲切呢?

    怎么篮架站点才华算不上对蜘蛛亲切呢? 关于这个问题咱们来剖析一下:一:是否存在抓取毛病假如发现文章不被搜索引擎录入了,第一点就应该看的是:网站方面是否存在抓取毛病了。,要是你的首页文章后面带了时间的话,快照日期就会根据这个显示。,这几个办法并不是每一个阶段效果都十分明显,一般在前期用外链引蜘蛛办法,中期靠网站带动器来让蜘蛛来爬,当到中后期时分内链的作用就出来,一般3-5个月后这三个办法都用的不错的状况,网站内页录入率达到80%-90%

    2024-03-22 09:24