首页 电商 正文

看商端玩家Robots定义:Robots文件写法+3个实战经验分享

2024-03-21 17:48
admin

最近看到高端SEO社群里有同学讨论Robots相关问题,我们从实战的角度,给大家讲讲怎么写Robots写法,以及在实战中可能遇到的问题,都给大家讲一下!希望可以帮助更多不懂的同学!

什么是Robots,简单来讲,其实Robots就是放在网站根目录下的一个TXT文件,但是这个TXT文件对搜索引擎规定,哪些页面可以访问,哪些页面不行。

Robots一般放在网站根目录下,文件名固定为robots.txt的(全部小写)、当搜索引擎要爬取我们网站的时候,会先读一下robots.txt里面的内容,判断哪些URL可以访问,哪些不行,然后进行爬取、收录。

常用的几类语法:

User-agent:定义搜索引擎的类型

google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

Disallow:定义禁止搜索引擎收录的地址

举个例子来讲:User-agent:*Disallow:/

禁止所有搜索引擎访问网站,(*)为通配符

Allow:定义允许搜索引擎收录的地址

User-agent:*Disallow:/a/Allow:/a/b

如上面例子,限制搜索引擎抓取a目录,但允许搜索引擎抓取a目录下的b目录

$通配符

User-agent:*Allow:.htm$

匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:

*通配符

User-agent:*Disallow:/*.htm

告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止所有蜘蛛抓取所有htm文件:

Sitemap:http://www.xxx.com/sitemap.xml

1、许多朋友都喜欢让搜索引擎不抓取自己的后台,于是将自己的后台地址写到robots.txt里面,其实个人不建议这样做,因为考虑到网络安全,许多Hack都喜欢通过robots.txt看大家的后台,方便攻击!

2、网站必须要有robots.txt,如果网站没有robots.txt,搜索引擎随意抓取的话,可能会抓取到一些低质量页面,从而导致网站收录、流量受到影响,如上图是没有robots.txt。

3、当我们做完robots.txt后,一定要去【百度站长工具平台】抓取、测试robots.txt,以及测试URL是否可以抓取。

相关文章

  • 微信公众号可被搜索引擎抓取或将更加“互联互通” robots协议是什么

    微信公众号可被搜索引擎抓取或将更加“互联互通” robots协议是什么 不过最近有消息显示,微信公众号的内容可以被谷歌和必应等搜索引擎搜索到。,例如,一些网站如果不想让爬虫占据自家宝贵的服务器资源,往往就会直接在robots.txt文件中写上这样的规则,“User-agent:Googlebot,Allow:/User-agent:*,Disallow:/”,意思是本网站仅允许谷歌爬虫抓取,拒绝其他任何搜索引擎。,对于微信来说,公众号内容开放给外界,或许是腾讯分阶段分

    2024-03-21 20:40
  • 网站优化robots与nofollow有哪些差异 浅谈典型的网站优化战略

    网站优化robots与nofollow有哪些差异 浅谈典型的网站优化战略 robots与nofollow有哪些差异robots文件是在根目录中的一个txt文本文件,里边用代码句子告知蜘蛛什么能够抓取,什么不能抓取,从一开始就告知了蜘蛛:“我有些东西不能让你看,请你主动绕开。,说得更浅显点robots一开始就告知蜘蛛咱们什么链接不要去抓取,而对于nofollow标签来说,他无法节约咱们的蜘蛛资源,连接中加了nofollow标签,蜘蛛仍是会抓取这个链接,仅仅不传递权重,也便

    2024-03-21 18:09
  • seo基础robots写法及robots高级玩法 已回答 如何对网站关键词进行优化!

    seo基础robots写法及robots高级玩法 已回答 如何对网站关键词进行优化! 2、禁止所有搜索引擎访问User-agent:*Disallow:/或者User-agent:*allow:3、禁止所有搜索引擎访问网站中的几个部分,在这里我用a、b、c目录来代替User-agent:*Disallow:/a/Disallow:/b/Disallow:/c/如果是允许,则是Allow:/a/Allow:/b/Allow:/c/4、禁止某个搜索引擎的访问,我用w来代替User-ag

    2024-03-21 18:05