wordpress使用CDN之后百度抓取异常Robots封禁 的排查过程

地下室先生博客已经更新了好几天,但是百度一直没有收录,今天通过百度站长工具进行分析,在使用抓取诊断工具进行抓取诊断的时候,总是提示抓取失败。点击失败详情的时候可以看到以下信息:

百度抓取诊断错位原因

百度抓取诊断错位原因

诊断的结果是:Robots封禁,也就是说是因为我的robots.txt中设置的规则是禁止百度抓取。

我赶紧检查了下我的robots.txt,看到的规则如下:
User-agent: *
Disallow: /

也就意味着我限制了所有内容都不能被搜索引擎抓取。

但是我并没有设置这样的规则啊。我检查了我的网站根目录,我设置都没有设置robots.txt文件,不清楚怎么会有这样的robots规则。

先不管这个,既然知道了原因,我就创建了新的bobots.txt文件,并上传到网站根目录,新的robots规则(参考的知更鸟博客)如下:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*?*
Disallow: /attachment/

刷新robots.txt地址,并未生效

群友提示在百度站长工具中检测并更新robots规则,结果显示的robots规则依然是之前的,新的并未生效,失败。

无语~

想起来了,我使用了阿里云CDN,CDN节点的缓存应该是没有更新,于是登陆阿里云CDN后台手动刷新robots.txt,等几分钟,在百度站长工具中刷新robots规则,从新进行抓取诊断,终于成功。

问题虽然解决了,但是最初的robots为什么是禁止所有搜索引擎抓取呢?

突然想起来,我搭建本博客的时候,因为还没有设置好,所以在安装wordpress的时候,直接在安装界面的”对搜索引擎的可见性“选择了“建议搜索引擎不索引本站点如下图,所以wordpress生成了一个默认的虚拟的robot规则:Disallow: /,禁止了所有搜索引擎的抓取。

对搜索引擎的可见性“选择了“建议搜索引擎不索引本站点

对搜索引擎的可见性“选择了“建议搜索引擎不索引本站点

不过我在设置好网站的相关信息之后,在设置-阅读中取消了“建议搜索引擎不索引本站点”功能,那为什么还是出现了到今天仍然不让搜索引擎抓取的问题呢?

那是因为我在建站开始就使用了阿里云的CDN,因此CDN节点上已经缓存了最开始的robots.txt,并且是禁止抓取的规则。虽然我随后在后台取消了相关设置,但是CDN节点上的robots规则并没有更新。

所以这里提示使用CDN的朋友,在修改网站某些设置的时候,如果这个设置在CDN中缓存的时间比较长,一定要记得手动更新的缓存。或者等网站设置好之后,在启用CDN,避免出地下室先生博客的问题。

未经允许不得转载:地下室先生博客 » wordpress使用CDN之后百度抓取异常Robots封禁 的排查过程

赞 (0) 打赏作者

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏