我们一路奋战,不是为了改变世界,而是为了不让世界改变我们。 收藏本站
登陆 / 注册 搜索

阅读:5.9K   回复: 1

使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题

原创 [复制链接]
小执念 古黑浩劫论坛大牛 2022-8-21 17:34 |显示全部楼层

可遇不可求的事:故乡的云,上古的玉,随手的诗,十九岁的你。

管理员

2022-10-10,时隔两个月后更新:因为CF被太多人用来翻墙,国内的搜索引擎查到网站在CF的IP下就不会继续抓取新内容了。

--------

👌🏝🍌❗🦉‏好久没有注意到网站的收录情况了,最近几天发现百度最新收录的帖子是5月份的,在这之后就没有收录了。看到这个我的心突然就凉了半截.......

使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821165631.jpg

一、排查问题👨‍🎨‍👠💉🥲🦴

这段时间网站也没改版,没有出现大范围的网络故障,之前好好的怎么就不收录了呢?用 site 命令查询发现网站还在,排除掉 K 站了,然后去百度站长社区溜达溜达看看其他人有没有和我一样的,其他人都是正常的。(后面两天站长社区维护关闭了,想问点问题都不行)

然后想是不是百度不能抓取到网站的内容,所以不收录新内容,旧内容正常。用自带的抓取模拟工具抓取一下:
🧑‍💻‌🧣🪜🤑🤌
使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821170601.jpg
使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821170544.jpg

偶尔有抓取成功的,大部分是抓取失败(我一开始怀疑百度在抽风)。又去让其他站长试试抓取工具正常吗,他们也是正常的。

💪🛩🍏💲🦊‏我又看了看谷歌和 bing 的收录,这两个是正常的,搜狗和360基本没了。

二、发现问题

一般来说 socket 读写错误 就是百度访问不了抓取的页面,不会有错的。
👏🦼🍇♏🦠‍
如果自己能正常浏览网站,百度提示这个错误,可能是系统防火墙或者其他 WAF拦截掉了。

三、解决问题

🥷‍🥾🦯😍✊


我在服务器上是没有针对百度做拦截的,那么问题应该就在 WAF 上了!

在 cloudflare 上查找和爬虫相关的 WAF 规则,发现了这个:合法机器人爬虫
使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821171442.jpg
👳‌🩲🪦😆🧠
那么创建一条规则:

使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821171624.jpg

创建完成后,等个10分钟看看再去抓取诊断,果然都抓取成功了!👩‍✈️‍🩲📥😴

使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821171737.jpg

四、后续
👴‌🪖🪝😍👃
为什么谷歌和 bing 都正常,国内的几个搜索引擎都不能抓取呢?

现在正常抓取后懒得去想了

为了预防以后再出现问题,我把百度蜘蛛的 ip 段加入了 cloudflare 的允许访问的规则:👦‌🥾🏮😉🤞

使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821172712.jpg


上一篇
下一篇
帖子热度 5866 ℃

凤凰院长旭 「初入古黑」 2022-8-21 17:34 |显示全部楼层

这个用户很懒,还没有填写自我介绍呢~

路过 帮顶 嘿嘿
您需要登录后才可以回帖 登录 | 免费注册  

本版积分规则

快速回复 返回列表