患了中二病,等于有了一种信仰。 收藏本站
登陆 / 注册 搜索

阅读:237   回复: 1

使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题

原创 [复制链接]
小执念 古黑浩劫论坛大牛 2022-8-21 17:34 |显示全部楼层

可遇不可求的事:故乡的云,上古的玉,随手的诗,十九岁的你。

管理员
好久没有注意到网站的收录情况了,最近几天发现百度最新收录的帖子是5月份的,在这之后就没有收录了。看到这个我的心突然就凉了半截.......

使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821165631.jpg

一、排查问题
👮‍♂️🧢🔑😆✍🏠🌶♑🐂
这段时间网站也没改版,没有出现大范围的网络故障,之前好好的怎么就不收录了呢?用 site 命令查询发现网站还在,排除掉 K 站了,然后去百度站长社区溜达溜达看看其他人有没有和我一样的,其他人都是正常的。(后面两天站长社区维护关闭了,想问点问题都不行)

然后想是不是百度不能抓取到网站的内容,所以不收录新内容,旧内容正常。用自带的抓取模拟工具抓取一下:
🥷👚💾😷👆🏦🍪♑🦚
使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821170601.jpg
使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821170544.jpg

偶尔有抓取成功的,大部分是抓取失败(我一开始怀疑百度在抽风)。又去让其他站长试试抓取工具正常吗,他们也是正常的。
🧑‍🌾💄🔍🤪👃🎢🥑↔🐮
我又看了看谷歌和 bing 的收录,这两个是正常的,搜狗和360基本没了。

二、发现问题

一般来说 socket 读写错误 就是百度访问不了抓取的页面,不会有错的。
👩🥼🔭😄👍🌦🥭✔🦜
如果自己能正常浏览网站,百度提示这个错误,可能是系统防火墙或者其他 WAF拦截掉了。

三、解决问题
🥷🧥🔍😷💪🚂🍭🔞🦟
我在服务器上是没有针对百度做拦截的,那么问题应该就在 WAF 上了!

在 cloudflare 上查找和爬虫相关的 WAF 规则,发现了这个:合法机器人爬虫
使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821171442.jpg
👴🥾🔍🥲🦴🧳🥛✡🐶
那么创建一条规则:

使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821171624.jpg

创建完成后,等个10分钟看看再去抓取诊断,果然都抓取成功了!
👨‍🦱👖🦯🤪🤝🍟♏🐮
使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821171737.jpg

四、后续

🧒👠💉😄👄⛄🥭❓🐞为什么谷歌和 bing 都正常,国内的几个搜索引擎都不能抓取呢?

现在正常抓取后懒得去想了

为了预防以后再出现问题,我把百度蜘蛛的 ip 段加入了 cloudflare 的允许访问的规则:
🧑‍🚀👗🪥😋👈🗽🧊☪🐕
使用 CloudFlare 后百度蜘蛛抓取错误,不收录问题 QQ截图20220821172712.jpg

这些 ip 段都是我根据网上那些流传 ip 一个一个手动查的,确保都是百度蜘蛛的 ip段,出售一个古黑币不算贵吧

👩🧣💰😆🤌🔥🍼🈳🐶

尊敬的游客, 此内容需要支付 1个古黑币 才能浏览, 如何获取古黑币/金币?立即支付


上一篇
下一篇
帖子热度 247 ℃

凤凰院长旭 「初入古黑」 2022-8-21 17:34 |显示全部楼层

这个用户很懒,还没有填写自我介绍呢~

路过 帮顶 嘿嘿
您需要登录后才可以回帖 登录 | 免费注册  

本版积分规则

快速回复 返回列表