小红书屏蔽了所有搜索引擎,蜘蛛遵守robots协议?

nZone 2023年11月5日更新于8 月前 共602字 23行代码 预计3分钟 评论 348
阿里云折扣】服务器活动对比【腾讯云秒杀

笔者之前没有留意到小红书屏蔽了搜索引擎,前个月才发现,我们先看下小红书的 robots.txt 文件,明确指定要屏蔽 Google、百度、Bing(必应)、搜狗、一搜、百度商务搜索等蜘蛛,其它未指定的蜘蛛也全部屏蔽。

User-agent:Googlebot
Disallow:/

User-agent:Baiduspider
Disallow:/

User-agent:bingbot
Disallow:/

User-agent:Sogou web spider
Disallow:/

User-agent:Sogou wap spider
Disallow:/

User-agent:YisouSpider
Disallow:/

User-agent:BaiduSpider-ads
Disallow:/

User-agent:*
Disallow:/

你想屏蔽就屏蔽了?测试国内搜索引擎基本都不遵守 robots 协议,也可以说蜘蛛反应迟钝,反应迟钝为啥删帖就很快?我们搜索:site:www.xiaohongshu.com

小红书百度收录

百度收录7.98亿,要接近8亿了。

小红书搜狗收录页面

搜狗收录6.5亿,评级1也是奇怪,这个评级一点参考意义都没有。

小红书360搜索收录页面

360搜索收录比较少,45.6万,第二天再查询发现收录还增加了两千。

小红书头条搜索收录页面

头条搜索是唯一展示了受 robots 协议限制的说明,也是国内唯一遵守 robots 协议的搜索引擎,只显示网站标题。

再截图下小红书的 robots.txt 文件。

小红书的 robots.txt 文件

排第一的 Google 完全遵守 robots 协议,site小红书网站,无收录页面,除了域名,其它包括站名、logo等均不显示。

微软的 Bing 也有20万的收录,有站名和logo,但没有描述。

现在4号又减少到了17万,在清除收录吧。

以前在百度搜索淘宝时,会提示 robots 禁止,现在早已没有这样显示了。

百度站长平台检测小红书

要真正屏蔽就得把蜘蛛的 IP 给封禁掉,或者人工干预。

闹着玩下网在上个月似乎被K站了,同时自己也主动禁止了百度蜘蛛抓取,现在过了一个月,有时site会有,反而有收录了?

国内的互联网环境都在不断封闭,搞私域流量。在你成长起来之前,你得依托平台,哪一天发展壮大了,你自己就成了平台,直接对接终端粉丝,最后好多呢也是加微信,腾讯呢笑而不语。

weinxin
公众号
闹着玩下网
avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: