闹着玩下网已屏蔽百度搜索引擎!

nZone 2023年10月2日更新于10 月前 共1251字 31行代码 预计6分钟 评论 117
阿里云折扣】服务器活动对比【腾讯云秒杀

目前,闹着玩下网已屏蔽百度蜘蛛抓取内页,并关闭了百度联盟广告,名义上是退出百度联盟了!

一、屏蔽百度搜索引擎

自从发表百度App的问题后,闹着玩下网似乎被K了,本来就想屏蔽百度,不过除了淘宝,一般很少有网站会去主动屏蔽搜索引擎,那差不多是断了流量来源,个人博客几乎不会这么做,为什么建议屏蔽呢?

因为百度出个文心一言,这个所谓的文心一言大模型其实是通过读取搜索引擎内容训练学习,文心一言默认强制启用百度搜索插件,说是为了保证生成更实时准确的信息,还不支持关闭。

百度宇宙世界

之前闹着玩下网百度收录相当快,百度蜘蛛每天来,发布文章后秒录,让人受宠若惊。可是你要意识到,你的文章一旦被百度抓取收录后,就不是你的了。

百度可以任意使用你的内容,并且不会注明出处,把你的文章重新表达下,就变成文心一言说的了,根本没有引用来源,如果你在内容上加了文字水印,直接拿去,也是搞笑,当然这后面肯定会改进(去文字水印)。

这里有个死循环:假设你的原创文章发布后,被百度收录,百度搜索作为插件辅助文心一言,当用户互动触发文章内容,文心一言将其转化成它的语言并输出,不明真相的用户也是认为这回复是人工智能AI的结果。

这时,如果文心一言的回复被大量用户引用,因为没有注明来源,百度搜索引擎最后很可能认为你的文章是抄​文心一言的。本来是你自己原创写的文章,最后你自己变成抄袭者。是不是很可悲!

网站如果要屏蔽百度蜘蛛来访,直接修改网站的根目录文件“robots.txt”,这是最简单方便的方法。

Robots文件协议
User-agent: Baiduspider
Disallow: /

如果只允许抓取首页,可以这样修改:

User-agent: Baiduspider
Disallow: /
Allow: /$

但蜘蛛不一定会遵守协议,比如淘宝还是被百度收录了,只是收录的比较少。

百度0收录

二、哪些网站屏蔽了百度

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),“robots.txt”通常放在根目录,用来告知网络爬虫哪些页面可以抓取,哪些页面不能抓取的通用标准。

对于遵循这个标准的搜索引擎爬虫,如果网站的 robots.txt 禁止抓取,它就不应该抓取网站中的那些页面。不过有报导和评论指出,早期的百度爬虫并不完全遵循 robots.txt 的规定,会有选择性地忽略一些 robots 协议。

淘宝屏蔽百度

有部分网站仍然采取直接屏蔽百度 User Agent 的做法,说明百度爬虫仍有一定违规情况。根据网上的报道和讨论,以及笔者的验证,已知有以下一些网站屏蔽或者限制了百度搜索引擎:

百度:https://www.baidu.com/robots.txt

淘宝:https://www.taobao.com/robots.txt

微博:https://weibo.com/robots.txt

小红书https://www.xiaohongshu.com/robots.txt

闹着玩下网:https://www.nzonex.com/robots.txt

还有更多待更新,想到再补充!

微博的写法是不规范,他把所有的凑成一行,截止2023年10月,微博共有39亿2620万个网页被百度收录。

微博百度收录情况

翻译下微博的写法,加个换行方便查看:

Sitemap: https://weibo.com/sitemap.xml

User-Agent: Baiduspider
Disallow:
User-agent: 360Spider
Disallow:
User-agent: Googlebot
Disallow:

User-agent: *
Allow: /ads.txt

User-agent: Sogou web spider
Disallow:
User-agent: bingbot
Disallow:
User-agent: smspider
Disallow:
User-agent: HaosouSpider
Disallow:
User-agent: YisouSpider
Disallow:

User-agent: *
Disallow: /

另外,Github已经取消屏蔽百度,只是限制了百度的抓取频率,crawl-delay: 1,即两次爬取之间的等待时间为1秒。这样的设置有助于网站管理员控制爬虫的爬取频率,以防止对服务器造成过大的负载。

由于百度搜索引擎在海外的市场份额较小,因此很多国外网站都没有将百度搜索引擎作为默认搜索引擎。这些网站通常会使用谷歌搜索、必应搜索等其他搜索引擎。

weinxin
公众号
闹着玩下网
avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: