mj12bot是什么? 半个小时爬取800多,禁止蜘蛛MJ12bot抓取网站信息
- 时间:
- 浏览:4426
- 来源:无双科技
打开网站突然看到新增蜘蛛爬虫900多,事出异常必有妖,查看分类,发现出现大量不知名爬虫
具体爬虫userAgent:mozilla/5.0 (compatible; mj12bot/v1.4.8; http://mj12bot.com/) IP地址:50.110.90.139
查阅资料显示 MJ12bot是英国的一家老牌的搜索引擎营销网站Majestic的爬虫(MJ12bot是Majestic-12分布式搜索引擎的爬虫),他有专门的中文站,对外链查询等很多SEO数据查询提供数据支撑,做过外链的都知道,获取外链资源是一项基本能力,这个网站可以查询网站的外链资源数,不过很多公司看到日志里有这个MJ12bot蜘蛛,中文是选择直接屏蔽掉,爬行相当耗费资源,且对国内用户不提供服务。
如果你不想此蜘蛛访问可以直接在robots.txt添加规则,限制mj12bot 爬取网站,禁止这些无用的蜘蛛如MJ12bot等抓取网站信息
User-agent: MJ12bot
Disallow: /
猜你喜欢