分布式爬虫攻击网站_黑客接单-在线黑客技术_实力黑客网站「免费黑客咨询」

网络渗透爬虫_分布式爬虫攻击网站

如何构建一个分布式爬虫

爬虫本质上不需要分布式。因为你要爬一个网站通常5-10个线程足够了，再多就是对网站压力测试了。你只需要将任务分配到不同的机器上，然后各运行各自己的，结果合并一下就可以。这个与nutch人map,reduse也没有什么差别。只是手工分，手工合并。当然也可以用脚本分，脚本合并，脚本远程启动。有一个远程控制模块，似乎叫rpy。很简单，很容易上手。可以远程控制一个模块。数据库用postgresql不是很好。因为爬行结果放在关系型数据库里太吃力。特别是网页内容。通常是URL放在redis里。内容放在文件系统里，你可以用hadoop+hdfs+thrift方案放在hadoop里。如果使用了hadoop，就干脆模仿nutch的流程，把python脚本也交给hadoop去管理好了。至于控制与通信这个都让hadoop来处理好了。当然我个人觉着rpy方式更简单。里面控制与通信都是现成的。10分钟就学会了。还是回到原来的说法，大部分情况下，单机多线程跑爬虫足够用了。不需要分布式。而且效率甚至比分布式更高。

286 0 2022-12-09 攻击网站

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30