java多线程网络编程_java多线程攻击网站
Java多线程爬虫实现?
一、需求
1.定时抓取固定网站新闻标题、内容、发表时间和来源。
2.程序需要支持分布式、多线程
二、设计
1.网站是固定,但是未来也可能添加新的网站去抓取,每个网站内容节点设计都不一样,这样就需要支持动态可配置来新增网站以方便未来的扩展,这样就需要每次都需要开发介入。
2.网站html节点的结构可能发生变化,所以也要支持提取节点可配置。
3.怎样支持分布式?暂时最简单的想法就是:多机器部署程序,还有新搞一台或者部署程序其中一台制作一个定时任务,定时开启每台机器应该抓取哪个网站,暂时不能支持同一个网站同时可以支持被多台机器同时抓取,这样会比较麻烦,要用到分布式队列。所以暂时一个网站同时只会被单台机器抓取。