DeepWeb 可配置聚焦爬虫设计与实现
作者: 罗成 [1,2] ; 程耀东 [1] ; 胡庆宝 [1] ; 李海波 [1]
摘要:大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。
关键字: 聚焦爬虫 Deep Web 大数据
上一篇:低噪声放大器的设计与仿真
下一篇:屏蔽估算保守性对工程投资的经济性分析