期刊简介
投稿须知
1、文稿 来稿内容务必真实可靠,具有严谨的科学性和知识或技术的先进性。论点明确,数据可靠,文字简练。文章首页页脚处注明:课题资助项目名称(编号)和第一作者简介[姓名(出生年月-)、性别、民族、籍贯、职称、学位、研究方向]。稿件规格为A4纸,正文用 5号宋体。投稿请使用电子邮件附件的形式。投稿时请注明作者的电话、 E-mail、地址及邮编等联系方式。 2、计量单位 采用国家法定计量单...
当前位置:首页 > 期刊导读 > 2014 > 03 > 正文

DeepWeb 可配置聚焦爬虫设计与实现

作者: 罗成 [1,2] ; 程耀东 [1] ; 胡庆宝 [1] ; 李海波 [1]

摘要:大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。


关键字: 聚焦爬虫    Deep    Web    大数据      


上一篇:低噪声放大器的设计与仿真
下一篇:屏蔽估算保守性对工程投资的经济性分析