基于 Java 的京东商城爬虫实现
摘要
网络爬虫捕捉信息类似蜘蛛捕捉蚊虫,是一个能利用 Python、Java 等编程语言实现的一个程序,从而按程序指定规则自动获取网络上有利用价值的信息,并加以筛选分析让数据价值最大化。本文概述了爬虫设计所涉及的技术,并利用 Java 语言基于大型电商购物平台京东商城设计了一个动态网页爬虫系统,浅析了爬虫程序的工作原理,展现了爬虫采集数据的准确度及速度。
关键词
京东商城;网络爬虫;数据挖掘;Java
全文:
PDF参考
纪莹莹.互联网 POI 同位模式挖掘方法研究[D].山东
农业大学,2014. [2]刘琛. 下一代网络业务执行环境中基于 SOA 的业务
引擎的设计与实现[D].北京邮电大学,2010. [3]董鹏.分布式实时事件服务的研究与实践[D].电子科
技大学,2003. [4]黎志雄,黄培灿.构建企业级的搜索爬虫[J].福建电
脑,2008(12):93+97. [5]陈珂,蓝鼎栋,柯文德,黎树俊,邓文天.基于 Java 的新浪
微博爬虫研究与实现[J].计算机技术与发
展,2017,27(09):191-196.
DOI: http://dx.doi.org/10.18686/jsjxt.v1i2.686
Refbacks
- 当前没有refback。