开放期刊系统

浅析网络爬虫的关键技术

毛红霞
四川大学锦城学院

摘要

大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。在海量数据中高效率准确地获取有效数据,越来越得到关注。运用网络爬虫技术能够快速、高效地获取大量数据。本文介绍了基于Python的网络爬虫所涉及到的关键技术:爬虫架构、爬取策略、Python中实现HTTP请求、Python 中实现网页解析、Python爬虫框架。并针对网站的常用的反爬策略制定了相应的应对措施

关键词

Python;网络爬虫;爬取策略

全文:

PDF

参考

蜘蛛抓取策略:广度优先和深度优先分析. https://blog.csdn.net/zhouhaisunny/article/details/78698448 [2]唐琳,董依萌,何天宇.基于 Python的网络爬虫技术的关键性问题探索[J].电子世界,2018(14): 32-33[3]刘贵平,刘娜,段红义.基于聚焦网络爬虫技术的人才招聘数据采集[J].电脑编程技巧与维护,2018 (05):69-71 [4]刘顺程,岳思颖.大数据时代下基于 Python的网络信息爬取技术[J].电子技术局与软件工程,2017 (21):160-160 [5]李琳.基于 Python的网络爬虫系统的设计与实现[J].信息通信,2017(9):26-27 [6]邹科文,李达,邓婷敏,等.网络爬虫针对“反爬”网站的爬取策略研究[J].电脑知识与技术,2016,12 (7):61-63

DOI: http://dx.doi.org/10.18686/jsjxt.v1i3.1277

Refbacks

当前没有refback。

合作支持单位

新加坡万仕出版社
北京春城教育出版物研究中心
马来西亚唐博科学研究院
北京万象兴荣科技文化发展有限公司
新加坡亿科出版社
春城(成都)文化传媒有限公司

浅析网络爬虫的关键技术

摘要

关键词

全文:

参考

Refbacks

合作支持单位

数据库合作单位

环宇中文期刊

友情链接

联系环宇

用户名
密码
记住我