Journal | [J] 工程技术研究 Volume 2, Issue 8. 2020.
基于 Python 的豆瓣音乐数据爬虫的设计与实现
作者 : 王 英杰, 毛 红霞
摘要 / Abstract
本文是基于 Python 来对某豆瓣音乐网站进行定向爬取网页数据的爬虫程序,现在是大数据的时代了,大家平时 上网都会有种很明显的体验,你刚在一个网页搜索了某个东西,下一秒打开淘宝天猫就会发现主页在给推送相关的东西。这 就是数据的力量,而网络爬虫就是我们对数据抓取很有力并且高效的一个工具了,所以如何使用网络爬虫也就变的十分重要 了。今天就通过对豆瓣音乐排行榜的数据抓取来简要介绍网络爬虫的基本知识。之后如果想要统计最近最火的音乐榜单就可 以通过网络爬虫去实现了。了解 xpath 语法删选数据的用法,最后详细介绍 Beautiful Soup 的用法。其中用到的核心库有 requests 网页请求库和 BeautifulSoup 网页数据爬取库。
关键词 / Keywords
图片爬取;xpath 语法;requests 网页请求库;BeautifulSoup 网页数据爬取库
《中国学术期刊(光盘版)》电子杂志社有限公司 KDN平台基础技术由KBASE 11.0提供