基于Python对B站视频数据的抓取与分析
摘要
在互联网普及程度逐渐全球化的二十一世纪,随着时间的推进,网络上的数据种类与量级以指数级的趋势增加。因此,如何准确、有效的获取到所需要的数据,进行相应的数据清洗,并进行可视化来直观的显现出数据所包含的隐藏信息,对此前数量大,但价值密度低且一直无法利用的数据来说,变为目前十分有意义的事。在这种背景下,本文从Python语言强大且多元的第三方库入手,利用Selenium库对哔哩哔哩视频网站进行视频信息数据和用户评论抓取,Pandas库进行数据的清洗与预处理,Matplotlib,Wordcloud进行数据可视化,由此获取到的数据隐藏信息,对目前哔哩哔哩网站视频创作者的创作方向与观众的喜爱趋势度有所帮助和指导。
关键词
Python;爬虫;数据可视化;动态网页;反爬;
全文:
PDF参考
[1] 李文华. 基于Python 的网络爬虫系统的设计 与实现分析[J]. 内江科技,2021,42(02):58-59+26.
[2] 罗安然, 林杉杉.基于Python 的网页数据爬 虫设计与数据整理[J].电子测试,2020(19):94-95+31.
[3] 许景贤, 林锦程,程雨萌.Selenium框架的反 爬虫程序设计与实现[J]. 福建电脑,2021,37(01):26- 29.
[4] 马宁, 陈曦 , 张 李 铭 . 基于Selenium 与 Openpyxl 的Web 脚本自动化设计研究[J]. 电脑知识与 技术,2020,16(01):51-53+70.
[5] 沈承放, 莫达隆.beautifulsoup 库在网 络爬虫中的使用技巧及应用[J]. 电脑知识与技 术,2019,15(28):13-16.
DOI: http://dx.doi.org/10.18686/jsjxt.v3i2.46781
Refbacks
- 当前没有refback。