开放期刊系统

基于Python对B站视频数据的抓取与分析

胡思源, 张桂花
四川大学锦城学院计算机与软件学院

摘要

在互联网普及程度逐渐全球化的二十一世纪，随着时间的推进，网络上的数据种类与量级以指数级的趋势增加。因此，如何准确、有效的获取到所需要的数据，进行相应的数据清洗，并进行可视化来直观的显现出数据所包含的隐藏信息，对此前数量大，但价值密度低且一直无法利用的数据来说，变为目前十分有意义的事。在这种背景下，本文从Python语言强大且多元的第三方库入手，利用Selenium库对哔哩哔哩视频网站进行视频信息数据和用户评论抓取，Pandas库进行数据的清洗与预处理，Matplotlib，Wordcloud进行数据可视化，由此获取到的数据隐藏信息，对目前哔哩哔哩网站视频创作者的创作方向与观众的喜爱趋势度有所帮助和指导。

关键词

Python；爬虫；数据可视化；动态网页；反爬；

全文:

PDF

参考

[1] 李文华. 基于Python 的网络爬虫系统的设计与实现分析[J]. 内江科技,2021,42(02):58-59+26.

[2] 罗安然, 林杉杉.基于Python 的网页数据爬虫设计与数据整理[J].电子测试,2020(19):94-95+31.

[3] 许景贤, 林锦程,程雨萌.Selenium框架的反爬虫程序设计与实现[J]. 福建电脑,2021,37(01):26- 29.

[4] 马宁, 陈曦 , 张李铭 . 基于Selenium 与 Openpyxl 的Web 脚本自动化设计研究[J]. 电脑知识与技术,2020,16(01):51-53+70.

[5] 沈承放, 莫达隆.beautifulsoup 库在网络爬虫中的使用技巧及应用[J]. 电脑知识与技术,2019,15(28):13-16.

DOI: http://dx.doi.org/10.18686/jsjxt.v3i2.46781

Refbacks

当前没有refback。

合作支持单位

新加坡万仕出版社
北京春城教育出版物研究中心
马来西亚唐博科学研究院
北京万象兴荣科技文化发展有限公司
新加坡亿科出版社
春城(成都)文化传媒有限公司

基于Python对B站视频数据的抓取与分析

摘要

关键词

全文:

参考

Refbacks

合作支持单位

数据库合作单位

环宇中文期刊

友情链接

联系环宇

用户名
密码
记住我