基于Spark与Hive的电商平台数据分析
摘要
随着时代与计算机的发展,大数据席卷了全球,并为各大公司带来了惊人的收益。本次研究的目的是区分Spark与Hive的不同之处,便于选取合适的分析工具。本文针对某电商平台采集到的数据与提出的需求设计了两种方法,实现了电商平台对热门品类的统计与活跃的会话ID的统计。在实现方法的过程中对比Spark与Hive的具体实现方式,明确两种工具完成相同需求的不同之处。对比的结果证明Spark与Hive可以相互独立运行、Spark实现需求的难度高于Hive、Hive环境搭建难度高于脱离Hadoop的Spark。
关键词
大数据;Hive;Spark;电商平台;数据分析
全文:
PDF参考
[1] 程学旗, 靳小龙, 王元卓, 郭嘉丰, 张铁 赢, 李国杰. 大数据系统和分析技术综述[J]. 软件学报,2014,25(09):1889-1908.DOI:10.13328/j.cnki. jos.004674.
[2] 刘智慧,张泉灵.大数据技术研究综述[J]. 浙江大学学报(工学版),2014,48(06):957-972.
[3] 李广建, 化柏林. 大数据分析与情报分析关 系辨析[J]. 中国图书馆学报,2014,40(05):14-22. DOI:10.13530/j.cnki.jlis.140020.
[4] 姜吉宁. 基于spark 和hive 的新型种质资源 数据仓库的设计和实现[D]. 中国科学技术大学,2018:
[5] 张玉杰, 于双元. 大数据查询综述[J]. 计算 机与现代化,2017,(04):82-88.
DOI: http://dx.doi.org/10.18686/jsjxt.v3i2.46792
Refbacks
- 当前没有refback。