重要公告

为更好地推广我社的中文期刊,扩大论文展示和被阅读范围,我社将与北京春城教育出版物研究中心合作在中国出版发行专业文集 、 汇编作品等电子出版物。因来稿数量巨大,我社人员有限,实在来不及同各作者一一单独协商, 我社在此特作如下声明:所有作者已发布来稿将同时视为作者同意投递北京春城教育物研究中心用于中国大陆地区相关电子出版物的编制出版使用。如个别作者存有异议,请在本月内来函声明 , 我们将充分尊重作者意愿。即曰起 ,全部投寄我社出版的中文稿件均视为作者同意同时向北京春城教育物研究中心投稿出版,如不想在相关地域出版,请在投递时加以说明。感谢配合和支持!

2020年5月15日

首页出版说明中文期刊中文图书环宇英文官网付款页面工作人员查询

基于Spark的聚类算法的优化

晨曦 李, 正德 鲍

摘要


对于聚类算法在整个过程的最初数据选择的随机性问题,在非均匀采样的基础上对聚类算法进行优化。与此同时,出于要进行优化聚类算法这一问题,以Spark为基础让算法有所改观并进行优化。数据集采样阶段,聚类阶段以及算法的并行优化,这最主要的三个阶段极大的实现了聚类算法的优化,在存在大量数据时,都会有一定的精准性。同时,在 Spark的基础之上,实行聚类算法速度更快,扩展性更好,由此说明聚类算法的优化可以处理更高要求的数据。

关键词


聚类算法 Spark 优化 大数据

全文:

PDF

参考


HANJ W,KAMBER M.Data mining:conceptsandtechniques[M].SanFrancisco,CA,itd: MorganKaufmannPublishers,2000. [2]WU XD,KUMAR V,QUINLANJR,etal.Top10algorithmsindatamining[J].Knowledge andInformationSystems,2008,14(1):1-37. [3]ZHANG T,RAMAKRISHNAN R,LIVNY M.BIRCH:anefficientdataclustering methodfor verylargedatabases[C]//ACMSigmodRecord.1996:103-114. [4]毛典辉.基于 MapReduce 的 Canopy-Kmeans 改进算法[J].计算机工程与应用,2012,48(27): 22-26.[5]XU YJ,QU W,LIZ,etal.Efficientk-means++ Approximationwith MapReduce[J].IEEE ComputerSociety,2014,25(12):3135-3144. [6]ZIMICHEV E A,KAZANSKIY N L,SERAFIMOVICH PG.Spectralspatialclassificationwith k-means+ + particionalclustering[J].ComputerOptics,2014,38(2):281-286. [7]张刚红.Hadoop 下并行遗传算法研究及 在 应 急 设 施 选 址 中 的 应 用 [J].互 联 网 天 地,2013(8): 11-18.[8]DEANJ,GHEMAWATS.MapReduce:simplifieddataproce-ssingonlargeclusters[J].Com- municationsoftheACM,2008,51(1):107-113. [9]ZAHARIA M,CHOWDHURY M,FRANKLIN MJ,etal.Spark:clustercomputingwithwork- ingsets[C]//BookofExtremes.2010:1765-1773. 作者简介: 第一作者:李晨曦(1998—7),男,汉,贵州贵阳,本科,四川大学锦城学院,研究方向:大数据技术开发。 第二作者(通讯作者):鲍正德(1989—7),男,汉,黑龙江哈尔滨,研究生,讲师,四川大学锦城学院,研究方 向:电子商务。




DOI: http://dx.doi.org/10.18686/jsjxt.v1i4.3832

Refbacks

  • 当前没有refback。