首页出版说明中文期刊中文图书环宇英文官网付款页面

基于Spark的聚类算法的优化

晨曦 李, 正德 鲍
四川大学锦城学院计算机与软件学院 成都

摘要


对于聚类算法在整个过程的最初数据选择的随机性问题,在非均匀采样的基础上对聚类算法进行优化。与此同时,出于要进行优化聚类算法这一问题,以Spark为基础让算法有所改观并进行优化。数据集采样阶段,聚类阶段以及算法的并行优化,这最主要的三个阶段极大的实现了聚类算法的优化,在存在大量数据时,都会有一定的精准性。同时,在 Spark的基础之上,实行聚类算法速度更快,扩展性更好,由此说明聚类算法的优化可以处理更高要求的数据。

关键词


聚类算法 Spark 优化 大数据

全文:

PDF


参考


HANJ W,KAMBER M.Data mining:conceptsandtechniques[M].SanFrancisco,CA,itd: MorganKaufmannPublishers,2000. [2]WU XD,KUMAR V,QUINLANJR,etal.Top10algorithmsindatamining[J].Knowledge andInformationSystems,2008,14(1):1-37. [3]ZHANG T,RAMAKRISHNAN R,LIVNY M.BIRCH:anefficientdataclustering methodfor verylargedatabases[C]//ACMSigmodRecord.1996:103-114. [4]毛典辉.基于 MapReduce 的 Canopy-Kmeans 改进算法[J].计算机工程与应用,2012,48(27): 22-26.[5]XU YJ,QU W,LIZ,etal.Efficientk-means++ Approximationwith MapReduce[J].IEEE ComputerSociety,2014,25(12):3135-3144. [6]ZIMICHEV E A,KAZANSKIY N L,SERAFIMOVICH PG.Spectralspatialclassificationwith k-means+ + particionalclustering[J].ComputerOptics,2014,38(2):281-286. [7]张刚红.Hadoop 下并行遗传算法研究及 在 应 急 设 施 选 址 中 的 应 用 [J].互 联 网 天 地,2013(8): 11-18.[8]DEANJ,GHEMAWATS.MapReduce:simplifieddataproce-ssingonlargeclusters[J].Com- municationsoftheACM,2008,51(1):107-113. [9]ZAHARIA M,CHOWDHURY M,FRANKLIN MJ,etal.Spark:clustercomputingwithwork- ingsets[C]//BookofExtremes.2010:1765-1773. 作者简介: 第一作者:李晨曦(1998—7),男,汉,贵州贵阳,本科,四川大学锦城学院,研究方向:大数据技术开发。 第二作者(通讯作者):鲍正德(1989—7),男,汉,黑龙江哈尔滨,研究生,讲师,四川大学锦城学院,研究方 向:电子商务。




DOI: http://dx.doi.org/10.18686/jsjxt.v1i4.3832

Refbacks

  • 当前没有refback。