开放期刊系统

基于Spark的聚类算法的优化

晨曦李, 正德鲍
四川大学锦城学院计算机与软件学院成都

摘要

对于聚类算法在整个过程的最初数据选择的随机性问题,在非均匀采样的基础上对聚类算法进行优化。与此同时,出于要进行优化聚类算法这一问题,以Spark为基础让算法有所改观并进行优化。数据集采样阶段,聚类阶段以及算法的并行优化,这最主要的三个阶段极大的实现了聚类算法的优化,在存在大量数据时,都会有一定的精准性。同时,在 Spark的基础之上,实行聚类算法速度更快,扩展性更好,由此说明聚类算法的优化可以处理更高要求的数据。

关键词

聚类算法 Spark 优化大数据

全文:

PDF

参考

HANJ W,KAMBER M.Data mining:conceptsandtechniques[M].SanFrancisco,CA,itd: MorganKaufmannPublishers,2000. [2]WU XD,KUMAR V,QUINLANJR,etal.Top10algorithmsindatamining[J].Knowledge andInformationSystems,2008,14(1):1-37. [3]ZHANG T,RAMAKRISHNAN R,LIVNY M.BIRCH:anefficientdataclustering methodfor verylargedatabases[C]//ACMSigmodRecord.1996:103-114. [4]毛典辉.基于 MapReduce 的 Canopy-Kmeans 改进算法[J].计算机工程与应用,2012,48(27): 22-26.[5]XU YJ,QU W,LIZ,etal.Efficientk-means++ Approximationwith MapReduce[J].IEEE ComputerSociety,2014,25(12):3135-3144. [6]ZIMICHEV E A,KAZANSKIY N L,SERAFIMOVICH PG.Spectralspatialclassificationwith k-means+ + particionalclustering[J].ComputerOptics,2014,38(2):281-286. [7]张刚红.Hadoop 下并行遗传算法研究及在应急设施选址中的应用 [J].互联网天地,2013(8): 11-18.[8]DEANJ,GHEMAWATS.MapReduce:simplifieddataproce-ssingonlargeclusters[J].Com- municationsoftheACM,2008,51(1):107-113. [9]ZAHARIA M,CHOWDHURY M,FRANKLIN MJ,etal.Spark:clustercomputingwithwork- ingsets[C]//BookofExtremes.2010:1765-1773. 作者简介: 第一作者:李晨曦(1998—7),男,汉,贵州贵阳,本科,四川大学锦城学院,研究方向:大数据技术开发。第二作者(通讯作者):鲍正德(1989—7),男,汉,黑龙江哈尔滨,研究生,讲师,四川大学锦城学院,研究方向:电子商务。

DOI: http://dx.doi.org/10.18686/jsjxt.v1i4.3832

Refbacks

当前没有refback。

合作支持单位

新加坡万仕出版社
北京春城教育出版物研究中心
马来西亚唐博科学研究院
北京万象兴荣科技文化发展有限公司
新加坡亿科出版社
春城(成都)文化传媒有限公司

基于Spark的聚类算法的优化

摘要

关键词

全文:

参考

Refbacks

合作支持单位

数据库合作单位

环宇中文期刊

友情链接

联系环宇

用户名
密码
记住我