初始聚类中心优化的K-均值项目聚类推荐算法-论文.pdf

初始聚类中心优化的K-均值项目聚类推荐算法-论文.pdf

ID:57923811

大小:337.07 KB

页数:5页

时间:2020-04-12

初始聚类中心优化的K-均值项目聚类推荐算法-论文.pdf_第1页
初始聚类中心优化的K-均值项目聚类推荐算法-论文.pdf_第2页
初始聚类中心优化的K-均值项目聚类推荐算法-论文.pdf_第3页
初始聚类中心优化的K-均值项目聚类推荐算法-论文.pdf_第4页
初始聚类中心优化的K-均值项目聚类推荐算法-论文.pdf_第5页
资源描述:

《初始聚类中心优化的K-均值项目聚类推荐算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第28卷第3期空军预警学院学报、,01.28NO.32014年6月JournalOfAirForceEarlyWaminuAcademJun.2014DOI:10.3969/j.issn.2095—5839.2014.03.013初始聚类中心优化的K一均值项目聚类推荐算法胡旭,鲁汉榕,陈新,周国安(空军预警学院,武汉430019)摘要:针对协同过滤推荐系统存在的数据稀疏性和扩展性差问题,提出了初始聚类中心优化的K.均值项目聚类推荐算法.该算法首先采用SlopeOne方法对评分矩阵预测填充来缓解数据稀疏性,然后采用初始聚类中心优化的K.均值算法对项目进行聚类,将相似

2、度高的项目聚到同一个类中,最后根据目标项目所在的聚类搜索其最近邻并产生推荐.实验结果表明,该算法有效改善了数据的稀疏性和扩展性,提高了推荐质量.关键词:协同过滤推荐;初始聚类中心优化;K一均值聚类中图分类号:TP311;0235文献标志码:A文章编号:2095—5839(2014)03—0203—05协同过滤技术是当前电子商务推荐系统中和扩展性差问题,本文提出初始聚类中心优化的应用最广泛、最成功的技术,其基本原理是寻找K.均值项目聚类推荐算法.该算法首先构建用与当前用户具有相似兴趣的用户,并根据这些用户一项目评分矩阵并通过SlopeOne方法对未评分户对某项目的已

3、知评分来预测该用户对此项目项目进行预测填充,缓解数据稀疏性;然后根据的评分,从而为用户进行推荐.但是,随着电初始聚类中心优化的K.均值算法对项目进行聚子商务系统规模的不断扩大,推荐系统的用户数类;最后在目标项目所在的类中进行协同过滤并量和项目数量也随之高速增长,数据稀疏、扩展产生最终的推荐结果.实验结果表明,本文提出性差和冷启动等问题愈发凸显,严重影响推荐质的推荐算法具有较好的推荐结果.量.为此,文献[2]提出采用项目评分预测的方法对未评分项目进行预测并填充评分矩阵,有效1K一均值算法的初始聚类中心优化地缓解了数据稀疏性,提高了推荐质量.文献K.均值算法作为经典的

4、聚类方法以其计算[3]采用奇异值分解技术来降低评分矩阵的维简单、快速的特点在聚类分析中得到了广泛应度,有效缓解了数据稀疏性问题,并提高了推荐用,但是它也存在一些不可避免的问题:①假系统的伸缩能力.但是降维会导致信息丢失,而设知道聚类数k,实际的类别数不一定是k;且降维效果与数据集密切相关,在矩阵维数很高②聚类结果与初始聚类中心和数据输入顺序有的情况下降维效果难以保证.文献[4]提出了一关;③对孤立点敏感.因此,这些缺陷严重影响种基于神经网络的方法,通过构建BP神经网络了K.均值算法的聚类效果,将其应用于协同过预测评分矩阵中的未知数据,充分缓解数据稀疏滤推荐中,会对

5、推荐效率产生较大影响.本文性问题.但是由于BP神经网络模型的学习速度针对K.均值聚类算法的缺陷,对初始聚类中心较慢,运行代价是个很大的问题.文献[5]提出基于点密度进行优化,同时对孤立点进行单独处了基于项目聚类的协同过滤推荐算法,对项目进理,使之不影响聚类中心值.行聚类,确保在同一类中的用户评分最为相似,1.1相关概念然后在缩小的项目空间上搜寻最近邻,有效提高1)点密度.对数据集中的样本点,以了推荐系统的实时性和扩展性,但推荐精度却没X为球心、r>0)为半径的球域所包含的样本点有提高.文献[6]提出的两阶段联合聚类协同过的个数称为点X的密度,记为D(x),即滤算法

6、,对原始矩阵中的评分模式进行用户和项目2个维度的联合聚类,然后在类别内部通过加D(x)=l{pld(x,P)r,p∈}l(1)权分解矩阵的方法进行未知评分预测,在降低预式中,d(x,p)表示样本点X和点P的距离.本文测阶段计算量的同时提高了预测精度.采取相似度作为距离度量,即d(x,P)=sim(x,P),针对协同过滤推荐系统存在的数据稀疏性故有收稿日期:2014.0415作者简介:胡旭(1990一),男,硕士生,主要从事智能技术与智能决策研究204空军预警学院学报2014年D)=I{plsim(x,P)s,PE)l(2)而言更加有效且具有唯一性.此外,由于初始聚

7、式中,sim(x,p)表示样本X与P的相似度,£是设类中心的搜索只在集合G中进行而非全局搜索,定的相似度阈值.大大缩小了搜索范围,并减短了搜索时间.2)孤立点.对于数据集中的样本点,若1-3孤立点的处理D∽

8、_均值聚类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。