基于spark的并行推荐算法的研究与实现

基于spark的并行推荐算法的研究与实现

ID:35058668

大小:5.79 MB

页数:69页

时间:2019-03-17

基于spark的并行推荐算法的研究与实现_第1页
基于spark的并行推荐算法的研究与实现_第2页
基于spark的并行推荐算法的研究与实现_第3页
基于spark的并行推荐算法的研究与实现_第4页
基于spark的并行推荐算法的研究与实现_第5页
资源描述:

《基于spark的并行推荐算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、?瞧‘職P硕±学錄3編。_魏论文题目;基于Spark的并行推荐算法IF:::::^^^g:TP3国内图巧分类号11密级:公开国际图书分类号:004西南交通大学研究生学位论文基于Spark的并行推荐算法的研究与实现年级2013级姓名郑凤飞申请学位级别硕壬专业软件王程指导老师黄义培二零一六年四月二十八日ClassifiedIndex;TP311U.D.C004:SouthwestJiaotongUniversityMasterDegreeThesisRESEA民CHANDI

2、MPLEMENTATIONOFPARALLELRECOMMANDATIONALGORITHMBASEDONSPARKGrade:2013Candidate:ZhengFenfeigAcademicDegreeAppliedfor:MasterDegreeSpeciality:SoftwareEngineeringSupervisor:HuangWenpeiAril282016p,西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留,、使用学位论文的规定同意学校保留并向国家有关部口或机构送交论文

3、的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可W将本论文的全部或部分内容编入有关数据库进行检索,可心式采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于1.保密□,在年解密后适用本授权书;2,.不保密s/使用本授权书。‘‘(请在W上方框内打小)学位论文作者签名;見指导老师签名;《文方种、,么知备曰期;/曰期:西南交通大学硕±学位论文主要工作(贡献)声明本人在学位论文中所做的主要工作或贡献如下:(1)本文通过引入项目属性特征相似度对基于项目的协同过滤算法做了改进,并通过实验验证了改进算法的预测准确度。(2)引

4、入用户与项目相关性W及项目么间的相似度改进了SlopeOne协同过滤算法,并通过实验验证了改进算法的预测准确度。(3)利用Spark平台实现基于项目协同过滤改进算法与SlopeOne改进算法的并行化,并通过实验验证了并行改进算法的性能。,本人郑重声明:所呈交的学位论文是在导师指导下独立进行研究工作所得的成果。除文中己经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本一切法律责任将由本人承担人完全了解违反上述声明所引起的。学位论文作者签名:曰期:心?/告;西南交通

5、大学硕±研究生学位论文第I页摘要随着互联网的迅猛发展,信息技术与经济社会的交融碰撞,引发了数据迅猛増长,显然我们己经进入了大数据时代。大数据时代在带来资讯极度丰富的同时也使得用户在面对海量数据时需要花费大量的时间去筛选自己真正需要的信息,信息超载的现象一越来越明盘。协同过滤算法作为解决信息超载的关键技术之,虽然被广泛应用于视频音乐网站,、电子商务等多个领域但是仍然存在着预测准确度不理想、冷启动等问题,,无法满。同时,面对日益増加的数据量传统的协同过滤算法出现了可扩展性问题足海量数据的计算需求,分布式并行计算框架的出现为解决该问题提供了新的思路。Spark

6、是新兴的通用并行计算框架,借助其内存计算的优势,成为近两年大数据处理领域的研巧重点。本文拟研究协同过滤算法,针对其预测准确度不理想、冷启动等问题进一,Sa出平行改进并将改进算法在p台下进行并行化设计与实现,从而进步解决算法的可扩展性问题。主要工作包括W下几个方面:(1)分析了协同过滤中基于项目、SlopeOne算法的基本原理和具体计算流程及算法存在的不足。(2)针对基于项目的协同过滤算法存在的项目冷启动W及评分数据稀疏情景下预测准确度不高的问题,本文引入了项目属性特征相似度。在计算项目相似度时将项目属性特征相似度与评分相似度进行组合,W此来减少数据稀疏对相似度

7、计算的负面影响,,。实验结果表明本文的改进算法相比传统方法预测准确度更高并且在评分矩阵稀疏的情景下,效果更明显。(3)针对SlopeOne算法在预测评分时仅仅依赖用户对不同项目的评分差异而没有考虑项目W及用户间相似性的问题,本文通过引入用户项目之间的相关性W及项目之间的相似度对算法做了改进。实验结果表明,改进的SlopeOne算法相比传统方法提高了预测的准确度。(4)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。