欢迎来到天天文库
浏览记录
ID:17625437
大小:3.50 MB
页数:66页
时间:2018-09-04
《基于Hadoop的音乐推荐系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、密级公开91工程硕士学位论文基于Hadoop的音乐推荐系统的研究与实现李新卫指导教师赵宇峰副教授柯西林高工申请学位学科工程硕士专业领域名称计算机技术2018年5月4日基于Hadoop的音乐推荐系统的研究与实现学科:计算机技术研究生签字:指导教师签字:企业导师签字:摘要移动互联网的发展使得移动音乐越来越流行,用户量和用户产生的数据也越来越大。面对如此庞大的数据量,用户选择将会变得十分茫然,要是能有一套专门给用户推送歌曲的系统,那么用户就会少花很多时间在寻找歌曲上,且可以增加用户的活跃度和粘性。本文首先对
2、常用的推荐算法和Hadoop技术平台做了分析与研究,比较了他们的优缺点,并对本文使用到的推荐算法做了详细介绍,分析了它的优缺点及使用这种推荐算法的原因。Hadoop平台中涉及到的技术有分布式计算框架MapReduce和HDFS文件系统,并对其做了分析介绍。其次,使用Java语言实现了传统的基于用户的协同过滤推荐算法,为了提高算法的推荐效果,引入了k-means算法对用户进行聚类并再对聚类算法进行优化,首先对用户听歌记录进行分析,提取歌曲记录标签,因为歌曲标签都是用户填写的,需要对其进行处理去噪,每一首歌曲都有很多个标签进行描述,提取标签
3、次数大于10的作为标签产生用户-标签模型,然后再使用k-means算法对用户-标签进行一次聚类,使得兴趣相似的用户归为一类,再为每一类用户推荐歌曲,后又对k-means聚类算法做了优化,主要从两方面进行优化,一是游离点的去除,二是使用二分聚类防止聚类陷入局部最优。最后实现了基于Hadoop平台的推荐系统,系统包括了数据收集、数据存储、数据处理和结果展示并对推荐结果及系统进行了测试。使用到的技术包括Sqoop数据收集、分布式数据存储、Hadoop集群、服务器开发、Android客户端展示。结果表明本文采用的使用用户听歌记录的歌曲标签进行聚
4、类再推荐歌曲的方法提高了推荐结果的准确率,在分布式环境下运行时间也大大降低。并且该系统具有从数据源到算法实现再到结果展示一套完备的推荐系统,推荐结果也能反映用户以往的兴趣爱好。关键词:推荐算法;Hadoop;标签;音乐推荐;分布式聚类ResearchandImplementationofMusicRecommendationSystemBasedonHadoopDiscipline:ComputerTechnologyStudentSignature:SupervisorSignature:AbstractThedevelopmento
5、fmobileInternetmakesmobilemusicmoreandmorepopular,theamountofusersandthedatageneratedarealsoincreasing.Facedwithsuchalargenumberofsongs,theuserchoicewillbecomeverydazed,ifthereisasetofspecificallyforuserstopushsongssystem,thenuserswillspendlesstimelookingforsongs,andcani
6、ncreasetheuser'sstickiness.ThispaperfirststudiesthetechnologiesinvolvedintheHadoopplatformandthecommonlyusedrecommendedalgorithms,comparestheiradvantagesanddisadvantages,introducesandusestherecommendedalgorithmsusedinthispaper,andintroducesthetechnicalframeworkusedinthis
7、paper,MainlytheMapReduceandHDFSfilesystems,thedistributedcomputingframeworkinvolvedintheHadoopplatform.Secondly,thetraditionaluser-basedcollaborativefilteringrecommendationalgorithmisimplementedinJavalanguage.Inordertoimprovetheperformanceofthealgorithm,ak-meansalgorithm
8、isintroducedtoclusterusersandoptimizetheclusteringalgorithm.Firstly,Toanalyzeandextractthesongrecordlab
此文档下载收益归作者所有