大数据分析项目.docx

大数据分析项目.docx

ID:59524260

大小:48.60 KB

页数:15页

时间:2020-11-07

大数据分析项目.docx_第1页
大数据分析项目.docx_第2页
大数据分析项目.docx_第3页
大数据分析项目.docx_第4页
大数据分析项目.docx_第5页
资源描述:

《大数据分析项目.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、公司简介:智友是一个年轻的文化品牌,旗下有多个互联网产品线,覆盖生活方式、音乐、创意,时尚等多个领域。致力发展为最大的年轻人文化出版与发行渠道,挖掘文化领域的年轻力量。旗下产品音乐软件“xxx”是时下最流行的音乐App,首创弹幕评论交友,独特3D音乐颠覆你的听觉体验。上线短短数月就受到了百万音乐发烧友的喜爱和追捧,苹果商店音乐免费榜长期稳居前五。公司业务:1.发现你不知道的好听音乐、3D立体声音(雨声、场景立体特效声)、趣味声音。2.首创声音/音乐弹幕评论,让你感觉不再是一个人听歌!从未有过的听觉社交体验。3.随时随地录下生活中的精彩,录音变声、拍照变形统统有。4.制作酷炫的有声表情,和朋友聊

2、天显得更萌萌哒。5.遇见音乐/声音大咖,轻松结识跟你喜欢同一首歌/音频的朋友。6.根据你的听歌风格定制属于你的首页歌曲和推荐歌曲。7.根据歌曲收听量排出每种歌曲类型的热门歌曲。8.用户录制自己的MV和歌曲上传到echo让更多的音乐爱好者认识你。9.用户社区,好友圈,看看你的朋友都在聊什么听什么。项目需求:1.用户画像,根据听歌风格,每天在线时间,用户收藏了哪些歌曲,总是跳过播放哪些歌曲,来给用户打标签。2.每天对新上线的音乐进行分类统计,每类歌曲新增数。3.每天根据用户标签推荐他喜欢的top10歌曲。4.实时统计用户上传的音乐,MV的数量。5.每十分钟对用户上传的音乐,MV的收听和点击率情况进

3、行分析统计。6.每天对用户上传的音乐进行分类化和收听点击率排名。7.每天更新统计注册用户数和会员用户数。8.统计手机端APP,android,ios占比度。9.统计用户听歌的方向性和潮流性,来决定公司需要引进哪些类型的歌曲。10.用户圈,统计用户圈中讨论最多的热词。11.发现和你口味相同的朋友并推荐给你。项目架构:1.从手机客户端APP,PC,网页中收集用户信息,听歌信息,上传的歌曲。2.通过kafka推送给mr或spark清洗。3.重用kafka作为缓存,缓存把数据存储到HDFS上。4.通过hive进行分析计算。5.计算结果保存到hbase和mysql中。6.HBase中的数据可以做用户推荐

4、,热度排行,mysql可以共用户查看个人资料和好友信息,等级等。需求设计:1.从埋点日志导出用户听歌信息,用spark清洗出用户听了哪些歌曲,收藏了哪些歌曲,整理出用户喜好的歌曲是哪些风格,把这些风格写到mysql用户信息表相关联的用户歌曲风格表里。2.用HIVE对HDFS上的每天上线的歌曲做分类统计每类新增数量。3.从mysql查看用户的喜好歌曲标签,然后在歌曲库中找到对应的分类歌曲推荐给用户。4.利用spark把用户上传的歌曲从HDFS上导入进来进行一个求和操作,把结果直接导入hbase中。5.从mysql中的用户注册表中通过注册时间过滤出今天注册的用户,然后进行求和操作,在今天注册的用户

5、中按照字段“会员”条件查找会员用户求和。设计实现:1.统计每类新增歌曲数量从HDFS里导入hive每天分类好的歌曲每日新增歌曲数量表字段中文名字段英文名字段类型Id编号IntsongName歌曲名Stringsingername歌手名StringStyle曲风StringDate时间String1,演员,薛之谦,流行,2016-3-202,告白气球,周杰伦,流行,2016-3-203,成都,赵雷,流行,016-3-204,espanacani,andrerieu,古典,2016-3-205,小桃红,汤旭,民谣,2016-3-206,everything,wrld,嘻哈,2016-3-207,w

6、ake,free,摇滚,2016-3-208,长安长安,郑钧,摇滚,2016-3-209,loveisakiller,vixen,摇滚,2016-3-2010,Iremember,dokken,摇滚,2016-3-20在HIVA下建一个歌曲表Createtablemusic_(idint,songNamestring,stylestring,singerNamestring,datestring)rowformatdelimitedfieldsterminatedby‘,’;Loaddatainpath‘NewMusic/music_/music.txt’intotablemusic_;Hiv

7、e>selectstyle,count(*)frommusic_groupbystyle;结果为Stylecount流行,3古典,1民谣,1嘻哈,1摇滚,41.分析APP埋点信息Json数据结构(maidian.json){"imei":"9760","phonetype":"huaweip6","phonesystem":"Android6.0","user_name":"周一懵然状","lik

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。