基于文本特征的手机用户分类方法研究与实现

基于文本特征的手机用户分类方法研究与实现

ID:35065788

大小:5.02 MB

页数:62页

时间:2019-03-17

基于文本特征的手机用户分类方法研究与实现_第1页
基于文本特征的手机用户分类方法研究与实现_第2页
基于文本特征的手机用户分类方法研究与实现_第3页
基于文本特征的手机用户分类方法研究与实现_第4页
基于文本特征的手机用户分类方法研究与实现_第5页
资源描述:

《基于文本特征的手机用户分类方法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、■p—1^纖寺為;fW|Sou化ChinaUmvemtyofTechnology工程硕±学位论文基于文本特征的手机用户分类方法研究与实现:.苗.^V^>:v/S;?'':.苗乃v>'v,I;vV,.,:t;;--中-焉if作者姓名钟德财—工程领域软件工程校内指导教师蔡毅教授校外指导教师袁峰副研究员所在学院软件学院论文提交日期2016年3月ResearchandApplicationofMobilePhoneUsersClassficationMetho

2、dBasedonCharacteristicsofTextADissertationSubmittedfortheDegreeofMasterCandidate:ZhongDecaiSupervisor:Prof.CaiYiSouthChinaUniversityofTechnologyGuangzhou,China分类号:TP3学校代号:10561学号:201321033795华南理工大学硕士学位论文(基于文本特征的手机用户分类方法研究与实现)作者姓名:钟德财申请学位级别:工程硕士工程领域名称:软件工程校内指导教师姓名、职称:蔡毅教授校外指导教师姓名、职称:

3、袁峰副研究员论文形式:ꇶ产品研发ꇶ工程设计☑应用研究ꇶ工程/项目管理ꇶ调研报告研究方向:商务智能论文提交日期:2016年3月23日论文答辩日期:2016年3月25日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:李东委员:许勇、沈顺七、王家兵、汤德佑华南理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所1取得的研究成果。除了文中特别加标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡。献的个人和集体,均已在文中W明确方式标明本人完全意识到

4、本声明的法律后果由本人承担。'办?:^年>月过日作者签名:诗帘棘日期3学位论文版权使用授权书:的规定,艮P本学位论文作者完全了解学校有关保留、使用学位论文研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部口或机构送交论文的复印件和电子版,允许学位()校可公布学位论文的全论文被查阅除在保密期内的保密论文外;学采用影印、汇编学位、缩印或其它复制手段保存部或部分内容,可允许一致。论文。本人电子文档的内容和纸质论文的内容相本学位论文属于:。□保密,在年解密后适用本授权书保密,同意在

5、校园网上发布,供校内师生和与学校有共享协议P不的单位浏览;同意将本人学位论文提交中国学术期刊(光盘版)电子杂志社全文出版和编入CNKI《中国知识资源总库》,传播学位论文的全部或部分内容。"(请在W上相应方框内打)骑*饼1^:作者签名:氏日期:知/日期xr导教师签名、指摘要我们正处于一个信息爆炸的时代,文本分类技术成为信息检索和文本挖掘的重要基础。随着移动互联网上的用户增多,移动广告需要做到精准化投放,而手机用户分类例如性别,年龄,职业等是提高化移动广告转化效率的关键,所以它受到越来越多人的关注。本论文针对于手机用户分类,相对于其它

6、文本分类,有几个特点:数据形式多样化,数据维度多,数据比较零散。国内外没有太多的专门针对于手机用户分类的研究。而且在信息指数型增长的业务需求下,适用于大数据技术的基于分本特征的手机用户分类研究就显得十分必要。本文在研究文本分类的基础上,重点对基于文本特征的手机用户分类这个问题进行了研究。实验所用的数据是广州优蜜科技有限公司提供的手机用户的应用安装列表数据集。在此基础上分析了对特定数据集的分类需求,构建起了性能稳定,可扩展性良好,支持大数据运算的数据分类平台。为了适应不同的应用场景,本论文研究和实现了两个分类模型。一是基于改进的TFIDF向量加权分类算法模型,二

7、是基于信息熵的KNN分类算法模型。基于改进的TFIDF向量加权分类算法模型,在TFIDF算法的改进上,增加了衡量文本词性的权重参数,提高了分类的准确度。另外基于信息熵的KNN算法模型,该模型的分类结果的可解释性强,相对于传统的KNN算法准确率更高了,同时KNN算法本身具有适用于多分类数据的需求,所以该模型算法具有很好的扩展性。本论文中提出的两个分类模型都有各自的优势,前者在算法的速度性能比较有优势,比较适用于实时在线的系统,而后者在正确率上比较有优势,比较适用于对实时性要求不高,但是对正确率要求较高的应用场景。在互联网+的大数据背景下,本文所有的模型算法都是基

8、于Hadoop的分布式处理平台上运行的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。