网络用户数据挖掘与行为分析

网络用户数据挖掘与行为分析

ID:34166069

大小:3.24 MB

页数:68页

时间:2019-03-03

网络用户数据挖掘与行为分析_第1页
网络用户数据挖掘与行为分析_第2页
网络用户数据挖掘与行为分析_第3页
网络用户数据挖掘与行为分析_第4页
网络用户数据挖掘与行为分析_第5页
资源描述:

《网络用户数据挖掘与行为分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、多参未)p夕l硕士学位论文网络用户数据挖掘与行为分析InternetUsersDataMiningandBehaViorA的lysis作者:刘丽娟导师:沈波北京交通大学2014年4月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:减翮强导师签名:签字

2、日期:知圩年节月五日签字日期:垆/¥年F月z日中图分类号:TP30I.6UDC:004.93学校代码:10004密级:公开北京交通大学硕士学位论文网络用户数据挖掘与行为分析InternetUsersDataMiningandBehaviorAnalysis作者姓名:刘丽娟导师姓名:沈波学位类别:工学学科专业:通信与信息系统学号:11120126职称:副教授学位级别:硕士研究方向:计算机网与信息系统北京交通大学2014年4月致谢时光飞逝,转眼间就要结束两年半的研究生生活,期间的许多往事都历历在目,仿佛昨日。在硕士论文完成之际

3、,谨向所有给予我无私关心、支持和爱护的老师、同学、家人、朋友表示衷心的感谢。首先,要感谢我的导师沈波副教授。在这两年多的时间里,我不仅从沈老师身上学习到了做学问的严谨态度,更领略到做人应有的大度和真诚。衷心地感谢沈老师一直以来对我的信任和支持。在论文开题、论文算法研究和论文撰写的整个过程中,沈老师百忙中仍悉心关注我的论文进展情况。当我遇到问题而烦恼时,沈老师的一句话往往就能起到醍醐灌顶的作用,使我的论文工作得以顺利进行下去,少走弯路。沈老师一丝不苟的工作精神和严谨的科研作风使我受益匪浅,老师将是我今后工作和生活中的榜样。同

4、时,感谢实验室的所有老师,老师们的共同努力为我们营造了良好的学习环境和锻炼机会。感谢刘云老师一直以来像对待自己的孩子一样地对待我们,悉心关注我们的生活和工作情况,给我们以信心和勇气,使我们能够在未来的人生道路上坚强地走下去。感谢张振江老师一直以来对我们论文研究和科研工作的指导和督促,使我们的科研能力有了极大提高,同时也从张老师身上学习到了许多为人处事的道理,张老师的谆谆教诲我终生难忘。其次,感谢所有帮助过我的同学。在实验室进展工作和完成论文的过程中,各位同学在不同程度上给我提供了帮助。感谢刘桐欢、王慧、孙芬芬等同学对我论文

5、的算法研究和软件编程方面提供的热情帮助。再次,感谢我的家人。他们为我的成长和学习提供了良好的环境,他们的默默支持和无微不至的关爱给我前进的无限动力。衷心感谢他们和所有关心我的亲人。最后,谨向百忙中审阅我论文的老师们和参加答辩的老师们表示由衷的谢意!中文摘要摘要:随着互联网的不断发展和用户需求的不断提高,有关网络用户的行为分析和数据挖掘研究迅速发展起来。作为Web2.0技术的典型代表,网络论坛承担着传播信息和舆论导向的作用。因此,对论坛用户的兴趣建模和预测不仅有助于正确分析用户的兴趣所在,而且有助于向用户提供个性化服务。论坛

6、帖子的热度预测对于提前掌握舆论动向具有重要意义。本文首先对常用的数据挖掘算法和用户兴趣模型进行简要介绍,然后对天涯论坛的用户数据集进行处理分析,设计了适合论坛的用户兴趣权重更新算法,并对用户兴趣进行有效预测,接下来分析了帖子热度的影响特征来对热门帖子进行预测。基于论坛访问时间间隔和发帖回帖数量的用户兴趣权重更新算法,建立在用户访问时间存在较大间隔的基础上,将用户的访问时间间隔和发帖回帖次数同时作为权重计算的重要变量;在兴趣预测方面,设计了一种两阶段的用户兴趣聚类算法。通过对论坛数据集进行仿真实验,验证了用户兴趣更新算法和推

7、荐的有效性和准确性。论坛帖子热度受多方面因素的影响。根据网站用户的好友关系、关注关系、经验值等信息提取出用户性质和用户关系特征;帖子受众程度与其讨论内容有密切联系,因此帖子内容也是热度的重要影响因素;另外,帖子的发帖时问也会对其热度产生一定程度的影响。在分析帖子热度影响特征的基础上对帖子热度进行支持向量机回归,取得了满意的预测结果。最后,将用户兴趣建模和热帖预测相关算法应用到网络舆论分析中,设计了基于论坛的用户行为分析系统。系统分为数据获取、数据预处理、用户行为分析和数据存储模块,负责实现用户兴趣识别、上网时间统计、活跃用

8、户发现、意见领袖发现和热帖预测等功能,并详细介绍了各个模块的设计,然后对系统的设计框架进行构建,作为未来系统实现的基础。论文的工作得到了国家自然科学基金(No.61172072,61271308)、北京市自然科学基金(No.4112045)、高等教育博士点基金(No.WllCl00030)、北京科技计划

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。