高校网络舆情监测关键技术探究

高校网络舆情监测关键技术探究

ID:6054532

大小:29.50 KB

页数:8页

时间:2018-01-01

高校网络舆情监测关键技术探究_第1页
高校网络舆情监测关键技术探究_第2页
高校网络舆情监测关键技术探究_第3页
高校网络舆情监测关键技术探究_第4页
高校网络舆情监测关键技术探究_第5页
资源描述:

《高校网络舆情监测关键技术探究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、高校网络舆情监测关键技术探究  摘要:该文对高校BBS网络舆情的形成、传播特点和热点分析的方法进行探讨,以高校网络舆情监控机制的需求为出发点,从网络爬虫、文本挖掘、情感分析等技术入手,深入研究聚集爬虫、信息处理、文本聚类等方面的技术实现方案,用统计的方法来计算舆情主题被关注的程度。关键词:高校BBS;网络舆情;监测;热点分析中图分类号:TP391文献标识码:A文章编号:1009-3044(2013)16-3688-041概述随着互联网的普及和高校信息化的建设,各大高校都拥有自己的BBS网络,学生在

2、网络上进行交流,发表自己的观点和意见,表达思想等,舆情的影响和规律都不容忽视。然而,对敏感和突发事件的不实言论和恶意煽动,会误导和欺骗学生,扩大学生的不满情绪,影响和破坏校园的和谐稳定。因此,有必要对高校BBS网络涉及意识形态安全的议题和言论进行有效地监管。采用数据挖掘技术,对互联网舆情进行分析、整理,才能建立起全面、有效、快速的舆情监测预警机制,使高校网络得以健康、快速的发展,成为当前研究和应用的热点。8在目前的校园网络舆情监测应用中,还没有比较成熟的网络舆情产品,因此,针对高校BBS网络的特点

3、,结合高校网络舆情监控机制和引导策略,开发高校网络舆情监测平台有很大的现实意义和应用价值。2舆情热点分析方法2.1网络舆情的形成2.2主题关注度分析主题关注度是指过去某一时间段内,舆情主题被关注的程度,用该主题的相关帖子回复数或与该主题的相关网页数进行衡量[1]。在进行舆情分析时,要统计某一主题或事件被关注的程度,首先要明确事件或话题本身所处的阶段;其次,应该在分析某一舆情热点之前对其进行科学的类型界定。热点事件主要分为突发自然灾害事件、生产安全事故、群体性事件、公共卫生事件、公权力形象、司法事件

4、、经济民生事件、社会思潮、境外涉华突发事件等。2.3主题热度分析主题热度分析即在某一时同段内相对更加被关注或集中关注的舆情主题,用该主题的关注度进行衡量。统计所有舆情主题的关注度,在某一时间段内,对所有设为热点的主题按关注度的降序进行排列,生成某一时间段内的热点主题排行榜。排在榜首的主题网民的关注度最高,也就是热点问题所在。3网络舆情监测关键技术8网络舆情监测技术主要集中在两个方面,一是话题检测与跟踪技术(TopicDetectionandTracking),二是文体倾向性分析技术(Sentime

5、ntClassification)技术。主题检测与跟踪作为舆情分析的重要技术手段,是近十年自然语言处理和信息检索领域的热点研究课题[2]。要对高校网络舆情进行监测,就是运用网络爬虫、文本挖掘和文本情感分析技术,实现热点话题发现、话题跟踪、关联分析、敏感信息监测的功能。3.1主题爬虫技术3.1.1网络爬虫的分类网络爬虫也叫网络蜘蛛,是一个按照一定的规则自动提取网页的程序,这种技术可以检查站点上所有的链接是否有效,并把相关的数据保存下来,成为搜索引擎[3]。通用网络爬虫首先把网络上的HTML文档使用超

6、链接连接起来,就像织了一张网,爬虫程序从一个或若干初始网页的URL开始,获得初始网页上的URL列表,顺着这张网,不断的抓取网页,将内容抽取出来,直到满足系统的停止条件为止。聚焦爬虫技术是根据一定的网页分析算法地过滤与主题无关的链接,保留有用的链接放到待抓取的队列中,通过一定的搜索策略从队列中选择下一步要抓取的URL,重复以上步骤,直到满足程序的停止条件。83.1.2爬行算法基于主题的聚焦爬虫搜索策略主要有人工预选策略、过滤策略、启发式搜索策略。人工预选策略是由人工预先浏览各个站点,从中选出与主题相

7、关的网站,然后再用爬虫程序对这类网站进行持续的访问;过滤策略是将爬虫抓取下来的网页,先进行过滤,删除与主题不相关的页面,保留相关页面;启发式策略是考虑特定问题可应用的知识地优先选择合适的操作算子,尽量减少不必要的搜索,以搜索效率。下面介绍比较有代表性的算法FishSearch算法。FishSearch算法是模拟自然界中的鱼群的行为来进行最优搜索,依据自然规律,鱼群总是朝一个方向流动来寻找食物并繁殖,子代鱼群的数量和强壮程度取决于能找到的食物的数量。在FishSearch算法中,每一个URL看作是一

8、条鱼,当一个Web页面被抓取后,它包含的新的UEL也同时被解析出来。其中,有用的URL的数量取决于该页面是否与主题相关以及它本身包含的链接数量。当增加一个文档,鱼就繁殖一定数量的后代,若文档相关也就是指鱼儿找到了食物,可以繁殖出更多的后代,则再增加此文的链接深度;8若文档不相关,鱼就越来越少,后代也越少。在某一方向上经过几条链接仍未找到相关文档,就表明此鱼已死,就不再沿着这个方向进行查找了,将此URL加入到完成队列中。若一条鱼读取文档的时间过长,说明该鱼已进入污染区,则尽量少沿着这

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。