基于聚类分析的读者阅读倾向研究

基于聚类分析的读者阅读倾向研究

ID:20698096

大小:74.62 KB

页数:9页

时间:2018-10-15

基于聚类分析的读者阅读倾向研究_第1页
基于聚类分析的读者阅读倾向研究_第2页
基于聚类分析的读者阅读倾向研究_第3页
基于聚类分析的读者阅读倾向研究_第4页
基于聚类分析的读者阅读倾向研究_第5页
资源描述:

《基于聚类分析的读者阅读倾向研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于聚类分析的读者阅读倾向研究[摘要]读者的阅读倾向是读者阅读兴趣的真实反映,对图书馆馆藏建设的决策具有非常重要的参考价值。利用图书流通数据研究读者阅读倾向,是一种科学、客观的数据挖掘方法。聚类分析模型是数据挖掘手段之一,对图书馆自动化系统中保存的大量流通历史数据进行数据挖掘,可以揭示隐藏在数据背后的读者阅读倾向的变化。[关键词]聚类分析阅读倾向馆藏建设[分类号]G252.31引言图书馆作为学校信息服务中心,在学校教学、科研中占有举足轻重的地位。图书馆的馆藏结构是否合理、是否能够满足读者的阅读需求,一直是图书馆的工作重

2、心。图书馆自动化系统的使用不仅为读者和图书馆工作人员带来工作上的便利,同时自动化系统中也存储了大量与读者阅读行为相关的历史数据,对这些数据进行有目的的整理、挖掘,可以从中提炼出需要和有用的信息,为图书馆决策工作提供服务。然而,这些历史数据是海量的,可用信息被淹没其中而无法直接得到,因此需要将数据挖掘技术应用到图书馆海量信息资源中,从数据中挖掘出读者的阅读倾向,以此增强图书馆服务的针对性。目前,已经有许多研宄者提出一些研宄读者阅读倾向的方法,比如以流通数据中的预约数据为基础研究读者的阅读倾向;以发放的调查表数据为基础进行

3、数据分析,得出读者阅读倾向的变化。类似的文献还有很多,但大多使用统计图表等统计工具,在一维的层面进行分析。这些文献或者侧重于分析揭示各类数据的逐年变化情况,或者纵向比较各类图书的出借情况,同时结合时间跨度和图书分类两者关系,在二维层面进行研究的文献不多。本文以图书馆近10年的流通数据为研究基础,通过聚类分析方法,在二维层面找出《中国图书馆分类法》各分类下图书借阅情况的变化,以此探讨读者的集群特性,进而得出读者的借阅倾向。以流通数据为基础研宄读者的阅读倾向,是一种客观、科学的数据分析方法,具有很高的可信度。2K-VIea

4、ns(k均值)聚类分析原理及方法聚类分析(clusteringanalysis)是一种探查数据结构的工具。聚类分析的核心是聚类,即将需要考察的对象进行划分,使得同一个类的对象相似,而不同的类的对象相异。物以类聚,人以群分。对事物进行分类,是人们认识事物的出发点,也是人们认识世界的一种重要方法。随着计算机技术的不断发展,利用数学方法研宄分类不仅非常必要而且完全可能。对急剧增长的数据进行组织加工,从海量数据中学习有价值的信息,这些需求使得聚类分析成为一个非常活跃的研究领域。K-Means法是麦奎因(MacQueen,196

5、7)提出的,其基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下步骤:?确定k个类的初始类中心点。计算所有样本数据点到k个类中心点的距离,按照距k个类中心点距离最短原则,把所有样本分派到各中心点所在的类中,形成一个新的k类,完成一次迭代过程。其中距离主要取决于研宄者根据特定的应用选择适合的方法。可选的距离有欧氏距离(EuclideanDistance)、切比雪夫距离(ChebychevDistance)等。?重新确定k个类的中心点。计算每个类中各个变量的变量值均值,并以均值点作为新的类中心点。重

6、复上面两步计算过程,直到达到指定的迭代次数或终止迭代的判断要求为止。将所有的样品分成K个初始类,并计算各初始类的中心坐标。K-Means聚类是一个反复迭代的分类过程。在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。3实证研宄本文以西南交通大学图书馆近10年的流通数据作为研宄对象,采用K—Means聚类数据挖掘方法,对一段时间的纸本图书的流通数据进行分析,发现其中包含的读者阅读倾向。3.1数据的获取和预处理3.1.1数据源为读者提供对纸本图书的借阅仍然是图书馆中最基本和最主要的服务。根据图书馆自动化系统中的流

7、通数据,可以很好地掌握读者借阅规律,发现读者阅读倾向。在流通数据中,借阅次数的多少是衡量藏书质量的主要标准,高质量的图书往往会被反复借阅。由于纸本图书的流通数据量很大,因此选取2000—2010年的图书分类流通数据,去除其中与数据挖掘关系不大的属性,如图书的馆藏地点、借还书工作人员编号等。西南交通大学图书馆使用的自动化系统是自己开发设计的,后台数据库选用的是Oraclellg,这些都为进行数据挖掘提供了良好的客观条件。图书馆的图书是按照《中国图书馆分类法》进行分类的。如果分类级别太细将会使每个分类下的图书数量过少,从而

8、降低了数据的揭示能力,因此只对分类到二级的数据进行数据挖掘,同时根据实际借阅情况,剔除掉借阅次数为◦的图书分类,即提取2000—2010年从A1到z8中所有发生借阅记录的图书分类。随着每年图书采购数量的增长,仅仅从借阅量来进行数据挖掘是有局限性的。因为学生人数和图书总数的增长,也会使各个图书分类下的图书借阅量增加。为了提高输入数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。