关联规则分析在学生成绩管理中的应用.pdf

关联规则分析在学生成绩管理中的应用.pdf

ID:52963494

大小:302.92 KB

页数:4页

时间:2020-04-04

关联规则分析在学生成绩管理中的应用.pdf_第1页
关联规则分析在学生成绩管理中的应用.pdf_第2页
关联规则分析在学生成绩管理中的应用.pdf_第3页
关联规则分析在学生成绩管理中的应用.pdf_第4页
资源描述:

《关联规则分析在学生成绩管理中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、2010年4月宁波职业技术学院学报Apr,2010第14卷第2期Journa宁波职业技术学院学报lofNingboPolytechnicVol.14No.2关联规则分析在学生成绩管理中的应用林治(扬州职业大学信息工程学院,江苏扬州225002)摘要:介绍了数据挖掘中的关联规则分析的概念、特点和常用算法,并利用改进的Apriori算法对高职高专院校信息技术公共课考试成绩进行了分析指导。关键词:关联规则分析;数据挖掘;Apriori算法中图分类号:TP311.132文献标识码:A文章编号:1671-2153(2010)02-0064-041关联规则的基本概

2、念3Apriori算法的改进关联规则挖掘就是在大量的数据中发现数据本文在经典的Apriori基础上,采用新的数据项之间的关系,是数据挖掘领域中研究的热点问结构,改进后的算法拟采用基于链表的数据结构,题。关联规则的概念最早由R.Agrawal,T.Imielinski链表涉及3种结点,分别为项集头结点、项结点、[2-6]和A.Swami提出,应用于交易数据库,用来发现超事务结点。链表的一级兄弟结点从左到右按照级市场中用户购买商品之间的隐含关系,即关联子集支持度计数的递增顺序排列,这样即使1-项规则,以便为商场的决策提供依据(如:把用户经集很大的情况下,也

3、将只产生较少的候选2-项集,常购买的商品摆放在一起)。2-项集再产生更少的候选3-项集等等,从而提高关联规则问题可以分解为以下两个子问题:了系统的性能。(1)找出存在于事务数据库中的所有大项集。3.1改进算法的原理项集X的支持度Support(X)不小于用户给定的最改进的算法(称为LApriori算法)采用链表的数小支持度minsup,则称X为大项集。据结构,设Itemheadk是k-项集的头结点,它有两个(2)利用大项集生成关联规则。对于每个大项指针,一个指向k-项集的第一个项结点Itemnode1,集A,若B∈A,B≠准,且Support(A)/S

4、upport(B)≥另一个指向k+1-项集的头结点。每个项结点minconf,则有关联规则B=>(A-B)。Itemnode也有两个指针,一个指向事务集的第一个事务,另一个指向下一个项结点。事务结点TID有一2经典的Apriori算法个指针,它指向下一个事务结点,具体如图1所示。关于关联规则发现的算法较多,最经典的是Agrawal等人于1993年提出的Apriori算法。Apriori是一种宽度优先算法,即在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。但是它需要很大的I/O负载,算法的效率并不

5、很理想。收稿日期:2009-10-30作者简介:林治(1977-),女,江苏扬州人,讲师,研究方向为计算机教育、数据库应用。·64·2010年第2期林治:关联规则分析在学生成绩管理中的应用上述链表构建过程如下:用符号E表示第五章部分的分数,分段概括(1)将Itemhead1指向的项结点Itemnode按为:E1(11-15分),E2(6-10),E3(小于6分)。照1-项子集支持度计数的递增顺序从左到右排序用符号F表示第六章部分的分数,分段概括排列,而不按照项目字典次序从左到右排序,这将为:F1(6-10分),F2(小于6分)。产生较少的候选项集。根据

6、上述方法对表1中的数据进行预处理(2)扫描1-项集的所有结点,根据支持度将后,结果如表2所示。它们连接,同时合并相同事务TID,生成2-项集的表2预处理后的成绩结点。学号一二三四五六(3)扫描2-项集的所有结点,根据支持度将0801010301A2B2C1D1E3F2它们连接,同时合并相同事务TID,生成3-项集的0801010302A2B2C2D1E2F1结点。0801010303A1B1C1D2E2F1(4)依此类推,直到不能产生新的结点为止。0801010304A2B2C2D1E1F13.2改进的LApriori算法在成绩分析中的应用080101

7、0305A2B1C2D2E2F1本文抽取了信息技术期末考试的10位学生0801010306A2B1C1D1E1F2成绩数据,用改进的算法对这些数据进行分析,得0801010307A3B2C2D2E3F2[7-9]0801010308A1B2C2D1E3F2出数据间的相关联系。被抽取的试卷理论部分0801010309A2B1C2D1E2F260分,共有选择题、判断题、填空题3种题型,对数0801010310A2B2C2D2E2F2据进行预处理后,可将知识点分到6个章节,每个章节的总分数分别是15分、7分、5分、10分、13本文仅以前三章的成绩数据为例,用

8、改进后分、10分;操作部分40分,有两大题。学生各章节的LApriori算法表示频繁基础项集的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。