《案例探讨》PPT课件

《案例探讨》PPT课件

ID:36899931

大小:960.60 KB

页数:25页

时间:2019-05-10

《案例探讨》PPT课件_第1页
《案例探讨》PPT课件_第2页
《案例探讨》PPT课件_第3页
《案例探讨》PPT课件_第4页
《案例探讨》PPT课件_第5页
资源描述:

《《案例探讨》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1http://www.yzgongzuo.com/>>>森马官方旗舰店http://www.zhaoycw.com/>>>李宁官方商城2内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结3简介以图书借阅数据为例,说明数据探勘的处理过程:数据取得、需求分析、资料整理、资料仓储建立、资料探勘、结果分析。探讨问题:探讨不同科系是否借阅不同类别的书?不同年级学生是否借阅不同类别的书?大学部与研究生是否有不同的借阅习惯?图书分类是否有改进的地方?借阅纪录是否隐藏不易发掘而且重要的信息?实例解说资料探勘过程,了解数据探勘的

2、过程,建立具体的印象与观念,注重过程,而非结果。4内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结5原始数据源根据需求分析,只考虑书籍、系所部门、读者、借阅数据四个数据表数据表名称原始资料总笔数字段个数Book36429922Department3239Reader3731831History(借阅历史资料)113264836内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结7第一阶段数据前置处理(1)原始数据利用数据转换汇入SQLServer将Reader与Department数据表合成新的Reade

3、r数据表。在Reader数据表内:增加college字段,建立:系所学院概念阶层。依学号分类,新增grade字段,记录用户年级,区分为「freshman、sophomore、junior、senior、postgraduate、candidateforPhD、teacher」等七个类别。只保留rno(读者id)、dept_code、dept_name、college_name、grade字段,其余字段全部删除。8第一阶段数据前置处理(2)在Book数据表内的:根据中西文图书分类,在索书号上新增sub_class及cla

4、ss属性,建立书籍种类的概念阶层。将language字段重新分类,保留最多的中文、英文、日文三类,将其余语言归类为other。建立publsih_interval字段,出版年以五年为一区间,作为出版年代的概念阶层之用。仅留下marc_id(书籍id)、title、author、publisher、publish_year、language、subject、marc_class、class、sub_class、publish_interval等字段。9第一阶段数据前置处理(3)利用中西文图书分类检表,将书分为4大类,大类再

5、细分成子项目。10第一阶段数据前置处理(4)在History数据表内:将借阅日期拆成三个字段:借阅年、借阅月、借阅日,作为将来时间的概念阶层。加入amount字段,代表借书的本数,一般都为1,作为事实数据表的量值。仅留下marc_id、rno、borrow_year、borrow_month、borrow_date、amount字段,其中amount字段为量值。11第二阶段数据前置处理(1)在Reader数据表,分析对象为正常学制学生,删除外校人士、行政人员、在职专班、转系、大五、大六、系所空白者、身分无法辨认者。在Bo

6、ok数据表内,删除索书号不完全者;删除期刊数据及校内论文、不能外借之书籍(如当期杂志)、视听资料(如CD、LD、tape)等。在History数据表内,删除索书号不完整之纪录;删除rno(userid)无法在整理过的Reader数据表找到之纪录;删除索书号无法在整理过的Book数据表找到之纪录。12第二阶段数据前置处理(2)资料整理前后数据表内容变化比较数据表名称原始资料总笔数资料整理后的总笔数原始字段个数整理过后字段个数Book364299752142211Reader373188587315History113264

7、86120753613内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结14数据仓储设计(1)事实数据表:History为事实数据表,amount量值。维度:Reader、Book与Time三个维度。15数据仓储设计(2)在Reader维度数据表内找到两种概念阶层:年级:rnograde学院系所:rnodept_namecollege_name在Book维度数据表内找到三种概念阶层:语言:titlelanguage主题分类:titlesub_classclass出版年:publish_yearpub

8、lish_interval在Time维度找到一种概念阶层:借阅日期:borrow_dateborrow_monthborrow_year16数据仓储设计(3)星状式架构的资料仓储17内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结18判定树资料探勘分析预测项目书籍、学生、语言类别百分比(预测借书类别)人

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。