数据挖掘系列讲座之一

数据挖掘系列讲座之一

ID:20407425

大小:52.00 KB

页数:3页

时间:2018-10-13

数据挖掘系列讲座之一_第1页
数据挖掘系列讲座之一_第2页
数据挖掘系列讲座之一_第3页
资源描述:

《数据挖掘系列讲座之一》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘系列讲座之一

2、第1市场竞争的激烈迫使企业高层寻找更为科学、系统、有效的辅助决策技术和整体解决方案来处理日益复杂的公司事务。毫无疑问,数据挖掘就是很好的选择之一。数据挖掘到底是什么?数据挖掘作为一个过程,是否有章可循、有规可依?企业应该在哪些领域应用数据挖掘技术?目前,数据挖掘的技术咨询、系统集成、工具软件的状况究竟怎样?新年伊始,我们和中国人民大学数据挖掘中心一起精心组织推出这个专题,希望通过这个专题向读者传递实用的信息。简介:赵民德(MinTeChao)教授,美国加州大学柏克莱分校统计博士(1967),数据挖掘国际刊物JDSA执行总编。主要研究方向:

3、抽样论、自动重抽法、衰变量据的分析。DataMining(数据挖掘,下文简称DM),光是看它的数据量,绝对是一头大象。各家各派对它的看法不同,因为各人摸到的是自己可以摸到的那一部分。我虽然知道,同时也极力呼吁DM应以实用为主,但基本上还是学院派。通常,学院派的人认为,如果一件事一定可以做成,那么也就不免无趣。数据挖掘的缘起什么叫DataMining?关于定义,各人的说法不一。基本上我们可以用一个例子讲清楚:先给你一个大的数据集──假设你可以从中读取数据,下面的问题是:从这里你可以得到什么?从某种角度来看,这是百分之百的统计分析工作,只是数据集太多的缘故罢了。但

4、我们并不想忘记这些数据集是做IT的人这么多年来逐渐制造出来的,更何况他们对于如何有效而快速地存储、选取和管理数据,确是有一套真功夫。在IT的骨架上把统计的精髓放进去,这的确是对现在这个信息时代的大挑战。时代变了,现在的数据来得既多又快还便宜,多到没有人有时间去看的程度。这就如同我们的医疗体系。早先的医生还要望闻问切,在少量的数据中,设法提取、组合出最好的治疗方案。现在则是一个名医,一上午要在门诊医治一百五十个病人以上。他只能凭某种算法、也就是经验来看病:问一两个问题,听一两个问题,然后开药。这种对数据的不同的处理方式是数据挖掘和传统的数据分析的主要区别。说实在

5、的,我们已经在某些方面具有相当的信息化程度了。你去任何一家医院看病,哪一个窗口没放着一台PC?医生暗示你可以离开的时候,值班的护士已经在她的PC上键入了许多你的资料。于是你直接可以去划价、取药,连下一次的预约也有人安排好了。前天,我去医院借了一张X光片,一位五十多岁的老职员用“一阳指”在键盘上一步一个“脚印”地敲了不知多久,才输入了该有的个人信息,然后大家就都松一口似地让计算机去跑,最后当然是拿到X光片。这时回顾身后,已排了一条长龙。这种情况,也暗示着目前信息社会的一类尴尬问题:很多事情都还配不上如此快的计算机—老职员的手指速度固然配不上,我们做统计的人和现有

6、的某些统计方法也配不上,甚至于很多统计观念恐怕也都配不上。于是IT的人就跳进来做了个项目:既然有了花大钱做出来的数据库,而且这么多年下来数据堆得满坑满谷,好歹要告诉出钱的老板“这有什么用”。于是,DM便应运而生了。如何看待数据挖掘数据挖掘是先有了数据才兴起的行业。我不想说“学问”,因为到现在为止,我好像都看不到大学问。数据挖掘能帮我做什么?不同的人有不同的看法,比较乐观的是BerryandLinoff(1997)的说法:分析报告给你后见之明(hindsight);统计分析给你先机(foresight);数据挖掘给你洞察力(insight)。这话说得太强,我不是

7、那么地相信。因为这三者都是在既有的数据上做分析,在概念上应该并无本质区别,差别只是手上的数据集的大小和性质,因此,由方法的不同才有定义的不同。较负面的理解来自Friedman(1997),他说:“Dataminingisamercialenterprisethatseekstominetheminers。(数据挖掘就是商业企业竭力去寻找挖掘者的过程。)”这句话有多少真实的成分,我并不清楚,但是酸味还是有一点的。在雅虎上键入“DataMining”,立刻便找到一百五十多个。如果用Google搜寻,它在0.34秒内就找到1,260,000项查询结果。这是在方法论都

8、还没有成熟之前便已有大量商品充斥的情形。看起来真是商机无限。在另一方面,我却在文献上读到:“……portanceofdatamining,inpracticetheprofititbringshasturnedouttobesurprisinglylimitedinmanykeybusinesses.(虽然我认可数据挖掘重要性,事实上,在很多关键的业务中,它所带来的利润已证明出奇有限。”(Kann2000)多半的数据库在建造时都另有目的,并不是设计来给大家挖掘的。上帝给我们大海,也许只是想给我们盐。现在盐的利润有限,大家就拼命去提炼铀,结果自然就不会十分理想。

9、我认为,比较中肯的是Handetal.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。