数据挖掘试题一

数据挖掘试题一

ID:35504933

大小:60.49 KB

页数:3页

时间:2019-03-25

数据挖掘试题一_第1页
数据挖掘试题一_第2页
数据挖掘试题一_第3页
资源描述:

《数据挖掘试题一》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、《数据挖掘》试题一一、辨析题:请解释并辨析以下概念。1•什么是过拟合,泛化性?并分析两者的联系和区别。答:为了得到一致假设而使假设变得过度复杂称为过拟合。想像某种学习算法产生了一个过拟合的分类器,这个分类器能够百分Z百的正确分类样本数据(即再拿样本中的文档来给它,它绝对不会分错),但也就为了能够对样本完全正确的分类,使得它的构造如此精细复杂,规则如此严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别。一个假设能够止确分类训练集Z外数据(即新的,未知的数据)的能力称为该假设的泛化性。2•请分析特征选择和特征提

2、取有何区别?答:特征选择定义为从有N个特征的集合中选出具有M个特征的子集,并满足条件MWN。特征选择能够为特定的应用在不失去数据原有价值的基础上选择最小的屈性子集,去除不相关的和兀余的屈性。特征提取广义上指的是一种变换,将处于高维空间的样本通过映射或变换的方式转换到低维空间,达到降维的口的。它可以从一组特征屮去除冗余或不相关的特征來降维。3.试分析回归和分类的区别?答:分类问题和冋归问题都要根拯训练样本找到一个实值函数g(x)0冋归问题的要求是:给定一个新的模式,根据训练集推断它所对应的输出y(实数)是多少。也就是使用y

3、二g(x)来推断任-•输入x所对应的输出值。分类问题是:给定一个新的模式,根据训练集推断它所对应的类别(如:+1,・1)。也就是使用y=sign(g(x))来推断任一输入x所对应的类别。综上,回归问题和分类问题的本质一样,不同仅在于他们的输出的取值范围不同。分类一般针对离散型数据而言的,回归是针对连续型数据的,但是其实木质上是一样的。4•请论述LDA和FisherLDA,并辨析其区别。答:LDA是线性判别式分析,鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后

4、保证模式样木在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中冇最佳的町分离性。就是说,它能够保证投影后模式样本在新的空间中冇最小的类内距离和最大的类间距离,即模式在该空间中有最佳的可分离性。二、综述题:请解释并论述以下问题1•请描述有监督学习、无监督学习以及半监督学习的区别和联系?答:利用一组已知类别的样木调整分类器的参数,使其达到所要求性能的过程,称为有监督学习。无监督学习:设计分类器时候,用于处理未被分类标记的样本集,目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。非监督学习一

5、般有两种思路。第一种思路是在指导Agent吋不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大冋报的决定。半监督学习(Semi・supervisedLearning)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价,提高学习机器性能貝有非常重大的实际意义。2.试论述如何将聚类用于数据预处

6、理和选择特征。答:数据挖掘的完整流程是什么?答:(1)数据理解:数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。(2)数据准备:数据准备阶段包括从未处理数据中构造最终数据集的所冇活动。这些数据将是模型工具的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。(3)建模:在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些

7、技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。(4)评估:到项廿的这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型2前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。(5)部署:通常,模型的创建不是项口的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这

8、个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。讨论题:(3选2)1•如何改进k-means算法中的k的选取问题?2.请描述EM算法原理和技术。答:EM算法是一种迭代算法,主要用来计算后验分布的众数或极大似然估计,广泛地应用于缺损数据、截尾数。在统计计算中,最大期望(EM)算法是在概率(pro

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。