高维数据特征选择和特征提取的研究

高维数据特征选择和特征提取的研究

ID:34706373

大小:12.14 MB

页数:110页

时间:2019-03-09

高维数据特征选择和特征提取的研究_第1页
高维数据特征选择和特征提取的研究_第2页
高维数据特征选择和特征提取的研究_第3页
高维数据特征选择和特征提取的研究_第4页
高维数据特征选择和特征提取的研究_第5页
资源描述:

《高维数据特征选择和特征提取的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着科技的发展,模式识别或模式分类在越来越多的社会生活中得到了应用。模式识别领域中,存在大量针对高维数据的识别问题,如生物信息数据识别、人脸识别、数字手写体识别等。高维数据的出现为模式识别提出了新的挑战,其不仅难以被人们直观理解,而且为模式识别中的特征选择与特征提取环节带来了新的“维数灾难”。如何从高维数据中选择或提取对识别或分类有效的特征已成为当前的研究热点和难点。本文对模式识别中高维数据的特征选择与特征提取算法进行了研究,主要工作包括以下几个方面:.1.提出了一种多重遗传算法,用于疾病相关的单核苷酸多态性的选择。运用统计机器学习方法研究大规模单核苷酸多态

2、性与复杂疾病的关联关系,首要的工作是把大规模单核苷酸多态性缩减为较小集合,从中提取出包含冗余信息较少的特征单核苷酸多态性。为此,提出了用互信息衡量单核苷酸多态性与疾病问关联的紧密程度并将其作为遗传算法的适应值,通过多次运用遗传算法并合并相应的寻优结果得到候选的特征单核苷酸多态性集合。在单核苷酸多态性仿真数据上的实验及与最大熵方法性能比较表明,该方法最大可能丢弃了与疾病无关的单核苷酸多态性,保留了与疾病相关的单核苷酸多态性,为进一步研究提供了合适规模的单核苷酸多态性,本方法可用于中等或较大规模的单核苷酸多态性数据。2.提出了二次投影识别蛋白质谱数据的新方法。作为一

3、种蛋白质组学工具,质谱法的使用对疾病的早期诊断和治疗带来了革命性的变化。然而,由于蛋白质谱数据高达上万维,现有的机器学习方法不能直接用于识别蛋白质谱数据,同时也面临着识别性能较低的问题。借鉴具有良好降维性能的主成分分析与局部线性判别嵌入两种方法,提出了用于蛋白质谱数据识别的二次投影法。该方法对高维数据先进行去噪与T检验降维,再用主成分分析获取第一次投影的低维特征向量,随后用局部线性判别嵌入获取可分性最好的第二次投影特征向量。此外,还对局部线性判别嵌入方法进行修改,得到一种改进的二次投影法。二种方法在卵巢癌蛋白质谱数据上的实验表明识别性能较好。3.为了发现高维样本

4、的非线性流形结构,对人脸识别与数字手写体识别问题,提出了基于流形学习的新的特征提取算法。(1)结合现有数据局部几何结构保持方法,并使类内散度最小和类间散度最大,达到提取最优分类特征信息的目的,提出了两种集成最大边界准则的人脸图像特征提取算法,分别是保局判别分析算法与线性局部切空间判别分析算法。实验表明,提出的算法可以发现数据集中的非线性流形结构并在降维的同时尽可能摘要地保持这些结构信息,还能使数据的分类边界最大化,提取到了最优的分类特征信息。(2)最大差异伸展是一种最近提出的流形学习算法,将其用于模式识别领域还存在不能处理新样本等限制。利用线性变换的思想,在最大

5、差异伸展的基础上,提出了一种新的线性特征提取算法——线性最大差异伸展。该算法利用提取的特征信息把新的测试样本直接线性变换到低维子空间,并能较好地保留局部近邻的信息。(3)为了解决局部线性嵌入方法不能处理新样本等局限,把一幅人脸图像或数字手写体图像直接作为一个二维数据矩阵处理,不再转换为列向量,提出了基于二维图像的特征提取算法——二维局部线性嵌入算法。二维处理的思想通过直接在图像矩阵上运算有效地降低了局部线性嵌入算法的复杂度,同时,在降维中又保持了原方法把高维流形嵌入到低维空间的优点,而且具有处理新测试样本的能力。从实验结果来看,局部线性嵌入对近邻个数敏感的特性也

6、有效的得到了改善。本文提出的特征选择或特征提取算法,主要用于模式分类任务,在各自的应用领域做了相应的仿真实验,与现有相应算法相比,取得了较好的性能。关键词:模式识别,特征选择,特征提取,高维数据,维度约减AbstractWiththedevelopmentofscienceandtechnology,patternrecognitionhasbeenappliedinmoreandmoresociallife.Inthefieldofpatternrecognition,alargenumberofproblems,suchastherecognitionofb

7、iologicalinformationdata,facerecognition,digitalhandwritingrecognition,canbesummarizedtotherecognitionofhighdimensionaldata.Theoccurrenceofhighdimensionaldata,however,presentsnewchallengestorecognitionproblem.Itisnotonlydifficulttobeintuitiveunderstanding,butalsobringsthe“curseofdime

8、nsionality'’

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。