肿瘤微阵列数据的小波模极大值特征提取.pdf

肿瘤微阵列数据的小波模极大值特征提取.pdf

ID:52389584

大小:918.72 KB

页数:3页

时间:2020-03-27

肿瘤微阵列数据的小波模极大值特征提取.pdf_第1页
肿瘤微阵列数据的小波模极大值特征提取.pdf_第2页
肿瘤微阵列数据的小波模极大值特征提取.pdf_第3页
资源描述:

《肿瘤微阵列数据的小波模极大值特征提取.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、学术探讨∙算法研究肿瘤微阵列数据的小波模极大值特征提取陈小梅(福建农林大学,福建福州350002)[摘要]本文提出针对肿瘤微阵列数据的小波模极大值特征提取方法。首先求两类数据的Bhattacharyya距离分布,初步提取特征基因;接着进行小波分解,在频域上用小波分解高频系数检测基因突变点,低频系数逼近表征原始信号特征;然后通过理论分析和构建SVM分类器,经过多次实验选取小波基和尺度,提取特征基因。将该算法应用于数据集(1999年Golub所用ALL和AML),从中提取了5个基因,分类测试准确率可达94.12%。可见该算法具有较高的可行性与有效性,能为肿瘤间差

2、异基因研究提供一定参考。[关键词]微阵列数据;小波模极大值;SVM中图分类号:TP391.4文献标识码:A文章编号:1008-6609(2016)05-0046-03测是在不同尺度上先对信号进行光滑,再由光滑后信号的一1引言阶和二阶导数检测信号的突变点。基因芯片进行癌症诊断极大地提高了数据获取效率,但2小波变换模极大值特征提取算法基因芯片数据存在高维数、高噪声、高通量等特点,如何从基肿瘤基因微阵列数据一个显著的特点是样本少,维数因芯片的海量数据中提取有用的生物学信息,是癌症基因检高,基因集只有一小部分基因与肿瘤分型有关,可以首先对测的关键。基因集进行初步的筛

3、选。信噪比是由Golub提出的评价基因基因表达水平信号变化极不规则,但其奇异点和不规则[6]对肿瘤分型影响大小的经典准则。但这种准则存在有一定的突变部分经常携带比较关键的信息[1]。小波分析理论可以的缺陷,比如当两种类型肿瘤的分布均值相同时,其信噪比用于基因芯片数据的处理,小波分解后的系数能表征基因表d=0,但可能两者的分布波动区别较大,此时的基因可能会被达相关信息[2,3]。文献[4]和[5]分别采用小波分解的低频系数剔除,进而影响差异基因的提取。Bhattacharyya距离既体现和高频系数作为特征进行分类,分类效果均可以达到93%左了基因在两个类别中均

4、值的差异对样本分类的贡献,又体现右,低频系数特征提取结果总体上好于高频,但没有阐述提取了方差的不同对不同分类的影响[7]。所以本文采用基因的多少个基因,提取的基因是什么,且分类准确率还有待提高。Bhattacharyya距离来评价基因中蕴含的分类信息,对基因集本文提出一种基于小波模极大值的特征提取算法,可以从经进行初步提取。典数据集中提取5个特征基因,分类测试准确率达到94.12%。针对一包括两类肿瘤的微阵列数据矩阵,利用高频分量小波变换理论最早是20世纪80年代初法国地球物理学中的局部极大值点来初步确定基因可能突变位置,然后综合家Morlet在分析地球物理

5、信号时,提出来的一种数学工具。考虑训练样本的可能突变位置,确定这两类肿瘤基因的可能它是为克服傅里叶分析时域不能局部化,难以检测信号发生突变点。最后根据突变点位置,提取突变点位置的低频信息突变时间(或位置)的不足而提出的一种信号分析手段。一般作为特征,构建SVM分类器分类测试,具体算法如下:情况下,在低频部分(平稳部分)具有较低的时间分辨率和较(1)先根据Bhattacharyya距离及其分布,提取两类间距高的频率分辨率,而在高频部分(细节部分)较高的时间分辨离较大的基因,对训练数据进行初步降维。Bhattacharyya距率和较低的频率分辨率,可见小波分析理

6、论适合于探测正常2æ22ö信号中出现的反常现象。而肿瘤微阵列数据突变基因的检1(μ1-μ2)1σ1+σ2离公式为:B=+lnçç÷÷42222σσ测正属于这种从正常信号中探测异常现象的问题。(σ1+σ2)è12ø小波变换模极值点突变点检测原理:模极大值突变点检其中B为两肿瘤基因之间的Bhattacharyya距离,μ1和——————————————作者简介:陈小梅,女,福建漳州人,硕士,助理实验师,研究方向:模式识别、图像处理。-46-学术探讨∙算法研究μ分别为两类肿瘤某基因表达水平的均值,σ和σ分别为3.1Bhattacharyya距离初步过滤基因212两

7、类肿瘤某基因表达水平的标准差。文章首先求出利用Bhattacharyya距离公式,求出AML(2)分别对训练子集的所有样本的基因表达信号进行小和ALL各基因之间的Bhattacharyya距离,构建直方图(如下波变换处理。图2),选取阈值为0.2,从7129个基因中选取了757个候选特(3)对小波变换处理得到的高频成分利用小波模极大值征基因。原理进行突变点位置检测,并将每个样本的局部模极大值点令为1,否则为0。(4)分别统计两类肿瘤训练集中每个基因可能是突变点出现的次数,求出每个基因可能为突变点的概率。(5)设定阈值TH,分别将两类肿瘤中概率大于阈值TH的基

8、因提取出来作为候选特征基因。(6)取两类肿瘤所选基因

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。