聚类分析模型

聚类分析模型

ID:44652213

大小:58.50 KB

页数:5页

时间:2019-10-24

聚类分析模型_第1页
聚类分析模型_第2页
聚类分析模型_第3页
聚类分析模型_第4页
聚类分析模型_第5页
资源描述:

《聚类分析模型》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、符号说明:◎:各个样木屮碱基A出现的数量nG:各个样本中碱基G出现的数量g第i个样本的总碱基数目Fa:各个样本中碱基A的丰度伦:各个样本中碱基G的丰度舛:各个样木的第i个特征变量fTA:各个样本中碱基T和碱基A的比值九…各个样本中碱基G和碱基T的比值X:第i个样本的特征向量d..:向量X和向量匕间的Lance和Williams距离P-.特征向量的分量个数,即向量的维数k:特征向量的第k个分量n:样本的个数xq特征向量i的第k个分量dmdK:不同向量间Lance和Williams距离的最大值〃価:不同向量间Lance和Williams距离的最小

2、值儿:聚类分析屮A类的标准向量),朴聚类分析中B类的标准向量名词解释:碱基丰度:不同碱基在各个样木屮分别出现的碱基频率。六、模型的建立与求解6・1模型一:聚类分析模型要使DNA序列的分类能够尽量合理科学,集屮要解决的问题是让分类后的样本在类内各样本的茅异性尽可能小,在类间的样本茅异性尽可能大。根据上述特征,引入聚类分析模型来对DNA的序列进行排序。6.1.1模型的建立聚类分析方法根据分类对象的不同可以分为两类:1.对样品所作的分类,即Q■型聚类,2.对变量所作的分类,即R-型聚类。此问题将给出的不同DNA序列看成是不同的样本,选用Q■型聚类进

3、行具体求解。(1)样本特征变量的引入为了刻画不同样木的性质,需要对样木引入统一的特征作为样木特征变量,作为聚类分析前的数据准备。1)样本的A,C,T,G碱基丰度样本i屮A碱基丰度的计算:(1)其他碱基丰度的计算方法同上。编号而20的人工制造类别DNA样木的各碱基丰度离散统计图:根据上面的散点图,进行数据分析:DNA序列中碱基A和碱基C在分类A和B屮的区分不大,均在相同的频率区间内波动,故不选用碱基A和碱基C的丰度作为特征区分;而DNA序列中碱基T和碱基G在分类A和B中的区分较大,A类和B类相应的碱基丰度分别集中在不同的频率区间段内,故选用碱基

4、T和碱基B的丰度作为特征区分。将T的碱基丰度作为样本的第1个特征变量,记为州o将G的碱基丰度作为样本的第2个特征变量,记为心。2)样本不同碱基间的比例样本i中碱基T和碱基A的比值计算:fc,T=如/与⑵其他碱基比例的计算方法同上。编号前20的人工制造类别DNA样本的不同碱基间的比例离散统计图:依根据上而的散点图,进行数据分析:DNA序列中碱基T和碱基A的比值以及碱基G和碱基T的比值在分类A和B中的区分较大,A类和B类相应的碱基比值分别集屮在不同的频率区间段内,故选用碱基T和碱基A的比值以及碱基G和碱基T的比值作为特征区分。将碱基T和碱基A的比

5、值作为样木的第3个特征变量,记为兀3。将碱基G和碱基T的比值作为样本的第4个特征变量,记为兀。(2)样本特征数据的向量转化把上述得到的4种特征变量分别作为一个向量的四个分量,用该向量称为样本特征向量来描述不同样本。各样本特征变量值统计表:每个样木有一个特征向量,前20个样木得到下述20个特征向量:仆(,,,),E=(,,,),5=(,,,)(3)不同样木的相似性度量弓I用距离测度来描述不同样本的相似性。距离测度小的两个样本,相似性较高;反Z,距离测度大的两个样本,相似性较低。为了排除不同变量Z间的单位影响,以及减弱较大数据出现时对结果的不良影

6、响,即减弱较大值(包括异常值)的敏感度。选用Lance和Williams距离来描述距离测度,进而表示不同样木间的相似性。向量X和向量与间的Lance和Williams距离(3)d坨_列」y台(心+S)用公式(3)计算所有向量间的两两距离。所冇向量(n个)进行两两组合的个数:C;,分别计算岀每个组合的Lance和Williams距离。本次聚类中选用的向量个数为n=20,一共有C;()=190个组合,用matlab进行计算得出所冇组合的Lance和Williams距离,并对数据进行比较得出d叭(4)根据距离测度进行分类1)样木数据分成两类由上述得

7、到的dma「查找所对应的向量组合,假定该向量组合是向量乙和向量乙•,则将第i个样木和第j个样木分为A,B两类,可以令i样木为A类,令j样本为B类。分别将乙和};•作为A,B两类的标准向量儿,力对剩余样本进行分类。2)剩余样本分类样本i和样本j分完类后,还剩余(n・2)个样本未进行分类,将这(n-2)个样本数据分别和A类的标准向量儿进行组合,计算出每个组合的Lance和Williams距离,将所得的距离进行比较,得出最小的血「查找所对应的向量,假定该向量是乙,则将该向量和样木i分为一类,同属于A类。用同样的方法把这(m2)个样木数据分别和B类的

8、标准向量片进行组合,得出最小的假定该组合所对应的向量是匕,则将该向量和样本j分为一类,同属于B类。此时得到A组为打,YjOB组为h,A,B两类标准的重新计算:将此时

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。