主成分(pca)分析原理

主成分(pca)分析原理

ID:22738639

大小:609.73 KB

页数:23页

时间:2018-10-31

主成分(pca)分析原理_第1页
主成分(pca)分析原理_第2页
主成分(pca)分析原理_第3页
主成分(pca)分析原理_第4页
主成分(pca)分析原理_第5页
资源描述:

《主成分(pca)分析原理》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、主成分分析(primarycomponentanalysis)问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢?      《模型选择和规则化》谈到的特征选择的问题,就是要剔除的特征主要是和类标签无关的特征。比如“学生的名字”就和他的“成绩”无关,使用的是互信息的方法。       而这里的特征很多是和类标签有关的,但里面存在噪声或者冗余。在这种情况下,需要一种特征降维的方法来减少特征数,减少噪

2、音和冗余,减少过度拟合的可能性。        PCA的思想是将n维特征映射到k维上(k

3、值是1.81,y的均值是1.91,那么一个样例减去均值后即为(0.69,0.49),得到          第二步,求特征协方差矩阵,如果数据是3维,那么协方差矩阵是         这里只有x和y,求解得         对角线上分别是x和y的方差,非对角线上是协方差。协方差是衡量两个变量同时变化的变化程度。协方差大于0表示x和y若一个增,另一个也增;小于0表示一个增,一个减。如果x和y是统计独立的,那么二者之间的协方差就是0;但是协方差是0,并不能说明x和y是独立的。协方差绝对值越大,两者对彼此的影响越大,反之越小。协方差是没有单位的量,因此,如果同样的

4、两个变量所采用的量纲发生变化,它们的协方差也会产生树枝上的变化。     第三步,求协方差的特征值和特征向量,得到         上面是两个特征值,下面是对应的特征向量,特征值0.0490833989对应特征向量为,这里的特征向量都归一化为单位向量。    第四步,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。    这里特征值只有两个,我们选择其中最大的那个,这里是1.28402771,对应的特征向量是。     第五步,将样本点投影到选取的特征向量上。假设样例数为m,特征数为n,减去均值后

5、的样本矩阵为DataAdjust(m*n),协方差矩阵是n*n,选取的k个特征向量组成的矩阵为EigenVectors(n*k)。那么投影后的数据FinalData为         这里是    FinalData(10*1)=DataAdjust(10*2矩阵)×特征向量    得到结果是         这样,就将原始样例的n维特征变成了k维,这k维就是原始特征在k维上的投影。    上面的数据可以认为是learn和study特征融合为一个新的特征叫做LS特征,该特征基本上代表了这两个特征。   上述过程有个图描述:         正号表示预处理后的

6、样本点,斜着的两条线就分别是正交的特征向量(由于协方差矩阵是对称的,因此其特征向量正交),最后一步的矩阵乘法就是将原始样本点分别往特征向量对应的轴上做投影。    如果取的k=2,那么结果是         这就是经过PCA处理后的样本数据,水平轴(上面举例为LS特征)基本上可以代表全部样本点。整个过程看起来就像将坐标系做了旋转,当然二维可以图形化表示,高维就不行了。上面的如果k=1,那么只会留下这里的水平轴,轴上是所有点在该轴的投影。    这样PCA的过程基本结束。在第一步减均值之后,其实应该还有一步对特征做方差归一化。比如一个特征是汽车速度(0到100

7、),一个是汽车的座位数(2到6),显然第二个的方差比第一个小。因此,如果样本特征中存在这种情况,那么在第一步之后,求每个特征的标准差,然后对每个样例在该特征下的数据除以。    归纳一下,使用我们之前熟悉的表示方法,在求协方差之前的步骤是:         其中是样例,共m个,每个样例n个特征,也就是说是n维向量。是第i个样例的第j个特征。是样例均值。是第j个特征的标准差。    整个PCA过程貌似及其简单,就是求协方差的特征值和特征向量,然后做数据转换。但是有没有觉得很神奇,为什么求协方差的特征向量就是最理想的k维向量?其背后隐藏的意义是什么?整个PCA的

8、意义是什么? PCA理论基础    要解释为什么协方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。