欢迎来到天天文库
浏览记录
ID:38060146
大小:330.00 KB
页数:3页
时间:2019-05-24
《Fisher信息非参数嵌入》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、FINE:FisherInformationNonparametricEmbeddingCarter,K.M.;Raich,R.;Finn,W.G.;Hero,A.O.;PatternAnalysisandMachineIntelligence,IEEETransactionsonVolume:31,Issue:11DigitalObjectIdentifier:10.1109/TPAMI.2009.67PublicationYear:2009,Page(s):2093-2098IEEEJournalsAbstract
2、 FullText:PDF (915KB)这篇文章将的是降维
3、和可视化的故事。但是,这个故事不是一般的故事:一般的故事是,每个数据点都降维到d维,而这个故事又于此不同的背景:有两种白血病:l和l一共有个病人,每个病人采集了个样本,现在要区分这些病人是那种白血病,并且可视化他们。每个样本呢,又有5个特征:forwardandsidelightscatter,andthreefluorescentmarkers(CD45,CD23,andFMC7).下面是两个特征的分布情况:那么,每个病人就有了一个有的数据集,里面都是5维的样本特征。现在,我们不以样本为单位,而是以病人为单位来考虑问题,这对临床应用中更有价值:对每个病人的,我们通过技术学习一个,
4、得到了很多个:。对于两个病人的pdf,我们可以用来计算他们之间的距离:这玩意没法直接算,我们用别的来代替:lKullback-Leibler(KL)divergence为了对称性,还可以再加工一下ltheHellingerdistancelthecosinedistance用上面的方法,算好了病人两两之间的距离,我们可以用Isomap里用的方法来降维到维:把构成的矩阵变换成:然后对做特征分解,取其中d个特征值最大的特征向量,组成矩阵Y然后对这个矩阵纵着观赏一下:其中第i列就是地i个病人的变换后的数据了。下面就给出算法:这样做下来,一个病人变成了一个d维矢量,实现了可是化的目的。我们
5、来看看可是化的结果:从原来杂乱无章的很多个样本变成了每个病人一个个点,分得很开的结果。这个算法,并非一般的降维算法,就是说,是针对pdf的降维,而不是对datapoint的降维。另外,还有种用法,就是每个datapoint都是pdf的时候,比如在文本分类中,每个文件都是表达为bag-of-words,用一个word的histogram来表示:这样的话,就可以用上面的方法来做了,可以把一个文本变成一个降维后的数据点。启发是:1.利用mda算法,只要知道两两关系,就可以降维。而两两关系不仅限于shortestpath,还可以用别东西,比如本文里的distributiondistance
6、;2.既然可以用在text的bag-of-words上,当然也可以用在bag-of-featuresbasedmedicalimage上,至少在求pdfdistance方面可以直接用,更进一步地,用mds来做降维,或者用别的来做。最后,作者是MIT的博士,已经毕业了,无王道。
此文档下载收益归作者所有