欢迎来到天天文库
浏览记录
ID:36041227
大小:84.50 KB
页数:11页
时间:2019-04-30
《模式识别原理11.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、模式识别原理实验报告基于贝叶斯方法对鸢尾花数据的分类一.贝叶斯原理贝叶斯准则又称为最大后验概率,用和分别表示两个不同的类别,用和分别表示和各自的先验概率。用和分别表示和的类条件概率密度函数。则由全概率公式,可知观测样本出现的全概率密度由式1表示:(公式1)而由贝叶斯公式,在观测样本出现的情况下,属于两个类别和的后验概率分别可表示为式2和式3:(公式2)(公式3)这里,由式1给出。如果规定把观测样本判归后验概率较大的类别,则相应的判决规则可表示为(公式4)将公式2和3带入,可得(公式5)鸢尾花卉数据集
2、,是一类多重变量分析的数据集。其数据集包含了150个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾,变色鸢尾和维吉尼亚鸢尾。四个特征被用作样本的定量分析,分别是花瓣的长度和宽度。实验中所用的数据集已经分成三类,第一组为山鸢尾,第二组为变色鸢尾,第三组为维吉尼亚鸢尾。对于具有多个特征参数的样本,其正态分布的概率密度函数可定义为(公式6)其中是维的行向量,是维的协方差矩阵,是的行列式,是均值。(公式7)由其判决规则,(公式8)即可对样本进行分类。二.实验过程及结果分析(一)第一组和第二组a)分别取第一组和
3、第二组的前40个样本作为训练样本,求出每一类别的表达式,然后对剩余的样本进行分类,此时对两类别所知道的信息是一样的,所以先验概率均为0.5,如此只需要比较的大小。得到的判决结果如下:a=Columns1through101111111111Columns11through202222222222判断的结果完全正确。b)分别取第一组的前10和第二组的前10个样本作为训练样本,拿剩下的样本进行检测得如下结果:a=Columns1through101111111111Columns11through201
4、111111111Columns21through301111111111Columns31through401111111111Columns41through502222222222Columns51through602222222222Columns61through702222222222Columns71through802222222222成功率依然为100%,这说明每类10个数据也足够成功的将不同类的数据区分开来。当再减少已知数据个数时,会出现判别错误的情况。c)分别取第一组和第二组的
5、前五个样本作为训练样本,然后再对剩余样本进行分类,结果如下:Columns1through102222222222Columns11through202222222222Columns21through302222222222Columns31through402222222222Columns41through502222222222Columns51through602222222222Columns61through702222222222Columns71through80222222222
6、2Columns81through902222222222可见,当样本数量太少时,所提供的信息不足以区分两组类别。cov(B1)=0.04300.0365-0.002500.03650.0670-0.00250-0.0025-0.00250.005000000训练样本的协方差矩阵含有全零行,不可逆。协方差每个元素的含义即是反映各个元素的相关程度,而零就代表了不相关,因此从另一方面也反映了数据信息太少所带来的影响。a)若取第一组和第二组的5个差异比较大的样本作为训练样本,先验概率第一组取0.5,第三组
7、取0.5,判决结果如下:Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through501111122222Columns51through602222222222Columns61through702222222222Columns71through802222222222Columns81through9
8、02222222222判决结果完全正确,说明训练样本的选取也会对后面的分类产生影响,并且训练样本的差异越大越好a)若改变先验概率,主观认为出现第一类数据的可能性大于第二类,假设p1=0.7,p2=0.3,每组数据仍采用10个作为已知数据,其余为被检测数据,实验结果如下:Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through40
此文档下载收益归作者所有