模式识别原理11.docx

模式识别原理11.docx

ID:36041227

大小:84.50 KB

页数:11页

时间:2019-04-30

模式识别原理11.docx_第1页
模式识别原理11.docx_第2页
模式识别原理11.docx_第3页
模式识别原理11.docx_第4页
模式识别原理11.docx_第5页
资源描述:

《模式识别原理11.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、模式识别原理实验报告基于贝叶斯方法对鸢尾花数据的分类一.贝叶斯原理贝叶斯准则又称为最大后验概率,用和分别表示两个不同的类别,用和分别表示和各自的先验概率。用和分别表示和的类条件概率密度函数。则由全概率公式,可知观测样本出现的全概率密度由式1表示:(公式1)而由贝叶斯公式,在观测样本出现的情况下,属于两个类别和的后验概率分别可表示为式2和式3:(公式2)(公式3)这里,由式1给出。如果规定把观测样本判归后验概率较大的类别,则相应的判决规则可表示为(公式4)将公式2和3带入,可得(公式5)鸢尾花卉数据集

2、,是一类多重变量分析的数据集。其数据集包含了150个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾,变色鸢尾和维吉尼亚鸢尾。四个特征被用作样本的定量分析,分别是花瓣的长度和宽度。实验中所用的数据集已经分成三类,第一组为山鸢尾,第二组为变色鸢尾,第三组为维吉尼亚鸢尾。对于具有多个特征参数的样本,其正态分布的概率密度函数可定义为(公式6)其中是维的行向量,是维的协方差矩阵,是的行列式,是均值。(公式7)由其判决规则,(公式8)即可对样本进行分类。二.实验过程及结果分析(一)第一组和第二组a)分别取第一组和

3、第二组的前40个样本作为训练样本,求出每一类别的表达式,然后对剩余的样本进行分类,此时对两类别所知道的信息是一样的,所以先验概率均为0.5,如此只需要比较的大小。得到的判决结果如下:a=Columns1through101111111111Columns11through202222222222判断的结果完全正确。b)分别取第一组的前10和第二组的前10个样本作为训练样本,拿剩下的样本进行检测得如下结果:a=Columns1through101111111111Columns11through201

4、111111111Columns21through301111111111Columns31through401111111111Columns41through502222222222Columns51through602222222222Columns61through702222222222Columns71through802222222222成功率依然为100%,这说明每类10个数据也足够成功的将不同类的数据区分开来。当再减少已知数据个数时,会出现判别错误的情况。c)分别取第一组和第二组的

5、前五个样本作为训练样本,然后再对剩余样本进行分类,结果如下:Columns1through102222222222Columns11through202222222222Columns21through302222222222Columns31through402222222222Columns41through502222222222Columns51through602222222222Columns61through702222222222Columns71through80222222222

6、2Columns81through902222222222可见,当样本数量太少时,所提供的信息不足以区分两组类别。cov(B1)=0.04300.0365-0.002500.03650.0670-0.00250-0.0025-0.00250.005000000训练样本的协方差矩阵含有全零行,不可逆。协方差每个元素的含义即是反映各个元素的相关程度,而零就代表了不相关,因此从另一方面也反映了数据信息太少所带来的影响。a)若取第一组和第二组的5个差异比较大的样本作为训练样本,先验概率第一组取0.5,第三组

7、取0.5,判决结果如下:Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through401111111111Columns41through501111122222Columns51through602222222222Columns61through702222222222Columns71through802222222222Columns81through9

8、02222222222判决结果完全正确,说明训练样本的选取也会对后面的分类产生影响,并且训练样本的差异越大越好a)若改变先验概率,主观认为出现第一类数据的可能性大于第二类,假设p1=0.7,p2=0.3,每组数据仍采用10个作为已知数据,其余为被检测数据,实验结果如下:Columns1through101111111111Columns11through201111111111Columns21through301111111111Columns31through40

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。