资源描述:
《中科院机器学习Lecture3_MLE.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第三讲:极大似然估计参数估计矩估计极大似然估计估计的评价/极大似然估计的性质估计的方差1回顾:概率给定概率模型,通过抽样(Sampling),可以得到一些数据例:Bernoulli分布X~Ber(0.3),通过抽样得到样本theta=0.3;N=10;Xi=0;rand('seed',sum(100*clock));fori=1:Ntmp=rand(1);if(tmp<=theta)xi=1elsexi=0endend两次随机抽样得到的10个样本:X=(0000111000)X=(0001001011
2、)2概率模型和数据={xx,,}1N={}(x11,,,,y)(xNNy)模型参数模型非参数模型Gaussian直方图Bernoulli核密度估计Poisson......机器学习:Howtofitmodelstodata?Modelfitting.Howtochosethebestmodelfordata?Modelselection.3参数估计给定模型类别px()
3、q和数据,选择与数据最匹配的参数:参数估计有多种方法可用来估计模型的参数矩估计法极大似然估计:频率学派贝叶斯方法4矩方法矩方法得到的估计虽然不是
4、最优的,但是很容易计算当其他方法不可用时,可用矩方法可用作很多迭代算法的初始值基本思想:矩匹配对真正的矩和样本矩进行匹配5矩方法XXp,...,~(x
5、qqqq),=(,...,)11Nkjjj阶矩:aaqjjº==()q(X)òxpx(
6、q)dxN1jj阶样本矩:aˆj=åXiNi=1矩方法:取前k阶矩真正的矩样本矩aq11(ˆ)=aˆaq22()ˆ=aˆaqkk(ˆ)=aˆ6例:Bernoulli分布令,XXB,...,~er()q1N一阶矩aq1==q()XN1一阶样本矩aˆ1==åXiXNi=1所以
7、我们得到估计Nˆ1q==åXiXNi=17例:高斯分布2令XX1,...,N~(ms,),参数为qm=(,s),一阶矩am==()X1qN1一阶样本矩aˆ1==åXiXNi=1222二阶矩am2==q(X)N+s12二阶样本矩aˆ2=å()XiNi=1所以ìï1Nïïmˆ==åXXiïìïmˆ=XïNïííïi=1ï1n2ïïN2=-ïï2212sˆå()XXiïïïmsˆ+=ˆåXiïîNi=18ïîNi=1极大似然估计(MLE)极大似然估计似然函数对似然函数求最大值极大似然估计的性质9似然函数令为XX,...,
8、IID,其PDF为,p(x
9、q)似然函数定1N义为N()qq=px(i
10、)i=1有时也记为(q
11、x),表示似然函数为在给定x的情况下,参数θ的函数。似然函数在数值上是数据的联合密度,但它是参数θ的函数,:0Q[,¥)。因此似然函数通常不满足密度函数的性质,如它对θ的积分不必为1。10极大似然估计极大似然估计(MLE)是使得q()q最大的,q即qqˆ=argmax()qlog似然函数定义为:l(qq)=log(),它和似然函数在相同的位置取极大值。同样,相差常数倍也不影响似然函数取极大值的位置。因此似然函数
12、中的常数项也可以抛弃。在分类中log似然有时亦称为交叉熵(cross-entropy)11似然可作为损失函数我们可将极大似然估计套入最小化损失(误差)框架因为极大似然N()qq=px(i
13、)i=1等价于最小N-=-lp()qqålog(xi
14、)i=1因此负log似然为在数据上求和的损失函数(与其他损失函数一样)。极大似然也等价于最小KL散度(Kullback‐Lieblerdivergence)KL散度介绍请见教材7.4节12例:高斯分布22令xx1,...,N~(ms,),参数为ms,,似然函数为Nlp()ms,
15、l=åog(xi
16、ms,)i=1N12NN2=-2å()xi-msp-log-log2()22si=122NS2Nx()-mN=---Nlogsp-log2()2222ss2N1其中x=åxi为样本均值Ni=1N212Sx=-å()ix为样本方差Ni=1因为NN2222åå()xxii-=mm()-+-=xxNS+N()x-m13ii==11例:高斯分布log似然函数为2NS2Nx()-mNlN()ms,l=---ogs-log()2p2222ss2解方程ìï¶-lN(ms,)(xm)ïï==0ï¶ms2ïíï¶l()ms,NN
17、S2ïïï=-+=0ïî¶sss3充分统计量ìï1N得到ïïmˆ==xxåiïNïïi=1íï11NNæöïïsˆ22==Sx-=xx2çç÷÷-x2ïåå()iiç÷÷ïïîNNii==11èø可以证明,这是似然函数的全局最大值。1