逻辑斯蒂回归与最大熵.ppt

逻辑斯蒂回归与最大熵.ppt

ID:52399354

大小:2.47 MB

页数:25页

时间:2020-04-05

逻辑斯蒂回归与最大熵.ppt_第1页
逻辑斯蒂回归与最大熵.ppt_第2页
逻辑斯蒂回归与最大熵.ppt_第3页
逻辑斯蒂回归与最大熵.ppt_第4页
逻辑斯蒂回归与最大熵.ppt_第5页
资源描述:

《逻辑斯蒂回归与最大熵.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第6章逻辑斯蒂回归与最大熵模型简介6.0逻辑斯蒂回归模型6.1最大熵模型6.2第6章.简介逻辑斯蒂回归是统计学中经典的分类方法.最大熵是概率模型学习的一个准则,推广到分类问题得到最大熵模型.逻辑斯蒂与最大熵都是线性模型。6.1逻辑斯蒂回归模型6.1.1逻辑斯蒂分布定义6.1设X是连续随机变量,逻辑斯蒂分布函数和密度函数:为位置参数>0为形状参数6.1逻辑斯蒂回归模型定义6.2二项逻辑斯蒂回归模型是如下概率分布:xRn是输入,y{0,1}输出,w,b参数,w权值向量,b偏置,w.x内积.6.1.2二项逻辑斯蒂回归模型有时为了研究方便,将权值和输入向量扩充w=(w(1),w(2),…w(n

2、),b)T,x=(x(1),…x(n),1)T,此时逻辑斯蒂模型:考察逻辑斯蒂回归模型特点.事件的几率:发生概率与不发生概率的比值.对数几率:对逻辑斯蒂回归而言这就是说,RLM中,输出Y=1对数几率是输入x的线性函数.换角度,考虑对输入x分类的线性函数w.x,通过LRM模型将线性函数转化为概率:线性函数值接近正无穷,概率值接近1;反之,负无穷和0,--这就是逻辑斯蒂回归模型。训练集T={(x1,y1)…(xN,yN)},xRn,y{0,1},用极大似然估计法估计模型参数,从而得到LRM.设:似然函数6.1.3模型参数估计对数似然函数**对L求极大值得到w的估计值.这样,问题就成为以对数

3、似然函数为目标函数的最优化问题.路径斯蒂回归通常采用梯度下降法,拟牛顿法假设离散随机变量Y的取值集合{1,2…K}那么LRM为:6.1.4多项逻辑斯蒂回归6.2.1最大熵原理表述为在满足约束条件的模型集合中选取最大熵模型。若离散随机变量X的概率分布是P(X),其熵为:熵满足下列不等式6.2最大熵模型

4、X

5、为X取值个数,仅当X均匀分布时,右等号成立,熵最大。最大熵理论:熵增原理在无外力作用下,事物总是朝着最混乱的方向发展事物是约束和自由的统一体事物总是在约束下争取最大的自由权,这其实也是自然界的根本原则在已知条件下,熵最大的事物,最可能接近它的真实状态以最大熵理论为基础的统计建模为什么可以基

6、于最大熵建模呢?Jaynes证明:对随机事件的所有相容的预测中,熵最大的预测出现的概率占绝对优势Tribus证明,正态分布、伽玛分布、指数分布等,都是最大熵原理的特殊情况。基于最大熵的统计建模:建模理论最大熵原则下点的分布:对一随机过程,如果没有任何观测量,即没有任何约束,则解为均匀分布。增加约束条件继续增加约束条件问题描述:设最终输出值构成的语言学类别有限集为Y,对于每个y∈Y,其生成均受上下文信息x的影响和约束。已知与y有关的所有上下文信息组成的集合为X,则模型的目标是:给定上下文x∈X,计算输出为y∈Y的条件概率p(y

7、x)。基于最大熵的统计建模:数学描述例6.1随机变量X取值{A,

8、B,C,D,E},要估计各值的概率P(A),P(B)…解:约束条件:P(A)+P(B)+P(C)+P(D)+P(E)=1有时,能从先验知识得到一些约束条件,如:P(A)+P(B)=3/10->P(A)=P(B)=3/20P(A)+P(B)+P(C)+P(D)+P(E)=1->P(C)=P(D)=P(E)=7/306.2最大熵模型这时认为A,B等可能,C,D,E等可能。以此类推,如果有3个约束条件等,以上模型学习方法正是遵循了最大熵原理满足条件的分布有无穷多,一个办法认为等可能的P(A)=P(B)=P(C)=P(D)=P(E)=1/5图提供了用最大熵原理进行概率模型选择的集合解释。假设模型是

9、一个条件概率分布P(Y

10、X),给定输入X以P(Y

11、X)输出Y。给定训练集T={(x1,y1)…(xN,yN)},选择分类模型.先找约束条件.对T可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布v(X=x,Y=y)表示T中(x,y)出现频数,v(X=x)表示出现频数,N样本容量.用特征函数f(x,y)定义x,y之间某一事实6.2.2最大熵模型的定义特征函数f(x,y)关于经验分布P~(X,Y)的期望值:如果模型能获取T中信息那么假设这两个期望值相等,即Ep(f)=Ep~(f)或:6.2.2最大熵模型的定义特征函数f(x,y)关于模型P(X

12、Y)与经验分布P~(X)的期望值:

13、此为模型约束条件,如果有n个特征函数fi(x,y)就有n个约束条件。定义6.3最大熵模型假设满足约束条件模型集合为则模型集合C中条件熵H(P)最大的模型称为最大熵模型.6.2.2最大熵模型的定义定义在条件概率分布P(Y

14、X)上的条件熵为最大熵学习模型过程就是求解最大熵过程.可以形式化为约束最优化问题.对于训练集T以及特征函数fi(x,y),最大熵模型学习等价约束最优化最优化习惯,求最大值问题等价改写为求最小值问题:6.2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。