《教育信息熵》PPT课件.ppt

(80页)

'《教育信息熵》PPT课件.ppt'

《《教育信息熵》PPT课件.ppt》由会员分享,提供在线免费全文阅读可下载,此文档格式为ppt,更多相关《《教育信息熵》PPT课件.ppt》文档请在天天文库搜索。

1、第二章       教育信息熵   熵的最早提出(1865年)与热力学 熵在信息论中的地位第一节    熵的概述 一 信息量的表示 1 信息的多少与信源的不确定性有关 实例:5个学生(A、B、C、D、E)参加某项比赛, 选拔出1人为冠军2 信息量的度量与信源的不确定性实例1:5个学生水平相差不多(接近等概率)实例2:5个学生水平相差大(不等概率), 其中A的水平高超问:哪一组比赛悬念更大(获得的信息量多)? 3 小结:信源输出的消息可以看作是随机事件 事件出现的概率大,出现机会多,不确定程度小; 事件出现的概率小,出现机会少,不确定程度大。 即 Pi大, f(Pi)小; Pi小, f(Pi)大。 即 f(Pi)应是Pi的单调减函数 f(pi)=∽(1/pi)4 信息量的可加性 单调减函数可以有很多种,用来度量信息的函数f(Pi)究竟应当是哪一种呢?有了可加性即可解决。 即 P(x1,x2)。

2、=P(x1)*P(x2) 联合概率(两个变量相互独立) 而f(P1,P2)=f(P1)+f(P2) 不确定性 可见 f(P)满足取对数的关系 f(P)=log(1/p) = -log p 它满足的两个关系:(1) 不确定性与概率的关系;(2) 可加性的要求。 二 信息熵 1 平均信息量(信息熵) 一般情况下状态空间: X: x1 , x2 …………… xn概率分布:P(x):P(x1),P(x2) ……… P(xn) ,且 这里假定各状态是相互独立的。出现Xi的不确定性: log(1/P(xi)) 该信源每个状态的平均(加权平均)不确定性:信息熵(平均信息量):也可以简写为:2 两种不同的单位 上面的定义式中,没有考虑对数的底a,当它取不同的底时(常取2或e),信息熵的单位为比特(bits)和奈特(nats) 1比特=0.693奈特 1奈特=1.443比特 此外,还有一个单位叫哈特(以10。

3、为底),取自人名哈特莱(Hartley),他提出了熵定义式中的对数关系。 且 1哈特=3.32比特 3 例 某一系统具有四种状态(或四种事件)A1、A2、A3、A4,各自的概率为: p1=1/2 ,p2=1/4 ,p3=1/8 ,p4=1/8 注意:概率和为1 计算得熵: H=1.75 (比特/状态) 4 连续信源 如果概率空间为连续系统,其概率分布为:p(x),对应系统的熵为: 三 熵的意义 1 熵的大小表示某概率系统的不确定程度 实例1:某一概率系统的概率分布如下: (1,0,0,,,0) 这是一个确定性系统,计算其信息熵H=0,即该系统不确定性为0。实例2:某一概率系统的概率分布为等概率: (1/n,1/n,,,1/n),设该系统共有n个状态(事件) 这是一个最不确定系统,计算其信息熵H为最大,即该系统不确定性最大。 一般系统介于上述两种极端情况之间。2 熵的大小表示某系统中任一状态。

4、(事件)出现后产生的平均信息量 实例1:某一概率系统的概率分布如下: (1,0,0,,,0) 在这个系统中,只有第一个状态出现,当它出现之后,没有给我们带来任何信息量,计算其信息熵H=0。实例2:某一概率系统的概率分布为等概率: (1/n,1/n,,,1/n) , 设该系统共有n个状态(事件) 在这个系统中,任何一个状态都有均等的机会出现,当某一个状态出现之后,都给我们带来最大的信息量,计算其信息熵H为最大。 一般系统介于上述两种极端情况之间。四 信息熵的基本性质  1 单峰性(极值性) 任何一个随机系统,其信息熵都有一个极大值(单峰),即各状态出现为等概率时,熵为最大: H(p1,p2,,,pn)≤H(1/n,1/n,,,1/n) = log n实例:一个二事件系统,概率分别为p和1-p 该系统的熵为: H=-[plogp+(1-p) log(1-p)] 其H—P图具有单峰性(图2.1)。

5、图2-1 两个事件H-P图 2 对称性H(p1,p2,p3) = H(p1,p3,p2) = H(p3,p2,p1) 说明: 1)这是由于加法满足交换率 2)这也说明熵反映了该系统的整体特性 3 渐化性(递增性)设某系统共有n个事件,现在第n个事件分裂成两个事件,概率分别为q、r(即pn = q+r),该系统的熵变为:证明(利用熵函数的表达式):作为习题 4 展开性(扩展性) H(p1,p2,,,pn) = H(p1,p2,,,pn,0) = H (p1,p2,,,pn,0,,,0) 说明:某系统的事件数增加了,但这些事件的出现概率为0时,该系统的熵不变。 5 确定性 H(1,0) = H(0,1)=H(1,0,,,0) = H(0,0,,,0,1) =0 6 非负性 H(p1,p2,…,pn) ≥0小结:熵是一种描述系统总体特性的统计量 第二节    相对熵与冗余度  一 最大熵 任何一。

6、个随机系统(共有n个状态),各状态出现为等概率时,且各个状态无相关性,其信息熵都有一个最大值: Hmax = log n实例:英语用来传输信息,使用26个字母,加上一个空格。 这样的系统,其最大熵为: Hmax=log 27 ≈ 4.76 (比特/字母) 二 一般情况 一般情况下,任何一个系统(共有n个状态),各状态出现一般为不等概率,且各个状态有相关性,其实际信息熵(H)都有小于最大值,即 H≤ Hmax = log n实例: 1)英语字母的使用并非是相互独立的,字母间存在相关性; 2)英语字母并非等概率使用(表2.1:P33) 故:英语字母的熵通常远小于4.76(有人计算≈1.4) 三 相对熵 我们定义:h= H / Hmax 为相对熵,它便于比较两个不同事件数目的系统的信息熵。 四 冗余度 定义:r=1-h=1-H/Hmax= (Hmax -H)/Hmax 冗余度的含义:在传递信息时。

7、,不必要的冗长部分的比例,即为了表示某一定量的信息量,我们需要用更多的事件数。 实例:(英语字母),为了表示某一内容的文章,我们需要用更多的字母。 关于汉字的使用五 关于冗余度的讨论1 冗余度使得信息传递的效率降低实例:英语字母使用中的冗余度达到70%-80%, 所以英语是一种传递效率不高的语言。 2 冗余度可以提高信息传递中的抗干扰能力实例:传输“中华人民共和国”与传输“中国”,效果是一样的,因此有一定的冗余度。 但前者在传输时,抗干扰能力更高。 第三节 熵函数的展开 一     联合熵1 信源现有两个信源:X,Y X:x1 , x2 … xn Y: y1 , y2,…… ymP(x):P(x1),P(x2)… P(xn) P(y):P(y1),P(y2)… P(ym) 联合空间:X.Y: x1y1, x1y2,………… x1ym ……………. xny1, xny2,………… xnymP。

8、(x.y):P(x1,y1),P(x1,y2)………P(x1,ym) …………. P(xn,y1),P(xn,y2)……… P(xn,ym) 其中P(xi,yj)为xi和yj的联合概率且P(xi,yj)=P(xi)*P(yj/xi)=P(yj)*P(xi/yj) 当:xi和yj相互独立时 P(yj/ xi)= P(yj) P(xi/ yj)= P(xi) 2 二元联合信源的熵:H(X,Y)= -ΣΣP(xi,yj) log P(xi,yj)当每个信源相互独立时: H(X,Y)=H(X)+H(Y)即联合熵等于每一个信源熵之和。但由于相关性的存在,会减少平均不确定性故 H(X,Y) <= H(X)+H(Y)3 例 考虑m=2的情况,且假定联合概率分布如下: 1/21/22/52/51/5(1)   先求出 Px(x1)=1/2 Px(x2)=1/2 Py(y1)=2/5 Py(y2)=2。

9、/5 Py(y3)=1/5(2)   求出 H(X)= -[(1/2)log(1/2)+ (1/2)log(1/2)] = 1同理 H(Y)=1.522 而 H(X)+H(Y)=2.522 (比特/事件)(3) H(X,Y) = -[P(x1,y1)logP(x1,y1)+ P(x1,y2)logP(x1,y2) +P(x1,y3)logP(x1,y3) +P(x2,y1)logP(x2,y1) +P(x2,y2)logP(x2,y2) +P(x2,y3)logP(x2,y3)] = -[(1/20)log(1/20)+(7/20)log(7/20) +(1/10)log(1/10)+(7/20)log(7/20) +(1/20)log(1/20)+(1/10)log(1/10)] = 2.157显然 H(X,Y)<= H(X)+H(Y) 2.157 2.522二 条件熵1 概率关系。

10、把联合概率P(xi,yj)=P(xi)*P(yj/xi)代入H(X,Y)= -ΣΣ P(xi,yj)log[P(xi)*P(yj/xi)] = -ΣΣ P(xi,yj)logP(xi) -ΣΣ P(xi,yj)logP(yj/xi) = -Σ P(xi)logP(xi) -ΣΣ P(xi,yj)logP(yj/xi) = H(X)+ H(Y/X)2 条件熵上式中的 H(Y/X)= -ΣΣ P(xi,yj)logP(yj/xi) 叫做给定X时关于Y的条件熵它表示:已知X时关于Y还保留的平均不确定性 3 讨论:(1)联合熵表示将XY作为一个整体看待时,总的平均不确定性H(X,Y)等于X的不确定性与已知X后关于Y的不确定性H(Y/X)的和(2)如果X和Y独立,则 H(Y/X)=H(Y) 这时H(X,Y)= H(X)+ H(Y) (3)  反之,若Y完全由X决定,因而已知X即可确定Y,不再有任何不。

11、确定性, 即 H(Y/X)=0 这时H(X,Y)= H(X)(4)  一般情况下: 0<= H(Y/X)<= H(Y) 即条件熵永远小于或等于无条件熵(5) 由于X与Y之间存在的对称性 ,可得 H(X,Y)= H(Y)+ H(X/Y)4 互信息 定义: I(X,Y)=H(X)+ H(Y)- H(X,Y)为信源X和信源Y的互信息。通过变换,可得: I(X,Y)=H(X,Y)- H(X|Y)- H(Y|X) 5 关于几个熵的关系: H(X),H(Y),H(X,Y),H(Y/X),H(X/Y),I(X;Y) 三 Kullback信息量(略) 第四节 熵模型 (略) 第五节       测试问题信息量 一 测试问题信息熵的计算1 多重选择题(设有5个备选答案)几种应答分布: 1)(1,0,0,0,0), 应答信息熵:H=02)(1/2,1/8,1/8,1/8,1/8),应答信息熵:H=。

12、23)(1/2,1/2,0,0,0), 应答信息熵:H=14)(1/5,1/5,1/5,1/5,1/5) 应答信息熵:H=log5 通过信息熵的计算,我们能够得到这些测试问题的难易程度和学生的学习能力倾向,可以作为测试问题的评价及其指标。 二 等价预选项数题目分析:难度,区分度这里主要讨论选择题:除了难度与区分度,还有一个问题:就是对题目各备选项的有效性作出评价1 等价预选项数 令i=1,2,3………m为选择题的一个选项,Pi为考生选择第i项的概率,则该选择题的熵: H = -Σ Pi logPi讨论:某一个Pi=1,其它选项无人选,此时:H=0,分散程度最小 每一个Pi=1/m,每个选项均匀分布,此时:H=log m(最大)分散程度最大。如图所示图2-8 等价预选项目的数据 由于H是熵(平均信息量)设H与回答均匀地分布于K个(不是m个,而是小于或等于m个)选项时的信息量相等(原来是m个答。

13、案非均匀的分布) H= -Σ(1/K)log (1/K) = log K 可得 K= 2H 这就是等价预选项数(佐藤隆博定义) 例 某题有5个选项,根据回答先求出H,再计算K H约为1.531, 计算出K=2.89这意味着:虽然有5个选项,但结果等价于均匀地分布在大约3个选项上。把熵表达式代入等价选预项数公式:得 K = 2-Σ Pi logPi = П Pi-Pi 改错:(2-29):P45 这里,我们不用求熵,就可以直接求出等价预选项数K,而且K与log Pi中的底无关。当各选项等概时,H和K取最大值:即:Hmax = log m Kmax = m选项项数的范围 KmaxKminK=1/PrKPr在图中r:为选择题的正确选项,Pr:考生选择正确选项的概率,图中三条曲线包围的面积属于K的合理范围,超过此范围时,要对题目进行检查。 注意:K与Pr有关三条曲线:Kmax:当选择正确答案的概率。

14、为Pr时,选择另外的m-1个选项(诱惑项)的选答概率相等[=(1-Pr)/(m-1)]时,K取极大值;Kmin: 当选择正确答案的概率为Pr时,只有某一个诱惑项有人选,概率为(1-Pr)时,K取极小值;K=1/Pr:要求Pr≥1/K,即选择正确答案概率高于平均值所得。 计算例:m=5 Pr=0时, Kmax=4 , Kmin=1 Pr=1/5时,Kmax=5 , Kmin=1.6 Pr=1/2时,Kmax=4 , Kmin=2 Pr=1时, Kmax=1 , Kmin=1 总结:理想的题目分布模式是,在保证一定的答对率的条件下,对疑惑项的选择人数应接近于均匀分布,也就是说,K的取值应接近于上图中的Kmax。三 对不确定程度的判断 1 问题:12个外观相同的小球,仅有一个重量不同(可能轻、重) 请使用天平,能否在三次以内找出该问题球?2 求解方法:某事件系统产生的信息熵 = 消除的不确定性(。

15、1)设问题球出现的概率为1/12;设问题球比正常球轻(重)的概率为1/2;(2)要发现问题球并知其轻(重)所需要的信息量: -log(1/12)-log(1/2) = log12 + log2 = log 24 = 4.585 (3)天平称一次,能确定左边轻、右边轻、或者平衡, 获得的信息量(消除的不确定性) =log 3 =1.585 而4.585/1.585 ≈ 2.9 (4) 故至少需要3次使用天平,才可以找出问题球 注意:这里并没有研究具体的策略和方法 第六节  教学过程的信息量分析  一 分类系统教学过程中的语言行为分类;VICS:Verbal Interaction Category System(语言交互分类系统)微格教学的语言行为分类: (如表所示:)各类行为的频度分布: 图2.9即: 1:24; 2:16; 3:9; 4:15 5:16; 6:3; 7:16;8:3; 9。

16、:8计算出信息熵 H =2.939 (比特/行为状态)二 类别总数与熵 继续上面的例子(49个教师、学生进行微格教学的数据)(如表所示)共分为6个组,每一组的数据都是基于教师、学生的语言行为进行分类的,再统计出各类别数据的频度分布,根据这些频度分布计算出每一节课的信息熵。各组的数据类别总数与熵的关系: (如图2.10所示) 1)类别总数与熵呈正相关(第五组例外); 2)不同的组,类别总数多的教学,不一定熵就大 三 不同学科类别频度分布的比较上面的表述,只是根据类别总数计算出了熵,并没有确定哪些类别是多少?不能根据学科的特色进行分析和指导 图2.11:P50(给出了6个组的各类行为的相对频度分布) 第七节       教育中质的信息量分析(略) 通过互信息的计算,研究数据的相关程度 补充另一部分内容(见后)第八节       CAI课件中的信息量一 多重选择问题的信息熵1 CAI课件一般是面。

17、向问题的 CAI课件中的问题:、判断题、多重选择题、填空题、匹配题2 若干种多重选择问题的应答分布的信息熵计算:3 小结:学生应答均匀分布时,信息熵H最大; H的大小不仅与应答分布有关,还与预选答案数有关, 引入相对信息熵,可以避免这种不可比较性。 二 课件评价也是通过计算各个问题的信息熵来进行 三 学习状态的描述学习开始阶段:学生学习不稳定。应答随机性较大,相应地信息熵也较大;学习正常阶段:学生学习趋于稳定。应答随机性较小,相应地信息熵也较小。 图2.15:P58(a)表示学习开始,学习不稳定;(b)表示学习迅速趋于稳定。补充:利用互信息量的计算确定学习效果 (互信息在标准化试卷评分中的应用) 标准化试卷,便于计算机处理,一般是是非判断题,多重选择题,但学生可能猜对,例如是非判断题,学生猜对的概率可达1/2。 引入:考试过程可以看着信息传输过程,试卷为信息源,考生的思维为信道,学生的答卷。

18、为老师接收到的信息,因此可以用互信息作为平分标准,每道题的互信息之和为试卷总分。 一    是非题判断题信息传输分析设有n道题,其中正确答案为“对”和“错”的各占一半(1/2)考生回答正确的概率为P,如图:TTFFPP1-P1-PXY可知:P(T)=P(F)=1/2 P(T/T)=P(F/F)=P P(F/T)=P(T/F)=1-P联合概率:P(T,T)=P(T)P(T/T)=P/2 P(T,F)=P(T)P(F/T)=(1-P)/2 P(F,T)=P(F)P(T/F)=(1-P)/2 P(F,F)=P(F)P(F/F)=P/2计算如下:信源熵H(X)=1 只有两种状态(且是均匀分布)疑义度:H(X/Y)=-∑∑P(xi,yj)logP(xi/yj) = -[ P(T,T)logP(T/T) + P(T,F)logP(T/F) + P(F,T)logP(F/T) + P(F,F)logP(。

19、F/F)] = -[ P log P+(1- P)log(1-P)]互信息:I(X;Y)=H(X)-H(X/Y) = 1+ P log P+(1- P)log(1-P) 这里要求:P大于等于(1/2),否则全部是猜对的,比如某生全部打“错”就对了一半,但他实际上什么也不会。试卷成绩: = n * I(X;Y)= n*[H(X)-H(X/Y)] = n * [1+ P log P+(1- P)log(1-P)]当P=1/2时,[1+PlogP +(1-P)log(1-P)]=0故试卷成绩=0得分分布图:如下所示506070809010020406080100成绩答对题数二 多项选择题信息传输分析 设每题有4个答案,只有一个正确,总题数为n,正确答案在A,B,C,D上各占1/4, 设每题答对概率为P,选其他三个非正确答案的概率均匀分布,各占(1-P)/3 示意图如下: AABCDBCD(1-P。

20、)/3(其它类似)H(X)= - ∑(1/4)log (1/4) = 2 (正确答案在A,B,C,D上均匀分布,各占1/4)互信息:I(X;Y)= H(X)-H(X/Y) = 2+ P log P+(1- P)log[(1-P)/3] 推导:(留作作业)试卷成绩=n*I(X;Y) = n{2+ P log P+(1- P)log[(1-P)/3]}满分为200分,(由于信源熵为2)这里要求:P大于等于1/4,否则全是猜对的。 得分分布图: 2040608010020406080100200讨论:(1)答对题数不大于25时,试卷成绩为0;(2)答对题数在25-60之间时,试卷成绩增长缓慢;(3)答对题数大于60时,试卷成绩增长加快,得分难度加大。 本章小结:教学过程就是一种信息传输过程,利用信息传输的基本理论-信息论来研究教学过程,是一种新的思想,其中熵的概念非常重要,包括熵的定义、计算、性质、应用,要求重点掌握。 练习:1,2,3,6(某测试问题有5种选择,选择答案的概率分布为1/5,2/5,1/10,1/20,1/4) 补充题,对于多重选择题,推导出: I(X;Y)= H(X)-H(X/Y) = 2+ P log P+(1- P)log[(1-P)/3]图2-9 分类数据序列(表中49学时,代表49个教师、学生) 图2-10类别总数与熵的关系 汉语信源 [汉语取常用字10000个] 1)等概率,无相关性 H0=log10000 =13.288(比特/汉字) 2)分成四类 , 字数及概率:仍然不考虑相关性,得第一级近似为无记忆信源的熵: H1=9.773在这种简单近似下: 则熵的相对率 η= H1/H0 = 0.736, 剩余度为 r = 1-- 0.736 = 0.264 返回。

关 键 词:
ppt 教育信息熵
 天天文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:《教育信息熵》PPT课件.ppt
链接地址: https://www.wenku365.com/s-58397802.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服点击这里,给天天文库发消息,QQ:1290478887 - 联系我们

本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。本站是网络服务平台方,若您的权利被侵害,侵权客服QQ:1290478887 欢迎举报。

1290478887@qq.com 2017-2027 https://www.wenku365.com 网站版权所有

粤ICP备19057495号 

收起
展开