序列数据的监督学习方法综述.pdf

序列数据的监督学习方法综述.pdf

ID:52410630

大小:209.66 KB

页数:3页

时间:2020-03-27

序列数据的监督学习方法综述.pdf_第1页
序列数据的监督学习方法综述.pdf_第2页
序列数据的监督学习方法综述.pdf_第3页
资源描述:

《序列数据的监督学习方法综述.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、研究与DOI:10.3969/j.issn.1009-9492.2012.08.051序列数据的监督学习方法综述寿皓(珠海汉胜科技股份有限公司,广东珠海519180)摘要:讨论了序列数据及其机器学习问题。基于序列数据的特征,介绍了典型的序列数据的相关监督学习方法,针对其中流行的条件随机场(CRF)方法总结了一些相关的应用。关键词:随机算法;序列数据;监督学习中图分类号:TP18文献标识码:A文章编号:1009—9492(2012)08—0175—02ReviewforSupervisedLearningMethodsofSeque

2、nceDataSH0UHao(ZhuhaiHansenTechnologyCo.,Ltd.,Zhuhai519180,China)Abstract:Thispaperintroducesthesequencedataandthemachinelearningproblem.Basedonsequencedatacharacteristics,thispaperintroducesthetypicalrelatedsupervisedlearningmethodsofsequencedata,andgivesareviewabout

3、themostpopulartopieinthisfield,whichisconditionalrandomfields(CRF)methods.Keywords:randomizedalgorithms;sequentialdata;supervisedlearning1简介2有向图模型与无向图模型传统的监督学习的基本假设认为数据是独立图模型往往被用于表示概率分布簇。图模型同分布的,没有充分考虑到数据之间的相关性。的基本思想是将一个大量随机变量的分布表示多在一些应用场景中,例如单词的词性标注,Web个局部函数的乘积,而每个函数

4、只与一部分随机中的信息抽取以及生物数据的处理等,这些数据变量相关。序列数据的监督学习方法主要有两种具有很强的相关性,这种相关性对分类预测的准图模型:有向图模型和无向图模型。确性有很大影响。(1)有向图模型口。1(1)序列数据及其基本特征有向图模型是一个非循环的有向图G=(,序列数据是关系数据的一个特例,这种类型E)。是顶点集合,顶点与随机变量一一对应,E的数据往往呈现局部相关性,这种局部相关性能是有向边的集合。有向图模型表示一个全体变量帮助提高预测的精确度。例如一个句子的各个单的联合概率分布。为了有效地计算联合概率分词看以看成一个

5、序列数据,在不同时间点记录的布,G中的每个结点被假设只与它的父结点相关天气也是一个序列数据。在序列数据中位置的数(条件独立性假设),从而使得联合概率分布可以据往往对i+1位置的数据是有影响的。分解成一组局部函数的乘积,每个局部函数只与(2)序列数据的监督学习的一个子集相关。若每个结点关联一个函数定义:f(—yN:为Ⅳ个训练样本,每个样Z(v,),是的父结点集合。则本是一个偶对,),X=<“,X汪,⋯X>,—p(,:,⋯,)垒【J(,。).如果这个局部函数用条y=。学习的目标是构建一个分类件概率来描述,即

6、Z(v,)=p1),则联合概率器h,当给定一个新的输入序列X,h能正确地预.旦‘测一个新的标签序列l,=(。分布可表示为p(v,z,⋯,)垒IIP(viI)。收稿日期:2012—07—09匿亟与开发(2)无向图模型(马尔科夫随机场)1231好标签的观测序列,其能描述标签序列的一个联无向图模型是一个无向的循环图G:f,日。合概率分布。是顶点集合,表示一组连续或离散的随机变M,l:exp(~_A,,)+量,£是无向边的集合。由于是无向图,所有的∑Apg。结点根据它们的依赖情况被分成多个Clique而不芦是像有向图那样只考虑父结点,每个

7、clique,c,是整个观测序列和位置为t-1,t处的标被定义了一个潜在函数()。为了保证概率和签的一个转移特征函数,为位置t处的标签和为1,一个规范化因子z被引入,观测序列的一个状态特征函数。z垒∑I-I4,()CRF计算条件概率:,,联合概率分布可以表示为I·‘。。,ln。M,YI)p(⋯,):A_歹1n,)。P(y[x1=[nM,..)。3监督学习相关方法CRF松弛rHMM的独立性假设,克服了(1)隐藏的马尔科夫模型fHMM)MEMM的标签偏移问题。HMM用于建模观测值序列和标签序列Y的4CRF的一些应用联合概率p,Y)。H

8、MM定义了两个概率分布:CRF方法得到了较广泛的应用,其从2001年状态转换分布P(y,lY1,用于表示相邻的状态的相提出,到现在已经被引用了2777次。下面是其在关性;观察分布P(xly),用于表示观察到的与隐几个方面的应用总结。藏的Y值的相关性

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。