word2vec词向量模型课件.pptx

word2vec词向量模型课件.pptx

ID:57295478

大小:587.06 KB

页数:18页

时间:2020-08-10

word2vec词向量模型课件.pptx_第1页
word2vec词向量模型课件.pptx_第2页
word2vec词向量模型课件.pptx_第3页
word2vec词向量模型课件.pptx_第4页
word2vec词向量模型课件.pptx_第5页
资源描述:

《word2vec词向量模型课件.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、词向量模型—Word2Vec前言计算机老外来访被请吃饭。落座后,一中国人说:“我先去方便一下。”老外不解,被告知“方便”是“上厕所”之意。席间主宾大悦。道别时,另一中国人对老外发出邀请:“我想在你方便的时候也请你吃饭。”老外愣了,那人接着说:“如果你最近不方便的话,咱找个你我都方便的时候一起吃。人类VS123基本概念模型与方法实际应用目录词向量自然语言中的词语在机器学习中的表示符号One-HotRepresentation例如:“话筒”表示为:[0,0,0,1,0,0,0,0,0,0,0,0,0

2、,…]“麦克”表示为:[0,0,0,0,0,0,0,0,0,1,0,0,0,…]实现时可以用0,1,2,3等对词语进行计算,这样的“话筒”可以用4表示,麦克可以用10表示问题:维度很大,当词汇较多时,可能会达到百万维,造成维度灾难词汇鸿沟:任意两个词之间都是孤立的,不能体现词与词之间的关系。词向量DistributionalRepresentation将词表示为[0.793,-0.177,-0.107,0.109,0.542,…]的矩阵,通常该类矩阵设置为50维或100维通过计算向量之间的距离,

3、来体现词与词之间的相似性,解决词汇鸿沟的问题实现时可以用0,1,2,3等对词语进行计算,这样的“话筒”可以用4表示,麦克可以用10表示如何训练:没有直接的模型可以训练得到可以在训练语言模型的同时,得到词向量。语言模型判断一句话是不是正常人说出来的给定一个字符串”w1,w2,w3,w4,…,wt”,计算它是自然语言的概率、P(w1,w2,…,wt)=P(w1)×P(w2

4、w1)×P(w3

5、w1,w2)×…×P(wt

6、w1,w2,…,wt−1)P(大家,喜欢,吃,苹果)=p(大家)p(喜欢

7、大家)p

8、(吃

9、大家,喜欢)p(苹果

10、大家,喜欢,吃)p(大家)表示“大家”这个词在语料库里面出现的概率;p(喜欢

11、大家)表示“喜欢”这个词出现在“大家”后面的概率;p(吃

12、大家,喜欢)表示“吃”这个词出现在“大家喜欢”后面的概率;p(苹果

13、大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。把这些概率连乘起来,得到的就是这句话平时出现的概率。如果这个概率特别低,说明这句话不常出现,那么就不算是一句自然语言,因为在语料库里面很少出现。如果出现的概率高,就说明是一句自然语言。常用的语言模型都是

14、在近似地求P(wt

15、w1,w2,…,wt−1)。比如n-gram模型就是用P(wt

16、wt−n+1,…,wt−1)近似表示前者。N-pos先对词进行了词性分类123模型与方法基本概念实际应用目录Word2VecGoogle的Mikolov在2013年推出了一款计算词向量的工具word2vec作为神经概率语言模型的输入,其本身其实是神经概率模型的副产品,是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说,“某个语言模型”指的是“CBOW”和“Skip-Gram”。具体学习过程会用到两个降低

17、复杂度的近似方法——HierarchicalSoftmax或NegativeSampling。CBOW:ContinuousBag-of-WordsSkip-Gram:ContinuousSkip-GramModelHierarchicalSoftmaxNegativeSampling两个语言模型两种优化方法CBOWandSkip-Gram初始化值是零向量,叶节点对应的单词的词向量是随机初始化的。CBOW的目标是根据上下文来预测当前词语的概率Skip-Gram恰好相反,它是根据当前词语来预测上下

18、文的概率。这两种方法都利用人工神经网络作为它们的分类算法。起初,每个单词都是一个随机N维向量,经过训练之后,利用CBOW或者Skip-Gram方法获得每个单词的最优向量。CBOW模型结构输入层是上下文的词语的词向量,是CBOW模型的一个参数。训练开始的时候,词向量是个随机值,随着训练的进行不断被更新。当模型训练完成之后可以获得较为准确的词向量。SoftmaxO(

19、V

20、)时间复杂度:O(log2(

21、V

22、))CBOW模型结构——霍夫曼树在训练阶段,当给定一个上下文,要预测词(Wn)的时候,实际上知道

23、要的是哪个词(Wn),而Wn是肯定存在于二叉树的叶子节点的,因此它必然有一个二进制编号,如“010011”,那么接下来我们就从二叉树的根节点一个个地去遍历,而这里的目标就是预测这个词的二进制编号的每一位.即对于给定的上下文,我们的目标是使得预测词的二进制编码概率最大。形象地说,我们希望在根节点,词向量和与根节点相连经过logistic计算得到的概率尽量接近0(即预测目标是bit=1);在第二层,希望其bit是1,即概率尽量接近1……这么一直下去,我们把一路上计算得到的概率相乘,即得到目标词Wn在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。