深度学习、自然语言处理和表征方法.doc

深度学习、自然语言处理和表征方法.doc

ID:55590172

大小:879.00 KB

页数:17页

时间:2020-05-19

深度学习、自然语言处理和表征方法.doc_第1页
深度学习、自然语言处理和表征方法.doc_第2页
深度学习、自然语言处理和表征方法.doc_第3页
深度学习、自然语言处理和表征方法.doc_第4页
深度学习、自然语言处理和表征方法.doc_第5页
资源描述:

《深度学习、自然语言处理和表征方法.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、深度学习、自然语言处理和表征方法简介过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。虽然结果好,我们也必须思考……它们为什么这么好使?在这篇文章里,我综述一下在自然语言处理(NLP)上应用深度神经网络得到的一些效果极其显著的成果。我希望能提供一个能解释为何深度神经网络好用的理由。我认为这是个非常简练而优美的视角。单隐层神经网络单隐层神经网络有一个普适性(universality):给予足够的隐结点,它可以估算任何函数。这是一个经常被引用的理

2、论,它被误解和应用的次数就更多了。本质上这个理论是正确的,因为隐层可以用来做查询表。简单点,我们来看一个感知器网络(perceptronnetwork)。感知器 (perceptron)是非常简单的神经元,如果超过一个阈值它就会被启动,如果没超过改阈值它就没反应。感知器网络的输入和输出都是是二进制的(0和1)。注意可能的输入个数是有限的。对每个可能的输入,我们可以在隐层里面构建一个只对这个输入有反应的神经元(见注解1)。然后我们可以利用这个神经元和输出神经元之间的连接来控制这个输入下得到的结果(见注解2)。这样

3、可以说明单隐层神经网络的确是有普适性的。但是这也没啥了不起的呀。你的模型能干和查询表一样的事并不能说明你的模型有任何优点。这只能说明用你的模型来完成任务并不是不可能的罢了。普适性的真正意义是:一个网络能适应任何你给它的训练数据。这并不代表插入新的数据点的时候它能表现地很理想。所以普适性并不能解释为什么神经网络如此好用。真正的原因比这微妙得多…为了理解它,我们需要先理解一些具体的成果。单词嵌入(WordEmbeddings)我想从深度学习研究的一个非常有意思的部分讲起,它就是:单词嵌入(wordembedding

4、s)。在我看来,单词嵌入是目前深度学习最让人兴奋的领域之一,尽管它最早是由Bengio等人在十多年前提出的(见注解3)。除此之外,我认为它们能帮助你通过直觉来了解为什么深度学习如此有效。单词嵌入W:words→Rn是一个参数化函数,它把某个语言里的单词映射成高维向量(大概200到500维)。例如这样:W(‘‘cat”)=(0.2, -0.4, 0.7, …)W(‘‘mat”)=(0.0, 0.6, -0.1, …)(一般这个函数就是一个查询表,用一个矩阵θ来参数化,每行是一个单词:Wθ(wn)=θn.)初始化时

5、,W中每个词对应一个随机的向量。它会学习出有意义的向量以便执行任务。举个一个可能的任务的例子:训练一个网络让其预测一个5元组(5-gram)(连续的5个词)是否‘成立’。我们可以随便从维基百科上选一堆5元组(比如catsatonthemat)然后把其中一个词随便换成另外一个词(比如catsatsongthemat),那么一半的5元组估计都会变得荒谬且没意义了。 判断5元组是否成立的模块网络(来自于Bottou(2011))我们训练的模型会通过W把5元组中每个词的表征向量取出来,输入给另外一个叫R的模块,模块R会

6、试图预测这个5元组是‘成立的’或者是‘破碎的’。然后我们希望看见:R(W(‘‘cat”), W(‘‘sat”), W(‘‘on”), W(‘‘the”), W(‘‘mat”))=1R(W(‘‘cat”), W(‘‘sat”), W(‘‘song”), W(‘‘the”), W(‘‘mat”))=0为了准确地预测这些值,这个网络需要从W以及R中学习到好的参数。现在看来这个任务并没什么意思。也许它能用来检测语法错误什么的,没什么大不了。但是极其有趣的部分是这个W。(事实上,对我们来说,这个任务的意义就是学习W。我们

7、当然也可以做一些其他的任务–一个很常见的任务是预测句子中下一个单词。但我们实际上并不在乎任务是什么。这节后面我们会谈到许多单词嵌入成果,但并不会区分得到这些成果的方法的不同。)想直观感受一下单词嵌入空间的话,我们可以用t-SNE来对它进行可视化。t-SNE是一个复杂的高维数据可视化技术。 t-SNE对单词嵌入的可视化结果。左图:数字区间。右图:工作岗位区间。来源:Turian etal. (2010),全图在此这种单词构成的“地图”对我们来说更直观。相似的词离得近。另一种方法是看对一个给定单词来说,哪些其他的单

8、词离它最近。我们可以再一次看到,这些词都很相似。 哪些词的嵌入离一个给定词最近?来自于Collobertetal. (2011)网络能让意义相似的词拥有相似的向量,这看起来是很自然的事。如果你把一个词换成它的同义词(例如“afewpeoplesingwell” → “a couple peoplesingwell”),句子的成立性并没有变化。虽然从字面上看,句子变化很大,但如果W把同义

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。