仔细讨论NLP模型的泛化问题.doc

仔细讨论NLP模型的泛化问题.doc

ID:27843932

大小:370.00 KB

页数:12页

时间:2018-12-06

仔细讨论NLP模型的泛化问题.doc_第1页
仔细讨论NLP模型的泛化问题.doc_第2页
仔细讨论NLP模型的泛化问题.doc_第3页
仔细讨论NLP模型的泛化问题.doc_第4页
仔细讨论NLP模型的泛化问题.doc_第5页
资源描述:

《仔细讨论NLP模型的泛化问题.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、仔细讨论NLP模型的泛化问题  前段时间的文章《顶会见闻系列:ACL2018,在更具挑战的环境下理解数据表征及方法评价》中,我们介绍了ACL大会上展现出的NLP领域的最新研究风向和值得关注的新进展。从这些新动向上我们似乎应该对深度学习NLP解决方案的表现充满信心,但是当我们真的仔细讨论NLP模型的泛化能力时候,状况其实并不乐观。    TheGradient博客近期的一篇文章就仔细讨论了NLP领域的深度学习模型的泛化性问题,展现了对学习、语言、深度学习方法等方面的诸多深入思考。不得不泼一盆冷水,即便端到端的

2、深度学习方法相比以往的方法在测试任务、测试数据集上的表现有了长足的改进,我们距离「解决NLP问题」仍然有遥远的距离。AI科技评论全文编译如下。  「泛化」是一个NLP领域中正在被深入讨论和研究的课题。  最近,我们经常可以看到一些新闻媒体报道机器能够在一些自然语言处理任务中取得与人相当的表现,甚至超过人类。例如,阅读一份文档并回答关于该文档的问题(阿里、微软、讯飞与哈工大等等轮番刷榜SQuAD)、确定某个给定的文本在语义上是否蕴含另一个文本(http://www.aclweb.org/anthology/N

3、18-1132)以及机器翻译。「如果机器能够完成所有这些任务,那么它们当然拥有真正的语言理解和推理能力」这种说法听起来似乎是很合理的。  然而,事实并非如此。最近许多的研究表名,事实上最先进的自然语言处理系统既「脆弱」(鲁棒性差)又「虚假」(并未学到真正的语言规律)。  最先进的自然语言模型是「脆弱」的  当文本被修改时,即使它的意义被保留了下来,自然语言处理模型也会失效,例如:  Jia和Liang等人攻破了阅读理解模型BiDAF(https://arxiv.org/abs/1611.01603)。   

4、 Jia和Liang等人论文中给出的例子。  Belinkov和Bisk等人(https://arxiv.org/abs/1711.02173)攻破了基于字符的神经网络翻译模型。    Belinkov和Bisk等人论文中给出的例子。BLEU是一个常用的将候选的文本翻译结果和一个或多个参考译文对比的评测算法。  Iyyer与其合作者攻破了树结构双向LSTM(http://www.aclweb.org/anthology/P15-1150)的情感分类模型。    Iyyer与其合作者论文中给出的例子。  最先

5、进的自然语言处理模型是「虚假」的  这些模型经常会记住的是人为影响和偏置,而不是真正学到语言规律,例如:  Gururangan与其合作者(http://aclweb.org/anthology/N18-2017)提出了一个对比基线,它能够将对比基准数据集中50%以上的自然语言推理样本正确分类,而不需要事先观察前提文本(premise)。    Gururangan等人论文中给出的例子。这些样本都是从论文的海报展示中截取的。  Moosavi和Strube(http://aclweb.org/antholo

6、gy/P17-2003)表明,为共指解析任务构建的深度学习模型(http://www.aclweb.org/anthology/P16-1061)总是将以包含「country」的专有名词或普通名词与训练数据中出现的某个国家联系在一起。因此,该模型在有关训练数据中未提及的国家的文本上的表现很差。同时,Levy与其合作者研究用用于识别两个单词之间的词汇推理关系(例如,上位词,概括性较强的单词叫做特定性较强的单词的上位词)的模型。他们发现,这些模型并没有学习到单词之间关系的特征,而是仅仅学习到了一对单词中某一单词

7、的独立属性:某个单词是否是一个「典型上位词」(例如,「动物」一词)。    左图:Moosavi和Strube论文中的例子。右图:Levy与其合作者论文中的例子。  Agrawal与其合作者指出,卷积神经网络(CNN)+长短期记忆网络(LSTM)的可视化问答模型通常在「听」了一半问题后,就会收敛到预测出的答案上。也就是说,该模型在很大程度上受到训练数据中浅层相关性的驱动并且缺乏组合性(回答关于可见概念的不可见的组合问题的能力)。    Agrawal等人论文中给出的例子。  一个改进最先进的自然语言处理模型

8、的workshop  因此,尽管在对比基准数据集上表现良好,现代的自然语言处理技术在面对新颖的自然语言输入时,在语言理解和推理方面还远远达不到人类的水平。这些思考促使YonatanBisk、OmerLevy、MarkYatskar组织了一个NAACLworkshop,深度学习和自然语言处理新泛化方法workshop  (https://newgeneralization.github.io/)  来讨论泛化问题,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。