数学之美系列完 整版

数学之美系列完 整版

ID:44233009

大小:307.37 KB

页数:48页

时间:2019-10-19

数学之美系列完 整版_第1页
数学之美系列完 整版_第2页
数学之美系列完 整版_第3页
数学之美系列完 整版_第4页
数学之美系列完 整版_第5页
资源描述:

《数学之美系列完 整版》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数学之美系列完整版(最新全集列表)作者:吴军,Google研究员 来源:Google黑板报 酷勤网收集 2007-12-04数学之美一统计语言模型数学之美二谈谈中文分词数学之美三隐含马尔可夫模型在语言处理中的应用数学之美四怎样度量信息?数学之美五简单之美:布尔代数和搜索引擎的索引数学之美六图论和网络爬虫(WebCrawlers)数学之美七信息论在信息处理中的应用数学之美八贾里尼克的故事和现代语言处理数学之美九如何确定网页和查询的相关性数学之美十有限状态机和地址识别数学之美十一Google阿卡47的制造者阿米特.辛格博士数

2、学之美十二余弦定理和新闻的分类数学之美十三信息指纹及其应用数学之美十四谈谈数学模型的重要性数学之美十五繁与简自然语言处理的几位精英数学之美十六不要把所有的鸡蛋放在一个篮子里最大熵模型数学之美十七闪光的不一定是金子谈谈搜索引擎作弊问题(SearchEngineAnti-SPAM)数学之美十八矩阵运算和文本处理中的分类问题数学之美十九马尔可夫链的扩展贝叶斯网络(BayesianNetworks)数学之美二十自然语言处理的教父马库斯数学之美二十一布隆过滤器(BloomFilter)数学之美二十二由电视剧《暗算》所想到的&mda

3、sh;谈谈密码学的数学原理数学之美二十三输入一个汉字需要敲多少个键—谈谈香农第一定律数学之美二十四从全球导航到输入法——谈谈动态规划数学之美系列一:统计语言模型在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询中,我们都需要知道一个文字序列是否能构成一个大家能理解的句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们

4、应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用Google中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发Google产品的。系列一:统计语言模型(StatisticalLanguageModels)Google的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字(不论是印刷体或手写体)和进行海量文献的自动检索,这就需要让机器理解语言。但是人类的语言可以说是信息里最复杂最动态的一部

5、分。为了解决这个问题,人们容易想到的办法就是让机器模拟人类进行学习-学习人类的语法、分析语句等等。尤其是在乔姆斯基(NoamChomsky有史以来最伟大的语言学家)提出“形式语言”以后,人们更坚定了利用语法规则的办法进行文字处理的信念。遗憾的是,几十年过去了,在计算机处理语言领域,基于这个语法规则的方法几乎毫无突破。其实早在几十年前,数学家兼信息论的祖师爷香农(ClaudeShannon)就提出了用数学的办法处理自然语言的想法。遗憾的是当时的计算机条件根本无法满足大量信息处理的需要,所以他这个想法当时并没有被人们重视。七

6、十年代初,有了大规模集成电路的快速计算机后,香农的梦想才得以实现。首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克(FredJelinek)。当时贾里尼克在IBM公司做学术休假(SabbaticalLeave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。给大家举个例子:在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询中,我们都需要知道一个文字序列是否能构成一个大家能理解的句子,显示给使用者。对这个问

7、题,我们可以用一个简单的统计模型来解决这个问题。如果S表示一连串特定顺序排列的词w1,w2,…,wn,换句话说,S可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S在文本中出现的可能性,也就是数学上所说的S的概率用P(S)来表示。利用条件概率的公式,S这个序列出现的概率等于每一个词出现的概率相乘,于是P(S)可展开为:P(S)=P(w1)P(w2

8、w1)P(w3

9、w1w2)…P(wn

10、w1w2…wn-1)其中P(w1)表示第一个词w1出现的概率;P(w2

11、w

12、1)是在已知第一个词的前提下,第二个词出现的概率;以次类推。不难看出,到了词wn,它的出现概率取决于它前面所有词。从计算上来看,各种可能性太多,无法实现。因此我们假定任意一个词wi的出现概率只同它前面的词wi-1有关(即马尔可夫假设),于是问题就变得很简单了。现在,S出现的概率就变为:P(S)=P(w1)P(w2

13、w

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。