数学之美.pdf下载分享
- 资源分享
- 11小时前
- 1热度
- 0评论
资料简介
《数学之美》系列详述了统计语言模型、中文分词及更多,展示了如何利用数学解决信息检索与自然语言处理问题。内容涉及隐含马尔可夫模型、布尔代数与搜索引擎索引等精彩话题。
-
文件名称:数学之美.pdf
-
文件类型:PDF文档
-
文件标签:统计语言模型、信息检索、自然语言处理

内容预览
数学之美
-、统计语言模型...........................................................................................................2
二、谈谈中文分词...........................................................................................................4
三、隐含马尔可夫模型在语言处理中的应用...............................................................7
四、数学之美系列四 — 怎样度量信息.......................................................................9
五、简单之美:布尔代数和搜索引擎的索引.............................................................11
六、图论和网络爬虫 (Web Crawlers)..........................................................................14
七、信息论在信息处理中的应用.................................................................................16
八、贾里尼克的故事和现代语言处理.........................................................................18
九、如何确定网页和查询的相关性.............................................................................21
十、有限状态机和地址识别.........................................................................................24
十一、Google 阿卡 47 的制造者阿米特.辛格博士..................................................26
十二、余弦定理和新闻的分类.....................................................................................28
十三、信息指纹及其应用.............................................................................................31
十四、谈谈数学模型的重要性.....................................................................................33
十五、繁与简 自然语言处理的几位精英...................................................................36
十六、不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型 (上)...............38
十六、不要把所有的鸡蛋放在一个篮子里 最大熵模型 (下).........................40
十七、闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)..42
十八、矩阵运算和文本处理中的分类问题.................................................................44
十九、马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks) ...................................47
二十、自然语言处理的教父 马库斯...........................................................................49
二十一、布隆过滤器(Bloom Filter)........................................................................51
二十二、谈谈密码学的数学原理.................................................................................53
二十三、输入一个汉字需要敲多少个键 — 谈谈香农第一定律.............................57
摘自互联网: http://harryxu.cn/blog/google_math
整理人:心灯(bjbs27@hotmail.com)
-、统计语言模型
2006 年4 月3 日 上午 08:15:00
从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,
介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。
发表者: 吴军, Google 研究员
前言
也 许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常
清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工
具解决一 个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板
报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google
产品的。
系列一: 统计语言模型 (Statistical Language Models)
Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、
语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语
言、识别语 音、认识文字(不论是印刷体或手写体)和进行海量文献的自动检
索,这就需要让机器理解语言。但是人类的语言可以说是信息里最复杂最动态的
一部分。为了解决 这个问题,人们容易想到的办法就是让机器模拟人类进行学
习 - 学习人类的语法、分析语句等等。尤其是在乔姆斯基(Noam Chomsky 有史
以来最伟大的语言学家)提出 “形式语言” 以后,人们更坚定了利用语法规则
的办法进行文字处理的信念。遗憾的是,几十年过去了,在计算机处理语言领域,
基于这个语法规则的方法几乎毫无突破。
其实早在几十年前,数学家兼信息论的祖师爷 香农 (Claude Shannon)就提出了
用数学的办法处理自然语言的想法。遗憾的是当时的计算机条件根本无法满足大
量信息处理的需要,所以他这个想法当时并没有被人们重视。七十年代初,有了
大规模集成电路的快速计算机后,香农的梦想才得以实现。
首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼
克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical
Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语
言模型就是在那个时...
