关于智能信息处理技术的研究

关于智能信息处理技术的研究

ID:34659658

大小:262.34 KB

页数:5页

时间:2019-03-08

关于智能信息处理技术的研究_第1页
关于智能信息处理技术的研究_第2页
关于智能信息处理技术的研究_第3页
关于智能信息处理技术的研究_第4页
关于智能信息处理技术的研究_第5页
资源描述:

《关于智能信息处理技术的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第24卷第4期微计算机应用V01.24,No.42003年7PJMICROCOMI,U.IERAPPI。ICATIONSJuly.2003关于智能信息处理技术的研究“郭庆琳樊孝忠(华北电力大学计算机系北京102206)(:化京理:l大学计算机系北京100081)摘要:智能信息处理是中文信息处理中的重要课题.尤雌智能搜索和信息获取为重要。而自然语言处理和理解技术是智能信息处理的核心。本文埘

2、它了自然语肓理解应用于智能搜索和信息获取的若干问题,阐述了标注、分析搜索要求雌挫完昔耩于词典的知识库的处理手段,特别是语料库语言学在

3、这些环节的应用情况。同时,率立对中立信息获取技术涉及的具体语言处理技术也作了较为详尽的论述,包括词典与知帆库、词切分和词性标注、信息获取的短语句法及语义分析和信息获取的过程。关键词:搜索要求智能搜索信息获取标注随着计算机技术的迅速发展,尤其是]nternel的出现和逐渐普及,人们对有用信息的渴望愈来愈强烈。而在浩如烟海的电子信息中搜索自己需要的有用信息其困难程度可想而知。解决这一问题需要对信息进行有效的智能整合,这就涉及到自然语言理解技术。目前全面解决计算机的自然语言理解尚有非常大的难度,但在个别的应用系统中形成突破却具有较大

4、的可能性。例如,基于自然语言理解的智能搜索和信息获取系统在我们的实验中取得了较好的效果。下面就论述基于自然语言理解的智能信息处理技术——智能搜索、信息获取。1自然语言理解的两种策略自然语言理解就是研究如何能让计算机理解并生成人们日常所使用的语言,目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动。建立一个自然语言理解系统,可以是一个纯粹的实验性模型,也可以是一个以直接应用为目的的模型⋯。迄今为止的自然语言理解模型,大都以直接应用为目标:或应用于机器翻译,或应用于自动应答,或应用于MIS专家系统

5、,等等。尽管这些模型所采用的语法框架、算法等都各有特点,但在解决自然语言理解的基本策略上却是相当一致的,即都是针对某一具体的应用领域。这种具体领域不仅规定了可用于推理的背景知阻,也规定了可能运用的语汇子集和短语、句型子集。这样的自然浯言理解策略的优点屉:①完全不必对理解所涉及的各个层面(词汇的、句法的、语义的、语用的、语境的)作全面的刻画;②围绕具体领域,可将各个层面的知识作直接的综合。但其缺点是,不具有普遍性、通用性,且往往过分受限,不灵活。跟绝大多数自然语言理解模型不同,自动识别模型不是针对某一具体的应用领域的,而本文于2

6、003一ol一13收到.2003—04—28收到修改树。*本课题为国家重点基础研究发展规划973资助项目(G1999030711万方数据第4期微计算机应用是面向人工智能所期望解决的一般的自然浯言理解问题的。所谓一般的自然语言理解问题,就是让计算机具备理解人的一般话语的能力,也就是说要在计算机上建立起一个分析或生成一般话晤所必备的知识库来。这种策略,首先把语言理解的各种因素分解开来,逐一加以研究。例如,在各种理解因素中先划出语言因索来。语言因素中又先划出句法因素来。这种策略的优点是,它有可能导致最终建成一个可供一切可能的言语分析

7、或生成所需的自然语0理解知识库。智能搜索和信息获取就应采州过。策略,因为它们所处理的信息是广泛的、普墒的,这要求智能搜索和信息获取必须是智能的。2智能搜索搜索是文献量增长到一定程度后的必然婴求,目的在于跟踪相关文献同时尽量减少间读的负担。搜索可抽象成一个过滤器模型,在过滤器内部完成了标注和匹配两个工作。输入世滤器的是原始文献记录,一个控制端予反应用户的搜索要求,而输出的则是从原始记录中筛选出来的满足搜索要求的、甚至是按相关性大小排序后的检出记录。目前实际使用中的情报搜索系统大多数是以处理文献的标识为主,如标题、作者、出版物、主

8、题词、索引号等著求事项。而智能搜索则可以基于语义搜索,艘索对象可为一句话甚至大规模真实文本;智能搜索的对象是自然语言文本,下面论述在自然语言处理技术应用中产生的具体问题。2.1标注、’一标注是为了产生文本的描述,搜索的真正对象是标注的结果。标注用词可以分成丰题阿和自由词两种。使用主题词标注时遇到的lⅥ题主要有词表不完备.更新不及时,而且规模世于庞大。使用自由词便于实现标注的自动化【2J。从效率上考虑智能搜索必须采用自由嗣自动标注。词频统计的标注算法是一种不需要“理解”全文的方法。这种方挂分成训练和标洼两个阶段,在训练阶段运行程

9、序统计一个大规模背景语料库中所有词的使用频度。在标注阶段同样统计被标注文本的【可频,之后比较背景语料库和被标文本在词频分布上的差异,将被标文本中出现的异常高频词标注出来即可。统计标注法的效果依赖1二背景语料库的构成,库中收集的文本应该是分布均匀的,包含各种领域和题材,特别是要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。