深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究.doc

深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究.doc

ID:51930375

大小:33.00 KB

页数:7页

时间:2020-03-19

深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究.doc_第1页
深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究.doc_第2页
深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究.doc_第3页
深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究.doc_第4页
深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究.doc_第5页
资源描述:

《深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究【中文摘要】随着网络技术和数据库技术的飞速发展,互联网已成为海量信息的载体,如何从海量信息中准确、快速地抽取出有价值的信息已成为人们迫切需要解决的一大难题。电子商务网站具有动态Web页面、页面结构化程度高以及信息数量巨大且内容丰富等特点。实际上,电子商务网站属于DeepWeb,DeepWeb指的是存储在数据库中、不能通过静态超链接访问而需要通过动态网页技术访问的信息,用户需要向特定的查询接口提交查询请求后才能访问数据库中的数据。深度搜索就是针对DeepWeb进行搜

2、索。DeepWeb不仅信息量大,而且具有面向某一领域、结构化程度较高且可以公开访问等特点。本文选择电子商务网站作为深度搜索的对象,研究商品信息的抽取。电子商务网站的站内搜索引擎为研究人员对网站进行深度搜索提供了便利,它可以根据用户输入的关键词,将与之相关的数据库内容以网页的形式动态呈现出来。我们可以利用这类查询接口进行深度搜索,通过模拟关键词的填充和提交,来获取我们需要的页面。通过深度搜索所获得的页面内含有大量商品信息,我们以此为信息源进行信息抽取。信息抽取研究中最关键的技术在于如何生成抽取规则,生成的方法有很多,但

3、从生成的手段来说可以分为两种,一种是自动生成抽取规则,另一种是人工编写抽取规则,两种方法各有优缺点,有着各自的适用范围。自动生成的方法有利于针对不同结构的网站,但准确率较低;而人工编写的方法虽然需要人工参与,但抽取结果较为精确。本文针对电子商务网站进行信息抽取,抽取商品的各种信息,主要包括商品名称、价格、运费、商品相关信息等内容。由于同一网站下的子页面结构大体相同,因此,为了获得更为精确的抽取结果,我们采用了人工编写抽取规则的方法。本文的主要内容及创新点如下:1、设计一个关键词库接口,使得系统可以接受关键词库文件(文

4、本文件,关键词之间以回车符隔开),将关键词库文件内的关键词一一导入至系统中,用于表单的自动填充和提交。另外,考虑到了效率问题,让系统在导入新关键词库文件时与旧关键词库进行对比,判断出新关键词,最后只接受更新的那一部分关键词,即达到关键词增量更新的。2、提取电子商务网站的HTML源码,通过对HTML源码进行分析,提取出网站中包含查询表单的那部分HTML源码。根据这部分HTML源码,利用WebBrowser控件方法对这些查询表单自动模拟关键词的填充和提交,用以获得每一个关键词所对应的初始页面。3、选择性的提取链接,只提取

5、初始页面中的商品信息链接,而不提取广告和友情链接。另外,由于商品信息链接有多页,因此还需要通过获取“下一页”链接来得到更全的商品信息链接。本文介绍了多种获取“下一页”链接的方法,并提出了一个通用性较好的方法。4、通过正则表达式来定义抽取规则,根据不同的页面结构编写相应的正则表达式,从而进行信息抽取。抽取的结果以文本文件的格式保存,便于对关键词库文件进行更新。【英文摘要】Withtherapiddevelopmentofnetworkanddatabasetechnology,Internethasbecomeacar

6、rierofagreatdealofinformation,howtoextractthemeaningfulinformationaccuratelyandrapidlyfromthemassofwebinformationhasbecomeanurgentproblemwhichpeoplewanttosolve.ThereisalotofwebinformationintheE-commercewebsites,thesewebsites’webpagesaredynamic,andhavehighdegree

7、ofstructures.Actually,theE-commercewebsitesbelongstoDeepWeb,DeepWebistheinformationwhichcannotaccesswithhyperlinksandneedsthedynamicwebtechnologytoaccess,usersneedtosubmitqueriesonthespecificinterface(thequeryinterface)toaccessthedatainthedatabase.Deepsearchist

8、hekindofsearchwhichaimatDeepWeb.DeepWebhaslotsofinformation,highdegreeofstructuresandpublicaccessinterface.SowechoosetheE-commercewebsitestodotheobjectofresearchofdeepsearch

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。