欢迎来到天天文库
浏览记录
ID:56448512
大小:111.50 KB
页数:38页
时间:2020-06-18
《Web图片搜索引擎设计.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Web图片搜索引擎设计——基于文本的图片信息提取大纲图片检索技术简介我们设计的系统总体结构图片文字信息提取无用图片过滤一些统计规律结合文本与内容的方法(后期打算)图片检索技术分类基于文本利用某种提取方法获得与图片内容相关的文本信息,利用传统文本检索方法提供检索。基于内容提取图片中的可视化特征,比如颜色,形状,纹理等,对特征建索引,提供相似查询。基于语义理解可是特征的语义信息,可以利用文字查询可视特征。基于文本优点符合用户查询习惯(关键字查询)适合复杂语义查询(比如查“奥运会”)利用已有的技术积累(文本检索)性能好缺点提取的信息不够准确文字描述不能保证全面性不能基于内容相似
2、查询基于内容优点可以查询相似图片对图片来源要求低(不需要额外文字信息)缺点技术不成熟效率低复杂语义无法表示基于语义通过理解图片中的可视特征来建立低层特征到高层语义的映射(比如:能够理解大海是蓝色的)。符合人类理解图片的自然方式。开始大量的研究,在未来会有很大的发展。我们的选择——基于文字理由目前的大型图片搜索引擎基本上都是以基于文字的检索为主体。性能良好已有大量的网页资源可供使用。开发周期较短。我们设计的系统的结构系统工作过程抓取网页和图片从网页中提取图片相关的文字信息利用图片生成缩略图对提取到的文字信息建倒排索引提供查询核心——图片信息提取(Extractor)信息来源
3、HTML文档用于组织文字和图片等通过分析HTML文档找到图片和相关的文字提取方法不能确知网页作者组织信息的方法,所以利用启发式规则将最可能与某图片相关的位置的文字作为图片的文字描述信息常用提取模式标记从src获取图片来源从alt获取相关文字信息(注意可能为文件名)获得width和height,用于以后的过滤常用提取模式(续)标记从href获得URL,判断是否为图片(简单的根据扩展名,不处理动态内容)从title获得相关文字信息从anchor_text获得图片的文字信息(通常最准确)常用提取模式(续)网页的标题图片与所在网页相关,因此和网页的标题相关提取4、itle>下的文字。有时下还会嵌套标记,需要去除。有时使用缺省的名字(比如newpage或者UntitledDocument),需要过滤常用提取模式(续)链接到图片所在网页的文本和网页的标题一样,这是对网页的描述,所以Some_info可能和xxx.jpg相关需要跨页面的信息提取Some_infoa.htmlxxx.jpg常用提取模式(续)网页的meta标记也是对网页内容的描述可以提取其中的keywords和description的值常用提取模式(续)图片的URL图片的URL可能含有相关信息(path和fi
4、itle>下的文字。有时
5、le_name)判断path和file_name是否为中文,或者为英文单词,是则可能有意义不考虑站点的domain_name,太泛常用提取模式(续)关联的和嵌套则xxx.jpg和foo.html的内容相关,可以使用foo.html的标题作为文字信息并列anchor_text……则xxx.jpg和anchor_text相关,可以用anchor_text作为文字信息常用提取模式(
6、续)
7、div>some_text
此文档下载收益归作者所有