Web图片搜索引擎设计.ppt

Web图片搜索引擎设计.ppt

ID:56448512

大小:111.50 KB

页数:38页

时间:2020-06-18

Web图片搜索引擎设计.ppt_第1页
Web图片搜索引擎设计.ppt_第2页
Web图片搜索引擎设计.ppt_第3页
Web图片搜索引擎设计.ppt_第4页
Web图片搜索引擎设计.ppt_第5页
资源描述:

《Web图片搜索引擎设计.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Web图片搜索引擎设计——基于文本的图片信息提取大纲图片检索技术简介我们设计的系统总体结构图片文字信息提取无用图片过滤一些统计规律结合文本与内容的方法(后期打算)图片检索技术分类基于文本利用某种提取方法获得与图片内容相关的文本信息,利用传统文本检索方法提供检索。基于内容提取图片中的可视化特征,比如颜色,形状,纹理等,对特征建索引,提供相似查询。基于语义理解可是特征的语义信息,可以利用文字查询可视特征。基于文本优点符合用户查询习惯(关键字查询)适合复杂语义查询(比如查“奥运会”)利用已有的技术积累(文本检索)性能好缺点提取的信息不够准确文字描述不能保证全面性不能基于内容相似

2、查询基于内容优点可以查询相似图片对图片来源要求低(不需要额外文字信息)缺点技术不成熟效率低复杂语义无法表示基于语义通过理解图片中的可视特征来建立低层特征到高层语义的映射(比如:能够理解大海是蓝色的)。符合人类理解图片的自然方式。开始大量的研究,在未来会有很大的发展。我们的选择——基于文字理由目前的大型图片搜索引擎基本上都是以基于文字的检索为主体。性能良好已有大量的网页资源可供使用。开发周期较短。我们设计的系统的结构系统工作过程抓取网页和图片从网页中提取图片相关的文字信息利用图片生成缩略图对提取到的文字信息建倒排索引提供查询核心——图片信息提取(Extractor)信息来源

3、HTML文档用于组织文字和图片等通过分析HTML文档找到图片和相关的文字提取方法不能确知网页作者组织信息的方法,所以利用启发式规则将最可能与某图片相关的位置的文字作为图片的文字描述信息常用提取模式标记从src获取图片来源从alt获取相关文字信息(注意可能为文件名)获得width和height,用于以后的过滤常用提取模式(续)标记从href获得URL,判断是否为图片(简单的根据扩展名,不处理动态内容)从title获得相关文字信息从anchor_text获得图片的文字信息(通常最准确)常用提取模式(续)网页的标题图片与所在网页相关,因此和网页的标题相关提取

4、itle>下的文字。有时下还会嵌套标记,需要去除。有时<title>使用缺省的名字(比如newpage或者UntitledDocument),需要过滤常用提取模式(续)链接到图片所在网页的文本和网页的标题一样,这是对网页的描述,所以Some_info可能和xxx.jpg相关需要跨页面的信息提取<ahref=“a.htm”>Some_info</a>a.htmlxxx.jpg常用提取模式(续)网页的meta标记也是对网页内容的描述可以提取其中的keywords和description的值常用提取模式(续)图片的URL图片的URL可能含有相关信息(path和fi</p><p>5、le_name)判断path和file_name是否为中文,或者为英文单词,是则可能有意义不考虑站点的domain_name,太泛常用提取模式(续)关联的<a>和<img>嵌套<ahref=”foo.html”><imgsrc=”xxx.jpg”></a>则xxx.jpg和foo.html的内容相关,可以使用foo.html的标题作为文字信息并列<ahref=”foo”>anchor_text</a>……<ahref=”foo”><imgsrc=”xxx.jpg”></a>则xxx.jpg和anchor_text相关,可以用anchor_text作为文字信息常用提取模式(</p><p>6、续)<table>结构组织结果比较多样化相关的文字和图片放到同一个<td>中;相关的文字和图片放在同一个<tr>下的两个<td>里;相关的文字和图片放在两个相邻的<tr>内;以某种其他的规律出现在<table>里提取时需要判断使用的是哪一种组织方式Hello,world<imgsrc=“xxx.jpg”>你好,世界常用提取模式(续)图片周围文字比较难于界定“周围”的含义。基于流的方式,图片所在HTML流中位置前后一段固定的距离常用提取模式(续)图片周围文字(续)基于DOM的方式与图片具有共同最低祖先的文字节点<form> <div><imgsrc=“xxx.jpg”></</p><p>7、div> <font>some_text</font> </form><form><font><div>Some_text<img>目前系统中使用的模式<img>标记信息<a>标记信息网页标题图片的URL<table>结构图片周围文字(DOM)网页meta信息链接到图片所在网页的文本关联的<a>和<img>信息提取方法基于DOM的方法将HTML文档解析为DOM树,遍历所有的节点,利用DOM接口的方法获取相关信息。优点实现简单,有开放的DOM解析工具可用(HTMLTidy)利用部分结构信息,提取信息准确度稍高缺点需要解析DOM,</p> </div> <div class="mt-3 bg-white"> <div class="d-lg-block d-none px-3 px-lg-4 py-3 border-bottom text-center font-18"> 当前文档最多预览五页,下载文档查看全文 </div> <div class="detail-fixed-feature d-none d-lg-block" id="detailFixedFeatureBox"> <div class="px-3 px-lg-4 py-3 d-flex align-items-center justify-content-between fixed-feature-box" id="detailFixedFeature"> <div class="d-lg-flex d-none align-items-center"> <div> <a class="btn btn-outline-danger article-state" href="javascript:;" data-id="56448512" data-code="438274" data-title="Web图片搜索引擎设计.ppt"> <span>侵权申诉</span> </a> <button type="button" class="btn btn-outline-secondary with-light ml-2" data-toggle="modal" data-target="#reportModal" data-id="56448512"><span>举报</span></button> </div> <nav class="d-flex align-items-center ml-4" id="anchorPoint"> <a href="javascript:;" class="btn btn-light anchor-pre px-2"><i class="iconfont text-muted"></i></a> <div class="text-muted mb-0 pre-point-list" id="prePointList"> <a class="px-2 active nav-link" href="#anchorImg0">1</a> <a class="px-2 nav-link" href="#anchorImg1">1</a> <a class="px-2 nav-link" href="#anchorImg2">2</a> <a class="px-2 nav-link" href="#anchorImg3">3</a> <a class="px-2 nav-link" href="#anchorImg4">4</a> <a class="px-2 nav-link" href="#anchorImg5">5</a> / <span class="px-2" id="prePageNums">38</span> </div> <a href="javascript:;" class="btn btn-light anchor-next px-2"><i class="iconfont text-muted"></i></a> </nav> </div> <div class="d-flex align-items-center"> <p class="d-lg-block d-none font-14 text-black-50 mb-0 mr-2">此文档下载收益归作者所有</p> <button class="btn btn-danger detail-download-btn px-3 ml-0 font-16" data-btn="downloadfile" style="width:128px;height:40px;" data-id="56448512" data-price="2000" data-size="111.50 KB" data-page="38页" data-type="ppt" data-binddown="true" data-isold="new_content" data-vip="0" data-title="Web图片搜索引擎设计.ppt">下载文档</button> </div> </div> </div> </div> <div class="d-block d-lg-none px-3 px-lg-4 py-3 border-bottom text-center font-14" style="color:#999">当前文档最多预览五页,下载文档查看全文</div> <button class="btn d-block w-100 d-lg-none btn-danger detail-download-btn px-3 ml-0 font-16" data-btn="downloadfile" data-id="56448512" data-price="2000" data-size="111.50 KB" data-page="38页" data-type="ppt" data-binddown="true" data-isold="new_content" data-vip="0" data-title="Web图片搜索引擎设计.ppt">点击下载本文档 </button> </div> <div class="px-3 px-lg-4 py-3 bg-white mt-3"> <ul class="nav custom-tab border-bottom" id="myTab" role="tablist"> <li class="nav-item" role="presentation"> <a class="nav-link active px-0 mr-4 font-16 font-weight-light pb-3" id="tips-tab" data-toggle="tab" href="#showTips" role="tab" aria-controls="showTips" aria-selected="true">版权提示</a> </li> <li class="nav-item" role="presentation"> <a class="nav-link px-0 pb-3 font-16 font-weight-light text-black-50" href="/d-56448512.html" >下载文档</a> </li> <dl class="flex-grow-1 mb-0 d-lg-none"> <li class="ml-3 float-right d-lg-none"> <button type="button" class="btn btn-light" data-toggle="modal" data-target="#reportModal" data-id="56448512"><span>举报</span></button> </li> </dl> </ul> <div class="tab-content with-content pt-3" id="myTabContent"> <div class="tab-pane fade show active font-14" id="showTips" role="tabpanel" aria-labelledby="showTips-tab"> 温馨提示: <br> 1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。<br> 2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。<br> 3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。<br> 4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。 <br> </div> </div> </div> </div> <div class="detail-sidebar d-none d-lg-block"> <div id="columnDetailSiderRight"> <div class="detail-yourlike mt-0 pb-2" id="relativeArticle"> <div class="border-bottom py-2 d-flex align-items-center justify-content-between"> <h5 class="font-16">相关文章</h5> <a class="font-14 hover-letter-spacing" href="/ucenter/search/index.html?text=Web图片搜索引擎设计.ppt" target="_blank" rel="nofollow">更多<i class="iconfont font-12 pl-1"></i></a> </div> <ul class="font-14 like-list"> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-14384185.html" title="基于文本的web图片搜索引擎的研究" target="_blank">基于文本的w<span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">图</span><span class="text-danger">片</span><span class="text-danger">搜</span><span class="text-danger">索</span><span class="text-danger">引</span><span class="text-danger">擎</span>的研究</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-14683373.html" title="基于文本的web图片搜索引擎的研究" target="_blank">基于文本的w<span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">图</span><span class="text-danger">片</span><span class="text-danger">搜</span><span class="text-danger">索</span><span class="text-danger">引</span><span class="text-danger">擎</span>的研究</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-25459100.html" title="web搜索引擎设计和实现分析" target="_blank">w<span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">搜</span><span class="text-danger">索</span><span class="text-danger">引</span><span class="text-danger">擎</span><span class="text-danger">设</span><span class="text-danger">计</span>和实现分析</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-27755220.html" title="基于文本web图片搜索引擎与研究报告" target="_blank">基于文本w<span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">图</span><span class="text-danger">片</span><span class="text-danger">搜</span><span class="text-danger">索</span><span class="text-danger">引</span><span class="text-danger">擎</span>与研究报告</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-28208425.html" title="基于文本的web图片搜索引擎的研究报告" target="_blank">基于文本的w<span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">图</span><span class="text-danger">片</span><span class="text-danger">搜</span><span class="text-danger">索</span><span class="text-danger">引</span><span class="text-danger">擎</span>的研究报告</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-39579919.html" title="硕士论文 基于文本的Web图片搜索引擎的研究" target="_blank">硕士论文基于文本的<span class="text-danger">W</span><span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">图</span><span class="text-danger">片</span><span class="text-danger">搜</span><span class="text-danger">索</span><span class="text-danger">引</span><span class="text-danger">擎</span>的研究</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-ppt" href="/p-48038843.html" title="基于web的地图搜索引擎设计与实现.ppt" target="_blank">基于w<span class="text-danger">e</span><span class="text-danger">b</span>的地<span class="text-danger">图</span><span class="text-danger">搜</span><span class="text-danger">索</span><span class="text-danger">引</span><span class="text-danger">擎</span><span class="text-danger">设</span><span class="text-danger">计</span>与实现<span class="text-danger">.</span><span class="text-danger">p</span><span class="text-danger">p</span><span class="text-danger">t</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-ppt" href="/p-48085908.html" title="WEB网页文字和图片.ppt" target="_blank"><span class="text-danger">W</span>EB网页文字和<span class="text-danger">图</span><span class="text-danger">片</span><span class="text-danger">.</span><span class="text-danger">p</span><span class="text-danger">p</span><span class="text-danger">t</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-48375929.html" title="基于文本Web图片搜索引擎与研究.doc" target="_blank">基于文本<span class="text-danger">W</span><span class="text-danger">e</span><span class="text-danger">b</span><span class="text-danger">图</span><span class="text-danger">片</span><span class="text-danger">搜</span><span class="text-danger">索</span><span class="text-danger">引</span><span class="text-danger">擎</span>与研究<span class="text-danger">.</span>doc</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-56099030.html" title="web中图片的插入设计.doc" target="_blank">w<span class="text-danger">e</span><span class="text-danger">b</span>中<span class="text-danger">图</span><span class="text-danger">片</span>的插入<span class="text-danger">设</span><span class="text-danger">计</span><span class="text-danger">.</span>doc</a> </li> </ul> </div> <div class="detail-yourlike pb-2"> <div class="border-bottom py-2"> <h5 class="font-16">相关标签</h5> </div> <ul class="font-14 like-list d-flex flex-wrap"> <a class="search-tag" href="/tags/540170/" target="_blank">ppt</a> <a class="search-tag" href="/tags/543357/" target="_blank">搜索引擎</a> <a class="search-tag" href="/tags/541745/" target="_blank">图片</a> <a class="search-tag" href="/tags/540104/" target="_blank">设计</a> </ul> </div> <script src="/d/js/acmsd/thea1.js"></script> </div> </div> </div> <footer> <div class="container d-none d-lg-block mb-4"> <div class="d-flex justify-content-between footer-nav"> <ul class="d-flex foot-nav"> <li> <h5>常见问题</h5> <a class=text-decoration-none href=/help/wenti/upload/ target=_blank> 关于上传 </a><a class=text-decoration-none href=/help/wenti/xiazai/ target=_blank> 关于下载 </a><a class=text-decoration-none href=/help/wenti/qinquan/ target=_blank> 关于侵权 </a><a class=text-decoration-none href=/help/wenti/fenxaing/ target=_blank> 分享文档赚钱教程 </a> </li> <li> <h5>关于我们</h5> <a class=text-decoration-none href=/help/about/wzjs/ target=_blank> 网站介绍 </a><a class=text-decoration-none href=/help/about/gywm/ target=_blank> 关于我们 </a><a class=text-decoration-none href=/help/about/lxwm/ target=_blank> 联系我们 </a> </li> <li> <h5>版权问题</h5> <a class=text-decoration-none href=/help/banquan/bqsm/ target=_blank> 版权声明 </a><a class=text-decoration-none href=/help/banquan/qqcl/ target=_blank> 侵权处理 </a><a class=text-decoration-none href=/help/banquan/mzsm/ target=_blank> 免责声明 </a> </li> <li> <h5>协议条款</h5> <a class=text-decoration-none href=/help/xieyi/yhxy/ target=_blank> 用户协议 </a><a class=text-decoration-none href=/help/xieyi/fwtk/ target=_blank> 用户服务条款 </a><a class=text-decoration-none href=/help/xieyi/ysbh/ target=_blank> 用户隐私保护 </a> </li> <li> <h5>网站导航</h5> <a class="text-decoration-none help-nav-item" href="/sitemaps.xml" data-name="网站地图" target="_blank">网站地图</a> <a class="text-decoration-none help-nav-item" href="/list.html" data-name="全部分类" target="_blank">全部分类</a> <a class="text-decoration-none help-nav-item" href="/sitemaps/index.html" data-name="资源地图" target="_blank">资源地图</a> </li> </ul> <div class="foot-qrcode d-flex"> <div> <div class="subsitute-bg"><img src="https://www.wenku365.com/d/file/2022/07-08/f23df57d987ef7ad9acb33fe5abf9854.jpg"></div> <p>关注公众号<br></p> </div> </div> </div> </div> <div class="footer-copyright"> <p><a href="/" target="_blank">天天文库</a>站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。</p> <p>本站是网络服务平台方,若您的权利被侵害,侵权客服QQ:3074922707 欢迎举报。</p> <p>Copyright 2004-2021 <a href="https://www.wenku365.com/" target="_blank">wenku365.com</a> All Rights Reserved <a href="https://beian.miit.gov.cn/#/Integrated/index" rel="nofollow" target="_blank">闽ICP备15016911号-5 </a></p> <p>闽公网安备 <a href="http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=35052402000320" rel="nofollow" target="_blank">35052402000320</a></p> <p> <a href="https://www.wenku365.com/zt.html" target="_blank">专题文集</a> <a href="https://www.wenku365.com/zt-90007.html" target="_blank">丨职业培训</a> <a href="https://www.wenku365.com/zt-90005.html" target="_blank">丨实用范文</a> <a href="https://www.wenku365.com/zt-90010.html" target="_blank">丨商业材料</a> <a href="https://www.wenku365.com/zt-90013.html" target="_blank">丨合同协议</a> <a href="https://www.wenku365.com/zt-90009.html" target="_blank">丨PPT专题</a></p> </div> </footer> <script src="//static.wenku365.com/wenku365/js/global.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/clipboard.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/jquery.treeview.js?"></script> <script src="//static.wenku365.com/wenku365/js/jquery.share.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/common.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/downloadFile.js?"></script> <script src="//static.wenku365.com/wenku365/js/loginWindow.js?"></script> <script src="//static.wenku365.com/wenku365/js/windowRecharge.js?"></script> <script src="//static.wenku365.com/wenku365/js/viewer.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/detail.js?"></script> <!-- 2023-05-07 15:51:22 --> </body> </html>