谷歌报纸搜索

谷歌报纸搜索

ID:28647876

大小:2.25 MB

页数:6页

时间:2018-12-12

谷歌报纸搜索_第1页
谷歌报纸搜索_第2页
谷歌报纸搜索_第3页
谷歌报纸搜索_第4页
谷歌报纸搜索_第5页
资源描述:

《谷歌报纸搜索》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、实用标准文案谷歌报纸搜索-图像处理和分析管道摘要该谷歌报纸搜索计划于2008年9月8日推出。在本文中,我们概述了这个大复杂的项目的技术基础。我们创建了一个输入报纸缩微胶卷输出个人新闻文章的并发生产管线。这些文章作为索引后增加到内容数据库,让他们对应谷歌搜索结果。因此,谷歌回应查询“希特勒死亡“,能够显示报纸文章在当天所有报道..微缩胶卷因为非均匀照明,存在显着噪音、泪水和划痕,造成这个项目的所有特殊挑战。版面显著变异跨越报纸和时代,发生在一个单页字体大小的变化(混淆了OCR引擎)增加困难。最初的推出后该项目还在进行(约1500万新闻文章)。1.引言谷歌报业数字化,索引和搜索计

2、划是一个雄心勃勃的尝试联机报道在其发生时间人类历史的重要部分。开始存档缩微胶片对应过去报纸版本,生成的HTML新闻文章是随后的搜索和检索的索引。在此背景下,值得注意的是,从报纸页面存档图像建立可搜寻的索引,它不能简单地做整个页面的OCR和转储在该指数所产生的词汇。报纸上发现纯粹的各种词和主题一会混淆任何系统的排名或集群。相反,部分页面进入独立新闻文章和治疗这些物品作为个别项目索引是可取的(如相对于整个页面)。因此,信息分割、从网页图片提取个人信息,是本论文的一个重要主题。另一个同样重要的议题是绑定,这是从一个同一天的所有报纸(版)收集网页的过程。绑定允许我们来标记每个新闻文章

3、和它的出版日期。笔者想借此机会感谢DanBloomberg、AdamLangley、RaySmith和LucVincent的建议和支持。本文的其余部分组织如下:第2节讨论相关工作,第3节概述算法和系统,第4节演示结果。2.相关工作Baird开发一个白空间用矩形贪婪地覆盖到所有孤立文本块的系统。同他一样,我们也有格言“背景比前景更简单”,“白色空间布局分隔符“(我们还可以添加长垂直和水平线条的布局名单分隔符)。Breuel[5]也提出方法为覆盖文件的背景中的空白条款的最大空矩形。我们的方法然而,这并不取决于矩形涵盖白色的空间。由于噪声和非均匀光照强度对报纸上的图片,白色空间检测

4、通常是不完善和矩形覆盖基础的方法失败。2003年,2005年,2007年ICDAR举行的页面分割竞争[10],[15],[16]。显着根据参赛作品有段位制的分类[11],连接系统和基于组件的奥西基于形态学三军情报局的系统[12]。Antonocopoulos开发的背景说明基于页面分割方法[17]。我们一直所有这些系统的启发。最后,Leptonica项目使用的是核心图像处理库。3.算法和系统说明图1显示的是系统整体结构。输入系统的是微缩胶卷。通过扫描,我们通常得到一个月中按日期排序的报纸的一个广泛的图像。图1中显示图像在后端管道处理。精彩文档实用标准文案图1系统架构详细信息在下

5、面的章节中显示。3.1页面分割这个模块从对应于整个微缩胶卷的宽图中提取个别页面。宽图中报纸页面被暗带(亮背景下的暗前景)隔开。因此,我们的页面分割基本上识别宽图中背景颜色上的连接部件。然后消除那些太小的组件,其余的组件就组成了页面。一旦页面被提取后就只用管道协议处理页面。3.2翻转矫正微缩摄影过程中报纸页面能够且确实得到翻转(横向反演,180度或90度旋转)。我们有一个自动系统来解决这一问题,事实上只有使用正确的方向才能从OCR中得到有效地字典。由于OCR比较昂贵,我们利用报纸快通常有统一的宽度(达到一定模糊因素)这一事实分割搜索空间。因此,我们做粗糙的快速的区块分割(标识前

6、台文本块)并计算出宽度直方图。如果直方图缺乏尖锋,我们就将页面图像旋转90度。随后我们不需要探讨正交(横向)方向。即使在直立方向,OCR最高的直方图高峰也只有三个块,且最有可能是文本块。3.3绑定绑定是指将报纸页面属于同一日期(又名同一版)收集起来的过程精彩文档实用标准文案。现在,在一个典型缩影,从一个给定的版本连续和顺序出现的页。因此,如果我们确定缩微胶卷中的所有头版头条,有效地结合降低从每一个头版收集在一起,但在页面中不包括该的下一步。因此,在结合的核心任务是头版鉴定。为此,我们从每一个缩微胶卷的页面图像建立一个手动样本/模板。其他的头版和此模板匹配。匹配的是在混乱的环境

7、通过技术为对象检测。在所有的给出的报纸的前页,报纸的标题(例如“华尔街日报”程式化的标题)和一些可能会出现独特的标志。这些都是我们试图在混乱的对象(一切在头版是杂波)中识别的对象。在每个缩微胶片,一个模板头版手动标识出来。其余的头版进行比对。对象识别的2个步骤:1.特征检测及说明:特征用图像的Gabor小波卷积检测其中响应的振幅产量构成描述向量。2.识别极大集的一致特征匹配:最大集的一致性匹配通过RANSAC(随机抽样共识)算法(如果用同一仿射转变的特征是一致的)。3.4。图片清洗报纸上从缩微胶片获得的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。