基于图像的表格识别算法与自动录入系统.docx
- 文档编号:12725854
- 上传时间:2023-06-07
- 格式:DOCX
- 页数:11
- 大小:30.74KB
基于图像的表格识别算法与自动录入系统.docx
《基于图像的表格识别算法与自动录入系统.docx》由会员分享,可在线阅读,更多相关《基于图像的表格识别算法与自动录入系统.docx(11页珍藏版)》请在冰点文库上搜索。
基于图像的表格识别算法与自动录入系统
基于图像的表格识别算法与自动录入系统
近年来,随着因特网和IT行业的迅速普及和发展,大量智能电子设备被用来使用处理文本信息,纸质文档正在被电子信息设备产生的电子文档所取代。
人类使用许多设备,例如扫描仪和数码相机等,来收集和存储纸质文本信息,并以图片的形式存储一些书籍,文档等,产生了大量的文档图像。
随着计算机技术的飞速发展,将表格文档图像转换为可编辑文本文件的需求正在增加。
为了减少低效率的人工录入,论文设计与实现一种文本表格的识别方法。
论文的主要工作为设计检测表格框线与定位表格单元格的方法。
对拍照或扫描得到的原始表格图像进行预处理,之后使用特殊的形态学方法提取表格线,计算单元格位置,并通过轮廓提取获得表格区域。
最后使用OCR识别表格内容并整合到表格结构。
关键词:
表格线检测,表格图像,单元格定位
1.绪论
1.1课题研究背景及意义
近年来,随着IT行业和Internet技术的迅速普及和发展,人们越来越多地使用智能电子设备来处理文本信息,例如智能手机和计算机。
智能电子设备具有体积小,信息存储量大,易于传播的优点。
文本可以方便地存储和显示在智能电子信息设备中。
许多企业和机构已开始实施无纸化办公,杂志和报纸等传统媒体也正在过渡到电子媒体。
因此,基于智能电子信息设备的电子文档在越来越多的场合正逐渐取代纸质文档,这是一个明显的发展趋势。
人类社会正在从以物质生产和基本能源为主导转变为以信息产业为主导。
我们正处于信息爆炸的时代。
信息时代的一个重要特征是使用计算机处理大量的数字文档信息。
同时,人类使用许多设备,例如扫描仪和数码相机等,来收集和存储纸质文本信息,并以图片的形式存储一些书籍,文档等,从而产生大量的文档图像。
文档图像具有占用存储空间大,信息存储效率低的特点。
随着计算机技术的飞速发展,将文档图像转换为类似于txt和其他类型的可搜索和可编辑文本文件的需求正在增加。
为了通过手动输入完成这项工作,工作量将是无法想象的。
特殊的数据格式和超大规模数据使人们更加希望使用计算机技术来自动处理转换,并摆脱复杂而重复的工作。
如何从这些图片形式的文档中提取信息并将其内容转换为可编辑的文本格式并将其输入到计算机中已成为当今的重要研究课题。
这种强烈的需求催生了光学字符识别OCR技术的诞生。
OCR技术是模式识别领域的研究人员较早研究的领域,在模式识别历史上具有重要地位。
OCR技术是通过扫描仪,移动电话相机和其他设备将诸如期刊,书籍,报纸和其他纸质文档之类的各种纸张转换为文档图像,并使用相关技术对文档图像的内容进行分段并进行相应标识。
目前,OCR技术已广泛应用于档案,办公自动化,车牌识别等领域。
其简单的字符识别技术已经相对成熟并被广泛使用。
OCR技术结合了数字图像处理,计算机视觉和其他学科。
它的快速发展促进了多个行业的转型,并节省了相应行业的工作时间和人工成本。
目前,OCR技术的性能指标主要分为以下四个方面:
文档字符识别率,识别率,布局分析减少效果等。
文档中存在大量的表格,表格可以高度简洁地标准化文档信息,以便人们可以快速分析和处理文档信息。
表格文件,例如订单,税表和快递订单,已在许多行业中广泛使用。
在书籍和各种出版物中也有大量的表格,手动输入和检索表格信息非常昂贵。
因此,除了传统的光学字符识别之外,研究人员现在还专注于研究对文档图像中模块和形式的识别分析。
如今,文本表格识别技术已成为OCR分支中的一项非常活跃的研究。
1.2国内外研究现状
光学识别技术是许多科学研究者正在大力开发的项目之一。
作为模式识别的重要分支,这项技术的研究起步较早,并取得了长足的进步。
其中,字符识别技术的发展已经非常成熟,并已应用于实际生活中。
当前,限制其发展的主要技术是布局分析和布局理解技术。
随着计算机的快速发展,OCR技术也得到了快速的研究和开发。
作为OCR技术应用的最早研究领域之一,布局分析和布局理解已经发展了数十年。
在1980年代初期,对布局分析和理解技术的研究主要集中于布局相对简单的文档的分析。
1990年代后,开始了对文件逻辑注释的研究。
在这个阶段,布局分析和理解技术已经渗透到各个研究领域,并且已经从不同角度分阶段进行了研究。
它取得了长足的进步,并逐渐应用于现实生活中。
表格识别技术是OCR技术,布局分析与识别技术相结合的产物,在理论研究和实际应用中具有重要的研究价值。
文本表作为文本文档的最常见形式之一,被广泛应用于我们生活的各个领域,并在日常生活中占有举足轻重的地位。
随着Internet向大数据的发展,各种文本表也需要数字化信息。
智能化,例如自动输入,存储和管理表单文件。
表格文档图像的识别主要涉及两个方面,一个是表格文本的识别,另一个是表格结构的提取。
随着近年来OCR技术的不断发展,识别表中的文本不再是问题,表格识别的重点在于提取表的结构。
与其他文档形式相比,表格文档具有复杂的层次结构,其中包含水平和垂直表格行的行和列,未格式化的标题信息和目标数据,并且具有紧凑而复杂的结构。
桌面线对图像采集过程中由于拍摄设备,拍摄环境和拍摄方法的变化而导致的亮度,分辨率,倾斜度和视角影响更为敏感。
表单的内容是打印的还是手写的表单文档,由于其自身的原因,很容易引起除字符识别之外的问题,例如内容和表单行的重叠,因此表单的内容和表单如果删除了表格行,则会合并行,结果表格的内容可能会变得不完整,无法正确识别。
表单中存储的内容很可能是重要数据,这使得表单标识的准确性更加严格。
在国际上,许多知名的研究机构在表识别方面都有很好的研究成果。
在中国,已经进行了大量研究的形式识别主要是识别具有特定格式的特定文件,例如车牌识别,快递收据识别,邮政编码识别等。
具有特定格式的形式识别技术已经取得突破发展,但很复杂表识别研究的发展缓慢,理论还不完善。
1.3本设计研究的内容
本课题主要设计与实现一种基于图像的文本表格识别方法。
最终将图像中的文本表格转换为一种。
本文具体研究工作有:
(1)检测表格线以及定位单元格。
通过拍照或者扫描得到图像;将原始图像进行预处理,增强图像质量以方便后续处理;对预测之后的图像进行校正,如图像倾斜校正;使用特殊的形态学变换方法,提取出图像中的横线竖线;对刚刚得到的横竖线图像计算外轮廓,判断轮廓形状与大小是否为表格,并提取;根据表格区域内横竖线定位单元格。
(2)表格内容识别。
将提取出的表格区域使用现有的OCR识别,可得到每个或一串字符的文本框及其坐标。
(3)匹配表格结构和内容并生成结构化语言描述。
根据识别文本的坐标将其对应到单元格中,再生成一种表格的结构化语言表示。
2.表格图像识别的相关技术
2.1图像处理技术及常用类库
图像处理技术
图像处理技术是用计算机对图像信息进行处理的技术。
主要包括图像数字化、图像增强和复原、图像数据编码、图像分割和图像识别等。
几何图形(Graphics)由点、线、面、颜色等组成,由绘图程序产生,是一系列绘图指令的集合,一般用各种绘图软件制作。
点阵图像由各像素点和颜色组合而成,使用摄像机、扫描仪、数码相机等设备获得,也可以使用绘图软件生成。
图像表示的画面细腻,层次和色彩丰富。
图像的各像素点逐点存储在计算机中,占用的存储空间大。
(1)图像增强。
图像增强的目的是改善图像的视觉效果,它是各种技术的汇集,还没有形成一套通用的理论。
常用的图像增强技术有对比度处理、直方图修正、噪音处理、边缘增强、变换处理和伪彩色等。
在多媒体应用中,对各类图像主要进行图像增强处理,各类图像处理软件一般都支持图像增强技术。
(2)图像恢复。
图像恢复的目的是力求图像保持本来面目,用来纠正图像在形成、传输、存储、记录和显示过程中产生的变质和失真。
图像恢复必须首先建立图像变质模型,然后按照其褪化的逆过程恢复图像。
(3)图像识别。
图像识别也称模式识别,就是对图像进行特征抽取,然后根据图形的几何及纹理特征对图像进行分类,并对整个图像作结构上的分析。
通常在识别之前,要对图像进行预处理,包括滤除噪声和干扰、提高对比度、增强边缘、几何校正等。
图像识别的应用范围极其广泛,如工业自动控制系统、指纹识别系统以及医学上的癌细胞识别等。
(4)图像编码。
图像编码的目的是为了解决数字图像占用空间大,特别是在做数字传输时占用频带太宽的问题。
图像编码的核心技术是图像压缩。
对那些实在无法承受的负荷,只好利用数据压缩使图像数据达到有关设备能够承受的水平。
评价图像压缩技术要考虑三个方面的因素:
压缩比、算法的复杂程度和重现精度。
(5)图像分割:
图像分割是数字图像处理中的关键技术之一。
图像分割是将图像中有意义的特征部分提取出来,其有意义的特征有图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。
(6)图像描述:
图像描述是图像识别和理解的必要前提。
作为最简单的二值图像可采用其几何特性描述物体的特性,一般图像的描述方法采用二维形状描述,它有边界描述和区域描述两类方法。
对于特殊的纹理图像可采用二维纹理特征描述。
随着图像处理研究的深入发展,已开始进行三维物体描述的研究,提出了体积描述、表面描述、广义圆柱体描述等方法。
图像的处理技术包括点处理、组处理、几何处理和帧处理四种方法。
处理图像最基本的方法是点处理方法,由于该方法处理的对象是像素,故此得名。
点处理方法简单而有效,主要用于图像的亮度调整、图像对比度的调整,以及图像亮度的反置处理等。
图像的组处理方法处理的范围比点处理大,处理的对象是一组像素,因此又叫“区处理或块处理”。
组处理方法在图像上的应用主要表现在:
检测图像边缘并增强边缘、图像柔化和锐化、增加和减少图像随机噪声等。
图像的几何处理方法是指经过运算,改变图像的像素位置和排列顺序,从而实现图像的放大与缩小、图像旋转、图像镜像、以及图像平移等效果的处理过程。
图像的帧处理方法是指将一幅以上的图像以某种特定的形式合成在一起,形成新的图像。
其中,特定的形式是指:
经过“逻辑与”运算进行图像的合成、按照“逻辑或”运算关系合成、以“异或”逻辑运算关系进行合成、图像按照相加或者相减以及有条件的复合算法进行合成、图像覆盖或取平均值进行合成。
图像处理软件通常具有图像的帧处理功能,并且以多种特定的形式合成图像。
图像处理的常用库
OpenCV的全称是OpenSourceComputerVisionLibrary,是一个跨平台的计算机视觉库。
OpenCV是由英特尔公司发起并参与开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用。
OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。
该程序库也可以使用英特尔公司的IPP进行加速处理。
Opencv可以运行在Linux、Windows、Android和MacOS操作系统上。
它轻量级而且高效——由一系列C函数和少量C++类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。
OpenCV用C++语言编写,它的主要接口也是C++语言,但是依然保留了大量的C语言接口。
在计算机视觉项目的开发中,OpenCV作为较大众的开源库,拥有了丰富的常用图像处理函数库,采用C/C++语言编写,可以运行在Linux/Windows/Mac等操作系统上,能够快速的实现一些图像处理和识别的任务。
此外,OpenCV还提供了Java、python、cuda等的使用接口、机器学习的基础算法调用,从而使得图像处理和图像分析变得更加易于上手,让开发人员更多的精力花在算法的设计上。
2.2字符识别技术
OCR是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR的名词也因此而产生。
衡量一个OCR系统性能好坏的主要指标有:
拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR的名词也因此而产生。
衡量一个OCR系统性能好坏的主要指标有:
拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
为了提高OCR识别能力和效率,研究人员继续对OCR技术进行深入研究。
当前的OCR技术主要有以下几种方法:
(1)基于特征统计的字符识别
基于特征统计的字符识别技术的关键是将同一字符共有的统计上相对稳定的特征应用于识别。
常用的统计特征包括:
字符像素位置特征,字符投影直方图特征,字符域变换特征等。
(2)基于结构特征的字符识别
基于结构特征的字符识别技术主要是提取字符的结构特征,通过模板匹配描述特征,然后将待识别的字符映射到由图元组成的结构空间中进行识别和分类。
(3)基于神经网络的字符识别
基于神经网络的字符识别技术是通过神经网络对图像进行识别和分类,以模拟人脑的工作原理。
神经网络充当分类器。
内部有多层神经元连接。
字符特征向量被输入到神经网络。
最终的字符识别分类结果是通过判断各层特征而输出的。
3.表格线检测以及单元格定位
3.1表格图像预处理
图像的预处理是表格线检测和单元格定位的第一步,也是图像处理的必要步骤。
本部分中的表格图像预处理主要集中在图像质量增强,增强有效信息以及减弱冗余或无效信息方面,流程为图像尺寸归一化,灰度处理,二值化处理以及反色。
通过上述一系列预过程,可以提高输入表格图像的质量,并满足后续自动输入系统对输入图像的要求。
表格图像尺寸归一
由于采集图像的设备和环境的不同,输入图像的分辨率也不同,所获得图像的尺寸也不同,图像中像素线的宽度也不同,单字符图像也不同,字符识别的复杂性增加。
为了便于后续的表格行检测和单元定位,有必要在执行其他预处理操作之前将大小标准化。
图像尺寸归一化是指通过坐标变换将要处理的图像转换为统一的尺寸格式。
图像尺寸归一化过程的基本思路是根据图像的原始尺寸对图像进行缩放和内插以获得统一尺寸的图像。
经常使用三种的插值算法:
最近邻元素方法,双线性插值方法和三次插值方法。
这三种算法相比,最近邻元素方法:
找到要分配给该像素的像素的最近邻像素的灰度值。
该算法最简单,不需要计算,但是很容易引起图像灰度不连续。
缩小时容易产生变形,而放大图像时则容易产生马赛克,效果差;双线性插值法:
使用像素周围的四个最近的相邻像素分别在水平和垂直方向进行线性插值。
与最近邻法相比,它更加繁琐并且增加了计算量。
但是,灰度值相对连续,效果更好。
不过这种插值方法的性质类似于低通滤波器,它会丢失图像的高频分量。
可能导致图像轮廓模糊;三次插值:
使用三次多项式逼近理论上最佳的插值函数,然后使用像素周围的16个像素的灰度值来计算要获得的像素的灰度值,该算法的计算量最大,但是效果最好。
本文采用三次插值法。
表格图像灰度化
顾名思义,灰度处理是将由三个通道组成的彩色图像转换为由一个通道组成的灰度图像的过程。
常见的灰化方法有:
最大值法,分量法和加权平均法。
最常用的是加权平均法。
加权平均法是将三个通道R,G和B的值乘以它们各自的权重,然后取平均值。
根据实验结果,最能满足人眼主观感觉并能保留大多数彩色图像色差信息的灰度加权公式为
本文采用该公式来进行灰度化处理。
表格图像二值化及反色
图像的二值化处理就是将图像上的点的灰度值为0或255,也就是将整个图像呈现出明显的黑白效果。
即将256个亮度等级的灰度图像通过适当的阈值选取而获得仍然可以反映图像整体和局部特征的二值化图像。
目前常用的二值化方法:
局部阈值,自适应局部阈值和全局阈值法。
全局阈值方法是将统一阈值应用于整个图像的方法。
该方法相对简单,但是其局限性也较大。
它需要为不同的图像选择不同的阈值。
局部阈值方法是将图像分为大小相等的多个网格单元,然后使用相应单元的阈值对每个单元中的图像进行二值化。
尽管局部阈值方法在某种意义上改善了全局阈值方法的效果,但仍未从根本上解决该缺陷。
网格单元的尺寸难以确定,其通用性和抗噪性相对较差。
局部自适应阈值方法是一种动态确定阈值并根据像素相邻区域中像素的像素值分布进行二值化的方法。
这样做的优点是阈值不是固定的,并且可以对亮度,高对比度或纹理不均匀的区域采用不同的阈值,从而获得更好的结果。
本文采用局部自适应阈值法来进行二值化处理。
之后进行反色处理,对二值化图像来说,为黑白互换,以便后续对表格线的提取以及连通域的检测。
3.2表格线以及表格区域的检测
表格图像形态学处理得到表格线
形态学,即数学形态学,是图像处理中应用最为广泛的技术之一,主要用于从图像中提取对表达和描绘区域形状有意义的图像分量,使后续的识别工作能够抓住目标对象最为本质(最具区分能力-mostdiscriminative)的形状特征,如边界和连通区域等。
同时像细化、像素化和修剪毛刺等技术也常应用于图像的预处理和后处理中,成为图像增强技术的有力补充。
最常用的数学形态学操作有:
膨胀、腐蚀、开运算、闭运算等。
其中腐蚀运算可以表示为:
X代表腐蚀的集合,x代表腐蚀的集合中的点,S代表腐蚀的集合。
用S腐蚀X的结果是将x转换为S后仍在X中的所有x的集合。
膨胀运算可以表示为:
膨胀和腐蚀通常结合使用。
首先腐蚀然后膨胀的过程称为开运算,该操作可以使图像平滑并消除图像中的噪点和毛刺。
先膨胀然后腐蚀的过程称为闭运算。
闭运算可以补充物体上的小孔,并连接彼此靠近的间歇部分。
由于表格线为横向或竖向的直线,所以本文设置1
n和n
1的结构元素分布对之前二值化并反色后的图像进行二值形态学中的闭运算,得到若干条横向和竖向的线。
设置n的值为图片的长或宽的一个缩放比例,调整该比例来控制检测到横线或竖线的数量。
此时的横线和竖线中除了表格线以外,还存在其他的干扰线段,下一步将检测表格区域并排除其他线段的干扰
表格区域检测
将上一步得到横线和竖线交叉,并计算交点,得到含有表格线的图片,以及交点集。
对含有表格线的图片进行外轮廓检测,轮廓检测是在一张只有1和只有0的二值图片中执行的。
(1)框架:
框架就是指图片的第一列、最后一列、第一行、最后一行像素,这四个长条组成的一个矩形框框,我们这些点是黑点,也就是0。
(2)背景:
除了框架之外,和框架属于同一层级的像素点,这些点也是黑点,也就是0。
(3)外轮廓:
外轮廓就是指包裹了一堆白点的最外围的白点。
(4)内轮廓:
内轮廓是指在包裹了一堆白点的最内部的白点。
对得到的区域进行判断:
(1)获取区域的面积大于设置的阈值
(2)获取区域中至少含有交点集中的若干个交点
满足这两个条件的区域即判定为表格区域。
本文使用的轮廓检测算法为铃木桑发明的。
3.3表格单元格的定位
取位于表格区域的交点集,来计算出各个单元格的坐标,并将单元格定义为起始行,结束行,起始列,结束列。
由交点集推导行(列)的高(宽)比较容易,只需对所有的交点按从上(左)到下(右)排序,相临框线形成一行(列),所以只需计算相临框线的y坐标(x坐标)差即可。
3.4本章小结
本章主要介绍了表格线检测以及单元格定位的主要工作,包括了图像的预处理,表格线的检测和单元格的定位。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 图像 表格 识别 算法 自动 录入 系统