吴湘平[1](2021)在《图像文本识别的关键技术研究》文中研究说明图像文本识别主要利用机器学习算法对图像上出现的印刷体或者手写体进行识别,然后转录为计算机能读取识别的文字。图像文本识别在机器自动化、人机交互、自动驾驶等领域具有广泛的应用,一直是计算机视觉领域的研究热点。近年来,随着深度学习的发展,深度神经网络在场景文本识别和手写识别等方面取得了巨大的成功。然而,图像文本识别仍是一个棘手的问题,主要面临以下挑战:1)对于复杂场景的字符识别,现有方法容易丢失字符结构信息和引入背景噪声;2)对于词识别,现有模型大多依赖词典驱动,难以应用到资源匮乏的语言上;3)对于文本行识别,存在序列过长导致识别性能下降的问题;4)对于具有大字符集的语言,模型复杂、参数庞大,难以应用到存储和计算受限的设备中。本文针对以上问题,主要从图像文本识别的关键技术:识别技术和压缩技术开展研究,其中识别技术包括图像中不同粒度的文本即字、词、句子的识别,最后使用压缩技术对识别模型进行优化,主要研究内容包括以下几个方面:第一,针对复杂场景字符识别中,容易丢失字符结构信息和引入背景噪声等问题,提出了基于语义分割的复杂场景字符识别方法。为了减少字符类标数量,该方法首先设计了一种基于五笔汉字编码的新类标编码方法,将汉字的字形和结构信息编码为140位类标,从而大大减轻了对大字符集类别进行识别的计算和存储需求。其次,采用有效的语义分割模型进行逐像素预测,并利用条件随机场模块来学习类五笔编码的约束规则。最后,在三个公开评测数据集上的实验结果表明,该方法在复杂场景字符识别任务达到了最新水平,并且对于遮挡、超低分辨率、超低对比度等复杂的场景具有鲁棒性。第二,针对词识别模型依赖词典驱动和外部语言资源的问题,提出了基于位置向量的无约束手写单词识别方法。该方法首先生成位置向量,并将位置向量作为单词相对应的字符序列的索引;接着,将提取到图像特征与每个位置向量相结合,送入序列识别网络用于识别相应的字符。最后,在两个国际公共语料库上均取得了最佳结果。实验结果表明,在没有任何语言资源的情况下,该方法的性能与集成丰富语言资源的模型相近,证明了该方法对其他资源匮乏语言识别的有效性和潜在能力。第三,针对文本行识别模型存在序列过长导致识别性能下降的问题,提出了基于自适应超图神经网络的手写文本行识别方法。该方法通过一种基于标签向量的自动超图学习机制来自动建模字符间的关系。首先,将字符标签当做超图的节点,一条超边连接两个或多个节点,表示字符之间的某种关系,使用标签向量来构造自适应超图。其次,使用语义解耦模块和超图神经网络来探索特征与语义之间的相互作用,以提高文本行识别性能。最后,为了验证模型的泛化性,将自适应超图神经网络扩展到多标签图像分类任务上。结果证明,提出的自适应超图神经网络具有建模语义依赖关系的能力。第四,针对大字符集的识别模型参数庞大,难以应用到资源有限设备上的问题,提出了图像文本识别模型的全连接层压缩方法。该方法引入压缩因子来压缩全连接层的神经元,这不仅可以消除特征冗余,而且可以共享分类神经元。它打破了输出神经元数量必须与分类网络中类别数量相一致的局限性,在一定程度上缓解了大类别分类的问题。与其他需要预训练模型和微调的方法相比,该方法可以直接在基线模型上构造和压缩网络以实现端到端的训练。最后,在手写汉字识别,复杂场景字符识别和图像分类等多个任务的实验结果表明,所提出的方法可以大大减少模型参数,同时保持最新的识别性能,特别是对于大类别分类任务。综上所述,本文围绕图像文本识别的关键技术进行深入研究和讨论。针对图像中不同粒度的文本即字、词、句子存在的问题,分别提出基于语义分割的复杂场景字符识别方法,基于位置向量的无约束手写单词识别方法和基于自适应超图神经网络的文本行识别方法。最后针对共同存在的大字符集识别问题,提出基于全连接层的参数共享方法对图像文本识别模型进行参数压缩。本文将所提出的方法在多个国际公开数据集上进行实验,最终均取得优异的性能。
王家亮[2](2021)在《自然场景采集的卡证票据精准识别方法》文中提出许多企业平台采用“移动终端+互联网”模式收集用户上传的卡证票据并进行自动识别。一些证件识别平台由于应对光照、透视、复杂背景、水印覆盖、特殊印刷体等因素的抗干扰能力不足,严格限制证件图像的采集质量,给用户带来了不便。本文针对从自然场景中采集的卡证票据识别问题,针对精确识别需求,分别提出了基于SIFT特征点匹配的证件定位、基于条件生成对抗网络的可见水印去除、文本识别增强三个精准优化方法。通过实验设计,验证了所提出的方法对非均匀光照和复杂背景干扰的证件图像,在内容识别的效率和准确度方面的有效提升。本文主要工作如下:1.提出了一种基于SIFT特征点匹配的卡证定位方法。针对卡证定位问题,根据自定义模板图特征点的定位性能不变性,给出了基于SIFT特征点检测、FLANN特征点匹配和PROSAC错误匹配消隐的速度优先和精度优先两种定位点选择算法。通过证件定位实时观测程序,验证了方法在复杂环境变化中的鲁棒性。2.采用基于条件生成对抗网络的pix2pix模型,通过提出成对训练集的扩充方法,有效提升了去水印模型训练的拟合优度。使水印覆盖内容得到充分恢复,也增强了卡证文本识别的抗干扰能力。3.提出了一种卡证文本的识别增强方法。一方面,通过基于“投影法”的字段定位及字符分割、印刷体清晰化和字段合并加速识别方法,在字段细粒度提纯和流程化识别层面做了细致优化。另一方面,在Tesseract-OCR自定义语言包生成中基于“投影法”提出了一种样本生成方法和自动化字符校正算法,提升了Tesseract样本字符检测成功率和校正效率。论文针对从自然场景中采集的卡证票据识别问题,从上述三个方面提出了性能提升方案,可以为系统开发和实现提供应用参考。
成思齐[3](2021)在《基于深度学习的发票识别方法研究》文中研究说明发票实现智能识别可以帮助银行和单位降低工作投入的成本,减少人工失误造成的问题。本课题针对增值税发票这种特殊与复杂的发票识别进行了深入研究,设计基于深度学习的发票识别方案,方案首先针对发票数量不平衡问题采用改进深度卷积生成对抗网络方法扩充数据库,针对传统算法特征提取盲目问题采用卷积神经网络对发票进行特征提取和分类,针对AlexNet网络在发票识别率不够的问题采用通道洗牌等进行针对性改进,用深度学习框架Tensorflow完成改进算法的仿真实验,验证本文所提方法满足设计要求。主要研究内容与创新点归纳为以下几个方面:1、发票智能识别方法研究的方案设计分析增值税发票版面,分析深度学习在发票识别上可行性,将卷积神经网络作为增值税发票识别模型,设计发票识别方案。首先对发票图像进行灰度化等预处理将发票切割为单个信息字符图像构建字符数据库,接下来对受损发票进行扩充来平衡数据库,提高数据集置信度,用卷积神经网络算法在发票字符据集进行仿真选择算法,最后对所选算法进行针对性改进,并对改进算法仿真验证。2、不平衡数据库问题研究本课题污损发票的样本数量少导致数据集不平衡,影响网络识别效果。针对这一问题提出一种改进深度卷积生成对抗神经网络方法,通过训练改进DCGAN(Deep Convolutional GAN)逼近样本数据的真实分布,再利用训练好的生成模型生成与训练数据服从相似分布的图像,完成对少量受损发票数据的扩充。仿真实验表明,经过改进DCGAN平衡样本后,所训练的卷积神经网络模型较原始不平衡数据集平滑,有效提升了模型表现。3、卷积神经网络算法研究由于深度学习对海量数据的超强特征提取能力,本文选取卷积神经网络作为发票字符识别算法。对卷积神经网络的三种经典网络进行搭建训练,分别在高质量和受损发票数据集上进行仿真,经过比较发现AlexNet网络无论是在识别精度和训练时间上都有很大的优势,选定AlexNet作为发票识别基础模型,为后续研究的开展打下基础。4、改进AlexNet网络算法研究分析AlexNet网络应用在发票识别存在不足的原因,针对这些问题,提出在网络中加入SE模块提高重要特征权重、用通道洗牌模块打乱网络单一的特征映射方式提高网络鲁棒性,用小卷积核提高网络对细微特征的提取,对改进后的算法仿真验证,结果表明该方法在有效提升受损发票识别率的同时避免了过拟合的发生。
陈力勤[4](2021)在《用于厨电控制面板按键功能耐久性测试的字符识别研究》文中进行了进一步梳理厨电控制面板按键功能耐久性测试是指在厨电产品生产过程中验证产品寿命的一项必不可少的测试。根据项目合作企业对厨电产品控制面板按键功能耐久性测试的要求,按键功能耐久性测试需要确定面板中各按键的功能和按键位置,按照一定的顺序进行反复的按键测试,直到达到规定的测试次数,完成测试。然而,目前厨电控制面板按键功能耐久性测试仍采用人工检测方法,该方法耗时费力、准确率低。另外,按键功能耐久性测试需要花费大量时间,而人类无法像机器一样长时间连续工作,易出现视觉疲劳,导致漏检、误检,难以保证检测数据的真实性。通过大量的观察发现,厨电控制面板中的按键通常由图案和文本标注两种元素构成。通过识别按键图案直接检测按键的方法难度大、适应性低。因此,本文提出了一种用于厨电控制面板场景的字符识别算法,其属于一种复杂场景的文字识别。该算法通过识别控制面板上的各个按键对应的文本及其位置,并与机械臂结合,辅助完成厨电产品控制面板按键功能耐久性测试。本文的主要工作内容如下:(1)建立了模型训练所需的厨电控制面板数据集和汉字符号混合数据集。并结合厨电产品实际工况对数据集进行伽马变换、加噪和高斯模糊的数据扩增操作。(2)本文提出一种基于改进Faster R-CNN的场景文本目标检测算法,目的在于排除复杂的背景干扰并快速识别分散在控制面板不同区域的文本区域。为了提高Faster R-CNN中RPN特征表征的能力,本文提出了一种深度区域建议网络(Deep Region Proposal Network,D-RPN)。在D-RPN中,提出了一种特征强化块,采用了多尺度卷积和特征融合的方式,解决了RPN卷积核尺度单一的问题,使网络获得更加丰富的特征信息集合。此外,D-RPN还采用一种以若干特征强化块为节点,通过最大池化和上采样操作连接而成的U型网络结构,提高了网络对特征的学习能力。实验结果表明,本文提出的改进算法与目前常用的目标检测网络相比具有更好的识别能力。(3)本文采用了适配性更高的投影法对检测到的文本标注进行分割,表现优于最大稳定极值区域方法和连通区域分析法。此外,因与厨电相关的字符种类较多,为了完成多分类的任务,本文搭建了一个9层卷积神经网络,进而实现字符识别任务。(4)本文搭建了厨电控制面板按键功能耐久性自动测试系统平台。首先通过图像采集单元采集图像,然后由视觉算法检测并识别按键的功能和位置,最后将按键的像素坐标转换为机械臂坐标并通过RS485传输给机械臂,完成测试。
陈中舒[5](2021)在《基于改进深度卷积网络的焊后芯片标识高速识别方法研究》文中进行了进一步梳理智能制造的发展驱动了质量检测技术的高速演进,而芯片作为电子信息产业的关键产品,对智能化质量检测技术的工程需求迫切。其中,芯片表面标识的识别技术就具备较高的需求和应用价值。随着光学字符识别技术(Optical Character Recognition,OCR)逐渐深入工业领域,设计和实现适用于芯片相关制造场景的OCR方法,成为解决芯片标识识别问题的关键途径。当前,应用于产业中的芯片标识识别技术主要依赖于基于形态学的传统方法,这类方法所适用的产品范围有限,且对环境变化非常敏感。无论是传统的形态学方法还是近年出现的深度学习OCR方法,在应对复杂生产环境的芯片标识识别时都存在众多挑战。一方面是亮度过低、噪声高、分辨率差等图像质量问题;另一方面是芯片标识印刷模糊、外观多样性高、受到焊接材料干扰等产品自身特性带来的难点。为了克服这些挑战,本文开展了对基于改进深度卷积网络的芯片标识高速识别方法研究。论文主要研究内容和创新点如下:(1)提出了基于深度卷积网络的芯片图像预处理方法。预处理能够提升芯片图像质量,减少芯片图像中影响标识识别的干扰要素,使图像比处理前更适用于OCR算法。本文通过改进的光照增强算法克服了芯片图像低对比度和高噪声的问题,通过改进的图像分割算法去除焊后芯片图像中的干扰信息,并使用残差网络统一标识的排版方向。本文将上述算法整合为基于深度卷积网络的芯片图像预处理模块。实验证明,该模块能有效地弥补芯片图像的质量问题,降低芯片外观特性给OCR算法带来的干扰,经该模块处理后的图像在后置算法或模块中能产生更好识别效果。(2)提出了基于弱监督学习的标识字符提取方法。标识字符提取方法可以将有标识的芯片图像转换为单字符图像序列。本文设计了一种基于弱监督学习的文本检测算法,可有效降低对真实生产数据的标注成本。同时,本文针对标识印刷紧凑、尺寸过小的问题,提出了自适应边缘扩展填充算法和动态标签更新策略,用于提升训练标签生成的精准度。此外,本文提出了一种字符边界校正算法,进一步提升提取后字符边界的精准度。实验证明,该方法的字符提取召回率达到96.71%,具备较强的字符检出能力。(3)提出了基于深度卷积网络的标识单字符识别算法。本文针对标识单字符图像分辨率差、清晰度低、样本分布不平衡等问题,提出了芯片单字符图像数据扩增方法,即通过类别平衡和自适应色阶增强算法,进一步提高字符图像的可识别性和学习效果。通过对下采样过程和损失函数的优化,提出了基于卷积神经网络的标识字符识别算法。实验证明,标识单字符识别算法准确率达到99.52%,达到生产环境的理想水平。(4)实现了基于改进深度卷积网络的芯片字符标识识别系统。本文实现了上述设计的各类方法和算法,并整合为具有易部署性、易扩展性和易用性的芯片标识识别系统。对芯片标识识别系统的集成测试证明,本文提出的芯片标识识别方法在复杂生产环境下比常规的深度学习OCR算法更贴合芯片图像的特性,识别召回率达到93.98%,对多种外观芯片标识识别表现优秀的自适应能力。且在图像硬件加速的前提下,算法的运行速度达到20.81帧每秒,满足现有贴片工艺的生产节拍,符合生产环境的实际需求。
李贺香[6](2021)在《超分辨率重建在低质量文本图像识别上的应用》文中进行了进一步梳理图像是人们从客观世界获取信息的重要来源。然而,受环境以及成像设备的影响,获取的图像经常存在遮挡、扭曲、光照不均、边缘模糊等问题,导致图像中有效信息不能充分利用。这些低质量图像会给后续图像的处理,譬如图像中文本的定位与识别,带来很大的困难。目前基于深度学习算法的文本定位与识别算法在处理高质量图像时较传统的文档文本定位与识别技术有显着优势,但是在处理低质量的图像时,定位与识别效果仍然不理想。本文针对提高低质量图像的方法进行研究,通过超分辨率技术增大低质量文本的分辨率,以提高图像质量,为后续图像中文本定位与识别打好基础,使得文本定位更加准确,从而提高字符识别率。论文主要研究内容如下:(1)对比现有定位方法如EAST、CTPN等场景文本定位算法的优劣,选择CTPN作为文本定位方法,指出低质量图像识别任务中影响文本定位的原因并引入超分辨率重建算法。对比了超分辨率重建中VDSR(Very Deep Convolution Networks for Image Super-Resolution)、LapSRN(Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution)等多种常用网络模型结构,选取LapSRN模型作为本文的超分辨率重建模型。(2)为使LapSRN模型重点关注低质量图像的细节和边缘信息,采用空洞卷积和普通卷积级联的方式增大感受野,引入卷积块注意力机制,把不同层次的图像特征进行特征融合,充分提取低质量图像的特征信息,优化后的模型能够提高图像的主观视觉效果及峰值信噪比。(3)采用CRNN网络对低质量道路交通标识牌图像和低质量票据图像进行文本行端到端的字符识别。为了使方案具有更广泛的适用性,探究改进的超分辨率重建方法应用在四组不同识别率的纯英文文本图像上的识别效果。通过实验分析,该超分辨率算法可以应用在不同种类的、不同条件下产生的低质量图像上,具有广泛的应用性。
孙午凡[7](2020)在《基于OCR的过敏检查单识别》文中进行了进一步梳理过敏疾病作为全世界最常见的疾病之一,影响着人们的生命健康,治疗过敏必须先确定过敏原。当前绝大多数医疗机构通过点刺皮试的方式对过敏原进行检测,点刺皮试的检测方法需要通过体外注射多项过敏原,并由医护人员观察病患对每个过敏原的反应结果,填写电子过敏检测单,再通过人工录入医疗系统,最终形成过敏电子报告单。由于过敏原检测的项目众多,目前采用的手动录入医疗过敏检查单的方法存在工作效率低和录入过程中易出错的问题,随着需要处理的医疗过敏检查单的工作日益增多,对过敏检查单的识别需求越来越迫切。针对上述情况,本文设计了一种针对过敏检查单文档图像自动识别的系统模块,论文主要工作如下:第一,针对患者手机端上传文档图片可能存在的阴影干扰和光照不平衡等图像质量问题提出了解决方案。首先针对文档图像出现的阴影干扰,本文在滑动窗口多阈值二值化的基础上,引入二维OTSU算法计算最佳阈值分割点,并通过邻近像素点的阈值对当前像素分割阈值进行自适应修改,成功降低了二值化过程中的阴影干扰;针对由于打印设备、拍摄设备、外界光线等造成的文档对比度较低的问题,本文在自适应伽马变换的基础上,利用方差加权引导滤波Retinex算法代替传统的高斯滤波提取光照图像,再利用自适应的伽马函数对图像进行校正,实现了文档图像增强。第二,针对过敏检查单中手写数字的识别问题,本文在卷积网络的基础上,针对梯度消失的问题,引入残差模块,并通过增加残差块的卷积层宽度,提高模型的表达能力,实现了可用于过敏检查单手写数字识别的改进的残差网络,使其分类结果准确率到达98.1%;针对过敏检查单中手写过敏原英文单词识别问题,在CRNN神经网络的卷积网络上,引入残差模块,并采用SELU激活函数和批归一化来加速网络收敛和提高了模型的泛化能力,在循环网络中采用BiGRU代替BiLSTM,进一步增加了网络的收敛速度,在后处理部分加入字典查找和N-gram后处理策略,进一步提升模型识别的准确率,最终实现对手动填写的过敏原的识别。实验表明本方法对手写英文词汇的识别准确率达到64.9%。第三,在上述算法的基础上,本文设计了针对过敏检查单文档图像的识别系统模块,该模块可以自动对受阴影和光照影响的文档图像进行预处理来改善文档质量;并针对过敏检查单的排版情况,模块实现过敏检查单的自动版面分析方,从而可以对文档中的关键信息进行提取;基于本文所实现的手写数字识别和英文单词识别算法,该模块可以有效实现过敏检查单中固定和非固定项的识别,提升了过敏检查单生成效率。
张金涛[8](2020)在《票据号码信息识别算法的研究及系统实现》文中提出国内的票据是重要的会计记账及企业纳税凭证,具有严格的统一格式。很多企业的金融中心每日需要处理大量的票据信息,但人工处理效率低,为方便提取、存储与传输发票信息,急需自动化的票据处理系统来降低处理成本并提公司的运行效率。票据信息的处理是图像采集、图像预处理、字符分割识别的过程。将发票上的有效信息及时提取出来,能有效的解决人工处理时带来的工作量大和效率低的问题。本文以票据图像作为研究对象,通过研究复杂环境下的信息提取算法,实现票据信息的自动化识别,具体内容如下:(1)研究了光源的种类及其适用情况,给出了不同的目标特性和需求下的光源和照明选择方法,搭建了票据成像的硬件系统;(2)针对章码重叠无法识别的问题,研究了光线与成像介质颜色的关系,提出了单色光背面透射式的照明方案;针对获取的图像,提出了加权灰度化方法,提高了色光条件下的号码可分性;(3)利用先验信息快速实现了目标区域定位,提出了基于双向投影的渐进式号码定位方法,实现了单字符的准确分割;(4)提出了基于手写字的迁移学习方法,建立了票据号码的深度神经网络学习模型,实现了小样本下的发票号码的准确识别。在以上研究的基础上,本文开发的票据号码自动识别系统,通过实验验证,其识别的正确率能够达到94.9%,提高了发票自动化处理的水平。
王慧婷[9](2020)在《基于OCR技术的智能报账平台设计与实现》文中进行了进一步梳理费用报销是企业日常经营管理中必不可少的工作之一,在费用报销的过程中涉及大量原始凭证的流转以及报销单的填制,在大多企业中原始凭证由财务人员手工收集、整理,费用报销的审批过程中无法将原始凭证作为报销佐证参与审批,而报销单的填制繁琐,补助计算复杂,整个业务流转过程中极大的消耗人力物力。随着OCR技术的发展以及企业项目管理水平的不断提升,较多的领域在图像识别方面有所突破,利用OCR技术进行原始凭证如增值税发票的图像处理、识别进行有效信息的提取,并利用所提取的信息进行智能化自动填单,能有效提高前端业务人员以及财务人员的工作效率。本文对企业日常经营过程中的报销业务进行了需求分析,设计了一款基于OCR技术的智能报账平台。首先采用扫描仪对原始凭证进行扫描,对原始凭证图像进行图像归一化、图像旋转以及图像二值化等预处理;然后对已得到的二值图像进行形态学运算,之后通过连通域算法对图像进行版面分析,采用投影法进行字符分割以得到单个字符;最后采用SVM算法完成字符识别,采用Tesseract完成文字识别,成功提取原始凭证中的有效结构化信息。同时系统实现过程中使用SpringMVC+Hibernate框架,遵循软件工程方法论中的设计开发思想,给出了设计过程中关键技术点,实现了包含智能化填单功能、单据流程流转功能、财务处理功能以及查询统计功能的智能报账平台。
李沛原[10](2020)在《出租车发票信息识别算法的设计与实现》文中提出随着经济社会的快速发展,人们的物质生活也得到了极大的提高。在日常生活中的各种消费都会产生票据,这些票据可能来自乘坐出行工具返还的出租车发票,航空行程单,火车票等等。部分票据中的信息在企业报销时是很有价值的,其中出租车发票报销最为常见。因此,针对出租车发票信息设计识别算法具有较大的研究价值和意义。针对出租车发票信息识别这一问题,本文在第三章先从传统光学字符识别的方式设计了文本检测和识别的算法。利用最大稳定极值区域MSER和HSV定位算法完成了自然场景下票据区域的提取和出租车发票关键信息的定位。借助投影法进行精准切割,针对出租车发票专用的针式字体进行训练,生成针式字符集。最后调用Tesseract完成字符识别。在第四章中,本文采用近年来发展迅猛的深度学习技术,基于Tenserflow和Keras框架完成代码开发。搜集和标注了出租车发票训练集。经过多次迭代训练和调节网络参数,获得识别率高的模型。将CTPN与CRNN相结合,完成出租车发票关键信息所在区域的文本检测和端到端的识别。最后在第五章搭建了出租车发票信息识别系统,使用Python和pyQT5完成了系统工程的编码工作。系统能够满足出租车发票图片的上传和识别,具有一定的鲁棒性。本文基于Tesseract和深度学习两种方式设计出了适用于出租车发票的文本检测和识别算法。用Python搭建了系统并对两种识别算法进行封装。传统的Tesseract识别对出租车号、乘坐日期、乘坐时间和乘车金额的识别准确率分别为:64%、75%、71%和70%,整体的识别准确率为70%。采用CTPN检测文本区域的准确率能达到97%,采用CRNN识别出租车发票文本信息的准确率能达到83%。
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
| 摘要 |
| Abstract |
| 第1章 绪论 |
| 1.1 课题的研究背景及意义 |
| 1.2 图像文本识别方法研究现状 |
| 1.2.1 字符识别研究现状 |
| 1.2.2 单词识别研究现状 |
| 1.2.3 文本行识别研究现状 |
| 1.2.4 模型压缩研究现状 |
| 1.3 论文的研究内容及创新点 |
| 1.3.1 研究内容概述 |
| 1.3.2 主要创新点 |
| 1.4 论文的组织结构 |
| 第2章 基于语义分割的复杂场景字符识别方法 |
| 2.1 引言 |
| 2.2 相关技术简介 |
| 2.2.1 语义分割方法 |
| 2.2.2 类标编码方法 |
| 2.3 基于语义分割的字符识别模型 |
| 2.3.1 FCN-ResNet50模块 |
| 2.3.2 类五笔类标编码模块 |
| 2.3.3 CRF模块 |
| 2.3.4 损失函数 |
| 2.4 实验与分析 |
| 2.4.1 数据集 |
| 2.4.2 实验设置 |
| 2.4.3 对比的方法 |
| 2.4.4 CTW数据集的实验结果和分析 |
| 2.4.5 ICDAR2019-ReCTS数据集的实验结果和分析 |
| 2.4.6 HIT-OR3C数据集的实验结果和分析 |
| 2.5 本章小结 |
| 第3章 基于位置向量的无约束手写单词识别方法 |
| 3.1 引言 |
| 3.2 相关技术简介 |
| 3.2.1 长短期记忆网络 |
| 3.2.2 位置向量 |
| 3.3 基于位置向量的无约束单词识别模型 |
| 3.3.1 特征提取模块 |
| 3.3.2 位置向量 |
| 3.4 实验与分析 |
| 3.4.1 手写单词数据集 |
| 3.4.2 模型训练 |
| 3.4.3 实验结果 |
| 3.4.4 消融实验 |
| 3.4.5 识别样例分析 |
| 3.5 本章小结 |
| 第4章 基于自适应超图神经网络的手写文本行识别方法 |
| 4.1 引言 |
| 4.2 相关技术简介 |
| 4.2.1 图神经网络简介 |
| 4.2.2 超图神经网络简介 |
| 4.3 基于自适应超图神经网络的文本行识别模型 |
| 4.3.1 自适应超图的构建 |
| 4.3.2 通过HGNN进行特征-语义交互 |
| 4.3.3 序列识别 |
| 4.4 手写文本行识别的实验 |
| 4.4.1 手写文本行数据集与评价指标 |
| 4.4.2 实验设置 |
| 4.4.3 对比方法 |
| 4.4.4 实验结果 |
| 4.4.5 识别样例分析 |
| 4.5 多标签图像分类的扩展实验 |
| 4.5.1 优化 |
| 4.5.2 评价指标 |
| 4.5.3 多标签数据集 |
| 4.5.4 实验设置 |
| 4.5.5 对比方法 |
| 4.5.6 实验结果 |
| 4.5.7 消融实验 |
| 4.5.8 可视化与分析 |
| 4.6 本章小结 |
| 第5章 图像文本识别模型的全连接层压缩方法 |
| 5.1 引言 |
| 5.2 相关技术简介 |
| 5.3 基于参数共享的全连接层压缩方法 |
| 5.3.1 顺序分支结构 |
| 5.3.2 混洗分支结构 |
| 5.3.3 紧凑型网络参数压缩分析 |
| 5.4 实验与分析 |
| 5.4.1 模型压缩实验数据集 |
| 5.4.2 实验设置 |
| 5.4.3 实验对比方法 |
| 5.4.4 实验结果及分析 |
| 5.4.5 不同压缩模型结果对比 |
| 5.5 消融实验与分析 |
| 5.5.1 分支效果 |
| 5.5.2 压缩因子效果对比 |
| 5.5.3 训练和测试阶段的速度表现 |
| 5.5.4 PSFC和传统FC层的训练收敛性比较 |
| 5.5.5 可视化分析 |
| 5.6 本章小结 |
| 结论 |
| 参考文献 |
| 攻读博士学位期间发表的论文及其他成果 |
| 致谢 |
| 个人简历 |
| 摘要 |
| ABSTRACT |
| 第一章 绪论 |
| 1.1 背景及意义 |
| 1.2 国内外相关研究与发展现状 |
| 1.2.1 卡证检测 |
| 1.2.2 可见水印去除 |
| 1.2.3 光学字符识别 |
| 1.3 本文的主要研究内容 |
| 1.4 论文组织结构 |
| 第二章 相关技术分析 |
| 2.1 图像特征点匹配 |
| 2.1.1 图像特征点匹配概述 |
| 2.1.2 图像特征点匹配算法 |
| 2.2 生成式对抗网络 |
| 2.2.1 生成对抗网络 |
| 2.2.2 条件生成对抗网络 |
| 2.3 OCR识别引擎 |
| 2.3.1 Tesseract-OCR |
| 2.3.2 Paddle OCR |
| 2.4 本章小结 |
| 第三章 基于SIFT特征点匹配的卡证定位方法 |
| 3.1 证件定位方法概述 |
| 3.2 特征点检测算法对比实验 |
| 3.3 定位点选择算法 |
| 3.3.1 自定义模板图及特征点描述文档 |
| 3.3.2 速度优先定位点选择算法 |
| 3.3.3 精度优先定位点选择算法 |
| 3.4 证件定位实验设计 |
| 3.4.1 证件定位实时观测程序 |
| 3.4.2 实验结果分析 |
| 3.5 本章小结 |
| 第四章 基于条件生成对抗网络的卡证去水印方法 |
| 4.1 去水印总体方案 |
| 4.2 基于特征点匹配的可见水印检测 |
| 4.3 基于条件生成对抗网络的可见水印去除 |
| 4.3.1 去水印CGAN网络原理 |
| 4.3.2 CGAN成对训练集扩充方法 |
| 4.4 水印去除实验 |
| 4.5 本章小结 |
| 第五章 卡证文本的识别增强方法 |
| 5.1 字段细粒度提纯 |
| 5.1.1 异常字段的提取 |
| 5.1.2 印刷体清晰化处理 |
| 5.2 文字识别优化方法 |
| 5.2.1 字段存储结构设计 |
| 5.2.2 字段合并方法 |
| 5.2.3 Tesseract-OCR自定义手写数字语言包快速生成方法 |
| 5.2.4 黑白名单配置 |
| 5.3 本章小结 |
| 第六章 总结与展望 |
| 6.1 工作总结 |
| 6.2 展望 |
| 参考文献 |
| 攻读学位期间的研究成果目录 |
| 致谢 |
| 摘要 |
| Abstract |
| 1 绪论 |
| 1.1 研究背景与意义 |
| 1.2 国内外研究现状 |
| 1.2.1 传统方法识别 |
| 1.2.2 智能方法识别 |
| 1.3 本文主要研究内容及安排 |
| 2 基于深度学习的发票识别方案研究 |
| 2.1 引言 |
| 2.2 发票版面分析 |
| 2.3 总体方案设计 |
| 2.3.1 设计思路 |
| 2.3.2 总体框架 |
| 2.3.3 可行性分析 |
| 2.4 发票数据库构建 |
| 2.4.1 数据来源 |
| 2.4.2 数据预处理 |
| 2.5 本章小结 |
| 3 发票数据库扩充算法研究 |
| 3.1 引言 |
| 3.2 发票字符特征分析 |
| 3.3 传统数据增强算法研究 |
| 3.3.1 数据增强算法 |
| 3.3.2 仿真结果与分析 |
| 3.4 改进深度生成对抗网络算法研究 |
| 3.4.1 生成对抗网络 |
| 3.4.2 深度卷积生成对抗网络 |
| 3.4.3 改进深度生成式对抗网络 |
| 3.4.4 仿真结果与分析 |
| 3.5 数据增强算法仿真与对比 |
| 3.5.1 实验环境配置 |
| 3.5.2 生成样本性能评价 |
| 3.5.3 扩充后更新数据集 |
| 3.6 本章小结 |
| 4 基于深度学习的发票字符识别算法分析 |
| 4.1 引言 |
| 4.2 卷积神经网络的算法研究 |
| 4.3 基于卷积神经网络的发票识别方法 |
| 4.3.1 基于AlexNet网络的发票识别训练 |
| 4.3.2 基于VGGNet网络的发票识别训练 |
| 4.3.3 基于ResNet网络的发票识别训练 |
| 4.4 发票数据集识别仿真验证 |
| 4.4.1 实验环境配置 |
| 4.4.2 算法仿真结果及对比 |
| 4.5 本章小结 |
| 5 基于改进AlexNet的发票字符识别算法研究 |
| 5.1 引言 |
| 5.2 改进AlexNet算法研究 |
| 5.2.1 卷积核尺寸改进 |
| 5.2.2 特征映射通道改进 |
| 5.2.3 特征权重方式改进 |
| 5.3 网络参数训练 |
| 5.3.1 Batch size选取 |
| 5.3.2 学习率选取 |
| 5.3.3 Dropout选取 |
| 5.4 发票数据集识别仿真验证 |
| 5.4.1 改进AlexNet性能仿真分析 |
| 5.4.2 传统AlexNet的受损数据集仿真 |
| 5.4.3 改进AlexNet的受损数据集仿真 |
| 5.5 本章小结 |
| 6 结论与展望 |
| 6.1 总结 |
| 6.2 展望 |
| 参考文献 |
| 攻读硕士学位期间发表的论文及成果 |
| 致谢 |
| 摘要 |
| abstract |
| 中英文缩写对照表 |
| 第一章 绪论 |
| 1.1 研究背景及意义 |
| 1.2 国内外研究现状 |
| 1.2.1 文本检测方法 |
| 1.2.2 字符分割技术 |
| 1.2.3 字符识别技术 |
| 1.3 本文的主要工作与创新 |
| 1.4 本文的结构安排 |
| 第二章 相关理论及技术 |
| 2.1 卷积神经网络 |
| 2.1.1 基本原理 |
| 2.1.2 损失函数 |
| 2.1.3 激活函数 |
| 2.1.4 优化器 |
| 2.2 Two-stage目标检测算法 |
| 2.2.1 R-CNN |
| 2.2.2 Fast R-CNN |
| 2.2.3 Faster R-CNN |
| 2.3 本章小结 |
| 第三章 场景字符识别算法的研究 |
| 3.1 场景文本目标检测算法 |
| 3.1.1 算法框架 |
| 3.1.2 特征强化块的提出 |
| 3.1.3 U型网络结构设计 |
| 3.2 基于投影法的字符分割 |
| 3.3 基于CNN的字符识别 |
| 3.4 本章小结 |
| 第四章 按键功能耐久性自动测试系统的设计 |
| 4.1 系统的总体设计 |
| 4.2 硬件平台设计与搭建 |
| 4.2.1 图像采集单元的确定 |
| 4.2.2 机械臂的确定 |
| 4.2.3 硬件平台搭建 |
| 4.3 软件平台搭建及工作流程 |
| 4.4 机械臂手眼标定 |
| 4.4.1 单目相机畸变矫正 |
| 4.4.2 九点标定 |
| 4.5 本章小结 |
| 第五章 实验及结果分析 |
| 5.1 数据集的建立和预处理方法 |
| 5.1.1 数据集的构成 |
| 5.1.2 数据增强 |
| 5.2 评价标准 |
| 5.3 实验结果与分析 |
| 5.3.1 场景文本目标检测算法对比试验 |
| 5.3.2 特征强化块的消融实验 |
| 5.3.3 基于CNN的字符识别实验 |
| 5.4 本章小结 |
| 第六章 总结与展望 |
| 6.1 总结 |
| 6.2 工作展望 |
| 致谢 |
| 参考文献 |
| 攻读硕士学位期间取得的成果 |
| 摘要 |
| abstract |
| 第一章 绪论 |
| 1.1 研究背景与意义 |
| 1.2 国内外研究现状 |
| 1.2.1 文本检测 |
| 1.2.2 文本识别 |
| 1.2.3 芯片标识OCR算法 |
| 1.3 论文研究内容 |
| 1.4 论文主要结构 |
| 第二章 基于深度卷积网络的芯片图像预处理方法 |
| 2.1 卷积神经网络相关概念 |
| 2.2 基于多级区域曝光控制的芯片图像光照增强算法 |
| 2.3 基于深度学习的图像分割网络 |
| 2.3.1 全卷积网络 |
| 2.3.2 编码—解码结构分割模型 |
| 2.3.3 Deep Lab分割模型 |
| 2.4 基于图像分割的芯片图像去干扰算法 |
| 2.4.1 标签和网络设计 |
| 2.4.2 边界定位和冗余抑制 |
| 2.5 芯片标识方向识别与修正算法 |
| 2.5.1 残差结构 |
| 2.5.2 方向修正 |
| 2.6 图像预处理模块实验 |
| 2.6.1 数据集和测试环境 |
| 2.6.2 图像预处理模块算法效用分析 |
| 2.7 本章小结 |
| 第三章 基于弱监督学习的芯片标识字符提取方法 |
| 3.1 算法框架 |
| 3.2 基于弱监督学习的文本检测网络 |
| 3.2.1 弱监督学习 |
| 3.2.2 文本检测网络 |
| 3.3 弱监督学习的标签生成方法 |
| 3.3.1 数据准备 |
| 3.3.2 字符级伪标签生成 |
| 3.3.3 自适应边缘扩展填充算法 |
| 3.3.4 动态标签更新策略 |
| 3.4 边界生成和校正算法 |
| 3.4.1 带标记的分水岭算法 |
| 3.4.2 基于掩码的字符边界校正 |
| 3.5 字符区域空间排序算法 |
| 3.6 算法对比与分析 |
| 3.6.1 评价指标 |
| 3.6.2 标签生成算法对比与分析 |
| 3.6.3 边界校正算法对文本检测效果的影响 |
| 3.6.4 芯片分割对文本检测的影响 |
| 3.6.5 方向修正对文本检测的影响 |
| 3.7 本章小结 |
| 第四章 基于深度卷积网络的芯片标识单字符识别算法 |
| 4.1 芯片标识字符图像增强 |
| 4.1.1 字符类别平衡 |
| 4.1.2 自适应色阶增强 |
| 4.2 单字符图像识别网络设计 |
| 4.2.1 网络结构设计 |
| 4.2.2 空间金字塔池化 |
| 4.2.3 大间距Softmax损失函数 |
| 4.2.4 预训练和迁移 |
| 4.3 芯片标识单字符识别算法实验 |
| 4.4 本章小结 |
| 第五章 芯片标识识别系统的实现和性能验证 |
| 5.1 芯片标识识别系统设计 |
| 5.1.1 识别系统的逻辑结构设计 |
| 5.1.2 标识识别系统的模块化实现 |
| 5.2 芯片标识识别系统集成实验 |
| 5.2.1 编辑距离 |
| 5.2.2 标识字符识别系统和深度学习OCR方法对比 |
| 5.2.3 字符边界校正对标识识别系统性能的影响 |
| 5.3 基于芯片标识识别系统的贴片标识检测系统实现 |
| 5.3.1 贴片标识检测判别规则设计 |
| 5.3.2 贴片质量的实时监测应用 |
| 5.3.3 贴片质量的数据统计应用 |
| 5.4 本章小结 |
| 第六章 总结与展望 |
| 6.1 全文总结 |
| 6.2 后续展望 |
| 致谢 |
| 参考文献 |
| 攻读硕士学位期间取得的成果 |
| 摘要 |
| Abstract |
| 第1章 绪论 |
| 1.1 课题背景 |
| 1.2 国内外研究现状 |
| 1.2.1 图像超分辨率重建研究现状 |
| 1.2.2 文本定位及字符识别研究现状 |
| 1.3 本文的研究内容 |
| 第2章 图像文本定位及超分辨率重建模型选择 |
| 2.1 常用文本定位 |
| 2.1.1 EAST算法 |
| 2.1.2 CTPN算法 |
| 2.1.3 文本定位实验结果 |
| 2.2 图像超分辨率模型 |
| 2.2.1 超分辨率重建模型选择 |
| 2.2.2 客观评价指标 |
| 2.2.3 LapSRN算法及不足 |
| 2.3 本章小结 |
| 第3章 LapSRN图像超分辨率算法优化 |
| 3.1 改进重建算法的整体结构 |
| 3.2 改进重建算法的原理及内容 |
| 3.2.1 空洞卷积 |
| 3.2.2 卷积块注意力机制 |
| 3.2.3 改进算法网络结构的组成 |
| 3.3 实验过程及结果 |
| 3.3.1 训练集及数据集扩充 |
| 3.3.2 实验配置 |
| 3.3.3 实验结果对比及分析 |
| 3.4 低质量图像超分辨率重建 |
| 3.5 低质量图像的文本定位实验 |
| 3.6 本章小结 |
| 第4章 低质量图像的文本识别 |
| 4.1 低质量图像数据集 |
| 4.2 文本识别算法 |
| 4.3 低质量图像文本识别 |
| 4.3.1 低质量票据图像的文本识别 |
| 4.3.2 低质量道路交通标识图像的文本识别 |
| 4.3.3 纯英文文本图像的文本识别 |
| 4.4 本章小结 |
| 结论 |
| 参考文献 |
| 攻读硕士学位期间发表的学术论文及获得成果 |
| 致谢 |
| 摘要 |
| ABSTRACT |
| 符号对照表 |
| 缩略语对照表 |
| 第一章 绪论 |
| 1.1 研究背景 |
| 1.2 OCR研究现状 |
| 1.2.1 OCR |
| 1.2.2 OCR预处理研究进展 |
| 1.2.3 OCR检测与识别研究进展 |
| 1.2.4 OCR工业产品 |
| 1.3 OCR发展存在的问题及本文内容 |
| 1.3.1 OCR存在的问题 |
| 1.3.2 主要研究的内容 |
| 1.3.3 论文结构安排 |
| 第二章 预处理相关理论及技术 |
| 2.1 OCR预处理流程 |
| 2.2 图片几何矫正方法 |
| 2.2.1 图像几何矫正 |
| 2.2.2 图像扭曲矫正算法 |
| 2.2.3 图像倾斜矫正算法 |
| 2.2.4 图像透视矫正算法 |
| 2.3 文档字符分割 |
| 2.3.1 文档分割 |
| 2.3.2 投影分割算法 |
| 2.4 版面分析 |
| 2.4.1 版面分析 |
| 2.4.2 轮廓跟踪算法 |
| 2.5 本章小结 |
| 第三章 低质文档预处理算法优化 |
| 3.1 自适应阴影处理理论基础 |
| 3.1.1 图像自适应二值化 |
| 3.1.2 OTSU算法 |
| 3.1.3 二维OTSU算法 |
| 3.2 改进自适应二值化 |
| 3.2.1 滑动窗口二维OTSU |
| 3.2.2 阈值修正 |
| 3.3 自适应伽马变换理论 |
| 3.3.1 伽马变换 |
| 3.3.2 自适应伽马变换 |
| 3.3.3 引导滤波 |
| 3.3.4 方差加权引导滤波 |
| 3.4 改进的自适应伽马变换 |
| 3.5 实验 |
| 3.5.1 实验环境 |
| 3.5.2 实验及结果 |
| 3.6 本章小结 |
| 第四章 OCR手写体识别 |
| 4.1 OCR手写体数字识别模型 |
| 4.1.1 Alexnet |
| 4.1.2 随机森林 |
| 4.1.3 GoogLeNet网络 |
| 4.2 改进的残差网络OCR手写数字识别模型 |
| 4.2.1 残差网络 |
| 4.2.2 改进的残差数字识别模型 |
| 4.3 CRNN网络模型 |
| 4.3.1 CRNN模型 |
| 4.3.2 卷积网络和循环网络 |
| 4.3.3 转录层网络 |
| 4.4 改进的CRNN网络模型 |
| 4.4.1 卷积网络设计 |
| 4.4.2 循环网络设计 |
| 4.5 字典检测后处理 |
| 4.6 实验结果 |
| 4.6.1 实验环境 |
| 4.6.2 实验及结果 |
| 4.7 本章小结 |
| 第五章 过敏检查单识别模块设计 |
| 5.1 医疗过敏检查单识别问题分析 |
| 5.2 过敏检查单识别的整体框架 |
| 5.3 过敏检查单固定项设计 |
| 5.3.1 固定项数字识别模型框架 |
| 5.3.2 风团大小和过敏结果识别设计 |
| 5.4 过敏检查单非固定项设计 |
| 5.4.1 手动添加项识别模型框架 |
| 5.4.2 手写过敏原设计 |
| 5.5 模块测试 |
| 5.6 本章小结 |
| 第六章 总结与展望 |
| 6.1 本文总结 |
| 6.2 展望 |
| 参考文献 |
| 致谢 |
| 作者简介 |
| 摘要 |
| Abstract |
| 第1章 绪论 |
| 1.1 研究背景及意义 |
| 1.2 票据处理相关技术研究现状 |
| 1.2.1 视觉照明技术发展现状 |
| 1.2.2 发票图像预处理的研究现状 |
| 1.2.3 OCR识别技术研究现状 |
| 1.2.4 票据处理系统的研究现状 |
| 1.3 本文研究重点 |
| 1.4 本文的结构 |
| 第2章 票据成像光路设计及平台搭建 |
| 2.1 票据图像处理系统的结构设计 |
| 2.2 发票成像系统的光路设计 |
| 2.2.1 光源选择 |
| 2.2.2 照明设计 |
| 2.3 章码层叠的发票光照方案 |
| 2.3.1 正向照射 |
| 2.3.2 反向透射 |
| 2.3.3 光照方案 |
| 2.4 发票图像处理平台的搭建 |
| 2.4.1 成像硬件选型 |
| 2.4.2 平台搭建 |
| 2.5 本章小结 |
| 第3章 发票识别码区域定位 |
| 3.1 发票表面信息分析 |
| 3.1.1 纸张分析 |
| 3.1.2 版面区域分析 |
| 3.1.3 版面内容分析 |
| 3.2 发票图像的预处理 |
| 3.2.1 发票图像倾斜校正 |
| 3.2.2 发票图像二值化 |
| 3.3 基于相对关系的目标区域定位 |
| 3.4 本章小结 |
| 第4章 发票号码的字符分割 |
| 4.1 目标区域加权灰度化 |
| 4.2 基于双向投影的字符分割 |
| 4.2.1 基于纵向投影的号码区域定位 |
| 4.2.2 基于横向投影的字符分割 |
| 4.3 本章小结 |
| 第5章 发票号码的自动识别 |
| 5.1 基于浅层神经网络的识别 |
| 5.1.1 字符特征提取 |
| 5.1.2 基于Relief F方法的特征评价 |
| 5.1.3 基于三层网络的字符识别 |
| 5.2 基于深度学习的发票号码的识别 |
| 5.2.1 深度网络构建 |
| 5.2.2 基于自建平台的深度网络训练 |
| 5.2.3 基于迁移学习的发票号码识别 |
| 5.3 本章小结 |
| 第6章 总结与展望 |
| 6.1 总结 |
| 6.2 展望 |
| 致谢 |
| 参考文献 |
| 附录1 攻读硕士学位期间发表的论文 |
| 附录2 攻读硕士学位期间参加的科研项目 |
| 摘要 |
| Abstract |
| 变量注释表 |
| 1 绪论 |
| 1.1 研究背景及意义 |
| 1.2 课题研究现状 |
| 1.3 论文主要内容及结构安排 |
| 1.4 本章小结 |
| 2 系统需求分析 |
| 2.1 系统概述 |
| 2.2 需求分析 |
| 2.3 本章小结 |
| 3 系统设计 |
| 3.1 系统架构设计 |
| 3.2 系统功能设计 |
| 3.3 数据库设计 |
| 3.4 系统集成设计 |
| 3.5 本章小结 |
| 4 图像处理及字符分割 |
| 4.1 图像预处理 |
| 4.2 形态学处理 |
| 4.3 图像版面分析 |
| 4.4 字符分割 |
| 4.5 本章小结 |
| 5 字符识别 |
| 5.1 基于SVM的数字及字母识别 |
| 5.2 基于Tesseract的文字识别 |
| 5.3 实验结果分析 |
| 5.4 本章小结 |
| 6 系统实现 |
| 6.1 客户端接口实现 |
| 6.2 服务端接口实现 |
| 6.3 关键问题的技术解决 |
| 6.4 非功能技术实现 |
| 6.5 系统实现效果 |
| 6.6 本章小结 |
| 7 总结与展望 |
| 7.1 总结 |
| 7.2 展望 |
| 参考文献 |
| 作者简历 |
| 致谢 |
| 学位论文数据集 |
| 摘要 |
| ABSTRACT |
| 第一章 绪论 |
| 1.1 研究背景及意义 |
| 1.2 研究现状 |
| 1.2.1 出租车发票识别的研究现状 |
| 1.2.2 出租车发票识别存在的难题 |
| 1.2.3 深度学习的研究现状 |
| 1.3 课题任务 |
| 1.3.1 课题内容 |
| 1.3.2 本人承担的任务 |
| 1.4 论文结构 |
| 第二章 相关研究综述 |
| 2.1 简介 |
| 2.2 OCR核心知识介绍 |
| 2.2.1 数字图像处理技术 |
| 2.2.2 图像二值化研究 |
| 2.2.3 倾斜校正技术研究 |
| 2.3 卷积神经网络介绍 |
| 2.3.1 卷积神经网络概述 |
| 2.3.2 卷积神经网络构成 |
| 2.3.3 VG GNet |
| 2.4 文本检测算法研究 |
| 2.5 文本识别算法研究 |
| 2.6 本章小结 |
| 第三章 基于Tesseract的出租车发票识别算法 |
| 3.1 简介 |
| 3.2 数据源获取与预处理 |
| 3.2.1 预处理流程介绍 |
| 3.2.2 MSER场景检测发票 |
| 3.2.3 仿射变换矫正 |
| 3.2.4 基于HSV定位文本 |
| 3.3 图像文本定位和切割 |
| 3.3.1 字符检测算法概述 |
| 3.3.2 投影法切割字符 |
| 3.4 Tesseract训练和识别 |
| 3.4.1 针式字体训练 |
| 3.4.2 字符分类器识别 |
| 3.5 本章小结 |
| 第四章 基于深度学习的出租车发票识别算法 |
| 4.1 简介 |
| 4.2 数据集介绍 |
| 4.2.1 数据标注 |
| 4.2.2 实验数据集 |
| 4.3 框架及加速工具介绍 |
| 4.3.1 CUDA和cuDNN |
| 4.3.2 深度学习框架 |
| 4.4 实验环境 |
| 4.5 基于CTPN的文本检测算法 |
| 4.5.1 网络结构设计 |
| 4.5.2 垂直锚点机制 |
| 4.5.3 边缘细化和文本线构造 |
| 4.5.4 实验设计及模型训练 |
| 4.5.5 实验结果分析 |
| 4.6 基于CRNN的文本识别算法 |
| 4.6.1 网络结构设计 |
| 4.6.2 Bi-LSTM提取上下文特征 |
| 4.6.3 CTC解码机制 |
| 4.6.4 实验设计及模型训练 |
| 4.6.5 实验结果分析 |
| 4.7 本章小结 |
| 第五章 出租车发票信息识别系统的设计与实现 |
| 5.1 简介 |
| 5.2 系统需求分析 |
| 5.2.1 可行性需求分析 |
| 5.2.2 功能需求分析 |
| 5.2.3 非功能需求分析 |
| 5.3 系统概要设计 |
| 5.3.1 系统架构设计 |
| 5.3.2 系统功能模块设计 |
| 5.3.3 系统实现关键技术 |
| 5.4 系统详细设计 |
| 5.4.1 发票RoI区域截取模块 |
| 5.4.2 倾斜矫正模块 |
| 5.4.3 关键信息定位模块 |
| 5.4.4 文本检测模块 |
| 5.5 系统测试 |
| 5.5.1 系统测试环境 |
| 5.5.2 系统功能测试 |
| 5.5.3 系统非功能测试 |
| 5.6 本章小结 |
| 第六章 总结与展望 |
| 6.1 论文工作总结 |
| 6.2 未来工作展望 |
| 参考文献 |
| 致谢 |