更新记录
注意!请拒绝使用任何第三方插件使用百度OCR服务 使用第三方非法插件会导致您的 AK / SK 泄露,导致别人可以盗用您的账户进行任意消费! 切勿使用任何第三方插件! 因此导致的账号泄露、恶意消费,请用户自行承担责任。如果您已经使用了相关的插件,建议您立即删除对应appid、更换账户密码、更新所有appid的token,或更换账号! 产品介绍iOCR自定义模板文字识别是一款可以针对固定版面票据、卡证实现自动分类并实现字段名和字段值对应提取的OCR产品。 名词解释
模板制作步骤总体步骤:
上传模板图片点击进入产品页面: ai.baidu.com/iocr ,点击“创建模板”后上传一张清晰且摆放端正的模板图片,并对模板进行命名。 框选参照字段填写完模板名称之后,点击「框选参照字段」标签,使用鼠标在模板图片中框选图片中内容和位置都固定不变的文字,如下图所示的橘色矩形框选区域。
框选识别区点击「框选识别区」标签后鼠标默认启用识别区框选工具。例如单据中常见的日期。此时需要您把日期值所在的区域使用识别区框选工具框选出来,然后在右侧填写这个字段对应的字段名。 如图:蓝色矩形框选的为固定识别区 保存之后试一试点击“保存”之后,选择试一试进行在线测试,如果对效果满意即可发布上线。如果发布之后对想回滚到之前的版本,可以在“修改历史”里选择对应版本进行回滚。 发布模板如果觉得识别效果已经符合要求,可以点击下方的发布按钮进行发布操作;如果觉得效果不好,可以继续编辑/调整模板,然后保存后再测试。注意:只有发布后的模板才能在线上进行接口调用和后期的分类操作。如果没有发布,那么仅仅是生成了一个新的版本,此时对模板的任何修改都不会影响线上调用。 发布页面中提示的模板ID也可以在自定义模板管理页查询到,也就是管理页的templateSign 线上接口会用到模板ID【templateSign】。接口文档参见此处,当然您可能还有很多其他疑问,建议您可以参考自定义模板文字识别Q&A,或者在论坛发布您的问题,甚至您可以直接加入我们QQ群(群号:570832882),直接找到我们的产品经理、研发同学和运营同学来咨询问题。 高级功能“带表格区域”模板的制作功能:对票据中的表格按行列返回每个单元格中的内容。 通过上面的阅读您已经可以制作相对简单的模板,接下来演示一个带有表格识别区的复杂模板: 表格识别区可以针对图像中的表格按行列返回单元格中的值。点击工具栏从左往右第二个小图标,弹出小框,输入表格的列数。例如本例中的表格共有三列,则输入3,点击插入 将左上角蓝色的表格识别区拖到模板图片上表格区域,通过调整顶点、分割线的小白点对识别区进行调整,直至每一列识别区覆盖每一列数据。同时请注意表格识别区覆盖的是表格内容!「不包括表头」 模板自动分类功能功能:让系统匹配票据的模板,无需在调用前指定模板ID,替代人工对票据进行分类 很多客户使用自定义模板文字识别定制了大量模板,但是需要人工先对各类票据进行分类,再选择对应的模板进行结构化识别。为了节省用户票据分类的成本,我们加入了模板自动分类功能,客户在“分类器管理”标签中可以针对所有的自定义模板和百度平台已有的系统模板(如身份证、银行卡、驾驶证等)创建分类器,实现模板的自动分类。 创建分类器点击“分类器管理”标签进入管理页面,点击“创建分类器”后输入分类器名称和该分类器的应用场景/功能描述后点击确定进入编辑页面。 选择参与分类的模板需要分类的模板分为“我的模板”和“系统模板”,我的模板指客户在自定义模板文字识别中创建的模板,系统模板指百度官网预置的模板(包含了:身份证正面、身份证反面、银行卡、驾驶证、行驶证、车牌、营业执照、护照、增值税发票)。客户可以根据业务需要添加模板参与分类。 上传对应模板的训练集参与分类的如果是百度预置的模板您无需上传训练集,如果参与分类的是您自己制作的模板则需要您准备30到100张同模板的票据打包成ZIP包以后点击“编辑训练集”上传该训练集。当所有的自定义模板都已经上传了符合要求(30到100张、同模板)的训练集后点击“开始训练”。您可以在分类器管理页面查看预计完成的时间并通过刷新查看当前状态。(上传的训练集不会影响模板识别的结果,但是会通过影响分类准确率影响最终的识别结果) 请保证后期分类的图片和训练集中的图片类型(都是扫描件/都是拍照件)、照片质量、拍摄情况尽可能一致,训练集图片越接近后期使用图片,分类效果越好! 训练完成后进行效果测试当您的分类器训练完成后您可以在分类器管理页面点击“测试”上传图片进行分类测试,如果测试结果没有问题点击“发布”即可通过API调用该接口,参数classifierId指定某个已发布的分类器,即可实现该分类器中任意模板的自动识别。如果对分类结果不满意,建议检查训练集数据中是否包含了较多噪声数据,或尝试增加训练集内的图片数量。 自定义字段类型功能:针对某些字段的输出值是有限集合的情况,通过用户上传字段词典,让系统智能纠正匹配,提高准确率,如婚姻状况、全国省市、教育情况。 创建字段类型在顶部【字段类型管理】中点击【创建字段类型】,输入名称后点击【上传词典】上传txt词典文档,词典中不同字段值各占一行。 如果您的字段为:中国地市县名称、省份名称、中国民族,您可以点击【添加预置类型】,百度已经为您准备好对应的词典文件,直接点击添加后,即可在模板制作时选用。百度也将不断丰富预置词典类型,方便您使用。 制作模板时选用在制作模板时,当您框选完识别区以后,可以在对应识别区的“字段类型”中找到“我的字段类型”并选择对应类型。这样在识别后我们会根据识别到的结果智能纠正为词典中最接近的词作为结果输出。 请求说明请求示例 HTTP 方法: 请求URL: URL参数:
Header如下:
Body中放置请求参数,参数详情如下: 请求参数
请求代码示例 请参考通用文字识别(含位置信息版)的代码内容,并更换请求地址。 返回说明返回参数
返回示例
Q&AQ:什么是自定义模板文字识别?什么场景下我该使用这个产品?A:自定义模板文字识别是一款您可以针对各种票据、卡证实现字段名和字段值对应提取的OCR产品;举例:当您需要识别某一种证件(比如房产证),但是百度官方还没有针对这种类型的证件推出具体的模板识别接口,而使用通用文字识别无法实现字段名和字段值对应化的提取,这种情况下您可以使用自定义模板文字识别产品,实现结构化的数据提取。 Q:产品实现的原理是什么?A:基本原理:如果您要识别特定的一类具有固定格式的文档,首先上传一张票据、卡证的图片作为模板(用于制作模板的图片要求摆放端正、平整,拍摄时避免过曝,阴影等不良情况),然后在模板上框选一些固定的字段作为【参照字段】。后续调用识别接口时,会将新上传的图片以【参照字段】为锚点扭正到和模板图片一致。最后框选需要识别的区域作为【识别区】,框选后在右侧给该识别区命名,点击保存,这便完成了一个模板的制作。 Q:自定义模板文字识别支持哪些浏览器?A:推荐使用Chrome(版本58及以上),暂时不支持Safari。 Q:上传的图片有大小限制吗?上传什么样的图片效果会比较好?A:上传用于模板制作的图片,最大:小于等于4M,且分辨率小于等于4096像素乘4096像素,最小:大于等于15像素乘15像素且大于等于1KB,后期上传识别的图片最大:大小不超过4M,且分辨率小于等于4096像素乘4096像素,最小:大于等于15像素乘15像素且大于等于1KB。 为了保证更好的效果,建议模板图片:
Q:我该怎么使用自定义模板文字识别?A:首先您需要制作您的模板,在Chrome中打开 ai.baidu.com/iocr 进入模板管理界面,此时需要您首先登陆百度账号(和您的百度网盘、百度贴吧、百度文库等百度系产品通用),进入后点击创建模板,进入模板编辑界面,首先您需要给您的模板进行命名,然后点击左侧编辑框中的按钮上传模板图片(模板图片要求端正、清晰),然后框选字段值,框选后在右侧对应位置填写字段名,全部框选完后点击右侧“参照字段”标签,在图中框选参照字段(要求参见下一条Q&A),完成后点击保存,则您已经制作完您的模板,此时您可以点击“发布”按钮,把次模板发布到线上环境(保存只是保存修改记录,不会实时生效,发布后您的所有操作才会生效),然后您可以参照文档中的“请求说明”上传图片,并制定templateSign(模板标识),来指定上传的图片使用该模板。 Q:模板制作过程中怎么进行图片的缩放?A:可以使用工具栏中的放大缩小工具,或使用鼠标滚轮,或使用触摸板(如果您的设备具有触摸板)进行双指缩放。 Q:什么是参照字段,选取时有什么注意点?A:为了将您后期上传的图片矫正成和您模板图片以在同样的位置区间寻找关键值,您需要在制作模板的时候在“参照字段”标签页下框选至少4个(推荐框选8个以上)的参照字段,参照字段的选取需要点击编辑模板界面右上角工具栏中的“设置参照字段”工具,然后在图上拖动选取固定文字。 框选时有一些注意点:
Q:框选参照字段的时候发现识别错了,可以纠正吗?A:可以的,您可以点击参照字段后面的编辑按钮,对参照字段进行人工纠正,输入正确的文字内容。修改正确参照字段的内容有助于提升后期模板匹配效果。纠正的规则是: -不能添加/删除超过两个字符,并且如果您框选的参照字段范围比较小,无法放下新增的两个字符,则您需要适当扩大该参照字段的框选范围 -跨行的参照字段无法编辑,请先改为框选单行文字 -不能将参照字段内容删除为空 Q:框选识别区时有什么办法可以提高准确率?A:如果您选择的识别区内容正好为以下表格中的某一项,您可以选择对应的字段类型来提升识别效果:
Q:在框选字段值/框选参照字段的时候不小心多点击增加了一个错误的选择框,应该怎么删除?A:可以点击右侧的“识别区”/“参照字段”下面对应字段后的X按钮进行删除。 Q:有些识别区容易漏字、识别不准怎么办?A:在对应识别区的“字段类型”中选择“数字/英文/符号混合”可以提高该字段的识别效果。 Q:保存和发布是什么关系/发布是用来干嘛的?A:考虑到很多用户会把自己制作的模板使用到业务中去,所以为了尽可能的保证您业务的连续性,我们的模板编辑完后点击保存时只是把您的编辑操作保存到云端,此时,您线上使用的模板还是您之前的模板,直至您对刚才的模板进行发布操作。举例:您在2月1日生成了A模板,并点击发布,此时您调用这个接口时是使用的2月1日的A模板,然后您在3月1日对模板进行了修改,点击了保存,此时您在3月1日的所有编辑操作都已经保存在云端,但是您线上使用的模板仍然是2月1日的A模板,如果您需要使用3月1日的模板去替换2月1日的版本,您需要对3月1日编辑过的A模板进行发布操作,当您点击发布以后,您调用这个接口使用的将会是3月1日编辑的A模板。 Q:修改历史是什么?/我能回退到之前某个版本吗?A:点击“修改历史”右侧的小箭头即可展开这个模板的版本记录,版本记录从新到旧列出了您针对这个模板修改的各个版本,您可以点击对应版本右侧的“退回到此刻”来将模板回退到当时那个版本,您框选的取值范围、参照字段都会回退到当时版本的设置,但是您的模板名字不会因此回退。 Q:制作完模板以后我可以给模板改名字吗?回退到其他版本的时候名字也会回退吗?A:您可以在模板编辑页面随时修改您的名字,修改完名字以后需要您点击保存,此时会生成一个新的版本;在您回退到过去的某个版本的时候模板名字不会回退。 Q:分类时是否数据越多越好?A:不一定,我们建议您每个模板提供30张同模板的训练集,如果您训练图片较丰富可以提供100张以下的图片,每张图片建议不超过500kb,选择的图片要尽量覆盖到使用的场景。同时更多的图片会导致训练时间加长。 Q:分类的细粒度大概是什么样的?A:现在分类的细粒度为视觉元素层面有较明显的区分的图片,如身份证、银行卡、户口本这些人类能快速区分开的卡证、票据。但是无法做到需要根据文字内容来进行区分的地步,如:无法区分北京增值税专票和天津增值税专票。 Q:分类时训练数据不很是很多,能否用同一张照片PS处理成多张不同的图片来进行训练?A:非常不建议您这么做。这样拟合出来的分类器模型没有很强的泛化能力,分类的准确性会大幅下降。我们还是建议您使用真实场景中需要分类的数据进行训练。 Q:为什么训练以后显示准确率100%,但是还会有分类错误的情况呢?A:界面上显示的分类器的准确率预估是基于少量测试图片得出的结论,只代表在该测试集下的准确率。 Q:训练完的分类器预测的准确率不高是什么原因?A:主要是训练数据的问题,包括: 1.某个模板的训练集中混杂了其他类型的图片; 2.训练集数据较少或过于单一没有很好覆盖全实际场景; 3.需要分类的不同模板区别不明显,如北京增值税专票和天津增值税专票 针对上述情况的解决方案如下: -1.检查每个模板的训练集,确保训练集中的图片属于同一个模板; -2.增加训练集中的图片数量,尽量覆盖实际使用时可能会遇到的场景; -3.只是文字内容级别的不同模板建议使用通用文字识别的结果作为参考进行分类。 Q:如果检查分类训练数据无误后,还是分类不准确,怎么办?A:请加入QQ群,联系我们,群号570832882。在群里有专门的同学负责回答自定义模板文字识别的问题,到时候具体问题具体分析。 |
|
来自: 昵称QAb6ICvc > 《网页制作》