OCR产品信息:
新版功能改进:
清华TH-OCR2000千禧专业版功能改进:
1.32位版本,性能大大提高
2.识别率进一步提高,特别对于汉英混排情况和低质量情况的样张适应性更强
3.印刷体汉字识别加入MMX优化,在MMX机器上能提高一倍的速度
4.版面恢复中可以直接恢复表格内容
5.版面恢复成HTML格式的文件
6.版面恢复可以批量恢复多页内容,特别有利于同时恢复多页文档
7.版面恢复后可选择是否启动浏览程序
8.后编改环境中增加了“恢复”功能
9.后编改环境中增加了“查找/替换”的功能
10.后编改环境中增加字体设置功能
11.新的文件对话框形式,支持长文件名
12.更为明了的关闭所有文件对话框,并且可以选择是否显示此对话框
13.扫描时可以选择是否输入文件名,也可选择扫描文件格式和压缩格式
14.文件列表中的页面数目由100页提高到10000页
15.其它详细的上下文敏感帮助
16.许多细致的功能改进
产品简介
清华TH-OCR2000千禧专业版自动识别输入系统
a.中英文识别正确率高,对印刷质量适应性强。
b.首次实现了对文本版面格式的完整保留。
c.能够识别处理复杂版面。
d.更为易装易用,提供了任选软硬回车调整改编环境等一系列实用功能。
主要用途
1.办公自动化中多体印刷汉字,英文,日文等文件资料自动输入。
2.建立汉字文献档案库。
3.语言处理中文书刊,资料的自动输入。
4.汉字图像文本的压缩存储,传输。
5.书刊自动阅读器,盲人阅读器。
6.书刊,资料的再版输入。
7.智能全文信息管理系统,汉英翻译系统,办公管理系统。
8.多媒体应用系统。
9.自动翻译系统。
系统安装指南:
系统的运行环境
1)486以上档次微机(推荐使用PentiumMMX166以上微机)。
2)16MB以上内存(推荐使用32MB以上内存)。
3)70MB以上硬盘。
4)支持紫光扫描仪。
5)中文Windows95/98/NT/2000或使用带有中文之星、四通利方等汉字环境的西文Windows95/98/NT/2000。
系统软件的安装
启动Windows95/98/NT/2000,将系统的安装光盘插入光盘驱动器,系统自动启动安装程序。按系统提示输入所需内容,然后按NEXT键,开始安装。或者运行SETUP.EXE进行安装。
当全部光盘的所有文件都被安装到硬盘后,屏幕提示系统文件已经安装完毕,按FINISH键。
操作流程:
清华TH-OCR2000千禧专业版操作流程分为五步,下图是系统主界面的构成。
图象编辑界面
1.图象编辑界面
2.系统设置
3.获取识别图象
4.图象版面处理
5.识别及修改
6.结果输出
系统设置(详见“命令”下的“设置”主题)
使用系统前应根据应用环境及需求设定系统参数。打开【命令】中的【设置】项,可对系统、识别、后编改及其它参数进行设定。设定结果系统会自动记录并保持,不必每次操作都重新设置。
获取识别图象
获取所要识别文件的图像(详见“文件”下的有关主题)
对于磁盘上原有保存好的图像文件,可以直接用【文件】下的【打开】命令或工具条上的打开;如果要获取新的图像文件,则应选择【扫描】命令或工具条上的,对所要识别的文件进行扫描。
注意:
1)扫描仪的操作应遵照随同扫描仪发送的操作手册的指导;
2)对普通书本的印刷质量,字号在5号以上的印刷材料,可适当选择其扫描分辨率为300,扫描亮度为0。
3)对已有的图像文件,要注意其图像存储格式是否符合清华TH-OCR2000千禧专业版系统的要求(TIFF格式、BMP格式、JPG格式或PCX格式)。
图象版面处理
进行图像版面处理(详见“图象”、“命令”下的有关主题)
对扫描所得图像文件根据需要进行处理(旋转、反转、剪裁、倾斜校正、版面分析……等等),为识别做好必要的充分准备。
注意:应选择要进行文字识别的区域,如果不选择,则认为是对整篇图像进行识别。在对整篇图像进行识别时,识别区域中不能包含有插图。
进行识别及修改(详见“命令”下的有关主题)
选择【命令】下的【识别】命令或工具条的完成文字的识别。完成识别后,点击工程管理窗口中相应的TXT文本文件进入编辑修改即校对状态。
识别结果输出(详见“文件”及“命令”下的有关主题)
识别结果经修改编辑后,可根据需要通过【导出】命令输出到其它应用程序中,也可直接存盘。
功能详解:
功能简介
清华TH-OCR2000千禧专业版系统的全部功能体现于主菜单的【文件[F]】、【编辑[E]】、【图像[I]】、【命令[C]】及【显示[V]】等命令中,每一个命令均带有一个子菜单。为了方便快捷的操作,还设置有对应的工具条(如图2),常用的命令均可直接从工具条中选定。本章将详细介绍各子菜单中命令的功能及使用方法。
图像编辑环境下的工具条功能
文件命令:
一、文件[F]
【文件[F]】菜单中包括有14个命令,分述如下。如(图3)
二、【文件】打开与保存
文件的打开与保存
在清华TH-OCR2000千禧专业版中,图像文件的打开与保存等操作,采用Windows的标准风格。
1. 打开[O]
在【文件[F]】菜单中选【打开[O]】,或用鼠标选工具条上的,屏幕上显示【打开】对话框。(图4)
注意:当需要打开多页时请按住CTRL键后选中所有需要打开的图象页,图像文件则被打开。
2. 保存[S]、另存为[A]
图像可以用原名保存,也可以换名另存。用原文件名保存时,在【文件[F]】菜单中,选【保存[S]】项或在工具条中选即可(图5);换名另存时,选【另存为[A]】项,屏幕显示出【换名存盘】对话框。
三、【文件】导出[E]
识别、校对完成后,对所获得的文本保存。(如图6)
1) 选择保存路径,键入文件名。
2) 【导出范围】:选择【所有页导出为一个文件】时,系统把所有识别结果合并并导出。
3) 【启动程序进行浏览】被选中,在导出时系统自动启动与导出文件格式对应的浏览程序。
4) 点击【导出选项】,不同的文件类型有不同的选择。如图分别是RTF、HTML、TXT文本格式的导出选项。用户可根据需要自行选定。
文件扫描
【选择扫描设备】扫描设置[U]、扫描[C]
扫描设置
在【文件[F]】菜单中选定扫描设置[U]】项。屏幕上出现【扫描设置】对话框。对话框中提供两种扫描界面供用户选择:
A) 使用TWAIN扫描界面
这是使用扫描仪自己的界面扫描图像,详细操作可参考扫描仪的操作说明,此时对话框下部的选项无效。
B) 直接终扫
这是使用清华TH-OCR2000自己的界面扫描图像。此时需要同时设定对话框下部所示的扫描参数:
【亮度】【分辨率】【反转图像】【删除空白边界】【页长】
在实际应用中,如何设置上述各参数,会因操作环境、要扫描的材料以及具体需要等多方面因素的不同而不同。只要按照以上说明,认真操作,自然会得心应手。
【亮度】
亮度参数是扫描仪的最重要的参数之一,也是影响OCR系统文字识别效果的极为重要的因素。在清华TH-OCR2000千禧专业版中,提供了亮度确定的三种方式:如果选【固定[F]】,可在中直接输入亮度数值或用鼠标按其右边的箭头,以获得所需的亮度数值。系统中亮度数值的调节范围是-128~128。
如果选【自动[A]】,则亮度参数完全由清华TH-OCR2000千禧专业版在扫描过程中自动确定。如果选【手动调整[M]】,则亮度参数由用户在扫描过程中根据具体情况调整确定。调整的方法详见本节3)扫描部分。有一定经验的操作者,使用【手动调整[M]】可以获得比较理想的扫描识别效果。
注意:
亮度参数的确定决定了扫描图像的明暗程度,亮度太高,文字笔划断裂而残缺不全;亮度太低,文字笔划相互粘连而黑成一团。两种情况都会影响识别结果。因此,认真细致地选择好亮度是获得较高的识别率的基本保证。
有关亮度选择的几点建议:
(1)扫描较浅的文件或底色白、纸张发亮以及文字笔划细的文件时,亮度参数应选低些,即加黑、加暗;
(2)书刊、杂志的底色较白,宋体字、仿宋体字的笔划粗细适中,在识别这类文件时,可选用中等亮度。
(3)识别较小的文字时,亮度参数应高些,以不出现太多的断笔为限。
如图11、图12、图13分别为扫描的亮度太高、太低以及亮度相对适中所得到的三种图像的示意图。
图像的扫描亮度太高,文字笔划多处断裂。
图像的扫描亮度太低,文字笔划多处粘连。
图像的扫描亮度相对适中,文字笔划比较清楚。
【分辨率】
分辨率是扫描仪也是清华TH-OCR2000千禧专业版的另一个重要参数。它决定了扫描图像的清晰程度,也决定了所能扫描的图像细节。文本识别正确率的高低与扫描分辨率的设定有很大关系。扫描仪分辨率的单位是DPI(DotsPerInch,每英寸点数)。可以在中直接输入分辨率数值或用鼠标点按其右边的箭头,改变分辨率数值。在清华TH-OCR2000千禧专业版中,分辨率选择的有效范围是100~600DPI。常用材料的最小字号是小5号(9
磅)或5号字(10.5磅),选择400DPI或300DPI的分辨率,可以适合大多数情况。分辨率的精细设定请参考下表。
分辨率选择对照表
文字大小 准确分辨率(DPI) 推荐使用的分辨率(DPI)
1号(26磅) 150
2号(22磅) 180 200
3号(16磅) 200
4号(14磅) 240
小4号(12磅) 280 300
5号(10.5磅) 300
小5号(9磅) 350 400
6号(7.5磅) 400
7号(5.5磅) 500 600
8号(5磅) 600
选择180DPI时,扫描仪扫描得到的图像与点阵打印机的打印结果为1:1。
选择300DPI或600DPI分辨率时,扫描仪扫描得到的图像与激光打印机的打印结果为1:1。
【反转图像】
用于清华TH-OCR2000千禧专业版的图像,有时是黑白二值图像(BlackandWhiteDrawing)。但是,扫描得到的黑白二值图像,因扫描仪型号的不同而各有差异,即有的图像可能是白底黑字,而有的则可能是黑底白字。在清华TH-OCR2000千禧专业版中,能识别的图像应是白底黑字的图像。如果扫描后,在系统中看到黑底白字的图像,请将反转图像设置为有效,即。
【删除空白边界】
绝大多数文件材料的边界都有很多空白,而没有任何内容。为了便于识别处理,提高系统的处理效率,可以将这项设置为有效,扫描时,系统会自动滤除图像边缘的空白。
【页长】
平板扫描仪的扫描幅面一般是A4或长度为14英寸。有许多时候,扫描的材料可能幅面很小,为了节约扫描时间,提高工作效率,可以预先设定这一参数。在清华TH-OCR2000千禧专业版中页长有效值是6英寸、9英寸和12英寸。
选择扫描设备
当选定【选择扫描设备[T]】项时,若计算机系统中已安装了扫描仪及其驱动程序,则出现TWAIN提供的【SelectSource】对话框,选择所安装的扫描仪,然后按【Select】键确定。若尚未安装扫描仪及其驱动程序,则此选项无效。这时应按扫描仪安装要求进行扫描仪及其驱动程序的安装。扫描仪一旦选定,以后就不用再选择。
【扫描】
完成各个扫描参数的设置后,在【文件[F]】菜单中,选定【扫描[C]】项或在工具条中按键,开始扫描。
如果已在【扫描设置】中选择了【使用TWAIN扫描界面】,则要进行两次扫描。第一次预扫目的是测定被扫描文件的亮度,用户在预扫结果中对扫描亮度、分辨率及扫描范围进行选择调整后再进行终扫;如果选择的是【直接终扫[S]】,则系统只进行一次扫描。
假如用户在【直接终扫[S]】的亮度选择中已选【固定[F]】或【自动[A]】,扫描后将直接显示扫描获得的图像;假如选的是【手动调整[M]】,则扫描结束后,屏幕显示【选择亮度】对话框。
操作者可以一边调【选择亮度】对话框中的亮度调节图42条,一边观察窗口中图像的明暗变化和扫描质量,直到对图像满意;也可以选择对话框左下方的【自动[A]】键并观察图像效果。
当得到满意的图像时,用鼠标按【确认】键,此时系统将退出【选择亮度】对话框并重写图像。
【打印】打印预览[V]、打印设置[R]
清华TH-OCR2000千禧专业版可以分别在图像环境或文本编辑环境中将扫描得到的图像或识别结果文本直接打印输出。有关打印输出,共有三个命令:【打印[P]】,【打印预览[V]】及【打印设置[R]】。
1打印设置[R]
选定【打印设置[R]】项后,屏幕显示【打印设置】对话框,在选择打印机及设定打印参数后,按【确定】键退出。
2打印预览[V]
选【打印预览[V]】项后,屏幕显示模拟的打印图像。按Alt-F4键或选【关闭】键可以退出返回图像环境。
3打印[P]
选定【打印[P]】项后,屏幕显示【打印】对话框,供用户选择打印页码范围、质量以及打印份数等。
图像的概念:
图像[I]
在清华TH-OCR2000千禧专业版中,利用【图像[I]】子菜单的有关命令可以对待识别的图像进行必要的各种处理,以便进行有效的识别。
【图像[I]】子菜单中包括整幅图像处理(反转、旋转、剪裁)、局部图像处理及图像区域属性选择等三大类命令。【图像[I]】功能菜单如图所示。
1、反转图像
2、旋转图像
3、图像剪裁
4、局部图像处理
5、恢复图像
6、设置版面区域属性
7、区域顺序
一、反转图像
1打开选定的图象文件。
2单击菜单"图像[I]"下的"反转图像[R]"项,实现图象的黑白反相。
注意:扫描图像必须为白底黑字(即背景是白的,文字是黑的),才可以识别;如果扫描图像为反白,即黑底白字,则必须进行黑白反相处理,才可以识别。
二、旋转图像
1打开选定的图象文件。
2单击工具条中的,或选定菜单【图像[I]】下的【旋转图像[O]】,图像将顺时针旋转90,如果连续多次选用该项,可以实现图像的180、270乃至360旋转。
图像旋转功能的用途:当所要扫描识别输入的材料宽度超过了扫描仪的宽度(通常为8.5英寸)时,可以将材料旋转90后,放入扫描仪进行扫描。这样扫描得到的图像需要经过旋转,恢复原样才可以进行识别处理。如下图所示。
图像旋转功能的主要用途
三、图像剪裁
1打开选定的图象文件。
2选定区域,即按住鼠标左键,移动十字光标,用拉出的矩形套住待选的区域。
3单击【图象(I)】菜单下的【图像剪裁[C]】项,可保留图像中所有选定的区域,去掉周围没有选定的区域。
4如果已经有多个区域,则剪裁的结果是这些区域的最小外接矩形。
注意:为了方便起见,裁剪后的图像,仍然保留成矩形的。裁剪图像不是必须的,但利用它可以有效的节约图像的存储空间,提高处理速度。
四、局部图像处理
局部图像处理包括【清除区域[I]】、【反转区域[R]】【删除区域[D]】、【删除所有区域[A]】、【删除框线】【删除所有框线】等六项命令。与整幅图像处理不同的是,局部图像处理的结果,只影响图像的当前区域,而不影响当前区域以外的图像。在计算机屏幕上,当前激活区域有一个显著的标志,就是在其四个角上,都有一个小方块光标。整个区域显示为黄色。
当前区域有一个显著的标志,就是在其四个角上,都有一个小方块光标,且显示为黄色。
清除区域[L]
1打开选定的图象文件。
2选定区域,即按住鼠标左键,移动十字光标,用拉出的矩形套住待选的区域。
3在选定区域内单击鼠标左键,区域框线四个角上出现小方块,表示该区域被激活。
4单击【图像[I]】下的【清除区域[L]】项或直接按空格键,当前区域的那部分图像就会被清除而变为空白。
说明:
在实际应用中,可能会遇到这样的情况:需要识别处理一幅图像的绝大部分,而只有图像中的某一个部分是不需要的,或者是版面上有一块污损的噪声区域。此时可以将无用区域选作当前区域,再使用【清除区域[L]】命令,就可以将无用区域清除掉。如下图所示。
需要清除的区域示意图
反转区域[R]
1打开选定的图象文件。
2选定区域,即按住鼠标左键,移动十字光标,用拉出的矩形套住待选的区域。
3在选定区域内单击鼠标左键,区域框线四个角上出现小方块,表示该区域被激活。
4单击【图像[I]】菜单下的【反转区域[R]】,当前区域的图像变为黑白反相。
删除区域[D]
1在选定区域内单击鼠标左键,区域框线四个角上出现小方块,表示该区域被激活。
2单击【图像[I]】菜单下的【删除区域[D]】或直接按键盘上的删除键,可删除确定当前区域的区域框,而区域中的内容保持不变。
删除所有区域[A]
与"删除区域[D]"功能类似,不同的是【删除所有区域[A]】删除了划分区域的所有区域框,而不只是删除当前区域的区域框。
删除框线
在表格操作时,删除选定的一条表格线。
删除所有框线
在表格操作时,删除所有表格线。
恢复图像
用户如果决定放弃前面对图像所做的各种处理,选用此项命令,重新装入原图像。
设置版面区域属性
清华TH-OCR2000千禧专业版的版面区域共有四种类型,即横排正文、竖排正文、表格和图形图像。在进行识别前必须正确定义图像中各区域的区域类型。
设置版面区域类型的方法是:
1在当前选定区域,单击鼠标左键,激活。
2鼠标单击工具条中相应的类型按键或在【图象[I]】菜单中选定相应的项目(【横排正文[H]】、【竖排正文[V]】、【表格[F]】或【图形图像[G]】)。
区域顺序
执行这个命令时,则显示图象各个区域的序号。
注意:当需要导出TXT文件格式时,须按照段落顺序手动调整区域顺序。
命令
命令[C]概述
【命令[C]】的子菜单中共有12个选项。其中【设置[S]】用于整个系统工作状况的调整,【倾斜校正[W]】、【版面分析[L]】、【框线检测[F]】等类命令用于进一步完成识别前的准备,【全部识别[A]】和【识别[R]】命令为系统的核心命令,其它命令都服务于识别过程中及识别后的编辑及修改。【命令[C]】的子菜单如图28所示。
设置:
打开【命令[C]】菜单,选择【设置[S]】后,屏幕上显示【设置】对话框。如图所示,它包括了对系统、识别、扫描、后编改及其它等设置的选择。
【系统】设置
【扫描】设置
【识别】设置
【后编改】设置
【其它】设置
3设置完成后,单击“确认”。
【系统】设置
【系统】设置包括【英文提示[E]】、【自动进行版面分析[A]】、【自动进行识别[R]】、【显示全局窗口[G]】、【显示跟踪窗口[T]】等项。注意:当选择【英文提示[E]】时,系统全部菜单均用英文表示;当选择【自动进行版面分析[A]】、【自动进行识别[R]】时,只要装入图像,系统就自动完成整个识别过程。建议对于复杂版面不选用此项。
【扫描】设置
【扫描】设置中包括【文件名】、【扫描图象格式】、【图象压缩格式】。用户可以根据实际工作情况自行选择。
【识别】设置
【识别】设置中包括【识别字体[O]】、【输出全角字符[F]】、【汉字后加空格[V]】、【输出到剪贴版[B]】、【输出到其它应用程序[U]】。用户可以根据自己的需要自行选择。
【后编改】设置
【后编改】设置中包括【浮动跟踪窗】与文本的位置关系、前景色、背景色及可疑字颜色,建议全部选用(参见"文字识别后编辑"主题)。
在可疑字之间快速移动光标
清华TH-OCR2000千禧专业版不仅具有很高的识别正确率,而且对于没能正确识别的汉字,也可以非常方便地进行编辑修改。
在实际的系统中,正常识别的文本是黑色的,可疑字是有特殊颜色的(颜色可以在【设置[S]】中选择),用户可以在这些有特殊颜色的可疑字之间快速移动光标。
快速移动光标的方法是:同时按住【】键或【】键,或在【编辑[E]】菜单中选【前一可疑字符[V]】项或【后一可疑字符[X]】项。
【其它】设置
【其它】设置中包括【表格[F]】中的【快速框线检测[Q]】与【输出表格线[L]】的选项,还包括【版面分析[A]】中的【杂志[M]】与『报纸[N]』选项,用户可以根据自己的需要自行选择。
倾斜校正
由于印刷或用户操作等多方面的原因,扫描得到的图像可能有一定的倾斜角度。尤其是小的倾斜角度,在扫描中难以避免。对于特别小的倾斜角度(约1~2,因具体情况的不同而异),清华TH-OCR2000千禧专业版
可以自动适应,无需任何处理就能识别;而对于较大的倾斜角度,则需要进行倾斜校正。一般当倾斜角度小于10~15时,可以先进行倾斜校正,然后再进行识别处理;如果倾斜角度超过15,则由于倾斜校正会产生较大的失真和误差,从而影响识别结果,建议重新扫描图像。
系统提供自动及手动两种倾斜校正的方式。
倾斜校正[W](自动倾斜校正)
手动倾斜校正[D]
倾斜校正(自动倾斜校正)
执行【命令[C]】菜单中的【倾斜校正[W]】或用鼠标选工具条中的,系统会自动将倾斜的图像校正。
手动倾斜校正
按住键盘上的SHIFT键,同时按鼠标右键并拖动使拉出的直线平行于倾斜的文本行,先松开右键后系统会自动将倾斜的图像校正。
版面分析
版面分析是将扫描得到的图像,划分出每一个区域块。对于各个不同的区域块,不仅给出其自身的属性(如横排的文字、竖排的文字、图形图像以及表格等等),而且标明不同区域块之间的顺序,以便系统进行识别处理。在清华TH-OCR2000千禧专业版【命令[C]】菜单中,选【版面分析[L]】项(也可以直接按【F6】键),或用鼠标按工具条中快捷键,图像自动分为若干个属性不同的区域(图形图像、竖排文字、横排文字、表格等)。对于特别复杂的图象版面,自动分析后,须人工手动来辅助调整。
建立一个新的区域:在未被选定的区域,按住鼠标左键从鼠标所在位置(图中“+”符号处)拖画出一个方框将所需要的区域围住。
框线检测
清华TH-OCR2000千禧专业版无法识别未进行框线检测的表格图像,也无法识别框线不全的表格图像。因此如果要识别的图象中含有表格,必须先对它进行框线检测。
1)框线检测[F]
图像内如含表格,应先将表格建为独立的区域,然后确定其表格属性。这时系统即自动进行框线检测并将检出的框线(包括内部的表格线)用粉红色线表示。
2)虚拟框线检测[I]
当要识别的图象表格框线不全时,必须进行虚拟框线检测。选择【命令[C]】菜单的【虚拟框线检测[I]】,系统会将框线自动修补好。
注意:虚拟框线检测必须在框线检测完成后才能进行。
识别
识别文件的扫描图像经过倾斜校正、版面分析、框线检测及虚拟框线检测等处理后,即可进行识别(图像中如果版面、字体单一,只含有单栏的横排文字,可以不进行版面分析,就进行能够识别)。识别,是TH-OCR系统的核心。为了保证正确的识别,用户应按以下步骤进行:
1选择正确的识别字体。
用鼠标打开工具条上的字体选择列表框,TH-OCR系统能识别的字体呈现在屏幕上,请用户根据被识别图像的具体情况选择字体:
简体多体(印刷体)──常见的宋体、仿宋体、黑体、楷体、圆体和魏碑等等。
繁体多体(印刷体)──常见的宋体、仿宋体、黑体、楷体、圆体和魏碑等等。
纯英文(印刷体)──常见的多体纯英文。
日文(印刷体)──(选购)
手写体──
注意:a.日文识别模块为选购件;
b.进行日文识别必须具备日文环境;
c.手写识别对文稿有一定的要求,须规范书写。
2识别
在【命令[C]】菜单中,选【识别[R]】项(也可以直接按键盘上的【F2】键),或用鼠标按工具条的,系统即进入识别程序。识别过程中在识别输出窗口将出现一活动蓝条以报告识别完成的进度。
如果对已经识别处理过的图像再次选择识别命令,系统会显示出【覆盖】对话框,提示是否覆盖已有的识别结果。用户可以根据需要自行选择。
3识别所有页
当大量文稿需要录入时,可以把稿件逐页扫描,系统将在工程管理窗口内自动编入页码。在对每页文稿进行版面分析后,选【全部识别[A]】项(也可以直接按键盘上的【Ctrl+F2】),或用鼠标按工具条中的多页识别按键。系统即进入批量识别程序。批量识别时的图像与识别时相似,此时右下角将报告已完成识别的图像的序号。
注意:使用批量识别功能时,必须保证每页图像都完成了倾斜校正、版面分析、框线检测等,同时每次页数不宜太多。
用户自学习
清华TH-OCR2000千禧专业版为用户提供了自学习功能。在识别中如果遇到生僻的汉字,甚至是某种特定的符号,都可以让计算机学习。这样以后再次遇到时,系统就能识别。
将光标移至需要学习的字符上,然后在【命令[C]】菜单中选【用户自学习[U]】,屏幕显示【用户自学习】对话框。
例如,上图对话框中左侧的“统”为当前汉字的图像,系统把它识别为“流”字,自学习时请在对话框右上角的编辑框中输入正确的汉字“统”,这样识别结果就更改过来了,如果需要还可以将输入的这个字送到用户字库中。
本系统可以学习1024个新的字符。但在使用该功能时应掌握以下原则:
1)所要学习的字,其图像应是比较清楚的,否则会引起负效应,从而影响别的字的正确识别;
2)学习的目的是为了应用,只有经常要用到的字符才适合于学习。
修改用户库
当需要调整用户字库(比如想删去其中不再常用的字时),可以用【修改用户字库[M]】命令。
在【命令[C]】菜单中选【修改用户字库[M]】项,屏幕显示【修改用户库】对话框,用鼠标选中所要删除的字(一个或多个均可,比如“统”字),经确认后再选【删除[D]】或【全部删除[A]】就可实现删除的目的。
编辑
文本编辑环境
1单击工具条上的或【命令[C]】菜单下的【编辑[E]】项(也可以直接按【F4】键),即可进入文本编辑环境。
清华TH-OCR2000千禧专业版的编辑环境包括使用Windows标准的编辑操作个使用清华TH-OCR2000千禧专业版特有的编辑功能两大部分。【编辑[E]】子菜单如图示:
编辑环境下有关命令对应的工具条上的功能键如下图所示:
在可疑字之间快速移动光标
清华TH-OCR2000千禧专业版不仅具有很高的识别正确率,而且对于没能正确识别的汉字,也可以非常方便地进行编辑修改。
在实际的系统中,正常识别的文本是黑色的,可疑字是有特殊颜色的(颜色可以在【设置[S]】中选择),用户可以在这些有特殊颜色的可疑字之间快速移动光标。
快速移动光标的方法是:同时按住【】键或【】键,或在【编辑[E]】菜单中选【前一可疑字符[V]】项或【后一可疑字符[X]】项。
Window标准的编辑操作
Windows标准的编辑操作,包括剪切、复制、粘贴和清除等四项操作。在清华TH-OCR2000千禧专业版的【编辑[E]】菜单中,提供了这四项操作,主要面向文本进行处理。和所有具有编辑功能的Windows软件一样,清华TH-OCR2000千禧专业版的工具条中也设置了,分别实现剪切、复制和粘贴的操作。
清华TH-OCR2000千禧专业版特有的编辑功能
清华TH-OCR2000千禧专业版特有的编辑功能主要包括:
前向词汇[F]
逆向词汇[B]
相似字[S]
常用符号[M]
行逆序[V]棗虽不太常用但却很有用
在清华TH-OCR2000千禧专业版的文本编辑环境中,屏幕上既有识别结果文本,又有与之相对应的原始扫描图像,对应于识别结果文本中当前光标所在位置的汉字,图像中相应的字用一个蓝色方框包围。用户不必查阅原稿,就可进行全部的编辑校对和修改工作,下图是一个示例。
在【前向词汇[F]】、【逆向词汇[B]】、【相似字[S]】和【常用符号[M]】的编辑方式中,系统处理的都是当前光标所在位置的字符,以下各种描述也都对当前光标所在位置而言。
注意:【前向词汇[F]】、【逆向词汇[B]】和【相似字[S]】是TH-OCR系统中的三种极为有效的编辑修改方式。但是,如果这三种方式中都没有所希望的汉字,则可以使用Windows环境下的任何一种汉字输入方法(如拼音、五笔等),进行修改。
行逆序
【行逆序[V]】的功能是专门为港台的部分报纸和其它印刷品设计的。一般横排文字的排列是从左到右,而竖排文字则从右到左。然而在部分繁体材料中,有时会出现标题中的英文及数字从左到右排列,而横排汉字却从右到左的情况。当这样的材料被识别后,就必须调整识别结果中行内的文字顺序。这时使用行逆序就很方便了。行逆序后英文及数字顺序不变。
显示:
修改视图显示方式
1单击【显示[V]】,弹出子菜单。
【显示[V]】命令的子菜单内容。
2【显示[V]】菜单中有【工具条[T]】和【状态行[S]】两项,被选中时,对应项前有“√”,工具条和状态行分别位于屏幕的上边和下边。用户如果想取消工具条或状态行,可在【显示[V]】的子菜单中选对应项,使所选项前面的“√”消除。
参见工具栏以得到对使用工具栏的帮助。
工具栏
工具栏的位置是沿着应用程序窗口的顶部,菜单栏的下方。工具栏提供了一种利用鼠标器快速存取许多用在TH-OCR中的工具的途径,
从查看菜单选择工具栏(ALT,V,T),可用来隐藏或显示工具栏。
图象环境下
单击 到
打开一个现存文档。TH-OCR会显示一个打开对话框。在这个对话框中您可以找到并打开您所要的文件。
用当前名字保存活动文档或模板。如您还未为文档命名,TH-OCR会显示另存为对话框。
扫描,得到待识别文本的图象文件
进入或退出识别后编辑环境
退回到上一个编辑操作。注:有些操作您无法撤消。
系统进行文字识别
一次识别全部打开的图象页
扫描得到的图像如果有倾斜,会影响正确识别,进行倾斜校正。
图像顺时针旋转90
对于比较规范的、由若干矩形区域组合而成的版面,TH-OCR系统自动理解分析处理,划分图像的版面区域及确定其属性。
显示"识别字体"列表框,根据待识别文本字符类型,选择相应识别库
放大显示编辑环境中局部窗口的图象
缩小显示编辑环境中局部窗口的图象
用此命令来显示您的TH-OCR版本的版权通告和版本号码。
用上下文帮助命令来获得对TH-OCR中某些部分的帮助。当您选择工具栏上的上下文帮助按钮时,鼠标器光标变成了一个箭头和问号。接下去用鼠标器单击TH-OCR窗口中的某一地方,如另一个工具栏按钮。对受到单击的项目的帮助主题即被显示出来。
编辑环境下
单击 到
打印活动文档。
从文档中删除被选取的数据并将其存到剪贴板上。
把被选取的数据复制到剪贴板上。
从剪贴板上将数据粘贴到文档中。
退回到上一个编辑操作。注:有些操作您无法撤消。
在编辑框下方的编辑修改状态区域列出前向词汇,即根据光标所在位置的前一个汉字,以词汇联想的方式给出的光标所在位置可能的汉字,供编辑选择。
在编辑框下方的编辑修改状态区域列出后向词汇,即根据光标所在位置的后一个汉字,以词汇联想的方式给出的光标所在位置可能的汉字,供编辑选择。
在编辑框下方的编辑修改状态区域列出相似字,即指由系统识别列出的所有可能的汉字,供编辑选择。
在编辑框下方的编辑修改状态区域列出那些键盘上不易输入而又常常用到的标点或其它符号,供编辑选择
在识别中如果遇到生僻的汉字,甚至是某种特定的符号,让计算机学习。这样以后再次遇到时,系统就能识别。
可以将文稿识别后生成的文本文件直接发送到打开的WORD或其它编辑软件(记事本或书写器)
参见状态栏以得到对使用状态栏的帮助。
状态栏
状态栏显示于TH-OCR窗口的底部。要想显示或隐藏状态栏,您可用查看目录中的状态栏命令。
状态栏的左边区域描述了当您用箭头键掠过菜单时菜单项目的操作。同样地,在您用鼠标器按下工具栏上的按钮而没有释放前,这个区域也显示工具栏的操作的描述信息。在看了对工具栏按钮的描述后如果您希望不执行此命令,您可以在鼠标器光标离开工具栏按钮后放开鼠标器按钮。
图象环境下
指示器 描述
显示局部窗口放大比例
打开多页时,显示当前页码和总页数
跳转显示第一页
跳转显示最后一页
显示前一页
显示下一页
编辑环境下
指示器 描述
显示光标所在位置的行、列数
当前文本编辑插入方式
大写锁定键被锁住。
数字锁定键被锁住。
显示总页数和当前页数
局部图像的显示比例
局部图象窗口的显示比例是可以改变的,其操作十分简单方便;而且局部图像的当前显示比例,在状态行中的图像显示比例区域中可以看到。
1.放大[I]:单击工具条中的放大显示键,或选择【显示[V]】下的【放大[I]】项,还可以直接按加号键"+"。局部图像逐渐放大,显示比例依次为10%→25%→50%→75%→100%→200%
2.缩小[O]:单击工具条中的缩小显示键,或选择【显示[V]】下的【缩小[O]】项,还可以直接按减号键"-"。局部图像逐渐缩小,显示比例依次为200%→100%→75%→50%→25%→10%
3.选择比例:选择【显示[V]】下的【选择比例[Z]】项时,屏幕上显示【缩放比例】对话框。
对话框列出了:
所有的显示比例200%→100%→75%→50%→25%→10%
窗口大小[W]
说明:当选中了【缩放比例】对话框的【窗口大小[W]】项时,全局图像窗口和局部图像窗口中显示的都是整个图像。此时工具条中的放大、缩小都变为无效状;同时,状态行中的图像显示比例区域显示出“自动”二字。如果在选了【窗口大小[W]】项后,又希望重新改变局部图像窗口的显示比例,选择【显示[V]】菜单中的【选择比例[Z]】项,重新进入【缩放比例】对话框进行改变。
帮助
1.单击【帮助[H]】下【关于清华TH-OCR】项,会显示出一个“关于清华TH-OCR2000千禧专业版”版本信息的对话框。
2.选择【帮助[H]】下【目录和索引[C]】,将会显示帮助主题。
3.选择【帮助[H]】下【快速指南[C]】,将会显示清华TH-OCR2000千禧专业版的快速指南,说明使用本系统的一般流程和基本注意事项。
4.选择【帮助[H]】下【TH-OCR主页[W]】,将会连到Internet网上的清华TH-OCR2000千禧专业版的Web主页。
5.选择工具条上的“帮助”按钮,光标将变为一个带问号的箭头,点击所希望了解的工具条按钮或菜单项可以显示相应的帮助信息。
6.显示对话框时,将会在标题栏右端显示一个按钮,选择此按钮,光标将变为一个带问号的箭头,点击对话框各个选项,就可以显示相应的帮助信息。
退出系统
在清华TH-OCR2000千禧专业版的图象环境下,从【文件[F]】菜单中选【退出[X]】项或直接按键盘上的【】键,还可以从系统菜单『』中选择【关闭[C]】项,均能关闭所有的文件,退出清华TH-OCR2000千禧专业版。
技术支持
技术支持电话:(010)62556897,62556794
公司主页: http://www.wintone.com.cn
常见问题解答
建议:TH-OCR扫描一般请使用"TWAIN"扫描方式,不要使用"直接终扫"扫描方式
易出现的问题:
一.TH-OCR安装完毕后,扫描出现TWAIN.DLL错误
原因:
1.扫描驱动安装后,未重新启动计算机
2.使用扫描仪时,未先开扫描仪再开主机
3.扫描仪硬件连接不牢固
4.扫描仪驱动版本低(更换驱动)
5.扫描驱动安装时有误操作
解决方法:
1.a重新启动计算机
b进入TH-OCR软件
c在TH-OCR软件中,选择"文件"进入"选择扫描设备"检查扫描仪驱动(请参考TH-OCR说明书)
d如扫描驱动存在,扫描工作就会正常。如扫描驱动不存在,则退出TH-OCR重新安装扫描驱动,并重复以上各步骤(参考扫描仪安装说明书)
2.a重新启动计算机
b进入任一图象处理软件(例如扫描仪附带的软件),例AdobePhotoshop,PaintshopPro等进行测试
c如上一步正常,则关闭图象软件进入TH-OCR,扫描就会正常
3.a将TH-OCR软件及扫描仪驱动删除
b重装TH-OCR软件
c重装扫描仪驱动
d重新启动计算机,重复方法1步骤
二.TH-OCR安装完毕后,扫描仪至结束时则出现"中断"错误
原因
1.TH-OCR有多级版本存在而互相干扰
2.扫描仪驱动与TH-OCR连接有问题
解决方法:
1.删除低版本TH-OCR软件
2.a在TH-OCR软件中先打开一个图象文件
b进行扫描
清华TH-OCR2000千禧专业版
第23页共24页
|
|