一、检测PDF文档中的文本
如果要识别和提取PDF文档中的文本,请单击“检测PDF文档中的文本”按钮。
步骤1:选择PDF文件
有两种选择PDF文档进行文本识别的选项:
1、拖放
通过在Windows资源管理器中单击鼠标左键并按住不放,然后将其拖到Text-R窗口中,将PDF文档从Windows资源管理器中拖到Text-R的灰色拖放区域中。
如果操作成功,则将PDF文档加载并显示在Text-R中。
2、选择文件
使用Windows已知的“文件打开”对话框来手动选择PDF文档。 选择所需的文档,然后单击“打开”。
如果要从Text-R删除加载的PDF文档,请单击“重置”。
二、检测图像文件中的文本
如果要从图像文件中识别和提取文本,请单击“在图像文件中检测文本”按钮。
步骤1:选择图片文件
选择图片文件进行文本识别有两个选项:
1、拖放
通过在Windows资源管理器中单击鼠标左键并按住不放并将其拖到Text-R窗口中,将图像文件从Windows资源管理器拖到Text-R的灰色拖放区域中。
如果操作成功,则将图像文件加载并显示在Text-R中。
2、选择文件
使用Windows打开文件对话框手动选择图像文件。 选择所需的文件,然后单击“打开”。
回报
如果要从Text-R删除加载的图像文件,请单击“重置”。
三、定义设置
在第二步中,指定用于文本识别的设置。
OCR选项
Text-R提供了各种OCR选项,以增加和提高文本识别的识别率。
扫描条码
如果要读取条形码的内容(文本和链接)并以纯文本显示,请激活“扫描条形码”按钮。
识别/校正歪斜图像
如果Text-R还应该检测并纠正歪斜的文本段落(例如由于扫描不准确),则激活“检测/纠正歪斜的图像”复选框。
识别旋转(90°/ 180°/ 270°)
如果Text-R应该识别旋转的文档并且应阅读其内容,请选中旋转(90°/ 180°/ 270°)。
使用干涉滤光片
如果Text-R应该优化脏的扫描文档和图像并读取其内容,请激活选项“应用噪声过滤器”。
检测/删除线
激活“检测/删除行”选项以检测和删除行。
注意:建议您在保存后手动添加行。
正确的混合字符
如果您希望Text-R删除/更正扫描单词中发现的数字,请选中“更正混合字符”选项。同样,将删除找到的数字中包含的字母/字符,这不符合数字格式。
使用字典
如果要检查词典中是否存在已识别的单词,请激活“使用词典”选项,并在必要时进行更正。
文字语言
为了使识别过程尽可能准确,您应该指定源文档的文本语言。 例如,Text-R可以使用集成到所选语言中的词典来检查已识别单词在词典中是否存在。
四、文字识别
在第三步中,检查源文档,并在未格式化的预览中显示已识别的文本。
源
在“源”区域中,可能会显示源文件的经过OCR优化的变体。缩小和放大图标允许调整源的大小。
如果文档由多页组成,则可以通过页面选择元素选择要显示的页面。
预览(未格式化)
预览显示源文档所选页面的识别文本。您可以比较源和预览,如果对文本识别的结果不满意,则可以根据需要更正上一页的CRC选项。
注意:预览未格式化,仅显示可识别的文本。它仅用于测试不同的OCR条件。
保存文件
要将检测到的文本保存在新文档中,请单击“保存文档”按钮。
目标文档可以保存为PDF,PDF /
A,RTF,TXT和XML格式。我们建议保存为PDF格式,因为文本的格式和位置应尽可能与原始文档的格式和位置相对应。