如何把PDF文档上的文字提取出来?
在日常办公中,我们时常需要在图片上或者文档上的把文字提取出来,大家知道该如何处理吗?
想要实现这种功能,那就需要使用到OCR功能。什么是OCR功能呢?
【OCR详细解释】
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
接下来我们看看这个功能该如何使用吧~
【OCR识别文本】
01下载福昕PDF编辑器个人版,打开需要OCR的文档,点击菜单栏【转换--OCR识别文本】
02弹出【福昕OCR识别文本】弹窗,选择需要的【识别选项】,选择后,点击【开始识别】即可。
识别选项说明:
①可检索文本的图像:就是在不改变源文档排版情况下,在源文档加一层识别出来的文本,转成双层PDF文档,使文档上的文字可选中复制、进行文本注释、朗读等。
②可编辑的文本:把文档转换成可编辑的格式,可直接进行编辑。
完成识别后,点击如下图标,即可打开识别后的文档
PS:第一次使用OCR时,系统会提示安装OCR组件以及语言包,安装完成即可使用哦。
03打开OCR之后的文档,各效果如下
识别选项是可检索文本的图像,效果如下:
识别选项是可编辑的文本,效果图如下:
福昕PDF助手公众号
想获取更多好用文章,记得关注【福昕PDF助手】公众号哦~