[目录]一、前言二、预备1.API接口2.图像的Base64编码3.屏幕截图4.调用百度API识别文字三、工具搭建1.功能需求2.实现细节四、使用演示五、结语
一、前言有时候在读电子文档的过程中,往往会遇到图片形式的文本,想要复制下来,记个笔记甚是不便,需要对照着打字输入,活生生被逼成键盘侠啊......
被逼无奈,何不自己造个轮子,开发一款自己专属的文字识别工具呢,于是我们找到了MatlabAppDesigner。
玩过Matlab的朋友们都知道,构建图形用户界面,Matlab提供了两种工具,一是用guide构建,俗称GUI,在未来版本中会移除;二是用AppDesigner,俗称App,这是官方推荐的,也是以后主流的框架。
今天我们就通过一个简单案例来介绍如何利用App设计一个图片文字识别工具。
搭建的方式主要有两种:
App设计器:灵活、方便、简单,现代化方法;
基于uifigure的编程方式:灵活、重构方便,适合构建复杂、大型的图形用户界面,原始社会方法。
这里我们就以编程方式进行创建。
二、预备1.API接口文字识别涉及到光学字符识别(OpticalCharacterRecognition,OCR)技术,如果我们自己造这种底层的轮子,要有高精度的识别率,那估计累得够呛。
幸运的是市场上已经有成熟的工具了,如百度智能云、阿里云、科大讯飞等均提供了API接口,只需借过来用就完事。这里主要以百度智能云提供的文字识别API为例。
免费申请文字识别功能后,在控制台可以查看到APIKey和SecretKey,由这两个参数可以获得access_token,它是调用API接口的必需参数(如下图红色方框所示)。
通过查看文字识别的技术文档,我们可以得到通用文字识别(标准版)的请求接口,如下:
HTTP方法:POST
请求URL: