2024年6月8日发(作者:)

ELECTRONICS WORLD

探索与观察

引言:通过运用OCR技术创建“图文识别”微信小程序,实

现高校科研项目纸质版材料智能识别,并以统一的格式上传至后

台数据库,完成数据存档和使用等功能。同时,OCR技术应用于

手机微信小程序最大程度地发挥自身的优势,但由于技术水平有

限,在微信使用的过程并不是全能,特别是在识别率方面,可能

受到软件质量、纸质材料、图片质量、文档格式、扫描参数等因

素的影响而造成其识别率下降。本文对科研成果数字化过程中

OCR技术应用手机微信小程序进行了研究和分析。

1.项目建设背景

随着时代的发展、生活保障的健全,智能手机已经非常

普及,手机似乎成为了人们每天不可缺少的工具。而腾讯微信

(WeChat)作为移动端即时通讯类应用软件的领头羊,其2019年

拥有的活跃账户数达11.33亿(数据来源:腾讯官方发布的2019年

第二季度及中期业绩[OL]./zh-cn/

articles/),是一个庞大的应用群体。

而微信小程序是微信发现页的一种应用程序,用户通过打开想

要安装的小程序,即可使用。小程序的文件很小,安装小程序

只需零点几秒至几秒的时间,不再使用该小程序时也无需对其

卸载,实现了应用程序的“触手可及,用完即走”的梦想。用

户通过扫二维码或搜小程序名字即可以加载使用小程序,微信

小程序的便捷性已经决定了它必然的潮流。本项目的开发基

于微信小程序,用户打开项目设计的小程序,通过拍照上传

即可获得可编辑的格式化的相应的文字,通过这种OCR技术应

用于手机微信小程序具有很高的研究价值。

同时,本文是针对于目前各大高校的科技成果转化率低、

高校尚未录入数据库的纸质版科研项目材料存在数量庞大等问

题,本项目旨通过移动数据端扫描文件使用“图文同步推广”

在达到三个目的:一是更新资料存档形式;二是实现数据库信

息共享;三是实现科研成果的进一步推广和使用。

在微信中的实际应用介绍

20世纪30年代末,德国籍研究员Taushek首次将字符模板

匹配运用到字符识别过程中,并因此获得了一项OCR相关专利,

人类开始慢慢走进了利用OCR自动识别图片的文字的新时代。

直到21世纪,随着配备高分辨率相机的智能手机的普及,学术

界开始对照片文字识别进行详细研究。2014年8月,Microsoft

Research Asia在ICR(国际模式识别大会)上发布,根据对自

然场景中标准数据集(ICDAR-2013测试集)的识别,最终识别

结果表明,该算法达到了92.1%的准确度和92.3%的召回率。

相比国外,国内对OCR技术的研究相对较晚,而且汉字比英文

字母、阿拉伯字母复杂得多(常用汉字在4000到7000个),汉

字之间也有许多相似的,这无疑使得利用OCR技术识别汉字增

加了很大的难度。但是通过最近几年政府对文字识别这一领域

投入了大量经济和一系列方针,现如今对印刷体汉字识别的

技术已经颇为成熟。现在OCR识别技术广泛应用于快递单据的

识别、车牌的字符识别、“小猿搜题APP”、百度AI等(刘明

英.档案数字化过程中OCR技术的应用分析[J].中国高新技术

94

企业,2017(04))。

OCR识别技术是一门研究如何将图

像中的文字转化为可编辑文本的学科,

是指电子设备检查的图片上的字符,通

惠华

州南

过检查亮暗的模式确定字符的形状,再

大农

用字符识别的方法将形状转化为计算机

学业

语言的过程。其操作比较简单,即将图

潘学

OCR

像、文字做一个转化,使其全部翻译成

计算机文字,从而达到识别出的文字能

帆陈

够再次使用并对其分析、影像资料的储

存量减少,最方便的是还可以节省因键

盘输入的人力物力和时间。本项目应用

OCR技术应用于微信小程序主要是实现

高校科研项目纸质版材料智能识别,并

以统一的格式上传至后台数据库,完成

数据存档和使用等功能。

在微信中建设内容和探讨

到目前为止,OCR技术的发展已经

非常成熟,但这仅用于计算机方面比较

多,比如为大众所熟知的汉字识别软件

有清华紫光、汉王尚书等,这些软件都

比较成熟,对汉字的识别精度也都较高,

但是相比于PC端,OCR技术在移动端上的

研究就显得稍微落后,主要是因为受到

设备的限制,如拍摄的图片的质量不佳

或者上传的图片不清晰等。而百度开发

的百度翻译和作业帮,金山公司开发的

金山金山词霸,腾讯公司的QQ和微信,

阿里云公司的支付宝,这些都是OCR识别

技术运用在移动端平台上的成功实例(陈

小庆.基于Android平台的OCR识别技术研

究与实现[D].成都:电子科技大学,2016)。而本项目研究应用是解决高校科

技成果转化问题,更是一种挑战的研究。如今各大高校的科技成果整体推广

应用水平仍然不够,我国科技成果转化的总体情况还是较为不乐观。在研究

中还发现,由于纸质版科研项目成果还有很多没有录入系统,所以科研项目

信息并不能方便高效的实现共享。“一键录入”系统正是基于高校信息录入

困难、科研信息未能共享的需求而研发,目的是通过创建图文识别程序,实

现科研信息快速识别入库,减轻工作负担;搭建知识的仓库,共享科研项

目的资源,以促进高校科技成果高效转化。此项目建设内容主要包括:

3.1 产品开发目标

通过OCR技术方便快捷地将高校积存尚未录入的纸质版科研项目材料方便快

捷录入电子数据库,使积存且尚未录入的纸质版数据转化为电子数据,并分类存

档,以达到减少人力与设备的费用、提高纸质版材料向电子版材料转化的效率、

改进管理信息的服务、构建知识仓库的目的,从而实现高校科研信息共享。

3.2 产品开发功能

快速录入:通过微信小程序拍照扫描纸质文档,然后快速将其识别

并录入到电子数据库;

ELECTRONICS WORLD

探索与观察

智能识别:通过调用OCR技术可以高效、智能地扫描识别的文件信息;

信息共享:通过产品推广逐步实现高校间科研信息的共享;

数据分类:输入的数据将根据国家颁布的有关科研项目编号编码的

标准进行归类。

3.3 产品开发的技术

OCR技术应用于微信小程序为:图象输入、图象预处理、文字检测、文字识

别、文本输出、上传至个人云空间。即使程序实际的工作过程只需几秒即可完

成,但识别的准确度是OCR技术永恒的问题,因此OCR技术重中之重的研究方向是

怎样把错误的信息进行纠正、提升识别的准确率。图像输入的方法有两种:使

用手机摄像头为项目素材拍照并上传图像,或者直接从本地相册中上传图像。

(此步骤为人工操作)图象预处理通常是对图象成像问题进行校正,常见的图

象预处理过程有如下:图象分割、几何变换、文字方向校正、光线校正、增

强图象和除去模糊等。文本检测的任务也相对比较简单,检测图像中文本的位

置和范围,它主要解决了“文本在哪里,文本的宽度为多大”的问题。在文字

检测之后,程序将开始识别图像中文本的内容,并将其转化为可编辑的文本信

息,这就是文本识别的任务。文本识别除了要解决“每个字符是什么”的问题

之外,还不得不解决“这个字符我有没有识别错误?”的难题,这个环节也叫

做文本校正,程序在找到错误之后会尽可能对其修复。而到了移动操作一般是

在微信小程序中打开相机并拍照上传材料,即可完成图像输入。

3.4 产品录入方式的优势

操作便捷:通过移动端微信小程序对文档、图片或者影像或者科研项目

纸质材料进行识别一般都是几秒的时间,远远高于传统的手工录入,并录入

数据库,操作简便、快捷,使得文档、图片或者影像或者科研

项目纸质版材料信息录入方式获得了质的突破;

数据齐全:连接微信程序的数据库将结合文档、图片或

者影像或者科研项目纸质材料关键字段属性、现实需求三方面

进行设计,分类清晰,内容齐全,OCR文字识别的质量要高于

传统手工的录入,虽然OCR文字识别的准确率上看,无法达到

100%的准确,但是与手工录入相比,准确率还是高很多;

满足需求:OCR文字识别技术在连接微信程序使用的过程

中,通常只是一部手机或者一个电脑,只需要人操作即可,

并且工作效率很高,极大地节省了人力资源的消耗,从而解

决人力资源不足的问题,还可以解决本项目的应用到解决高

校科研项目纸质材料存在的问题,有利于满足高校关于快速

录入纸质数据并有序归入个人云空间以及进行长期有效存储

的需求,是想资源的优化配置。

综上所述,OCR技术在手机移动端微信小程序使用过程中

是很可行的,可以有效弟提高项目录入与输出的速度,保障项

目的质量,大大减少文档等管理工作所需的工作人员及其工作

量,更大限度地降低了文档等管理工作中的人力消耗。

基金项目:2018年广东省大学生创新创业课题“高

校科技成果转化创业实践途径的调查研究”(项目编号

10564033)。

随着社会现代化进程的逐步提高及我国经济的高速发

展,为满足社会大众的用电需求量,我国电网设备不断完

善,现阶段我国已成为世界上第一大电力生产国与使用国,

而电力物联网的发展关乎我国电网系统的走势与发展。因

此,针对电力互联网的关键技术分析是一项不容忽视的重要

课题,本文基于现有的电力物联网技术,对其关键技术进行

分析,并其探讨电网物联网的应用前景。

引言:电力物联网是一种依靠信息通信技术、物联网技

术、电力设备信息采集技术等建立起来的,当前网络发展中

出现的网络管理技术与传统电网系统管理技术相结合,逐步

为电网系统化、高智能发展奠定基础,因此,电力互联网的

关键技术的发展与实际应用是十分重要的研究课题。

图1 电力物联网的系统框图

1.电力物联网的基本特征及其作用

电力物联网指的是,通过使用各式各样的信息采集设备收集相

关信息,并通过信息汇总将现有的信息总

结与分析,结合电网运行的实际情况,把

最终信息分析结果反馈给用户及设计者。

在一个系统的电力物联网中,不仅包含信

息收集设备,同时还有信息处理与大数据

分析等数据分析装置,进而组成系统完整

的智能电力网络系统。

电力物联网的功能:

(1)实时监测电力系统中各设备的实

际运行情况,如:压强、温度、体积等;

(2)实时监测系统中各设备的运

行数据;

(3)即时追踪工作人员;

(4)给技术员提供可靠的信息。

电力物联网与智能电网均采用传

感设备将实时信息进行收集整理,进而

实现电力系统设备与网络相连,这在很

大程度上有助于实施监控设备的实际状

况,有助于更好地掌握设备状况与处理

设备故障。同时,有助于使用者与管理

者实时掌握与监控电网系统的运营,使

用电力数据传输与管理平台,很大程度

上保证了电力系统数据的准确收集与处

理,能够实现电力信息实时可靠的传

输,进而保证了电力系统运行的稳定性

与准确性。

广

95