解读人工智能语音转写技术在会议中的应用编程频道|福州电脑网

2024年5月2日发(作者：)

ELECTRONICS WORLD

・

技术交流

解

读

人

工

智

能

广

语

东

电

音

力

转

通

信

写

科

技

有

限

术

公

司

在

秦

会

凤

枝

议

中

的

应

用

•

190

•

关于会议情况的记录，通常是会秘书利用原始笔录和第一手材料记录参与

人员的讲话，但是考虑到人的讲话速度是快于书写速度的，所以会议秘书在

会议记录中通常是记录比较重要的部分，完整的会议内容无法完全记录。

虽然录音和录像能够将会议参与人员的讲话和整个会议过程记录下来，但

是会议记录通常还是要求文字形式的记录，录音或录像只能作为辅助材料，

文字仍然需要人工记录。现如今科学技术发展越来越快，人工智能语音识别

技术更是在逐渐成熟，如果能够利用语音技术开发智能程序，在会议过程中

自动生成文字并记录，会议秘书的工作量能够大大降低，只需要会后稍加整

理就可以，所以语音技术必然将成为未来会议记录中的关键技术。

随着时代的发展进步，我国正在大力发展信息技术，人工智能作为当今的

新一代热门技术，已经逐渐和各个行业相融合，人工智能技术的应用正在逐渐

加深。人工智能中的核心代表就是智能语音技术，该技术也是人工智能领域中

最为广泛的技术之一。智能语音技术包括多个部分，例如语音合成、语音识

别、口语评测、语义理解、自然语言理解等等。当前智能语音技术已经应用

在了多个领域，例如教育、医疗、智能家居、金融、智能客服等等，而且目

前最受欢迎的领域就是智能会议。会议进行中，如果每个人的发言都能够自

然、实时、有序、完整地转写为文字，文字能够和音频完全对应，进而通过

检索文字精准定位会议音频，这种会议记录方式对比音频视频录制、手写速

记拥有更明显的优势。

1 语音识别技术的发展及现状

国外的语音识别技术发展较早，从上世纪50年代开始，当时的AT&Tbell实

验室的Davis等人研制成功了世界上第一个能识别十个英文数字发音的实验系

统:Audyr系统。到了60年代，由于计算机的出现，语音识别技术发展速度大大

加快，期间出现了第一个计算机语音识别系统。进入90年代以后，网络技术高

速发展，多媒体时代来临，推动着语音识别技术从理论走向了实践。这期间

以美日韩为首的发达国家在语音识别领域处于领先地位，研发出了许多经典

的语音识别系统。如Google Voice、亚马逊Alexa、微软 Cortana和Apple的Siri

等等，都是在前人基础上研发出来的集大成者，并且到目前为止，Google 的

机器学习算法现在已经达到了95％的英语单词准确率。我国的语音识别研究

始于80年代，在改革开放以后发展迅速，成果斐然，在该领域也有华为、讯

飞等企业丝毫不逊色与国外，系统识别率最高可达90%，声调识别率为99.5%,

词的识别率为95%。

2 智能语音技术应用于会议记录中的优势

2.1 智能语音技术水平高

目前我国关于语音识别技术的研究已经达到了国际领先水平，特别是中

文识别，我国的语音识别系统处于国际一流地位。语音识别的核心在于语言模

型、声学模型以及解码器等。其中，声学模型的突破进步在于深度学习，随着

训练模型的数据库规模逐渐增长，深度神经网络的自适应问题、训练效率问题

都得到了解决。语言模型方面当前采用的主要还是N-Gram方案，尤其在训练数

据和更新频度方面都在重复利用大数据的优势，核心技术方面也在实行深度学

习。解码器当前采用的技术仍然是WFST技术路线，重点是更快解码，缩小尺

ELECTRONICS WORLD

・

技术交流

寸。现如今，我国的中文语音识别系统已经显著优于

国际语音公司的系统，尤其是科大讯飞的语音识别，

更是处于国际领先地位。

2.2 解决了混响降噪问题

会议召开的区域通常是要求能够完成日常交流

沟通和交谈的场所，并不是为了语音转写制造的专门

场所，所以先天上存在质量方面的缺陷，而且会议召

开参与人员发音、语速、环境等因素都会影响语音转

写准确度，机器的敏感度受到了较大的挑战。这要求

音频转写技术必须能够保证质量，尽可能解决混响降

噪的问题。语音转写中，混响降噪是比较难解决的问

题，如何在对话场景中解决这一问题是语音领域中的

重点研究内容。当前我国的语音转写技术提出了DNN

加混响和去混响技术，解决远场录音的混响问题。

2.3 语音转写结果可读性高

解决了混响降噪问题以后，语音转写的基础环境

得到了技术层面的改善，想要真正达成语音转写的目

标，在会议场景下能够正常使用，要求必须提升语音

转写的可读性，这需要从多方面提升语音转写技术水

平。首先，结合声学属性识别和声学置信度技术提升

异常语音的监测能力，能够提取关键技术，改善内容

的可读性；其次，正确划分语义段落，参考句子的级

别语义聚类和关联逻辑、特殊提示词和停顿长度等信

息将较长的内容转写为若干个独立的段落，提取关键

信息；最后，得到语义摘要，参考传统文本中的自动

摘要，可以根据语音中说话人的语气、强调、重复信

息分析一段语音中的关键信息，从长时语音中找到需

要转写的重点内容。

2.4 能够定制语言模型

会议中的环境，不同的发言人有着不同的特点，

口音、方言、口语化、语气词都非常常见，不同领域

和主题的会议也有不同的专业词汇要求。目前我国的

语音转写技术能够根据会议主题定制语言模型，同时

加强声学模型自适应能力。

我国近年来在智能语音技术方面取得了突飞猛进的

进步，尤其是中文语音方面，更是领先国际市场，借助

当前的智能语音技术为会议制定智能会议系统，必然能

够为相关的企事业单位提供更多的便利，降低会议记录

成本。当前我国的部分公司已经有了较成熟的产品，能

够基于自然语言识别撰写技术在会议场景下对音频和视

频进行采集，将语音转变成文字，系统能够延时播放、

辅助编辑、按句回听、重点标记，更加方便快捷的总结

会议记录，效果方面能够过滤语气词、优化关键词、自

动分段、分离说话人角色、优化文字结果、实现全文检索。

3 智能语音技术在会议记录中的具体应用

人工智能语音识别技术应用的关键技术包括下列几方面：

语音技术选择。语音技术是最为关键的一项，该技术包括多个

方面，分别是语音听写、语义理解以及命令词识别。听写技术能够准

确识别分词，将识别到的语音转变成文字；语义理解技术能够对用户

所说的话语进行需求分析，返回用户关心的查询结果；命令词识别技

术能够参考语法规则识别用户所说话语中的关键词，进而实现语音转

写控制。部分公司的产品可提供利用手机APP、语音识别一体机或定

制开发产品进行会议记录，关键在于转变参与会议人员的话语，通过

文字完成会议记录，所以采用语音听写技术更为合适，能够更加快速

地记录会议内容。语音识别技术还分为云端识别技术和本地识别技

术，想要获得更准确的识别效果，建议采用云端识别技术。

语音听写流程。本文以科大讯飞语音转写为例，第一步，导入

SDK文件，将Android SDK压缩包中的libs文件中的所有文件都复制

到手机APP的相应文件夹中；第二步，在APP中添加相关的权限，

包括网络连接权限、录音机使用权限、网络信息转台读取权限、获

取无线网络状态权限等等；第三步，创建语音配置对象，也就是

初始化平台，本文APP的引擎模式设置是“auto”；第四步，创建

SpeechRecognizer对象，云端识别需要将参数设定为“null”；第五

步，设置听写参数，具体包括应用领域和语言区域，本文手机APP

涉及到的领域是短信和日常用语，语言区域是中国；第六步，开始

听写，将识别到的语音转变成文字记录下来。

上传用户自定义词表。会议会随着企业和人员本身的影响具

有自身的专业特点，特定会议更是拥有特定的词语，在会议开始之

前，用户可以自定义特定的词语，将其上传到云端，提升整个会议

的语音识别准确率。

识别结果处理。语音听写得到的结果会形成JSON格式的文

档，属于轻量级的数据交换格式，方便机器对数据进行解析，用户

阅读和编写也比较方便。语音识别模块处理语音得到JSON文件以

后，通过顺序检测“cw”能够得到合成语音识别的结果。如果识

别过程中发现多个“w”，那么说明候选结果比较多，这时需要选

择得分更高的识别结果，提升识别准确性。

结束语：我国在智能语音技术的基础上开发的智能会议记录

系统能够基本实现对专题会议和办公会议的自适应语音转写支持，

将该系统进一步延伸，能够延展到教育、速记、媒体等多个领域。

当前我国的会议语音转写难点在于实时性和准确性的要求，语音转

写系统的核心价值就是实时性和准确性。摸查发现，目前国内领先

的智能语音识别技术在会议系统对于普通话的转写准确率能够达到

90%以上，该准确率已经达到了实用水平，可以进一步推广到各个

领域的自然语言转写记录应用中。我们相信，未来智能语音转写技

术必然能够为我们的生活和未来带来更多的可能。

•

191

•

解读人工智能语音转写技术在会议中的应用

发布评论取消回复

最近发表

相关推荐

标签列表

解读人工智能语音转写技术在会议中的应用

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复