2024年5月13日发(作者:)

人工智能深度合成图像系统技术规范

1范围

本文件确立了深度合成图像(含视频)系统的框架,规定了系统技术要求,描述了对应的测试评价

方法。

本文件适用于深度合成图像系统的设计、开发、测试、评估、管理等。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T5271.29—2000信息技术词汇第29部分:人工智能语音识别与合成

GB/T21023—2007中文语音识别系统通用技术规范

GB/T36464.3—2018信息技术智能语音交互系统第3部分:智能客服

3术语和定义

GB/T5271.29—2000界定的以及下列术语和定义适用于本文件。

3.1

深度合成技术deepsynthesistechnology

利用以深度学习、虚拟现实为代表的生成合成类算法,在制作文本、图像、音频、视频、虚拟场景

等过程中合成内容的技术。

注:深度合成技术应用场景包括包括语音合成、人脸再现、全身合成、数字虚拟人、虚拟现实等。

3.2

深度合成图像系统deepsyntheticimagesystem

采用AI技术用于人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等对图像、视频中人脸

等生物特征进行生成或者编辑的技术系统。

注:深度合成图像系统的应用场景包括AI人像、美颜、换脸、影视动画制作等。

3.3

图像生成imagegeneration

从现有数据集生成图像的过程。

1

3.4

图像合成imagecomposition

把来自一张图片或者不同图片的多个视觉元素前景剪切下来,粘贴到另外一张背景图片上,得到一

张合成图像。

注:图像生成和图形合成的区别,图像生成负责由无到有,图像合成负责从有到优。

3.5

语音合成speechsynthesis

人工语音的生成。

[来源:GB/T5271.29—2000,12.01.53]

3.6

深度合成2D人像deepsynthesisof2Dportraits

基于深度合成技术生成的二维人像,包括图像、视频和语音。

3.7

深度合成3D人像deepsynthesisof3Dportraits

基于深度合成技术生成的三维人像,包括图像、视频和语音。

4缩略语

下列缩略语适用于本文件。

AI:人工智能(ArtificialIntelligence)

API:应用程序编程接口(ApplicationProgrammingInterface)

DS:深度合成(DeepSynthesis)

EAO:平均重叠期望(Expectedaverageoverlap)

FID:距离得分(FrechetInceptionDistancescore)

GAN:对抗式生成网络(GenerativeAdversarialNetwork)

IoU:交并比(IntersectionoverUnion)

mAP:平均精确度均值(meanAveragePrecision)

MIoU:平均交并比(MeanIntersectionoverUnion)

NeRF:

神经辐射场(

NeuralRadianceFields)

NLP:自然语言理解(NatureLanguageProcess)

PGAN:渐进式增长生成对抗网络(ProgressiveGenerativeAdversarialNetwork)

PSNR:峰值信噪比(PeakSignal-to-NoiseRatio)

SDK:软件开发工具包(SoftwareDevelopmentKit)

SSIM:结构相似性(StructuralSimilarityIndexMeasure)

StarGAN:星型生成对抗网络(StarGenerativeAdversarialNetwork)

StyleGAN:风格生成对抗网络(StyleGenerativeAdversarialNetwork)

TTS:从文本到语音(TextToSpeech)

VAE变分自编码器(VariationalAuto-Encoder)

2D:二维(2-Dimensional)

3D:三维(3-Dimensional)

2