GB/T 46483-2025 信息技术 客服型虚拟数字人通用技术要求
- 名 称:GB/T 46483-2025 信息技术 客服型虚拟数字人通用技术要求 - 下载地址2
- 下载地址:[下载地址2]
- 提 取 码:
- 浏览次数:3
发表评论
加入收藏夹
错误报告
目录| 新闻评论(共有 0 条评论) |
资料介绍
ICS 35.240 CCS L 70
中 华 人 民 共 和 国 国 家 标 准
GB/T 46483—2025
信息技术 客服型虚拟数字人通用
技术要求
Information technology—Generaltechnicalrequirementsforcustomer
servicevirtualdigitalhuman
2025-10-05发布 2025-10-05实施
国家市场监督管理总局国家标准化管理委员会
发
布
GB/T 46483—2025
目 次
前言 Ⅲ
1 范围 1
2 规范性引用文件 1
3 术语和定义 1
4 缩略语 2
5 参考框架 3
6 功能要求 4
6. 1 形象生成 4
6. 2 视觉交互 5
6. 3 语音交互 6
6. 4 情感交互 7
6. 5 形象驱动 8
6. 6 运营维护 9
7 性能要求 9
7. 1 数字人形象 9
7. 2 视觉交互 10
7. 3 语音交互 10
7. 4 情感交互 11
参考文献 12
Ⅰ
GB/T 46483—2025
前 言
本文件按照 GB/T 1. 1—2020《标准化工作导则 第 1部分 :标准化文件的结构和起草规则》的规定起草 。
请注意本文件的某些内容可能涉及专利 。本文件的发布机构不承担识别专利的责任 。
本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归 口 。
本文件起草单位 :北京市商汤科技开发有限公司 、中国电子技术标准化研究院 、深圳赛西信息技术有限公司 、厦门赛西科技发展有限责任公司 、北京理工大学 、北京津发科技股份有限公司 、北京赢动实认证服务有限公司 、中移(杭州)信息技术有限公司 、广州趣丸网络科技有限公司 、科大讯飞股份有限公司 、鹏城实验室 、北京海纳数聚科技有限公司 、咪咕文化科技有限公司 、南方电网电力科技股份有限公司 、中仪英斯泰克科技有限公司 、深圳众投互联信息技术有限公司 、北京国际云转播科技有限公司 、成都市凯瑞医疗科技有限公司 、浙江云澎科技有限公司 、三人行数据(广东)股份公司 、世优(北京) 科技股份有限公司 、杭州一知智能科技有限公司 、雷鸟创新技术(深圳) 有限公司 、睿魔智能科技(深圳) 有限公司 、广东天网智城科技有限公司 、联通在线信息科技有限公司 、道有道科技集团股份公司 、深圳媲美科技有限公司 、广东粤电信息科技有限公司 、广州开发区粤电新能源有限公司 、北京北纬三十度网络科技有限公司 。
本文件主要起草人 :徐柏 琦 、潘 榕 、李 亚 健 、李 斌 、许 亲 亲 、吴 庚 、王 和 俊 、董 桂 官 、孙 齐 锋 、耿 一 丹 、史培宁 、曾洁琪 、梁继允 、冯南飞 、柯绍棠 、翁冬冬 、赵起超 、吕克勤 、陈大庆 、任少峰 、王清菊 、何山 、郭洁 、张旭 、毕蕾 、石磊 、张 顺 四 、郑 培 文 、贺 钦 、唐 传 广 、张 美 静 、王 秋 霖 、刘 浙 东 、阮 锐 师 、纪 智 辉 、陈 哲 乾 、欧阳琼林 、张明 、何社超 、高德扬 、周建修 、张纾翔 、陈禹明 、陈科 、邓先才 、张君杰 、牛龙飞 、梁良 、邵臻霖 、张云澎 。
Ⅲ
GB/T 46483—2025
信息技术 客服型虚拟数字人通用
技术要求
1 范围
本文件规定了客服型虚拟数字人系统参考框架 、功能和性能的要求 。
本文件适用于客服型虚拟数字人系统的设计 、开发 、测试 、应用和维护等 。
注 : 在本文件中 ,为方便表述 ,“虚拟数字人 ”简称为 “数字人 ”,该简称仅用于文件内部 ,不作为标准术语 。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款 。其中 , 注 日期的引用文件 ,仅该日期对应的版本适用于本文件 ;不注日期的引用文件 ,其最新版本(包括所有的修改单) 适用于本文件 。
GB/T 36464. 1—2020 信息技术 智能语音交互系统 第 1部分 :通用规范
GB/T 34083—2017 中文语音识别互联网服务接口规范
3 术语和定义
下列术语和定义适用于本文件 。
3. 1
虚拟数字人 virtualdigitalhuman
通过计算机图形学 、计算机视觉和语音交互及人工智能生成内容(AIGC) 等技术 ,进行形象 、声音 、动作等模型训练后 ,借助真人或计算驱动 、在多模态输出设备呈现的虚拟人物 。
3.2
客服型虚拟数字人 customerservicevirtualdigitalhuman
面向特定行业应用 ,具有开展客户服务功能的虚拟数字人 。
3.3
2D虚拟数字人 2D virtualdigitalhuman
以二维平面形式呈现的数字人 。
注 : 2D虚拟数字人包括 2D拟真人 、2D卡通等不同风格 。2D拟真人数字人形象通常基于真人形象采集或 AIGC生成的人物图片 、视频 ,借助人工智能技术训练生成;2D卡通数字人形象通常基于手绘或图像处理软件等方式绘制而成 。
3.4
3D虚拟数字人 3D virtualdigitalhuman
以三维立体形式呈现的数字人 。
注 : 3D虚拟数字人包括 3D超写实 、3D拟真人 、3D卡通等不同风格 。3D虚拟数字人形象通常基于 3D建模软件或AIGC算法创建 ,通过 复 杂 的 建 模 、材 质 贴 图 、绑 定 等 操 作 生 成 , 或 通 过 神 经 辐 射 场 (NeRF, Neural Radiance Field) 、3D高斯泼溅(3DGS,3D Gaussian Splatting)等算法生成 。
3.5
语音唤醒 speech wakeup;voice trigger
处于音频流监听状态的语音交互系统 ,在检测到特定的特征或事件出现后 ,切换到命令字识别 、连续语音识别等其他处理状态的过程 。
1
GB/T 46483—2025
[来源 :GB/T 36464. 1—2020,3. 17] 3.6
端点检测 voiceactivitydetection
一种用于分析 、判断连续音频流中有效语音起始点和结束点的语音处理技术 。
[来源 :GB/T 36464. 1—2020,3. 22] 3.7
语音识别 speech recognition
将人类的声音信号转化为文字或者指令的过程 。
[来源 :GB/T 21023—2007,3. 1] 3. 8
语义理解 semanticcomprehension
理解数据符号的语 义 信 息 , 或 在 具 体 业 务 场 景 下 的 需 求 表 达 , 并 按 照 要 求 输 出 正 确 反 馈 结 果 的过程 。
[来源 :GB/T 36464. 3—2018,3. 6] 3.9
语音合成 speech synthesis
通过机械的 、电子的方法合成人类语言的过程 。
[来源 :GB/T 21024—2007,3. 1]
3. 10
手势识别 gesturerecognition
从输入的手势数据判别出手势 。
[来源 :GB/T 38665. 1—2020,3. 5]
3. 11
肢体动作识别 limb recognition
从输入的肢体数据判别出肢体动作 。
3. 12
情感交互 affective interaction
利用用户情感或满足用户情感需求的人机交互过程 。
[来源 :GB/T 40691—2021,3. 3]
3. 13
建模 modeling
以能加以操纵的形式创建表示三维形状的模型的做法 。
[来源 :GB/T 5271. 13—2008,13. 01. 08,有修改]
3. 14
渲染 rendering
从 2D/3D模型中生成数据 、更新模拟并渲染给定显示设备的呈现输出的过程 。
[来源 :GB/T 44020—2024,9. 1]
3. 15
动作捕捉 motion capture
通过对视频序列中 目标动作进行跟踪采样 ,并利用该采样信息对连续动作进行表示的方法 。
[来源 :GB/T 41864—2022,3. 6. 3. 11]
4 缩略语
下列缩略语适用于本文件 。
2
GB/T 46483—2025
AIGC:人工智能生成内容(ArtificialIntelligence Generated Content)
CG:计算机图形(Computer Graphics)
MOS:平均意见得分(Mean Opinion Score)
STA:语音动画合成(Speech to Animation)
5 参考框架
客服型虚拟数字人系统包括形象生成 、视觉交互 、语音交互 、情感交互 、形象驱动和运营维护模块 ,其中 :
a) 形象生成模块包括 2D数字人形象生成和 3D数字人形象生成等功能 ;
b) 视觉交互模块包括视觉采集 、视觉唤醒 、主体人识别 、手势识别 、肢体动作识别等功能 ;
c) 语音交互模块包括语音采集 、语音唤醒 、端点检测 、语音识别 、语义理解 、语音合成 、知识管理等功能 ;
d) 情感交互模块包括情感采集 、情感识别 、情感决策与表达等功能 ;
e) 形象驱动模块可按照驱动方式和驱动范围进行划分 ;
f) 运营维护模块包括后台接入 、关键词维护 、静态引导提示 、语料维护 、服务流程维护等功能 。
客服型虚拟数字人系统参考框架见图 1。
注 : 虚线表示的模块单元不在本文件进行要求 。
图 1 客服型虚拟数字人系统参考框架
3
GB/T 46483—2025
6 功能要求
6. 1 形象生成
6. 1. 1 2D数字人形象生成
2D数字人形象生成包括以下功能 。
a) 2D拟真人形象通常基于真人形象采集或 AIGC技术生成的人物图片 、视频 ,借助人工智能技术训练生成 :
1) 应保证生成的数字人以头部 、半身或全身的形态完整呈现 ;
2) 应保证生成的数字人形象脸部 、嘴巴 、牙齿等五官细节完整 、清晰可见且静态表情自然 ,光线均匀无阴影 ;
3) 宜支持对数字人形象美颜 、服饰更换 、装饰添加 、背景替换等二次编辑 ,宜支持基于语义的二次编辑 ;
4) 宜支持 2D数字人风格迁移功能 ,根据选定的风格模板对数字人形象进行风格匹配 。
b) 2D卡通形象通常基于手绘或图像处理软件等方式绘制而成 :
1) 应使用手绘或图像处理软件 ,通过造型设计 、绘制线稿 、上色 、添加细节编辑来创造 ;
2) 生成的数字人形象包含头部 、身体 、四肢和面部特征 ,确保角色形象完整 ;
3) 生成的数字人形象应符合角色的年龄 、性别 、性格 、职业等身份设定 ,具备自然的面部表情和肢体动作 。
6. 1.2 3D数字人形象生成
3D数字人形象通常基于 3D建模软件创建 ,并通过复杂的建模 、材质贴图 、绑定等操作生成 , 主要包括以下功能 :
a) 应支持 3D超写实 、3D拟真人 、3D卡通等不同风格中的一种或多种 ,并支持形象个性化定制 ;
b) 应支持人物建模 ,通过 CG建模 、静态扫描建模 、动态光场重建等建模方式 ,在虚拟环境中 ,根据数字人的风格特征确定拓扑结构建立虚拟人的形状 ;
注 1: 光场重建是指基于光场相机对场景进行观测并构建三维模型的过程 。
注 2: 虚拟环境指由计算机生成的具 有 动 态 感 官 信 息 表 现(如 双 眼 立 体 视 觉 、三 维 听 觉 、力 触 觉 、味 觉 及 嗅 觉等)的 、多虚拟对象构成的环境 。
c) 应支持面部骨骼绑定 ,通过面部骨骼与关键特征点进行绑定 ,控制角色的五官的位置和形状 ,实现基于面部五官的调整的面部表情和口型驱动 ;
d) 应支持肢体骨骼绑定 ,通过搭建肢体骨骼 、创建骨骼联动 、绘制骨骼蒙皮 ,实现半身或全身的肢体驱动和手势驱动 ;
e) 应支持材质匹配 ,针对不同形象风格的数字人模型 ,匹配相符的皮肤 、毛发 、妆容 、服饰等材质 ;
f) 应支持光线制作 ,模拟自然界光线和人工光线 ;
g) 宜支持真实感效果渲染 ,包括数字人皮肤 、毛发 、妆容 、服饰等逼真效果的渲染 , 以及各种特效的渲染等 ;
h) 宜支持三维重建生成 ,基于三维重建技术 ,通过采集目标对象的脸部 、躯体 、肢体等信息 ,生成不同形象风格的数字人模型 ;
i) 宜支持智能生成 , 基 于 AIGC技 术 , 通 过 输 入 图 片 或 文 字 描 述 , 自 动 生 成 符 合 描 述 的 数 字 人模型 。
4
GB/T 46483—2025
6.2 视觉交互
6.2. 1 视觉采集
应支持通过摄像头采集用户的人脸 、手势 、肢体动作 ,并将其转换成计算机能处理的图像或视频数据信息 。
6.2.2 视觉唤醒
视觉唤醒包括以下功能 :
a) 应支持视觉人体感知 ,通过视觉人体感知实现系统唤醒 , 当感知到人体接近时 , 能主动引导用户 ,开启语音交互 ;
b) 应支持视觉人脸感知 ,通过视觉人脸感知实现系统唤醒 , 当感知到人脸注视时 , 能主动引导用户 ,开启语音交互 。
6.2.3 主体人识别
主体人识别包括以下功能 :
a) 应支持主体人检测 ,通过对用户口型进行识别 ,判断当前用户是否说话 ,保证对话主体人的准确性 ;
b) 应支持主体人追踪 ,通过对主体人目标进行追踪 , 当主体人移动 、转动时 ,系统能保持与主体人的交互状态 ;
c) 应支持主体人分离 ,能在复杂声音环境下分离不同主体人的不同语言 ;
d) 应支持主体人属性识别 ,例如性别 、年龄 ,是否佩戴口罩 ,是否戴眼镜等 ,并根据不同属性提供相应的问候接待以及后续服务 。
6.2.4 手势识别
手势识别包括以下功能 。
a) 宜支持手势数据集预置 ,通过预先设置手势数据集 ,定义每个手势所代表的含义 。
b) 手势数据集包括以下要求 :
1) 手势集中任意两个手势之间的相似程度应控制在低水平 , 以便区分 ;
2) 手势集中的手势宜简单易行 ;
3) 手势集中手势易于被输入设备感知 ,应适应于不同输入设备 ,设计不同手势集合数据集 。
c) 宜支持提供与手势数据集对应的识别算法的程序集 ,使系统能对用户输入的手势进行识别 。
6.2.5 肢体动作识别
肢体动作识别包括以下功能 。
a) 宜支持肢体动作数据集预置 , 通过预先设置肢体动作数据集 ,定义每个肢体动作所代表的含义 ,肢体动作数据集包括以下要求 :
1) 肢体动作集中任意两个肢体动作之间的相似程度应控制在低水平 , 以便区分 ;
2) 肢体动作集中的肢体动作宜简单易行 ;
3) 肢体动作集中肢体动作易于被输入设备感知 ,应适应于不同输入设备 ,设计不同肢体动作集合 。
b) 宜支持提供与肢体动作数据集对应的识别算法的程序集 ,使系统能对用户输入的肢体动作进行识别 。
5
GB/T 46483—2025
6.3 语音交互
6.3. 1 语音采集
语音采集应符合 GB/T 36464. 1—2020 中 5. 1 的要求 。
6.3.2 语音唤醒
语音唤醒应符合 GB/T 36464. 1—2020 中 7. 1 的要求 。
6.3.3 端点检测
端点检测应符合 GB/T 36464. 1—2020 中 8. 4 的要求 。
6.3.4 语音识别
语音识别包括以下功能 :
a) 应支持中文语音识别 ,面向特定场景和对象 ,提供中文关键词语音识别和连续语音识别服务 ;
b) 宜支持多语种识别 ,面向特定场景和对象 ,提供英语 、法语 、西班牙语等多语种识别服务 ;
c) 宜支持多方言识别 ,面向特定场景和对象 ,提供粤语 、沪语 、闽南语等多方言识别服务 ;
d) 宜支持多语种混读识别 ,针对中文语句中包含其他语种单词 、数字的进行识别服务 ;
e) 宜支持自定义识别 ,提供自定义语法、自定义热词、个性化识别等识别服务 ,并符合 GB/T 34083— 2017中 4.2和 4.3 的要求 ;
f) 宜支持识别结果处理 , 提供识别结果多候选 、识别结果进阶等服务 ,符合 GB/T 34083—2017中 4. 3 的要求 ;
g) 宜支持语言信息识别 ,能够给出语音所对应的语言信息 ,如语种 、方言种类等 。
6.3.5 语义理解
语义理解包括以下功能 :
a) 应支持自然语言理解 ,包括意图理解 、模糊识别 、语义抽取 、语义排序 、意图分类等 ,能理解说话人的意图 ;
b) 宜支持命名实体识别 ,能对人名 、地名 、机构名 、专有名词 、简称 、别称 、缩写等具有特定意义的实体进行识别 ;
c) 应支持敏感信息识别 ,能根据上下文对输入文本中的敏感内容进行分辨 ;
d) 应支持语义拒识 ,能对无法处理或不应当处理的无效文本输入内容进行分辨和拒识 ;
e) 应支持对话引导 ,能根据说话人的意图和场景需求动态生成引导提示用语 ,引导用户对其最终目的进行陈述 ;
f) 应支持多轮对话 ,包括对话状态跟踪 、对话策略管理 、对话意图切换 、跳转及历史信息继承 ,具备上下文相关的多轮会话的功能 ;
g) 应支持自然语言生成 ,能根据语义理解结果生成自然语言文本 ,并符合说话人的意图 、满足语音交互响应 ;
h) 宜支持信息检索 , 具 备 个 性 化 词 典 检 索 、第 三 方 信 源 检 索 、自 定 义 知 识 库 检 索 等 信 息 检 索 的功能 ;
i) 宜支持文本相似度计算 ,能根据输入的文本数据 ,计算其与已有文本的语义信息一致性程度 ;
j) 宜支持检索结果排序 ,可利用信息检索和文本相似度分别计算关联系数 ,并对结果进行排序 ;
k) 宜支持文本修改 ,能对对话中的前一句文本进行修改 ;
6
GB/T 46483—2025
l) 宜支持语义修正 ,能对语义理解错误的结果进行自动校正 ;
m) 宜支持逻辑推理 ,能对文本内容的逻辑计算和推导 。
6.3.6 语音合成
语音合成包括以下功能 :
a) 应支持中文语音合成 ,能将规定格式的中文合成文本转换成对应的语音 ;
b) 应支持流式语音合成 ,能将多次连续合成音频进行拼接后得到完整的合成音频 ;
c) 应支持多种合成文本编码 ,能提供多种字符编码格式的合成文本 ;
d) 宜支持多语种合成 ,能提供其他语种的语音合成 ,如英语 、法语 、西班牙语等 ;
e) 宜支持多方言合成 ,能提供指定方言的语音合成 ,粤语 、沪语 、闽南语等 ;
f) 宜支持多语种混读合成 ,能提供中文语音与英语的语音合成 ;
g) 宜支持多音色 合 成 , 能 提 供 多 种 音 色 的 音 频 特 征 库 供 用 户 选 择 , 如 青 年 男 声 、青 年 女 声 、童声等 ;
h) 宜支持个性化合成 ,能提供训练个性化音色库并使用个性化音色库进行语音合成 ;
i) 宜支持用户 自定义分词 ,能按照用户指定的合成文本分词方式进行语音合成 ;
j) 宜支持用户 自定义读音 ,能按照用户指定的读音或方式进行语音合成 。
6.3.7 知识管理
知识管理包括以下功能 :
a) 宜支持接入本地和在线的预置知识库 、知识图谱 、语言模型 , 由用户 自主配置触发条件 ;
b) 宜支持知识分段切片存储 ,按照默认或自定义规则将知识内容切片存储 ;
c) 宜支持知识自动化抽取 ,对多种模态数据进行结构化 ,建立知识索引 ;
d) 宜支持知识检索 ,提供多种方式对存储的内容片段进行检索 ;
e) 宜支持知识调用 、知识推理和知识统计等 ,满足符合业务场景需求 ;
f) 宜支持多场景对话 ,包括基于知识库的特定领域问答 、开放领域问答等 ;
g) 宜支持知识内容维护 ,对知识片段进行增加 、删除 、修改等操作 。
6.4 情感交互
6.4. 1 情感采集
情感采集包括以下功能 :
a) 宜支持表情采集 ,通过摄像头采集用户的表情 ,如微笑 、皱眉等 ,并将其转换成计算机能处理的图像或视频数据信息 ;
b) 宜支持姿态情感采集 ,通过摄像头采集用户的姿态情感 ,如点头 、摇头等 ,并将其转换成计算机能处理的图像或视频数据信息 ;
c) 宜支持语音情感采集 ,通过系统的拾音设备采集用户语音情感 ,如语气 、语调 、音量等 ,并将其转换成计算机能处理的语音特征信息 。
6.4.2 情感识别
情感识别包括以下功能 。
a) 宜支持表情识别 ,预先设置表情数据集 ,通过识别用户输入的表情信息 ,识别用户的情感状态 ,表情数据集包含以下要求 :
1) 表情数据集中任意两个表情之间的相似程度应控制在低水平 , 以便区分 ;
7
GB/T 46483—2025
2) 表情数据集中的表情宜简单易行 ;
3) 表情数据集中表情易于被输入设备感知 。
b) 宜支持姿态情感识别 ,预先设置姿态情感数据集 ,通过识别用户输入的姿态数据 ,识别用户的情感状态 ,姿态情感数据集包含以下要求 :
1) 姿态情感数据集中任意两个姿态之间的相似程度应控制在低水平 , 以便区分 ;
2) 姿态情感数据集中的姿态宜简单易行 ;
3) 姿态情感数据集中姿态易于被输入设备感知 。
c) 宜支持语音情感识别 ,基于语音特征信息 ,识别用户的情感状态 。
d) 宜支持文本情感识别 ,基于文本信息 ,对文本的情感极性进行分类 ,识别用户的用户情感状态 。
6.4.3 情感决策与表达
情感决策与表达包括以下功能 :
a) 宜支持情感决策 ,通过表情信息识别用户的情感状态 ,对用户的情感意图进行推断与决策 ,推测用户希望获得的情感反馈 ;
b) 宜支持情感表达 ,根据情感决策的结果 ,通过表情生成 、肢体及手势生成 、情感语音合成等模态输出数字人情感表达的内容 。
6.5 形象驱动
6.5. 1 驱动方式
数字人形象应支持以下一种或多种驱动方式 。
a) 文本驱动 :基于目标文本生成对应的语音 、口型 、表情 、手势 、肢体动作 ,将合成音视频呈现给用户 。
b) 语音驱动 :基于语音信息生成对应的语音 、口型 、表情 、手势 、肢体动作 ,并合成音视频呈现给用户 。
c) 真人驱动 :基于传感器或摄像头捕捉真人的口型 、表情 、手势 、肢体动作 ,并迁移到数字人形象上 ,并合成音视频呈现给用户 。
注 : 数字人系统通常支持一种或多种类型真人动作捕捉 设 备 或 技 术 ,如 光 学 动 作 捕 捉 设 备 、惯 性 动 作 捕 捉 设备以及计算机视觉技术 。
d) 视频驱动 :基于真人的视频输入进行数字人的驱动 ,捕捉视频中的真人的口型 、表情 、手势 、肢体动作 ,并迁移到数字人形象上 ,并合成音视频呈现给用户 。
e) 动画驱动 :基于提供的脸部表情和肢体动作等动画文件信息迁移到数字人形象上 ,进行对应的表情和动作的展示 。
f) 穿戴设备驱动 :通过穿戴式设备采集肢体动作 、面部表情及生物特征等多种传感器数据 ,并将其映射至数字人形象上 ,实现对应的动作与表情展示 。
6.5.2 驱动范围
数字人形象驱动范围涉及口型 、表情 、手势 、肢体等 ,具体功能如下 :
a) 应支持口型驱动 :基于文本 、语音和口型数据进行模型训练的 STA 口型驱动 ,实现口型与语音同步 ;
b) 宜支持表情驱动 ,通过眼皮 、眼睛 、眉毛 、鼻子 、嘴巴和脸部的肌肉组例如苹果肌 、法令纹 、抬头纹等局部表情细节联动实现的面部表情驱动 ,实现表情与语音同步 ;
c) 宜支持手势驱动 :通过手指骨骼关键点联动实现手势驱动 ,包含手腕 , 五指所有关节的旋转和位置信息 ,实现手势动作与语音同步 ;
8
GB/T 46483—2025
d) 宜支持肢体动作驱动 :通过肢体骨骼关键点联动实现肢体驱动 ,实现肢体动作与语音同步 。
6.6 运营维护
6.6. 1 后台接入
后台接入符合以下功能 :
a) 应具备面对复杂问题 、紧急需求等系统无法有效处理的情形 ,后台可接入直接与用户实现交互的功能 ;
b) 宜 具 备 故 障 自 动 切 换 和 灾 备 功 能 , 确 保 系 统 7× 24 h 连 续 运 行 , 避 免 因 单 点 故 障 导 致 服 务中断 ;
c) 宜提供详尽的系统日志记录和实时监控功能 ,涵盖请求流量 、响应时间 、错误率等指标 ,便于快速排查问题 。
6.6.2 关键词维护
关键词维护包含以下功能 :
a) 应具备根据业务需求 ,增加 、删除 、修改系统服务的特征关键词的功能 ;
b) 宜支持语义扩展 功 能 , 基 于 核 心 关 键 词 生 成 同 义 词 、近 义 词 或 常 见 拼 写 错 误 , 提 升 语 义 匹 配能力 ;
c) 应具备对部分涉及敏感信息的关键词屏蔽功能 ,宜支持涉及敏感信息的关键词的同义词 、近义词等的屏蔽功能 。
6.6.3 静态引导提示
应具备静态引导提示功能 , 即根据业务需求的引导提示功能 ,应具备人工增加 、删除 、修改系统服务的提示用语功能 。
6.6.4 语料维护
语料维护功能包含以下功能 :
a) 宜具备根据业务需求的语料维护功能 ,增加 、删除 、修改系统服务的特征语法 ;
b) 宜支持语料版本管理 ,包括语料的版本化管理 、回滚功能等 ,确保语料更新后能快速还原至稳定版本 。
6.6.5 服务流程维护
服务流程维护包含以下功能 :
a) 宜具备根据业务需求的服务流程维护功能 ,增加 、删除 、修改系统服务流程 ;
b) 宜支持流程节点监控 ,对服务流程中的每个节点进行实时监控 ,提供耗时等关键指标 ,便于定位优化点 ;
c) 宜支持异常处理分支 ,服务流程需包含异常分支设计(如超时 、用户中断等) ,保障非预期场景下的服务稳定性 ;
d) 宜支持历史流程管理功能 ,包括记录每次流程调整的历史版本和操作人员以及版本回溯和复用等 。
7 性能要求
7. 1 数字人形象
数字人形象的性能应符合表 1 的规定 。
9
GB/T 46483—2025
表 1 数字人形象性能要求
功能
性能指标
性能要求
2D数字人形象生成
输出视频分辨率
1 920× 1 080及以上
输出视频帧率
25帧/s及以上
3D数字人形象生成
人物整体模型面数
卡通风格 :5 万面 ~ 8万面
拟真人风格 :15万面 ~ 20万面
超写实风格 :20万面 ~ 40万面
贴图分辨率
卡通风格 :1 024×1 024~ 2 048× 2 048拟真人风格 :2 048× 2 048~ 4 096× 4 096
超写实风格 :4 096× 4 096~ 8 192× 8 192
脸部混合形状数量
基础数量 :52维度
高精度 :118维度及以上
穿模率a
不高于 10%
形象驱动
口型驱动准确率
不低于 90%
动作匹配准确率
不低于 80%
音画合成平均意见得分(MOS)
大于或等于 4. 0(满分 5. 0)
a “穿模率 ”是在一定数量的模型帧或渲染场景中 , 出现穿模现象的帧占总渲染帧数的比率 ,通常表示为百分比 。
7.2 视觉交互
视觉交互的性能应符合表 2 的规定 。
表 2 视觉交互性能要求
功能
性能指标
性能要求
视觉唤醒
唤醒速度/s
≤2
唤醒正确率
≥90%
主体人识别
响应速度/s
≤2
主体人识别率
≥90%
手势识别
手势交互成功率
a) 手势集中任一手势的交互成功率 ≥80% ;
b) 手势集中所有手势的平均交互成功率 ≥90%
肢体动作识别
肢体动作交互成功率
a) 肢体动作集中任一肢体动作的交互成功率 ≥80% ;
b) 肢体动作集中所有肢体动作的平均交互成功率 ≥90%
7.3 语音交互
语音交互的性能应符合表 3 的规定 。
10
GB/T 46483—2025
表 3 语音交互性能要求
功能
性能指标
指标解释/测试条件
性能要求
语音唤醒
唤醒正确率
45 dB(A)
≥85%
50 dB(A)
≥75%
55 dB(A)
≥65%
端点检测
端点检测准确率
检测被测系统的端点检测能力
≥90%
语音识别
字准确率
45 dB(A)
≥90%
50 dB(A)
≥85%
55 dB(A)
≥80%
句识别率
45 dB(A)
≥90%
50 dB(A)
≥85%
55 dB(A)
≥80%
语义理解
语义理解正确率
操作意图及语义要素均被正确判断的次数/输入被
正确识别出文本信息的总次数
≥85%
语音合成
语音合成平均意见
得分(MOS)
平均意见得分(MOS)是语音质量的一种主观度量 ,量化分值参照 GB/T 36464. 1—2020的表 A. 1
≥4. 0(满分 5. 0)
语音交互过程
语音交互成功率
成功的语音交互会话a 总数占有效的语音交互会话b
总数的百分比
≥85%
语音交互响应时间
单次的用户输入语音结束后到获得结果的时间的
平均值
≤2 s
语音打断成功率
语音打断操作被正确响应的次数占总次数的比率
≥85%
a 成功的语音交互会话指获取到完整的语音服务结果 ,期间未产生差错的语音交互会话 。
b 有效的语音交互会话指全部的语音交互会话去除用户终端故障或用户行为 、参数错误导致的失败会话 。
7.4 情感交互
情感交互的性能应符合表 4 的规定 。
表 4 情感交互性能要求
功能
性能指标
性能要求
情感交互
情感交互成功率
≥80%
在一次交互中 ,若系统能正确识别用户情 感 状 态 并 生 成 和 输 出 与 识 别 情 感 相 匹 配 且 符 合 客 服 预 期 的 反 馈 ,则 该交互可被判定为 “情感交互成功 ”。
情感交互成功率= (情感交互成功次数/总交互次数) ×100%
11
GB/T 46483—2025
参 考 文 献
[1] GB/T 5271. 13—2008 信息技术 词汇 第 13部分 :计算机图形
[2] GB/T 21023—2007 中文语音识别系统通用技术规范
[3] GB/T 21024—2007 中文语音合成系统通用技术规范
[4] GB/T 36464. 3—2018 信息技术 智能语音交互系统 第 3 部分 :智能客服
[5] GB/T 38247—2019 信息技术 增强现实 术语
[6] GB/T 38665. 1—2020 信息技术 手势交互系统 第 1 部分 :通用技术要求
[7] GB/T 40691—2021 人工智能 情感计算用户界面 模型
[8] GB/T 41864—2022 信息技术 计算机视觉 术语
[9] GB/T 44020—2024 信息技术 计算机图形图像处理和环境数据表示 混合与增强现实中实时人物肖像和实体的表示
12
相关推荐
- GB/T 1966-2024 多孔陶瓷 显气孔率和体积密度的测定
- GB∕T 40091-2021 智能变电站继电保护和电网安全自动装置安全措施要求
- GB 146.1-2020 标准轨距铁路限界 第1部分:机车车辆限界
- GB/T 17880.3-1999 小沉头铆螺母
- GB/T 12223-2023 部分回转阀门驱动装置的连接
- GB/T 36003-2018 镀锡或镀铬薄钢板罐头空罐
- GB/T 44779-2024 国际贸易业务流程规范 购买—运输—支付参考数据模型
- GB/T 44853-2024 城市轨道交通车辆 电空制动系统
- GB/T 28807.3-2017 轨道交通 机车车辆和列车检测系统的兼容性 第3部分:与计轴器的兼容性
- GB/T 25334.2-2023 铁路机车车体 第2部分:电力机车

