您当前的位置:首页 > T/UNP 254-2024 语音AI 感知评估系统技术规范 > 下载地址2
T/UNP 254-2024 语音AI 感知评估系统技术规范
- 名 称:T/UNP 254-2024 语音AI 感知评估系统技术规范 - 下载地址2
- 类 别:综合团体标准
- 下载地址:[下载地址2]
- 提 取 码:
- 浏览次数:3
发表评论
加入收藏夹
错误报告
目录| 新闻评论(共有 0 条评论) |
资料介绍
ICS 35.080
UNSPSC 43.23.15
CCS L 77
团体标准
T/UNP 254—2024
语音AI 感知评估系统技术规范
Technical specification of speech AI perception evaluation system
2024 - 11 - 07 发布2024 - 11 - 07 实施
中国联合国采购促进会 发布
目次
前言.................................................................................. III
引言................................................................................... IV
1 范围................................................................................. 1
2 规范性引用文件....................................................................... 1
3 术语、定义和缩略语...................................................................1
术语和定义....................................................................... 1
缩略语........................................................................... 1
4 架构组成............................................................................. 1
5 功能要求............................................................................. 2
语音信号采集与处理...............................................................2
语音识别与分析...................................................................2
情感分析......................................................................... 2
用户交互与管理...................................................................2
6 性能要求............................................................................. 3
准确率........................................................................... 3
实时率........................................................................... 3
环境适应识别.....................................................................3
特定发言识别.....................................................................3
不同语速识别.....................................................................3
场景内容识别.....................................................................3
7 数据要求............................................................................. 4
音频数据......................................................................... 4
文本数据......................................................................... 4
8 接口要求............................................................................. 4
接口设计......................................................................... 4
接口类型......................................................................... 5
接口性能......................................................................... 5
接口安全......................................................................... 5
9 安全要求............................................................................. 5
网络安全......................................................................... 5
数据安全......................................................................... 5
系统安全......................................................................... 5
隐私保护......................................................................... 5
用户安全......................................................................... 6
10 运维要求............................................................................ 6
系统监控........................................................................ 6
T/UNP 254—2024
II
故障处理........................................................................6
系统优化........................................................................6
用户支持........................................................................6
11 评价与改进.......................................................................... 6
参考文献................................................................................ 7
T/UNP 254—2024
III
前言
本文件按照GB/T 1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国联合国采购促进会提出并归口。
本文件起草单位:武汉铃声科技有限公司、湖北睿唐空间智能科技有限公司、武汉吉客威睿数字科
技有限公司、湖北国威时代信息技术有限公司、武汉锐佳讯科技有限公司。
本文件主要起草人:郑伟莲、卢蹁跹、余汉汉、李嘉茵、胡彬。
T/UNP 254—2024
IV
引言
为助力中国企业参与国际贸易,推动企业高质量发展,中国联合国采购促进会依托联合国采购体系,
制定服务于国际贸易的系列标准,这些标准在国际贸易过程中发挥了越来越重要的作用,对促进贸易效
率提升,减少交易成本和不确定性,确保产品质量与安全,增强消费者信心具有重要的意义。
联合国标准产品与服务分类代码(UNSPSC,United Nations Standard Products and Services Code)
是联合国制定的标准,用于高效、准确地对产品和服务进行分类。在全球国际化采购中发挥着至关重要
的作用,它为采购商和供应商提供了一个共同的语言和平台,促进了全球贸易的高效、有序发展。
围绕UNSPSC进行相关产品、技术和服务团体标准的制定,对助力企业融入国际采购,提升国际竞争
力具有十分重要的作用和意义。
本文件采用UNSPSC分类代码由6位组成,对应原分类中的大类、中类和小类并用小数点分割。
本文件UNSPSC代码为“43.23.15”,由3段组成。其中:第1段为大类,“43”表示“信息技术广播
和电信”,第2段为中类,“23”表示“软件”,第3段为小类,“15”表示“特定于业务功能的软件”。
T/UNP 254—2024
1
语音AI 感知评估系统技术规范
1 范围
本文件规定了语音AI感知评估系统的架构组成、功能要求、性能要求、数据要求、接口要求、安全
要求、运维要求和评价与改进。
本文件适用于语音AI感知评估系统的设计与建设。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语、定义和缩略语
术语和定义
本文件没有需要界定的术语和定义。
缩略语
下列缩略语适用于本文件。
AES:高级加密标准(Advanced Encryption Standard)
JSON:是一种轻量级的数据交换格式(JavaScript Object Notation)
JWT:一种跨域认证解决方案(JSON Web Token)
PID:数据包标识符(Packet Identifier)
RSA:一种非对称加密算法(Rivest-Shamir-Adleman)
SSL:安全套接层(Secure Socket Layer)
TLS:传输层安全协议(Transport Layer Security)
WAV:一种音频文件格式(Waveform Audio File Format)
XML:一种用于存储和传输数据的标记语言(Extensible Markup Language)
4 架构组成
语音AI感知评估系统架构包括的应用层、运维层、支撑层、网络层、硬件层、安全层和接口层,其
中应用层包括内容语音信号采集与处理、语音识别与分析、情感分析、用户交互与管理等功能,系统架
构图见图1。
图1 语音AI 感知评估系统架构组成
T/UNP 254—2024
2
5 功能要求
语音信号采集与处理
5.1.1 多源语音采集
5.1.1.1 应具备从不同的设备和环境中采集语音信号的功能,包括麦克风、音频文件、网络音频流等,
适应各种应用场景的评估需求。
5.1.1.2 应支持不同音频格式的输入,如WAV、MP3 等,确保系统的通用性。
5.1.2 噪声处理
5.1.2.1 应具备降噪功能,有效降低环境噪声对语音信号的干扰,提高评估的准确性。
5.1.2.2 应具备对不同类型的噪声进行识别和处理的功能,如背景噪音、风声、机械噪声等。
5.1.3 信号增强
5.1.3.1 应对微弱的语音信号进行增强处理,提高信号的清晰度和可懂度。
5.1.3.2 宜采用信号放大、滤波等技术,提升语音信号的质量。
语音识别与分析
5.2.1 高精度语音识别
5.2.1.1 应具备将语音信号转换为文本的功能,包括识别不同的语言、口音和语速。
5.2.1.2 应具备对专业术语、行业特定词汇的识别能力,满足不同领域的评估需求。
5.2.2 语音特征提取
应具备提取语音的各种特征参数的功能,如基频、共振峰、时长、能量等。
5.2.3 语音质量评估
应具备对语音的清晰度、可懂度、自然度等进行客观评估的功能。
5.2.4 口音和方言识别
应具备识别不同地区的口音和方言的功能,评估语音AI对不同地域用户的适应性。
情感分析
5.3.1 情感识别
5.3.2 应具备检测语音中的情感倾向的功能,如高兴、悲伤、愤怒、平静等。
5.3.3 应利用机器学习算法和情感词典,对语音的情感特征进行分析和分类。
5.3.4 情感强度评估
应具备通过计算情感特征的数值指标来评估情感强度的功能。
5.3.5 情感反馈应用
应将情感分析结果应用于语音交互系统中,如根据用户的情感状态调整回复的语气和内容。
用户交互与管理
5.4.1 用户界面友好
5.4.1.1 应提供直观、简洁的用户界面,方便用户进行操作和设置。
5.4.1.2 应支持图形化展示评估结果,使用户快速了解语音AI 的性能表现。
5.4.2 数据管理
5.4.2.1 应对采集的语音数据和评估结果进行有效的管理,包括存储、查询、备份等。
T/UNP 254—2024
3
5.4.2.2 应确保数据的安全性和完整性,方便用户进行后续的分析和研究。
5.4.3 系统设置与参数调整
5.4.3.1 用户可根据实际情况调整系统的参数,如采样率、评估指标权重等。
5.4.3.2 应提供系统的配置管理功能,方便用户进行个性化设置。
5.4.4 多用户支持
5.4.4.1 应支持多个用户同时使用系统,进行独立的评估任务。
5.4.4.2 应具备为不同用户设置不同的权限和访问级别的功能,确保系统的安全性和稳定性。
6 性能要求
准确率
系统语音识别准确率应≥85 %。
实时率
系统的识别时延应≤250 ms。
环境适应识别
系统应具备在远场、噪声环境下识别语音的能力:
a) 远场拾音:距离系统1 m~5 m 进行说话;
b) 噪音背景:
1) 家居环境:包括临街环境和室内家电噪声环境;
2) 交通环境:如地铁站、公交站、空旷的马路等;
3) 办公环境:如会议室、大厅等;
4) 车载环境:包括车载开窗、车载关窗、车载开空调、车载放音乐、车载后排人声干扰等。
特定发言识别
系统应具备在特殊对象和环境中识别语音的能力:
a) 低幼:学龄前,未接受过系统的教育,一般为3 岁~7 岁;
b) 地区口音:不同地域的人在说普通话时会有明显的口音,如常见的广东口音、东北口音、四
川口音、福建口音等。
不同语速识别
系统应具备识别不同语速语音的能力,发音人不同语速表达,按照慢语速、正常语速、快语速,分
为≤100字/分钟、100字/分钟~200字/分钟、≥200字/分钟。
场景内容识别
系统应在不同应用场景中,具有对内容的识别能力。涉及到的场景包括但不限于:
a) 电信业务:包含电信业务中公共网络基础设施、公共数据传送和基本话音通信服务,具体为
充值交费、业务办理、费用查询、账单查询、故障申报、投诉咨询等场景;
b) 车载驾驶:涉及车载器件、驾驶操作、地点名称等内容,包含驾驶模式选择、故障预警、电
话服务、语音导航、交通路况播报等汽车驾驶时语音服务场景;
c) 医疗健康:涉及药品、医疗器械、保健用品、保健食品、健身产品以及相关内容,包含医疗
服务、健康管理、养生保健等医疗应用场景;
d) 语言教育:涉及语言教育主要的文学体裁和著作等内容,包含文字形态、语音、词汇、语法、
听解、会话、阅读与写作等应用场景;
e) 新闻播报:涉及新闻时政类、交际类、社会类、经济类、军事类和天气类,以新闻播报题材
为主;
T/UNP 254—2024
4
f) 文娱体育:涉及电视剧、电影、情景喜剧、各类体育项目等领域,包含情景叙述、赛事播报
等应用场景;
g) 金融服务:涉及融资投资、储蓄、信贷、结算、证券买卖、商业保险和金融信息咨询等多方
面的服务;
h) 法律庭审:涉及各类案件诉讼、公开庭审、口供采集、现场审讯等法律应用场景;
i) 家居服务:涉及各类家电和家居的交互控制应用场景;
j) 其他:针对特定垂直领域的应用场景。
7 数据要求
音频数据
7.1.1 音频质量
7.1.1.1 音频流的数据包丢失或数据包中无有效净荷的持续时间不应超过2 s。
7.1.1.2 音频画面应正常显示,不应出现黑场、静帧、彩条等情况,异常持续时间不应超过2 s。
7.1.2 音频编码与解码
音视频编码应正确,解码器应正常解码,出现码流中持续包含有效的音视频数据包,但解码器无法
解码还原到任何一个音视频帧情况的持续时间应小于4 s。
7.1.3 音频连续性
声音应连续无中断,没有收到任何指定音频PID的数据包,或收到音频数据包,但无有效净荷情况
的持续时间应小于4 s。
7.1.4 音频格式
根据需要选择合适的音频文件格式,如MP3、WAV等。
文本数据
7.2.1 文本质量
文本数据应清晰、准确,无错别字或语法错误。
7.2.2 文本与音频匹配
文本数据应与音频数据精确对应,便于进行有效的语音识别训练和评估。
7.2.3 文本标注
对情感分析等高级功能,文本数据需要进行情感标注,训练模型识别不同的情感状态。
7.2.4 文本多样性
文本数据应涵盖多种语言、方言和口音,提高模型的泛化能力。
7.2.5 文本格式
文本数据应以结构化格式存储,便于处理和分析,如JSON、XML等。
8 接口要求
接口设计
系统接口设计符合以下要求:
a) 应具备统一接口,保证系统间的互操作性和数据交换的顺畅;
b) 应简洁,减少数据传输提高系统响应速度;
c) 应具备灵活性,考虑未来功能扩展的需求。
T/UNP 254—2024
5
接口类型
系统接口类型应符合以下要求:
a) 应提供标准的超文本传输协议接口,支持常见的超文本传输协议方法;
b) 应提供基于可扩展标记语言的简单对象访问协议接口,支持更复杂的数据交换需求;
c) 应提供灵活的数据查询和操作接口,适用于复杂的数据需求场景。
接口性能
系统接口性能符合以下要求:
a) 应采用负载均衡技术分散接口请求压力,提高系统的整体处理能力;
b) 应在适当的场景下使用缓存机制,减少接口请求次数和服务器压力;
c) 应采用异步处理机制,提高处理耗时较长的操作时接口的响应速度。
接口安全
系统接口安全符合以下要求:
a) 应使用开放授权2.0、JWT 等机制进行用户认证和授权;
b) 应使用传输层安全或安全套接字层数据传输加密协议,保证数据的安全性;
c) 应通过应用程序编程接口网关或防火墙限制接口的访问权限,仅允许授权的用户和系统访问。
9 安全要求
网络安全
9.1.1 接入网络和核心网络的带宽要应满足业务高峰期需要,保证网络结构安全。
9.1.2 系统数据传输出口应部署Anti-DDoS 进行安全防护,保证业务不中断,应具有秒级的防护响应
能力。
9.1.3 网络传输过程中应符合以下要求:
a) 数据应采用IPSec VPN/SSL VPN 加密技术传输;
b) 安全接入网关应支持双机热备。
数据安全
9.2.1 对敏感数据进行加密处理,在传输、存储时,防止数据被未授权读取。
9.2.2 使用强加密算法,如AES、RSA 等,确保数据的加密安全。
9.2.3 应提供数据备份和恢复功能,包括但不限于以下要求:
a) 完全数据备份至少每天一次,备份介质场外存放;
b) 应提供异地实时备份功能,利用通信网络将数据实时备份至灾难备份中心;
c) 应提供虚拟机快速恢复能力;
d) 应支持基于磁盘的备份与恢复。
系统安全
9.3.1 定期对系统进行安全漏洞扫描和渗透测试,及时发现和修复潜在的安全漏洞。
9.3.2 应配置安全的操作系统设置,使用防火墙和入侵检测系统监控和控制网络流量。
9.3.3 应建立系统监控机制,实时监测评估系统的运行状态,及时发现和处理异常情况。应采用监控
软件、日志分析等技术,对系统的运行状态进行全面监控。
9.3.4 应建立系统审计机制,对系统的操作行为进行审计,记录用户的操作日志。
隐私保护
9.4.1 系统应实现访问控制机制,确保只有授权用户才能访问敏感数据和系统功能。
9.4.2 实施安全认证机制,如SSL/TLS 证书,建立安全的通信通道。
T/UNP 254—2024
6
用户安全
9.5.1 应建立用户身份认证机制,确保只有合法用户才能使用评估系统。应采用用户名/密码、数字证
书、指纹识别等技术,进行用户身份认证。
9.5.2 应对用户身份认证信息进行加密存储,防止信息泄露。
9.5.3 应建立用户权限管理机制,根据用户的角色和职责,分配不同的权限,对用户权限进行控制,
防止用户越权操作。
9.5.4 应通过培训、宣传等方式,向用户普及安全知识,提高用户的安全防范能力。
9.5.5 应提醒用户注意保护自己的账号和密码,不应泄露个人信息。
10 运维要求
系统监控
10.1.1 应实时监测系统的CPU、内存、存储等资源使用情况,确保系统在合理的资源范围内运行。
10.1.2 应持续监测系统的可用性,确保系统随时响应评估请求。
10.1.3 应建立故障报警机制,系统出现故障或不可用时,及时通知运维人员进行处理。
10.1.4 应对数据流量进行监控,便于合理规划系统的存储和处理资源。
故障处理
10.2.1 系统出现故障时,应迅速进行故障诊断,确定故障的原因和范围。
10.2.2 根据故障诊断结果,应采取有效的故障修复措施,尽快恢复系统的正常运行。
10.2.3 对重大故障,应制定应急预案,确保在最短时间内恢复系统服务。
10.2.4 应定期对系统进行巡检和维护,及时发现潜在的故障隐患并进行处理。
10.2.5 应建立完善的备份和恢复机制,确保在系统出现故障时快速恢复数据和服务。
系统优化
10.3.1 应持续关注用户需求和市场变化,对系统的功能进行优化和扩展。
10.3.2 应加强系统的安全防护措施,定期进行安全漏洞扫描和修复。
用户支持
10.4.1 应为用户提供及时的技术支持,解答用户在使用系统过程中遇到的问题。
10.4.2 应建立用户反馈渠道,及时收集用户的意见和建议,不断改进系统的性能和功能。
10.4.3 系统升级或维护时,应及时通知用户,避免对用户的使用造成影响。
11 评价与改进
依据第5章~第10章规定的要求,定期开展基于语音AI感知评估系统评价,审查不合格项,并有针
对性地采取纠偏措施。
T/UNP 254—2024
7
参考文献
[1] GB 18030 信息技术中文编码字符集
[2] GB/T 21024 中文语音合成系统通用技术规范
[3] GB/T 34083 中文语音识别互联网服务接口规范
[4] GB/T 34145 中文语音合成互联网服务接口规范
UNSPSC 43.23.15
CCS L 77
团体标准
T/UNP 254—2024
语音AI 感知评估系统技术规范
Technical specification of speech AI perception evaluation system
2024 - 11 - 07 发布2024 - 11 - 07 实施
中国联合国采购促进会 发布
目次
前言.................................................................................. III
引言................................................................................... IV
1 范围................................................................................. 1
2 规范性引用文件....................................................................... 1
3 术语、定义和缩略语...................................................................1
术语和定义....................................................................... 1
缩略语........................................................................... 1
4 架构组成............................................................................. 1
5 功能要求............................................................................. 2
语音信号采集与处理...............................................................2
语音识别与分析...................................................................2
情感分析......................................................................... 2
用户交互与管理...................................................................2
6 性能要求............................................................................. 3
准确率........................................................................... 3
实时率........................................................................... 3
环境适应识别.....................................................................3
特定发言识别.....................................................................3
不同语速识别.....................................................................3
场景内容识别.....................................................................3
7 数据要求............................................................................. 4
音频数据......................................................................... 4
文本数据......................................................................... 4
8 接口要求............................................................................. 4
接口设计......................................................................... 4
接口类型......................................................................... 5
接口性能......................................................................... 5
接口安全......................................................................... 5
9 安全要求............................................................................. 5
网络安全......................................................................... 5
数据安全......................................................................... 5
系统安全......................................................................... 5
隐私保护......................................................................... 5
用户安全......................................................................... 6
10 运维要求............................................................................ 6
系统监控........................................................................ 6
T/UNP 254—2024
II
故障处理........................................................................6
系统优化........................................................................6
用户支持........................................................................6
11 评价与改进.......................................................................... 6
参考文献................................................................................ 7
T/UNP 254—2024
III
前言
本文件按照GB/T 1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国联合国采购促进会提出并归口。
本文件起草单位:武汉铃声科技有限公司、湖北睿唐空间智能科技有限公司、武汉吉客威睿数字科
技有限公司、湖北国威时代信息技术有限公司、武汉锐佳讯科技有限公司。
本文件主要起草人:郑伟莲、卢蹁跹、余汉汉、李嘉茵、胡彬。
T/UNP 254—2024
IV
引言
为助力中国企业参与国际贸易,推动企业高质量发展,中国联合国采购促进会依托联合国采购体系,
制定服务于国际贸易的系列标准,这些标准在国际贸易过程中发挥了越来越重要的作用,对促进贸易效
率提升,减少交易成本和不确定性,确保产品质量与安全,增强消费者信心具有重要的意义。
联合国标准产品与服务分类代码(UNSPSC,United Nations Standard Products and Services Code)
是联合国制定的标准,用于高效、准确地对产品和服务进行分类。在全球国际化采购中发挥着至关重要
的作用,它为采购商和供应商提供了一个共同的语言和平台,促进了全球贸易的高效、有序发展。
围绕UNSPSC进行相关产品、技术和服务团体标准的制定,对助力企业融入国际采购,提升国际竞争
力具有十分重要的作用和意义。
本文件采用UNSPSC分类代码由6位组成,对应原分类中的大类、中类和小类并用小数点分割。
本文件UNSPSC代码为“43.23.15”,由3段组成。其中:第1段为大类,“43”表示“信息技术广播
和电信”,第2段为中类,“23”表示“软件”,第3段为小类,“15”表示“特定于业务功能的软件”。
T/UNP 254—2024
1
语音AI 感知评估系统技术规范
1 范围
本文件规定了语音AI感知评估系统的架构组成、功能要求、性能要求、数据要求、接口要求、安全
要求、运维要求和评价与改进。
本文件适用于语音AI感知评估系统的设计与建设。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语、定义和缩略语
术语和定义
本文件没有需要界定的术语和定义。
缩略语
下列缩略语适用于本文件。
AES:高级加密标准(Advanced Encryption Standard)
JSON:是一种轻量级的数据交换格式(JavaScript Object Notation)
JWT:一种跨域认证解决方案(JSON Web Token)
PID:数据包标识符(Packet Identifier)
RSA:一种非对称加密算法(Rivest-Shamir-Adleman)
SSL:安全套接层(Secure Socket Layer)
TLS:传输层安全协议(Transport Layer Security)
WAV:一种音频文件格式(Waveform Audio File Format)
XML:一种用于存储和传输数据的标记语言(Extensible Markup Language)
4 架构组成
语音AI感知评估系统架构包括的应用层、运维层、支撑层、网络层、硬件层、安全层和接口层,其
中应用层包括内容语音信号采集与处理、语音识别与分析、情感分析、用户交互与管理等功能,系统架
构图见图1。
图1 语音AI 感知评估系统架构组成
T/UNP 254—2024
2
5 功能要求
语音信号采集与处理
5.1.1 多源语音采集
5.1.1.1 应具备从不同的设备和环境中采集语音信号的功能,包括麦克风、音频文件、网络音频流等,
适应各种应用场景的评估需求。
5.1.1.2 应支持不同音频格式的输入,如WAV、MP3 等,确保系统的通用性。
5.1.2 噪声处理
5.1.2.1 应具备降噪功能,有效降低环境噪声对语音信号的干扰,提高评估的准确性。
5.1.2.2 应具备对不同类型的噪声进行识别和处理的功能,如背景噪音、风声、机械噪声等。
5.1.3 信号增强
5.1.3.1 应对微弱的语音信号进行增强处理,提高信号的清晰度和可懂度。
5.1.3.2 宜采用信号放大、滤波等技术,提升语音信号的质量。
语音识别与分析
5.2.1 高精度语音识别
5.2.1.1 应具备将语音信号转换为文本的功能,包括识别不同的语言、口音和语速。
5.2.1.2 应具备对专业术语、行业特定词汇的识别能力,满足不同领域的评估需求。
5.2.2 语音特征提取
应具备提取语音的各种特征参数的功能,如基频、共振峰、时长、能量等。
5.2.3 语音质量评估
应具备对语音的清晰度、可懂度、自然度等进行客观评估的功能。
5.2.4 口音和方言识别
应具备识别不同地区的口音和方言的功能,评估语音AI对不同地域用户的适应性。
情感分析
5.3.1 情感识别
5.3.2 应具备检测语音中的情感倾向的功能,如高兴、悲伤、愤怒、平静等。
5.3.3 应利用机器学习算法和情感词典,对语音的情感特征进行分析和分类。
5.3.4 情感强度评估
应具备通过计算情感特征的数值指标来评估情感强度的功能。
5.3.5 情感反馈应用
应将情感分析结果应用于语音交互系统中,如根据用户的情感状态调整回复的语气和内容。
用户交互与管理
5.4.1 用户界面友好
5.4.1.1 应提供直观、简洁的用户界面,方便用户进行操作和设置。
5.4.1.2 应支持图形化展示评估结果,使用户快速了解语音AI 的性能表现。
5.4.2 数据管理
5.4.2.1 应对采集的语音数据和评估结果进行有效的管理,包括存储、查询、备份等。
T/UNP 254—2024
3
5.4.2.2 应确保数据的安全性和完整性,方便用户进行后续的分析和研究。
5.4.3 系统设置与参数调整
5.4.3.1 用户可根据实际情况调整系统的参数,如采样率、评估指标权重等。
5.4.3.2 应提供系统的配置管理功能,方便用户进行个性化设置。
5.4.4 多用户支持
5.4.4.1 应支持多个用户同时使用系统,进行独立的评估任务。
5.4.4.2 应具备为不同用户设置不同的权限和访问级别的功能,确保系统的安全性和稳定性。
6 性能要求
准确率
系统语音识别准确率应≥85 %。
实时率
系统的识别时延应≤250 ms。
环境适应识别
系统应具备在远场、噪声环境下识别语音的能力:
a) 远场拾音:距离系统1 m~5 m 进行说话;
b) 噪音背景:
1) 家居环境:包括临街环境和室内家电噪声环境;
2) 交通环境:如地铁站、公交站、空旷的马路等;
3) 办公环境:如会议室、大厅等;
4) 车载环境:包括车载开窗、车载关窗、车载开空调、车载放音乐、车载后排人声干扰等。
特定发言识别
系统应具备在特殊对象和环境中识别语音的能力:
a) 低幼:学龄前,未接受过系统的教育,一般为3 岁~7 岁;
b) 地区口音:不同地域的人在说普通话时会有明显的口音,如常见的广东口音、东北口音、四
川口音、福建口音等。
不同语速识别
系统应具备识别不同语速语音的能力,发音人不同语速表达,按照慢语速、正常语速、快语速,分
为≤100字/分钟、100字/分钟~200字/分钟、≥200字/分钟。
场景内容识别
系统应在不同应用场景中,具有对内容的识别能力。涉及到的场景包括但不限于:
a) 电信业务:包含电信业务中公共网络基础设施、公共数据传送和基本话音通信服务,具体为
充值交费、业务办理、费用查询、账单查询、故障申报、投诉咨询等场景;
b) 车载驾驶:涉及车载器件、驾驶操作、地点名称等内容,包含驾驶模式选择、故障预警、电
话服务、语音导航、交通路况播报等汽车驾驶时语音服务场景;
c) 医疗健康:涉及药品、医疗器械、保健用品、保健食品、健身产品以及相关内容,包含医疗
服务、健康管理、养生保健等医疗应用场景;
d) 语言教育:涉及语言教育主要的文学体裁和著作等内容,包含文字形态、语音、词汇、语法、
听解、会话、阅读与写作等应用场景;
e) 新闻播报:涉及新闻时政类、交际类、社会类、经济类、军事类和天气类,以新闻播报题材
为主;
T/UNP 254—2024
4
f) 文娱体育:涉及电视剧、电影、情景喜剧、各类体育项目等领域,包含情景叙述、赛事播报
等应用场景;
g) 金融服务:涉及融资投资、储蓄、信贷、结算、证券买卖、商业保险和金融信息咨询等多方
面的服务;
h) 法律庭审:涉及各类案件诉讼、公开庭审、口供采集、现场审讯等法律应用场景;
i) 家居服务:涉及各类家电和家居的交互控制应用场景;
j) 其他:针对特定垂直领域的应用场景。
7 数据要求
音频数据
7.1.1 音频质量
7.1.1.1 音频流的数据包丢失或数据包中无有效净荷的持续时间不应超过2 s。
7.1.1.2 音频画面应正常显示,不应出现黑场、静帧、彩条等情况,异常持续时间不应超过2 s。
7.1.2 音频编码与解码
音视频编码应正确,解码器应正常解码,出现码流中持续包含有效的音视频数据包,但解码器无法
解码还原到任何一个音视频帧情况的持续时间应小于4 s。
7.1.3 音频连续性
声音应连续无中断,没有收到任何指定音频PID的数据包,或收到音频数据包,但无有效净荷情况
的持续时间应小于4 s。
7.1.4 音频格式
根据需要选择合适的音频文件格式,如MP3、WAV等。
文本数据
7.2.1 文本质量
文本数据应清晰、准确,无错别字或语法错误。
7.2.2 文本与音频匹配
文本数据应与音频数据精确对应,便于进行有效的语音识别训练和评估。
7.2.3 文本标注
对情感分析等高级功能,文本数据需要进行情感标注,训练模型识别不同的情感状态。
7.2.4 文本多样性
文本数据应涵盖多种语言、方言和口音,提高模型的泛化能力。
7.2.5 文本格式
文本数据应以结构化格式存储,便于处理和分析,如JSON、XML等。
8 接口要求
接口设计
系统接口设计符合以下要求:
a) 应具备统一接口,保证系统间的互操作性和数据交换的顺畅;
b) 应简洁,减少数据传输提高系统响应速度;
c) 应具备灵活性,考虑未来功能扩展的需求。
T/UNP 254—2024
5
接口类型
系统接口类型应符合以下要求:
a) 应提供标准的超文本传输协议接口,支持常见的超文本传输协议方法;
b) 应提供基于可扩展标记语言的简单对象访问协议接口,支持更复杂的数据交换需求;
c) 应提供灵活的数据查询和操作接口,适用于复杂的数据需求场景。
接口性能
系统接口性能符合以下要求:
a) 应采用负载均衡技术分散接口请求压力,提高系统的整体处理能力;
b) 应在适当的场景下使用缓存机制,减少接口请求次数和服务器压力;
c) 应采用异步处理机制,提高处理耗时较长的操作时接口的响应速度。
接口安全
系统接口安全符合以下要求:
a) 应使用开放授权2.0、JWT 等机制进行用户认证和授权;
b) 应使用传输层安全或安全套接字层数据传输加密协议,保证数据的安全性;
c) 应通过应用程序编程接口网关或防火墙限制接口的访问权限,仅允许授权的用户和系统访问。
9 安全要求
网络安全
9.1.1 接入网络和核心网络的带宽要应满足业务高峰期需要,保证网络结构安全。
9.1.2 系统数据传输出口应部署Anti-DDoS 进行安全防护,保证业务不中断,应具有秒级的防护响应
能力。
9.1.3 网络传输过程中应符合以下要求:
a) 数据应采用IPSec VPN/SSL VPN 加密技术传输;
b) 安全接入网关应支持双机热备。
数据安全
9.2.1 对敏感数据进行加密处理,在传输、存储时,防止数据被未授权读取。
9.2.2 使用强加密算法,如AES、RSA 等,确保数据的加密安全。
9.2.3 应提供数据备份和恢复功能,包括但不限于以下要求:
a) 完全数据备份至少每天一次,备份介质场外存放;
b) 应提供异地实时备份功能,利用通信网络将数据实时备份至灾难备份中心;
c) 应提供虚拟机快速恢复能力;
d) 应支持基于磁盘的备份与恢复。
系统安全
9.3.1 定期对系统进行安全漏洞扫描和渗透测试,及时发现和修复潜在的安全漏洞。
9.3.2 应配置安全的操作系统设置,使用防火墙和入侵检测系统监控和控制网络流量。
9.3.3 应建立系统监控机制,实时监测评估系统的运行状态,及时发现和处理异常情况。应采用监控
软件、日志分析等技术,对系统的运行状态进行全面监控。
9.3.4 应建立系统审计机制,对系统的操作行为进行审计,记录用户的操作日志。
隐私保护
9.4.1 系统应实现访问控制机制,确保只有授权用户才能访问敏感数据和系统功能。
9.4.2 实施安全认证机制,如SSL/TLS 证书,建立安全的通信通道。
T/UNP 254—2024
6
用户安全
9.5.1 应建立用户身份认证机制,确保只有合法用户才能使用评估系统。应采用用户名/密码、数字证
书、指纹识别等技术,进行用户身份认证。
9.5.2 应对用户身份认证信息进行加密存储,防止信息泄露。
9.5.3 应建立用户权限管理机制,根据用户的角色和职责,分配不同的权限,对用户权限进行控制,
防止用户越权操作。
9.5.4 应通过培训、宣传等方式,向用户普及安全知识,提高用户的安全防范能力。
9.5.5 应提醒用户注意保护自己的账号和密码,不应泄露个人信息。
10 运维要求
系统监控
10.1.1 应实时监测系统的CPU、内存、存储等资源使用情况,确保系统在合理的资源范围内运行。
10.1.2 应持续监测系统的可用性,确保系统随时响应评估请求。
10.1.3 应建立故障报警机制,系统出现故障或不可用时,及时通知运维人员进行处理。
10.1.4 应对数据流量进行监控,便于合理规划系统的存储和处理资源。
故障处理
10.2.1 系统出现故障时,应迅速进行故障诊断,确定故障的原因和范围。
10.2.2 根据故障诊断结果,应采取有效的故障修复措施,尽快恢复系统的正常运行。
10.2.3 对重大故障,应制定应急预案,确保在最短时间内恢复系统服务。
10.2.4 应定期对系统进行巡检和维护,及时发现潜在的故障隐患并进行处理。
10.2.5 应建立完善的备份和恢复机制,确保在系统出现故障时快速恢复数据和服务。
系统优化
10.3.1 应持续关注用户需求和市场变化,对系统的功能进行优化和扩展。
10.3.2 应加强系统的安全防护措施,定期进行安全漏洞扫描和修复。
用户支持
10.4.1 应为用户提供及时的技术支持,解答用户在使用系统过程中遇到的问题。
10.4.2 应建立用户反馈渠道,及时收集用户的意见和建议,不断改进系统的性能和功能。
10.4.3 系统升级或维护时,应及时通知用户,避免对用户的使用造成影响。
11 评价与改进
依据第5章~第10章规定的要求,定期开展基于语音AI感知评估系统评价,审查不合格项,并有针
对性地采取纠偏措施。
T/UNP 254—2024
7
参考文献
[1] GB 18030 信息技术中文编码字符集
[2] GB/T 21024 中文语音合成系统通用技术规范
[3] GB/T 34083 中文语音识别互联网服务接口规范
[4] GB/T 34145 中文语音合成互联网服务接口规范

