GB/T 21024-2007 中文语音合成系统通用技术规范

GB/T 21024-2007 General specification for Chinese speech synthesis system

国家标准中文简体现行页数：35页 | 格式：PDF

基本信息

标准号

GB/T 21024-2007

发布历史

2007年06月

GB/T 21024-2007　中文语音合成系统通用技术规范

当前标准现行 2007-06-29

文前页预览

研制信息

起草单位：: 安徽中科大讯飞信息科技有限公司、中国科学院自动化研究所、中国电子技术标准化研究所

起草人：: 尹波、严峻、吴晓如、陶建华、吴志刚

出版信息：: 页数：35页 | 字数：61 千字 | 开本：大16开

内容描述

ICS35.040

L71

中华人民共和国国家标准

GB/T21024—2007

中文语音合成系统通用技术规范

GeneralspecificationforChinesespeechsynthesissystem

2007-06-29发布2007-11-01实施

发布

GB/T210242007

冃UI

引言n

i范围i

2规范性引用文件1

3术语和定义1

4中文语音合成系统的功能分类4

4.1概述4

4.2从语言处理能力上分类4

4.3从所处区域或方言上分类4

4.4从合成的应用范围上分类4

4.5从韵律和音色调节能力上分类4

4.6从合成方法上分类4

4.7从应用平台上分类5

5中文语音合成系统数据交换格式5

5.1概述5

5.2元素与属性6

5.3输入要求17

5.4输出要求17

5.5音频数据格式要求18

5.6一致性18

附录A（规范性附录）CSSMLVI.0Schema定义19

参考文献31

GB/T210242007

■1/■■1

刖a

本标准的附录A是规范性附录。

本标准由中华人民共和国信息产业部提出。

本标准由全国信息技术标准化技术委员会归口。

本标准由安徽中科大讯飞信息科技有限公司、中国科学院自动化研究所、中国电子技术标准化研究

所起草。

本标准主要起草人:尹波、严峻、吴哓如、陶建华、吴志刚。

GB/T210242007

引言

本标准的发布机构提请注意如下事实，声明符合本标准时，可能涉及第5章中有关中文语音合成系

统数据交换方法的相关专利。

本标准的发布机构对于专利的范围、有效性和验证资料不提出任何看法。

专利持有人已向本标准的发布机构保证.他愿意同任何申请人在合理和非歧视的条款和条件下，就

使用授权许可证进行谈判。在这方面，该专利持有人的声明已在本标准的发布机构备案。有关资料可

从以下地址获得：

安徽中科大讯飞信息科技有限公司

安徽省合肥市国家级高新技术产业开发区信息产业基地讯飞语音大厦230088

请注意除上述已经识别出的专利外，本标准的某些内容有可能涉及专利。本标准的发布机构不承

担识别这些专利的责任。

GB/T210242007

中文语音合成系统通用技术规范

1范围

本标准规定了中文语音合成系统的术语定义、分类标准、数据交换格式标准和应用规范。

本标准适用于各种计算机、网络和智能设备配置的中文语音合成系统。

2规范性引用文件

下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件，其随后所

的修改单(不包括勘误的内容)或修订版均不适用于本标准，然而鼓励根据本标准达成协议的各方，经过

研究决定是否使用这些文件的最新版本。凡是不注日期的引用文件，其最新版本适用于本标准。

GB2312—1980信息交换用汉字编码字符集基本集

GB13000.1—1993信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文

种平面(idtISO/IEC10646-1：1993)

GB18030—2005信息技术中文编码字符集

RFC1766语言识别标签

SSML1.0(W3C)语音合成标记语言

3术语和定义

下列术语和定义适用于本标准。

3.1

语音合成speechsynthesis

通过机械的、电子的方法合成人类语言的过程。

注：该过程所产生的语音称为合成语音，和人的发音器官产生自然语音相区别，有时也叫人工语音(artificial

speech)。

3.2

语音合成系统speechsynthesissystem

由特定算法、模块和数据资源等构成、用来产生合成语音的软硬件系统。

注：由于目前语音合成最常用的实例是将智能设备中的文字信息转换为语音信号，以作为智能设备的语音输出形

式，语音合成系统也常常称为文语转换系统(text-to-speechsystem),但作为语音合成系统的输入，实质上不限

于文字，可以是概念、意图、思想等。在口前的技术水平下，文语转换是实现语音合成的主要方式，本技术规范

中不另作特别说明时，文语转换将等同于语音合成的概念。

3.3

单语种语音合成系统mono-lingualspeechsynthesissystem

针对某一语种设计的，功能限于单一、特定语种的语音合成系统。

3.4

多语种语音合成系统multi-lingualspeechsynthesissystem

可以实现两种及两种以上语言语音合成功能的语音合成系统。

3.5

有限词汇语音合成系统limitedvocabularyspeechsynthesissystem

为某一特定任务设计的、只能完成有限词汇量语音合成功能的语音合成系统。

GB/T210242007

3.6

无限词汇语音合成系统un-limitedvocabularyspeechsynthesissystem

可以完成任意词汇语音合成功能的语音合成系统。

3.7

中文语音合成系统Chinesespeechsynthesissystem

可以完成中文普通话或者汉语方言语音合成功能的语音合成系统。

注：如果系统的功能只是将汉字转换为粤语、吴语、湘语、闽语等汉语方言的系统，分别称其为粤语语音合成系统

(Yue-DialectSpeechSynthesisSystem)、吴语语音合成系统(Wu-DialectSpeechSynthesisSystem)、湘语语音合

成系统(Xiang-DialectSpeechSynthesisSystem)、闽语语音合成系统(Min-DialeclSpeechSynthesisSystem)等。

3.8

韵律标记符号prosodiclabel

以可读形式插入到文本中的特殊字符序列，它可以被语音合成系统检出并解释，从而控制语音合成

系统输出语音的韵律特征;也可以用来描述文本所对应自然语音中的韵律特征。

3.9

口语spokenlanguage

语言的口头变体。

[GB/T12200.2—1994,4.1.1.3]

注：语音有不同的风格，常见的有朗读风格(readingstylespeech)和即席发言风格(spontaneousspeech)，后者是无

发言脚本的，也称为自然口语。

3.10

口音标注accentlabel

标出发音人的口音特征。

3.11

音段segment

发音器官被处于相对稳定不变的状态下发出的单个语音。在语音或是音系层次上，将话语当作线

性串列时,音段是串列中的最小单位。广义上说，音段被看作语音中发音器官或多或少地保持不运动的

一个时段。

3.12

音段特征segmentalfeature

现代语音学中跟音色相关的语音特征，在声学层面表现为频谱。

3.13

音段标注segmentallabeling

把话语中的每个语音单元(包括音节、声韵或其他更小的语音单元)逐一进行切分，然后对它们的音

色特征分别给予细致如实的描写。

3.14

语流音变sandhi

连续音变

连续发音中的语音变化。

[GB/T12200.2—1994,4.1.3.14]

注：如同化、异化等。

3.15

辅音consonant

发音时气流受阻，发音器官肌肉紧张程度不均衡的一类音素。

GB/T210242007

[GB/T12200.2—1994,4.1.3.11]

3.16

兀苜vowel

发音时气流不受阻，声带振动、发音器官肌肉均衡紧张的一类音素。

[GB/T12200.2—1994,4.1.3.10]

3.17

国际音标InternationalPhoneticAlphabet

IPA

由国际语音协会制定的、国际统一的语音的标记方式。

注：IPA国际音标是由国际音标语音协会提出的发音规范。

3.18

韵律prosody

一般也称为超音段特征(suprasegmentalfeature)，是将各种语言学单位组织成话语或话语中关联

组块的系统组织。从物理角度，指基频、时长和强度等声学参数;从语言学的角度，指音段层次以上的音

系组织。

注：韵律的实现涉及语音的音段利超音段特征，它不但能够传递语言学信息，而且能够传递副语音学和非语言学

信息。

3.19

音高范围pitchrange

个人说话时音高变化范围。

3.20

音区register

通过声带张力的调节，人能够说话或唱歌的不同音高范围。

注：如高音区与低音区，正常声音区与假声音区等。

3.21

汉语Chinese

汉民族使用的语言。属于汉藏语系，是一种孤立语，有声调。汉语的书写基础汉字是一种表意文

字，又称中文。

注：至丁•统称中国境内的所有语言(包括汉语和少数民族语言)为“中国的语言(ChineseLanguages)\

3.22

汉语方言Chinesedialects

特定地理区域中汉语的变体。

3.23

声母initial

汉语音节起始的辅音性成分，根据辅音的清浊不同可以将声母分为清声母和浊声母。

3.23.1

清声母unvoicedinitial

由清辅音作的声母。

3.23.2

浊声母voicedinitial

由浊辅音作的声母。

3.23.3

零声母zeroinitial

音节起始没有辅音性成分,而直接以元音开始。

GB/T210242007

注：普通话声母参见GF30062001的定义4.2,其他汉语方言声母可参见IPA组织1999年编著的《国际语音学会

关于使用国际音标的指导手册》。

3.24

韵母final

汉语音节中除了声母以外的音段部分。韵母可以从组成结构上进一步分析为韵头、韵腹和韵尾，单

元音组成单韵母，复元音或带鼻音韵尾的鼻韵母组成复韵母,带有鼻音韵尾组成鼻韵母。

注：普通话韵母参见GF30062001的定义4.3,其他汉语方言韵母可参见IPA组织1999年编著的《国际语音学会

关于使用国际音标的指导手册》。

3.25

声调tone

作用于音节或词语层面上具有区别词汇意义功能的音高模式。由于声调具有区别词汇意义的功

能，因此一些学者把声调也看成是一种咅位，并称之为“调位（toneme）”。

注：普通话声调参见GF30062001的定义4.4,其他汉语方言声调可参见IPA组织1999年编著的《国际语音学会

关于使用国际音标的指导手册》。

4中文语音合成系统的功能分类

4.1概述

符合本标准的中文语音合成系统应在规格中明确注明其系统分类，并满足相应系统分类的技术

要求。

4.2从语言处理能力上分类

语音合成系统从处理语言能力上可以分为：单语种语音合成系统和多语种语音合成系统。

语音合成系统应注明其处理语言种类，及同时处理不同语言的能力。

4.3从所处区域或方言上分类

普通话语音合成系统是指可以完成中文普通话语音合成功能的语音合成系统。

方言语音合成系统是指可以完成特定中文方言语音合成功能的语音合成系统。

一般来说，方言语音合成可以按照区域划分为：广东话语音合成系统、吴语语音合成系统等。

中文方言语音合成系统应注明其应用区域和方言类型。

4.4从合成的应用范围上分类

语音合成系统从合成的应用范围上可以分为：有限词汇语音合成系统和无限词汇语音合成系统。

语音合成系统应注明应用的范围。

4.5从韵律和音色调节能力上分类

语音合成系统从韵律和音色调节能力上可以分为：基于参数的语音合成系统和基于波形的语音合

成系统。

基于参数的语音合成系统是指采用矢量参数运算作为声学模型的语音合成系统。例如：基于LPC

（线性预测编码）语音合成系统、基于共振峰语音合成系统、基于LSP（线谱对）语音合成系统等。

基于波形的语音合成系统是指采用波形拼接算法作为声学模型的语音合成系统。

4.6从合成方法上分类

语音合成系统从实现方法上可以分为：基于规则的语音合成系统和基于数据驱动的语音合成系统。

基于规则的语音合成系统通常是指语音合成系统中各模块使用的算法是通过专家规则的形式实现

的语音合成系统。

基于数据驱动的语音合成系统是指系统所需的模型，是通过数据驱动的方法建立的，其最大的特征

就是可训练性。

基于这两种方法的语音合成系统，在适应不同数据集和不同发音人的性能上有着一定区别。这两

GB/T210242007

种方法可以混合应用以提高系统的效果及减小对训练数据容量的要求。

4.7从应用平台上分类

语音合成系统从应用平台上可以分为：用于芯片的语音合成系统、用于嵌入式操作系统的语音合成

系统、用于独立主机的语音合成系统、用于分布式计算的语音合成系统等。

语音合成系统应注明该系统适用的应用平台，如果是丁作于特定的操作系统之上，也需同时注明支

持的操作系统和语音合成系统的资源需求。

5中文语音合成系统数据交换格式

5.1概述

“中文语音合成标记语言（CSSML）"定义了一套基于XML文档结构的标记语言体系。它可被用

于资源共享、模块互换，以及在分布式应用中的中间数据格式，或者独立系统的输入控制。CSSML基

于W3C制定的SSML（SpeechSynthesisMarkupLanguage）标准，在SSML的基础上针对汉语语音合

成的情况进行了扩展和修改。

本标准规定了在语音合成系统中的数据交换应使用基于“中文语音合成标记语言规范”所定义文档

结构的数据内容。

5.1.1文档结构

基于XML的文档格式，各类型标记以XML元素的形式给出。附录A给出了CSSML定义。

5.1.2特性

中文语音合成标记语言应具有以下特性：

a）支持多种格式文档的输入，即能指明当前文档格式；

b）与现有各标记体系保持一致，尽量兼容或易于被自动转化；

c）能对合成文本的结构加以描述；

）支持不同语言和方言的定义；

e）支持特殊发音指定（宏发音），包括强制改变发音以及引用外部声音元素；

f）支持对诸如速度、音高、音强等参数的控制；

g）支持对音色的指定,如发音人姓名、性别、年龄等；

h）对特定格式文字发音的支持，如地址、电话、网址等；

i）支持重读/强调控制；

j）支持某段文字语调控制。

5.1.3CSSML元素表

CSSML元素见表1。

表1CSSML元素表

序号元素功能定义集

1audio指明插入一个已有声音样本基本集

2break指明一个停顿基本集

3emphasis指明轻重读/强调程度扩展集

4environment指明发音的音场环境扩展集

5lexicon指明作用域内附加使用的用户词典扩展集

6mark指明事件响应扩展集

7paragraph/p语音层次结构的单位扩展集

8phoneme指明发音音索序列方案基本集

GB/T210242007

表1（续）

序号元素功能定义集

9phrase语音层次结构的单位扩展集

10prosody指明发音的韵律基本集

11punctuation指明标点的处理方式基本集

12sayas/say-as指明文本性质基本集

13sentence/s语音层次结构的单位基本集

14speakCSSML文档的根元索基本集

15sub替换文本内容基本集

16value指明插入一个系统变量基本集

17voice指明发音人的音质特征扩展集

18wor语音层次结构的最小单位基本集

19rdm保留未来使用保留

注：凡是以A,/B形式出现的元素表示A与B的写法等价。

5.2元素与属性

5.2.1文档结构类元素

5.2.1.1speak

元素名:speak

属于:基本集

描述：

由于此标注体系采用XML文档格式给出，因此根元素即为“speak”。

允许的父元素：

无。

允许的子元素：

paragraph,sentence,phrase,wor,say-as,phoneme,sub,lexicon,punctuation,prosody,emphasis,

voice,environment,audio,value,break,mark,rdm.

属性表：

"version"：

属性描述：指定使用的规范的版本。

属性值:应为“1.0”。

"xml：lang"：

属性描述：指定作用域内文档内容使用语言。

属性值：可用值请参照Internet公文RFC1766。

"xml：base"：

属性描述：指定文档的根URI位置。

示例：

<xmlversion="l.0"encoding="gb2312"?>

<spcakversion="l.0"xml：lang="zh-cn"〉

...合成内容...

<Z/speak〉

GB/T210242007

5.2.1.2paragraph/p、sentence/s、phrase、word

描述：

指定语音层次结构，以使合成语音更加符合使用要求。

示例：

<phrase><wor>我们的</wordXwor〉最高目标</word></phrase〉

<phrase>得到高自然的语音</phrase〉

</sentence〉

</paragraph〉

5.2.1.2.1paragraph/p

元素名:paragraph

别名:p

属于;基本集

描述：

指定作用域内文字为一段落。

允许的父元素：

speak,lexicon,punctuation,voice,environment.

允许的子元素：

sentence,phrase,wor,say-as,phoneme,sub,lexicon,punctuation,prosody,emphasis,voice,envi

ronment,audio,value,break,mark,rdm.

属性表：

"xmlJang"：

属性描述:指明作用域内的发音语种。

属性值：可用值请参照Internet公文RFC1766。

5.2.1.2.2sentence/s

元素名：sentence

别名:s

属于:基本集

描述：

指明作用域内文字为一句子。

允许的父元素：

speak,paragraph,lexicon,punctuation,voice,environment.

允许的子元素：

phrase,word,say-as,phoneme,sub,lexicon,punctuation,prosody,emphasis,voice,environment,

audio,value,break,mark,rdm.

属性表：

"xmlJang"：

属性描述:指明作用域内的发音语种。

属性值：可用值请参照Internet公文RFC1766。

5.2.1.2.3phrase

元素名:phrase

GB/T210242007

属于;基本集

描述：

指明作用域内文字为一短语。

允许的父元素：

speak,paragraph,sentence,phrase,lexicon,punctuation,voice,environment.

允许的子元素：

phrase,wor,say-as,phoneme,sub,lexicon,punctuation,prosody,emphasis,voice,environment,

audio,value,break,mark,rdm.

属性表：

"xmlJang"：

属性描述:指明作用域内的发音语种。

属性值：可用值请参照Internet公文RFC1766。

5.2.1.2.4word

元素名:word

属于;基本集

描述：

指明作用域内文字为一词组。

允许的父元素：

speak,paragraph,sentence,phrase,lexicon,punctuation,voice,environment.

允许的子元素：

say-as,phoneme,sub,lexicon,punctuation,prosody,emphasis,voice,environment,audio,value,

break,mark,rdm.

属性表：

"xml：lang"：

属性描述:指明作用域内的发音语种。

属性值：可用值请参照Internet公文RFC1766。

5.2.2文本控制类元素

5.2.2.1sayas/say-as

元素名：sayas

别名：say-as

属于;基本集

描述：

指明文本的性质，即如何决定其发音方式。

允许的父元素：

speak,paragraph,sentence,phrase,wor,lexicon,punctuation,prosody,emphasis,voice,environ-

ment.

允许的子元素：

无。

属性表：

"interpret-as":

属性描述：文本的发音方式。

属性值：

“acronym”:英语缩写，字母发音间隔较小；

GB/T210242007

"spell-out":按字母发音，发音间隔较大；

“number”：指明是数字；

"telephone":按电话号码读法发音；

“date”：指明日期；

“time”：指明时刻；

“duration”：指明时间段；

“currency":指明货币金额；

"measure^^:指明度量值；

“name”：指明是人的姓名、公司名称或是地名；

"net":指明是网络（internet）上应用的地址；

“aress”：指明是表述邮政地址。

“Format”:

属性描述:文本的格式。

属性值：

当"interpret-as"属性值为"number"时,format可以取下列值之一：

“ordinal”：按数值发音；

“digits”：按数字串发音;

"score":按比分读法发音；

"fraction":按分数读法发音。

当“interpret-as"属性值为“date”时，format可以取下列值之一：“ym”，“mdy",“dmy”，"ym",

以指明年月日的顺序。

当“interpret-as”属性值为“time”时，format可以取下列值之一：“hm”，“hms”。以指明时间的格式

和顺序。

当“interpret-as”属性值为“duration^^时，format可以取下列值之一：“hm”，“hms”，“ms”。以指明时

间间隔的格式和顺序。

当“interpret-as”属性值为“net”时,format可以取下列值之一：“email”，“url”。分別表示网络电子

邮件地址和网络URL地址。

“type”：

属性描述：文本性质。

属性值：

“acronym”:英语缩写，字母发音间隔较小；

“spell-out”：按字母发音，发音间隔较大；

"number":指明是数字；

"number：ordinal"：按数值发音；

"number：digits"：按数字串发音；

"number:score":按比分读法发音；

"number:fraction":按分数读法发音；

"telephone"：按电话号码读法发音；

“date”：指明日期，可附带“ym”,“mdy”,“dmy”,“ym”,“my”，“m”,“y”指明顺序；

“time”:指明时刻，可附带“hm”,“hms”指明包含内容；

“duration”:指明时间段，可附带“hm”,“hms”,“ms”指明内容;

"currency"：指明货币金额；

"measure":指明度量值；

GB/T210242007

“name”：指明是人的姓名、公司名称或是地名；

"net：email"：指明是电子邮件地址；

“net：url”：指明是URL；

"aress":指明是表述邮政地址。

示例：

现在时钟已指向<sayasinterpret-as="numbcr">VIII</sayas>

我住在<sayasinterpret-as="number"format="digits">412</sayas>房间

我已经修正了<sayasinterpret-as="number"forniat="ordinal''>34</sayas>个错误

<sayastype="date：ymd">2000/12/13</sayas>

<sayastype="currency"〉、12.33</sayas>

Vsayastype=^net:emaiP^boyinC^iflytek.comV/sayas〉

5.2.2.2phoneme

元素名：phoneme

属于：扩展集

描述：

指明作用域内的发音参数。

允许的父元素：

speak,paragraph,sentence,phrase,wor,lexicon,punctuation,prosody,emphasis,voice,environ

ment.

允许的子元素：

无。

属性表：

"alphabet":

属性描述:其用于指明音标序列采用何种规范，为可选属性。

属性值：目前的合法值为“ipa”,表示国际音标，或者“py”,表示使用拼音。

“ph”：

属性描述：给出音标序列。

属性值:符合InternationalPhoneticAlphabct(IPA)的音标序列。

“lang”：

属性描述:指明作用域内容按何种语种、或者某种汉语方言发音。

属性值:符合RFC1766规定的语言和方言代码标识，如en,zh-cn,zh-hk,zh-two

示例：

他姓<phonemealphabet="py"ph="zengl">曾</phoneme〉

国家主席<phonemelang="en">JiangZeming</phoneme〉

5.2.2.3sub

元素名:sub

属于：基本集

描述：

使用

定制服务

关联标准

引用标准

GB 2312-1980

GB/T 2312-1980 信息交换用汉字编码字符集基本集

现行

GB 13000.1-1993

GB 13000.1-1993 信息技术通用多八位编码字符集(UCS) 第一部分：体系结构与基本多文种平面

被代替

GB 18030-2005

GB 18030-2005 信息技术中文编码字符集

被代替

RFC1766

SSML 1.0(W3C)

相似标准推荐

更多>

GB/T 21024-2007 中文语音合成系统通用技术规范

GB/T 21024-2007 General specification for Chinese speech synthesis system

基本信息

发布历史

文前页预览

研制信息

内容描述

定制服务

推荐标准

关联标准

相似标准推荐