GB/T 44217.6-2024 语言资源管理 语义标注框架 第6部分:语义标注原则

GB/T 44217.6-2024 Language resource management—Semantic annotation framework—Part 6:Principles of semantic annotation

国家标准 中文简体 即将实施 页数:36页 | 格式:PDF

基本信息

标准号
GB/T 44217.6-2024
标准类型
国家标准
标准状态
即将实施
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2024-07-24
实施日期
2025-02-01
发布单位/组织
国家市场监督管理总局、国家标准化管理委员会
归口单位
全国语言与术语标准化技术委员会(SAC/TC 62)
适用范围
本文件描述了以ISO语义标注框架(SemAF)为特征的语义标注方法。SemAF策略可为特定类别的语义现象开发独立的语义标注方案,并最终合成一个单一、连贯且覆盖广泛的方案,本文件对这一策略进行了简要叙述,并针对ISO语言标注框架中的“标注”与“表示”,分别给出了用于语义标注的抽象句法概念与具体句法概念。本文件还描述了上述概念在元模型规范和标注语义解释方面的作用,以便确定一个理据充分的标注方案。
本文件还为SemAF各个部分的标注方案提供了指南,用于处理以下两个问题:一是因标注方案重叠而引起的概念与术语上的不一致;二是涉及多个SemAF部分的语义现象(如否定、情态和计量)的处理方式。本文件对以上问题均给出了确切实例,并视情况给出了部分的解决方案。
本文件适用于为不同语义现象设计标注方案。

发布历史

文前页预览

研制信息

起草单位:
中国标准化研究院、华南师范大学、湖北省标准化与质量研究院、北京信息科技大学、厦门坤锦电子科技有限公司、中国科学技术信息研究所、中国质量标准出版传媒有限公司、北京集贤弘文文化传媒有限公司、聊城大学、北京工业大学、上海对外经贸大学、中国中医科学院中医药信息研究所、江苏科技大学、四川语言桥信息技术有限公司、广州智语信息科技有限公司
起草人:
曹馨宇、王海涛、郝天永、陈炎明、吕学强、黄树福、刘耀、刘晓东、严可、贺莉丽、魏洁、鲁曦、贾仰理、徐术坤、刘磊、刘亮亮、周洪伟、刘嘎琼、朱宪超、瞿瑛瑛
出版信息:
页数:36页 | 字数:54 千字 | 开本: 大16开

内容描述

ICS01020

CCSA.22

中华人民共和国国家标准

GB/T442176—2024

.

语言资源管理语义标注框架

第6部分语义标注原则

:

Languageresourcemanagement—Semanticannotationframework—

Part6Princilesofsemanticannotation

:p

ISO24617-62016Lanuaeresourcemanaement—Semanticannotation

[:,ggg

framework—Part6PrincilesofsemanticannotationSemAFPrinciles

:p(p),

MOD

]

2024-07-24发布2025-02-01实施

国家市场监督管理总局发布

国家标准化管理委员会

GB/T442176—2024

.

目次

前言

…………………………Ⅲ

引言

…………………………Ⅴ

范围

1………………………1

规范性引用文件

2…………………………1

术语和定义

3………………1

用途和功能

4………………2

用途

4.1…………………2

功能

4.2…………………2

简述

5………………………3

标注原则

6…………………3

继承自语言标注框架的原则

6.1………………………3

其他一般标注原则

6.2…………………4

语义标注的特定原则

6.3………………4

的方法论基础

7SemAF……………………5

标注方案设计的步骤

7.1………………5

元模型

7.2………………6

抽象语法具体语法和语义

7.3、…………7

设计过程中的步骤和反馈

7.4…………9

标注方案中的可选元素

7.5……………11

标注方案之间的重叠

8……………………12

语义一致性和术语一致性

8.1…………12

作为语义角色的空间和时间关系

8.2…………………12

事件

8.3…………………14

对话中的话语关系

8.4…………………14

跨越多个标注框架的语义现象

9…………14

普遍存在的语义现象

9.1………………14

量化

9.2…………………14

数量和量

9.3……………15

否定情态事实性和属性

9.4、、…………16

修饰与量化

9.5…………………………17

附录资料性自然语言量化标注方法

A()………………19

参考文献

……………………22

GB/T442176—2024

.

前言

本文件按照标准化工作导则第部分标准化文件的结构和起草规则的规定

GB/T1.1—2020《1:》

起草

本文件是语言资源管理语义标注框架的第部分已经发布了以

GB/T44217《》6。GB/T44217

下部分

:

第部分语义标注原则

———6:;

第部分可度量数量信息

———11:(MQI)。

本文件修改采用语言资源管理语义标注框架第部分语义标注原则

ISO24617-6:2016《6:

原则

(SemAF)》。

本文件增加了规范性引用文件一章

“”。

本文件与的技术差异及原因如下

ISO24617-6:2016:

更改了对数字语料库中的语义标注通常支持解释和推理的原因的阐述将其改为陈述性描述

———,

见标准中无需阐述原因

(6.3),;

删除了反馈关系和依赖关系未出现在话语关系标注方案的原因的阐述删除了话语关系的

———,

标注方案应从继承这些关系的原因的阐述见的标

ISOISO24617-2(ISO24617-6:20167.4),

准中无需阐述原因

;

更改了关于数值和量的标注方式见由于技术发展对于数值和量的标注方式采用

———(9.3),,

中对数值和量的标注方式

ISO24617-11:2022。

本文件做了下列编辑性改动

:

更改了标准名称将语义标注框架的简称删去

———,;

更改了实现本文件目的三种方式的表述形式见根据要求改为列项

———(4.1),GB/T1.1—2020,

表示

;

更改了示例的表述形式见改为符合汉语表述方式的示例

———(4.2),;

更改了示例示例示例的内容见改为符合汉语表述方式的示例

———1、2、3(4.2),;

更改了标注方案间一致性和标注方案集合完整性的表述形式见第章根据

———(5),GB/T1.1—

要求改为列项表示

2020,;

更改了语义标注两个功能的表述形式见根据要求改为列项表示

———(6.3),GB/T1.1—2020,;

更改了示例的表述形式见改为符合汉语表述方式的示例

———(6.3),;

更改了对有意义的标注的解释方式见标准中无需阐述原因改为陈述性描述

———(6.3),,;

更改了示例的内容见改为符合汉语表述方式的示例

———2(6.3),;

更改了示例示例示例的内容见改为符合汉语表述方式的示例

———4、5、6(7.2),;

更改了示例的表述形式见改为符合汉语表述方式的示例

———(7.2),;

更改正文中对于参考文献的表述方式见以符合的要求

———(7.2),GB/T1.1—2020;

更改了给定表示转换为另一个语义等同表示的步骤的表述形式见改为列项表示

———(7.3),;

更改正文中对于参考文献的表述方式见以符合的要求

———(7.4),GB/T1.1—2020;

更改了示例中对距离的描述见改为符合汉语习惯的衡量距离的单位

———4(8.2),;

更改了对话行为标注方案两种类型的表述形式见改为列项表示

———ISO(8.4),;

更改了示例及相关内容见

———1(8.8);

更改了示例的表述形式见改为符合汉语表述方式的示例

———(9.2),;

GB/T442176—2024

.

更改了示例内容及表述形式见改为符合汉语表述方式的示例

———(9.4),;

删除了原示例及正文中相应的说明见的其表述方式不

———(24)(9.5.1,ISO24617-6:20168.5.1),

符合中文习惯

;

更改了示例内容及表述形式见改为符合汉语表述方式的示例

———(9.5.2),。

请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别专利的责任

。。

本文件由全国语言与术语标准化技术委员会提出并归口

(SAC/TC62)。

本文件起草单位中国标准化研究院华南师范大学湖北省标准化与质量研究院北京信息科技大

:、、、

学厦门坤锦电子科技有限公司中国科学技术信息研究所中国质量标准出版传媒有限公司北京集贤

、、、、

弘文文化传媒有限公司聊城大学北京工业大学上海对外经贸大学中国中医科学院中医药信息研究

、、、、

所江苏科技大学四川语言桥信息技术有限公司广州智语信息科技有限公司

、、、。

本文件主要起草人曹馨宇王海涛郝天永陈炎明吕学强黄树福刘耀刘晓东严可贺莉丽

:、、、、、、、、、、

魏洁鲁曦贾仰理徐术坤刘磊刘亮亮周洪伟刘嘎琼朱宪超瞿瑛瑛

、、、、、、、、、。

GB/T442176—2024

.

引言

语义标注是计算机对自然语言深层次处理的重要技术之一是对文本中的词语或句子添加可供理

,

解的语义标签的过程依据标注的一般原则和具体标注对象的不同标准被划分为不同的部分

。,,

语言资源管理语义标注框架拟由个部分构成

GB/T44217《》12。

第部分时间和事件目的在于提供一种通用的方法来描述文本中的时间和事件

———1:。。

第部分对话行为目的在于提供一种表示对话行为的标注语言以及一种将对话分割为语

———2:。

义单元的方法

第部分语义角色目的在于为语义角色提供一个协商一致的标注方案

———4:。。

第部分篇章结构目的在于为话语实现和话语内容提供一种表示方式

———5:。。

第部分语义标注原则目的在于确定以语义标注框架为特征的语义标注方法

———6:。。

第部分空间信息目的在于提供一种通用的方法来描述自然语言文本中表达运动相关的

———7:。

空间信息和时空信息

第部分篇章中的语义关系核心标注框架目的在于为话语关系的表示和标注提供一个

———8:,。

方案

第部分引用标注框架目的在于为自然语言文本和多模态交互中所指现象的标注和表示

———9:。

提供一个综合模型

第部分可度量数量信息目的在于为可度量数量信息提供一种标注方案

———11:(MQI)。。

第部分数量目的在于为数量信息语义表示提出一般形式化定义

———12:。。

第部分空间语义目的在于通过为抽象语法建立形式语义提供标注空间信息的方法

———14:。。

第部分可度量数量信息抽取目的在于提供一种从自然语言文本中抽取可度量数量信息

———15:。

的一般方法

GB/T442176—2024

.

语言资源管理语义标注框架

第6部分语义标注原则

:

1范围

本文件描述了以语义标注框架为特征的语义标注方法策略可为特定类别

ISO(SemAF)。SemAF

的语义现象开发独立的语义标注方案并最终合成一个单一连贯且覆盖广泛的方案本文件对这一策

,、,

略进行了简要叙述并针对语言标注框架中的标注与表示分别给出了用于语义标注的抽象

,ISO“”“”,

句法概念与具体句法概念本文件还描述了上述概念在元模型规范和标注语义解释方面的作用以便

。,

确定一个理据充分的标注方案

本文件还为各个部分的标注方案提供了指南用于处理以下两个问题一是因标注方案重

SemAF,:

叠而引起的概念与术语上的不一致二是涉及多个部分的语义现象如否定情态和计量的处

;SemAF(、)

理方式本文件对以上问题均给出了确切实例并视情况给出了部分的解决方案

。,。

本文件适用于为不同语义现象设计标注方案

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款其中注日期的引用文

。,

件仅该日期对应的版本适用于本文件不注日期的引用文件其最新版本包括所有的修改单适用于

,;,()

本文件

ISO24617-2Languageresourcemanagement—Semanticannotationframework(SemAF)—Part

2:Dialogueacts

3术语和定义

下列术语和定义适用于本文件

31

.

原数据primarydata

文本或交流行为的电子化表示

示例文本的数字表示语音转录手势或多模式对话

:、、。

注1将原数据定义为语言数据的电子表示对于本文件这个定义并不太合适因为语义标注也可以

:ISO24612“”。,,

与非语言或多模态数据有关例如带有伴随手势和面部表情的口语对话甚至是没有任何伴随语言的手势

,,

和或面部表情

/。

注2原数据指未进行标注的原始数据

:。

32

.

标注annotation

添加到原数据的与其表述无关的语言信息

(3.1)。

来源

[:ISO24612:2012,2.3]

33

.

语义标注semanticannotation

包含与原数据片段或区域的含义有关的信息的标注

(3.1)(3.2)。

1