GB/T 44217.6-2024 语言资源管理 语义标注框架 第6部分:语义标注原则
GB/T 44217.6-2024 Language resource management—Semantic annotation framework—Part 6:Principles of semantic annotation
基本信息
本文件还为SemAF各个部分的标注方案提供了指南,用于处理以下两个问题:一是因标注方案重叠而引起的概念与术语上的不一致;二是涉及多个SemAF部分的语义现象(如否定、情态和计量)的处理方式。本文件对以上问题均给出了确切实例,并视情况给出了部分的解决方案。
本文件适用于为不同语义现象设计标注方案。
发布历史
-
2024年07月
文前页预览
研制信息
- 起草单位:
- 中国标准化研究院、华南师范大学、湖北省标准化与质量研究院、北京信息科技大学、厦门坤锦电子科技有限公司、中国科学技术信息研究所、中国质量标准出版传媒有限公司、北京集贤弘文文化传媒有限公司、聊城大学、北京工业大学、上海对外经贸大学、中国中医科学院中医药信息研究所、江苏科技大学、四川语言桥信息技术有限公司、广州智语信息科技有限公司
- 起草人:
- 曹馨宇、王海涛、郝天永、陈炎明、吕学强、黄树福、刘耀、刘晓东、严可、贺莉丽、魏洁、鲁曦、贾仰理、徐术坤、刘磊、刘亮亮、周洪伟、刘嘎琼、朱宪超、瞿瑛瑛
- 出版信息:
- 页数:36页 | 字数:54 千字 | 开本: 大16开
内容描述
ICS01020
CCSA.22
中华人民共和国国家标准
GB/T442176—2024
.
语言资源管理语义标注框架
第6部分语义标注原则
:
Languageresourcemanagement—Semanticannotationframework—
Part6Princilesofsemanticannotation
:p
ISO24617-62016Lanuaeresourcemanaement—Semanticannotation
[:,ggg
framework—Part6PrincilesofsemanticannotationSemAFPrinciles
:p(p),
MOD
]
2024-07-24发布2025-02-01实施
国家市场监督管理总局发布
国家标准化管理委员会
GB/T442176—2024
.
目次
前言
…………………………Ⅲ
引言
…………………………Ⅴ
范围
1………………………1
规范性引用文件
2…………………………1
术语和定义
3………………1
用途和功能
4………………2
用途
4.1…………………2
功能
4.2…………………2
简述
5………………………3
标注原则
6…………………3
继承自语言标注框架的原则
6.1………………………3
其他一般标注原则
6.2…………………4
语义标注的特定原则
6.3………………4
的方法论基础
7SemAF……………………5
标注方案设计的步骤
7.1………………5
元模型
7.2………………6
抽象语法具体语法和语义
7.3、…………7
设计过程中的步骤和反馈
7.4…………9
标注方案中的可选元素
7.5……………11
标注方案之间的重叠
8……………………12
语义一致性和术语一致性
8.1…………12
作为语义角色的空间和时间关系
8.2…………………12
事件
8.3…………………14
对话中的话语关系
8.4…………………14
跨越多个标注框架的语义现象
9…………14
普遍存在的语义现象
9.1………………14
量化
9.2…………………14
数量和量
9.3……………15
否定情态事实性和属性
9.4、、…………16
修饰与量化
9.5…………………………17
附录资料性自然语言量化标注方法
A()………………19
参考文献
……………………22
Ⅰ
GB/T442176—2024
.
前言
本文件按照标准化工作导则第部分标准化文件的结构和起草规则的规定
GB/T1.1—2020《1:》
起草
。
本文件是语言资源管理语义标注框架的第部分已经发布了以
GB/T44217《》6。GB/T44217
下部分
:
第部分语义标注原则
———6:;
第部分可度量数量信息
———11:(MQI)。
本文件修改采用语言资源管理语义标注框架第部分语义标注原则
ISO24617-6:2016《6:
原则
(SemAF)》。
本文件增加了规范性引用文件一章
“”。
本文件与的技术差异及原因如下
ISO24617-6:2016:
更改了对数字语料库中的语义标注通常支持解释和推理的原因的阐述将其改为陈述性描述
———,
见标准中无需阐述原因
(6.3),;
删除了反馈关系和依赖关系未出现在话语关系标注方案的原因的阐述删除了话语关系的
———,
标注方案应从继承这些关系的原因的阐述见的标
ISOISO24617-2(ISO24617-6:20167.4),
准中无需阐述原因
;
更改了关于数值和量的标注方式见由于技术发展对于数值和量的标注方式采用
———(9.3),,
中对数值和量的标注方式
ISO24617-11:2022。
本文件做了下列编辑性改动
:
更改了标准名称将语义标注框架的简称删去
———,;
更改了实现本文件目的三种方式的表述形式见根据要求改为列项
———(4.1),GB/T1.1—2020,
表示
;
更改了示例的表述形式见改为符合汉语表述方式的示例
———(4.2),;
更改了示例示例示例的内容见改为符合汉语表述方式的示例
———1、2、3(4.2),;
更改了标注方案间一致性和标注方案集合完整性的表述形式见第章根据
———(5),GB/T1.1—
要求改为列项表示
2020,;
更改了语义标注两个功能的表述形式见根据要求改为列项表示
———(6.3),GB/T1.1—2020,;
更改了示例的表述形式见改为符合汉语表述方式的示例
———(6.3),;
更改了对有意义的标注的解释方式见标准中无需阐述原因改为陈述性描述
———(6.3),,;
更改了示例的内容见改为符合汉语表述方式的示例
———2(6.3),;
更改了示例示例示例的内容见改为符合汉语表述方式的示例
———4、5、6(7.2),;
更改了示例的表述形式见改为符合汉语表述方式的示例
———(7.2),;
更改正文中对于参考文献的表述方式见以符合的要求
———(7.2),GB/T1.1—2020;
更改了给定表示转换为另一个语义等同表示的步骤的表述形式见改为列项表示
———(7.3),;
更改正文中对于参考文献的表述方式见以符合的要求
———(7.4),GB/T1.1—2020;
更改了示例中对距离的描述见改为符合汉语习惯的衡量距离的单位
———4(8.2),;
更改了对话行为标注方案两种类型的表述形式见改为列项表示
———ISO(8.4),;
更改了示例及相关内容见
———1(8.8);
更改了示例的表述形式见改为符合汉语表述方式的示例
———(9.2),;
Ⅲ
GB/T442176—2024
.
更改了示例内容及表述形式见改为符合汉语表述方式的示例
———(9.4),;
删除了原示例及正文中相应的说明见的其表述方式不
———(24)(9.5.1,ISO24617-6:20168.5.1),
符合中文习惯
;
更改了示例内容及表述形式见改为符合汉语表述方式的示例
———(9.5.2),。
请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别专利的责任
。。
本文件由全国语言与术语标准化技术委员会提出并归口
(SAC/TC62)。
本文件起草单位中国标准化研究院华南师范大学湖北省标准化与质量研究院北京信息科技大
:、、、
学厦门坤锦电子科技有限公司中国科学技术信息研究所中国质量标准出版传媒有限公司北京集贤
、、、、
弘文文化传媒有限公司聊城大学北京工业大学上海对外经贸大学中国中医科学院中医药信息研究
、、、、
所江苏科技大学四川语言桥信息技术有限公司广州智语信息科技有限公司
、、、。
本文件主要起草人曹馨宇王海涛郝天永陈炎明吕学强黄树福刘耀刘晓东严可贺莉丽
:、、、、、、、、、、
魏洁鲁曦贾仰理徐术坤刘磊刘亮亮周洪伟刘嘎琼朱宪超瞿瑛瑛
、、、、、、、、、。
Ⅳ
GB/T442176—2024
.
引言
语义标注是计算机对自然语言深层次处理的重要技术之一是对文本中的词语或句子添加可供理
,
解的语义标签的过程依据标注的一般原则和具体标注对象的不同标准被划分为不同的部分
。,,
语言资源管理语义标注框架拟由个部分构成
GB/T44217《》12。
第部分时间和事件目的在于提供一种通用的方法来描述文本中的时间和事件
———1:。。
第部分对话行为目的在于提供一种表示对话行为的标注语言以及一种将对话分割为语
———2:。
义单元的方法
。
第部分语义角色目的在于为语义角色提供一个协商一致的标注方案
———4:。。
第部分篇章结构目的在于为话语实现和话语内容提供一种表示方式
———5:。。
第部分语义标注原则目的在于确定以语义标注框架为特征的语义标注方法
———6:。。
第部分空间信息目的在于提供一种通用的方法来描述自然语言文本中表达运动相关的
———7:。
空间信息和时空信息
。
第部分篇章中的语义关系核心标注框架目的在于为话语关系的表示和标注提供一个
———8:,。
方案
。
第部分引用标注框架目的在于为自然语言文本和多模态交互中所指现象的标注和表示
———9:。
提供一个综合模型
。
第部分可度量数量信息目的在于为可度量数量信息提供一种标注方案
———11:(MQI)。。
第部分数量目的在于为数量信息语义表示提出一般形式化定义
———12:。。
第部分空间语义目的在于通过为抽象语法建立形式语义提供标注空间信息的方法
———14:。。
第部分可度量数量信息抽取目的在于提供一种从自然语言文本中抽取可度量数量信息
———15:。
的一般方法
。
Ⅴ
GB/T442176—2024
.
语言资源管理语义标注框架
第6部分语义标注原则
:
1范围
本文件描述了以语义标注框架为特征的语义标注方法策略可为特定类别
ISO(SemAF)。SemAF
的语义现象开发独立的语义标注方案并最终合成一个单一连贯且覆盖广泛的方案本文件对这一策
,、,
略进行了简要叙述并针对语言标注框架中的标注与表示分别给出了用于语义标注的抽象
,ISO“”“”,
句法概念与具体句法概念本文件还描述了上述概念在元模型规范和标注语义解释方面的作用以便
。,
确定一个理据充分的标注方案
。
本文件还为各个部分的标注方案提供了指南用于处理以下两个问题一是因标注方案重
SemAF,:
叠而引起的概念与术语上的不一致二是涉及多个部分的语义现象如否定情态和计量的处
;SemAF(、)
理方式本文件对以上问题均给出了确切实例并视情况给出了部分的解决方案
。,。
本文件适用于为不同语义现象设计标注方案
。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款其中注日期的引用文
。,
件仅该日期对应的版本适用于本文件不注日期的引用文件其最新版本包括所有的修改单适用于
,;,()
本文件
。
ISO24617-2Languageresourcemanagement—Semanticannotationframework(SemAF)—Part
2:Dialogueacts
3术语和定义
下列术语和定义适用于本文件
。
31
.
原数据primarydata
文本或交流行为的电子化表示
。
示例文本的数字表示语音转录手势或多模式对话
:、、。
注1将原数据定义为语言数据的电子表示对于本文件这个定义并不太合适因为语义标注也可以
:ISO24612“”。,,
与非语言或多模态数据有关例如带有伴随手势和面部表情的口语对话甚至是没有任何伴随语言的手势
,,
和或面部表情
/。
注2原数据指未进行标注的原始数据
:。
32
.
标注annotation
添加到原数据的与其表述无关的语言信息
(3.1)。
来源
[:ISO24612:2012,2.3]
33
.
语义标注semanticannotation
包含与原数据片段或区域的含义有关的信息的标注
(3.1)(3.2)。
1
推荐标准
- DB32/ 2628-2014 铸铁件可比单位综合能耗限额及计算方法 2014-01-10
- DB32/T 2622-2014 地理标志产品 黄川草莓 2014-01-10
- DB32/ 2627-2014 轮胎单位产品综合能耗限额及计算方法 2014-01-10
- DB32/ 2624-2014 合成洗衣粉单位产品能耗限额及计算方法 2014-01-10
- DB32/T 2630-2014 粮库信息化建设技术规范 2014-01-10
- DB32/T 2633-2014 乡镇(街道)便民服务中心服务管理规范 2014-01-10
- DB32/ 2625-2014 卷烟生产企业单位产品综合能耗限额及计算方法 2014-01-10
- DB32/T 2632-2014 溧阳鸡种蛋孵化技术规程 2014-01-10
- DB32/ 2623-2014 大豆油生产主要工序单位产品能耗限额及计算方法 2014-01-10
- DB32/T 2629-2014 粮食流通信息基础数据元规范 2014-01-10