WH/T 90-2020 汉文古籍文字认同描述规范

WH/T 90-2020 Unity description for Chinese character identification

行业标准-文化 中文简体 现行 页数:12页 | 格式:PDF

基本信息

标准号
WH/T 90-2020
标准类型
行业标准-文化
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2020-09-01
实施日期
2021-01-01
发布单位/组织
中华人民共和国文化和旅游部
归口单位
全国图书馆标准化技术委员会(SAC/TC 389)
适用范围
本标准规定了汉文古籍文字认同描述的元数据、文字认同规则描述以及文字认同实例描述的内容、结构及各要素的描述规则。
本标准适用于图书馆及相关机构开展汉文古籍数字化工作中对文字认同过程和结果进行描述。民国时期文献的文字认同可参考执行。

发布历史

研制信息

起草单位:
国家图书馆、天津图书馆、汉王科技股份有限公司
起草人:
王昭、陈红彦、谢冬荣、萨仁高娃、李国庆、潘慧敏、肖禹、张毅、白帆、杜立功、赵依澍、江世盛、孟晓静、王战波
出版信息:
页数:12页 | 字数:14 千字 | 开本: 大16开

内容描述

ICSOl.140

A14

WH

中华人民共和国文化行业标准

WH/T90-2020

汉文古籍文字认同描述规范

UnitydescriptionforChinesecharacteridentification

2020-09-01发布2021-01-01实施

中华人民共和国文化和旅游部发布

WH/T90-2020

目次

前育…··……“………皿

1范围”…………·……”…..........••••••.........1

2术语和定义……………”….••••••.........1

3文字认同描述的基本原则…………”…..........••••••.........2

4文字认同描述数据……………”….••••••.........2

参考文献”…………·…………..••••••.........6

I

WH/T90-2020

--

E

本标准按照GB/T1.12009给出的规则起草。

请注意本文件的某些内容可能涉及专利.本文件的发布机构不承担识别这些专利的责任。

本标准由中华人民共和国文化和旅游部提出。

本标准由全国图书馆标准化技术委员会(SAC/TC389)归口。

本标准起草单位2国家图书馆、天津图书馆、汉王科技股份有限公司。

本标准主要起草人z王昭、陈红彦、谢冬荣、萨仁高娃、李国庆、潘慧敏、肖禹、张毅、自帆、杜立功、

赵依割、江世盛、孟晓静、王战波。

WH/T90-2020

汉文古籍文字认同描述规范

1范围

本标准规定了汉文古籍文字认同描述的元数据、文字认同规则描述以及文字认同实例描述的内容、

结构及各要素的描述规Jlttl.

本标准适用于图书馆及相关机构开展汉文古籍数字化工作中对文字认同过程和结果进行描述。民

国时期文献的文字认同可参考执行。

2术语和定义

下列术语和定义适用于本文件。

2.1

古籍ancientChin国ebooks

主要指1911年以前(含1911年)在中国书写或印刷的书籍。

[GB/T3792.72008,定义3.1]

2.2

汉字Chin四echaracter

记录汉语的书写符号系统。汉字也被其他一些国家或民族用作为书写符号。

[GB/T12200.l90,定义4.1.3.6]

2.3

字体characterstyle

同一汉字(2.2)由于各种原因(历史演变、书写、印刷等)而形成的各种不同体式。

例E印刷体(宋体、仿宋体、黑体、楷体等〉、手写体、古体、繁体、简体、正体、异体、俗体、说体等。

[GB/T12200.294,定义4.1.2.2]

2.4

文字script

人类记录和传达语言的书写符号系统。

[GB/T12200.1-90,定义4.1.2.7]

2.5

民字的字青ch。字h町rMrn义有的血仙田m-咀

aonLPZ9

r2

2.6厅B如1习达2∞汉h-、h42咄出冲ι川字u口一音有的字多日1

语义semanti四

词或词组与它们的含义之间的关系。

[GB/T12200.l90,定义4.1.2.12]

2.7

文字认同Chin四echaracteridentification

同一文字的不同字体转换为同一字体的过程。

1

WH/T90-2020

3文字认同描述的基本原则

3.1客观性原则

文字认同描述应符合文字的客观属性。

3.2一致性原则

指定范围内(如同一项目等)文字认同描述方式应一致。

3.3适用性原则

应根据项目实际需要,选取必要的、实用的要素进行文字认同描述。

3.4灵活性原则

可依据需求选取本标准中部分内容进行文字认同描述。

3.5可扩展性原则

文字认同描述可依据需求进行扩展。

4文字认同描述数据

4.1概述

文字认同描述数据用于汉文古籍数字化中文字认同的描述,由文字认同描述元数据、文字认同规则

描述数据(包括文字认同规则数据和文字认同规则适用范围描述数据)和文字认同实例描述数据3部分

组成.

4.2文字认同描述元激据

4.2.1文字认同描述元数据概述

文字认同描述元数据是定义和描述汉文古籍数字化中文字认同描述数据的数据,是对文字认同描

述的总体性说明。

4.2.2文字认同描述元数据元素

文字认同描述元数据元素包括2文字认同描述说明、文字认同描述范围、文字字符集、文字描述方

式、文字位置描述、文字认同依据、文字认同规则说明、文字认同描述数据说明。可根据需要扩展元素。

文字认同描述数据元数据的元素组成及其定义见表1.

2

WH/T90-2020

表1文字认同描述元数据元素描述

兀素名英文对应词定义

注释

De•criptionof说明古籍数字化过程中文说明文字认同描述的目的、处理等情

文字认同描述说明

1dent1ficat1on

字认同描述情况况,可用于数据交换与共享

Rangeof说明文字认同描述适用的在指定范围内文字认同描述方式相同,

文字认同描述范围

1dent1ficatlon

范围如项目、册、卷、叶等

自行确定字符集的范围,如Unicode字

Character•et

文字字符集定义文字的字符集范围

符基础集、~用规范汉字表等

通过文字描述可以识别、检索或匹配文

Character

说明认同前和认同后文字

文字描述方式字,如Unicode编码、集外字使用IDS描

de•cription的描述方式

述等

通过该描述可以定位到文字,自行确定

说明文字在文献中位置的

文字位置描述Locationde•cription描述方式,如项目书号册叶行列、

描述方式

项目书号册叶-坐标等

Ba'"of说明文字认同依据的规范

文字认同依据可自行确定,但规则间不能相互冲突

identification

或工具书

文字认同规则的总体性说明,可用于文

Identificationrules

文字认同规则相关的说明

文字认同规则说明

字认同数据交换与共享

文字认同描述数据相关的文字认同描述数据中结构、内容等相关

Identificationda国

国E字认同描述数据说明

说明说明

4.3文字认同规则描述数据

4.3.1文字认同规则描述数据概述

文字认同规则描述数据是文字认同描述数据的组成部分,是对汉文古籍数字化中文字认同规则及

适用范围的描述,由文字认同规则数据和文字认同规则适用范围描述数据两部分组成,可依据实际需求

进行扩展。

4.3.2文字认同规则敏据

4.3.2.1文字认同规则数据概述

文字认同规则数据是对汉文古籍数字化中文字认同所依据的认同规则进行描述,认同规则之间不

能相互冲突。

4.3.2.2文字认同规则撒据字段

文字认同规则数据字段包括:规则ID、认同前的文字、认同前的文字描述、认同后的文字、认同后的

文字描述、认同条件、认同依据、操作方式、文字认同规则数据版本号、备注。可根据需要扩展著录内容。

描述文字认同规则所需数据字段组成及其说明见表2,

3

WH/T90-2020

表2文字认罔规则鲸据字段描述

字段名字段说明

注释

规则ID

文字认同规则数据的序号指定范围内,编码方式一致且唯一

认同前的文字著录认同前的文字超出4.2.2中“文字字符集”范围的文字

依据4.2.2中“文字描述方式”著录,如存储文字的图、

认同前的文字描述描述认同前的文字

Unicode编码、IDS描述等

依据4.2.2中“文字认同依据”生成的文字,同一文字

认同后的文字著录认同后的文字

的不同字体认同结果唯一

认同后的文字描述描述认同后的文字依据4.2.2中“文字描述方式”著录,如Unicode编码等

认同条件描述文字认同成立的限定性条件自行确定著录格式,如元、字音、语义、词汇等

依据4.2.2中“文字认同依据”确定,如通用规范汉字

著录文字认同依据的规范或相关

认同依据表(2013版)、汉语大字典〈第二版)、第一批异体字整

工具书名称

理表等

操作方式描述文字认同的处理方式自行确定著录格式,如批处理、人工处理等

文字认同规则数据

著录文字认同规则数据版本号根据修改情况更新版本号

版本号

备注其他相关说明与文字认同规则数据有关的说明、备注

4.3.3文字认同规则适用范围描述敢据

4.3.3.1文字认同规则适用范围描述数据概述

文字认同规则适用范围描述数据用于定义和描述文字认同规则适用的范围和对象,可根据需要自

行确定适用范围。

4.3.3.2文字认同规则适用范围描述数据宇段

文字认同规则适用范围描述数据字段包括2适用范围ID、适用内容、适用范围、适用规则、文字认同

规则数据版本号、备注。可根据需要扩展著录内容。文字认同规则适用范围描述数据所需的字段组成

及其说明见表30

表3文字认同规则适用范围描述数据字段描述

字段名字段说明注释

适用范围ID文字认同规则适用范围描述数据的序号

指定范围内,编码方式一致且唯一

自行确定著录格式,如人名、地名、残字、

描述文字认同规则在文献中适用的对象

适用内容

题字等

自行确定著录格式,如第1-10叶、卷五等

适用范围描述文字认同规则在文献中适用的范围

著录4.3.2.2中“规则E”或集舍,自行确

适用规则著录适用的文字认同规则

定数据格式

文字认同规则数据客观著录,格式同4.3.2.2中“文字认同规

著录文字认同依据的规则数据版本号

版本号则数据版本号”

与文字认同规则适用范围描述数据有关

备注其他相关说明

的说明、备注

4

WH/T90-2020

4.4文字认同实例描述敢据

4.4.1文字认同实例描述数据概述

文字认同实例描述数据是文字认同描述数据的组成部分,是对汉文古籍数字化过程中文字认同的

过程和结果进行描述,认同后的文字是依据文字认同规则描述数据(文字认同规则数据和文字认同规则

适用范围描述数据)生成的,指定范围内文字认同结果唯一。

4.4.2文字认同实例描述敏据字段

文字认同实例描述数据字段包括z文字ID、文字位置、认同前文字、认同前文字-描述、认同后文字、

认同后文字-描述、规则ID、适用范围ID、文字认同规则数据版本号、备注。可根据需要扩展描述要素。

描述文字认同实例数据字段组成及其说明见表40

表4文字认同实例描述数据字段描述

字段名字段说明

注释

文字ID

文字认同实例描述数据的序号指定范围内,编码方式一致且唯一

文字位置描述文字在文献中的位置依据4.2.2“文字位置描述”著录

超出4.2.2中“文字字符集”范围的文字

认同前文字著录认同前的文字

依据4.2.2中“文字描述方式”著录,如存储

描述认同前的文字

认同前文字-描述

文字的图、Unicode编码、IDS描述等

依据文字认同规则描述数据生成的文字,同

认同后文字著录认同后的文字

一文字的不同字体认同结果唯一

依据4.2.2中“文字描述方式”著录,如

描述认同后的文字

认同后文字-描述

Unicode编码等

规则ID客观著录,格式同4.3.2.2中“规则IIY”

著录文字认同依据的“规则D”

适用范围ID著录文字认同依据的“适用范围E户’客观著录,格式同4.3.3.2中“适用范围盯’

客观著录,格式同4.3.2.2中“文字认同规则

文字认同规则数据著录文字认同依据的“文字认同规则数据

版本号版本号”数据版本号”

备注其他相关说明与文字认同实例描述数据有关的说明、备注

5

WH/T90-2020

参考文献

[1]汉语太字典[M].成都=四川辞书出版社,2010.

[2]通用规范汉字表[M].北京g语文出版社,2013.

[3]国家语言文字规范和标准选编[M].北京z中国标准出版社,1999.

6

推荐标准

相似标准推荐

更多>