DB13/T 2351.1-2016 标准文献结构化数据规范 第1部分:全文元数据
DB13/T 2351.1-2016 Standard Document Structuring Data Specification Part 1: Full Text Metadata。
基本信息
发布历史
-
2016年05月
文前页预览
研制信息
- 起草单位:
- 起草人:
- 出版信息:
- 页数:28页 | 字数:- | 开本: -
内容描述
ICS01.140.20
A14
DB13
河北省地方标准
DB13/T2351.1—2016
标准文献结构化数据规范
第1部分:全文元数据
Structureddataspecificationsofstandarddocuments
Part1:Full-textMetadata
2016-05-23发布2016-07-01实施
河北省质量技术监督局发布
DB13/T2351.1—2016
目次
前言II
引言III
1范围1
2规范性引用文件1
3术语和定义1
4全文元数据的属性2
5全文元数据模型2
6全文元数据描述3
7全文元数据字典描述14
8全文元数据扩展原则和方法14
附录A(规范性附录)标准文献全文结构化元数据代码集15
附录B(规范性附录)篇章条编号、表号和图号说明16
附录C(资料性附录)标准文献结构化全文元数据-字典描述18
参考文献22
I
DB13/T2351.1—2016
前言
本部分按照GB/T1.1-2009给出的规则起草。
DB13/T2351《标准文献结构化数据规范》包括了3部分:
——第1部分:全文元数据;
——第2部分:指标元数据;
——第3部分:元数据著录规则。
本部分是第1部分,本部分与第3部分配套使用。
本部分由河北省标准化研究院提出并归口。
本部分起草单位:河北省标准化研究院。
本部分主要起草人:施健、卢艳芳、马星晓、李朴、李建勋、谢燕、闫志强、张园园、陈南、赵倩、
郭天强、安姣。
II
DB13/T2351.1—2016
引言
标准文献电子文档格式有DOCX、数字版PDF、扫描版PDF。在生产、科研和管理过程中,往往需要定
位到标准内容、指标信息上,如:检索标准指标、指标比对及标准水平分析等。但是,现有的标准文献
电子文档为非结构化文档,这一特性决定它的内容检索指向性笼统模糊,故而,以非结构化文档为单元
存储无法实现小颗粒度的指标数据的检索、比对分析,只有通过数据处理将非结构化文档转换为结构化
或半结构化文档方能解决上述问题。
为寻求上述瓶颈的突破,河北省标准化研究院在2012年将标准文献结构化列为重点科研项目,在此
基础上,2013年又承担了国家标准化委员会标准化信息中心的《“双打”重点产品标准文献结构化内容
数据库》项目,而实现标准文献结构化必须首要解决2个问题:1)结构化标准的数据结构问题,换而言
之,标准结构化加工抽取出的数据是哪些数据?2)对抽取出来的数据进行加工应符合什么样的数据规
范要求,方能满足与原始标准文本内容的一致性的需求。
解决第一个问题,需要建立标准结构化数据模型,并通过元数据规范来实现;
解决第二个问题,需要建立数据的著录规则,实现数据的规范性。
项目组在确定文献结构化抽取技术的基础上,对4000余项强制性国家标准的内容要素逐一进行了分
析研究、归纳总结后,按UML思想确定了标准结构化数据模型,并在工程上对4000余项强制性国家标准
进行了结构化数据的抽取验证,确定了结构化元数据。通过验证测试,逐步完善了加工抽取结构化数据
的规范要求,形成了《标准文献结构化数据规范》。
目前,在行业内广泛使用的GB/T22373-2008《标准文献元数据》是针对标准文献题录的元数据标
准,侧重的是标准文献形式特征,而此次制定的《标准文献结构化数据规范》是关于标准内容结构化的
全文元数据和指标元数据规范,希望此两个标准的结合使用,实现标准文献信息资源的统一描述,促进
标准文献信息资源的开发利用。
III
DB13/T2351.1—2016
标准文献结构化数据规范第1部分:全文元数据
1范围
本部分规定了标准文献结构化全文元数据(包括全文、术语、图像、表格和公式)的术语和定义、
属性、模型、描述以及扩展原则和方法。
本部分适用于标准文献结构化数据的处理。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T74088数据元和交换格式信息交换日期和时间表示法(GB/T7408-2005,ISO
8601:2000,IDT)
GB/T18391.3-2009信息技术元数据注册系统(MDR)第3部分:注册系统元模型与基本属性
(ISO/IEC11179-3:2003,IDT)
GB/T19710-2005地理信息元数据(ISO19115-2003,MOD)
GB/T26816-2011信息资源核心元数据
3术语和定义
下列术语和定义适用于本部分。
3.1
信息资源informationresource
在政治、经济和社会等各领域产生和使用、具有各种载体形式的信息内容。
[GB/T26816-2011,定义3.1]
3.2
元数据metadata
定义和描述其他数据的数据。
[GB/T18391.3-2009,定义3.2.18]
3.3
元数据元素metadataelement
元数据的基本单元。
注:元数据元素在元数据实体中是唯一的。
[GB/T19710-2005,定义4.61]
3.4
1
DB13/T2351.1—2016
元数据实体metadataentity
一组说明信息资源相关特性的元数据元素。
注:可以包含一个或一个以上元数据实体。
[GB/T19710-2005,定义4.71]
3.5
核心元数据coremetadata
描述信息资源基本属性的元数据元素和元数据实体。
[GB/T26816-2011,定义3.5]
4全文元数据的属性
4.1中文名称
指元数据元素或元数据实体的中文名称,用本部分第6章中各条的标题来表达。
4.2英文名称
元数据元素的英文名称,一般用小写英文全称,英文单词之间用空格分隔。
元数据实体的英文名称,每一个单词首字母为大写,其余字母为小写,英文单词之间用空格分隔。
4.3缩写名
应符合GB/T26816-2011中4.6的要求。
4.4定义
应符合GB/T26816-2011中4.2的要求。
4.5数据类型
应符合GB/T26816-2011中4.4的要求。
4.6值域
应符合GB/T26816-2011中4.5的要求。
4.7约束/条件
应符合GB/T26816-2011中4.7的要求,约束/条件代码见附录A表A.1。
4.8最大出现次数
应符合GB/T26816-2011中4.8的要求。
5全文元数据模型
标准文献结构化全文元数据模型见图1。
2
DB13/T2351.1—2016
图1全文元数据模型
6全文元数据描述
6.1全文元数据
中文名称:全文元数据
英文名称:Full-textMetadata
缩写名:FulTxtMdata
定义:描述结构化标准中全文数据的元数据。
数据类型:复合型
约束/条件:M
最大出现次数:1
6.2标识符
3
DB13/T2351.1—2016
中文名称:标识符
英文名称:identifier
缩写名:ID
定义:名称空间中对象的唯一标识符。
数据类型:字符串
值域:UUID
约束/条件:M
最大出现次数:1
6.3全文
中文名称:全文
英文名称:FullText
缩写名:FulTxt
定义:以篇章条形式描述的标准内容。
数据类型:复合型
约束/条件:M
最大出现次数:1
6.4标准号
中文名称:标准号
英文名称:documentreference
缩写名:docRef
由有关标准化机构给定的用于唯一识别某一标准的注册号或登记号,标准号
定义:
由标准代号、顺序号、发布年份及有关标识符组成。
数据类型:字符串
值域:标准代号+1个空格+顺序号+1个连字符"-"+4位发布年份
约束/条件:M
最大出现次数:1
6.5标准名称
中文名称:标准名称
英文名称:documentnameinChinese
缩写名:docNmCN
定义:标准的中文名称
数据类型:字符串
值域:自由文本
约束/条件:M
最大出现次数:1
6.6篇章条编号
中文名称:篇章条编号
英文名称:chapternumber
缩写名:chapNo
4
DB13/T2351.1—2016
定义:标准内容中篇章条按一定规则的顺序编号(篇章条编号定义说明见附录B.1.1)。
数据类型:字符串
值域:见附录B.1.2
约束/条件:O
最大出现次数:1
6.7篇章条名称
中文名称:篇章条名称
英文名称:chaptername
缩写名:chapNm
定义:标准中篇章条的标题名称。
数据类型:字符串
值域:自由文本
约束/条件:M
最大出现次数:1
6.8篇章条内容
中文名称:篇章条内容
英文名称:CharpterContent
缩写名:ChapCont
定义:标准中篇章条的段落内容。
数据类型:复合型
值域:自由文本
约束/条件:M
最大出现次数:1
6.9篇章条类型
中文名称:篇章条类型
英文名称:chaptertype
缩写名:chapTyp
定义:描述篇章条类别。
数据类型:字符串
值域:字典(篇章条类型代码见附录表A.2)。
约束/条件:O
最大出现次数:N
6.10篇章条所在页码
中文名称:篇章条所在页码
英文名称:charpterpagenumber
缩写名:chapPNo
定义:同一标准篇章条首次出现所在的页码。
数据类型:数值型
值域:正整数
5
DB13/T2351.1—2016
约束/条件:M
最大出现次数:1
6.11篇章条父章节
中文名称:篇章条父章节
英文名称:parentchapternumber
缩写名:parChpNo
定义:当前篇章条的上一级章节的编号。
数据类型:字符串
值域:条层级最多4层的篇章条编号
约束/条件:C
最大出现次数:1
6.12篇章条顺序号
中文名称:篇章条顺序号
英文名称:charpterordernumber
缩写名:chpOrdNo
定义:篇章条的顺序号
数据类型:数值型
值域:正整数
约束/条件:M
最大出现次数:1
6.13文字
中文名称:文字
英文名称:word
缩写名:wrd
定义:以文字形式描述的标准内容。
数据类型:自由文本
约束/条件:O
最大出现次数:1
6.14表格
中文名称:表格
英文名称:Table
缩写名:Tab
定义:以表格形式描述的标准内容。
数据类型:复合型
约束/条件:O
最大出现次数:N
6.15表号
中文名称:表号
6
DB13/T2351.1—2016
英文名称:tablenumber
缩写名:tabNo
定义:标准内容中表格按特定规则的顺序编号。(表号定义说明见附录B.2.1)。
数据类型:字符串
值域:见附录B.2.2
约束/条件:O
最大出现次数:1
6.16表名
中文名称:表名
英文名称:tablename
缩写名:tabNm
定义:描述表格主题的名称。
数据类型:字符串
值域:自由文本
约束/条件:M
最大出现次数:1
6.17表格图像路径
中文名称:表格图像路径
英文名称:tableimagepath
缩写名:tabImgPath
定义:表格图像文件存储的路径。
数据类型:字符串
值域:自由文本
约束/条件:M
最大出现次数:1
6.18表注
中文名称:表注
英文名称:tablenote
缩写名:tabNote
定义:标准内容中表格的注释。
数据类型:字符串
值域:自由文本
约束/条件:O
最大出现次数:1
6.19表格所在页码
中文名称:表格所在页码
英文名称:tablepagenumber
缩写名:tabPNo
定义:标准内容中同一表格首次出现所在页码。
7
DB13/T2351.1—2016
数据类型:数值型
值域:正整数
约束/条件:M
最大出现次数:1
6.20同一表格顺序号
中文名称:同一表格顺序号
英文名称:sametableordernumber
缩写名:tabOrdNo
定义:跨页表格图像文件的顺序号。
数据类型:数值型
值域:正整数
约束/条件:M
最大出现次数:1
6.21表格HTML格式
中文名称:表格HTML格式
英文名称:tableHTMLcode
缩写名:tabHTML
定义:用HTML描述的表格信息。
数据类型:字符串
值域:自由文本
约束/条件:C
最大出现次数:1
6.22图像
中文名称:图像
英文名称:Image
缩写名:Img
定义:以图形式描述的标准内容。
数据类型:复合型
约束/条件:O
最大出现次数:N
6.23图号
中文名称:图号
英文名称:imagenumber
缩写名:imgNo
定义:标准内容中图像按特定规则的顺序编号。(图号定义说明见附录B.3.1)。
数据类型:字符串
值域:见附录B.3.2
约束/条件:O
最大出现次数:1
8
DB13/T2351.1—2016
6.24图名
中文名称:图名
英文名称:imagename
缩写名:imgNm
定义:描述图的主题的名称。
数据类型:字符串
值域:自由文本
约束/条件:M
最大出现次数:1
6.25图像路径
中文名称:图像路径
英文名称:imagepath
缩写名:imgPath
定义:图像文件存储的路径。
数据类型:字符串
值域:自由
推荐标准
- DB21/T 1927.6-2011 大连连菜烹饪操作规程 蹄筋烧海参 2011-12-27
- DB21/T 1927.35-2011 大连连菜烹饪操作规程 蛋煎蛎黄 2011-12-27
- DB21/T 1927.10-2011 大连连菜烹饪操作规程 麻酱拌海参 2011-12-27
- DB21/T 1927.16-2011 大连连菜烹饪操作规程 红烧鲍鱼 2011-12-27
- DB21/T 1927.62-2011 大连连菜烹饪操作规程 红烧瓦块梭鱼 2011-12-27
- DB21/T 1927.46-2011 大连连菜烹饪操作规程 炸面包虾盒 2011-12-27
- DB21/T 1927.23-2011 大连连菜烹饪操作规程 油爆海螺 2011-12-27
- DB21/T 1927.88-2011 大连连菜烹饪操作规程 海味全家福 2011-12-27
- DB21/T 1927.76-2011 大连连菜烹饪操作规程 松鼠鱼 2011-12-27
- DB21/T 1927.19-2011 大连连菜烹饪操作规程 雪菜蒸鲜鲍 2011-12-27