GB/Z 43768-2024 信息与文献 网络存档的统计和质量问题
GB/Z 43768-2024 Information and documentation—Statistics and quality issues for web archiving
基本信息
本文件面向直接参与网络存档的专家,通常是由网络存档机构的领导决策人员、工程师和保存管理人员组成的团队。对网络存档机构的资助机构和利益相关方也同样有用。本文件使用的专业术语试图能够表达受众所拥有的广泛兴趣和专业知识,并在计算机科学、管理和图书馆学之间达到平衡。
本文件不适用于学术和商业电子资源的管理,如电子期刊、电子报纸或电子书,这些资源通常使用不同的管理系统单独存储和处理。它们虽然被视为互联网资源,但在本文件中不作为网络存档的特定内容流进行阐述。一些组织还采集通过网络分发的电子文档,如通过出版商的电子存储库和仓储系统,这些内容也不在本文件的阐述范围。这类采集使用的原理和技术与网络存档有很大不同,因此本文件的统计数据和质量指标不一定适用。
本文件专注于网络存档的原理和方法,不包括其他采集互联网资源的方式。事实上,一些互联网资源,尤其是那些不在网络上传播的资源(如以电子邮件形式传播的通信),不是通过网络存档技术采集的,而是通过其他方式采集的,而这些方式也不属于本文件的适用范围。
发布历史
-
2024年03月
文前页预览
研制信息
- 起草单位:
- 中国科学院文献情报中心、国家图书馆、中国科学院档案馆、北京大学图书馆
- 起草人:
- 吴振新、张冬荣、潘亚男、敦文杰、朱佳丽、曲云鹏、孙超、谢靖、付鸿鹄、单嵩岩、薛杰、吴欣雨、孔贝贝、胡吉颖、陈子俊、张静
- 出版信息:
- 页数:56页 | 字数:100 千字 | 开本: 大16开
内容描述
ICS01.140.20
CCSA14
中华人民共和国国家标准化指导性技术文件
/—//:
GBZ437682024ISOTR148732013
信息与文献网络存档的统计和质量问题
—
InformationanddocumentationStatisticsandualitissuesfor
qy
webarchiving
(/:,)
ISOTR148732013IDT
2024-03-15发布2024-10-01实施
国家市场监督管理总局
发布
国家标准化管理委员会
/—//:
GBZ437682024ISOTR148732013
目次
前言…………………………Ⅲ
引言…………………………Ⅳ
1范围………………………1
2规范性引用文件…………………………1
3术语和定义………………1
4网络存档的方法和目的…………………7
4.1采集方法……………7
4.2访问和描述方法……………………9
4.3保存方法……………11
4.4网络存档的法律基础………………12
4.5网络存档的其他原因………………13
5统计数据…………………14
5.1概述…………………14
5.2资源集合建设………………………15
5.3资源集合表征………………………20
5.4资源集合使用………………………24
5.5网络存档保存………………………28
5.6网络存档成本………………………30
6质量指标…………………32
6.1概述…………………32
6.2限制…………………33
6.3描述…………………33
7用途和获益………………41
7.1概述…………………41
7.2预期用途和读者……………………42
7.3对用户群体的好处…………………42
7.4按用户群体使用提出的统计数据…………………42
7.5网络存档流程及相关性能指标……………………44
参考文献……………………46
图按用户群体使用的统计数据………………………
143
图2网络存档流程及对应的性能指标…………………45
Ⅰ
/—//:
GBZ437682024ISOTR148732013
表1HTTP状态码列表…………………16
表2资源集合建设的核心统计数据……………………20
表3资源集合表征的核心统计数据……………………24
表4评估存档使用情况的基本统计数据………………26
表5存档使用情况的高级表征汇总统计数据…………27
表6资源集合使用情况的核心统计数据………………27
表7与元数据保存相关的统计数据……………………29
表8资源集合保存的核心统计数据……………………30
表9资源集合成本的核心统计数据……………………32
表10预期用途和读者……………………42
表图中使用的术语…………………
11144
Ⅱ
/—//:
GBZ437682024ISOTR148732013
前言
/—《:》
本文件按照标准化工作导则第部分标准化文件的结构和起草规则的规定
GBT1.120201
起草。
/:《》,
本文件等同采用信息与文献网络存档的统计和质量问题文件类型由
ISOTR148732013
IEC的技术报告调整为我国的国家标准化指导性技术文件。
“”。
本文件增加了规范性引用文件一章
。。
请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别专利的责任
本文件做了下列最小限度的编辑性改动:
———,,;
为了增强易读性在保留国际标准中示例的基础上将部分示例替换为国内示例
———,。
针对我国没有明确网络信息存档的法定呈缴机构的现状修改第章相关表述
1
本文件由全国信息与文献标准化技术委员会(/)提出并归口。
SACTC4
:、、、。
本文件起草单位中国科学院文献情报中心国家图书馆中国科学院档案馆北京大学图书馆
:、、、、、、、、、、
本文件主要起草人吴振新张冬荣潘亚男敦文杰朱佳丽曲云鹏孙超谢靖付鸿鹄单嵩岩
、、、、、。
薛杰吴欣雨孔贝贝胡吉颖陈子俊张静
Ⅲ
/—//:
GBZ437682024ISOTR148732013
引言
本文件是为了指导我国网络存档以及网络存档产品的管理和评估而制定。
,、、()、()
网络存档指随着时间推移对互联网资源的快照进行选择抓取存储Storing保存Preserving
。,、
和访问管理的活动世纪年代末人们预见到互联网资源存档将成为未来研究商业和政府的重
2090
,。,。
要记录开始实施网络存档互联网资源被视为文化遗产的一部分能像印本那样得到保存许多参与
,
网络存档的机构将此视为保护国家文化遗产这一长期使命的延伸且受到许多国家法律法规如法定缴
存制度的认可和支持。
,、、、。
互联网上提供多种类型的资源包括文本图片电影音频及其他多媒体格式的资源除了相互链
,、、(
接的网络页面外还有通过使用各种传输与通信协议提供的新闻组时事通讯博客和交互式服务如游
)。()。
戏网络存档通过采集软件对互联网资源副本进行自动采集通常是定期执行网络存档的目标是
,,,。
实现资源的回放包括内在关联例如通过超文本链接尽可能呈现出与原始环境中一样的效果网络
,、。
存档的主要目标是尽可能地按原始状态永久保存网络记录以满足各种学术专业和私人用途
,
网络存档是一项新兴但不断扩展的活动需要持续引入新方法和工具以与快速发展的网络技术保
。、,
持同步由于存档机构对战略重要性的认识可采用方式以及法律要求的不同导致出现了多种互联网
,。
资源的存档方法存档范围涉及单个网络页面抓取到全部顶级域抓取不同组织的网络存档成熟度等
,,,
级也不同对于某些组织来说网络存档已成为其常规业务活动而有些组织则针对这项挑战刚刚启动
试验计划。
,:。
根据采集的规模和目的网络存档策略分为两大类批量采集和选择性采集大规模的批量采
,,()。,
集如国家域采集旨在抓取整个域或其子集的快照选择性采集的规模则小得多采集更集中且更
,,,、、()
频繁经常是依据某项规则执行例如主题事件格式如音频或视频文件或与内容所有者之间的协
。,
议这两种策略的关键区别在于质量控制程度即对所采集网站进行评估以确定是否达到预定义的质
。()
量标准域采集的规模如此之大使得无法通过人工对所采集的资源和该资源的实时版本进行任何人
,。
工比对而该方式在选择性采集中则是一种常用的质量保证方法
,,
本文件旨在证明网络存档作为广义文化遗产资源集合的一部分基于传统的图书馆工作流用类似
。、、、、,
的和兼容的方式进行评估和管理本文件阐述了资源集合建设表征描述保存使用和组织结构同
,,
时表明尽管在实践中需要做出调整但传统资源集合管理工作流的大多数方面原则上仍然适用于网络
存档。
,。
本文件概述了网络存档的现状重点给出了网络存档统计数据和质量指标的定义和使用一些统
、,。
计数据的产生依赖于所使用的采集索引或浏览软件选择不同的软件可能会导致结果的差异本文件
,。
并不给出特定或推荐的软件而是提供一组指标来帮助评估网络存档的总体性能和质量
Ⅳ
/—//:
GBZ437682024ISOTR148732013
信息与文献网络存档的统计和质量问题
1范围
、。、、、
本文件为网络存档定义了统计数据术语和质量标准本文件考虑了图书馆档案馆博物馆研究
中心和文化遗产基金会等众多机构组织的需求和实践。
,、
本文件面向直接参与网络存档的专家通常是由网络存档机构的领导决策人员工程师和保存管理
。。
人员组成的团队对网络存档机构的资助机构和利益相关方也同样有用本文件使用的专业术语试图
,、。
能够表达受众所拥有的广泛兴趣和专业知识并在计算机科学管理和图书馆学之间达到平衡
,、,
本文件不适用于学术和商业电子资源的管理如电子期刊电子报纸或电子书这些资源通常使用
。,
不同的管理系统单独存储和处理它们虽然被视为互联网资源但在本文件中不作为网络存档的特定
。,
内容流进行阐述一些组织还采集通过网络分发的电子文档如通过出版商的电子存储库和仓储系
,。,
统这些内容也不在本文件的阐述范围这类采集使用的原理和技术与网络存档有很大不同因此本文
件的统计数据和质量指标不一定适用。
,。,
本文件专注于网络存档的原理和方法不包括其他采集互联网资源的方式事实上一些互联网资
,(),
源尤其是那些不在网络上传播的资源如以电子邮件形式传播的通信不是通过网络存档技术采集
,,。
的而是通过其他方式采集的而这些方式也不属于本文件的适用范围
2规范性引用文件
本文件没有规范性引用文件。
3术语和定义
下列术语和定义适用于本文件。
3.1
访问access
图书馆提供的在线服务的成功请求()。
3.36
:,,(
注一次访问是用户活动的一个周期通常从用户连接到图书馆提供的在线服务时开始并以显式通过注销或
1
)()。
退出离开数据库或隐式由于用户不活动而导致超时的终止活动结束
:()。
注对图书馆网站的访问被视为虚拟访问
23.52
:()()。
注不包括通用入口或网关页面的请求
33.333.36
:()。
注尽可能地不包括搜索引擎发起的请求
43.36
[::,]
来源ISO278920223.2.1
3.2
访问工具accesstool
、。
用于查找检索和回放存档互联网资源的专业软件
:。
注该工具通过组合运行多个独立软件包实现
3.3
管理元数据administrativemetadata
妥善管理存储库中数字对象所必需的信息。
1
推荐标准
- GB/T 35616-2017 社会保险经办岗位分类 2017-12-29
- GB/T 35597-2017 微波炉用玻璃托盘 2017-12-29
- GB/T 35594-2017 医用包装纸 2017-12-29
- GB/T 35617-2017 社会保险业务分类与代码 2017-12-29
- GB/T 35598-2017 硼硅酸盐玻璃压制耐热器具 2017-12-29
- GB/T 35615-2017 社会保险登记服务规范 2017-12-29
- GB/T 35600-2017 文具用品术语及分类 2017-12-29
- GB/T 35596-2017 硼硅酸盐玻璃吹制耐热器具 2017-12-29
- GB/T 35614-2017 海洋牧场休闲服务规范 2017-12-29
- GB/T 35599-2017 仪器用玻璃及其制品的外观缺陷术语 2017-12-29