GB/T 20092.1-2022 中文新闻信息内容 第1部分:概念模型
- 名 称:GB/T 20092.1-2022 中文新闻信息内容 第1部分:概念模型 - 下载地址2
- 下载地址:[下载地址2]
- 提 取 码:
- 浏览次数:3
发表评论
加入收藏夹
错误报告
目录| 新闻评论(共有 0 条评论) |
资料介绍
ICS 35 . 240 . 30 CCS L 67
中 华 人 民 共 和 国 国 家 标 准
GB/T 20092 . 1—2022部分代替 GB/T20092—2013
中文新闻信息内容第 1 部分:概念模型
Chinesenewsinformationcontent—
part1:Conceptmodel
2022-10-12 发布 2022-10-12 实施
国家市场监督管理总局国家标准化管理委员会
发
布
GB/T 20092 . 1—2022
目 次
前言 Ⅲ
引言 Ⅳ
1 范围 1
2 规范性引用文件 1
3 术语和定义 1
4 概念模型 2
4 . 1 总体结构 2
4 . 2 文档层模型 4
4 . 3 稿件层模型 4
4 . 4 内容项层模型 6
4 . 5 元数据组描述机制 7
4 . 6 关系机制 7
4 . 7 受控词表机制 8
Ⅰ
GB/T 20092 . 1—2022
前 言
本文件按照 GB/T 1 . 1—2020《标准化工作导则 第 1 部分:标准化文件的结构和起草规则》的规定起草。
本文件是 GB/T 20092《中文新闻信息内容》的第 1 部分。 GB/T 20092 已经发布了以下部分:
— 第 1 部分:概念模型;
— 第 2 部分:新闻元数据;
— 第 3 部分:数据交换的 XML格式。
本文件代替 GB/T 20092—2013《 中文新闻信息置标语言》中的第 6 章 “CNML 体系结 构”,与GB/T 20092—2013 相比,除结构调整和编辑性改动外,主要技术变化如下:
— 删除了原则(见 2013 年版的 6 . 1) ;
— 将“CNML体系结构”更改为“概念模型”,并将 2013 年版的有关内容更改后纳入(见第 4 章, 2013 年版的 8 . 1 和 9 . 1) 。
请注意本文件的某些内容可能涉及专利。 本文件的发布机构不承担识别专利的责任。
本文件由全国中文新闻信息标准化技术委员会(SAC/TC 352)提出并归口 。
本文件起草单位:新华通讯社、清华大学、国家应用软件产品质量检验检测中心、北京中联合超高清协同技术中心有限公司、北京北大方正电子有限公司、中国科学院计算机网络信息中心、北京智途云天科技有限公司、视觉(中国)文化发展股份有限公司、北京北科光大信息技术股份有限公司、中国人民大学、中国传媒大学、中国大百科全书出版社有限公司、杭州前方信息技术有限公司、东南大学、新华网股份有限公司、中国互联网新闻中心、南方报业传媒集团、重庆 日报报业集团、青苹果数据中心有限公司、北京中科大洋科技发展股份有限公司。
本文件主要起草人:武国卫、黄菁、张鹏、王威、王付生、朱建波、朱艳华、丁峰、王骏清、王堃越、许向东、陈锐、张弛、曹学军、刘万福、杨鹏、杨溟、王建平、何削、张晓伟、张晴、付蓉、路海燕、张贤良。
本文件所代替文件的历次版本发布情况为:
— 2006 年首次发布为 GB/T 20092—2006 , 2013 年第一次修订;
— 本次为第二次修订。
Ⅲ
GB/T 20092 . 1—2022
Ⅳ
引
言
GB/T 20092—2013 自发布实施以来,已在很多新闻媒体单位的应用系统中使用。 近年来,在标准实施过程中不断涌现一些新的应用场景,产生一些新的应用需求。 新闻媒体的部分应用系统也逐渐不再使用 XML格式,使用JSON格式传输稿件的应用越来越多。 因为 GB/T 20092—2013 定义的技术内容主要是基于 XML格式定义的,已经逐渐不适应新闻媒体的应用需求,所以本次修订的主要 目 的是避免将标准的内容局限于某一种技术,把中文新闻信息内容的概念模式和新闻元数据独立出来,并将新闻信息内容的 XML格式和 JSON 格式单独进行规范和定义,从而使标准的范围更加明确,定义更加清晰。
GB/T 20092 旨在定义普遍适用于中文新闻信息内容采集、编辑、生成、发布、交换、存储、检索、评估反馈等新闻信息生命周期的各个环节的描述规范,为适应最新技术在新闻媒体中的实际需要,使标准更具有可用性,将标准名称改为《中文新闻信息内容》,拟由四个部分构成。
— 第 1 部分:概念模型。 目的在于建立新闻行业中文新闻信息的抽象概念模型,规范中文新闻信息文档的总体结构和描述方式,为新闻内容使用者提供指导。
— 第 2 部分:新闻元数据。 目的在于规范描述中文新闻信息内容的各类元数据,便于在新闻媒体行业信息系统中实现信息内容的统一表达,一致描述。
— 第 3 部分:数据交换的 XML格式。 目的在于规定基于 XML 的中文新闻信息数据交换格式,为新闻媒体信息系统的建设提供技术支持。
— 第 4 部分:数据交换的JSON 格式。 目的在于规定基于 JSON 的中文新闻信息数据交换格式,为新闻媒体信息系统的建设提供技术支持。
GB/T 20092 . 1—2022
中文新闻信息内容第 1 部分:概念模型
1 范围
本文件规定了新闻行业中文新闻信息的抽象概念模型,包括文档层模型、稿件层模型和内容项层模型,以及元数据组描述机制、关系机制和受控词表机制。
本文件适用于新闻信息内容的采集、编辑、生成、发布、交换、存储、检索、评估反馈等新闻信息生命周期的各个环节。 也适用于报刊、广播、电视、通讯社、新闻网站、社交媒体等新闻内容提供商及媒体应用与研究机构。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本文件。
3.1
元元数据 metametadata
定义和描述元数据的数据。
3.2
受控词表 controlledvocabulary
从专业的角度将同一范畴的主题进行归类后形成的词表,并允许以受控的方式进行词条修改和扩展。
3.3
文档 document
符合本概念模型的一篇或者若干篇新闻信息内容数据的集合。
3.4
稿件 item
文档中包含的可管理业务对象,一般有完整的元数据和内容,表示一个完整的新闻信息或其他定义信息。
3.5
内容项 contentitem
实体稿件类型包含的单一内容,可以包含任意一种文字、图片、图形、音频、视音频、多媒体、应用文档等不同类型的数据内容及其元数据。
3.6
信封 envelop
完成新闻信息交换功能的组件结构。
1
GB/T 20092 . 1—2022
3.7
产品 product
新闻提供商按照特定的目的分类组织新闻的一种形式,以便提供给新闻消费者订购,一般与订购它的一组特定的新闻用户对应。
3.8
栏目 column
对产品内容的一种细分方式。
注:栏目可以是稿件的一种内容属性,也可以是展示属性。
4 概念模型
4 . 1 总体结构
本文件定义了中文新闻信息的概念模型,包括文档层模型、稿件层模型、内容项层模型、元数据组描述机制、关系机制以及受控词表机制。
概念模型总体架构如图 1 所示。
2
GB/T 20092 . 1—2022
注:“( *)”指可重复。
图 1 概念模型总体架构
本文件规定了对新闻信息文档的描述方式,一个新闻信息文档包含了文档层、稿件层和内容项层的三层结构。 一个新闻信息文档可以包含一个或多个稿件,一个稿件可以由一个或多个内容项组成。 属于同一文档的不同稿件组成一个稿件序列,稿件之间的关系描述与稿件的内容描述分离。 属于同一内容项层的内容组成一个序列,内容项之间的关系描述与内容项的描述分离。
在文档层中定义了用于文档通讯控制过程中的信息即信封结构。 在稿件层和内容项层的描述中,定义了稿件层和内容项层的元数据组。 同时,稿件还定义了关系描述、受控词表的定义和引用机制。
3
GB/T 20092 . 1—2022
4 . 2 文档层模型
文档层模型由四部分组成,即词表编 目 、信封、稿件集合和稿件关系集合,如图 2 所示。
具体定义如下。
a) 词表编 目:用简化的别名描述文档中使用的受控词表。
b ) 信封:新闻信息交换功能的组件结构,描述了如下信息:
1) 传输标识:文档传输的标识符;
2) 系统标识:生成发布文档的系统名称;
3) 发送时间:稿件的实际发送时间;
4) 定时发布时间:稿件的计划发送时间;
5) 发送方:发送稿件的人或机构;
6) 送达方:一个或多个稿件接受者和机构;
7) 发稿优先级:稿件的优先级;
8) 服务信息:新闻单位提供的新闻服务;
9) 产品信息:从新闻内容的角度出发,按照特定的分类方法具备相同内容特征的新闻数据。
c) 稿件集合:包含一个或多个稿件的内容集合。
d) 稿件关系集合:包含对各个稿件之间关系的描述集合。
图 2 文档层模型示意图
词表编目结构提供了简化受控词表使用的可选机制。 在文档开始位置通过词表编目提供了对使用的受控词表进行简短的别名定义和外部引用的机制。
4 . 3 稿件层模型
稿件层模型由三部分组成,即稿件元数据集合、稿件内容集合、稿件内容项关系集合。 如图 3 所示。
4
GB/T 20092 . 1—2022
具体定义如下:
a) 稿件元数据集合:包含一个稿件管理型元数据组,一个可选的描述型元数据组、一个可选的权利型元数据组;还可以包含多个可扩展的其他元数据组实例;
b ) 稿件内容集合:包含一个或多个具体内容项,不同类型的稿件拥有不同类型的内容;
c) 稿件内容项关系集合:包含一到多个组成稿件的多个内容项之间的关系。
图 3 稿件层模型示意图
稿件是文档中包含的可管理业务对象。 本文件将稿件定义为描述型稿件和管理型稿件,描述型稿件指具有实际内容项的稿件,管理型稿件用于描述对应稿件的管理信息。
描述型稿件分为实体类型稿件和抽象类型稿件。 实体类型稿件可以是新闻稿件、广告稿件等,每个实体类型稿件中含有一个或多个具体的物理内容项。 抽象类型稿件可以是引用稿件,引用稿件中内容项只定义对内容项的引用的序列。
管理型稿件可以是数字签名类型稿件、统计类型稿件、受控词表类型稿件等。
为了方便对各类型稿件的管理和描述,本文件定义了如图 4 所示的多层次的稿件分类。
5
GB/T 20092 . 1—2022
图 4 稿件分类图
4 . 4 内容项层模型
内容项是实体类型稿件包含的具体内容,内容项层模型包括两部分组成,即内容项元数据集合和数据内容,如图 5 所示。
具体定义如下。
a) 内容项元数据集合包含一个可选的物理元数据组、一个可选的描述型元数据组、一个可选的权利型元数据组,还可以包含多个其他类型的内容项元数据组;内容项层描述型元数据组和权利型元数据组定义复用稿件层的描述型元数据组和权利型元数据组的定义,即包含的元数据项定义统一 。 内容项物理元数据组根据稿件内容的不同媒体类型分别定义。
b ) 数据内容是内容项包含的数据,可以以外部引用的方式存在,也可以嵌入到文档中,如果内容项数据是二进制数据,则嵌入时需要进行编码。
图 5 内容项模型示意图
一个实体类型稿件既可以由多种不同类型的内容项组成,也可以包含同一类型的不同内容项。 根据稿件内容的不同媒体类型,本文件定义了以下类型的内容项:
6
GB/T 20092 . 1—2022
a) 文本类型内容项:包含的数据内容是文字类型的数据;
b ) 图片类型内容项:包含的数据内容是图片类型的数据,图片类型数据包括由输入设备捕捉的实际场景画面或以数字化形式存储的任意画面,存储格式有 BMP、JPG、GIF等;
c) 图形类型内容项:包含的数据内容是图形类型的数据,图形类型数据包括用计算机绘制的画面,一般是指矢量图,如图表、漫画等;
d) 音频类型内容项:包含的数据内容是音频数据;
e) 视音频类型内容项:包含的数据内容包含音频和视频数据;
f) 关键帧内容项元数据组:包含的数据内容是视音频数据的关键帧数据;
g) 多媒体类型内容项:包含的数据内容是多媒体类型的数据,多媒体类型的数据包括网页类型的内容数据,即丰富文本数据或网页数据,描述方式多采用 HTML或 XHTML格式;
h) 应用文档类型内容项:包含的数据内容是嵌入的一个应用文档。
4 . 5 元数据组描述机制
本文件对一个信息实体的元数据描述分为若干个元数据组,每个元数据组内包含一个到多个元数据项,每个元数据项是对信息实体的一个属性的描述。
本文件定义了四类新闻信息元数据,每一类定义为一个元数据组,用户也可以基于标准中元数据组基础结构引入新的元数据组。
四类新闻信息元数据描述如下:
a) 新闻信息描述类元数据(即描述型元数据组):从信息共享和数据交互的需要出发,元数据最基本的功能是用于对信息资源的内容、属性进行详细、全面的描述,以完整反映信息资源对象的全貌,帮助用户了解数据;该类元数据可出现在稿件层和内容项层;
b ) 新闻信息管理类元数据(即管理型元数据组):提供新闻信息资源的存储、使用、管理、传输等方面的信息;该类元数据仅在稿件层出现;
c) 新闻信息权利类元数据(即权利型元数据组):提供新闻信息其拥有者、版权等信息内容;可出现在稿件层和内容项层;
d) 新闻信息物理属性类元数据(即物理元数据组):对新闻信息物理属性、实体文件信息进行全面详细地描述;该类元数据仅在内容项层出现。
本文件支持对元数据的元数据信息(即元元数据)的描述;除上述四类元数据外,用户可以对标准元数据组进行扩展。
本文件根据元数据项取值特性,将其分成以下类型:
— 简单元数据项:该类元数据项的取值可以通过字符串进行表示;
— 基本元数据项:该类元数据项的取值可以通过字符串进行表示;
— 自定义取值类型的简单元数据项:该类元数据项的取值为简单数据类型,取值最终可以表示为一个字符串;
— 通过受控词表限定其取值的元数据项:该类元数据项的取值通过字符串进行表示,但是字符串的取值应为受控词表中定义的一个词表项;
— 复杂元数据项:该类元数据项的取值相对复杂,无法通过一个简单的字符串进行描述,而应通过具备一定结构的数据模型进行描述。
4 . 6 关系机制
本文件定义了用于描述同一类型信息实体之间的相互作用的关系结构,如图 6 所示。 本文件以关系组作为关系描述的载体。 关系组用于对同层次上,具有同种类型的实体之间的关系进行描述。 本文件定义了包括稿件层稿件之间的关系、内容项层内容之间的关系等在内的各种类型的关系。
7
GB/T 20092 . 1—2022
图 6 关系结构示意图
本文件规定:
a) 同一类型实体间的关系用关系组描述;
b ) 每个关系组中可以包含一到多个关系;
c) 每个关系描述具有同一种关系名称的关系源和目标源的集合;
d) 每个关系中具有一个或多个关系源和关系 目标组成的对;
e) 关系描述中具有一到多个关系元数据的描述。
本文件将关系定义为下面四部分内容:
— 关系名称:关系的语义概念;
— 关系源:关系的发源体;
— 关系 目标:关系的接受体;
— 关系的元数据:描述关系的元数据,每一项元数据都为简单元数据项类型。
本文件定义的实体关系包括稿件之间、内容项之间的关系。
4 . 7 受控词表机制
受控词表是新闻信息交换过程中一类重要的实体,它在新闻信息交换过程中定义了对某个具体事物描述的统一认识,是对数据的可理解的语义描述的基础。 如图 7 所示。
8
GB/T 20092 . 1—2022
图 7 受控词表结构示意图
本文件提供了受控词表定义以及受控词引用的描述机制。
本文件提供了受控词表稿件类型来定义受控词表,支持具有层次结构的受控词表描述,此外还提供机制可以进一步描述受控词的刻面语义信息,例如,与其他受控词之间的关系等。
受控词表编 目:一组受控词表的集合,并为其中的每个词表定义一个别名。
受控词表:由具有共同属性的对象组成的一个实体,如新闻的分类词表等。
受控词:受控词表中的具有共同属性的对象,如新闻分类词表中的一个分类条目等。
受控词表编目机制用于满足受控词表以组为单位的快速引用,以及在文档中用简短的方式引用其中的受控词的需求。
受控词表为新闻数据描述过程中的元素或属性值提供了一个取值范围,表明元素或属性的取值是取自某一个受控词表中的受控词。
受控词表在新闻文档描述中具有很重要的作用,受控词表有 自身的建立和维护过程。 受控词表可以由一组平行的受控词组成,也可以是具有层次关系的受控词组成。 受控词表有其定义过程和引用过程 。受控词表定义中包含的信息有受控词表的元数据信息和受控词表中的受控词定义。
受控词表中受控词在使用时作为文档中的元素或属性取值被引用,表示文档中元素或属性的取值来自某个受控词表中的受控词。 如在表示一个稿件的主题分类元数据的值时,引用新闻分类受控词表中的一个受控词表示。
相关推荐
- GB/T 27203-2016 合格评定 用于人员认证的人员能力词汇
- GB/T 18844-2002 滑动轴承 损坏和外观变化的术语、特征及原因
- GB/T 14365-2017 声学 机动车辆定置噪声声压级测量方法
- GB/T 20139.2-2017 电气绝缘系统 已确定等级的电气绝缘系统(EIS)组分调整的热评定 第2部分:成型绕组EIS
- GB∕T 40051-2021 废旧人造板回收利用规范
- GB/T 27040-2010 合格评定 合格评定机构和认可机构同行评审的通用要求
- GB/T 18429-2018 全封闭涡旋式制冷剂压缩机
- GB/T 15544.1-2013 三相交流系统短路电流计算 第1部分:电流计算
- GB/T 16938-2008 紧固件 螺栓、螺钉、螺柱和螺母 通用技术条件
- GB/T 37618-2019 渗氮钢

