GB/T 15387.2-2014 术语数据库开发指南
- 名 称:GB/T 15387.2-2014 术语数据库开发指南 - 下载地址2
- 下载地址:[下载地址2]
- 提 取 码:
- 浏览次数:3
发表评论
加入收藏夹
错误报告
目录| 新闻评论(共有 0 条评论) |
资料介绍
ICS 01. 020 A 22
中 华 人 民 共 和 国 国 家 标 准
GB/T 15387.2—2014代替 GB/T 15387. 2—2001
术语数据库开发指南
Guidelinesforthedevelopmentofterminologicaldatabase
2014-05-06发布 2014-11-01实施
中华人民共和国国家质量监督检验检疫总局中 国 国 家 标 准 化 管 理 委 员 会
发
布
GB/T 15387.2—2014
前 言
GB/T 15387《术语数据库开发》分为两个部分 :
— 第 1部分 :术语数据库开发文件编制指南 ;
— 第 2部分 :术语数据库开发指南 。
本部分为 GB/T 15387的第 2部分 。
本部分按照 GB/T 1. 1—2009给出的规则起草 。
本部分代替 GB/T 15387. 2—2001《术语数据库开发指南》。
本部分与 GB/T 15387. 2—2001相比主要技术变化如下 :
— 更新了规范性引用文件 ;
— 更新了所有术语的定义 ;
— 根据已经发布的相关标准 ,对引用部分进行了修改 ;
— 修改了部分技术内容 。
本部分由全国术语与语言内容资源标准化技术委员会(SAC/TC62)提出并归 口 。
本部分起草单位 : 中国标准化研究院 、厦门鼎标企业管理服务有限公司 、公安部第一研究所 、北京大学 、北京语言大学 、山东交通学院 、中国大百科全书出版社 、北京信息科技大学 。
本部分主要起草人 :程永红、张金山、王海涛、张晓宇、陈梨明、荀恩东、王雷、朱晓莉、肖玉敬、周长青、蒋碧蓉、吕学强、田野 。
本部分所代替标准的历次版本发布情况 :
—GB/T 15387. 2—2001。
术语数据库开发指南
1 范围
GB/T 15387的本部分规定了术语数据库(简称 “术语库 ”)术语条目的结构 、术语库的功能 、术语数据规范化 、术语库扩充等内容 。
本部分适用于术语 库 的 研 究 、开 发 、维 护 及 其 管 理 工 作 。 其 他 涉 及 术 语 数 据 库 的 工 作 也 可 参 照使用 。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的 。凡是注 日期的引用文件 ,仅注 日期的版本适用于本文件 。凡是不注日期的引用文件 ,其最新版本(包括所有的修改单)适用于本文件 。
GB/T 3792. 1 文献著录 第 1部分 :总则
GB/T 3860 文献主题标引规则
GB/T 8566 信息技术 软 件 生 存 周 期 过 程(ISO/IEC 12207: 1995、ISO/IEC 12207: 1995/Amd.
1:2002、ISO/IEC 12207:1995/Amd. 2:2004, MOD)
GB/T 13418 文字条目通用排序规则(neqISO 7154:1983)
GB/T 13725—2001 建立术语数据库的一般原则与方法
GB/T 13745 学科分类与代码
GB/T 15237. 1—2000 术语工作 词汇 第 1部分 :理论与应用
GB/T 15387. 1—2014 术语数据库开发文件编制指南
GB/T 16786—2007 术语工作 计算机应用 数据类目(ISO 12620:1999,NEQ)
GB/T 17532—2005 术语工作 计算机应用 词汇(ISO 1087-2:2000,MOD)
3 术语和定义
GB/T 15237. 1—2000、GB/T 16786—2007、GB/T 17532—2005界 定 的 术 语 和 定 义 以 及 下 列 术 语和定义适用于本文件 。
3. 1
术语 term
在特定专业领域中一般概念的词语指称 。
[GB/T 15237. 1—2000,定义 3. 4. 3] 3.2
数据库 database
按照预定结构组织成的数据集合 。
[GB/T 17532—2005,定义 7. 5] 3.3
术语数据库 terminologicaldatabase
包含术语数据的数据库 。
GB/T 15387.2—2014
[GB/T 17532—2005,定义 7. 6] 3.4
数据元 data element
在一定的上下文中具有不可分割的数据单元 。
[GB/T 17532—2005,定义 7. 11] 3.5
记录 record
作为一个单位来对待的数据元的集合 。
[GB/T 17532—2005,定义 7. 9] 3.6
数据字段 data field
为特定的数据元而保存在一个记录中的变长或定长的部分 。
[GB/T 17532—2005,定义 7. 12] 3.7
数据类目 data category
数据元类型 data elementtype
关于给定数据字段的类型说明 。
[GB/T 17532—2005,定义 7. 14] 3. 8
标识符 identifier
用于标识或命名某个数据类目的一个或多个字符 。
[GB/T 17532—2005,定义 7. 15] 3.9
术语条目 terminologicalentry
术语数据集合中所包含的与一个概念相关的术语数据 。
[GB/T 17532—2005,定义 3. 22]
4 术语条目结构
在术语库中 ,根据不同的使用目的 、每个术语条目由描述该术语的一组数据元构成 。所有术语条目中具有相同元属性的数据元形成数据字段 。
4. 1 字段数量
应根据术语库应用的需求确定字段数量 ,既要按照规范化的要求 ,最大程度地满足用户需要 , 又要避免浪费 。
4.2 字段名称
字段名称应使用易记 、易识别的字符串 ,如拼音或对应的英文单词 ,或者其简写 。
示例 1:
字段名称 :序号(xuhao/number)
缩写 :xh(汉语拼音)或 No. (英语)
示例 2:
字段名称 :定义(dingyi/definition)
缩写 :dy(汉语拼音)或 def(英语缩写)
4.3 字段标识符
字段标识符可使用字母或数字 , 以字母开头 ,可使用下划线 。字段标识符及其编制原则与方法 ,应在提供给用户的文件中注明 。
4.4 字段数据类型
4.4. 1 字符型
可以是汉字 、字母 、数字 、特殊符号等 。术语 、定义等应使用字符型字段 。
4.4.2 数字型
可以是整数 、小数 、正数和负数等 。序号等应使用数字型字段 。
4.4.3 日期型
日期型数据字段结构为 :CCYYMMDD。
示例 : 20010515 表示 2001年 5 月 15 日 。
术语源的生成日期(例如标准发布 日期 、辞书出版 日期等) 、术语记录的生成 日期等应使用 日期型字段 。
4.4.4 其他
术语数据还可能涉及其他字段数据类型 ,例如逻辑数据类型等 。
4.5 字段长
术语库应尽可能使用变长字段 ,使用定长字段时应考虑使用方便及节约存储空间等因素 。
4.6 字段间关系
根据术语数据元之间关系的特点 ,字段间的关系可以是一对—(1 ∶ 1) 、一对多(1 ∶ N) 或多对多关系(M ∶ N) 。
4.7 字段的强制级别
4.7. 1 设定依据
字段的强制级别 ,应根据该术语库的使用目的而确定 。
4.7.2 必选字段
当术语数据类目是构成术语条目所必备的最小信息时 ,使用此类字段 。例如 ,面向概念的术语库中的 “术语”“定义 ”等 ;面向翻译的术语库中的 “术语”“外文对应词 ”等 。每个术语库都应设立必选字段 ,且不允许空缺 。
4.7.3 可选字段
当术语数据类目是构成术语条目所必要的信息时 ,使用此类字段 ,但允许空缺 。例如 , 面向翻译的术语库中的同义词 、术语的缩略形式等 。
4.7.4 补充字段
当术语数据类目并非是构成术语条目的必要信息时 ,使用此类字段 。例如 ,词性语法信息 、语境等 。
4. 8 字段的可重复性
当属于相同的术语数据类目的术语数据元(如同义词)需要在一个记录中出现几次时 ,可重复使用同一字段 。
4.9 字段的组合性
术语库中 ,任意个数据字段可根据需要进行组合 ,构成新的条目 。
4. 10 相互参照
不同记录之间(如一条术语参照另一条术语) 、不同的文件之间(如主文件与倒排文件) 、不同数据库之间(如图形数据库与文本数据库之间 ,不同语种数据库之间)均宜相互关联参见 。
5 术语库的功能
5. 1 用户界面
5. 1. 1 用户界面功能要求
术语库应能提供良好的文字处理环境和友好的用户界面 。界面应具备下列功能 。
5. 1.2 人机交互功能
使用者通过键盘或其他输入设备向机器输入提问 、控制或其他有关信息 ,机器通过显示屏幕或其他输出设备给使用者提供解答 、提示或其他有关信息 。
5. 1.3 选单驱动功能
应根据需要设置系统管理和用户查询使用的不同选单 ,应设计一个选单系统为用户显示多重选择 ,根据需要可设计多级选单 。
示例 :
一级选单 :主功能选择 。例如数据输入 、数据维护与更新 、数据检索 、排序和打印等 ;
二级选单 :子功能选择 ,单项功能中的子项 、条件等 。例如数据检索功能中的浏览 、设定检索式 、显示检索结果等 ;
三级选单 :需要设计的下一层细化功能选择 。
5. 1.4 提示功能
提示的内容主要包括 :
— 出错提示 :指示错误的性质和类型 , 以至于如何改正 ;
— 拒绝接收提示 :指示 、告警无效或错误的操作 ;
— 操作步骤提示 。
5. 1.5 求助功能
求助功能可使用窗口技术或调用辅助库 ,辅助屏予以实现 ,此状态应易于进入和退出 、返回原操作状态 。 主要包括 :
— 正确操作的具体 、详细的说明 ;
— 有关内容的资料 ,如出现的代码及其含义说明 ;
— 有关屏幕显示内容的解释 ,参数值的含义与范围 ,命令或功能选择描述 。
5. 1.6 其他功能
为满足用户操作所提供的其他功能 ,如浏览等 。
5.2 数据检索
5.2. 1 检索形式
术语库除应能检索单一术语及相应信息(定义 、外文对应词等)外 ,还应根据需要设计下列几种类型的检索 。
5.2.2 内部属性检索
根据分类语言 、叙词语言进行检索 。分类语言检索得出的是适合某一分类的某一领域内成体系的全部术语 ;叙词语言检索出的是某一术语可能涉及的所有术语 ,包括其他领域内的相关术语 。
5.2.3 外部属性检索
主要包括 :
— 按术语源书目编目数据检索出该文献所包含的所有术语 ;
— 按源机构(或责任者)检索出该机构所编纂(制定)的所有术语 ;
— 按年代检索出术语编纂的年度变化情况 。
5.2.4 组合属性检索
主要包括同属性或不同属性的组合检索 。检索技术应满足 GB/T 13725—2001中 8. 2 的规定 。
5.3 查重与数据校验
应设计查重功能 ,数据校验功能应按 GB/T 13725—2001中 8. 1. 2 的规定设计 。
5.4 术语库重组与重构
根据需要 ,设计数据库重组功能 , 自动的回收已删除记录所占的存储空间 ,并重新加以利用 。
必要时 ,可改变存取控制 、硬件配置 、数据库分布以及修改数据结构等 。
5.5 恢复、备份和重新启动
应支持术语库的恢复 、备份和重新启动 。 由于误操作 、程序出错或其他意外原因(例如掉电)需要重新启动时 ,使用备份 。
由于人为或意外原因造成术语库的破坏时 ,应能 :
a) 查明错误的原因 ;
b) 查明错误的影响 ;
c) 纠正错误 ;
d) 纠正后继续工作 。
5.6 定义默认值
应按照 GB/T 13725—2001中 8. 1. 3 的要求根据需要定义默认值 ,便于字段内容的自动或半自动生
成与修改 。
5.7 数值处理
应根据需要设计数值处理功能 ,例如 ,术语和定义的平均长度 、某一长度的术语数量及百分比 、年术语生成量和使用量 、某一用户使用术语库的情况 、某一机构编纂术语的情况等 。
5. 8 排序和打印
数据排序应符合 GB/T 13418的规定 。
根据需要设计排序和打印功能以满足下列要求 :
a) 应能生成和打印按概念体系排序的术语词汇或词典 ;
b) 应能生成和打印按外文字母顺序或汉语拼音排序的英-汉 、汉-英对照词汇或词典 ,或其他外语与汉语对照词汇或词典 ;
c) 应能生成和打印同义(近义)词汇或词典 ;
d) 应能生成和打印反义词汇或词典 ;
e) 如果需要 ,还应能生成语料的有关信息 ,例如 ,按术语使用频率排序 、按术语与其他术语组配频率排序等 ;
f) 其他功能 。
5.9 程序设计语言接口
应能提供某种常用程序设计语言的接 口 ,允许使用该程序设计语言编写自己的应用程序 ,开发某些特殊功能 。
5. 10 网络支持
应能实现网络查询 ,数据搜索和数据下载等网络应用的基本功能 。
5. 11 其他
其他功能包括 :
a) 数据输入应符合 GB/T 13725—2001中 8. 1 的规定 ;
b) 数据显示应符合 GB/T 13725—2001中 8. 3 的规定 ;
c) 数据安全性和保密性应符合 GB/T 13725—2001中 6. 1. 7 和 8. 6 的规定 ;
d) 数据传递和数据交换应符合 GB/T 13725—2001中 7. 7 和第 10章的规定 。
6 数据规范化
6. 1 数据采集
6. 1. 1 采集原则
应从需要和可能两个方面 ,并根据 GB/T 13725—2001中 7. 2. 1 的规定 ,确定数据采集的要求 。
6. 1.2 采集需求
数据采集需求包括 :
a) 拟收录术语的范围及总数量(可分期安排) ;
b) 拟使用的语种及使用程度(如是仅收录相应语种的外文对应词 ,还是也收录该术语的定义 、同
义词等其他数据) ;
c) 拟确定的数据类目 。
6. 1.3 数据保障
主要内容包括 :
a) 术语源的类型 ,例如标准 、百科全书 、词典 、专业文献等 ;
b) 术语源的权威性 、充足性 ;
c) 专家构成 ,包括专业领域的专家 、术语学家 、语言学家等 ;
d) 工作人员水平 ,包括专业水平 、外语水平等 ;
e) 应根据 GB/T 15387. 1—2014中 5. 14~ 5. 16的规定编写数据加工技术规则 ;
f) 应根据 GB/T 15387. 1—2014中 5. 18的规定编写数据加工工作规程 ;
g) 应规定数据验收标准和验收方式 ,包括对各项数据和各加工过程的质量要求 、检验方法 、依据和程序等 。
6. 1.4 数据的采集方法
确定数据采集的统一格式(采集卡片或工作单) ,并根据该格式收集 、挑选 、登录数据 。该格式应满足术语库对数据的要求 ,并与术语库结构一致 。
6.2 标引
6.2. 1 分类法
为了便于标引工作和国内外术语数据的交换 ,应根据所属的学科领域 ,尽量采用以下通用的分类法 。如 :
a) 国际标准分类法(ICS) ;
b) 中国标准文献分类法(CCS) ;
c) 按 GB/T 13745所确立的学科分类与代码 。
6.2.2 叙词表
为了表示某一概念主题特性 ,可使用以下叙词检索语言 。如 :
a) 汉语主题词表及与其兼容的有关专业性主题词表 ;
b) 标准文献主题词表(ROOT THESAURUS) 。
6.2.3 分类标引和叙词标引
标引原则 :
a) 对于通用 、基础性术语或选自综合性文献的术语应根据该术语的分类和定义的主题特性进行标引 ;
b) 某些术语条目的分类标引和叙词标引也可以采取与数据源一致的方法 ,某一术语条目取自某一术语标准 ,则该条目的分类标引和叙词标引与该标准一致 ;
c) 多重标引 。某一概念属于若干个专业领域时 ,或术语库需要同时使用多种分类法和叙词表时 ,需重复标引 。
6.2.4 标引规则与标引内容
应符合 GB/T 3860的规定 ,分类标引的内容包括分类法的源码 、该术语(或数据源) 所属专业领域
的分类代码及专业领域名称 。
示例 1: GB/T 13745(源码)520. 4050(分类代码) × × ×数据库(专业领域名称) 。
示例 2: UDC(源码)681. 3. 01(分类代码) × × ×数据处理原理(专业领域名称) 。
叙词标引的内容包括叙词表的源码 、叙词代码及叙词 。
示例 3: ISO-ROOT(源码) MJG.JM(叙词代码) × × ×数据库(叙词) 。
应向用户提供所使用的分类法和叙词表以及标引规则说明 ,必要时 ,还应提供不同分类法和叙词表的对照(或转换)说明 。
6.3 代码
术语库中所使用的代码(例如 ,语种代码 、学科代码 、源码 、责任者机构代码等)应符合相应的国家标准 ;如无国家标准可参照时 ,可自行定义 ,但应在向用户提供的技术文件中详细说明 。必要时 ,建立辅助的代码数据库 ,供用户随时查询 。
6.4 著录
应规定统一的著录项目 、规则和格式以及编写著录细则 。
术语条目著录应符合 GB/T 3792. 1及相关国家标准的规定 。
7 术语库的扩充
下述情况可能需要扩充术语库 :
a) 增加新的专业领域 ;
b) 增加新语种 ;
c) 增加新的数据类目 ;
d) 增加新条目 ;
e) 增加新的数据类型(如图 、公式 、特殊符号等) ;
f) 增加新功能 ;
g) 改变软 、硬件配置 ,变换机型 ;
h) 数据传递 ,数据转换等 。
8 其他要求
术语库开发要求还包括 :
a) 建库过程与工作步骤应符合 GB/T 13725—2001第 7章的规定 ;
b) 术语库计算机系统应符合 GB/T 13725—2001中 6. 2 的规定 ;
c) 术语库有关的软件开发 ,应符合 GB/T 8566的规定 ;
d) 术语库开发过程中需编制有关技 术 文 件 , 文 件 内 容 及 编 写 要 求 应 遵 照 GB/T 15387. 1—2014的规定 ;
e) 少数民族语言文字的术语库应尽可能利用拉丁文转写 , 以便于使用 ;
f) 建立术语数据库常用的国家标准和国际标准参见附录 A。
附 录 A
(资料性附录)
建立术语数据库常用的国家标准和国际标准
A. 1 术语工作
A. 1. 1 国家标准
GB/T 3792. 1 文献著录 第 1部分 :总则
GB/T 3860 文献主题标引规则
GB/T 4880. 2 语种名称代码 第 2部分 :3 字母代码
GB/T 10112 术语工作 原则与方法
GB/T 13190 汉语叙词表编写规则
GB/T 13418 文字条目通用排序规则
GB/T 13715 信息处理用现代汉语分词规范
GB/T 13725 建立术语数据库的一般原则与方法
GB/T 15237. 1 术语工作 词汇 第 l部分 :理论与应用
GB/T 15238 术语工作 辞书编纂基本术语
GB/T 15387. 1 术语数据库开发文件编制指南
GB/T 15417 文献 多语种叙词表编制规则
GB/T 15625 术语数据库技术评价指南
GB/T 15933 辞书编纂常用汉语缩略语
GB/T 11617 辞书编纂符号
GB/T 16785 术语工作 概念与术语的协调
GB/T 16786 术语工作 计算机应用 数据类目
GB/T 17532 术语工作 计算机应用 词汇
GB/T 18155 术语工作 计算机应用 机器可读术语交换格式(MARTIF)协商交换GB/T 20001. 1 标准编写规则 第 1部分 :术语
A. 1.2 国际标准
ISO 860 术语工作 概念和术语的统一
ISO 10241 标准中的术语条目(系列标准)
ISO 12200 术语中的计算机应用 可机读术语转换格式(MARTIF)谈判交换
ISO 12620 术语 、其他语言和内容资源 . 语言资源用数据目录登记的数据目录和管理规范
A.2 字符集
A.2. 1 国家标准
GB/T 1988 信息处理 信息交换用七位编码字符集
GB/T 2311 信息处理 七位和八位编码字符集代码扩充技术
GB 2312 信息交换用汉字编码字符集 基本集
GB/T 6513 文献书目信息交换用数学字符编码字符集GB/T 7589 信息交换用汉字编码字符集 第二辅助集
GB/T 7590 信息交换用汉字编码字符集 第四辅助集
GB 8045 信息处理 交换用蒙古文七位和八位编码图形字符集GB/T 8565 信息处理(所有部分) 文本通信用编码字符集
GB/T 11383 信息处理 信息交换用八位代码结构和编制规则GB 12050 信息处理 信息交换用维吾尔文编码图形字符集
GB 12052 信息交换用朝鲜文字编码字符集
GB/T 12345 信息交换用汉字编码字符集 辅助集
GB 13000 信息技术通用多八位编码字符集(UCS)
GB/T 13131 信息交换用汉字编码字符集 第三辅助集
GB/T 13132 信息交换用汉字编码字符集 第五辅助集GB 13134 信息交换用彝文编码字符集
GB/T 13141 书目信息交换用希腊字母编码字符集
GB/T 13142 书目信息交换用拉丁字母代码字符扩充集
A.2.2 国际标准
A.3 代码与数据元的表示
A.3. 1 国家标准
GB/T 2659 世界各国和地区名称代码
GB/T 3304 中国各民族名称的罗马字母拼写法和代码
GB/T 3469 信息资源的内容形式和媒体类型标识
GB/T 4880(所有部分) 语种名称代码
GB/T 4881 中国语种代码
GB/T 7156 文献保密等级代码与标识
GB/T 7408 数据元和交换格式 信息交换 日期和时间表示法GB/T 13745 学科分类代码
A.3.2 国际标准
ISO 6093 信息处理 信息交换用字符串的数值表示
ISO/IEC 6523 信息技术 组织和组织各部分标识用的结构(系列标准) ISO/IEC 7064 信息技术 安全技术 校验字符系统
A.4 字符转写
ISO 9 信息和文献 从西里尔字符到拉丁字符的译音 斯拉夫语和非斯拉夫语ISO 233 信息和文献 从阿拉伯字母到拉丁字母的译音
ISO 259 信息和文献 从希伯来字母到拉丁字母的译音
ISO 843 信息和文献 希腊字符对拉丁字符的转换
ISO 3602 文献 日文的罗马字体(假名手写体)
ISO 7098 信息和文献 汉语拉丁化
ISO 9984 信息和文献 从乔治亚字符到拉丁字符的译音
ISO 9985 信息和文献 从亚美尼亚字符到拉丁字符的译音
A.5 系统开发
A.5. 1 国家标准
A.5.2 国际标准
ISO/IEC-6592 信息技术 计算机应用系统文件导则
A.6 其他相关标准
A.6. 1 国家标准
GB/T 5271 数据处理词汇(部分)
GB/T 9387 信息处理系统 开放系统互连 基本参考模型(第 2部分和第 4部分)
GB/T 14814 信息处理 文本和办公系统 标准通用置标语言(SGML)
A.6.2 国际标准
ISO/IEC 8613 信息技术 开放文件体系结构(ODA)和交换格式(系列标准)
ISO/IEC 8632 信息技术 计算机图形 存储和传送图片描述信息的元文卷(系列标准)
ISO/IEC 9066 信息处理系统 文本通信 可靠传送(系列标准)
ISO/IEC 9072 信息处理系统 文本通信 远距离操作(系列标准)
ISP/IEC TR 9294 信息技术 软件管理守则
ISO/IEC 9592 信息技术 计算机图形和图像处理 程序员分级交互图形系统(PHIGS)(系列标准)
ISO/IEC 9593 信息处理系统 计算机图形 程序员分级交互图形系统(PHIGS)语言联编(系列标准)
ISO 9636 信息处理系统 计算机制图(系列标准)
ISO 9660 信息处理 信息交换用 CD-ROM 的卷和文件结构
ISO/IEC 10021 信息技术 消息处理系统(MHS)(系列标准)
ISO/IEC 10027 信息技术 信息资源字典系统(IRDS)框架
ISO/IEC TR 10032 数据管理参考模型
ISO/IEC 10166 信息技术 文本和办公系统 文件归档和检索(DFR)(系列标准)

