GB/T 41009-2021 法庭科学 DNA数据库选用的基因座及其数据结构
- 名 称:GB/T 41009-2021 法庭科学 DNA数据库选用的基因座及其数据结构 - 下载地址2
- 下载地址:[下载地址2]
- 提 取 码:
- 浏览次数:3
发表评论
加入收藏夹
错误报告
目录| 新闻评论(共有 0 条评论) |
资料介绍
ICS 13 . 310 CCS A 92
中 华 人 民 共 和 国 国 家 标 准
GB/T 41009—2021
法庭科学 DNA数据库选用的
基因座及其数据结构
Forensicsciences—Datastructuresofselectedlocifrom theDNA database
2021-12-31 发布 2023-01-01 实施
国家市场监督管理总局国家标准化管理委员会
发
布
GB/T 41009—202 1
前 言
本文件按照 GB/T 1 . 1—2020《标准化工作导则 第 1 部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。 本文件的发布机构不承担识别专利的责任。
本文件由中华人民共和国公安部提出。
本文件由全国刑事技术标准化技术委员会(SAC/TC 179)归口 。
本文件起草单位:公安部物证鉴定中心、辽宁省公安厅、广州市刑事科学技术研究所、河南省公安厅、黑龙江省公安厅、浙江省公安厅、北京海华鑫安生物信息技术有限责任公司。
本文件主要起草人:刘冰、刘锋、刘超、孙辉、王彤、彭建雄、季安全、刘海、刘宏、王乐、尚蕾、康克莱、吴微微、王剑、李效阳、郝宏蕾、徐曲毅、刘长晖、张喆、赵钊、田野、孙洁、李冬涛。
GB/T 41009—202 1
法庭科学 DNA数据库选用的
基因座及其数据结构
1 范围
本文件给出了建立法庭科学 DNA数据库时所选用的人类染色体遗传标记类型及选用的短串联重复序列基因座;规定了国家法庭科学 DNA数据库与外部系统进行数据交换的文件格式、数据结构和基本要求。
本文件适用于法庭科学 DNA数据库建设,以及与法庭科学 DNA数据库进行数据交换的外部系统(如 DNA实验室管理信息系统、DNA数据分析软件等)的设计、开发和测试。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中,注 日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 2312 信息交换用汉字编码字符集 基本集
GB 18030 信息技术 中文编码字符集
3 术语和定义
下列术语和定义适用于本文件。
3.1
基因座 locus
染色体上基因所占的位置或基因组 DNA 中的一段。
[来源:GB/T 37226—2018,2 . 2]
3.2
等位基因 allele
位于一对同源染色体的相同位置上的不同形式的基因。
3.3
短串联重复序列 shorttandem repeat;STR
一类广泛存在于真核生物基因组中,重复单位通常由 2 个 ~6 个碱基构成,重复次数通常在 5 次 ~ 60 次的 DNA 串联重复序列。
注:在人类基因组中,根据所处的染色体类型,又分为常染色体 STR、Y染色体 STR 和 X染色体 STR。
3.4
重复区序列 repeatregionsequence
短串联重复序列(3 . 3)中重复单位串联组成的部分,一般从第一个重复单位的 5′端,至最后一个重复单位的 3′端的序列。
GB/T 41009—202 1
3.5
重复结构 repeatstructure
重复区序列(3 . 4)中重复单位的组成形式。
4 缩略语
下列缩略语适用于本文件。
DNA:脱氧核糖核酸(Deoxyribonucleic Acid)
DDEM: DNA数据库通用交换信息(DNA Database Exchange Message)
NDNAD:国家法庭科学 DNA数据库(National DNA Database)
XML:可扩展标记语言(Extensible Markup Language)
5 DNA数据库选用的基因座
5 . 1 遗传标记的选择
法庭科学 DNA数据库中的 DNA分型数据采用人类染色体牙釉质蛋白(Amelogenin)基因、短串联重复序列(STR)和线粒体 DNA检测结果。
注:线粒体 DNA检测结果的数据结构不在本文件中规定。
5 . 2 基因座的选择
5 . 2 . 1 A类基因座(核心基因座):录入法庭科学 DNA数据库中的 DNA分型数据中应包含的 STR 基因座,应符合附录 A~附录 C 的规定。
5 . 2 . 2 B类基因座(优选基因座):DNA 分型数据中包含全部 A 类基因座后,应优先选择的 STR 基因座,应符合附录 A~附录 C 的规定。
5 . 2 . 3 C类基因座(备选基因座):允许录入到法庭科学 DNA 数据库中的其他 STR 基因座,应符合附录 A~附录 C 的规定。
6 DNA数据库通用交换信息文件
6 . 1 文件用途及结构
法庭科学 DNA数据库使用 DDEM文件来实现与外部系统的信息交换。 DDEM文件中,采用定义信息包的方式实现数据向数据库的导入。 以 XML 为参考,所有 XML定义的数据类型,通过 XML 映射概要均可映射到 SQL 92 或 SQL 99 定义的数据类型。
DDEM文件包含两部分:DDEM文件头(Header)和样品(Specimen),如图 1。
图 1 DDEM 文件结构
GB/T 41009—202 1
DDEM文件中所有中文字符应采用 GB/T 2312 中规定的字符,GB/T 2312 中没有规定的字符采用 GB 18030 中规定的字符,中文字符用 2 个字节表示。
当一个基因座的两个等位基因数值(Allele Value)相同时,应分别表示。
6 . 2 DDEM 文件头
DDEM文件头部分包含如下信息:
a) 版本 ;
b ) 信息类型;
c) 授权录入实验室名称;
d) 授权录入实验室 ID;
e) 信息源实验室名称;
f) 信息源实验室 ID;
g) 录入人编号;
h) 提交日期;
i ) 录入批次编号;
j) 检测试剂产品名称;
k) 检测试剂产品编号;
l ) 试剂盒条码号;
m ) 测序仪厂商;
n) 测序仪厂商 ID。
6 . 3 样品
DDEM文件样品部分包含如下信息:
a) 样品编号;
b ) 检验人编号;
c) 案(事)件编号;
d) 样品分类;
e) 是否为部分分型;
f) 样品注释;
g) 基因座信息。
6 . 4 DDEM 文件数据类型
DDEM数据文件类型及说明如下。
a) 十进制型:代表任意精度的数字,XML文档中定义为十进制型的值定在 SQL 92 或 SQL 99 中不被存储。
b ) 字符串型:由一组字符组成,字符可为任意字母、符号和数字,DNA数据库不支持管道符号“|”和半角分号“;”;某些符号在 XML 中有特殊含义,如“<”和“>”, DDEM文件中如需使用这些 特殊字符时,则应以其他表示方式替代这些字符;替代表示方式应符合表 1 。
c) 日期/时 间 型:用 于 表 示 一 个 指 定 的 时 间,采 用 ISO 8601 子 集 格 式,形 式 为“CCYY-MM- DDTHH: mm: ss”,其中:“CC”表示世纪,“YY”表示年,“MM”表示月,“DD”表示 日,“T”为 日期与时间的分隔符,“HH”“mm”“ss”分别表示时、分 、秒;如果需要更精确的表示时间,也可以用分数形式表示秒,如“ss.ss…”,这种方式为可选;在 SQL 92 或 SQL 99 中,XML文档中存储的 日期以 日期/时间型或短期/时间型方式存储。
GB/T 41009—202 1
d) 布尔型:表示布尔值,包括 True或者 False。
表 1 DDEM 文件中特殊字符的替代表示方式
6 . 5 文件内容及格式要求
6 . 5 . 1 文件格式
以 XML方式编写的 DDEM文件包含一个 DDEM 文件头和一个或者多个样品。 附录 D 给出了DDEM文件头示例,附录 E 给出了 DDEM 文件示例。 附录 F 给出了用于解释和校验 XML 文件的XML模式定义文件示例。
注:为方便描述,附录 D~附录 F 中的信息并不是真正意义上的 XML格式。 为方便阅读,特增添了 Tab符、回车以及空格。 在 DDEM文件中,每一行都有回车和换行字符,用于在文本编译器中方便查看。 在 XML 格式中,支持添加注释。 在注释区域内,不支持引导空格。
6 . 5 . 2 DDEM 文件头格式
DDEM文件头的各部分细节应符合表 2 。
表 2 DDEM 文件头的各部分细节注释
GB/T 41009—202 1
表 2 DDEM 文件头的各部分细节注释(续)
6 . 5 . 3 DDEM 文件中样品部分格式
6 . 5 . 3 . 1 DDEM文件中样品部分的细节应符合表 3 。
表 3 DDEM 文件中样品部分细节注释
6 . 5 . 3 . 2 DDEM文件中各样品包含的基因座部分的细节应符合表 4 。
表 4 DDEM 文件中各样品包含的基因座部分细节注释
GB/T 41009—202 1
表 4 DDEM 文件中各样品包含的基因座部分细节注释(续)
6 . 5 . 3 . 3 DDEM文件中各基因座中等位基因的细节应符合表 5,单个基因座中等位基因数量不超过8 个 。
表 5 DDEM 文件中各基因座中等位基因部分细节注释
6 . 6 DDEM 文件中基因座数据的要求
6 . 6 . 1 DDEM文件中应有牙釉质蛋白基因的检测数据。
6 . 6 . 2 DDEM文件中只包含有一类 STR检测数据时(常染色体 STR、Y染色体 STR、X染色体 STR 中的一种基因座),应包含该类别 STR全部 A类基因座;当基因座数量超过 A类基因座数量时,新增的基因座应先从 B类基因座中选择;当基因座数量超过 A类和 B类基因座总和时,新增的基因座应从 C类基因座中选择。
6 . 6 . 3 DDEM文件中有两类以上 STR检测数据时(如同时包含常染色体和 Y染色体 STR基因座),应包含所涉及类别 STR全部 A类基因座;当基因座数量超过 A 类基因座数量时,新增类别的 STR 基因座应满足 6 . 6 . 2 要求。
GB/T 41009—202 1
附 录 A
(规范性)
常染色体 STR检测基因座列表
常染色体 STR检测基因座应符合表 A. 1 。
表 A.1 常染色体 STR检测基因座
GB/T 41009—202 1
表 A.1 常染色体 STR检测基因座(续)
GB/T 41009—202 1
表 A.1 常染色体 STR检测基因座(续)
GB/T 41009—202 1
附 录 B
(规范性)
Y 染色体 STR检测基因座列表
Y染色体 STR检测基因座应符合表 B. 1 。
表 B.1 Y 染色体 STR检测基因座
GB/T 41009—202 1
表 B.1 Y 染色体 STR检测基因座(续)
GB/T 41009—202 1
表 B.1 Y 染色体 STR检测基因座(续)
GB/T 41009—202 1
表 B.1 Y 染色体 STR检测基因座(续)
GB/T 41009—202 1
表 B.1 Y 染色体 STR检测基因座(续)
GB/T 41009—202 1
附 录 C
(规范性)
x染色体 STR检测基因座列表
X染色体 STR检测基因座应符合表 C. 1 。
表 C.1 x染色体 STR检测基因座
GB/T 41009—202 1
表 C.1 x染色体 STR检测基因座(续)
GB/T 41009—202 1
附录 D
(资料性)
DDEM 文件头示例
DDEM文件头示例:
DDEM Header Version ( 0 . 9 , decimal)
DDEM Message Type (Import, 6 characters)
NDNAD Laboratory Name (64 characters)
NDNAD Laboratory ID(12 characters)
Source Laboratory Name (64 characters)
Source Laboratory ID(12 characters)
Submit By User ID (20 characters)
Submit Date/ Time of this file ( datetime , CCYY-MM-DDThh : mm : ss)
Batch Identifier (32 characters, 可选)
Kit Name(32 characters, 可选)
Kit ID(64 characters)
Kit Barcode Number( 64 characters)
Sequencer Manufacturer(64 characters)
Sequencer Manufacturer ID(12 characters)
Sequencer Serial Number(256 characters)
样品(Specimen) :
对于每一个样品(以循环的方式显示各个样品):
NDNAD Specimen Identifier (24 characters)
NDNAD Specimen Category (21 characters)
Source ID (10 characters, 可选)
Case Identifier (32 characters, 可选)
Partial Profile Indicator (Boolean, 可选)
Specimen Comment (255 characters with no leading spaces, 可选)
对于每一个基因座(以循环的方式显示各个基因座):
NDNAD Locus Name (10 characters)
Reading By (20 characters , User ID of NDNAD user)
Reading Date/Time (datetime, CCYY-MM-DDThh : mm : ss)
Batch Identifier (32 characters, 可选)
Kit (32 characters, 可选)
对于每个等位基因(以循环的方式显示各个等位基因):
Allele Required (Boolean, 可选)
Allele Value (10 characters)
AlleleSequenceShort (string)
GB/T 41009—202 1
AlleleSequenceLong (string)
ENDFOR
ENDFOR
ENDFOR
GB/T 41009—202 1
附录 E
(资料性)
DDEM 文件示例
DDEM文件示例:
0.9
Import
BEIJING
BEIJING
GNIBUIL
2020-02-02T21:51:44
GEL2012_01_04_101
SampleKIT
2020-01-01.1
Sample SEQ 001
IMP_0001A
Forensic, Unknown
Off-ladder allele value observed for FGA.
MENT>
D5S818
GNIBUIL
2020-02-02T21:50:42
11
[ATCT]11
ATCTATCTATCTATCTATCTATCTATCTATCTATCTATCT ATCT
GB/T 41009—202 1
11
[ATCT]11
ATCTATCTATCTATCTATCTATCTATCTATCTATCTATCT ATCT
D21S11
GNIBUIL
2020-02-02T21:50:42
30
[TCTA]6[TCTG]5[TCTA]3TA[TCTA]3TCA[TCTA] 2TCCATA [TCTA]11
< ALLELESEQL> TCTATCTATCTATCTATCTATCTATCTGTCTGTCTGTCTG
TCTGTCTATCTATCTATATCTATCTATCTATCATCTATCTATCCATATCTATCTATCTATC
TATCTATCTATCTATCTATCTATCTATCTA
30
[TCTA]5[TCTG]6[TCTA]3TA[TCTA]3TCA[TCTA] 2TCCATA [TCTA]11
TCTATCTATCTATCTATCTATCTGTCTGTCTGTCTGTCTG TCT-
GTCTATCTATCTATATCTATCTATCTATCATCTATCTATCCATATCTATCTATCTATC TATC-
TATCTATCTATCTATCTATCTATCTA
D7S820
GNIBUIL
2020-02-02T21:50:42
10
[TATC]10
TATCTATCTATCTATCTATCTATCTATCTATCTATCTATC
GB/T 41009—202 1
11
[TATC]11
TATCTATCTATCTATCTATCTATCTATCTATCTATCTATC TATC
CSF1PO
GNIBUIL
2020-02-02T21:50:42
10
[ATCT]10
ATCTATCTATCTATCTATCTATCTATCTATCTATCTATCT
12
[ATCT]12
ATCTATCTATCTATCTATCTATCTATCTATCTATCTATCT ATCTATCT
D2S1338
GNIBUIL
2020-02-02T21:50:42
19
[GGAA]12[GGCA]7
< ALLELESEQL> GGAAGGAAGGAAGGAAGGAAGGAAGGAAGGAAGGAAGG AAGGAAGGAAGGCAGGCAGGCAGGCAGGCAGGCAGGCA
23
GB/T 41009—202 1
[GGAA]2[GGAC]1[GGAA]13[GGCA]7
< ALLELESEQL> GGAAGGAAGGACGGAAGGAAGGAAGGAAGGAAGGAAGG AAGGAAGGAAGGAAGGAAGGAAGGAAGGCAGGCAGGCAGGCAGGCAGGCAGGCA
LELESEQL>
D3S1358
GNIBUIL
2020-02-02T21:50:42
14
[TCTA]1[TCTG]2[TCTA]11
TCTATCTGTCTGTCTATCTATCTATCTATCTATCTATCTAT CTATCTATCTATCTA
15
[TCTA]1[TCTG]2[TCTA]12
TCTATCTGTCTGTCTATCTATCTATCTATCTATCTATCTAT CTATCTATCTATCTATCTA
vWA
GNIBUIL
2020-02-02T21:50:42
16
[TAGA]11[CAGA]4[TAGA]1
TAGATAGATAGATAGATAGATAGATAGATAGATAGATAG ATAGATAGACAGACAGACAGACAGATAGA
17
[TAGA]12[CAGA]4[TAGA]1
TAGATAGATAGATAGATAGATAGATAGATAGATAGATAG
GB/T 41009—202 1
ATAGATAGATAGACAGACAGACAGACAGATAGA
D8S1179
GNIBUIL
2020-02-02T21:50:42
13
[TCTA]13
TCTATCTATCTATCTATCTATCTATCTATCTATCTATCTAT CTATCTATCTA
13
[TCTA]1[TCTG]1[TCTA]11
TCTATCTGTCTATCTATCTATCTATCTATCTATCTATCTA TCTATCTATCTA
D16S539
GNIBUIL
2020-02-02T21:50:42
11
[GATA]11
GATAGATAGATAGATAGATAGATAGATAGATAGATAGAT AGATA
12
[GATA]12
GATAGATAGATAGATAGATAGATAGATAGATAGATAGAT AGATAGATA
GB/T 41009—202 1
Penta E
GNIBUIL
2020-02-02T21:50:42
12
[TCTTT]12
TCTTTTCTTTTCTTTTCTTTTCTTTTCTTTTCTTTTCTTTT CTTTTCTTTTCTTTTCTTT
13
[TCTTT]13
TCTTTTCTTTTCTTTTCTTTTCTTTTCTTTTCTTTTCTTTT CTTTTCTTTTCTTTTCTTTTCTTT
TPOX
GNIBUIL
2020-02-02T21:50:42
8
[AATG]8
AATGAATGAATGAATGAATGAATGAATGAATG
LESEQL>
8
[AATG]8
AATGAATGAATGAATGAATGAATGAATGAATG
LESEQL>
TH01
GNIBUIL
GB/T 41009—202 1
2020-02-02T21:50:42
8
[AATG]8
AATGAATGAATGAATGAATGAATGAATGAATG
LESEQL>
9.3
[AATG]6ATG[AATG]3
AATGAATGAATGAATGAATGAATGATGAATGAATGAATG
D19S433
GNIBUIL
2020-02-02T21:50:42
14
[CCTT]12CCTA[CCTT]1CTTT[CCTT]1
CCTTCCTTCCTTCCTTCCTTCCTTCCTTCCTTCCTTCCTTCC
TTCCTTCCTACCTTCTTTCCTT
15
[CCTT]13CCTA[CCTT]1CTTT[CCTT]1
CCTTCCTTCCTTCCTTCCTTCCTTCCTTCCTTCCTTCCTTCC
TTCCTTCCTTCCTACCTTCTTTCCTT
D18S51
GNIBUIL
2020-02-02T21:50:42
GB/T 41009—202 1
15
[AGAA]15
AGAAAGAAAGAAAGAAAGAAAGAAAGAAAGAAAGAAAG AAAGAAAGAAAGAAAGAAAGAA
19
[AGAA]19
AGAAAGAAAGAAAGAAAGAAAGAAAGAAAGAAAGAAAG AAAGAAAGAAAGAAAGAAAGAAAGAAAGAAAGAAAGAA
FGA
GNIBUIL
2020-02-02T21:50:42
23
[GGAA]2GGAG[AAAG]15AGAAAAAA[GAAA]3
LESEQS>
GGAAGGAAGGAGAAAGAAAGAAAGAAAGAAAGAAAGAA AGAAAGAAAGAAAGAAAGAAAGAAAGAAAGAAAGAGAAAAAAGAAAGAAAGAAA
24
[GGAA]2GGAG[AAAG]16AGAAAAAA[GAAA]3
LESEQS>
GGAAGGAAGGAGAAAGAAAGAAAGAAAGAAAGAAAGAA
AGAAAGAAAGAAAGAAAGAAAGAAAGAAAGAAAGAAAGAGAAAAAAGAAAGAAAGAAA
D6S1043
GNIBUIL
2020-02-02T21:50:42
GB/T 41009—202 1
12
[ATCT]12
ATCTATCTATCTATCTATCTATCTATCTATCTATCTATCT ATCTATCT
18
[ATCT]5[ATGT]1[ATCT]12
ATCTATCTATCTATCTATCTATGTATCTATCTATCTATCT ATCTATCTATCTATCTATCTATCTATCTATCT
D13S317
GNIBUIL
2020-02-02T21:50:42
11
[TATC]11
TATCTATCTATCTATCTATCTATCTATCTATCTATCTATC TATC
11
[TATC]11
TATCTATCTATCTATCTATCTATCTATCTATCTATCTATC TATC
D12S391
GNIBUIL
2020-02-02T21:50:42
18
[AGAT]11[AGAC]6[AGAT]1
GB/T 41009—202 1
AGATAGATAGATAGATAGATAGATAGATAGATAGATAGA TAGATAGACAGACAGACAGACAGACAGACAGAT
20
[AGAT]12[AGAC]7[AGAT]1
AGATAGATAGATAGATAGATAGATAGATAGATAGATAGA TAGATAGATAGACAGACAGACAGACAGACAGACAGACAGAT
D1S1656
GNIBUIL
2020-02-02T21:50:42
14
CCTA[TCTA]13
CCTATCTATCTATCTATCTATCTATCTATCTATCTATCTAT CTATCTATCTATCTA
18.3
CCTA[TCTA]13TCA[TCTA]4
CCTATCTATCTATCTATCTATCTATCTATCTATCTATCTAT CTATCTATCTATCTATCATCTATCTATCTATCTA
Penta D
GNIBUIL
2020-02-02T21:50:42
12
[AAAGA]12
AAAGAAAAGAAAAGAAAAGAAAAGAAAAGAAAAGAAAA GAAAAGAAAAGAAAAGAAAAGA
GB/T 41009—202 1
12
[AAAGA]12
AAAGAAAAGAAAAGAAAAGAAAAGAAAAGAAAAGAAAA GAAAAGAAAAGAAAAGAAAAGA
GB/T 41009—202 1
附 录 F
(资料性)
DDEM 文件使用的有效 XML结构
用于校验的 DDEM文件的模式定义文件(XML Schema Definition, XSD)示例:
xmlns: sql = " urn: schemas-microsoft-com : mapping-schema " elementFormDefault = " qualified " targetNamespace= "urn: NDNADImportFile-schema"
xmlns : r= "urn: NDNADImportFile-schema">
< xsd: element name = " KITBRACODENUMBER " type = " KITBRACODENUMBERType " maxOccurs= " 1 " minOccurs= "0" sql: mapped= "false" />
< xsd: element name = " SEQUENCERMANUFACTURERID" type = " SEQUENCERMANU- FACTURERType" maxOccurs= " 1 " minOccurs= "0" sql: mapped= "false" />
sql: key-fields= "SPEC_ID">
GB/T 41009—202 1
GB/T 41009—202 1
GB/T 41009—202 1
= " 1 " maxOccurs = " 1 "
sql : field= "SPEC_CATEGORY" />
sql: key-fields= "SPEC_ID LOCUS_NAME">
sql: datatype= "datetime" />
sql: relationship= "LocusAllele" sql: key-fields= "SPEC_ID LOCUS_NAME PCR_VALUE" />
GB/T 41009—202 1
相关推荐
- GB/T 25334.1-2023 铁路机车车体 第1部分:内燃机车
- GB∕T 40389-2021 烧结金属材料(不包括硬质合金) 表面粗糙度的测定
- GB/T 15135-2018 燃气轮机 词汇
- GB/T 34560.4-2017 结构钢 第4部分:淬火加回火高屈服强度结构钢板交货技术条件
- GB/T 18570.5-2005 涂覆涂料前钢材表面处理 表面清洁度的评定试
- GB∕T 10123-2022 金属和合金的腐蚀 术语
- GB/T 5680-2023 奥氏体锰钢铸件
- GB/T 13681-1992 焊接 六角螺母
- GB/T 42994-2023 管理咨询服务指南 项目管理 正式版
- GB/T 34119-2017 轨道交通 机车车辆用电连接器

