数据元标准(数据元概述

4 数据元概述
4.1 数据元基本模型
图1给出了数据元的基本模型。从模型可看出,数据元的基本模型是由数据元概念和数据元两部分组成。

    一个数据元概念是由对象类和特性两部分组成,是能以一个数据元形式表示的概念,其描述与任何特定表示法无关。一个数据元是由对象类、特性和表示三部分组成。一个数据元概念对应多个数据元。
    对象类是可以对其界限和含义进行明确的标识,且特性和行为遵循相同规则的观念、抽象概念或现实世界中事物的集合。它是我们希望采集和存储数据的事物。对象类是概念,在面向对象的模型中与类相对应,在实体-关系模型中与实体对应,例如,患者、医生、卫生机构等。对象类可能是一般概念。当对象类所对应的对象集有两个或多个元素时,就是一般概念。患者、医生、卫生机构等就是一般概念。对象类也可以是个别概念。当对象类对应的对象集仅有一个元素时,就是个别概念,例如“北京市医疗机构集合”。
    特性是一个对象类的所有成员所共有的特征。它用来区别和描述对象,是对象类的特征,但不一定是本质特征,它们构成对象类的内涵。特性也是概念,对应于面向对象模型或实体-关系模型中的属性,例如身高、体重、血压、脉搏、血型等。特性也可是一般概念或个别概念。作为个别概念的例子有:病床总数或医疗收入。
    表示可包括值域、数据类型、表示类(可选的)和计量单位四部分,其中任何一部分发生变化都成为不同的表示。值域是数据元允许值的集合,例如医疗毛收入这一数据元的值域是用非负实数集(以人民币为单位)作为它的允许值集合;数据类型是表达数据元允许值的不同值的集合,以这些值的特性和运算为特征,例如患者姓名的数据类型是“字符”;表示类是表示类型的分类,它是可选的,例如性别代码这一值域的表示类是“类别”;计量单位是用于计量相关值的实际单位,例如患者血压测量的计量单位是“mmHg”。
    当一个数据元概念与一个表示联系在一起时,就产生了一个数据元。在需要生成概念上相似的数据元时,一个数据元概念可以与不同的表示关联产生不同的数据元。同一概念的表达方法有许多。例如,患者国籍这个数据元概念,可以应用EN ISO 3166-1-1997 《Codes for the representation of names of countries and their subdivisions - Part 1: Country codes》中规定的世界各国7种不同的表示,有英文全称、2位字母码、3位字母码、地区代码等,每种都包含了一个表示集合,都可以用作与该数据元概念关联的表示。7种关联就形成了7个数据元。
4.2 值域基本模型
    图2给出了值域的基本模型。从模型中可看出,值域的基本模型由概念域和值域两部分组成,一个概念域对应多个值域。

4.2.1 值域
    值域是数据元允许值的集合。一个允许值是某个值和该值的含义的组合,值的含义称为值含义。例如,“患者病情状态”数据元的值域是:1表示危,2表示重,3表示一般。1、2和3是值,其值含义分别是危、重和一般。
值域有两种(非互斥的)子类:
——可枚举值域:由允许值(值和它们的含义)列表规定的值域;
——不可枚举值域:由描述规定的值域。
一个可枚举值域是包含了它的所有值及值含义的一个列表。例如,“患者血型类别代码”数据元的一个可枚举值域列表如下:

    一个不可枚举值域是由一个描述来规定。不可枚举值域的描述须准确描述属于该值域的允许值。例如,“传染病死亡率”数据元的值域是大于等于0且小于等于1的实数。
    描述数据有时需要计量单位。例如描述血压的值域记录时,为了准确理解值含义,需要使用计量单位mmHg或kPa;年龄值域记录的计量单位可使用年、月、周、日;血糖值域记录的计量单位可以是mg/dl或mmol/L。所以,计量单位与值域关联。
4.2.2 概念域
    概念的外延构成了概念域,一个概念域是一个值含义集合。一个概念域的内涵是它的值含义。概念域也有两种(非互斥的)子类:
    ——可枚举概念域:由值含义列表规定的概念域;
    ——不可枚举概念域:由描述规定的概念域。
    可枚举概念域的值含义可以明确地列举。该类型概念域对应于可枚举类型的值域,见示例1。不可枚举概念域的值含义由“不可枚举概念域描述规则”来表述。该规则描述了不可枚举值域中允许值的含义。这种类型的概念域对应于不可枚举类型的值域,见示例2。
    如果一个计量单位的任何量可以转化为另一种计量单位下等同的量,则这些计量单位彼此之间是等价的。所有等价的计量单位被认为具有相同的维。例如,长度计量单位(米,厘米等)具有相同的维,年龄计量单位(年、月、周、日)具有相同的维。所以,维与概念域关联。


4.2.3 关系
    每个值域都是概念域的一个元素。多个值域可能是同一个概念域的外延,但一个值域只与一个概念域关联。概念域之间可以存在关系,由此创建概念域的一个概念体系。值域之间也可以存在关系,根据这些关系提供的框架,就能够捕捉相关值域和它们关联概念的结构。
    每个值域表示两种概念:数据元概念(间接地)和概念域(直接地)。数据元概念是与一个数据元关联的概念。值域是数据元的表示,因此也间接地表达了数据元概念。但是,值域与一个概念域直接关联,因此,值域对概念的表示与数据元无关。
4.3 数据元的元数据总体模型
    图3给出了数据元的元数据总体模型。从模型可看出,数据元的元数据总体模型由概念层和表示层两个部分组成。概念层包括数据元概念类和概念域类。这两种类都表示概念。表示层包括数据元类和值域类。这两种类都表示数据值的容器。

从图3可以看出4个类的若干基本事实:
——一个数据元是一个数据元概念和一个值域的结合体;
——多个数据元可以共享相同数据元概念,这意味着一个数据元概念可以用多个不同方式表示。例如,患者入院时间是一个数据元概念,它可以有多个表示方法,例如用YYYYMMDD表示患者入院的年月日,如果需表示小时和分,则用YYYYMMDDhhmm表示。“患者性别代码-英文全称”、“患者性别代码-1位字母代码”共享同一个数据元概念患者性别。
——多个数据元可以共享相同的表示,这意味着一个值域可以被不同数据元重复利用。例如,“住院病人结算费用-元(人民币)”和“门急诊就诊费用-元(人民币)”数据元共享相同的值域“费用-元(人民币)”。
——值域不是必然与一个数据元关联,可以单独管理;
——不同值域所有允许值所对应的值含义都相同时,这些值域在概念上是等价的,因此,对应相同的概念域。例如,前述关于性别的值域:性别代码-1位数字、性别代码-英文全称及性别代码-1位字母代码的允许值所对应的值含义相同,均表示“男性、女性、未知的性别、未说明的性别”。所以这些值域对应同一个概念域“性别”。
——不同值域部分允许值所对应的值含义相同时,这些值域在概念上是相关的,因此,在包含有其各自概念域的概念体系中共享一个由共同的值含义构成的概念域。例如,性别代码-符号的允许值是“♂和♀”,分别表示“男性和女性”。无其它符号表示“未知的性别”和“未说明的性别”,那么性别代码-符号与性别代码-1位数字、性别代码-英文全称及性别代码-1位字母代码值域在概念上相关,共享由共同的值含义“男性和女性”构成的概念域“性别”。
——一个数据元概念仅与一个概念域相关,因此共享相同数据元概念的所有数据元共享概念上相关的表示。例如,“新生儿体重-N5,2(千克)”和“新生儿体重-N4(克)”是两个不同的数据元,共享一个数据元概念新生儿体重。两个数据元的表示在概念上是相关的,共享概念域“体重”。千克和克都是重量的计量单位,称具有相同的维度。因此计量单位与值域相关,维度与概念域相关。
——许多数据元概念可以共享相同的概念域。例如,患者体重和新生儿体重是两个不同的数据元概念,共享一个概念域“体重”。
4.4 数据元与其它数据概念的关系
    图4简化表示了数据元所在的不同数据环境。数据元出现在数据库、文件和数据交换集当中。数据元是系统所管理数据的基本单元,因而它必然是其内部进行数据库和文件设计的组成部分,也一定是系统间数据交换集的组成部分。
    在系统内部,数据库或文件由记录、段和元组等组成,而记录、段和元组则由数据元组成。数据元本身包含各种各样的数据,这些数据包括字符、图像和声音等。

    当系统间进行数据传输时,数据元是构成交换集的基本单元。数据交换主要发生于数据库间或文件间,但系统间的数据库和文件结构(如记录或元组)并不一定相同,所以进行信息交换的公用单元是数据元。
4.5 卫生信息数据元
    卫生信息数据元是卫生这一特定领域的数据元,它的概念和结构遵循通用数据元的概念和结构,但具有自身的特点。医药卫生领域包括基础医学、临床医学、公共卫生、中医药学等多个专业,其数据元的表现形式复杂,例如数字人体、医学影像、基因图谱、中医经络等,除具有通用数据元的属性外,还具有其鲜明的领域特殊性。