homework-jianmu/2.0/documentation20/cn/04.model/docs.md

6.9 KiB
Raw Blame History

TDengine数据建模

TDengine采用关系型数据模型需要建库、建表。因此对于一个具体的应用场景需要考虑库、超级表和普通表的设计。本节不讨论细致的语法规则只介绍概念。

关于数据建模请参考视频教程

创建库

不同类型的数据采集点往往具有不同的数据特征包括数据采集频率的高低数据保留时间的长短副本的数目数据块的大小是否允许更新数据等等。为了在各种场景下TDengine都能最大效率的工作TDengine建议将不同数据特征的表创建在不同的库里因为每个库可以配置不同的存储策略。创建一个库时除SQL标准的选项外应用还可以指定保留时长、副本数、内存块个数、时间精度、文件块里最大最小记录条数、是否压缩、一个数据文件覆盖的天数等多种参数。比如

CREATE DATABASE power KEEP 365 DAYS 10 BLOCKS 6 UPDATE 1;

上述语句将创建一个名为power的库这个库的数据将保留365天超过365天将被自动删除每10天一个数据文件内存块数为6允许更新数据。详细的语法及参数请见 TAOS SQL 的数据管理 章节。

创建库之后需要使用SQL命令USE将当前库切换过来例如

USE power;	

将当前连接里操作的库换为power否则对具体表操作前需要使用“库名.表名”来指定库的名字。

注意:

  • 任何一张表或超级表是属于一个库的,在创建表之前,必须先创建库。
  • 处于两个不同库的表是不能进行JOIN操作的。
  • 创建并插入记录、查询历史记录的时候,均需要指定时间戳。

创建超级表

一个物联网系统往往存在多种类型的设备比如对于电网存在智能电表、变压器、母线、开关等等。为便于多表之间的聚合使用TDengine, 需要对每个类型的数据采集点创建一个超级表。以表1中的智能电表为例可以使用如下的SQL命令创建超级表

CREATE STABLE meters (ts timestamp, current float, voltage int, phase float) TAGS (location binary(64), groupId int);

**注意:**这一指令中的 STABLE 关键字,在 2.0.15 之前的版本中需写作 TABLE 。

与创建普通表一样创建表时需要提供表名示例中为meters表结构Schema即数据列的定义。第一列必须为时间戳示例中为ts)其他列为采集的物理量示例中为current, voltage, phase)数据类型可以为整型、浮点型、字符串等。除此之外还需要提供标签的schema (示例中为location, groupId)标签的数据类型可以为整型、浮点型、字符串等。采集点的静态属性往往可以作为标签比如采集点的地理位置、设备型号、设备组ID、管理员ID等等。标签的schema可以事后增加、删除、修改。具体定义以及细节请见 TAOS SQL 的超级表管理 章节。

每一种类型的数据采集点需要建立一个超级表,因此一个物联网系统,往往会有多个超级表。对于电网,我们就需要对智能电表、变压器、母线、开关等都建立一个超级表。在物联网中,一个设备就可能有多个数据采集点(比如一台风力发电的风机,有的采集点采集电流、电压等电参数,有的采集点采集温度、湿度、风向等环境参数),这个时候,对这一类型的设备,需要建立多张超级表。一张超级表里包含的采集物理量必须是同时采集的(时间戳是一致的)。

一张超级表最多容许 1024 列,如果一个采集点采集的物理量个数超过 1024需要建多张超级表来处理。一个系统可以有多个 DB一个 DB 里可以有一到多个超级表。(从 2.1.7.0 版本开始,列数限制由 1024 列放宽到了 4096 列。)

创建表

TDengine对每个数据采集点需要独立建表。与标准的关系型数据库一样一张表有表名Schema但除此之外还可以带有一到多个标签。创建时需要使用超级表做模板同时指定标签的具体值。以表1中的智能电表为例可以使用如下的SQL命令建表

CREATE TABLE d1001 USING meters TAGS ("Beijing.Chaoyang", 2);

其中d1001是表名meters是超级表的表名后面紧跟标签Location的具体标签值”Beijing.Chaoyang"标签groupId的具体标签值2。虽然在创建表时需要指定标签值但可以事后修改。详细细则请见 TAOS SQL 的表管理 章节。

**注意:**目前 TDengine 没有从技术层面限制使用一个 database dbA的超级表作为模板建立另一个 database dbB的子表后续会禁止这种用法不建议使用这种方法建表。

TDengine建议将数据采集点的全局唯一ID作为表名(比如设备序列号。但对于有的场景并没有唯一的ID可以将多个ID组合成一个唯一的ID。不建议将具有唯一性的ID作为标签值。

自动建表:在某些特殊场景中,用户在写数据时并不确定某个数据采集点的表是否存在,此时可在写入数据时使用自动建表语法来创建不存在的表,若该表已存在则不会建立新表。比如:

INSERT INTO d1001 USING meters TAGS ("Beijng.Chaoyang", 2) VALUES (now, 10.2, 219, 0.32);

上述SQL语句将记录 (now, 10.2, 219, 0.32) 插入表d1001。如果表d1001还未创建则使用超级表meters做模板自动创建同时打上标签值 “Beijing.Chaoyang", 2

关于自动建表的详细语法请参见 插入记录时自动建表 章节。

多列模型 vs 单列模型

TDengine支持多列模型只要物理量是一个数据采集点同时采集的时间戳一致这些量就可以作为不同列放在一张超级表里。但还有一种极限的设计单列模型每个采集的物理量都单独建表因此每种类型的物理量都单独建立一超级表。比如电流、电压、相位就建三张超级表。

TDengine建议尽可能采用多列模型因为插入效率以及存储效率更高。但对于有些场景一个采集点的采集量的种类经常变化这个时候如果采用多列模型就需要频繁修改超级表的结构定义让应用变的复杂这个时候采用单列模型会显得更简单。