doc: refactor document

2024-07-29 12:13:20 +08:00 · 2024-07-29 12:13:20 +08:00 · 07e7970f7b
parent 321a3f0f0b
commit 07e7970f7b
11 changed files with 331 additions and 290 deletions
--- a/docs/zh/04-get-started/01-install.md
+++ b/docs/zh/04-get-started/01-install.md
@ -1,21 +1,10 @@
 ---
-sidebar_label: 安装与启动
-title: TDengine 安装与启动
-description: 使用安装包和 Docker 快速体验 TDengine
+sidebar_label: Linux
+title: 在 Linux 系统上安装和启动 TDengine
 toc_max_heading_level: 4
 ---

-TDengine 的安装包含括服务端（taosd）、应用驱动（taosc）、用于与第三方系统对接并提供 RESTful 接口的 taosAdapter、命令行程序（CLI，taos）和一些工具软件。
-
-为了适应不同用户的操作系统偏好，TDengine 在 Linux 系统上提供 tar.gz 、 Deb 和 RPM 格式安装包。此外，还支持 apt-get 方式安装，这种方式简便快捷，适合熟悉 Linux 包管理的用户。
-
-除了 Linux 平台以外，TDengine 还支持在 Windows X64 平台和 macOS X64/M1 平台上安装，扩大了其适用性，满足了跨平台的需求。
-
-对于希望进行虚拟化安装的用户，TDengine 同样提供了 Docker 镜像，使得用户可以快速搭建和体验 TDengine 环境，不需要烦琐的手动配置过程。
-
-本节将详细指导如何在 Linux 操作系统中高效地安装和启动 TDengine 3.3.0.0 版本。同时，为了迎合不同用户的多样化需求，本节还将介绍 TDengine 在 Docker 容器中的安装和启动步骤，为用户提供更多灵活性和便利性选项。
-
-##  Linux 系统
+本节简介在 Linux 系统上安装和启动 TDengine 的快速步骤。

 ## 安装步骤

@ -66,7 +55,7 @@ Active: inactive (dead)
 - 如果操作系统不支持 systemctl，可以通过手动运行 /usr/local/taos/bin/taosd 命令来启动 TDengine 服务。


-### 目录结构
+## 目录结构

 安装 TDengine 后，默认会在操作系统中生成下列目录或文件：

@ -80,7 +69,7 @@ Active: inactive (dead)
 | /var/lib/taos             | TDengine 默认数据文件目录。可通过[配置文件]修改位置。                |
 | /var/log/taos             | TDengine 默认日志文件目录。可通过[配置文件]修改位置。                |

-### 可执行程序
+## 可执行程序

 TDengine 的所有可执行文件默认存放在 _/usr/local/taos/bin_ 目录下。其中包括：

@ -94,43 +83,3 @@ TDengine 的所有可执行文件默认存放在 _/usr/local/taos/bin_ 目录下
 - _set_core.sh_：用于方便调试设置系统生成 core dump 文件的脚本
 - _taosd-dump-cfg.gdb_：用于方便调试 taosd 的 gdb 执行脚本。

-## Docker
-
-1. 测试机器如果已经安装了 Docker，首先拉取最新的 TDengine 容器镜像：
-```shell
-docker pull tdengine/tdengine:latest
-
-或者指定版本的容器镜像：
-```shell
-docker pull tdengine/tdengine:3.3.0.0
-```
-
-2. 然后只需执行下面的命令：
-```shell
-docker run -d -p 6030:6030 -p 6041:6041 -p 6043-6049:6043-6049 -p 6043-6049:6043-6049/udp tdengine/tdengine
-```
-
-**注意**：TDengine 3.0 服务端仅使用 6030 TCP 端口。6041 为 taosAdapter 所使用提供 REST 服务端口。6043-6049 为 taosAdapter 提供第三方应用接入所使用端口，可根据需要选择是否打开。
-
-如果需要将数据持久化到本机的某一个文件夹，则执行下边的命令：
-```shell
-docker run -d -v ~/data/taos/dnode/data:/var/lib/taos \
-  -v ~/data/taos/dnode/log:/var/log/taos \
-  -p 6030:6030 -p 6041:6041 -p 6043-6049:6043-6049 -p 6043-6049:6043-6049/udp tdengine/tdengine
-```
-
-3. 确定该容器已经启动并且在正常运行。
-```shell
-docker ps
-```
-
-4. 进入该容器并执行 bash
-```shell
-docker exec -it <container name bash
-```
-
-然后就可以执行相关的 Linux 命令操作和访问 TDengine。
-
-## 故障排查
-
-如果启动 TDengine 服务时出现异常，请查看数据库日志以获取更多信息。你也可以参考 TDengine 的官方文档中的故障排除部分，或者在 TDengine 开源社区中寻求帮助。
--- a/docs/zh/04-get-started/03-docker.md
+++ b/docs/zh/04-get-started/03-docker.md
@ -0,0 +1,48 @@
+---
+sidebar_label: Docker
+title: 使用 Docker 快速启动 TDengine
+toc_max_heading_level: 4
+---
+
+本节简介如何使用 Docker 快速启动 TDengine。
+
+## Docker
+
+1. 测试机器如果已经安装了 Docker，首先拉取最新的 TDengine 容器镜像：
+```shell
+docker pull tdengine/tdengine:latest
+
+或者指定版本的容器镜像：
+```shell
+docker pull tdengine/tdengine:3.3.0.0
+```
+
+2. 然后只需执行下面的命令：
+```shell
+docker run -d -p 6030:6030 -p 6041:6041 -p 6043-6049:6043-6049 -p 6043-6049:6043-6049/udp tdengine/tdengine
+```
+
+**注意**：TDengine 3.0 服务端仅使用 6030 TCP 端口。6041 为 taosAdapter 所使用提供 REST 服务端口。6043-6049 为 taosAdapter 提供第三方应用接入所使用端口，可根据需要选择是否打开。
+
+如果需要将数据持久化到本机的某一个文件夹，则执行下边的命令：
+```shell
+docker run -d -v ~/data/taos/dnode/data:/var/lib/taos \
+  -v ~/data/taos/dnode/log:/var/log/taos \
+  -p 6030:6030 -p 6041:6041 -p 6043-6049:6043-6049 -p 6043-6049:6043-6049/udp tdengine/tdengine
+```
+
+3. 确定该容器已经启动并且在正常运行。
+```shell
+docker ps
+```
+
+4. 进入该容器并执行 bash
+```shell
+docker exec -it <container name bash
+```
+
+然后就可以执行相关的 Linux 命令操作和访问 TDengine。
+
+## 故障排查
+
+如果启动 TDengine 服务时出现异常，请查看数据库日志以获取更多信息。你也可以参考 TDengine 的官方文档中的故障排除部分，或者在 TDengine 开源社区中寻求帮助。
--- a/docs/zh/04-get-started/08-cloud.md
+++ b/docs/zh/04-get-started/08-cloud.md
--- a/docs/zh/04-get-started/10-use.md
+++ b/docs/zh/04-get-started/10-use.md
--- a/docs/zh/04-get-started/index.md
+++ b/docs/zh/04-get-started/index.md
@ -1,4 +1,15 @@
 ---
 sidebar_label: 立即开始
 title: 快速体验 TDengine
---
+toc_max_heading_level: 4
+---
+
+TDengine 的安装包含括服务端（taosd）、应用驱动（taosc）、用于与第三方系统对接并提供 RESTful 接口的 taosAdapter、命令行程序（CLI，taos）和一些工具软件。
+
+为了适应不同用户的操作系统偏好，TDengine 在 Linux 系统上提供 tar.gz 、 Deb 和 RPM 格式安装包。此外，还支持 apt-get 方式安装，这种方式简便快捷，适合熟悉 Linux 包管理的用户。
+
+除了 Linux 平台以外，TDengine 还支持在 Windows X64 平台和 macOS X64/M1 平台上安装，扩大了其适用性，满足了跨平台的需求。
+
+对于希望进行虚拟化安装的用户，TDengine 同样提供了 Docker 镜像，使得用户可以快速搭建和体验 TDengine 环境，不需要烦琐的手动配置过程。
+
+本节将详细指导如何在 Linux 操作系统中高效地安装和启动 TDengine 3.3.0.0 版本。同时，为了迎合不同用户的多样化需求，本节还将介绍 TDengine 在 Docker 容器中的安装和启动步骤，为用户提供更多灵活性和便利性选项。
--- a/docs/zh/06-advanced/05-data-in/00-transformer.md
+++ b/docs/zh/06-advanced/05-data-in/00-transformer.md
@ -1,228 +0,0 @@
---
-title: "数据转换"
-sidebar_label: "数据转换"
---
-
-Transformer 是数据写入的核心，从数据源读取数据后，经过解析、提取拆分、数据过滤、映射，最终写入 TDengine 数据表中。taosX 将 Transformer 过程抽象为四个步骤：
-
-1. **解析**：数据结构化的过程，就是将非结构化数据转成可以用统一 schema 描述的结构化数据。来自于 MQTT/Kafka 等数据源，其消息往往是普通的字符串，需要用一些格式化的方式来解析。但是数据源本身就是结构化数据，则无需解析过程。
-2. **提取拆分**：部分字段进一步细化拆分的过程，比如数据源使用一个字段描述重量 “5千克”， 目标库使用两个字段来描述重量：weight、unit，则需要将源字段拆分。
-3. **数据过滤**：设置过滤条件，满足条件的数据行才写入目标表。
-4. **映射**：将经过上述过程的源字段映射到目标 TDengine 数据表字段。
-
-## 数据转换过程详解
-
-taosExplorer 中目前支持大部分数据源写入的 transformer 配置。接下来四个小节详细说明四个步骤**解析**、**提取拆分**、**数据过滤**、**映射**可视化配置方法。
-
-### 1 解析
-
-仅非结构化的数据源需要这个步骤，目前 MQTT 和 Kafka 数据源会使用这个步骤提供的规则来解析非结构化数据，以初步获取结构化数据，即可以以字段描述的行列数据。在 explorer 中您需要提供示例数据和解析规则，来预览解析出以表格呈现的结构化数据。
-
-#### 1.1 示例数据
-
-![示例数据](./pic/transform-01.png)
-
-如图，textarea 输入框中就是示例数据，可以通过三种方式来获取示例数据：
-
-1. 直接在 textarea 中输入示例数据；
-2. 点击右侧按钮 “从服务器检索” 则从配置的服务器获取示例数据，并追加到示例数据 textarea 中；
-3. 上传文件，将文件内容追加到示例数据 textarea 中。
-
-#### 1.2 解析<a name="parse"></a>
-
-解析就是通过解析规则，将非结构化字符串解析为结构化数据。消息体的解析规则目前支持 JSON、Regex 和 UDT。
-
-##### 1. JSON 解析
-
-如下 JSON 示例数据，可自动解析出字段：`groupid`、`voltage`、`current`、`ts`、`inuse`、`location`。
-
-``` json
-{"groupid": 170001, "voltage": "221V", "current": 12.3, "ts": "2023-12-18T22:12:00", "inuse": true, "location": "beijing.chaoyang.datun"}
-{"groupid": 170001, "voltage": "220V", "current": 12.2, "ts": "2023-12-18T22:12:02", "inuse": true, "location": "beijing.chaoyang.datun"}
-{"groupid": 170001, "voltage": "216V", "current": 12.5, "ts": "2023-12-18T22:12:04", "inuse": false, "location": "beijing.chaoyang.datun"}
-```
-
-如下嵌套结构的 JSON 数据，可自动解析出字段`groupid`、`data_voltage`、`data_current`、`ts`、`inuse`、`location_0_province`、`location_0_city`、`location_0_datun`，也可以选择要解析的字段，并设置解析的别名。
-
-``` json
-{"groupid": 170001, "data": { "voltage": "221V", "current": 12.3 }, "ts": "2023-12-18T22:12:00", "inuse": true, "location": [{"province": "beijing", "city":"chaoyang", "street": "datun"}]}
-```
-
-![JSON 解析](./pic/transform-02.png)
-
-##### 2. Regex 正则表达式<a name="regex"></a>
-
-可以使用正则表达式的**命名捕获组**从任何字符串（文本）字段中提取多个字段。如图所示，从 nginx 日志中提取访问ip、时间戳、访问的url等字段。
-
-``` re
-(?<ip>\b(?:[0-9]{1,3}\.){3}[0-9]{1,3}\b)\s-\s-\s\[(?<ts>\d{2}/\w{3}/\d{4}:\d{2}:\d{2}:\d{2}\s\+\d{4})\]\s"(?<method>[A-Z]+)\s(?<url>[^\s"]+).*(?<status>\d{3})\s(?<length>\d+)
-```
-
-![Regex 解析](./pic/transform-03.png)
-
-##### 3. UDT 自定义解析脚本
-
-自定义 rhai 语法脚本解析输入数据（参考 `https://rhai.rs/book/` ），脚本目前仅支持 json 格式原始数据。
-
-**输入**：脚本中可以使用参数 data, data 是原始数据 json 解析后的 Object Map；
-
-**输出**：输出的数据必须是数组。
-
-例如对于数据，一次上报三相电压值，分别入到三个子表中。则需要对这类数据做解析
-
-``` json
-{
-    "ts": "2024-06-27 18:00:00", 
-    "voltage": "220.1,220.3,221.1", 
-    "dev_id": "8208891"
-}
-```
-
-那么可以使用如下脚本来提取三个电压数据。
-
-```
-let v3 = data["voltage"].split(",");
-
-[
-#{"ts": data["ts"], "val": v3[0], "dev_id": data["dev_id"]},
-#{"ts": data["ts"], "val": v3[1], "dev_id": data["dev_id"]},
-#{"ts": data["ts"], "val": v3[2], "dev_id": data["dev_id"]}
-]
-```
-
-最终解析结果如下所示：
-
-![UDT](./pic/transform-udf.png)
-
-### 2 提取或拆分
-
-解析后的数据，可能还无法满足目标表的数据要求。比如智能表原始采集数据如下（ json 格式）：
-
-``` json
-{"groupid": 170001, "voltage": "221V", "current": 12.3, "ts": "2023-12-18T22:12:00", "inuse": true, "location": "beijing.chaoyang.datun"}
-{"groupid": 170001, "voltage": "220V", "current": 12.2, "ts": "2023-12-18T22:12:02", "inuse": true, "location": "beijing.chaoyang.datun"}
-{"groupid": 170001, "voltage": "216V", "current": 12.5, "ts": "2023-12-18T22:12:04", "inuse": false, "location": "beijing.chaoyang.datun"}
-```
-
-使用 json 规则解析出的电压是字符串表达的带单位形式，最终入库希望能使用 int 类型记录电压值和电流值，便于统计分析，此时就需要对电压进一步拆分；另外日期期望拆分为日期和时间入库。
-
-如下图所示可以对源字段`ts`使用 split 规则拆分成日期和时间，对字段`voltage`使用 regex 提取出电压值和电压单位。split 规则需要设置**分隔符**和**拆分数量**，拆分后的字段命名规则为`{原字段名}_{顺序号}`，Regex 规则同解析过程中的一样，使用**命名捕获组**命名提取字段。
-
-![拆分和提取](./pic/transform-04.png)
-
-### 3 过滤<a name="filter"></a>
-
-过滤功能可以设置过滤条件，满足条件的数据行 才会被写入目标表。过滤条件表达式的结果必须是 boolean 类型。在编写过滤条件前，必须确定 解析字段的类型，根据解析字段的类型，可以使用判断函数、比较操作符（`>`、`>=`、`<=`、`<`、`==`、`!=`）来判断。
-
-#### 3.1 字段类型及转换
-
-只有明确解析出的每个字段的类型，才能使用正确的语法做数据过滤。
-
-使用 json 规则解析出的字段，按照属性值来自动设置类型：
-
-1. bool 类型："inuse": true
-2. int 类型："voltage": 220
-3. float 类型："current" : 12.2
-4. String 类型："location": "MX001"
-
-使用 regex 规则解析的数据都是 string 类型。
-使用 split 和 regex 提取或拆分的数据是 string 类型。
-
-如果提取出的数据类型不是预期中的类型，可以做数据类型转换。常用的数据类型转换就是把字符串转换成为数值类型。支持的转换函数如下：
-
-|Function|From type|To type|e.g.|
-|:----|:----|:----|:----|
-| parse_int  | string | int | parse_int("56")  // 结果为整数 56 |
-| parse_float  | string | float | parse_float("12.3")  // 结果为浮点数 12.3 |
-
-#### 3.2 判断表达式
-
-不同的数据类型有各自判断表达式的写法。
-
-##### 1. BOOL 类型
-
-可以使用变量或者使用操作符`!`，比如对于字段 "inuse": true，可以编写以下表达式：
-
-> 1. inuse
-> 2. !inuse
-
-##### 2. 数值类型（int/float）
-
-数值类型支持使用比较操作符`==`、`!=`、`>`、`>=`、`<`、`<=`。
-
-##### 3. 字符串类型
-
-使用比较操作符，比较字符串。
-
-字符串函数
-
-|Function|Description|e.g.|
-|:----|:----|:----|
-| is_empty  | returns true if the string is empty | s.is_empty() |
-| contains  | checks if a certain character or sub-string occurs in the string | s.contains("substring") |
-| starts_with  | returns true if the string starts with a certain string | s.starts_with("prefix") |
-| ends_with  | returns true if the string ends with a certain string | s.ends_with("suffix") |
-| len  | returns the number of characters (not number of bytes) in the string，must be used with comparison operator | s.len == 5 判断字符串长度是否为5；len作为属性返回 int ，和前四个函数有区别，前四个直接返回 bool。 |
-
-##### 4. 复合表达式
-
-多个判断表达式，可以使用逻辑操作符(&&、||、!)来组合。
-比如下面的表达式表示获取北京市安装的并且电压值大于 200 的智能表数据。
-
-> location.starts_with("beijing") && voltage > 200
-
-### 4 映射
-
-映射是将解析、提取、拆分的**源字段**对应到**目标表字段**，可以直接对应，也可以通过一些规则计算后再映射到目标表。
-
-#### 4.1 选择目标超级表
-
-选择目标超级表后，会加载出超级表所有的 tags 和 columns。
-源字段根据名称自动使用 mapping 规则映射到目标超级表的 tag 和 column。
-例如有如下解析、提取、拆分后的预览数据：
-
-#### 4.2 映射规则 <a name="expression"></a>
-
-支持的映射规则如下表所示：
-
-|rule|description|
-|:----|:----|
-| mapping | 直接映射，需要选择映射源字段。|
-| value | 常量，可以输入字符串常量，也可以是数值常量，输入的常量值直接入库。|
-| generator | 生成器，目前仅支持时间戳生成器 now，入库时会将当前时间入库。|
-| join | 字符串连接器，可指定连接字符拼接选择的多个源字段。|
-| format | **字符串格式化工具**，填写格式化字符串，比如有三个源字段 year, month, day 分别表示年月日，入库希望以yyyy-MM-dd的日期格式入库，则可以提供格式化字符串为 `${year}-${month}-${day}`。其中`${}`作为占位符，占位符中可以是一个源字段，也可以是 string 类型字段的函数处理|
-| sum | 选择多个数值型字段做加法计算。|
-| expr | **数值运算表达式**，可以对数值型字段做更加复杂的函数处理和数学运算。|
-
-##### 1. format 中支持的字符串处理函数
-
-|Function|description|e.g.|
-|:----|:----|:----|
-| pad(len, pad_chars) | pads the string with a character or a string to at least a specified length | "1.2".pad(5, '0') // 结果为"1.200" |
-|trim|trims the string of whitespace at the beginning and end|"  abc ee ".trim() // 结果为"abc ee"|
-|sub_string(start_pos, len)|extracts a sub-string，两个参数：<br />1. start position, counting from end if < 0<br />2. (optional) number of characters to extract, none if ≤ 0, to end if omitted|"012345678".sub_string(5)  // "5678"<br />"012345678".sub_string(5, 2)  // "56"<br />"012345678".sub_string(-2)  // "78"|
-|replace(substring, replacement)|replaces a sub-string with another|"012345678".replace("012", "abc") // "abc345678"|
-
-##### 2. expr 数学计算表达式
-
-基本数学运算支持加`+`、减`-`、乘`*`、除`/`。
-
-比如数据源采集数值以设置度为单位，目标库存储华氏度温度值。那么就需要对采集的温度数据做转换。
-
-解析的源字段为`temperature`，则需要使用表达式 `temperature * 1.8 + 32`。
-
-数值表达式中也支持使用数学函数，可用的数学函数如下表所示：
-
-|Function|description|e.g.|
-|:----|:----|:----|
-|sin、cos、tan、sinh、cosh|Trigonometry|a.sin()   |
-|asin、acos、atan、 asinh、acosh|arc-trigonometry|a.asin()|
-|sqrt|Square root|a.sqrt()  // 4.sqrt() == 2|
-|exp|Exponential|a.exp()|
-|ln、log|Logarithmic|a.ln()   // e.ln()  == 1<br />a.log()  // 10.log() == 1|
-|floor、ceiling、round、int、fraction|rounding|a.floor() // (4.2).floor() == 4<br />a.ceiling() // (4.2).ceiling() == 5<br />a.round() // (4.2).round() == 4<br />a.int() // (4.2).int() == 4<br />a.fraction() // (4.2).fraction() == 0.2|
-
-#### 4.3 子表名映射
-
-子表名类型为字符串，可以使用映射规则中的字符串格式化 format 表达式定义子表名。
--- a/docs/zh/06-advanced/05-data-in/index.md
+++ b/docs/zh/06-advanced/05-data-in/index.md
@ -8,6 +8,10 @@ toc_max_heading_level: 4

 TDengine Enterprise 配备了一个强大的可视化数据管理工具—taosExplorer。借助 taosExplorer，用户只须在浏览器中简单配置，就能轻松地向 TDengine 提交任务，实现以零代码方式将来自不同数据源的数据无缝导入 TDengine。在导入过程中，TDengine 会对数据进行自动提取、过滤和转换，以保证导入的数据质量。通过这种零代码数据源接入方式，TDengine 成功转型为一个卓越的时序大数据汇聚平台。用户无须部署额外的 ETL 工具，从而大大简化整体架构的设计，提高了数据处理效率。

+下图展示了零代码接入平台的系统架构。
+
+![零代码数据接入架构图](./data-in.png)
+
 ## 支持的数据源

 目前 TDengine 支持的数据源如下：
@ -32,9 +36,221 @@ TDengine Enterprise 配备了一个强大的可视化数据管理工具—taosEx
 3. 过滤：只有表达式的值为 true 时，消息才会被写入 TDengine
 4. 转换：建立解析后的字段和 TDengine 超级表字段之间的转换与映射关系。

-下图展示了零代码接入平台的系统架构。
+下面详细讲解数据转换规则

-![零代码数据接入架构图](./data-in.png)
+
+### 解析
+
+仅非结构化的数据源需要这个步骤，目前 MQTT 和 Kafka 数据源会使用这个步骤提供的规则来解析非结构化数据，以初步获取结构化数据，即可以以字段描述的行列数据。在 explorer 中您需要提供示例数据和解析规则，来预览解析出以表格呈现的结构化数据。
+
+#### 示例数据
+
+![示例数据](./pic/transform-01.png)
+
+如图，textarea 输入框中就是示例数据，可以通过三种方式来获取示例数据：
+
+1. 直接在 textarea 中输入示例数据；
+2. 点击右侧按钮 “从服务器检索” 则从配置的服务器获取示例数据，并追加到示例数据 textarea 中；
+3. 上传文件，将文件内容追加到示例数据 textarea 中。
+
+#### 解析<a name="parse"></a>
+
+解析就是通过解析规则，将非结构化字符串解析为结构化数据。消息体的解析规则目前支持 JSON、Regex 和 UDT。
+
+##### JSON 解析
+
+如下 JSON 示例数据，可自动解析出字段：`groupid`、`voltage`、`current`、`ts`、`inuse`、`location`。
+
+``` json
+{"groupid": 170001, "voltage": "221V", "current": 12.3, "ts": "2023-12-18T22:12:00", "inuse": true, "location": "beijing.chaoyang.datun"}
+{"groupid": 170001, "voltage": "220V", "current": 12.2, "ts": "2023-12-18T22:12:02", "inuse": true, "location": "beijing.chaoyang.datun"}
+{"groupid": 170001, "voltage": "216V", "current": 12.5, "ts": "2023-12-18T22:12:04", "inuse": false, "location": "beijing.chaoyang.datun"}
+```
+
+如下嵌套结构的 JSON 数据，可自动解析出字段`groupid`、`data_voltage`、`data_current`、`ts`、`inuse`、`location_0_province`、`location_0_city`、`location_0_datun`，也可以选择要解析的字段，并设置解析的别名。
+
+``` json
+{"groupid": 170001, "data": { "voltage": "221V", "current": 12.3 }, "ts": "2023-12-18T22:12:00", "inuse": true, "location": [{"province": "beijing", "city":"chaoyang", "street": "datun"}]}
+```
+
+![JSON 解析](./pic/transform-02.png)
+
+##### Regex 正则表达式<a name="regex"></a>
+
+可以使用正则表达式的**命名捕获组**从任何字符串（文本）字段中提取多个字段。如图所示，从 nginx 日志中提取访问ip、时间戳、访问的url等字段。
+
+``` re
+(?<ip>\b(?:[0-9]{1,3}\.){3}[0-9]{1,3}\b)\s-\s-\s\[(?<ts>\d{2}/\w{3}/\d{4}:\d{2}:\d{2}:\d{2}\s\+\d{4})\]\s"(?<method>[A-Z]+)\s(?<url>[^\s"]+).*(?<status>\d{3})\s(?<length>\d+)
+```
+
+![Regex 解析](./pic/transform-03.png)
+
+##### UDT 自定义解析脚本
+
+自定义 rhai 语法脚本解析输入数据（参考 `https://rhai.rs/book/` ），脚本目前仅支持 json 格式原始数据。
+
+**输入**：脚本中可以使用参数 data, data 是原始数据 json 解析后的 Object Map；
+
+**输出**：输出的数据必须是数组。
+
+例如对于数据，一次上报三相电压值，分别入到三个子表中。则需要对这类数据做解析
+
+``` json
+{
+    "ts": "2024-06-27 18:00:00", 
+    "voltage": "220.1,220.3,221.1", 
+    "dev_id": "8208891"
+}
+```
+
+那么可以使用如下脚本来提取三个电压数据。
+
+```
+let v3 = data["voltage"].split(",");
+
+[
+#{"ts": data["ts"], "val": v3[0], "dev_id": data["dev_id"]},
+#{"ts": data["ts"], "val": v3[1], "dev_id": data["dev_id"]},
+#{"ts": data["ts"], "val": v3[2], "dev_id": data["dev_id"]}
+]
+```
+
+最终解析结果如下所示：
+
+![UDT](./pic/transform-udf.png)
+
+### 提取或拆分
+
+解析后的数据，可能还无法满足目标表的数据要求。比如智能表原始采集数据如下（ json 格式）：
+
+``` json
+{"groupid": 170001, "voltage": "221V", "current": 12.3, "ts": "2023-12-18T22:12:00", "inuse": true, "location": "beijing.chaoyang.datun"}
+{"groupid": 170001, "voltage": "220V", "current": 12.2, "ts": "2023-12-18T22:12:02", "inuse": true, "location": "beijing.chaoyang.datun"}
+{"groupid": 170001, "voltage": "216V", "current": 12.5, "ts": "2023-12-18T22:12:04", "inuse": false, "location": "beijing.chaoyang.datun"}
+```
+
+使用 json 规则解析出的电压是字符串表达的带单位形式，最终入库希望能使用 int 类型记录电压值和电流值，便于统计分析，此时就需要对电压进一步拆分；另外日期期望拆分为日期和时间入库。
+
+如下图所示可以对源字段`ts`使用 split 规则拆分成日期和时间，对字段`voltage`使用 regex 提取出电压值和电压单位。split 规则需要设置**分隔符**和**拆分数量**，拆分后的字段命名规则为`{原字段名}_{顺序号}`，Regex 规则同解析过程中的一样，使用**命名捕获组**命名提取字段。
+
+![拆分和提取](./pic/transform-04.png)
+
+### 过滤<a name="filter"></a>
+
+过滤功能可以设置过滤条件，满足条件的数据行 才会被写入目标表。过滤条件表达式的结果必须是 boolean 类型。在编写过滤条件前，必须确定 解析字段的类型，根据解析字段的类型，可以使用判断函数、比较操作符（`>`、`>=`、`<=`、`<`、`==`、`!=`）来判断。
+
+#### 字段类型及转换
+
+只有明确解析出的每个字段的类型，才能使用正确的语法做数据过滤。
+
+使用 json 规则解析出的字段，按照属性值来自动设置类型：
+
+1. bool 类型："inuse": true
+2. int 类型："voltage": 220
+3. float 类型："current" : 12.2
+4. String 类型："location": "MX001"
+
+使用 regex 规则解析的数据都是 string 类型。
+使用 split 和 regex 提取或拆分的数据是 string 类型。
+
+如果提取出的数据类型不是预期中的类型，可以做数据类型转换。常用的数据类型转换就是把字符串转换成为数值类型。支持的转换函数如下：
+
+|Function|From type|To type|e.g.|
+|:----|:----|:----|:----|
+| parse_int  | string | int | parse_int("56")  // 结果为整数 56 |
+| parse_float  | string | float | parse_float("12.3")  // 结果为浮点数 12.3 |
+
+#### 判断表达式
+
+不同的数据类型有各自判断表达式的写法。
+
+##### BOOL 类型
+
+可以使用变量或者使用操作符`!`，比如对于字段 "inuse": true，可以编写以下表达式：
+
+> 1. inuse
+> 2. !inuse
+
+##### 数值类型（int/float）
+
+数值类型支持使用比较操作符`==`、`!=`、`>`、`>=`、`<`、`<=`。
+
+##### 字符串类型
+
+使用比较操作符，比较字符串。
+
+字符串函数
+
+|Function|Description|e.g.|
+|:----|:----|:----|
+| is_empty  | returns true if the string is empty | s.is_empty() |
+| contains  | checks if a certain character or sub-string occurs in the string | s.contains("substring") |
+| starts_with  | returns true if the string starts with a certain string | s.starts_with("prefix") |
+| ends_with  | returns true if the string ends with a certain string | s.ends_with("suffix") |
+| len  | returns the number of characters (not number of bytes) in the string，must be used with comparison operator | s.len == 5 判断字符串长度是否为5；len作为属性返回 int ，和前四个函数有区别，前四个直接返回 bool。 |
+
+##### 复合表达式
+
+多个判断表达式，可以使用逻辑操作符(&&、||、!)来组合。
+比如下面的表达式表示获取北京市安装的并且电压值大于 200 的智能表数据。
+
+> location.starts_with("beijing") && voltage > 200
+
+### 映射
+
+映射是将解析、提取、拆分的**源字段**对应到**目标表字段**，可以直接对应，也可以通过一些规则计算后再映射到目标表。
+
+#### 选择目标超级表
+
+选择目标超级表后，会加载出超级表所有的 tags 和 columns。
+源字段根据名称自动使用 mapping 规则映射到目标超级表的 tag 和 column。
+例如有如下解析、提取、拆分后的预览数据：
+
+#### 映射规则 <a name="expression"></a>
+
+支持的映射规则如下表所示：
+
+|rule|description|
+|:----|:----|
+| mapping | 直接映射，需要选择映射源字段。|
+| value | 常量，可以输入字符串常量，也可以是数值常量，输入的常量值直接入库。|
+| generator | 生成器，目前仅支持时间戳生成器 now，入库时会将当前时间入库。|
+| join | 字符串连接器，可指定连接字符拼接选择的多个源字段。|
+| format | **字符串格式化工具**，填写格式化字符串，比如有三个源字段 year, month, day 分别表示年月日，入库希望以yyyy-MM-dd的日期格式入库，则可以提供格式化字符串为 `${year}-${month}-${day}`。其中`${}`作为占位符，占位符中可以是一个源字段，也可以是 string 类型字段的函数处理|
+| sum | 选择多个数值型字段做加法计算。|
+| expr | **数值运算表达式**，可以对数值型字段做更加复杂的函数处理和数学运算。|
+
+##### format 中支持的字符串处理函数
+
+|Function|description|e.g.|
+|:----|:----|:----|
+| pad(len, pad_chars) | pads the string with a character or a string to at least a specified length | "1.2".pad(5, '0') // 结果为"1.200" |
+|trim|trims the string of whitespace at the beginning and end|"  abc ee ".trim() // 结果为"abc ee"|
+|sub_string(start_pos, len)|extracts a sub-string，两个参数：<br />1. start position, counting from end if < 0<br />2. (optional) number of characters to extract, none if ≤ 0, to end if omitted|"012345678".sub_string(5)  // "5678"<br />"012345678".sub_string(5, 2)  // "56"<br />"012345678".sub_string(-2)  // "78"|
+|replace(substring, replacement)|replaces a sub-string with another|"012345678".replace("012", "abc") // "abc345678"|
+
+##### expr 数学计算表达式
+
+基本数学运算支持加`+`、减`-`、乘`*`、除`/`。
+
+比如数据源采集数值以设置度为单位，目标库存储华氏度温度值。那么就需要对采集的温度数据做转换。
+
+解析的源字段为`temperature`，则需要使用表达式 `temperature * 1.8 + 32`。
+
+数值表达式中也支持使用数学函数，可用的数学函数如下表所示：
+
+|Function|description|e.g.|
+|:----|:----|:----|
+|sin、cos、tan、sinh、cosh|Trigonometry|a.sin()   |
+|asin、acos、atan、 asinh、acosh|arc-trigonometry|a.asin()|
+|sqrt|Square root|a.sqrt()  // 4.sqrt() == 2|
+|exp|Exponential|a.exp()|
+|ln、log|Logarithmic|a.ln()   // e.ln()  == 1<br />a.log()  // 10.log() == 1|
+|floor、ceiling、round、int、fraction|rounding|a.floor() // (4.2).floor() == 4<br />a.ceiling() // (4.2).ceiling() == 5<br />a.round() // (4.2).round() == 4<br />a.int() // (4.2).int() == 4<br />a.fraction() // (4.2).fraction() == 0.2|
+
+#### 子表名映射
+
+子表名类型为字符串，可以使用映射规则中的字符串格式化 format 表达式定义子表名。

 ## 任务的创建

--- a/docs/zh/07-operation/04-maintenance.md
+++ b/docs/zh/07-operation/04-maintenance.md
@ -94,3 +94,48 @@ split vgroup <vgroup_id>
 但在线更新 `supportVnodes` 不会产生持久化，当系统重启后，允许的最大 vnode 数量仍然由 taos.cfg 中配置的 `supportVnodes` 决定。

 如果通过在线更新或配置文件方式设置的 `supportVnodes` 小于 dnode 当前已经实际存在的 vnode 数量，已经存在的 vnode 不会受影响。但当尝试创建新的 database 时，是否能够创建成功则仍然受实际生效的 `supportVnodes` 参数决定。
+
+## 双副本
+
+双副本是一种特殊的数据库高可用配置，本节对它的使用和维护操作进行特别说明。
+
+### 查看 Vgroups 的状态
+
+通过以下 SQL 命令参看双副本数据库中各 Vgroup 的状态：
+
+```sql
+show arbgroups;
+
+select * from information_schema.ins_arbgroups;
+            db_name             |  vgroup_id  | v1_dnode | v2_dnode | is_sync | assigned_dnode |         assigned_token         |
+=================================================================================================================================
+ db                             |           2 |        2 |        3 |       0 | NULL           | NULL                           |
+ db                             |           3 |        1 |        2 |       0 |              1 | d1#g3#1714119404630#663        |
+ db                             |           4 |        1 |        3 |       1 | NULL           | NULL                           |
+
+```
+is_sync 有以下两种取值：
+- 0: Vgroup 数据未达成同步。在此状态下，如果 Vgroup 中的某一 Vnode 不可访问，另一个 Vnode 无法被指定为 `AssignedLeader` role，该 Vgroup 将无法提供服务。
+- 1: Vgroup 数据达成同步。在此状态下，如果 Vgroup 中的某一 Vnode 不可访问，另一个 Vnode 可以被指定为 `AssignedLeader` role，该 Vgroup 可以继续提供服务。
+
+assigned_dnode：
+- 标识被指定为 AssignedLeader 的 Vnode 的 DnodeId
+- 未指定 AssignedLeader时，该列显示 NULL
+
+assigned_token：
+- 标识被指定为 AssignedLeader 的 Vnode 的 Token
+- 未指定 AssignedLeader时，该列显示 NULL
+
+### 最佳实践
+
+1. 全新部署
+
+双副本的主要价值在于节省存储成本的同时能够有一定的高可用和高可靠能力。在实践中，推荐配置为：
+- N 节点集群 （其中 N>=3）
+- 其中 N-1 个 dnode 负责存储时序数据
+- 第 N 个 dnode 不参与时序数据的存储和读取，即其上不保存副本；可以通过 `supportVnodes` 这个参数为 0 来实现这个目标
+- 不存储数据副本的 dnode 对 CPU/Memory 资源的占用也较低，可以使用较低配置服务器
+
+2. 从单副本升级
+
+假定已经有一个单副本集群，其结点数为 N (N>=1)，欲将其升级为双副本集群，升级后需要保证 N>=3，且新加入的某个节点的 `supportVnodes` 参数配置为 0。在集群升级完成后使用  `alter database replica 2` 的命令修改某个特定数据库的副本数。
--- a/docs/zh/07-operation/05-monitor.md
+++ b/docs/zh/07-operation/05-monitor.md
@ -4,8 +4,6 @@ title: 运行监控
 toc_max_heading_level: 4
 ---

-## 集群运行监控
-
 为了确保集群稳定运行，TDengine 集成了多种监控指标收集机制，并通 过taosKeeper 进行汇总。taosKeeper负责接收这些数据，并将其写入一个独立的 TDengine 实例中，该实例可以与被监控的 TDengine 集群保持独立。TDengine 中的两个核心组件 taosd （数据库引擎） 和 taosX （数据接入平台）都通过相同的监控架构来实现对其运行时的监控，但各自的监控指标设计有所不同。 

 至于如何获取和使用这些监控数据，用户可以使用第三方的监测工具比如 Zabbix 来获取这些保存的系统监测数据，进而将 TDengine 的运行状况无缝集成到现有的 IT 监控系统中。也可以使用 TDengine 提供的 TDinsight 插件，使用该插件用户可以通过 Grafana 平台直观地展示和管理这些监控信息，如下图所示。这为用户提供了灵活的监控选项，以满足不同场景下的运维需求。
--- a/docs/zh/08-develop/15-high.md
+++ b/docs/zh/08-develop/15-high.md
--- a/docs/zh/14-reference/03-taos-sql/02-database.md
+++ b/docs/zh/14-reference/03-taos-sql/02-database.md
@ -60,7 +60,9 @@ database_option: {
 - PAGES：一个 VNODE 中元数据存储引擎的缓存页个数，默认为 256，最小 64。一个 VNODE 元数据存储占用 PAGESIZE \* PAGES，默认情况下为 1MB 内存。
 - PAGESIZE：一个 VNODE 中元数据存储引擎的页大小，单位为 KB，默认为 4 KB。范围为 1 到 16384，即 1 KB 到 16 MB。
 - PRECISION：数据库的时间戳精度。ms 表示毫秒，us 表示微秒，ns 表示纳秒，默认 ms 毫秒。
- REPLICA：表示数据库副本数，取值为 1、2 或 3，默认为 1; 2 仅在企业版 3.3.0.0 及以后版本中可用。在集群中使用，副本数必须小于或等于 DNODE 的数目。
+- REPLICA：表示数据库副本数，取值为 1、2 或 3，默认为 1; 2 仅在企业版 3.3.0.0 及以后版本中可用。在集群中使用，副本数必须小于或等于 DNODE 的数目。且使用时存在以下限制： 
+  - 暂不支持对双副本数据库相关 Vgroup 进行 SPLITE VGROUP 或 REDISTRIBUTE VGROUP 操作
+  - 单副本数据库可变更为双副本数据库，但不支持从双副本变更为其它副本数，也不支持从三副本变更为双副本
 - WAL_LEVEL：WAL 级别，默认为 1。
  - 1：写 WAL，但不执行 fsync。
  - 2：写 WAL，而且执行 fsync。