From 6c8881681e3b9327f15b7ef56384c91f75462733 Mon Sep 17 00:00:00 2001
From: Haojun Liao <hjxilinx@users.noreply.github.com>
Date: Thu, 31 Oct 2024 20:03:38 +0800
Subject: [PATCH] Update 03-anomaly-detection.md

---
 .../06-data-analysis/03-anomaly-detection.md  | 53 ++++++++++---------
 1 file changed, 27 insertions(+), 26 deletions(-)

diff --git a/docs/zh/06-advanced/06-data-analysis/03-anomaly-detection.md b/docs/zh/06-advanced/06-data-analysis/03-anomaly-detection.md
index afa895f336..2c55411d59 100644
--- a/docs/zh/06-advanced/06-data-analysis/03-anomaly-detection.md
+++ b/docs/zh/06-advanced/06-data-analysis/03-anomaly-detection.md
@@ -3,35 +3,36 @@ title: "Anomaly-detection"
 sidebar_label: "Anomaly-detection"
 ---
 
-本节讲述 HoltWinters 算法模型的使用方法。
+本节讲述 异常检测 算法模型的使用方法。
 
-## 功能概述
-HoltWinters模型又称为多次指数平滑模型（EMA）。对含有线性趋势和周期波动的非平稳序列适用，利用指数平滑法让模型参数不断适应非平稳序列的变化，并对未来趋势进行**短期**预测。
-HoltWinters有两种不同的季节性组成部分，当季节变化在该时间序列中大致保持不变时，通常选择**加法模型**；而当季节变化与时间序列的水平成比例变化时，通常选择**乘法模型**。
-该模型对于返回数据也不提供计算的置信区间范围结果。在 95% 置信区间的上下界结果与预测结果相同。
+## 概述
+分析平台提供了 6 种异常检查模型，6 种异常检查模型分为 3 个类别，分别属于基于统计的异常检测模型、基于数据密度的检测模型、基于深度学习的异常检测模型。在不指定异常检测使用的方法的情况下，默认调用 iqr 的方法进行计算。
 
 
-### 参数
-分析平台中使用自动化的 ARIMA 模型进行计算，因此每次计算的时候会根据输入的数据自动拟合最合适的模型，然后根据该模型进行预测输出结果。
-|参数名称|说明|必填项|
-|---|---|---|
-|period|	输入时间序列数据每个周期包含的数据点个数。如果不设置该参数或则该参数设置为 0， 将使用一次（简单）指数平滑方式进行数据拟合，并据此进行未来数据的预测|选填|
-|trend|	趋势模型使用加法模型还是乘法模型|选填|
-|seasonal|	季节性采用加法模型还是乘法模型|选填|
+### 统计学异常检测方法
 
-参数 `trend` 和 `seasonal`的均可以选择 `add` （加法模型）或 `mul`（乘法模型）。
+- k-sigma: k-sigma 范围之外的数据是异常点，不指定***k***值，默认为3， 即序列均值的 3 倍标准差范围为边界，超过边界的是异常值。KSigma 要求数据整体上服从正态分布，则如果一个点偏离均值K倍标准差，则该点被视为异常点.
+  
+|参数名称|说明|是否必选|默认值|
+|---|---|---|---|
+|k|标准差倍数|选填|3|
 
-### 返回结果
-```json5
-{
-"rows": rows,  //  结果的行数
-"period": period,  // 返回结果的周期性， 该结果与输入的周期性相同，如果没有周期性，该值为 0
-"algo": 'holtwinters'  // 返回结果使用的计算模型
-"mse":mse,   // 最小均方误差（minmum square error）
-"res": res   // 具体的结果，按照列形式返回的结果。一般意义上包含了 两列[timestamp][fc_results]。
-}
-```
 
-### 算法详细解释
-- https://en.wikipedia.org/wiki/Exponential_smoothing
-- https://orangematter.solarwinds.com/2019/12/15/holt-winters-forecasting-simplified/
+- iqr：四分位距 (IQR) 是一种衡量变异性的方法. 四分位数将一个按等级排序的数据集划分为四个相等的部分。即 Q1（第 1 个四分位数）、Q2（第 2 个四分位数）和 Q3（第 3 个四分位数）。IQR 定义为 Q3–Q1，位于 Q3+1.5 。无输入参数。
+
+- grubbs: 格拉布斯的算法，也称为最大标准残差测试。Grubbs 通常用作检验最大值、最小值偏离均值的程度是否为异常，该单变量数据集遵循近似标准正态分布。非正态分布数据集不能使用该方法。无输入参数。
+
+- SHESD： 带有季节性的 ESD 检测算法。ESD 可以检测时间序列数据的多异常点。需要指定异常点比例的upper bound是k，最差的情况是至多49.9%。实际中，数据集的异常比例一般不超过5%
+
+### 基于数据密度的检测方法
+LOF: 局部离群因子(LOF，又叫局部异常因子)算法是Breunig于2000年提出的一种基于密度的局部离群点检测算法，该方法适用于不同类簇密度分散情况迥异的数据。根据数据点周围的数据密集情况，首先计算每个数据点的一个局部可达密度，然后通过局部可达密度进一步计算得到每个数据点的一个离群因子，该离群因子即标识了一个数据点的离群程度，因子值越大，表示离群程度越高，因子值越小，表示离群程度越低。最后，输出离群程度最大的top(n)个点。
+
+
+### 基于深度学习的检测方法
+使用自动编码器的异常检测模型。可以对具有周期性的数据具有较好的检测结果。但是使用该模型需要针对输入的时序数据进行训练，同时将训练完成的模型部署到服务目录中，才能够运行与使用。
+
+
+### 参考文献
+- Hochenbaum, O. S. Vallis, and A. Kejariwal. 2017. Automatic Anomaly Detection in the Cloud Via Statistical Learning. arXiv preprint arXiv:1704.07706 (2017).
+- Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. pp. 93–104. doi:10.1145/335191.335388. ISBN 1-58113-217-4.
+