异常检测基本概念和方法

1.异常检测基本概念

异常检测：识别与正常数据不同的数据，与预期行为差异大的数据。

1.1 异常的类别

点异常：指的是少数个体实例是异常的，大多数个体实例是正常的。

条件异常：又称上下文异常，指的是在1. 异常检测基本概念
异常检测：识别与正常数据不同的数据，与预期行为差异大的数据。

1.1异常的类别

点异常：指的是少数个体实例是异常的，大多数个体实例是正常的。

条件异常：又称上下文异常，指的是在特定情境下个体实例是异常的，在其他情境下都是正常的。

群体异常：在群体集合中的个体实例出现异常的情况，而该个体实例自身可能不是异常，在入侵或欺诈检测等应用中，离群点对应于多个数据点的序列，而不是单个数据点。

1.2 异常检测任务分类

有监督：训练集的正例和反例均有标签

无监督：训练集无标签

半监督：在训练集中只有正例，异常实例不参与训练

2. 异常检测基本方法

2.1.1 基于统计学的方法

异常检测的统计学方法的一般思想是：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。

利用统计学方法建立一个模型，然后考虑对象有多大概率可能符合该模型。

2.1.2 线性模型

PCA主成分分析。它的应用场景是对数据集进行降维。降维后的数据能够最大程度地保留原始数据的特征（以数据协方差为衡量标准）。其原理是通过构造一个新的特征空间，把原数据映射到这个新的低维空间里。PCA可以提高数据的计算性能，并且缓解"高维灾难"。

2.1.3 基于邻近度的方法

这类算法适用于数据点的聚集程度高、离群点较少的情况。同时，因为相似度算法通常需要对每一个数据分别进行相应计算，所以这类算法通常计算量大，不太适用于数据量大、维度高的数据。

基于集群（簇）的检测，如DBSCAN等聚类算法。

基于距离的度量，如k近邻算法。

基于密度的度量，如LOF（局部离群因子）算法。

2.2 集成方法

集成是提高数据挖掘算法精度的常用方法。集成方法将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好，一些算法在其他子集上表现很好，然后集成起来使得输出更加鲁棒。集成方法与基于子空间方法有着天然的相似性，子空间与不同的点集相关，而集成方法使用基检测器来探索不同维度的子集，将这些基学习器集合起来。

孤立森林：
孤立森林假设我们用一个随机超平面来切割数据空间，切一次可以生成两个子空间。然后我们继续用随机超平面来切割每个子空间并循环，直到每个子空间只有一个数据点为止。直观上来讲，那些具有高密度的簇需要被切很多次才会将其分离，而那些低密度的点很快就被单独分配到一个子空间了。孤立森林认为这些很快被孤立的点就是异常点。

2.3 机器学习

在有标签的情况下，可以使用树模型（gbdt,xgboost等）进行分类，缺点是异常检测场景下数据标签是不均衡的，但是利用机器学习算法的好处是可以构造不同特征。

Datawhale五月组队学习特定情境下个体实例是异常的，在其他情境下都是正常的。