[先前的研究团队,Jihyun Song]
众所周知,麻省理工学院研究团队开发的 TadGAN 算法在通过分析时间序列数据来检测异常方面比以前已知的模型具有更好的性能。
我知道很多研究异常检测的公司目前都在研究在各个领域(金融和航空航天、IT、安全和医疗领域)使用 TadGAN。
当前用于异常检测的最先进的无监督学习方法存在可扩展性和可移植性问题。因此,通过引入基于生成对抗网络(GAN)的无监督学习异常检测方法TadGAN,它具有不同于现有时间序列数据分析方法的惊人效果,并且在各地进行了许多额外的研究.
TadGAN 的工作原理 [学习和预测]
重构数据是基于训练数据构建的,当有新数据进来时,检测之前构建的重构数据和新数据之间的异常,计算异常错误分数,并根据阈值检测异常检测部分。
TadGAN全过程
1. 数据预处理
引入滑动窗口将原始时间序列数据划分为信号段,以获得固定秒数的训练样本。
2.模型训练
Critic X:训练区分真实数据和用生成器替换随机数据获得的数据/ Critic Z:训练区分随机数据和用编码器替换真实数据获得的数据,完成重建数据的构建。
3. 预测
可以看到重建的数据很好地基于原始数据构建。
4. 误差计算
让我们计算实际数据和重建数据之间的差异。 Critic Score 是通过使用之前训练的 Critic score 进行误差计算来表达给定数据与真实事物相似程度的分数。
5. 阈值设置
设置下面的红色错误分数超过阈值的程度并检测异常程度。
6. 异常检测
TadGAN 卓越
Timeseries Anomaly Detection GAN,一种针对时间序列数据异常检测进行优化的GAN模型,其性能优于其他异常检测模型,并在各个领域得到认可。
TadGAN 的局限性和提高性能的方法
性能根据设置有很大差异,根据数据变化的最佳设置值显示为当前模型的限制。
众所周知,没有办法在具有未知异常的未标记数据集上评估模型性能。
为了克服这个问题,如果准备了一个计划来评估性能,通过应用标准来评估异常分数的分布(例如中等本身),则可以进行性能评估。
通过在原始数据中人工生成标记异常情况并根据它们进行优化,可以优化稀有和困难的模型。
我希望在未来基于 TadGAN 的时间序列数据分析方面有进一步的发展,我认为这很困难。
- 参考:markr 2021 线上研讨会