为什么在时间序列数据上使用 AI?





5.00/5 (5投票s)
本系列文章将指导您完成使用 AI 开发一个功能齐全的时序预测器和异常检测器应用程序的步骤。
引言
我们都知道如今 AI 有多流行。有很多关于最常见的 AI 应用的文档和文章:图像分类、对象检测、回归等等。如果您看到有关数据序列的内容,很可能与文本数据有关,用于主题分类或类似的内容。
那么序列数据中的异常检测呢?这绝对需要关注,尤其是对于实时数据,例如来自传感器的时序天气测量数据、股票或加密货币价格,甚至安装在工厂中的传感器。试想一下,能够检测到船用发动机的未来异常——这样您就可以在它崩溃之前关闭它——那不是太棒了吗?
本系列文章将指导您完成使用 AI 开发一个功能齐全的时序预测器和异常检测器应用程序的步骤。我们的预测器/检测器将处理加密货币数据,特别是 比特币。但是,在跟随本系列文章之后,您将能够将您学到的概念和方法应用于任何类似性质的数据类型。
为了充分受益于本系列文章,您应该具备一些 Python、机器学习和 Keras 的技能。整个项目都可以在我的 GitHub 存储库 中找到。您还可以查看完全交互的笔记本 这里 和 这里。
在 AI 背景下理解时序数据
让我们从对时序的简要解释开始。如果您只熟悉传统的机器学习分类和回归问题,那么时序数据会给您带来一点惊喜。它是一种完全不同的建模任务,可能需要一些时间才能熟悉。它的时间结构使观察结果具有一个顺序,这种顺序无法像在任何其他类型的分析中那样处理。
时序数据可以描述为在时间上等距排列的观察序列。这种类型的数据几乎无处不在。您可以在天气信息中找到它,例如作为气象学家,在股票/加密货币价格中找到它,例如作为经济学家或交易员,在心电图中找到它,如果您在医疗领域工作,在地震读数中找到它——以及来自任何类型传感器的数据。想象一下,您可以通过分析它来实现什么,尤其是在 AI 背景下。
让我们看一个例子。下表显示了 此数据集 的前 5 行,其中包含纽约传感器捕获的天气读数。请注意它的索引,并注意它们在时间上是等距的——每天一个记录
每一列代表一个描述每天采样的现象的变量。AWND 对应于平均风速(公里/小时),PRCP 对应于平均降水(毫米),TAVG 对应于以摄氏度为单位测量的平均温度。
让我们在散点图中显示所有可用的 TAVG 数据
如您所见,保留数据点的顺序对于理解其潜在结构至关重要。在这种情况下,它代表一个明显的趋势,如果您不遵守顺序,您不会注意到这一点。
上述概念为多个任务提供了基础,尤其是在数据科学和机器学习领域。试想一下,能够预测明天的天气(预测是根据一系列过去值预测未来值的任务)。无论是要下雨,还是在更高级的情况下,明天的温度是否代表天气历史中的一个异常(异常检测)。
这个想法可以外推到任何类似数据类型的数据。例如,您可以预测明天的比特币价格。它是否代表其市场中的一个异常?如果是,那么根据它做出买入或卖出决定……那不是令人兴奋吗?
下一步
在 下一篇文章 中,我们将讨论基于比特币历史价格的时序数据预处理,用于预测和异常检测任务。敬请关注!
历史
- 2021年2月24日:初始版本