时间序列数据介绍指南

已发表: 2021-09-07

“时间”是数据积累的关键变量。 在时间序列分析中,时间是数据的一个重要元素。

什么是时间序列数据?

时间序列数据是指按时间排序的一系列数据点。 它在一组观察值之间引入了顺序依赖性。 时间序列在当今数据驱动的世界中无处不在。 由于每个事件都遵循时间箭头,我们不断与各种时间序列数据进行交互。

时间序列通常假设以规则的时间间隔生成,称为规则时间序列。 但是,该时间序列内的数据不需要定期生成。 此类实例包含不规则时间序列,其中数据遵循时间上的定相序列。 这意味着可能不会定期进行测量。 但是,数据可能以离散的时间间隔或突发的形式生成。 ATM 取款或账户存款是不规则时间序列的例子。

从技术上讲,在时间序列中,一个或多个变量在给定的时间段内发生变化。 如果单个变量随时间变化,则称为单变量时间序列。 例如,考虑每秒测量房间温度的传感器。 这里,在每一时刻(即,秒)仅产生一维温度值。 相反,当多个变量随时间变化时,称为多元时间序列。 例如,考虑银行经济学。 在这种情况下,多变量时间序列被用来理解一个变量的政策变化,如回购利率,如何影响其他变量(即商业银行的贷款支付)。

时间序列数据可应用于各个学科,从金融、地质、气象、制造到计算、物联网、物理和社会科学。 它用于跟踪天气变化、出生率、死亡率、市场波动、网络性能和许多其他应用程序。 它的一些主要用例包括监控、预测和异常检测。 例如,时间序列预测在确定数据库管理系统的受欢迎程度方面起着至关重要的作用。 下图以时间序列图显示了多年来(2019-2021 年)DBMS 的日益流行。

https://www.influxdata.com/time-series-database/

时间序列的关键组成部分

影响时间序列中观测值的因素被视为它们的关键组成部分。 这三类组件包括:

  1. 趋势或长期走势
  2. 短期走势
    1. 季节性变化
    2. 周期性变化
  3. 随机或不规则运动

趋势

数据在很长一段时间内增加或减少的趋势被称为趋势或长期成分。 然而,重要的是要注意,在给定的时间跨度内,向上或向下的运动不一定是在相同的方向上。

趋势可以在不同的时间段上升、下降或保持稳定。 但是,总体趋势必须始终等于向上、向下或稳定的模式。 这种运动趋势在农业生产力、死亡率、制造的设备、工厂数量等例子中很明显。

线性和非线性趋势

在图表上根据时间绘制时间序列值,可以揭示基于数据聚类模式的趋势类型。 如果数据簇或多或少围绕一条直线,则该趋势被称为线性趋势。 否则,数据集群模式显示非线性趋势,因为两个变量之间的变化比率不稳定或恒定。 因此,这种趋势也称为曲线相关性。

短期走势

在时间序列中,这些组件往往会在一段时间内自我重复。 它们具有不规则的短脉冲并影响正在研究的变量。 短线走势下的两大类包括:

季节性变化

这些版本在不到一年的时间内定期和定期运行。 在 12 个月期间,它们往往具有相似或几乎相同的模式。 如果数据被有规律地记录,即每小时、每天、每周、每月或每季度,这种变化就会成为时间序列的一部分。

季节性变化要么是人为的,要么是自然发生的。 不同的季节或气候条件在这种变化中起着关键作用。 例如,作物生产完全依赖于季节。 同样,雨伞或雨衣的市场取决于雨季,而冷却器和空调装置的销售在夏季达到顶峰。

人为约定包括节日、派对和婚礼等场合。 这种短期事件年复一年地重复发生。

循环变化

倾向于运行超过一年的时间序列变化被称为周期性变化。 对于一个企业来说,一个完整的时期被视为“商业周期”。 经营业绩的高低取决于经济结构、经营管理和其他相互作用的因素等多种因素。 这些周期性的业务变化可能是有规律的,但不是周期性的。 一般来说,企业会经历四个阶段的循环过程,包括繁荣、衰退、萧条和复苏。

这种循环变化是时间序列模式不可或缺的一部分,因为业务开发在很大程度上依赖于生成的“顺序数据点”。

随机或不规则运动

随机分量会导致被观察变量的显着变化。 这些纯粹是不规则的波动,没有任何固定模式。 这些力量在本质上是不可预见的、不可预测的和不稳定的——例如,地震、洪水、饥荒和其他灾难。

使用源时间序列数据分析上述随机事件,以更好地处理未来可能发生的此类现实场景。

时间序列的类型

时间序列数据可以分为四种类型,确定性、非确定性、平稳和非平稳。 让我们详细看看每种类型。

#1. 确定性时间序列

确定性时间序列可以用解析表达式来描述。 它不涉及随机或概率方面。 在数学上,它可以根据泰勒级数展开对所有时间间隔精确表示。 如果在某个任意时间点知道其所有导数,则这是可能的。 这些衍生品明确指定了当时的过去和未来。 如果所有条件都满足,就可以准确预测其未来的行为并分析其过去的行为。

#2. 非确定性时间序列

非确定性时间序列具有与其相关联的随机方面,这阻止了其显式描述。 因此,解析表达式不是表达这样一个时间序列的足够可行的解决方案。 由于以下原因,时间序列可能是不确定的:

  1. 描述它所需的信息不完整。 尽管原则上可能存在数据,但不能明确地将其视为可量化的。
  2. 数据生成过程本质上是随机的。

由于随机因素,非确定性时间序列服从概率规律。 因此,数据是用统计术语来处理的——这意味着数据是由各种形式的概率分布和平均值定义的。 这包括分散的手段和措施,即方差。

#3. 平稳时间序列

在平稳时间序列中,均值、方差等统计属性不依赖于时间方面。 平稳时间序列更容易预测,因为人们可以肯定地说,它的统计特性将与过去观察到的一样。 因此,各种统计预测方法都基于时间序列几乎是平稳的论点。 这意味着可以通过应用简单的数学变换将时间序列视为近似平稳的。

#4. 非平稳时间序列

在非平稳序列中,统计特性随时间变化。 因此,具有趋势或季节性的时间序列属于非平稳类别,因为趋势和季节性可能会在不同的时间间隔影响时间序列的值。 非平稳时间序列描述了不可预测的数据,从而无法对其进行建模或预测。

https://www.oreilly.com/library/view/hands-on-machine-learning/9781788992282/15c9cc40-bea2-4b75-902f-2e9739fec4ae.xhtml

时间序列分析和预测

时间序列分析和预测是观察、分析和研究生命过程和不同类型对象的演变和动态的便捷工具。 让我们更深入地了解每一个。

时间序列分析

时间序列分析被定义为分析一段时间内收集的数据的过程。 在这里,数据分析师在固定时间段内以恒定间隔记录数据。 数据观察率,即时间间隔,可以从几秒到几年不等。

时间序列数据描述了被检查的变量,因为它提供了特定时间跨度内波动模式的详细分析。 分析所需的参数可能因不同的领域和学科而异。 其中一些示例可能包括:

  • 科学仪器 - 每天记录的数据
  • 商业网站 – 每天的客户访问量
  • 股票市场——每周股票价值
  • 季节——每年的雨天

为确保一致性和可靠性,时间序列分析对大量数据点进行操作。 良好的样本量是所发现趋势或模式真实性的微妙表现。

此外,时间序列分析也适用于根据过去记录的数据预测未来事件。

时间序列预测

时间序列分析使组织能够确定趋势随时间波动的根本原因。 有了手头的数据,企业就可以进一步学习和研究,以更好地了解如何应对不熟悉的趋势和预测即将发生的事件。 公司通常采用数据可视化技术来确定数据中的此类异常。

时间序列预测围绕两个基本因素:

  1. 根据过去的数据行为预测未来发生的事情。
  2. 假设即将到来的趋势将与过去的数据模式相似。

在预测中,主要目标是从本质上预测数据点将如何在未来继续保持不变或变化。 以下是来自不同行业的一些示例,以更好地了解时间序列分析和预测的细微差别。

  • 股票市场 – 预测每天的收盘价。
  • 销售 – 预测商店每天的产品销售情况。
  • 定价 – 预测每天的平均燃油价格。

用于时间序列预测的一些常见统计技术包括简单移动平均 (SMA)、指数平滑 (SES)、自回归积分移动平均 (ARIMA) 和神经网络 (NN)。

云中的时间序列数据

企业要挖掘时间序列数据的价值,就必须具备快速存储和查询数据的能力。 资本市场公司依靠大量历史和流数据来采用实时数据分析并做出有影响力的业务决策。 这可能涉及预测股票价格的脆弱性、确定净资本要求或预测汇率。 为了提供灵活性和无缝处理数据,许多公司选择将他们的时间序列数据库迁移到云端。

随着时间序列数据库迁移到云,组织可以按需访问无限资源。 它允许公司利用数百个内核来完成他们的任务,在没有延迟问题的情况下最大化网络吞吐量。

云基础架构中的时间序列数据库适用于计算密集型工作负载。 这包括根据实时市场趋势进行风险计算。 金融公司可以取消数据中心的开销,零投入地利用资源来提高工作负载的生产力。

AWS 等云供应商提供 Amazon Timestream,这是一种时间序列数据库服务,可以轻松加载、存储和分析时间序列数据集。 它们提供存储来管理事务密集型工作负载、实时分析工具和数据流功能,以在事件发生时以事件为特征。

因此,云基础设施放大和扩展了时间序列数据的优势。

时间序列的应用

时间序列模型有两个目的,

  1. 了解产生某种数据模式的潜在因素。
  2. 根据分析,拟合模型以进行预测和监控。

我们来看看时间序列数据的一些应用用例。

#1. 金融和商业领域的时间序列

所有财务、业务和投资决策都是根据当前的市场趋势和需求预测做出的。 时间序列数据用于解释、关联和预测动态的金融市场。 金融专家可以检查金融数据,为有助于降低风险、稳定定价和交易的应用程序提供预测。

时间序列分析在财务分析中起着关键作用。 它用于利率预测、预测股票市场的波动等等。 业务利益相关者和政策制定者可以就制造、采购、资源分配和优化业务运营做出明智的决策。

这种分析有效地用于投资部门,以监控证券利率及其随时间的波动。 也可以观察短期(即每小时或每天记录数据)或长期(即持续数月或数年的观察)的证券价格。 时间序列分析是一种有用的工具,可用于跟踪证券、资产或经济变量在很长一段时间内的表现。

#2. 医学领域的时间序列

医疗保健正迅速成为一个数据驱动的领域。 除了财务和业务分析之外,医疗领域也在极大地利用时间序列分析。

考虑在治疗癌症患者时需要时间序列数据、医学上一致的程序和数据挖掘技术的协同作用的场景。 可以采用这种混合框架来利用来自收集的时间序列数据(即,患者的 X 射线图像)的特征提取功能来跟踪患者的进展和对医学界提供的治疗的反应。

在医疗保健领域,从不断变化的时间序列数据中得出推论具有重要价值。 此外,先进的医疗实践要求随着时间的推移连接患者记录,以便更好地了解患者的健康状况。 此外,必须定期准确记录患者的健康参数,以便更清晰地了解患者的健康状况。

随着先进医疗仪器的出现,时间序列分析已经在医疗保健领域确立了自己的地位。 考虑下面的例子,

  • 心电图设备:发明的设备通过记录心脏的电脉冲来监测心脏状况。
  • EEG 设备:用于量化大脑电活动的设备。

此类设备使医疗从业者能够进行时间序列分析,以实现更快、有效和准确的医疗诊断。

此外,随着可穿戴传感器和便携式医疗保健设备等物联网设备的出现,人们现在可以以最少的投入定期测量他们的健康变量。 这导致对患病和健康个体的时间相关医疗数据的一致数据收集。

#3. 天文学中的时间序列

天文学和天体物理学是时间序列数据得到显着利用的两个现代学科。

从根本上说,天文学涉及绘制宇宙物体的轨迹和天体,并进行准确的测量,以更好地了解地球大气层以外的宇宙。 由于这一要求,天文专家在校准和配置复杂仪器以及研究感兴趣的天文物体时精通处理时间序列数据。

时间序列数据长期以来一直与天文学领域联系在一起。 公元前 800 年,定期收集太阳黑子时间序列数据。 从那时起,时间序列分析被用于

  • 根据恒星距离发现遥远的恒星,
  • 观察超新星等宇宙事件,以更好地理解我们宇宙的起源。

在这种情况下,时间序列数据与恒星、天体或物体发出的光的波长和强度有关。 天文学家不断监测此类实时流数据,以在发生时实时检测宇宙事件。

近年来,出现了天体信息学和天体统计学等研究领域,它们融合了数据挖掘、机器学习、计算智能和统计学等多种学科。 在这些新的研究领域,时间序列数据的作用是快速有效地检测和分类天文物体。

#4. 预报天气中的时间序列

亚里士多德广泛研究了天气模式,以更好地理解古代天气变化的原因和影响。 随着时间的推移,科学家们开始在诸如“气压计”之类的仪器上记录与天气相关的数据,以计算大气变量。 数据定期收集并保存在不同的位置。

随着时间的推移,最终,天气预报开始出现在报纸上。 快进到今天,无处不在的天气预报站安装在世界各地的不同地区,以收集准确的天气变量。

这些台站具有先进的功能设备,这些设备相互连接以收集和关联来自不同地点的天气数据。 相关数据用于根据要求预测每个时间实例的天气状况。

#5. 业务发展中的时间序列

时间序列数据使企业能够做出业务决策。 这是通过该过程分析过去的数据以推导出未来事件并揭示可能的可能性来实现的。 过去的数据模式用于导出以下参数:

  • 业务增长:为了评估整体财务和业务绩效并衡量增长,时间序列数据是最合适和可靠的资产。
  • 估计趋势:可以采用各种时间序列方法来估计新出现的趋势。 例如,考虑这些方法分析一段时间内的数据观察以反映特定电子设备的销售额的增加或减少。
  • 揭示季节性模式:记录的数据点可以揭示有助于数据预测的波动和季节性模式。 获得的数据信息对于产品价格季节性波动的市场起着关键作用。 这些数据可以帮助企业更好地进行产品规划和开发。

结论

总而言之,时间序列数据可以看作是在恒定时间段内收集的复杂数据点的特征。 随着物联网小工具、智能家电和便携式设备的出现,时间序列分析、建模和预测已成为我们日常生活中不可或缺的一部分。 此外,时间序列数据正在多个领域得到应用,包括医疗保健、天体物理学、经济学、工程、商业等等。