時系列データ入門ガイド

公開: 2021-09-07

「時間」は、データの蓄積に関して重要な変数です。 時系列分析では、時間はデータの重要な要素です。

時系列データとは何ですか?

時系列データとは、時間順に並べられた一連のデータポイントを指します。 これは、一連の観測値の間に順序依存性を導入します。 時系列は、今日のデータ駆動型の世界に遍在しています。 すべてのイベントが時間の矢をたどるので、私たちはさまざまな時系列データと絶えず相互作用しています。

時系列は通常、一定の時間間隔で生成されると想定され、定期的な時系列と呼ばれます。 ただし、その時系列内のデータを定期的に生成する必要はありません。 このようなインスタンスには、データが時間的に段階的なシーケンスに従う不規則な時系列が含まれます。 これは、測定が定期的に行われない可能性があることを意味します。 ただし、データは離散時間間隔で、またはバーストとして生成される場合があります。 ATMの引き出しや口座の預金は、不規則な時系列の例です。

技術的には、時系列では、1つ以上の変数が特定の期間にわたって変化します。 単一の変数が時間とともに変化する場合、それは単変量時系列と呼ばれます。 たとえば、部屋の温度を1秒ごとに測定するセンサーについて考えてみます。 ここでは、すべての瞬間(つまり、2番目)に1次元の温度値のみが生成されます。 逆に、複数の変数が時間の経過とともに変化する場合、それは多変量時系列と呼ばれます。 たとえば、銀行の経済学について考えてみましょう。 このような場合、多変量時系列を使用して、レポレートなどの1つの変数に対するポリシーの変更が、他の変数にどのように影響するかを理解します(つまり、商業銀行のローン支払い)。

時系列データは、金融、地質学、気象学、製造業からコンピューティング、IoT、物理学、社会科学に至るまで、あらゆる分野でその用途が見出されます。 天候の変化、出生率、死亡率、市場の変動、ネットワークパフォーマンス、およびその他の多くのアプリケーションを追跡するために使用されます。 その主なユースケースには、監視、予測、異常検出などがあります。 たとえば、時系列予測は、データベース管理システムの人気を判断する上で重要な役割を果たします。 下の図は、時系列プロットで、長年(2019-2021)にわたってDBMSの人気が高まっていることを示しています。

https://www.influxdata.com/time-series-database/

時系列の主要コンポーネント

時系列の観測値に影響を与える要因は、それらの主要なコンポーネントとして扱われます。 コンポーネントの3つのカテゴリは次のとおりです。

  1. トレンドまたは長期的な動き
  2. 短期的な動き
    1. 季節変動
    2. 周期的変動
  3. ランダムまたは不規則な動き

傾向

データが長期間にわたって増加または減少する傾向は、傾向または長期的な要素と呼ばれます。 ただし、上向きまたは下向きの動きは、特定の期間にわたって必ずしも同じ方向である必要はないことに注意することが重要です。

傾向は、時間のさまざまなセクションで上昇、下降、または安定したままになる可能性があります。 ただし、全体的な傾向は、常に上向き、下向き、または安定したパターンと同じである必要があります。 このような移動傾向は、農業生産性、死亡率、製造された装置、工場の数などの例で明らかです。

線形および非線形トレンド

時系列値を時間に対してグラフにプロットすると、データクラスタリングのパターンに基づいた傾向のタイプが明らかになります。 データクラスターがほぼ直線の周りにある場合、その傾向は線形傾向と呼ばれます。 それ以外の場合、2つの変数間の変化の比率が安定または一定ではないため、データクラスターパターンは非線形の傾向を示します。 したがって、このような傾向は曲線相関とも呼ばれます。

短期的な動き

時系列では、これらのコンポーネントは一定期間にわたって繰り返される傾向があります。 それらは不規則な短いバーストを持ち、研究中の変数に影響を与えます。 短期的な動きの下での2つのカテゴリタイプは次のとおりです。

季節変動

これらのバージョンは、1年未満の期間にわたって定期的かつ定期的に動作します。 それらは、12か月の期間中に類似またはほぼ同じパターンを持つ傾向があります。 データが定期的に、つまり、毎時、毎日、毎週、毎月、または四半期ごとに記録される場合、このような変動は時系列の一部になります。

季節変動は、人工または自然発生のいずれかです。 さまざまな季節や気候条件が、このような変動に重要な役割を果たします。 たとえば、作物の生産は完全に季節に依存しています。 同様に、傘やレインコートの市場は雨季によって異なりますが、クーラーやACユニットの販売は夏季にピークになります。

人工の大会には、お祭り、パーティー、結婚などの行事が含まれます。 このような短期間の出来事は毎年繰り返されます。

周期的変動

1年以上の期間にわたって動作する傾向がある時系列変動は、周期的変動と呼ばれます。 ビジネスの場合、1つの完全な期間が「ビジネスサイクル」と見なされます。 業績の急上昇または低下は、経済構造、経営管理、およびその他の相互作用する力などのさまざまな要因によって異なります。 これらの周期的なビジネスの変動は定期的ですが、定期的ではない場合があります。 一般的に、企業は繁栄、不況、不況、そして復活からなる4段階の循環プロセスを経ます。

ビジネス開発は生成された「シーケンシャルデータポイント」に大きく依存しているため、このような周期的な変動は時系列パターンに不可欠です。

ランダムまたは不規則な動き

ランダムな成分は、観測中の変数に大きな変動を引き起こします。 これらは、パターンが設定されていない純粋に不規則な変動です。 力は、たとえば、地震、洪水、飢饉、その他の災害など、予期せぬ、予測不可能な、不安定な性質のものです。

上記のランダムイベントは、ソースの時系列データを使用して分析され、将来発生する可能性のあるこのような実際のシナリオにより適切に対処します。

時系列の種類

時系列データは、決定論的、非決定論的、定常、および非定常の4つのタイプに分けることができます。 それぞれのタイプを詳しく見ていきましょう。

#1。 決定論的時系列

決定論的時系列は、分析式で記述できます。 ランダムまたは確率的な側面は含まれません。 数学的には、テイラー級数展開の観点から、すべての時間間隔で正確に表現できます。 これは、そのすべての派生物が任意の時点でわかっている場合に可能です。 これらの派生物は、その時点での過去と未来を明示的に指定します。 すべての条件が満たされれば、その将来の振る舞いを正確に予測し、過去の振る舞いを分析することができます。

#2。 非決定論的時系列

非決定論的時系列には、明示的な記述を妨げるランダムな側面が関連付けられています。 したがって、分析式は、そのような時系列を表現するのに十分な解決策ではありません。 時系列は、次の理由により非決定的である可能性があります。

  1. それを説明するために必要な情報は、完全には入手できません。 データは原則として存在する可能性がありますが、明示的に定量化できるものとして扱うことはできません。
  2. データ生成プロセスは本質的にランダムです。

ランダムな要因により、非決定論的時系列は確率論的法則に従います。 したがって、データは統計用語で扱われます。つまり、データは確率分布とさまざまな形式の平均によって定義されます。 これには、分散の平均と測定値、つまり分散が含まれます。

#3。 定常時系列

定常時系列では、平均、分散などの統計的特性は時間的側面に依存しません。 定常時系列は、その統計的特性が過去に観察されたものと同じままであると確実に述べることができるため、予測が容易です。 したがって、さまざまな統計的予測方法は、時系列がほぼ定常であるという議論に基づいています。 これは、単純な数学的変換を適用することにより、時系列を近似的に定常と見なすことができることを意味します。

#4。 非定常時系列

非定常系列では、統計的特性は時間とともに変化します。 したがって、傾向と季節性が異なる時間間隔で時系列の値に影響を与える可能性があるため、傾向または季節性のある時系列は非定常カテゴリに分類されます。 非定常時系列は、予測不可能なデータを記述し、モデル化または予測を妨げます。

https://www.oreilly.com/library/view/hands-on-machine-learning/9781788992282/15c9cc40-bea2-4b75-902f-2e9739fec4ae.xhtml

時系列分析と予測

時系列分析と予測は、さまざまな種類の重要なプロセスとオブジェクトの進化とダイナミクスを観察、分析、および調査するための便利なツールです。 それぞれをさらに詳しく見ていきましょう。

時系列分析

時系列分析は、一定期間にわたって収集されたデータを分析するプロセスとして定義されます。 ここで、データアナリストは、一定の期間にわたって一定の間隔でデータを記録します。 データ観測率、つまり時間間隔は、数秒から数年まで変化する可能性があります。

時系列データは、特定の期間にわたる変動パターンの詳細な分析を提供するため、検査中の変数を記述します。 分析に必要なパラメータは、ドメインや分野によって異なる場合があります。 例には次のものが含まれます。

  • 科学機器– 1日あたりに記録されたデータ
  • 商用Webサイト– 1日あたりの顧客訪問
  • 株式市場–週あたりの株価
  • 季節–年間雨の日

一貫性と信頼性を確保するために、時系列分析は大量のデータポイントで動作します。 適切なサンプルサイズは、発見された傾向またはパターンの信憑性を微妙に表したものです。

さらに、時系列分析は、過去に記録されたデータに基づいて将来のイベントを予測するのにも適しています。

時系列予測

時系列分析により、組織は時間の経過に伴う傾向の変動の根本原因を特定できます。 データが手元にあれば、企業はさらに調査および調査して、なじみのない傾向に取り組み、今後のイベントを予測する方法をよりよく理解できます。 企業は通常、データの視覚化技術を使用して、データのそのような異常を判断します。

時系列予測は、次の2つの重要な要素を中心に展開されます。

  1. 過去のデータの動作に基づいて、将来の出来事を予測します。
  2. 今後の傾向は、過去のデータパターンと類似していると想定します。

予測では、主な目的は、データポイントが今後も同じままであるか、変化するかを本質的に予測することです。 時系列分析と予測のニュアンスをよりよく理解するために、さまざまな業界セクターからのいくつかの例を次に示します。

  • 株式市場–毎日の終値を予測します。
  • 売上–店舗の毎日の製品売上を予測します。
  • 価格設定–毎日の平均燃料価格を予測します。

時系列予測に使用される一般的な統計手法には、単純移動平均(SMA)、指数平滑化(SES)、自己回帰和分移動平均(ARIMA)、およびニューラルネットワーク(NN)が含まれます。

クラウドの時系列データ

時系列データの価値を明らかにするには、企業はデータをすばやく保存してクエリできる必要があります。 資本市場企業は、リアルタイムのデータ分析を採用し、影響力のあるビジネス上の意思決定を行うために、大量の履歴データとストリーミングデータに依存しています。 これには、株価の脆弱性の予測、純資本要件の決定、または為替レートの予測が含まれる場合があります。 柔軟性を提供し、データをシームレスに処理するために、多くの企業は時系列データベースのクラウドへの移行を選択しています。

時系列データベースをクラウドに移行することで、組織はオンデマンドで無制限のリソースにアクセスできるようになります。 これにより、企業は数百のコアを利用して、遅延の問題なしにネットワークスループットを最大化するタスクを実行できます。

クラウドインフラストラクチャの時系列データベースは、コンピューティングを多用するワークロードに適しています。 これには、リアルタイムの市場動向に応じたリスク計算の実行が含まれます。 金融会社は、データセンターのオーバーヘッドをなくし、リソースを利用してワークロードの生産性を向上させることに専念できます。

AWSなどのクラウドベンダーは、時系列データセットの読み込み、保存、分析を簡単に行える時系列データベースサービスであるAmazonTimestreamを提供しています。 これらは、トランザクション集約型のワークロードを管理するためのストレージ、リアルタイム分析ツール、およびイベントが発生したときにイベントを機能させるためのデータストリーミング機能を提供します。

したがって、クラウドインフラストラクチャは、時系列データの利点を増幅およびスケーリングします。

時系列のアプリケーション

時系列モデルには2つの目的があります。

  1. 特定のパターンのデータを生成した根本的な要因を理解します。
  2. 分析に基づいて、モデルを予測および監視に適合させます。

時系列データのアプリケーションのユースケースのいくつかを見てみましょう。

#1。 金融およびビジネスドメインの時系列

すべての財務、ビジネス、および投資の決定は、現在の市場動向と需要予測に基づいて行われます。 時系列データは、動的な金融市場を説明、相関、および予測するために使用されます。 財務専門家は、財務データを調べて、リスクの軽減、価格設定と取引の安定化に役立つアプリケーションの予測を行うことができます。

時系列分析は、財務分析において重要な役割を果たします。 金利予測、株式市場のボラティリティの予測などに使用されます。 ビジネスの利害関係者と政策立案者は、製造、購入、リソースの割り当てについて情報に基づいた意思決定を行い、ビジネス運営を最適化することができます。

この分析は、投資セクターで効果的に使用され、セキュリティ率とその変動を経時的に監視します。 証券価格は、短期(つまり、1時間または1日あたりの記録データ)または長期(つまり、数か月または数年にわたる観察)でも観察できます。 時系列分析は、セキュリティ、資産、または経済変数が長期間にわたってどのように機能するかを追跡するための便利なツールです。

#2。 医療分野の時系列

ヘルスケアは、データ駆動型の分野として急速に台頭しています。 財務分析とビジネス分析に加えて、医療分野では時系列分析を大いに活用しています。

がん患者を治療する際に、時系列データ、医学的に調整された手順、およびデータマイニング技術の相乗効果を必要とするシナリオを考えてみましょう。 このようなハイブリッドフレームワークを使用して、収集された時系列データ(つまり、患者のX線画像)から特徴抽出機能を利用して、医療友愛によって提供される治療に対する患者の進行状況と応答を追跡できます。

ヘルスケア分野では、絶えず変化する時系列データから推論を導き出すことが非常に重要です。 さらに、高度な医療行為では、患者の健康状態をよりよく把握するために、患者の記録を時間の経過とともに接続する必要があります。 また、患者の健康状態をより明確に把握するには、患者の健康パラメータを定期的に正確に記録する必要があります。

高度な医療機器が前面に出てきたことで、時系列分析はヘルスケア分野での地位を確立しました。 以下の例を検討してください。

  • ECGデバイス:心臓の電気パルスを記録することによって心臓の状態を監視するために発明されたデバイス。
  • EEGデバイス:脳内の電気的活動を定量化するために使用されるデバイス。

このようなデバイスにより、開業医は時系列分析を実行して、より速く、効果的で、正確な医療診断を行うことができます。

さらに、ウェアラブルセンサーやポータブルヘルスケアデバイスなどのIoTデバイスの出現により、人々は最小限の入力で時間の経過とともに健康変数を定期的に測定できるようになりました。 これにより、病気の人と健康な人の両方の時間依存の医療データの一貫したデータ収集が可能になります。

#3。 天文学の時系列

天文学と天体物理学は、時系列データが大幅に活用されている2つの現代的な分野です。

基本的に、天文学には、宇宙の物体の軌道と天体をプロットし、正確な測定を実行して、地球の大気を超えた宇宙をよりよく理解することが含まれます。 この要件により、天文学の専門家は、複雑な機器のキャリブレーションと構成、および対象の天体の研究を行いながら、時系列データを処理することに熟練しています。

時系列データは長い間天文学の分野に関連付けられてきました。 紀元前800年には、黒点の時系列データが定期的に収集されました。 それ以来、時系列分析は

  • 恒星の距離に基づいて遠くの星を発見し、
  • 超新星などの宇宙の出来事を観察して、私たちの宇宙の起源をよりよく理解してください。

この場合の時系列データは、星、天体、または物体から放出される光の波長と強度に関連しています。 天文学者は、このようなライブストリーミングデータを絶えず監視して、宇宙の出来事が発生したときにリアルタイムで検出します。

最近では、データマイニング、機械学習、計算知能、統計などのさまざまな分野を融合させた、宇宙情報学や宇宙統計学などの研究分野が出現しています。 これらの新しい研究分野では、時系列データの役割は、天体を迅速かつ効率的に検出して分類することです。

#4。 天気予報の時系列

アリストテレスは、古代の気象変化で観察された原因と影響をよりよく理解するために、気象パターンを広範囲に研究しました。 日が進むにつれて、科学者は大気変数を計算するために「気圧計」などの機器に気象関連のデータを記録し始めました。 データは定期的に収集され、さまざまな場所に保管されました。

やがて、天気予報が新聞に取り上げられるようになりました。 今日の時代に早送りすると、世界中のさまざまな地域にユビキタス天気予報ステーションが設置され、正確な気象変数が収集されます。

このようなステーションには、さまざまな場所から気象データを収集して相互に関連付けるために相互接続された高度な機能デバイスがあります。 相関データは、要件に応じて、すべての時点で気象条件を予測するために使用されます。

#5。 事業開発における時系列

時系列データにより、企業はビジネス上の意思決定を行うことができます。 これは、プロセスが過去のデータを分析して将来のイベントを導き出し、可能性のある可能性に光を当てることで達成されます。 過去のデータパターンは、次のパラメータを導出するために使用されます。

  • ビジネスの成長:全体的な財務およびビジネスのパフォーマンスを評価し、成長を測定するには、時系列データが最も適切で信頼できる資産です。
  • 傾向の推定:さまざまな時系列手法を使用して、新たな傾向を推定できます。 たとえば、これらの方法で一定期間のデータ観測を分析して、特定の電子機器の売上の増減を反映するとします。
  • 季節パターンの明らかに:記録されたデータポイントは、データ予測に役立つ可能性のある変動と季節パターンを明らかにする可能性があります。 得られたデータ情報は、製品価格が季節的に変動する市場にとって重要な役割を果たします。 このようなデータは、企業がより良い製品計画と開発を行うのに役立つ可能性があります。

結論

要約すると、時系列データは、一定期間にわたって収集された複雑なデータポイントの特性と見なすことができます。 時系列分析、モデリング、および予測は、IoTガジェット、スマート家電、およびポータブルデバイスの出現により、私たちの日常生活の不可欠な部分になっています。 さらに、時系列データは、ヘルスケア、天体物理学、経済学、工学、ビジネスなど、さまざまな分野での応用が見出されています。