時間序列數據介紹指南
已發表: 2021-09-07“時間”是數據積累的關鍵變量。 在時間序列分析中,時間是數據的一個重要元素。
什麼是時間序列數據?
時間序列數據是指按時間排序的一系列數據點。 它在一組觀察值之間引入了順序依賴性。 時間序列在當今數據驅動的世界中無處不在。 由於每個事件都遵循時間箭頭,我們不斷與各種時間序列數據進行交互。
時間序列通常假設以規則的時間間隔生成,稱為規則時間序列。 但是,該時間序列內的數據不需要定期生成。 此類實例包含不規則時間序列,其中數據遵循時間上的定相序列。 這意味著可能不會定期進行測量。 但是,數據可能以離散的時間間隔或突發的形式生成。 ATM 取款或賬戶存款是不規則時間序列的例子。
從技術上講,在時間序列中,一個或多個變量在給定的時間段內發生變化。 如果單個變量隨時間變化,則稱為單變量時間序列。 例如,考慮每秒測量房間溫度的傳感器。 這裡,在每一時刻(即,秒)僅產生一維溫度值。 相反,當多個變量隨時間變化時,稱為多元時間序列。 例如,考慮銀行經濟學。 在這種情況下,多變量時間序列被用來理解一個變量的政策變化,如回購利率,如何影響其他變量(即商業銀行的貸款支付)。
時間序列數據可應用於各個學科,從金融、地質、氣象、製造到計算、物聯網、物理和社會科學。 它用於跟踪天氣變化、出生率、死亡率、市場波動、網絡性能和許多其他應用程序。 它的一些主要用例包括監控、預測和異常檢測。 例如,時間序列預測在確定數據庫管理系統的受歡迎程度方面起著至關重要的作用。 下圖以時間序列圖顯示了多年來(2019-2021 年)DBMS 的日益流行。

時間序列的關鍵組成部分
影響時間序列中觀測值的因素被視為它們的關鍵組成部分。 這三類組件包括:
- 趨勢或長期走勢
- 短期走勢
- 季節性變化
- 週期性變化
- 隨機或不規則運動

趨勢
數據在很長一段時間內增加或減少的趨勢被稱為趨勢或長期成分。 然而,重要的是要注意,在給定的時間跨度內,向上或向下的運動不一定是在相同的方向上。
趨勢可以在不同的時間段上升、下降或保持穩定。 但是,總體趨勢必須始終等於向上、向下或穩定的模式。 這種運動趨勢在農業生產力、死亡率、製造的設備、工廠數量等例子中很明顯。
線性和非線性趨勢
在圖表上根據時間繪製時間序列值,可以揭示基於數據聚類模式的趨勢類型。 如果數據簇或多或少圍繞一條直線,則該趨勢被稱為線性趨勢。 否則,數據集群模式顯示非線性趨勢,因為兩個變量之間的變化比率不穩定或恆定。 因此,這種趨勢也稱為曲線相關性。
短期走勢
在時間序列中,這些組件往往會在一段時間內自我重複。 它們具有不規則的短脈衝並影響正在研究的變量。 短線走勢下的兩大類包括:
季節性變化
這些版本在不到一年的時間內定期和定期運行。 在 12 個月期間,它們往往具有相似或幾乎相同的模式。 如果數據被有規律地記錄,即每小時、每天、每週、每月或每季度,這種變化就會成為時間序列的一部分。
季節性變化要么是人為的,要么是自然發生的。 不同的季節或氣候條件在這種變化中起著關鍵作用。 例如,作物生產完全依賴於季節。 同樣,雨傘或雨衣的市場取決於雨季,而冷卻器和空調裝置的銷售在夏季達到頂峰。
人為約定包括節日、派對和婚禮等場合。 這種短期事件年復一年地重複發生。
循環變化
傾向於運行超過一年的時間序列變化被稱為周期性變化。 對於一個企業來說,一個完整的時期被視為“商業周期”。 經營業績的高低取決於經濟結構、經營管理和其他相互作用的因素等多種因素。 這些週期性的業務變化可能是有規律的,但不是周期性的。 一般來說,企業會經歷四個階段的循環過程,包括繁榮、衰退、蕭條和復蘇。
這種循環變化是時間序列模式不可或缺的一部分,因為業務開發在很大程度上依賴於生成的“順序數據點”。
隨機或不規則運動
隨機分量會導致被觀察變量的顯著變化。 這些純粹是不規則的波動,沒有任何固定模式。 這些力量在本質上是不可預見的、不可預測的和不穩定的——例如,地震、洪水、飢荒和其他災難。
使用源時間序列數據分析上述隨機事件,以更好地處理未來可能發生的此類現實場景。
時間序列的類型
時間序列數據可以分為四種類型,確定性、非確定性、平穩和非平穩。 讓我們詳細看看每種類型。
#1. 確定性時間序列
確定性時間序列可以用解析表達式來描述。 它不涉及隨機或概率方面。 在數學上,它可以根據泰勒級數展開對所有時間間隔精確表示。 如果在某個任意時間點知道其所有導數,則這是可能的。 這些衍生品明確指定了當時的過去和未來。 如果所有條件都滿足,就可以準確預測其未來的行為並分析其過去的行為。
#2. 非確定性時間序列
非確定性時間序列具有與其相關聯的隨機方面,這阻止了其顯式描述。 因此,解析表達式不是表達這樣一個時間序列的足夠可行的解決方案。 由於以下原因,時間序列可能是不確定的:
- 描述它所需的信息不完整。 儘管原則上可能存在數據,但不能明確地將其視為可量化的。
- 數據生成過程本質上是隨機的。
由於隨機因素,非確定性時間序列服從概率規律。 因此,數據是用統計術語來處理的——這意味著數據是由各種形式的概率分佈和平均值定義的。 這包括分散的手段和措施,即方差。
#3. 平穩時間序列
在平穩時間序列中,均值、方差等統計屬性不依賴於時間方面。 平穩時間序列更容易預測,因為人們可以肯定地說,它的統計特性將與過去觀察到的一樣。 因此,各種統計預測方法都基於時間序列幾乎是平穩的論點。 這意味著可以通過應用簡單的數學變換將時間序列視為近似平穩的。
#4. 非平穩時間序列
在非平穩序列中,統計特性隨時間變化。 因此,具有趨勢或季節性的時間序列屬於非平穩類別,因為趨勢和季節性可能會在不同的時間間隔影響時間序列的值。 非平穩時間序列描述了不可預測的數據,從而無法對其進行建模或預測。

時間序列分析和預測
時間序列分析和預測是觀察、分析和研究生命過程和不同類型對象的演變和動態的便捷工具。 讓我們更深入地了解每一個。
時間序列分析
時間序列分析被定義為分析一段時間內收集的數據的過程。 在這裡,數據分析師在固定時間段內以恆定間隔記錄數據。 數據觀察率,即時間間隔,可以從幾秒到幾年不等。
時間序列數據描述了被檢查的變量,因為它提供了特定時間跨度內波動模式的詳細分析。 分析所需的參數可能因不同的領域和學科而異。 其中一些示例可能包括:

- 科學儀器 - 每天記錄的數據
- 商業網站 – 每天的客戶訪問量
- 股票市場——每週股票價值
- 季節——每年的雨天
為確保一致性和可靠性,時間序列分析對大量數據點進行操作。 良好的樣本量是所發現趨勢或模式真實性的微妙表現。
此外,時間序列分析也適用於根據過去記錄的數據預測未來事件。
時間序列預測
時間序列分析使組織能夠確定趨勢隨時間波動的根本原因。 有了手頭的數據,企業就可以進一步學習和研究,以更好地了解如何應對不熟悉的趨勢和預測即將發生的事件。 公司通常採用數據可視化技術來確定數據中的此類異常。
時間序列預測圍繞兩個基本因素:
- 根據過去的數據行為預測未來發生的事情。
- 假設即將到來的趨勢將與過去的數據模式相似。
在預測中,主要目標是從本質上預測數據點將如何在未來繼續保持不變或變化。 以下是來自不同行業的一些示例,以更好地了解時間序列分析和預測的細微差別。
- 股票市場 – 預測每天的收盤價。
- 銷售 – 預測商店每天的產品銷售情況。
- 定價 – 預測每天的平均燃油價格。
用於時間序列預測的一些常見統計技術包括簡單移動平均 (SMA)、指數平滑 (SES)、自回歸積分移動平均 (ARIMA) 和神經網絡 (NN)。
雲中的時間序列數據
企業要挖掘時間序列數據的價值,就必須具備快速存儲和查詢數據的能力。 資本市場公司依靠大量歷史和流數據來採用實時數據分析並做出有影響力的業務決策。 這可能涉及預測股票價格的脆弱性、確定淨資本要求或預測匯率。 為了提供靈活性和無縫處理數據,許多公司選擇將他們的時間序列數據庫遷移到雲端。
隨著時間序列數據庫遷移到雲,組織可以按需訪問無限資源。 它允許公司利用數百個內核來完成他們的任務,在沒有延遲問題的情況下最大化網絡吞吐量。
雲基礎架構中的時間序列數據庫適用於計算密集型工作負載。 這包括根據實時市場趨勢執行風險計算。 金融公司可以取消數據中心的開銷,零投入地利用資源來提高工作負載的生產力。
AWS 等雲供應商提供 Amazon Timestream,這是一種時間序列數據庫服務,可以輕鬆加載、存儲和分析時間序列數據集。 它們提供存儲來管理事務密集型工作負載、實時分析工具和數據流功能,以在事件發生時以事件為特徵。
因此,雲基礎設施放大和擴展了時間序列數據的優勢。
時間序列的應用
時間序列模型有兩個目的,
- 了解產生某種數據模式的潛在因素。
- 根據分析,擬合模型以進行預測和監控。
我們來看看時間序列數據的一些應用用例。

#1. 金融和商業領域的時間序列
所有財務、業務和投資決策都是根據當前的市場趨勢和需求預測做出的。 時間序列數據用於解釋、關聯和預測動態的金融市場。 金融專家可以檢查金融數據,為有助於降低風險、穩定定價和交易的應用程序提供預測。
時間序列分析在財務分析中起著關鍵作用。 它用於利率預測、預測股票市場的波動等等。 業務利益相關者和政策制定者可以就製造、採購、資源分配和優化業務運營做出明智的決策。
這種分析有效地用於投資部門,以監控證券利率及其隨時間的波動。 也可以觀察短期(即每小時或每天記錄數據)或長期(即持續數月或數年的觀察)的證券價格。 時間序列分析是一種有用的工具,可用於跟踪證券、資產或經濟變量在很長一段時間內的表現。
#2. 醫學領域的時間序列
醫療保健正迅速成為一個數據驅動的領域。 除了財務和業務分析之外,醫療領域也在極大地利用時間序列分析。
考慮在治療癌症患者時需要時間序列數據、醫學上一致的程序和數據挖掘技術的協同作用的場景。 可以採用這種混合框架來利用來自收集的時間序列數據(即,患者的 X 射線圖像)的特徵提取功能來跟踪患者的進展和對醫學聯誼會提供的治療的反應。
在醫療保健領域,從不斷變化的時間序列數據中得出推論具有重要價值。 此外,先進的醫療實踐要求隨著時間的推移連接患者記錄,以便更好地了解患者的健康狀況。 此外,必須定期準確記錄患者的健康參數,以便更清晰地了解患者的健康狀況。
隨著先進醫療儀器的出現,時間序列分析已經在醫療保健領域確立了自己的地位。 考慮下面的例子,
- 心電圖設備:發明的設備通過記錄心臟的電脈衝來監測心臟狀況。
- EEG 設備:用於量化大腦電活動的設備。
此類設備使醫療從業者能夠進行時間序列分析,以實現更快、有效和準確的醫療診斷。
此外,隨著可穿戴傳感器和便攜式醫療保健設備等物聯網設備的出現,人們現在可以以最少的投入定期測量他們的健康變量。 這導致對患病和健康個體的時間相關醫療數據的一致數據收集。
#3. 天文學中的時間序列
天文學和天體物理學是時間序列數據得到顯著利用的兩個現代學科。
從根本上說,天文學涉及繪製宇宙物體的軌跡和天體,並進行準確的測量,以更好地了解地球大氣層以外的宇宙。 由於這一要求,天文專家在校準和配置複雜儀器以及研究感興趣的天文物體時精通處理時間序列數據。
時間序列數據長期以來一直與天文學領域聯繫在一起。 公元前 800 年,定期收集太陽黑子時間序列數據。 從那時起,時間序列分析被用於
- 根據恆星距離發現遙遠的恆星,
- 觀察超新星等宇宙事件,以更好地理解我們宇宙的起源。
在這種情況下,時間序列數據與恆星、天體或物體發出的光的波長和強度有關。 天文學家不斷監測此類實時流數據,以在發生時實時檢測宇宙事件。
近年來,出現了天體信息學和天體統計學等研究領域,它們融合了數據挖掘、機器學習、計算智能和統計學等多種學科。 在這些新的研究領域,時間序列數據的作用是快速有效地檢測和分類天文物體。
#4. 預報天氣中的時間序列
亞里士多德廣泛研究了天氣模式,以更好地理解古代天氣變化的原因和影響。 隨著時間的推移,科學家們開始在諸如“氣壓計”之類的儀器上記錄與天氣相關的數據,以計算大氣變量。 數據定期收集並保存在不同的位置。
隨著時間的推移,最終,天氣預報開始出現在報紙上。 快進到今天,無處不在的天氣預報站安裝在世界各地的不同地區,以收集準確的天氣變量。
這些台站具有先進的功能設備,這些設備相互連接以收集和關聯來自不同地點的天氣數據。 相關數據用於根據要求預測每個時間實例的天氣狀況。
#5. 業務發展中的時間序列
時間序列數據使企業能夠做出業務決策。 這是通過該過程分析過去的數據以推導出未來事件並揭示可能的可能性來實現的。 過去的數據模式用於導出以下參數:
- 業務增長:為了評估整體財務和業務績效並衡量增長,時間序列數據是最合適和可靠的資產。
- 估計趨勢:可以採用各種時間序列方法來估計新出現的趨勢。 例如,考慮這些方法分析一段時間內的數據觀察以反映特定電子設備的銷售額的增加或減少。
- 揭示季節性模式:記錄的數據點可以揭示有助於數據預測的波動和季節性模式。 獲得的數據信息對於產品價格季節性波動的市場起著關鍵作用。 這些數據可以幫助企業更好地進行產品規劃和開發。
結論
總而言之,時間序列數據可以看作是在恆定時間段內收集的複雜數據點的特徵。 隨著物聯網小工具、智能家電和便攜式設備的出現,時間序列分析、建模和預測已成為我們日常生活中不可或缺的一部分。 此外,時間序列數據正在多個領域得到應用,包括醫療保健、天體物理學、經濟學、工程、商業等等。
