Przewodnik wprowadzający do danych szeregów czasowych
Opublikowany: 2021-09-07„Czas” to kluczowa zmienna, jeśli chodzi o gromadzenie danych. W analizie szeregów czasowych ważnym elementem danych jest czas.
Co to są dane szeregów czasowych?
Dane szeregów czasowych odnoszą się do serii punktów danych uporządkowanych w czasie. Wprowadza zależność porządku między zbiorem obserwacji. Szeregi czasowe są wszechobecne w dzisiejszym świecie opartym na danych. Ponieważ każde zdarzenie podąża za strzałką czasu, jesteśmy w ciągłej interakcji z różnymi danymi szeregów czasowych.
Ogólnie przyjmuje się, że szeregi czasowe są generowane w regularnych odstępach czasu i są określane jako regularne szeregi czasowe. Jednak dane w ramach tego szeregu czasowego nie muszą być generowane w regularnych odstępach czasu. Takie przypadki obejmują nieregularne szeregi czasowe, w których dane są zgodne z sekwencją czasową. Oznacza to, że pomiary mogą nie być przeprowadzane w regularnych odstępach czasu. Jednak dane mogą być generowane w dyskretnych odstępach czasu lub jako seria. Wypłaty z bankomatów lub wpłaty na konto to przykłady nieregularnych szeregów czasowych.
Technicznie rzecz biorąc, w szeregu czasowym jedna lub więcej zmiennych zmienia się w danym okresie czasu. Jeśli pojedyncza zmienna zmienia się w czasie, nazywa się ją szeregiem czasowym jednowymiarowym. Rozważmy na przykład czujnik mierzący temperaturę w pomieszczeniu co sekundę. Tutaj w każdej chwili (tj. sekundzie) generowana jest tylko jednowymiarowa wartość temperatury. Wręcz przeciwnie, gdy więcej niż jedna zmienna zmienia się w czasie, nazywa się to wielowymiarowym szeregiem czasowym. Rozważmy na przykład ekonomię bankową. W takich przypadkach wielowymiarowe szeregi czasowe są wykorzystywane do zrozumienia, w jaki sposób zmiany polityki wobec jednej zmiennej, takiej jak stopa repo, mogą wpływać na inne zmienne (tj. wypłaty kredytu dla banków komercyjnych).
Dane szeregów czasowych znajdują zastosowanie w każdej dyscyplinie, od finansów, geologii, meteorologii, produkcji po informatykę, IoT, nauki fizyczne i społeczne. Służy do śledzenia zmian pogody, wskaźnika urodzeń, śmiertelności, wahań na rynku, wydajności sieci i wielu innych aplikacji. Niektóre z jego głównych przypadków użycia obejmują monitorowanie, prognozowanie i wykrywanie anomalii. Na przykład prognozowanie szeregów czasowych odgrywa kluczową rolę w określaniu popularności systemów zarządzania bazami danych. Poniższy rysunek przedstawia rosnącą popularność DBMS na przestrzeni lat (2019-2021) na wykresie szeregów czasowych.

Kluczowe składniki szeregów czasowych
Czynniki wpływające na wartości obserwacji w szeregu czasowym są traktowane jako ich kluczowe składowe. Trzy kategorie komponentów obejmują:
- Trendy lub ruchy długoterminowe
- Ruchy krótkoterminowe
- Odmiany sezonowe
- Odmiany cykliczne
- Ruchy losowe lub nieregularne

Tendencja
Tendencja danych do wzrostu lub spadku w długim okresie jest określana jako trend lub składnik długoterminowy. Należy jednak zauważyć, że ruch w górę lub w dół niekoniecznie musi odbywać się w tym samym kierunku w określonym przedziale czasu.
Tendencje mogą rosnąć, spadać lub pozostawać stabilne w różnych okresach czasu. Ogólny trend musi jednak zawsze odpowiadać trendowi wzrostowemu, spadkowemu lub stabilnemu. Takie tendencje ruchowe są widoczne na przykładach, takich jak wydajność rolnictwa, śmiertelność, wyprodukowane urządzenia, liczba fabryk itp.
Trend liniowy i nieliniowy
Wykreślanie wartości szeregów czasowych w funkcji czasu na wykresie pokazuje rodzaj trendu na podstawie wzorca grupowania danych. Jeśli klaster danych znajduje się mniej więcej wokół linii prostej, wówczas trend określany jest jako trend liniowy. W przeciwnym razie wzorzec skupień danych wykazuje nieliniowy trend, ponieważ stosunek zmian między dwiema zmiennymi nie jest stabilny ani stały. Stąd takie trendy nazywane są również korelacjami krzywoliniowymi.
Ruchy krótkoterminowe
W szeregu czasowym te składniki mają tendencję do powtarzania się przez pewien czas. Mają nieregularne krótkie wybuchy i wpływają na badane zmienne. Dwa rodzaje kategorii w ramach ruchu krótkoterminowego obejmują:
Odmiany sezonowe
Wersje te działają regularnie i okresowo przez okres krótszy niż rok. Zwykle mają podobny lub prawie taki sam wzór w okresie 12 miesięcy. Takie zmiany stają się częścią szeregu czasowego, jeśli dane są rejestrowane regularnie, tj. co godzinę, codziennie, co tydzień, co miesiąc lub kwartalnie.
Zmiany sezonowe są albo spowodowane przez człowieka, albo występują naturalnie. W takich zmianach kluczową rolę odgrywają różne pory roku lub warunki klimatyczne. Na przykład produkcja roślinna opiera się wyłącznie na porach roku. Podobnie rynek parasola czy płaszcza przeciwdeszczowego uzależniony jest od pory deszczowej, podczas gdy sprzedaż lodówek i klimatyzatorów osiąga szczyt w okresie letnim.
Organizowane przez człowieka konwencje obejmują festiwale, przyjęcia i okazje, takie jak śluby. Takie krótkoterminowe wydarzenia powtarzają się z roku na rok.
Wariacje cykliczne
Wahania szeregów czasowych, które mają tendencję do działania w okresie dłuższym niż rok, są określane jako zmiany cykliczne. W przypadku firmy jeden pełny okres jest uważany za „cykl biznesowy”. Skok lub spadek wyników biznesowych zależy od różnych czynników, takich jak struktura ekonomiczna, zarządzanie przedsiębiorstwem i inne współdziałające siły. Te cykliczne zmiany biznesowe mogą być regularne, ale nie okresowe. Ogólnie rzecz biorąc, firmy przechodzą czterofazowy, cykliczny proces obejmujący dobrobyt, recesję, depresję i ożywienie.
Takie cykliczne zmiany są integralną częścią wzorca szeregów czasowych, ponieważ rozwój biznesu w dużej mierze opiera się na generowanych „sekwencyjnych punktach danych”.
Ruchy losowe lub nieregularne
Komponenty losowe powodują znaczne zróżnicowanie obserwowanej zmiennej. Są to wahania czysto nieregularne bez ustalonego wzoru. Siły są nieprzewidywalne, nieprzewidywalne i nieobliczalne — na przykład trzęsienia ziemi, powodzie, głód i inne katastrofy.
Opisane powyżej zdarzenia losowe są analizowane przy użyciu źródłowych danych szeregów czasowych, aby lepiej radzić sobie z takimi rzeczywistymi scenariuszami, które mogą wystąpić w przyszłości.
Rodzaje szeregów czasowych
Dane szeregów czasowych można podzielić na cztery typy: deterministyczne, niedeterministyczne, stacjonarne i niestacjonarne. Przyjrzyjmy się szczegółowo każdemu typowi.
#1. Deterministyczne szeregi czasowe
Deterministyczny szereg czasowy można opisać wyrażeniem analitycznym. Nie obejmuje aspektów losowych ani probabilistycznych. Matematycznie można to wyrazić dokładnie dla wszystkich przedziałów czasowych w postaci rozwinięcia w szereg Taylora. Jest to możliwe, jeśli wszystkie jego pochodne są znane w dowolnym momencie. Te instrumenty pochodne wyraźnie określają przeszłość i przyszłość w tym czasie. Jeśli wszystkie warunki są spełnione, można dokładnie przewidzieć jego przyszłe zachowanie i przeanalizować, jak zachowywał się w przeszłości.
#2. Niedeterministyczne szeregi czasowe
Z niedeterministycznym szeregiem czasowym związany jest losowy aspekt, który uniemożliwia jego jednoznaczny opis. W związku z tym wyrażenia analityczne nie są wystarczającymi rozwiązaniami, aby wyrazić takie szeregi czasowe. Szeregi czasowe mogą być niedeterministyczne z następujących powodów:
- Informacje wymagane do jej opisania nie są dostępne w całości. Chociaż dane mogą być zasadniczo obecne, nie można ich jednoznacznie traktować jako kwantyfikowalne.
- Proces generowania danych ma charakter losowy.
Ze względu na czynnik losowy niedeterministyczny szereg czasowy podlega prawom probabilistycznym. Dlatego dane są ujęte w kategoriach statystycznych – dane implikujące są definiowane przez rozkłady prawdopodobieństwa i średnie o różnych postaciach. Obejmuje to środki i miary dyspersji, tj. wariancje.
#3. Stacjonarne serie czasowe
W stacjonarnych szeregach czasowych właściwości statystyczne, takie jak średnia, wariancja i inne, nie opierają się na aspekcie czasowym. Stacjonarny szereg czasowy jest łatwiejszy do przewidzenia, ponieważ można z całą pewnością stwierdzić, że jego właściwości statystyczne pozostaną takie same, jak obserwowane w przeszłości. W związku z tym różne metody prognozowania statystycznego opierają się na argumencie, że szeregi czasowe są prawie stacjonarne. Oznacza to, że szeregi czasowe można w przybliżeniu uznać za stacjonarne, stosując proste przekształcenia matematyczne.
#4. Niestacjonarne szeregi czasowe
W szeregach niestacjonarnych właściwości statystyczne zmieniają się w czasie. W związku z tym szeregi czasowe z trendami lub sezonowością należą do kategorii niestacjonarnej, ponieważ trend i sezonowość mogą wpływać na wartość szeregu czasowego w różnych przedziałach czasowych. Niestacjonarne szeregi czasowe opisują nieprzewidywalne dane, zapobiegając ich modelowaniu lub prognozowaniu.

Analiza i prognozowanie szeregów czasowych
Analiza i prognozowanie szeregów czasowych to przydatne narzędzia do obserwowania, analizowania i badania ewolucji i dynamiki procesów życiowych i różnego rodzaju obiektów. Przyjrzyjmy się każdemu głębiej.
Analiza szeregów czasowych
Analiza szeregów czasowych jest definiowana jako proces analizy danych zebranych przez pewien okres czasu. Tutaj analitycy danych rejestrują dane w stałych odstępach czasu w ustalonym okresie czasu. Częstotliwość obserwacji danych, tj. przedział czasu, może wahać się od sekund do lat.
Dane szeregów czasowych opisują badane zmienne, ponieważ zapewniają szczegółową analizę wahań wzorca w określonym przedziale czasu. Parametry niezbędne do analizy mogą się różnić w różnych dziedzinach i dyscyplinach. Niektóre przykłady mogą obejmować:
- Instrumenty naukowe – Dane rejestrowane dziennie
- Witryna komercyjna – odwiedziny klientów dziennie
- Giełda – Wartość akcji tygodniowo
- Sezon – Deszczowe dni w roku
Aby zapewnić spójność i niezawodność, analiza szeregów czasowych operuje na dużych ilościach punktów danych. Dobra wielkość próbki to subtelne przedstawienie autentyczności odkrytego trendu lub wzoru.
Ponadto analiza szeregów czasowych nadaje się również do przewidywania przyszłych wydarzeń na podstawie danych zarejestrowanych w przeszłości.
Prognozowanie szeregów czasowych
Analiza szeregów czasowych pozwala organizacjom zidentyfikować pierwotne przyczyny wahań trendów w czasie. Dysponując danymi, przedsiębiorstwa mogą następnie prowadzić dalsze badania i badania, aby lepiej zrozumieć, jak radzić sobie z nieznanymi trendami i przewidywać nadchodzące wydarzenia. Firmy zazwyczaj stosują techniki wizualizacji danych w celu określenia takich anomalii w danych.

Prognozowanie szeregów czasowych obraca się wokół dwóch zasadniczych czynników:
- Przewiduj przyszłe wydarzenia w oparciu o zachowanie danych z przeszłości.
- Załóżmy, że nadchodzące trendy będą podobne do poprzedniego wzorca danych.
W prognozowaniu głównym celem jest zasadniczo przewidzenie, w jaki sposób punkty danych pozostaną takie same lub będą się zmieniać w przyszłości. Oto kilka przykładów z różnych sektorów przemysłu, aby lepiej zrozumieć niuanse analizy i prognozowania szeregów czasowych.
- Giełda – codzienne prognozowanie ceny zamknięcia akcji.
- Sprzedaż — Przewiduj sprzedaż produktów w sklepie każdego dnia.
- Ceny – Prognozowanie średniej ceny paliwa każdego dnia.
Niektóre z popularnych technik statystycznych stosowanych do prognozowania szeregów czasowych obejmują prostą średnią ruchomą (SMA), wygładzanie wykładnicze (SES), autoregresyjną zintegrowaną średnią ruchomą (ARIMA) i sieć neuronową (NN).
Dane szeregów czasowych w chmurze
Aby ujawnić wartość danych szeregów czasowych, przedsiębiorstwa powinny mieć możliwość szybkiego przechowywania danych i wykonywania zapytań. Firmy rynku kapitałowego polegają na dużych ilościach danych historycznych i danych przesyłanych strumieniowo, aby stosować analizę danych w czasie rzeczywistym i podejmować trafne decyzje biznesowe. Może to obejmować przewidywanie wrażliwości cen akcji, określanie wymogów kapitałowych netto lub prognozowanie kursów walutowych. Aby zapewnić elastyczność i bezproblemowo przetwarzać dane, wiele firm decyduje się na migrację swoich baz danych szeregów czasowych do chmury.
Dzięki migracji baz danych szeregów czasowych do chmury organizacje mogą uzyskać dostęp do nieograniczonych zasobów na żądanie. Pozwala firmom na wykorzystanie setek rdzeni do wykonania zadania, które maksymalizuje przepustowość sieci bez problemów z opóźnieniami.
Bazy danych szeregów czasowych w infrastrukturze chmury są odpowiednie dla obciążeń wymagających dużej mocy obliczeniowej. Obejmuje to wykonywanie obliczeń ryzyka w odpowiedzi na trendy rynkowe w czasie rzeczywistym. Firmy finansowe mogą zrezygnować z kosztów ogólnych centrum danych i skupić się na wykorzystaniu zasobów w celu poprawy wydajności swoich obciążeń.
Dostawcy chmury, tacy jak AWS, zapewniają Amazon Timestream, usługę bazy danych szeregów czasowych, która umożliwia łatwe ładowanie, przechowywanie i analizę zbiorów danych szeregów czasowych. Oferują one pamięć masową do zarządzania obciążeniami wymagającymi dużej liczby transakcji, narzędzia do analizy w czasie rzeczywistym oraz funkcję przesyłania strumieniowego danych w celu prezentowania zdarzeń w momencie ich wystąpienia.
Dlatego infrastruktura chmury wzmacnia i skaluje korzyści płynące z danych szeregów czasowych.
Zastosowania szeregów czasowych
Modele szeregów czasowych służą dwóm celom:
- Zapoznaj się z podstawowymi czynnikami, które wytworzyły pewien wzorzec danych.
- Na podstawie analizy dopasuj model do prognozowania i monitorowania.
Przyjrzyjmy się niektórym przypadkom użycia aplikacji danych szeregów czasowych.

#1. Szeregi czasowe w dziedzinie finansów i biznesu
Wszystkie decyzje finansowe, biznesowe i inwestycyjne podejmowane są w oparciu o aktualne trendy rynkowe i prognozy popytu. Dane szeregów czasowych służą do wyjaśniania, korelacji i przewidywania dynamicznego rynku finansowego. Eksperci finansowi mogą badać dane finansowe, aby przedstawić prognozy dla aplikacji, które pomagają w ograniczaniu ryzyka, stabilizacji cen i handlu.
Analiza szeregów czasowych odgrywa kluczową rolę w analizie finansowej. Jest używany do przewidywania stóp procentowych, prognozowania zmienności na rynkach akcji i wielu innych. Interesariusze biznesowi i decydenci mogą podejmować świadome decyzje dotyczące produkcji, zakupów, alokacji zasobów i optymalizować swoje operacje biznesowe.
Analiza ta jest skutecznie wykorzystywana w sektorze inwestycyjnym do monitorowania stóp bezpieczeństwa i ich wahań w czasie. Cena papieru wartościowego może być również obserwowana w perspektywie krótkoterminowej (tj. rejestracja danych na godzinę lub dzień) lub długoterminowej (tj. obserwacja rozciągnięta na miesiące lub lata). Analiza szeregów czasowych jest użytecznym narzędziem do śledzenia, jak papier wartościowy, aktywa lub zmienna ekonomiczna zachowują się w dłuższym okresie czasu.
#2. Szeregi czasowe w dziedzinie medycyny
Opieka zdrowotna szybko staje się dziedziną opartą na danych. Oprócz analizy finansowej i biznesowej, dziedzina medyczna w dużym stopniu wykorzystuje analizę szeregów czasowych.
Rozważ scenariusz, który wymaga synergii danych szeregów czasowych, medycznie dostosowanych procedur i technik eksploracji danych podczas leczenia pacjentów z rakiem. Taka hybrydowa struktura może być wykorzystana do wykorzystania funkcji ekstrakcji cech z zebranych danych szeregów czasowych (tj. obrazów rentgenowskich pacjenta) w celu śledzenia postępów pacjenta i odpowiedzi na leczenie zapewnione przez bractwo medyczne.
W sektorze opieki zdrowotnej wyciąganie wniosków z ciągle zmieniających się danych szeregów czasowych ma krytyczne znaczenie. Ponadto zaawansowane praktyki medyczne wymagają, aby rejestry pacjentów były połączone w czasie, aby zapewnić lepszą widoczność stanu zdrowia pacjenta. Ponadto parametry zdrowotne pacjenta muszą być precyzyjnie rejestrowane w regularnych odstępach czasu, aby mieć wyraźniejszy obraz stanu zdrowia pacjenta.
Wraz z wysuwaniem się na pierwszy plan zaawansowanych instrumentów medycznych analiza szeregów czasowych ugruntowała swoją pozycję w dziedzinie opieki zdrowotnej. Rozważ poniższe przykłady,
- Urządzenia EKG: Urządzenia wynalezione do monitorowania stanu serca poprzez rejestrowanie elektrycznych impulsów serca.
- Urządzenia EEG: Urządzenia używane do ilościowego określania aktywności elektrycznej w mózgu.
Takie urządzenia umożliwiły lekarzom wykonywanie analizy szeregów czasowych w celu szybszej, skutecznej i dokładnej diagnozy medycznej.
Dodatkowo, wraz z pojawieniem się urządzeń IoT, takich jak czujniki do noszenia i przenośne urządzenia medyczne, ludzie mogą teraz regularnie mierzyć swoje zmienne zdrowotne przy minimalnych nakładach. Prowadzi to do spójnego gromadzenia danych medycznych zależnych od czasu, zarówno dla osób chorych, jak i zdrowych.
#3. Szeregi czasowe w astronomii
Astronomia i astrofizyka to dwie nowoczesne dyscypliny, w których dane szeregów czasowych są w znacznym stopniu wykorzystywane.
Zasadniczo astronomia obejmuje kreślenie trajektorii obiektów kosmicznych i ciał niebieskich oraz wykonywanie dokładnych pomiarów w celu lepszego zrozumienia wszechświata poza ziemską atmosferą. Ze względu na ten wymóg eksperci astronomii biegle obchodzą dane szeregów czasowych podczas kalibracji i konfiguracji złożonych instrumentów oraz badania interesujących obiektów astronomicznych.
Dane szeregów czasowych od dawna są kojarzone z dziedziną astronomii. W 800 r. p.n.e. w regularnych odstępach czasu zbierano szeregi czasowe dotyczące plam słonecznych. Od tego czasu analiza szeregów czasowych została wykorzystana do:
- Odkrywaj odległe gwiazdy na podstawie odległości gwiezdnych,
- Obserwuj wydarzenia kosmiczne, takie jak supernowe, aby lepiej zrozumieć pochodzenie naszego wszechświata.
Dane szeregów czasowych w tym przypadku odnoszą się do długości fal i natężenia światła emitowanego przez gwiazdy, ciała niebieskie lub obiekty. Astronomowie stale monitorują takie dane przesyłane strumieniowo na żywo, aby wykrywać kosmiczne zdarzenia w czasie rzeczywistym, w momencie ich wystąpienia.
W ostatnim czasie pojawiły się obszary badawcze, takie jak astroinformatyka i astrostatystyka, które łączą różne dyscypliny, takie jak eksploracja danych, uczenie maszynowe, inteligencja obliczeniowa i statystyka. W tych nowatorskich obszarach badawczych rolą danych szeregów czasowych jest szybkie i skuteczne wykrywanie i klasyfikowanie obiektów astronomicznych.
#4. Szeregi czasowe w prognozowaniu pogody
Arystoteles intensywnie badał wzorce pogodowe, aby lepiej zrozumieć przyczyny i skutki obserwowanych zmian pogody w czasach starożytnych. W miarę upływu dni naukowcy zaczęli rejestrować dane związane z pogodą na instrumentach, takich jak „barometr”, w celu obliczania zmiennych atmosferycznych. Dane były gromadzone w regularnych odstępach czasu i przechowywane w różnych lokalizacjach.
Z czasem w gazetach zaczęły pojawiać się prognozy pogody. Szybko do przodu do dnia dzisiejszego, wszechobecne stacje prognozowania pogody są instalowane w różnych lokalizacjach geograficznych na całym świecie w celu zbierania dokładnych zmiennych pogodowych.
Takie stacje posiadają zaawansowane, funkcjonalne urządzenia, które są ze sobą połączone, aby gromadzić i korelować dane pogodowe z różnych lokalizacji. Skorelowane dane są wykorzystywane do prognozowania warunków pogodowych w każdym momencie w zależności od wymagań.
#5. Szeregi czasowe w rozwoju biznesu
Dane szeregów czasowych umożliwiają firmom podejmowanie decyzji biznesowych. Osiąga się to, ponieważ proces analizuje dane z przeszłości w celu uzyskania przyszłych wydarzeń i rzucenia światła na prawdopodobne możliwości. Wzorzec danych z przeszłości służy do wyprowadzenia następujących parametrów:
- Rozwój firmy : do oceny ogólnych wyników finansowych i biznesowych oraz pomiaru wzrostu najbardziej odpowiednim i niezawodnym zasobem są dane szeregów czasowych.
- Oszacuj trend : Do oszacowania pojawiających się trendów można zastosować różne metody szeregów czasowych. Rozważmy na przykład, że metody te analizują obserwacje danych w czasie, aby zastanowić się nad wzrostem lub spadkiem sprzedaży konkretnego urządzenia elektronicznego.
- Odkryj wzorce sezonowe : zarejestrowane punkty danych mogą ujawnić wahania i wzorce sezonowe, które mogą pomóc w prognozowaniu danych. Uzyskane informacje o danych odgrywają kluczową rolę dla rynków, na których ceny produktów wahają się sezonowo. Takie dane mogą pomóc przedsiębiorstwom w lepszym planowaniu i rozwoju produktów.
Wniosek
Podsumowując, dane szeregów czasowych można postrzegać jako cechy złożonych punktów danych gromadzonych w stałym okresie czasu. Analiza szeregów czasowych, modelowanie i prognozowanie stały się integralną częścią naszego codziennego życia wraz z pojawieniem się gadżetów IoT, inteligentnych urządzeń domowych i urządzeń przenośnych. Poza tym dane szeregów czasowych znajdują zastosowanie w różnych dziedzinach, w tym w opiece zdrowotnej, astrofizyce, ekonomii, inżynierii, biznesie i wielu innych.
