Time Series Forecasting - zu Deutsch Zeitreihenvorhersage bzw. -prognose - ist enorm wertvoll für viele Unternehmen und für viele Bereiche der Forschung ebenfalls. Zum Beispiel werden Zeitreihen analysiert, um das Kunden- bzw. Konsumentenverhalten zu prognostizieren oder, in einem ganz anderen Bereich, um Temperaturtrends anhand klimatologischer Zeitreihen beschrieben. Auch um Lager, Logistik und Absatzmöglichkeiten besser zu planen, oder in der Finanz- und Kreditanalyse, um Zahlungen und Zahlungsausfälle zu analysieren und zu schätzen, können Zeitreihenprognosen wertvolle Unterstützung leisten.
Im ersten Schritt werden die Merkmalsausprägungen mehrerer einzelner Zeitpunkte analysiert, um eine Zeitreihe modellieren zu können. In einem weiteren Schritt wird versucht, aus den Ergebnissen der Analyse zukünftige Entwicklungen und Trends zu extrapolieren, bzw. aus den analysierten Zeitreihenwerten eine Vorhersage zu treffen.
Eine Zeitreihenanalyse beschreibt die statistische Analyse einer Sequenz von Datenpunkten. Die Zeitreihe kann dabei reell sein oder durch stochastische Modellierung beschrieben werden. Die Analyse und Modellierung von Zeitreihen ist notwendig, um im weiteren Schritt Zeitreihenprognosen zu erstellen.
Hier geht es zunächst nur um die statistische Beschreibung von Zeitreihen. Für Vorhersagen anhand dieser Zeitreihen ist es zunächst wichtig diese auf statistische Abgängigkeiten zu untersuchen.
Autokorrelation
Autokorrelation ist eine mathematische Messung der linearen Abhängigkeit zwischen einer Zeitreihe und einer zeitlich verzögerten Version dessen. Dabei wird die zeitliche Abhängigkeit einer Variablen mit sich selbst und mit einem oder mehreren unterschiedlichen früheren Zeitpunkten innerhalb einer Zeitreihe gemessen. Dies wird genutzt, um Trends und Muster innerhalb der Zeitreihe zu bestimmen. Der Vorgang ähnelt der Korrelationsbestimmung zwischen Zeitreihen, aber im Falle der Autokorrelation wird eine Zeitreihe mehrfach auf Abhängigkeit untersucht, einmal mit sich selbst und anschließend mit zeitlich verzögerten Versionen.
Kreuzkorrelation
Die Kreuzkorrelation entspricht im Grunde der Autokorrelation. Bei der Kreuzkorrelation wird die Abhängigkeit zwischen zwei unterschiedlichen Variablen in unterschiedlichen Zeitreihen analysiert. Sie findet oft Anwendung zur Synchronisation von ähnlichen Signalen.
Data Science gibt es schon lange, aber nun haben viele Unternehmen auch den Nutzen für sich entdeckt. Durch Visualisierung und Modellierung lässt sich ein erheblicher Mehrwert aus Datensätzen bzw. Zeitreihen gewinnen. Besonders Visualisierung findet schon in sehr vielen Unternehmen Anwendung, aber ist in Kombination mit Modellierung noch effektiver.
Clustering
Beim Clustern von Zeitreihen werden Datenpunkte, oftmals mithilfe von maschinellem Lernen, anhand von Ähnlichkeiten in Gruppen organisiert. Dafür müssen Gemeinsamkeiten zwischen Zeitreihen, zum Beispiel ähnliche Trends oder Peaks gemessen werden. Beim Clustering ist nicht unbedingt relevant, wann diese Trends in der Zeitreihe entstanden sind oder ob sie zu ähnlichen Zeitpunkten stattgefunden haben, sondern eher, dass diese Trends Gemeinsamkeiten aufweisen. Bei der Sales Analyse von mehreren Standorten im Einzelhandel gilt es beispielsweise, Umsatz Einbrüche zu clustern und zu analysieren - unabhängig davon, wann sie in welchem Standort eingetreten sind. Entscheidend ist es vorher zu wissen, nach welchem Algorithmus die Daten geclustert werden sollen und wie viele Cluster optimal sind. Anschließend können die Ursachen untersucht werden.
Klassifizierung
Zeitreihen-Klassifizierung setzt ebenfalls auf maschinelles Lernen, um Zeitreihen einer bestimmten Klasse zuzuordnen. Dabei wird ein bestehendes Datenset verwendet, dass aus vielen verschiedenen, klassifizierten Zeitreihen besteht, um ein Modell mittels maschinellen Lernens zu trainieren. Das Model trifft auf Anfrage eine Vorhersage und ordnet eine beliebige Zeitreihe einer Klasse zu. So lassen sich Zeitreihen clustern oder direkt vordefinierte Klassen zuordnen. Klassen können bereits bekannte Eigenschaften beinhalten, so dass eine Zeitreihe durch die Klassifizierung bereits interpretierbar ist.
Es gibt im Grunde zwei Ansätze, die man getrennt oder in Kombination verfolgen kann, um Vorhersagen zu treffen. Der erste Ansatz besteht darin, eine qualitative Herangehensweise zu wählen und sich Meinungen von Experten einholen oder Umfragen durchführen. Im zweiten Ansatz finden quantitative Methoden zur Auswertung von Daten Anwendung.
Zu den gängigsten quantitativen Methoden zur Zeitreihenvorhersage gehören gleitende Durchschnitte, Autoregression und die Kombinationen oder Erweiterungen dieser.
Gleitende Durchschnitte beschreiben eine sehr einfache Methode, um Zeitreihen vorherzusagen. Sie bilden einen Durchschnittswert aus Daten von fortlaufenden vergangenen Perioden, zum Beispiel die letzten sieben Tage. Der Durchschnittswert passt sich fortlaufend mit der Zeit dynamisch an. Durch Glättung oder Gewichtung lassen sich gleitende Durchschnitte weiter modifizieren, zum Beispiel als exponentiell gewichteter, gleitender Durchschnitt. Dadurch werden die einzelnen Zeitpunkte einer Zeitreihe unterschiedlich gewichtet, um weit zurückliegende Beobachtungen schwächer in den Vorhersagen zu berücksichtigen. Gleitende Durchschnitte bilden ein solides Grundgerüst, auf dem viele weitere Methoden aufbauen, sind aber ohne Gewichtung und weitere Anpassungen nur bedingt einsetzbar.
Bei Zeitreihen, in denen die Beobachtungen von sich selbst abhängig sind bzw. autokorrelieren, können Vorhersagen mittels einer Regressionsgleichung getroffen werden. Eine Vorhersage für eine nächste Periode (Output) basiert auf einer Linearkombination vorheriger Werte einer Variablen (Inputs). Ein Vorhersage-Modell wird entwickelt, indem die Regressionsgleichung mit Beobachtungen aus früheren Perioden gefüttert wird. Autoregression ist eine effektive und häufig angewendete Methode zur Vorhersage von Zeitreihen. Im Gegensatz zur Moving Average-Methode fließen in die Berechnung des Prognosewerts nur tatsächlich vorangegangene Beobachtungen und keine Schätzungen bzw. Schätzfehler ein.
Das Autoregressive Moving Average-Modell (ARMA) ist eine Kombination aus dem Autoregressions-Modell und dem Gleitender Durchschnitt Modell. Autoregressive Integrated Moving Average (ARIMA) ist eine Weiterentwicklung des ARMA-Modells. Ergänzt wird es um Differenzierung und Integration. Für nicht-stationäre Zeitreihen ist eine sogenannte Differenzierung notwendig. Stationarität impliziert Trendfreiheit bzw. eine konstante Verteilungsfunktion der Zeitreihenwerte. Bei der Differenzierung werden die Auswirkungen der Trends entfernt. Integration ist der Gegenpart zur Differenzierung. ARIMA-Modelle finden beispielsweise Anwendung in Auswertungen der Bearbeitungsdauer eines Support-Vorgangs. Häufig werden sie auch bei der Auswertung von Finanzdaten eingesetzt.
Data Science ermöglicht es vielen Unternehmen, die Analysen von Zeitreihen zu visualisieren und zu modellieren. Dies ist sehr hilfreich, um die eigenen Trends und Entwicklungen zu verstehen. Aus jedem vollständigen und konstanten historischen Datensatz können Zeitreihenanalysen und die dazugehörigen Visualisierungen und Modelle erstellt werden. Technologien wie Python oder R haben all die nötigen Kits, um selbständig visuelle Charts und Modelle für Prognosen kreieren zu können. Eine Reihe an Softwareangeboten zur Datenvisualisierung hat sich auf dem Markt etabliert, um die Problemlösung speziell für Unternehmen noch einfacher zu gestalten. Spannend sind vor allem die Prognose-Modelle, die sich für eine Vielzahl von Anwendungsfällen anbieten wie Gesundheitsprognosen, Businessprognosen, Finanzprognosen, Wetterprognosen und Handelsprognosen, um nur ein paar Beispiele zu nennen.