Nächste Seite: Kenngrößen für Zeitreihen
Aufwärts: Seminar Zeitreihen
Vorherige Seite: Inhalt
  Inhalt
  Index
Unterabschnitte
Definition: Zeitreihe
Eine Zeitreihe ist eine zeitlich geordnete Abfolge von Meßwerten
der Form
oder
.
Meistens wird dabei eine regelmäßsige Frequenz benutzt, z.B. tägliche,
monatliche, quartalsweise oder jährliche Datenerfassung. Es gibt aber auch
Zeitreihen, bei denen die Zeitpunkte nicht äquidistant sind. Um dies
anzudeuten, wird dann die schreibweise
statt
verwendet.
Es kann auch sein, daß jeder Meßwert die Anzahl von Ereignissen in einem
bestimmten Zeitraum darstellt.
kann auch ein Vektor aus mehreren jeweils zeitgleich gemessenen
Werten sein, wie zum Beispiel Körpertemperatur, Blutdruck und Puls.
Man kann eine Zeitreihe
auch als einen
-dimensionalen Zufallsvektor auffassen. In diesem Fall müßten aber
sehr viele einzelne Werte zur Beschreibung berechnet werden (Varianzen,
Covarianzen usw.). Werden die
jedoch als Zeitreihe aufgefaßt, so
können sie mit wesentlich weniger Kennzahlen beschrieben werden.
Die einzelnen Messungen sind meistens nicht stochastisch unabhängig
voneinander. Diese Abhängigkeit der einzelnen Messungen ist eine der wichtigen
Eigenschaften bei der Untersuchung von Zeitreihen.
=7cm
 |
=7cm
100x würfeln |
Jeder Würfelwurf ist vollkommen unabhängig von dem vorherigen und dem
nächsten Wurf. Der Punktestand des Nasdaq zum Zeitpunkt
hängt jedoch
stark vom Punktestand zum Zeitpunkt
ab und der Punktestand zum
Zeitpunkt
wird sich auch in einer gewissen Umgebung zum aktuellen
Punktestand befinden.
- Bereits vor dem Erstellen einer Zeitreihe muß man sich Gedanken machen,
wie dicht die Meßpunkte liegen sollen. Liegen die Meßpunkte dichter
als nötig, so wird unnötig viel Platz zum Speichern der Meßwerte
benötigt und die numerische Auswertung wird unnötig aufwendig.
Liegen die Meßpunkte hingegen nicht dicht genug, so kann es sein, daß
wichtige Merkmale verloren gehen.
- Evtl. kann es nötig sein, die Zeitreihe vor ihrer Analyse zu korrigieren,
z.B. um bereits im Vorfeld die allgemeine Inflation aus einer
Preisentwicklung zu entfernen.
Eine Zeitreihe
ist zu verstehen als die
Realisierung der Zufallsvariablen
.
Mit der Analyse von Zeitreihen werden meistens folgende Ziele verfolgt:
- Vorhersage des weiteren Verlaufes (z.B. Börsenkurse)
- Erkennung globaler Änderungen (z.B. langfristige Erhöhung der
Jahresdurchschnittstemperatur)
- Erkennung von Abhängigkeiten von äußeren Parametern
Definition: seasonal / zyklisch
Viele Zeitreihen weisen ein periodisches Verhalten auf. Bei der Analyse
unterscheidet man dabei folgende beide Formen von periodischem Verhalten:
- Seasonales Verhalten:
Dies sind periodische Schwankungen deren Existenz und Periodenlänge bereits
vor Aufstellung der Zeitreihe bekannt sind.
- Zyklisches Verhalten:
Dies ist periodisches Verhalten, bei dem die Periodenlänge nicht
von Anfang an bekannt ist.
| seasonales Verhalten |
zyklisches Verhalten
|
Bemerkung (Diskretisierung)
Zeitreihen können theoretisch einen kontinuierlichen Wertebereich wie auch
einen diskreten Wertebereich umfassen. Die
sind jedoch eine Folge,
d.h. es kann nur abzählbar viele Meßwerte geben.
Besitzt der zugrunde liegende Versuch nur an diskreten Punkten
Werte (z.B. die Messung einer Temperatur in gewissen Abständen), so sind
keine weiteren Überlegungen notwendig. In vielen Fällen ergibt sich dies
von selbst, da nur zu diskreten Zeitpunkten gemessen werden kann.
Mit Versuchen, bei denen kontinuierlich Werte entstehen
(z.B. Regenmenge an einem Tag), kann auf mehrere Arten verfahren werden:
- Die einzelnen
können als Integral über einen bestimmten Bereich
einer kontinuierlichen Ausgangsfuntktion (z.B. Regenmenge) aufgefaßt
werden:
- In manchen Fällen ist nur von Interesse, zu wissen, ob in einem
bestimmten Zeitintervall ein Ergebnis eingetreten ist oder nicht.
In diesem Fall diskretisiert man, indem man den Intervallen, in denen
das Ereignis nicht aufgetreten ist, eine ``0'' zuordnet und den Intervallen,
in denen das Ereignis aufgetreten ist, eine ``1'' zuordnet:
Das ganze läßt sich erweitern, in dem man mehr als zwei mögliche Symbole
zuläßt.
Im Volcanic Explosivity Index (VEI) wird durch die Symbole 1 bis 7
die Stärke von explosiven Vulkanausbrüchen dargestellt.
In China werden seit etwa 1400 die Wasserstände des gelben Flussen
erfaßt und auf dieser Grundlage werden die Jahre in
Dürrejahr, normal oder Überflutungsjahr eingeteilt.
Als dritte Möglichkeit können die
als die Anzahl, wie oft ein
bestimmtes Ereignis in einem gewissen Zeitintervall eingetreten ist,
aufgefaßt werden (z.B. Zellteilung).
Sinnvolle Darstellung von Zeitreihen
Um bei der Analyse einer Zeitreihe alle interessanten Merkmale erkennen
zu können, kann es sinnvoll sein, die Achsen geschickt so skalieren.
In der Zeitreihe treten mehrere sehr starke Spitzen auf, bei denen der
Anstieg jedoch flacher verläuft, als der Abfall. Skaliert man
beide Achsen gleich, so kann es sein, daß die Spitzen so steil wirken, daß
kein Unterschied mehr in der Steilheit von Anstieg und Abfall festgestellt
werden kann. Erst durch ein starkes Stauchen der
-Achse wird dieses
Merkmal sichtbar.
=8cm =8cm
=16cm =3cm
Definition: Geschätzer Erwartungswert und Varianz
Eine Zeitreihe kann als Realisierungen einer endlichen Folge von
Zufallsvariablen betrachtet werden. Wären die Verteilungsfunktionen der
Zufallsvariable bekannt, so könnten daraus Erwartungswert und Varianz
berechnet werden. Die Verteilungsfunktionen sind jedoch normalerweise
nicht bekannt, so daß die Erwartungswerte und die Varianzen aus den
Meßwerten geschätzt werden müssen. Aus der Stochastik sind für
den geschätzten Erwartungswert
und die geschätzte
Varianz
folgende Formeln bekannt:
Definitionen: Trend, Autocovarianz, stationär
- Die nicht zufällige Funktion
heißt der
Trend von
, d.h. dies ist er Erwartungswert
für den Zeitpunkt
.
- Die Autocovarianz-Funktion
beschreibt die Abhängigkeit der Meßwerte an den Stellen
und
.
Die Covarianz beschreibt die Abhängigkeit zwischen zwei verschiedenen
Zufallsvariablen, die Autocorvarianz beschreibt die Abhängigkeit zwischen
zwei Zeitpunkten innerhalb einer Zeitreihe.
Eine Zeitreihe heißt stationär (im strengen Sinne), wenn für
alle
und alle Zeitpunkte
,
, die
Zufallsverteilung für
dieselbe ist, wie
für
.
Dies bedeutet praktisch, daß die Zeitreihe beliebig verschoben werden
kann und daß der Zeitpunkt des Beginnes der Beobachtung keine Rolle
spielt.
Es läßt sich nur sehr schwer überprüfen, ob eine Zeitreihe stationär im
strengen Sinne ist, daher beschränkt man sich auf schwächere
Anforderungen:
Eine Zeitreihe heißt schwach stationär von der Ordnung
,
wenn die Momente bis zur Ordnung
nur von der Zeitdifferenz
abhängen.
Stationärität von zweiter Ordnung
Es muß gelten
und
darf nur vom
Abstand
der beiden Zeitpunkte
und
abhängen.
Im folgenden ist mit ``stationär'' immer ``stationär von zweiter Ordnung''
gemeint.
Komponenten einer Zeitreihe
Eine Zeitreihe besteht aus höchstens 3 Komponenten:
- Einem langfristigen Trend
.
Der Trend stellt eine Art Grundrichtung für den weiteren Verlauf der
Zeitreihe dar. Dieser Trend sollte eine möglichst glatte Funktion sein, die
kein zufälliges Verhalten mehr aufweist.
- Einer periodischen, stationären Funktion, die auch möglichst
glatt sein sollte und auch kein zufälliges Verhalten mehr aufweist.
- Einer Zufallsfunktion (``Rauschen''), die zwar stationär ist, aber
sehr rauh ist.
Zunächst werden wir uns mit dem Fall befassen, daß
in einen
Trend und eine stationäre Zufallsfunktion zerfällt:
Glättung
Ein wichtiges Ziel bei der Untersuchung von Zeitreihen ist es, eine vom
``Rauschen'' befreite Fassung der Zeitreihe zu gewinnen. Eine Idee, dieses
Rauschen zu entfernen ist es, die Zeitreihe zu glätten.
Es gibt verschiedene Verfahren zur Glättung von Zeitreihen, die verschiedene
Merkmale betonen oder unterdrücken, daher ist es je nach dem, welches
Merkmal untersucht oder dargestellt werden soll, sinnvoll, verschiedene
Verfahren anzuwenden.
Gleitender Durchschnitt
Bei der Bildung des gleitenden Durchschnitts
(moving average), wird jeweils der Durchschnitt über mehrere
Werte gebildet.
ist der 3-Punkte gleitende Durchschnitt von
.
Der gleitende Durchschnitt kann als gewichtete Summe über
eine bestimmte Anzahl von Werten aufgefaßt werden:
ist dann der gleitende Durchschnitt
-ter Ordnung.
(Im Falle des 3-Punkte Durchschnitts waren
und
.)
Der gleitende Durchschnitt ist in der Nähe der Ränder des Definitionsbereiches
von
nicht definiert. Dies läßt sich beheben, in dem man den Bereich,
über den die Summe läuft, anpaßt:
(und bei den Gewichten ebenfalls sinnvolle Anpassungen in den Randbereichen
vornimmt).
Meist ist dies aber nicht notwendig, da
relativ klein ist und
sehr
groß ist, so daß es keine Rolle spielt, daß
auf einigen wenigen
Werten nicht erklärt ist.
In der Praxis können durch die Wahl von
und
bestimmte
Eigenschaften einer Zeitreihe bewußt entfernt oder betont werden. Ist
z.B. bei einer periodischen Zeitreihe nur die langfristige Entwicklung von
Interesse und die Periodizität soll ausgeblendet werden, so wählt man
größer als die Länge der Periode und die
, damit wird die
Zeitreihe so stark geglättet, daß der periodische Effekt nicht mehr sichtbar
ist.
=7cm
 |
Zeitreihe |
Das folgende Programm berechnet einen gleitenden Durchschnitt
über eine Zeitreihe
. Der Durchschnitt ist von der Ordnung
und
die Gewichte sind
.
frame=single,numbers=left,label=MovingAverage.m
Prgs03/MovingAverage.m
Definition: Residuum
Mit Hilfe einer solchen Glättung läßt sich die Zeitreihe jetzt in eine
geglättete Funktion und ein rauhes Residuum zerlegen:
wobei
z.B. ein gleitender Durchschnitt ist und
ist.
=15cm
Polynomiale Näherung
Eine weitere Möglichkeit, eine Zeitreihe zu glätten ist es, eine Polynom
zu finden, welches die Werte der Zeitreihe möglichst gut annähert
(polynomial regression).
``Möglichst gut annähert'' bedeutet dabei, daß die Summe der Fehlerquadrate
möglichst klein sein soll, d.h. es soll
minimiert werden.
Das Polynom soll formal von folgender Bauart sein:
Der Grad
des Polynoms kann dabei vorgegeben werden.
=15cm
Zeitreihe und polynomiale Näherung
mit einem Polynom vom Grad 5 |
Mit Verfahren der Numerik läßt sich zeigen, daß sich die
Koeffizienten
(
) bestimmen lassen durch:
wobei
ist und
eine
Matrix mit
ist.
Das folgende Programm berechnet die Koeffizienten
eines Näherungspolynoms
-ter Ordnung der Zeitreihe aus den Meßwerten
, die zu den Zeitpunkten
gemessen wurden.
frame=single,numbers=left,label=PolynomApproxKoef.m
Prgs03/PolynomApproxKoef.m
Das numerische Ergebnis kann durch iterative Nachbesserung
verbessert werden (vgl. Numerik).
ist eine stetige Funktion, die sich sehr leicht untersuchen läßt.
- Die Zeitpunkte müssen nicht alle denselben Abstand voneinander
haben.
- Es gibt einen einfachen, deterministischen Algorithmus zur Berechnung der
.
- Der Grad des gewünschten Polynoms kann beliebig vorgegeben werden.
- Für große
meist nicht sinnvoll.
Aber gut geeignet, um einen Trend zu entfernen (
).
- Aufgrund der Eigenschaften von Polynomen
(z.B.
), treten bei der Bildung
des Residuums
oftmals ``Artefakte'' auf.
=15cm
Zeitreihe und polynomiale Näherung
mit einem Polynom vom Grad 15 |
Spline-Interpolation
Polynome sind sehr schöne glatte Funktionen, bringen aber auch verschiedene
Nachteile mit sich, wenn Zeitreihen durch sie angenähert werden sollen.
Daher ist es evtl. sinnvoller weniger glatte Funktionen zu verwenden, die
dafür aber die eigentlichen Meßwerte besser interpolieren. Allgemein läßt sich
dies so formulieren: Es ist eine Funktion
gesucht, die
für ein vorgegebenes
minimiert.
gibt an, wie
zwischen Güte der Näherung (*) und Glattheit (**) abgewogen werden soll.
Diese Minimierung erfüllem am besten die kubischen Splines.
Sie haben folgenden Eigenschaften:
-
ist linear für
und
.
ist eine kubische Funktion auf den
, d.h. stückweise kubisch auf dem gesamten Definitionsbereich.
Es gibt ein numerisches Verfahren zur Bestimmung von
.
Glättung mit Spline-Funktionen kann als eine Art lokaler, gewichteter
gleitender Durchschnitt aufgefaßt werden. Das Verfahren glättet die
Meßwerte in Regionen, in denen weniger Werte zur Verfügung stehen stärker,
als in Bereichen, in denen mehr Werte vorhanden sind.
läßt sich als gewichtete Summe darstellen:
mit Gewichten der Form
mit
und
der Kernelfunktion:
(Beweise siehe Numerik)
Für Meßpunkte an ungleichmäßig verteilten Zeitpunkten läßt sich ebenfalls
eine vergleichbare Formel für die Berechnung der Spline-Funktion finden.
Seit 1979 sind außerdem Verfahren bekannt, mit denen
automatisch
optimal gewählt werden kann. Diese Verfahren basieren auf der Annahme, daß
die Zeitreihe einem glatten Trend folgt, welcher von Rauschen überlagert wird.
Allerdings wurde mittlererweile auch gezeigt, daß diese automatische Wahl von
zu sehr ungünstigen Ergebnissen führen kann, wenn die Überlagerung
des Trends nicht nur aus (unkorreliertem) Rauschen besteht, sondern
Abhängigkeiten zwischen den Werten bestehen.
Differenzenbildung
Das Ziel der Glättung war es, den Trend hervorzuheben (z.B. polynomiale
Näherung mit
). Das Ziel der Differenzenbildung ist es, solche Trends
aus den Meßwerten zu entfernen.
Definition: Differenzenoperator
Die erste Differenz der Zeitreihe
(geschrieben:
), ist definiert als:
Differenzen höherer Ordnung sind durch wiederholte Anwendung definiert:
Sei
eine lineare, nicht zufällige Funktion.
Dann ist
.
Besteht
aus einer polynomialen Funktion der Ordnung
und
einer stationären zufälligen Komponente, so ist
stationär,
d.h. Differenzenbildung entfernt polynomiale Trends.
Es ist
und
D.h. die Differenzenbildung stellt praktisch das Gegenstück zu den
gleitenden Durchschnitten dar.
Nächste Seite: Kenngrößen für Zeitreihen
Aufwärts: Seminar Zeitreihen
Vorherige Seite: Inhalt
  Inhalt
  Index
Alexander Herzog
2002-02-20