Saturday 14 January 2017

Loess Vs Gleitender Durchschnitt

LOESS ist eine von vielen modernen Modellierungsmethoden, die auf klassischen Methoden aufbauen, wie lineare und nichtlineare Regression der kleinsten Fehlerquadrate. Moderne Regressionsmethoden wurden entwickelt, um Situationen zu begegnen, in denen die klassischen Verfahren nicht gut funktionieren oder nicht ohne unnötige Arbeit effektiv angewendet werden können. LOESS kombiniert einen Großteil der Einfachheit der linearen Regression der kleinsten Quadrate mit der Flexibilität der nichtlinearen Regression. Dies geschieht durch die Anpassung einfacher Modelle an lokalisierte Teilmengen der Daten, um eine Funktion aufzubauen, die den deterministischen Teil der Variation in den Daten beschreibt. Punkt für Punkt. In der Tat ist eine der Hauptattraktionen dieses Verfahrens, dass der Datenanalytiker nicht benötigt wird, um eine globale Funktion irgendeiner Form zu spezifizieren, um ein Modell an die Daten anzupassen, nur um Segmente der Daten anzupassen. Der Kompromiss für diese Merkmale ist eine erhöhte Berechnung. Weil es so rechenintensiv ist, wäre LOESS in der Ära praktisch unmöglich gewesen, wenn die Regression der kleinsten Quadrate entwickelt wurde. Die meisten anderen modernen Methoden der Prozessmodellierung sind in dieser Hinsicht ähnlich wie LOESS. Diese Methoden wurden bewusst entwickelt, um unsere derzeitige Rechenfähigkeit in vollem Umfang nutzen, um Ziele zu erreichen, die nicht leicht durch traditionelle Ansätze erreicht werden. Definition eines LOESS-Modells LOESS, ursprünglich von Cleveland (1979) vorgeschlagen und weiterentwickelt von Cleveland und Devlin (1988). Spezifisch ein Verfahren, das (etwas) deskriptiv als lokal gewichtete polynomielle Regression bekannt ist. An jedem Punkt in dem Datensatz wird ein Polynom mit niedrigem Grad zu einer Teilmenge der Daten angepasst, wobei er Erläuterungsvariablenwerte nahe dem Punkt, dessen Antwort geschätzt wird, aufweisen. Das Polynom wird mit gewichteten kleinsten Quadraten angepasst, was mehr Punkten in der Nähe des Punktes ergibt, dessen Reaktion geschätzt wird, und weniger Gewicht zu Punkten weiter weg. Der Wert der Regressionsfunktion für den Punkt wird dann durch Auswertung des lokalen Polynoms unter Verwendung der erläuternden Variablenwerte für diesen Datenpunkt erhalten. Der LOESS-Fit ist abgeschlossen, nachdem Regressionsfunktionswerte für jeden der (n) Datenpunkte berechnet worden sind. Viele Details dieses Verfahrens, wie der Grad des Polynommodells und die Gewichte, sind flexibel. Die Auswahlmöglichkeiten für jeden Teil der Methode und typische Vorgaben werden im Folgenden kurz erläutert. Lokalisierte Untermengen von Daten Die Untermengen von Daten, die für jede gewichtete Kleinstquadrat-Anpassung in LOESS verwendet werden, werden durch einen nächsten Nachbar-Algorithmus bestimmt. Eine benutzerdefinierte Eingabe in die Prozedur, die als Bandbreiten - oder Glättungsparameter bezeichnet wird, bestimmt, wie viel der Daten verwendet wird, um jedes lokale Polynom anzupassen. Der Glättungsparameter (q) ist eine Zahl zwischen ((d1) n) und (1), wobei (d) der Grad des lokalen Polynoms ist. Der Wert von (q) ist der Anteil der in jedem Fit verwendeten Daten. Die Untermenge der Daten, die in jeder gewichteten Kleinste-Quadrate-Anpassung verwendet werden, umfasst die (nq) (gerundet auf die nächstgrößeren Integer) Punkte, deren erläuternde Variablenwerte dem Punkt am nächsten liegen, an dem die Antwort geschätzt wird. (Q) heißt der Glättungsparameter, da er die Flexibilität der LOESS-Regressionsfunktion steuert. Große Werte von (q) erzeugen die glattesten Funktionen, die am wenigsten in Reaktion auf Schwankungen der Daten wackeln. Je kleiner (q) ist, desto näher ist die Regressionsfunktion den Daten. Ein zu kleiner Wert des Glättungsparameters zu verwenden, ist jedoch nicht wünschenswert, da die Regressionsfunktion schließlich beginnen wird, den Zufallsfehler in den Daten zu erfassen. Nützliche Werte des Glättungsparameters liegen typischerweise im Bereich von 0,25 bis 0,5 für die meisten LOESS-Anwendungen. Grad der lokalen Polynome Die lokalen Polynome, die zu jeder Untermenge der Daten passen, sind fast immer von einem ersten oder zweiten Grad, der entweder lokal linear (im Geraden-Sinn) oder lokal quadratisch ist. Bei Verwendung eines Nullgradpolynoms wird LOESS in einen gewichteten gleitenden Durchschnitt verschoben. Ein solches einfaches lokales Modell könnte für einige Situationen gut funktionieren, kann aber nicht immer die zugrundeliegende Funktion gut genug approximieren. Polynome höherer Ordnung würden in der Theorie funktionieren, aber Modelle liefern, die nicht wirklich im Geist von LOESS sind. LOESS basiert auf den Ideen, dass jede Funktion in einem kleinen Umfeld durch ein niederwertiges Polynom gut angenähert werden kann und dass einfache Modelle problemlos an Daten angepasst werden können. Hochgradige Polynome neigen dazu, die Daten in jeder Untermenge zu überladen und sind numerisch instabil, was genaue Berechnungen schwierig macht. Wie oben erwähnt, gibt die Gewichtungsfunktion die am meisten von dem Punkt der Schätzung am nächsten gelegenen Datenpunkte und die geringste Gewichtung zu den am weitesten entfernten Datenpunkten. Die Verwendung der Gewichte beruht auf der Idee, dass Punkte, die nahe zu einander in dem erläuternden variablen Raum liegen, eher aufeinander bezogen werden können als auf Punkte, die weiter voneinander entfernt sind. Nach dieser Logik beeinflussen Punkte, die dem lokalen Modell am besten folgen, die lokalen Modellparameter-Schätzungen am meisten. Punkte, die weniger wahrscheinlich sind, tatsächlich mit dem lokalen Modell übereinzustimmen, haben weniger Einfluss auf die lokalen Modellparameterschätzungen. Die traditionelle Gewichtsfunktion, die für LOESS verwendet wird, ist die Tri-Cube-Gewichtsfunktion, w (x) links (1 - x3) 3 mboxThere gibt eine Reihe von Ansätzen zur Modellierung von Zeitreihen. Wir skizzieren einige der häufigsten Ansätze unten. Trend, saisonal, Restzersetzungen Ein Ansatz ist es, die Zeitreihen in einen Trend-, Saison - und Restbestandteil zu zerlegen. Eine dreifache Exponentialglättung ist ein Beispiel für diesen Ansatz. Ein anderes Beispiel, das saisonale Löß genannt wird, basiert auf lokal gewichteten kleinsten Quadraten und wird von Cleveland (1993) diskutiert. Wir behandeln nicht saisonale Löss in diesem Handbuch. Frequenzbasierte Methoden Ein weiterer Ansatz, der in der wissenschaftlichen und technischen Anwendung häufig verwendet wird, besteht darin, die Serie im Frequenzbereich zu analysieren. Ein Beispiel für diesen Ansatz bei der Modellierung eines sinusartigen Datensatzes wird in der Strahlablenkungsfallstudie gezeigt. Das Spektraldiagramm ist das Hauptinstrument für die Frequenzanalyse von Zeitreihen. Autoregressive (AR) Modelle Ein allgemeiner Ansatz für die Modellierung univariater Zeitreihen ist das autoregressive (AR) Modell: Xt delta phi1 X phi2 X cdots phip X At, wobei (Xt) die Zeitreihe, (At) weißes Rauschen und delta ist Links (1 - sum p phii rechts) mu. Mit (mu) das Prozeßmittel. Ein autoregressives Modell ist einfach eine lineare Regression des aktuellen Wertes der Serie gegen einen oder mehrere vorherige Werte der Serie. Der Wert von (p) wird als Ordnung des AR-Modells bezeichnet. AR-Modelle können mit einer von verschiedenen Methoden analysiert werden, einschließlich Standard-linearen Methoden der kleinsten Quadrate. Sie haben auch eine einfache Interpretation. Moving Average (MA) Modelle Ein weiteres gemeinsames Konzept für die Modellierung von univariaten Zeitreihenmodellen ist das gleitende Durchschnittsmodell (MA): Xt mu At - theta1 A - theta2 A - cdots - thetaq A, wobei (Xt) die Zeitreihe (mu ) Ist der Mittelwert der Reihe, (A) sind weiße Rauschterme, und (theta1,, ldots,, thetaq) sind die Parameter des Modells. Der Wert von (q) wird als Ordnung des MA-Modells bezeichnet. Das heißt, ein gleitendes Durchschnittsmodell ist konzeptionell eine lineare Regression des aktuellen Wertes der Reihe gegen das weiße Rauschen oder zufällige Schocks eines oder mehrerer früherer Werte der Reihe. Es wird angenommen, daß die zufälligen Schocks an jedem Punkt von der gleichen Verteilung, typischerweise einer Normalverteilung, mit einer Stelle bei Null und einer konstanten Skala kommen. Die Unterscheidung in diesem Modell ist, dass diese zufälligen Schocks propagiert werden, um zukünftige Werte der Zeitreihe. Das Anpassen der MA-Schätzungen ist komplizierter als bei AR-Modellen, da die Fehlerterme nicht beobachtbar sind. Dies bedeutet, dass iterative nicht-lineare Anpassungsverfahren anstelle von linearen kleinsten Quadraten verwendet werden müssen. MA-Modelle haben auch eine weniger offensichtliche Interpretation als AR-Modelle. Manchmal schlagen die ACF und PACF vor, dass ein MA-Modell eine bessere Modellwahl wäre und manchmal beide AR - und MA-Begriffe in demselben Modell verwendet werden sollten (siehe Abschnitt 6.4.4.5). Beachten Sie jedoch, dass die Fehlerterme nach dem Modell unabhängig sein sollten und den Standardannahmen für einen univariaten Prozess folgen. Box und Jenkins einen Ansatz, der den gleitenden Durchschnitt und die autoregressiven Ansätze in dem Buch Time Series Analysis: Forecasting and Control (Box, Jenkins und Reinsel, 1994) kombiniert. Obwohl sowohl autoregressive als auch gleitende Durchschnittsansätze bereits bekannt waren (und ursprünglich von Yule untersucht wurden) bestand der Beitrag von Box und Jenkins darin, eine systematische Methodik zur Identifizierung und Schätzung von Modellen zu entwickeln, die beide Ansätze berücksichtigen könnten. Dies macht Box-Jenkins Modelle eine leistungsfähige Klasse von Modellen. Die nächsten Abschnitte behandeln diese Modelle im Detail.


No comments:

Post a Comment