Sunday, 5 February 2017

Poly In Stata Forex

Idiosynkratisches Risiko BREAKING DOWN Idiosynkratisches Risiko Idiosynkratisches Risiko kann als die Faktoren, die einen Vermögenswert wie eine Aktie und ihre zugrunde liegenden Unternehmen auf der mikroökonomischen Ebene beeinflussen gedacht werden. Idiosynkratisches Risiko hat wenig oder keine Korrelation mit Marktrisiken. Und kann daher durch eine angemessene Diversifizierung erheblich gemildert oder aus einem Portfolio eliminiert werden. Die Forschung deutet darauf hin, dass idiosynkratische Risiko für die meisten der Variation in das Risiko eines einzelnen Bestandes über die Zeit statt Marktrisiko. Da idiosynkratisches Risiko per definitionem im Allgemeinen nicht vorhersehbar ist, versuchen Anleger, ihre negativen Auswirkungen auf ein Anlageportfolio durch Diversifizierung oder Hedging zu minimieren. Systematische Risiken sind die makroökonomischen Faktoren, die nicht nur einen einzigen Vermögenswert, sondern auch andere Vermögenswerte wie es und größere Märkte und Volkswirtschaften zu beeinflussen. Systematisches Risiko kann nicht beseitigt werden, indem mehr und mehr Vermögenswerte zu einem Portfolio hinzugefügt werden. So kann zum Beispiel das Marktrisiko nicht durch Hinzufügen von Beständen verschiedener Sektoren zu einem Anlageportfolio eliminiert werden, unabhängig von deren Anzahl. Beispiele für idiosynkratisches Risiko Alle Pipeline-Unternehmen und ihre Bestände sind mit dem idiosynkratischen Risiko konfrontiert, dass ihre Pipelines beschädigt werden, Öl auslaufen und Reparaturkosten, Klagen oder Geldbußen von staatlichen Stellen verursachen können. Unglückliche Umstände wie diese können dazu führen, dass das Unternehmen die Ausschüttungen an die Anleger verringert und die Aktie zum Kursrückgang führt. Das Risiko, dass ein Pipeline-Unternehmen aufgrund einer Ölpest massive Schäden verursacht, kann durch Investitionen in einen breiten Querschnitt von Beständen im Portfolio gemildert werden. Ein makroökonomischer Faktor lässt sich jedoch nicht abweichen, da er nicht nur Pipelines, sondern alle Bestände betrifft. Wenn die Zinsen steigen, zum Beispiel, wird der Wert einer Pipeline Unternehmen Aktie wahrscheinlich im Einklang mit allen anderen Beständen. Das ist ein systematisches Risiko. Ein weiteres Beispiel für idiosynkratisches Risiko ist eine Abhängigkeit des Unternehmens vom CEO. Als Apple CEO und Mitbegründer, Steve Jobs, krank wurde und nahm eine Beurlaubung von der Firma, Apples-Aktie weiterhin in absoluten Zahlen zu schätzen, aber seine Bewertung im Vergleich zu Preis-Multiples fiel. Nachdem Jobs vergangen war, gehandelt Äpfel-Aktien niedriger. Jobs war bekannt dafür, ein Visionär und drehte sich um Apple als solche, seine Führung war Teil des Äpfels Erfolg und letztlich seinen Aktienkurs. Gemeinsame idiosynkratische Risiken Entscheidungen der Unternehmensleitung über Finanzpolitik, Investitionspolitik und Operationen sind alle für ein bestimmtes Unternehmen und jede Aktie spezifische spezifische Risiken. Weitere Beispiele sind der Standort der Operationen und die Unternehmenskultur. Im Gegensatz dazu können nonidiosynkratische Risiken Zinsen, Inflation, Wirtschaftswachstum oder Steuerpolitik einschließen. Willkommen für das Institut für digitale Forschung und Bildung Regression mit SAS Kapitel 5: Zusätzliche Codierungssysteme für kategorische Variablen in der Regressionsanalyse Kapitelübersicht 5.1 Einfache Codierung 5.2 Vorwärtsdifferenz Kodierung 5.3 Rückwärtsdifferenzkodierung 5.4 Helmert-Kodierung 5.5 Reverse Helmert-Kodierung 5.6 Abweichungs-Kodierung 5.7 Orthogonale Polynomkodierung 5.8 Benutzerdefinierte Kodierung 5.9 Zusammenfassung Kategoriale Variablen erfordern bei der Regressionsanalyse besondere Aufmerksamkeit, da sie im Gegensatz zu dichotomen oder kontinuierlichen Variablen nicht in die Regressionsgleichung eingehen können So wie sie sind. Zum Beispiel, wenn Sie eine Variable namens Rasse, die 1 Hispanic, 2 Asiatische 3 Schwarz 4 Weiß codiert ist, dann Eingabe Rasse in Ihrer Regression wird auf die lineare Wirkung der Rasse, die wahrscheinlich nicht das, was Sie beabsichtigt. Stattdessen müssen kategorische Variablen wie diese in eine Reihe von Variablen umcodiert werden, die dann in das Regressionsmodell eingegeben werden können. Es gibt eine Vielzahl von Codierungssystemen, die beim Codieren kategorischer Variablen verwendet werden können. Idealerweise würden Sie ein Codierungssystem wählen, das die Vergleiche widerspiegelt, die Sie machen möchten. In Kapitel 3 der Regression mit SAS Web Book haben wir die Verwendung von kategorischen Variablen in der Regressionsanalyse behandelt, die sich auf die Verwendung von Dummy-Variablen konzentriert, aber das ist nicht das einzige Codierungsschema, das Sie verwenden können. Sie können beispielsweise jede Ebene mit der nächsthöheren Ebene vergleichen, wobei Sie in diesem Fall eine Quottendifferenzquot-Codierung verwenden möchten, oder Sie möchten jede Ebene mit dem Mittelwert der nachfolgenden Ebenen der Variablen vergleichen Möchten Sie quotHelmertquot-Codierung verwenden. Durch die bewusste Auswahl eines Codierungssystems erhalten Sie Vergleiche, die für die Prüfung Ihrer Hypothesen aussagekräftig sind. Unabhängig von dem Codierungssystem, das Sie wählen, wird der Test der Gesamteffekt der kategorischen Variablen (d. h. der Gesamteffekt der Rasse) gleich bleiben. Unten ist eine Tabelle mit verschiedenen Arten von Kontrasten und den Vergleich, den sie machen. Name des Kontrasts Vergleicht jede Ebene einer Variablen mit dem Referenzpegel Benachbarte Ebenen einer Variablen (jede Ebene minus der nächsten Ebene) Benachbarte Ebenen einer Variablen (jede Ebene minus der vorherigen Ebene) Vergleichen Sie die Ebenen einer Variablen mit dem Mittelwert der Folge Ebenen der Variablen Vergleicht die Ebenen einer Variablen mit dem Mittelwert der vorherigen Ebenen der Variablen Vergleicht die Abweichungen von den großen mittleren orthogonalen Polynomkontrasten Es gibt ein paar Notizen über die oben aufgeführten Kodierungssysteme. Die erste ist, dass sie geplante Vergleiche und nicht posthoc Vergleiche darstellen. Mit anderen Worten, sie sind Vergleiche, die Sie vor der Analyse Ihrer Daten planen, nicht Vergleiche, die Sie denken, sobald Sie die Ergebnisse der vorläufigen Analysen gesehen haben. Auch einige Formen der Kodierung machen mehr Sinn mit ordinalen kategorischen Variablen als mit nominalen kategorischen Variablen. Im folgenden zeigen wir Beispiele mit Rasse als kategoriale Variable, die eine nominale Variable ist. Da die Einfacheffektkodierung den Mittelwert der abhängigen Variablen für jede Ebene der kategorialen Variablen mit dem Mittelwert der abhängigen Variablen für den Referenzpegel vergleicht, ist sie mit einer Nominalvariablen sinnvoll. Jedoch kann es nicht so viel Sinn machen, ein Codierungsschema zu verwenden, das die lineare Wirkung des Rennens testet. Wie wir jede Art von Codierung System zu beschreiben, beachten wir die Codierung Systeme, mit denen es nicht so viel Sinn, eine nominale Variable verwenden. Außerdem können Sie feststellen, dass wir bei der Erstellung der Kontrastcodierungsschemata mehrere Regeln befolgen. Weitere Informationen zu diesen Regeln finden Sie im Abschnitt Benutzerdefinierte Codierung. Diese Seite veranschaulicht zwei Möglichkeiten, wie Sie Analysen unter Verwendung dieser Codierungsschemata durchführen können: 1) Verwenden von proc glm mit Schätzanweisungen, um quotcontrastquot-Koeffizienten zu definieren, die Ebenen der kategorialen Variablen angeben, die verglichen werden sollen, und 2) mit proc reg. Wenn Sie proc reg verwenden, um Kontraste zu erstellen, müssen Sie zunächst k-1 neue Variablen erstellen (wobei k die Anzahl der Ebenen der kategorischen Variablen ist) und diese neuen Variablen als Prädiktoren in Ihrem Regressionsmodell verwenden. Methode 1 verwendet eine Art der Codierung, die wir quotcontrast codingquot aufrufen werden, während Methode 2 verwendet eine Art der Codierung werden wir quotregression Codingquot aufrufen. Die Beispiel-Datendatei Die Beispiele auf dieser Seite verwenden das Dataset namens hsb2.sas7bdat und wir konzentrieren uns auf das kategorische Variablen-Rennen. Die vier Ebenen hat (1 Hispanic, 2 Asian, 3 African American und 4 White) und wir schreiben als unsere abhängige Variable schreiben. Obwohl unser Beispiel eine Variable mit vier Ebenen verwendet, arbeiten diese Codierungssysteme mit Variablen, die mehr oder weniger Kategorien haben. Unabhängig davon, welches Codierungssystem Sie auswählen, haben Sie immer eine weniger umcodierte Variable als die Ebenen der ursprünglichen Variablen. In unserem Beispiel hat unsere kategorische Variable vier Ebenen, so dass wir drei neue Variablen haben werden (eine Variable, die dem endgültigen Niveau der kategorischen Variablen entspricht, wäre überflüssig und daher unnötig). Bevor wir irgendwelche Analysen betrachten, betrachten wir den Mittelwert der abhängigen Variablen, schreiben. Für jede Rasse. Dies hilft bei der Interpretation der Ausgabe aus späteren Analysen. Die Ergebnisse der einfachen Codierung sind der Dummy-Codierung sehr ähnlich, da jede Ebene mit dem Referenzpegel verglichen wird. Im Beispiel unten ist Stufe 4 der Referenzpegel, und der erste Vergleich vergleicht Pegel 1 mit Pegel 4, der zweite Vergleich Pegel 2 mit Pegel 4 und der dritte Vergleich Pegel 3 mit Pegel 4. Prozeß 1: PROC GLM Die Tabelle Unten zeigt die einfache Codierung, die die oben beschriebenen Vergleiche vornimmt. Der erste Kontrast vergleicht Pegel 1 mit Pegel 4 und Pegel 1 wird mit 1 codiert und Pegel 4 mit -1 codiert. Ebenso vergleicht der zweite Kontrast Level 2 mit Level 4 durch Codierung von Level 2 als 1 und Level 4 als -1. Wie Sie mit Kontrast-Codierung sehen können, können Sie die Bedeutung der Vergleiche einfach durch Inspektion der Kontrast-Koeffizienten zu erkennen. Wenn Sie beispielsweise die Kontrastkoeffizienten für c3 betrachten, können Sie sehen, dass sie die Ebene 3 mit der Ebene 4 vergleicht. Einfache Kontrasterkennung Neue Variable 1 (c1) Neue Variable 2 (c2) Nachfolgend zeigen wir, wie diese Vergleiche mit proc glm zu bilden sind. Wie Sie sehen, wird für jeden Kontrast eine separate Schätzanweisung verwendet. Die Kontrastschätzung für den ersten Kontrast vergleicht den Mittelwert der abhängigen Variablen, schreiben. Für die Level 1 und 4 mit -7.597 und ist statistisch signifikant (plt.000). Der mit diesem Test assoziierte t-Wert ist -3,82. Die Ergebnisse des zweiten Kontrastes, die den Mittelwert des Schreibens für die Stufen 2 und 4 vergleichen, sind nicht statistisch signifikant (t 1,40, S. 1638), während der dritte Kontrast statistisch signifikant ist. Beachten Sie, dass, während wir die vollständige SAS-Ausgabe für dieses Beispiel enthalten haben, wir nur die entsprechende Ausgabe in späteren Beispielen zeigen, um Platz zu sparen. Methode 2: Regression Die Regressionscodierung ist etwas komplexer als die Kontrastcodierung. In unserem Beispiel unten ist Level 4 der Referenzpegel und x1 vergleicht Level 1 mit Level 4, x2 vergleicht Level 2 mit Level 4 und x3 vergleicht Level 3 mit Level 4. Für x1 ist die Codierung 34 für Level 1 und -14 Für alle anderen Ebenen. Ebenso ist für x2 die Kodierung 34 für die Ebene 2 und -14 für alle anderen Ebenen und für x3 die Kodierung 34 für die Ebene 3 und -14 für alle anderen Ebenen. Es ist nicht intuitiv, dass dieses Regressionscodierungsschema diese Vergleiche liefert, wenn Sie jedoch einfache Vergleiche wünschen, können Sie dieser allgemeinen Regel folgen, um diese Vergleiche zu erhalten. Simple Regression Coding Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) 3 (African American) Im Folgenden zeigen wir die allgemeinere Regel für die Schaffung dieser Art von Kodierungsschema mit Regression Kodierung, wobei k die Zahl der Ebenen der kategorischen Variablen (in diesem Fall k 4). SIMPLE Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Nachfolgend zeigen wir, wie man x1 erzeugt. X2 und x3 und geben Sie diese neuen Variablen in das Regressionsmodell mit proc reg ein. Sie werden feststellen, dass die Regressionskoeffizienten in der folgenden Tabelle die gleichen sind wie die Kontrastkoeffizienten, die wir mit proc glm sahen. Sowohl der Regressionskoeffizient für x1 als auch die Kontrastschätzung für c1 sind der Mittelwert des Schreibens für die Stufe 1 der Rasse (Hispanic) minus dem Mittelwert des Schreibens für Level 4 (weiß). Ebenso sind der Regressionskoeffizient für x2 und die Kontrastschätzung für c2 der Mittelwert des Schreibens für Stufe 2 (asiatisch) minus dem Mittelwert des Schreibens für Ebene 4 (weiß). Sie können auch sehen, dass die t-Werte und die Signifikanzniveaus auch die gleichen sind wie die der Proc-Glm-Ausgabe. Beachten Sie, dass, während wir die vollständige SAS-Ausgabe für dieses Beispiel enthalten haben, wir nur die entsprechende Ausgabe in späteren Beispielen zeigen, um Platz zu sparen. 5.2 Vorwärtsdifferenzcodierung In diesem Codierungssystem wird der Mittelwert der abhängigen Variablen für eine Ebene der kategorischen Variablen mit dem Mittelwert der abhängigen Variablen für den nächsten (benachbarten) Pegel verglichen. In unserem Beispiel unten vergleicht der erste Vergleich den Mittelwert des Schreibens für Stufe 1 mit dem Mittelwert des Schreibens für Stufe 2 der Rasse (Hispanics minus Asians). Der zweite Vergleich vergleicht den Mittelwert des Schreibens für den Pegel 2 abzüglich des Pegels 3. Der dritte Vergleich vergleicht den Mittelwert des Schreibens für den Pegel 3 mit dem Pegel 4. Dieser Codierungstyp kann sowohl mit einer nominalen als auch mit einer ordinalen Variablen nützlich sein. Methode 1: PROC GLM VORWÄRTSDIFFERENZ Kontrastkodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Stufe 1 v. Stufe 2 Stufe 2 v. Stufe 3 Stufe 3 v. Stufe 4 3 (African American) Mit diesem Codierungssystem werden benachbarte Ebenen der kategorischen Variablen verglichen. Somit wird der Mittelwert der abhängigen Variablen auf Ebene 1 mit dem Mittelwert der abhängigen Variablen auf Stufe 2 verglichen: 46.4583 - 58 - 11.542, was statistisch signifikant ist. Für den Vergleich zwischen den Ebenen 2 und 3 wäre die Berechnung des Kontrastkoeffizienten 58 - 48,2 9,8, was ebenfalls statistisch signifikant ist. Schließlich, Vergleich der Ebenen 3 und 4, 48.2 - 54.0552 -5.855, ein statistisch signifikanter Unterschied. Daraus lässt sich schließen, dass jede benachbarte Rasse statistisch signifikant verschieden ist. Methode 2: Regression Für den ersten Vergleich, bei dem der erste und der zweite Pegel verglichen werden, wird x1 für den Pegel 1 codiert 34 und die anderen Pegel für codiert -14. Für den zweiten Vergleich, bei dem Stufe 2 mit Stufe 3 verglichen wird, ist x2 codiert 12 12 -12 -12, und für den dritten Vergleich, bei dem Stufe 3 mit Stufe 4 verglichen wird, ist x3 codiert 14 14 14 -34. FORWARD DIFFERENCE Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) Ebene 1 v. Ebene 2 Ebene 2 v. Ebene 3 Ebene 3 v. Ebene 4 3 (African American) Die allgemeine Regel dafür Regressionscodierungsschema ist nachstehend gezeigt, wobei k die Anzahl von Stufen der kategorischen Variablen (in diesem Fall k & sub4;) ist. VORWÄRTS-DIFFERENZ Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Sie sehen den Regressionskoeffizienten für x1 ist der Mittelwert des Schreibens für Level 1 (Hispanic) minus dem Mittelwert des Schreibens für Level 2 (asiatisch). Ebenso ist der Regressionskoeffizient für x2 der Mittelwert des Schreibens für Stufe 2 (asiatisch) minus dem Mittelwert des Schreibens für Stufe 3 (African American) und der Regressionskoeffizient für x3 ist der Mittelwert des Schreibens für Stufe 3 (Afroamerikaner) minus Der Mittelwert des Schreibens für Stufe 4 (weiß). 5.3 Rückwärtsdifferenzcodierung In diesem Codierungssystem wird der Mittelwert der abhängigen Variablen für eine Ebene der kategorischen Variablen mit dem Mittelwert der abhängigen Variablen für die vorherige benachbarte Ebene verglichen. In unserem Beispiel unten vergleicht der erste Vergleich den Mittelwert des Schreibens für Stufe 2 mit dem Mittelwert des Schreibens für Stufe 1 der Rasse (Hispanics minus Asians). Der zweite Vergleich vergleicht den Mittelwert des Schreibens für den Pegel 3 abzüglich des Pegels 2, und der dritte Vergleich vergleicht den Mittelwert des Schreibens für den Pegel 4 abzüglich des Pegels 3. Dieser Codetyp kann sowohl mit einer nominalen als auch mit einer ordinalen Variablen nützlich sein. Methode 1: PROC GLM BACKWARD DIFFERENCE Kontrastcodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Ebene 1 v. Ebene 2 Ebene 2 v. Ebene 3 Ebene 3 v. Ebene 4 3 (African American) Mit diesem Codierungssystem werden benachbarte Ebenen der kategorischen Variablen verglichen, wobei jedes Niveau gegenüber dem vorherigen Niveau verglichen wird. Daher wird der Mittelwert der abhängigen Variablen auf Ebene 2 mit dem Mittelwert der abhängigen Variablen auf Stufe 1 verglichen: 58 - 46.4583 11.542, was statistisch signifikant ist. Für den Vergleich zwischen den Ebenen 3 und 2 beträgt die Berechnung des Kontrastkoeffizienten 48,2 - 58 - 9,8, was ebenfalls statistisch signifikant ist. Schließlich, Vergleich der Ebenen 4 und 3, 54.0552 - 48.2 5.855, ein statistisch signifikanter Unterschied. Daraus lässt sich schließen, dass jede benachbarte Rasse statistisch signifikant verschieden ist. Methode 2: Regression Für den ersten Vergleich, bei dem der erste und der zweite Pegel verglichen werden, wird x1 für den Pegel 1 codiert 34, während die anderen Pegel codiert sind -14. Für den zweiten Vergleich, bei dem Stufe 2 mit Stufe 3 verglichen wird, ist x2 codiert 12 12 -12 -12, und für den dritten Vergleich, bei dem Stufe 3 mit Stufe 4 verglichen wird, ist x3 codiert 14 14 14 -34. BACKWARD DIFFERENCE Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) Ebene 2 v. Ebene 1 Ebene 3 v. Ebene 2 Ebene 4 v. Ebene 3 3 (African American) Die allgemeine Regel dafür Regression-Codierungsschema ist unten gezeigt, wobei k die Anzahl von Ebenen der kategorischen Variablen (in diesem Fall k & sub4;) ist. BACKWARD DIFFERENCE Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Im obigen Beispiel ist der Regressionskoeffizient für x1 der Mittelwert des Schreibens für Level 2 minus dem Mittelwert des Schreibens für Level 1 (58- 46.4583 11.542). Ebenso ist der Regressionskoeffizient für x2 der Mittelwert des Schreibens für den Pegel 3 minus dem Mittelwert des Schreibens für den Pegel 2, und der Regressionskoeffizient für x3 ist der Mittelwert des Schreibens für das Niveau 4 minus dem Mittelwert des Schreibens für das Niveau 3. 5.4 Helmert-Codierung Die Helmert-Kodierung vergleicht jede Ebene einer kategorischen Variablen mit dem Mittelwert der nachfolgenden Ebenen. Somit vergleicht der erste Kontrast den Mittelwert der abhängigen Variablen für die Stufe 1 der Rasse mit dem Mittelwert aller nachfolgenden Rassebenen (Stufen 2, 3 und 4), wobei der zweite Kontrast den Mittelwert der abhängigen Variablen für die Ebene vergleicht 2 des Rennens mit dem Mittelwert aller nachfolgenden Rennen (Stufe 3 und 4), und der dritte Kontrast vergleicht den Mittelwert der abhängigen Variablen für Rasse Ebene 3 mit dem Mittelwert aller nachfolgenden Rassebenen (Level 4). Während diese Art von Kodierungssystem nicht viel Sinn macht mit einer Nenngröße wie Rasse. Ist es in Situationen nützlich, in denen die Ebenen der kategorischen Variablen geordnet sind, z. B. vom niedrigsten zum höchsten oder kleinsten zum größten usw. Für die Helmert-Codierung sehen wir, dass der erste Vergleichsvergleichsgrad 1 mit den Ebenen 2, 3 und 4 codiert ist 1, -13, -13 und -13, was den Vergleich des Pegels 1 mit allen anderen Pegeln widerspiegelt. Der zweite Vergleich wird mit 0, 1, -12 und -12 codiert, was bedeutet, dass er den Pegel 2 mit den Pegeln 3 und 4 vergleicht. Der dritte Vergleich wird mit 0, 0, 1 und -1 codiert, was bedeutet, dass Pegel 3 mit Pegel 4 verglichen wird Methode 1: PROC GLM HELMERT Kontrastcodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Ebene 1 v. Spätere Ebene 2 v. Spätere Ebene 3 v. Später 3 (Afroamerikanische) Unten zeigen wir Wie diese Vergleiche unter Verwendung von proc glm mit Schätzanweisungen zu bilden. Beachten Sie, dass wir auf der ersten Schätzungsanweisung -.33333 und nicht nur -.33. Wir müssen diese vielen Dezimalstellen verwenden, so daß die Summe aller Kontrastkoeffizienten (d. h. 1 - 0,33333 - 0,33333 - 0,33333) ausreichend nahe Null ist, andernfalls wird SAS sagen, daß der Term nicht abgeschätzt werden kann. Die Kontrastschätzung für den Vergleich zwischen Stufe 1 und den verbleibenden Stufen wird berechnet, indem der Mittelwert der abhängigen Variablen für Stufe 1 genommen und der Mittelwert der abhängigen Variablen für die Stufen 2, 3 und 4 subtrahiert wird: 46.4583 - (58 48.2 54.0552) 3 -6.960, was statistisch signifikant ist. Dies bedeutet, daß der Mittelwert des Schreibens für die Stufe 1 der Rasse statistisch signifikant von dem Mittelwert des Schreibens für die Ebenen 2 bis 4 verschieden ist. Wie oben erwähnt, ist dieser Vergleich wahrscheinlich nicht sinnvoll, weil der variable Rennen nominal ist. Diese Art von Vergleich wäre sinnvoller, wenn die kategorische Variable Ordinalzahl wäre. Um den Kontrastkoeffizienten für den Vergleich zwischen Stufe 2 und den späteren Stufen zu berechnen, subtrahieren Sie den Mittelwert der abhängigen Variablen für die Stufen 3 und 4 vom Mittelwert der abhängigen Variablen für Stufe 2: 58 - (48.2 54.0552) 2 6.872 Ist statistisch signifikant. Die Kontrastschätzung für den Vergleich zwischen Ebene 3 und Ebene 4 ist die Differenz zwischen dem Mittelwert der abhängigen Variablen für die beiden Ebenen: 48.2 - 54.0552 -5.855, die ebenfalls statistisch signifikant ist. Methode 2: Regression Nachfolgend sehen wir ein Beispiel der Helmert-Regressionscodierung. Für den ersten Vergleich (Vergleichsstufe 1 mit den Stufen 2, 3 und 4) sind die Codes 34 und -14 -14 -14. Der zweite Vergleich vergleicht Stufe 2 mit den Ebenen 3 und 4 und ist codiert 0 23 -13 -13. Der dritte Vergleich vergleicht den Pegel 3 mit dem Pegel 4 und ist mit 0 0 12 -12 kodiert. HELMERT-Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) Nachfolgend zeigen wir, wie man x1 erzeugt. X2 und x3 und geben Sie diese neuen Variablen in das Regressionsmodell mit porc reg ein. Wie Sie unten sehen, ist der Regressionskoeffizient für x1 der Mittelwert des Schreibens für Stufe 1 (Hispanic) gegenüber allen nachfolgenden Ebenen (Level 2, 3 und 4). Ebenso ist der Regressionskoeffizient für x2 der Mittelwert des Schreibens für den Pegel 2 minus dem Mittelwert des Schreibens für die Pegel 3 und 4. Schließlich ist der Regressionskoeffizient für x3 der Mittelwert des Schreibens für den Pegel 3 minus dem Mittelwert des Schreibens für den Pegel 4. 5.5 Reverse Helmert-Codierung Die Reverse-Helmert-Codierung (auch bekannt als Differenzcodierung) ist genau das Gegenteil der Helmert-Codierung: Anstatt jedes Niveau der kategorialen Variablen mit dem Mittelwert der nachfolgenden Ebene (n) zu vergleichen, wird jedes mit dem Mittelwert des vorherigen verglichen Ebene (n). In unserem Beispiel kodiert der erste Kontrast den Vergleich des Mittelwerts der abhängigen Variablen für Stufe 2 der Rasse mit dem Mittelwert der abhängigen Variablen für Stufe 1 der Rasse. Der zweite Vergleich vergleicht den Mittelwert der abhängigen Variablen Stufe 3 der Rasse mit beiden Ebenen 1 und 2 der Rasse. Und der dritte Vergleich vergleicht den Mittelwert der abhängigen Variablen für die Stufe 4 des Rennens mit den Stufen 1, 2 und 3. Dieses Codierungssystem macht mit unserem Rennensbeispiel nicht viel Sinn, da es sich um eine Nennvariable handelt. Dieses System ist jedoch sinnvoll, wenn die Ebenen der kategorischen Variablen sinnvoll geordnet sind. Wenn wir zum Beispiel eine kategorische Variable hatten, in der arbeitsbedingter Stress als niedrig, mittel oder hoch kodiert wurde, wäre ein Vergleich der Mittel der vorherigen Ebenen der Variablen sinnvoller. Für die umgekehrte Helmert-Codierung sehen wir, daß der erste Vergleich, der die Pegel 1 und 2 vergleicht, mit -1 und 1 codiert wird, um diese Pegel zu vergleichen und 0 andernfalls. Der Vergleich der Vergleichsstufen 1, 2 mit dem Pegel 3 ist mit -12, -12, 1 und 0 codiert und die Vergleichsstufen 1, 2 und 3 mit dem Pegel 4 sind mit -13, -13, -13 und 1 kodiert. Methode 1: PROC GLM REVERSE HELMERT Kontrastcodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Nachfolgend zeigen wir, wie diese Vergleiche mit proc glm mit Schätzanweisungen zu bilden sind. Beachten Sie, dass bei der dritten Schätzungsanweisung -.33333 und nicht nur -.33. Wir müssen diese vielen Dezimalstellen verwenden, so daß die Summe aller Kontrastkoeffizienten (d. h. -.333333 - .333333 - .333333 1) hinreichend nahe Null ist, andernfalls wird SAS sagen, daß der Term nicht abgeschätzt werden kann. Eine andere Möglichkeit, die das Problem der sich wiederholenden Dezimalstellen löst, ist unten gezeigt. Nur ein Ausgang wird angezeigt, da die beiden Ausgänge identisch sind. Die Kontrastschätzung für den ersten Vergleich in dieser Ausgabe wurde durch Subtrahieren des Mittelwerts der abhängigen Variablen für Ebene 2 der kategorischen Variablen vom Mittelwert der abhängigen Variablen für Ebene 1: 58 - 46.4583 11.542 berechnet. Dieses Ergebnis ist statistisch signifikant. Die Kontrastschätzung für den zweiten Vergleich (zwischen Stufe 3 und den vorherigen Pegeln) wurde durch Subtrahieren des Mittelwerts der abhängigen Variablen für die Pegel 1 und 2 von der des Pegels 3 berechnet: 48,2 - (46,4583 58) 2 -4,029. Dieses Ergebnis ist nicht statistisch signifikant, was bedeutet, dass es keinen verlässlichen Unterschied zwischen dem Mittelwert des Schreibens für Stufe 3 des Rennens im Vergleich zu dem Mittelwert des Schreibens für die Ebenen 1 und 2 (Hispanics und Asiaten) gibt. Wie oben angemerkt, macht diese Art von Codierungssystemen für eine Nennvariable wie Rasse nicht viel Sinn. Für den Vergleich von Level 4 und den vorherigen Leveln nehmen Sie den Mittelwert der abhängigen Variablen für diese Level und subtrahieren sie vom Mittelwert der abhängigen Variablen für Level 4: 54.0552 - (46.4583 58 48.2) 3 3.169. Dieses Ergebnis ist statistisch signifikant. Methode 2: Regression Die Regressionscodierung für reverse Helmert-Codierung ist unten gezeigt. Für den ersten Vergleich, bei dem die erste und die zweite Ebene verglichen werden, ist x1 codiert -12 und 12 und 0 ansonsten. Für den zweiten Vergleich sind die Werte von x2 codiert -13 -13 23 und 0. Schließlich werden für den dritten Vergleich die Werte von x3 codiert -14 -14 -14 und 34. REVERSE HELMERT-Regressionscodierung Neue Variable 1 (x1 ) Neue Variable 2 (x2) Neue Variable 3 (x3) Nachfolgend zeigen wir, wie man x1 erzeugt. X2 und x3 und geben Sie diese neuen Variablen in das Regressionsmodell mit proc reg ein. In den obigen Beispielen wäre sowohl der Regressionskoeffizient für x1 als auch die Kontrastschätzung für c1 der Mittelwert des Schreibens für das Niveau 1 (Hispanic) minus dem Mittelwert des Schreibens für das Niveau 2 (asiatisch). Ebenso wäre der Regressionskoeffizient für x2 und die Kontrastschätzung für c2 der Mittelwert des Schreibens für die Ebenen 1 und 2, die minus dem Mittelwert des Schreibens für den Pegel 3 kombiniert wurden. Schließlich wäre der Regressionskoeffizient für x3 und die Kontrastschätzung für c3 derjenige, Mittelwert des Schreibens für die Ebenen 1, 2 und 3 kombiniert minus dem Mittelwert des Schreibens für Ebene 4. 5.6 Abweichungscodierung Dieses Codierungssystem vergleicht den Mittelwert der abhängigen Variablen für einen gegebenen Pegel mit dem Gesamtmittel der abhängigen Variablen. In unserem Beispiel unten, vergleicht der erste Vergleich Ebene 1 (Hispanics), um alle Ebenen der Rasse. Der zweite Vergleich vergleicht die Stufe 2 (Asiaten) mit allen Rassen. Und der dritte Vergleich vergleicht Ebene 3 (Afro-Amerikaner) auf allen Ebenen der Rasse. Wie Sie sehen können, ist die Logik der Kontrast-Codierung ziemlich einfach. Der erste Vergleich vergleicht den Pegel 1 mit den Pegeln 2, 3 und 4. Dem Pegel 1 wird ein Wert von 34 zugewiesen und den Pegeln 2, 3 und 4 ein Wert von -14 zugewiesen. Ebenso vergleicht der zweite Vergleich Pegel 2 mit Pegeln 1 , 3 und 4. Dem Pegel 2 wird ein Wert von 34 zugewiesen und den Pegeln 1, 3 und 4 ein Wert von -14 zugewiesen. Für die Zuordnung von Werten für den dritten Vergleich wird ein ähnliches Muster verfolgt. Beachten Sie, dass Sie 3 für 34 und 1 für 14 ersetzen könnten und Sie denselben Test von Signifikanz erhalten würden, aber der Kontrastkoeffizient wäre anders. Methode 1: PROC GLM DEVIATION Kontrastcodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Nachfolgend zeigen wir, wie diese Vergleiche mit proc glm zu bilden sind. Die Kontrastschätzung ist der Mittelwert für die Ebene 1 minus dem großen Mittelwert. Dieser große Mittelwert ist jedoch nicht der Mittelwert der abhängigen Variablen, der in der Ausgabe des obigen Befehls aufgeführt ist. Es ist vielmehr der Mittelwert der Mittel der abhängigen Variablen auf jeder Ebene der kategorischen Variablen: (46.4583 58 48.2 54.0552) 4 51.678375. Diese Kontrastschätzung beträgt dann 46,4583 - 51,678375 - 5,220. Die Differenz zwischen diesem Wert und null (die Nullhypothese, dass der Kontrastkoeffizient null ist) ist statistisch signifikant (p0000) und der t-Wert für diesen Test von -3,20. Die Ergebnisse für die nächsten beiden Kontraste wurden in ähnlicher Weise berechnet. Methode 2: Regression Wie Sie im folgenden Beispiel sehen, wird die Regressionscodierung durch Zuordnen von 1 zu Stufe 1 für den ersten Vergleich (weil Ebene 1 der Pegel ist, der mit allen anderen verglichen werden soll) erreicht, eine 1 bis Ebene 2 für die zweite Vergleich (weil Ebene 2 mit allen anderen verglichen werden soll) und 1 bis Ebene 3 für den dritten Vergleich (weil Niveau 3 mit allen anderen verglichen werden soll). Es ist zu beachten, dass für alle drei Vergleiche ein Pegel 4 zugeordnet ist (weil er der Pegel ist, der niemals mit den anderen Pegeln verglichen wird) und allen anderen Werten eine 0 zugewiesen. Dieses Regressionscodierungsschema liefert die oben beschriebenen Vergleiche. DEVIATION-Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) 3 (African American) Nachfolgend zeigen wir, wie man x1 erzeugt. X2 und x3 und geben Sie diese neuen Variablen in das Regressionsmodell mit proc reg ein. In diesem Beispiel ist der Regressionskoeffizient für x1 der Mittelwert des Schreibens für die Ebene 1 (Hispanic) minus dem großen Mittelwert von write. Ebenso ist der Regressionskoeffizient für x2 der mittlere Schreibwert für Stufe 2 (asiatisch) minus dem großen Mittelwert des Schreibens. und so weiter. Wie wir in den vorhergehenden Analysen gesehen haben, sind alle drei Kontraste statistisch signifikant. 5.7 Orthogonale Polynomkodierung Orthogonale Polynomkodierung ist eine Form der Trendanalyse, da sie die linearen, quadratischen und kubischen Trends der kategorischen Variablen sucht. Diese Art von Kodierungssystem sollte nur mit einer ordinalen Variable verwendet werden, bei der die Ebenen gleich beabstandet sind. Beispiele für eine solche Variable können Einkommen oder Bildung sein. Die folgende Tabelle zeigt die Kontrastkoeffizienten für die linearen, quadratischen und kubischen Trends für die vier Ebenen. Diese konnten aus den meisten Statistikbüchern über lineare Modelle gewonnen werden. 3 (African American) Methode 1: PROC GLM Um die Kontrastschätzungen für diese Vergleiche zu berechnen, müssen Sie den in der neuen Variablen verwendeten Code mit dem Mittelwert für die abhängige Variable für jede Ebene der kategorialen Variablen multiplizieren und dann die Werte summieren . Zum Beispiel ist der Code, der in x1 für Stufe 1 des Rennens verwendet wird, -671, und der Mittelwert des Schreibens für Stufe 1 ist 46,4583. Folglich würden Sie multiplizieren -.671 und 46.4583 und fügen Sie das dem Produkt des Codes für Ebene 2 von x1 und seinem Mittel hinzu, und so weiter. Um die Kontrastschätzung für den linearen Kontrast zu erhalten, würden Sie folgendes tun: -.67146.4583 -.22458 .22448.2 .67154.0552 2.905 (mit Rundungsfehler). Dieses Ergebnis ist nicht statistisch signifikant .05 Alpha-Ebene, aber es ist nah. Die quadratische Komponente ist auch nicht statistisch signifikant, aber die kubische ist. Dies deutet darauf hin, dass, wenn der Mittelwert der abhängigen Variablen gegen die Rasse aufgetragen wurde. Würde die Linie dazu neigen, zwei Biegungen zu haben. Wie bereits erwähnt, ist diese Art von Kodierungssystem nicht sinnvoll mit einer Nennvariablen wie Rasse. Methode 2: Regression Die Regressionscodierung für orthogonale Polynomcodierung ist die gleiche wie die Kontrastcodierung. Unten sehen Sie den SAS-Code zum Erstellen von x1. X2 und x3, die den linearen, quadratischen und kubischen Trends für die Rasse entsprechen. Die aus dieser Analyse erhaltenen Regressionskoeffizienten sind die gleichen wie die unter Verwendung von proc glm erhaltenen Kontrastkoeffizienten. 5.8 Benutzerdefiniertes Coding Sie können SAS für beliebige allgemeine Codierungsschemata verwenden. Für unser Beispiel möchten wir die folgenden drei Vergleiche anstellen: 1) Ebene 1 bis Ebene 3 2) Ebene 2 bis Ebene 1 und 4 3) Ebenen 1 und 2 bis Ebenen 3 und 4. Um Stufe 1 mit Ebene zu vergleichen 3 verwenden wir die Kontrastkoeffizienten 1 0 -1 0. Um den Pegel 2 mit den Pegeln 1 und 4 zu vergleichen, verwenden wir die Kontrastkoeffizienten -12 1 0 -12. Um die Ebenen 1 und 2 mit den Ebenen 3 und 4 zu vergleichen, verwenden wir schließlich die Koeffizienten 12-12 -12. Bevor Sie zum SAS-Code übergehen, der für die Durchführung dieser Analysen erforderlich ist, können wir einen Augenblick brauchen, um die Logik der Auswahl dieser Kontrastkoeffizienten näher zu erläutern. Für den ersten Kontrast vergleichen wir den Pegel 1 mit dem Pegel 3, und die Kontrastkoeffizienten sind 1 0 -1 0. Dies bedeutet, daß die Pegel, die den Kontrastkoeffizienten mit entgegengesetzten Vorzeichen zugeordnet sind, verglichen werden. Tatsächlich wird der Mittelwert der abhängigen Variablen mit dem Kontrastkoeffizienten multipliziert. Daher sind die Ebenen 2 und 4 nicht an dem Vergleich beteiligt: ​​sie werden mit Null multipliziert und ausgegeben. Sie werden auch bemerken, dass die Kontrastkoeffizienten auf Null sinken. Das ist notwendig. Wenn die Kontrastkoeffizienten nicht auf Null summieren, ist der Kontrast nicht schätzbar und SAS wird eine Fehlermeldung ausgeben. Which level of the categorical variable is assigned a positive or negative value is not terribly important: 1 0 -1 0 is the same as -1 0 1 0 in that both of these codings compare the first and the third levels of the variable. However, the sign of the regression coefficient would change. Now lets look at the contrast coefficients for the second and third comparisons. You will notice that in both cases we use fractions that sum to one (or minus one). They do not have to sum to one (or minus one). You may wonder why we would use fractions like -12 1 0 -12 instead of whole numbers such as -1 2 0 -1. While -12 1 0 -12 and -1 2 0 -1 both compare level 2 with levels 1 and 4 and both will give you the same t-value and p-value for the regression coefficient, the contrast estimatesregression coefficients themselves would be different, as would their interpretation. The coefficient for the -12 1 0 -12 contrast is the mean of level 2 minus the mean of the means for levels 1 and 4: 58 - (46.4583 54.0552)2 7.74325. (Alternatively, you can multiply the contrasts by the mean of the dependent variable for each level of the categorical variable: -1246.4583 158.00 048.20 -1254.0552 7.74325. Clearly these are equivalent ways of thinking about how the contrast coefficient is calculated.) By comparison, the coefficient for the -1 2 0 -1 contrast is two times the mean for level 2 minus the means of the dependent variable for levels 1 and 4: 258 - (46.4583 54.0552) 15.4865, which is the same as -146.4583 258 048.20 - 154.0552 15.4865. Note that the regression coefficient using the contrast coefficients -1 2 0 -1 is twice the regression coefficient obtained when -12 1 0 -12 is used. Method 1: PROC GLM In order to compare level 1 to level 3, we use the contrast coefficients 1 0 -1 0. To compare level 2 to levels 1 and 4 we use the contrast coefficients -12 1 0 -12. Finally, to compare levels 1 and 2 with levels 3 and 4, we use the coefficients 12 12 -12 -12. These coefficients are used in the estimate statements below. The contrast estimate for the first comparison is the mean of level 1 minus the mean for level 3, and the significance of this is .525, i. e. not significant. The second contrast estimate is 7.743, which is the mean of level 2 minus the mean of level 1 and level 4, and this difference is significant, p 0.008. The final contrast estimate is 1.1 which is the mean of levels 1 and 2 minus the mean of levels 3 and 4, and this contrast is not statistically significant, p .576. Method 2: Regression As in the prior example, we will make the following three comparisons: 1) level 1 to level 3, 2) level 2 to levels 1 and 4 and 3) levels 1 and 2 to levels 3 and 4. For methods 1 and 2 it was quite easy to translate the comparisons we wanted to make into contrast codings, but it is not as easy to translate the comparisons we want into a regression coding scheme. If we know the contrast coding system, then we can convert that into a regression coding system using the SAS program shown below. As you can see, we place the three contrast codings we want into the matrix c and then perform a set of matrix operations on c, yielding the matrix x . We then display x using the print command. Below we see the output from this program showing the regression coding scheme we would use. This converted the contrast coding into the regression coding that we need for running this analysis with proc reg . Below, we use if-then statements to create x1 . x2 and x3 according to the coding shown above and then enter them into the regression analysis. The first comparison of the mean of the dependent variable for level 1 to level 3 of the categorical variable was not statistically significant, while the comparison of the mean of the dependent variable for level 2 to that of levels 1 and 4 was. The comparison of the mean of the dependent variable for levels 1 and 2 to that of levels 3 and 4 also was not statistically significant. This page has described a number of different coding systems that you could use for categorical data, and two different strategies you could use for performing the analyses. You can choose a coding system that yields comparisons that make the most sense for testing your hypotheses. In general we would recommend using the easiest method that accomplishes your goals. 5.10 Additional Information Here are some additional resources. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.


No comments:

Post a Comment