Zwei nominale oder ordinale Merkmale werden immer mit einer Kreuztabelle visualisiert. Im entsprechenden Artikel gibt es Beispieldaten für die Merkmale „Geschlecht“ und „gewählte Partei“. Um nun zu beschreiben, wie gross der Zusammenhang zwischen den beiden Variablen ist, gibt es drei Koeffizienten, die in diesem Artikel vorgestellt werden, wobei die drei Werte am besten nacheinander berechnet werden:
- Aus der Kreuztabelle berechnet man die Unabhängigkeitstabelle (manchmal auch Indifferenztabelle genannt)
- Mithilfe derer berechnet man den \(\chi^2\)-Koeffizienten.
- Aus dem \(\chi^2\)-Koeffizienten berechnet man (falls gewünscht) den Kontingenzkoeffizienten \(K\).
- Aus dem Kontingenzkoeffizienten \(K\) berechnet man schließlich (falls gewünscht) den korrigierten Kontingenzkoeffizienten \(K^*\).
Wird also in einer Klausur nur nach dem \(\chi^2\)-Koeffizienten gefragt, führt man nur die ersten beiden Schritte aus. Wird stattdessen nur nach dem korrigierten Kontingenzkoeffizienten \(K^*\) gefragt, muss man alle vier Schritte berechnen.
Wir verwenden für die Berechnung als Beispiel eine Stichprobe von Verspätungen von Zügen. Es wurden für \(n=180\) Züge gemessen, ob sie pünktlich, mit einer Verspätung von 1-15 Minuten, oder mit mehr als 15 Minuten Verspätung abgefahren sind. Zusätzlich wurde festgehalten, ob der Zug an einem Wochentag (Montag-Freitag) oder am Wochenende abgefahren ist:
pünktlich | 1-15 Min. | > 15 Min. | Summe | |
---|---|---|---|---|
Mo-Fr | 58 | 46 | 16 | 120 |
Wochenende | 32 | 14 | 14 | 60 |
Summe | 90 | 60 | 30 | 180 |
Um nun zu überprüfen, wie stark der Zusammenhang zwischen dem Wochentag und der Verspätung ist, berechnen wir die Abweichung dieser echten Tabelle von der Unabhängigkeitstabelle:
1. Berechnen der Unabhängigkeitstabelle
Angenommen, man bekommt nicht die Tabelle wie oben angegeben, sondern nur die getrennten Häufigkeiten (in der Tabelle heißen sie Randhäufigkeiten) für die Verspätung, sowie für den Wochentag. Man kann sich dann nur die folgende Tabelle aufstellen:
pünktlich | 1-15 Min. | > 15 Min. | Summe | |
---|---|---|---|---|
Mo-Fr | 120 | |||
Wochenende | 60 | |||
Summe | 90 | 60 | 30 | 180 |
Unter der Annahme, dass es nun gar keinen Zusammenhang zwischen den zwei Variablen „Wochentag“ und „Verspätung“ gibt, können wir die erwarteten Häufigkeiten \(e_{ij}\) für die Tabelle berechnen.
Ein Beispiel: Wir wissen, dass insgesamt 60 der 180 Züge (das ist \(\frac{1}{3}\)) am Wochenende abgefahren sind. Wir wissen auch, dass insgesamt 90 von 180 Zügen (das ist die Hälfte) pünktlich abgefahren sind. Wir würden daher erwarten, dass auch innerhalb der Untergruppe der 60 Züge vom Wochenende die Hälfte der Züge (also dann 30 von 60) pünktlich abgefahren sind. Die erwartete Anzahl im Feld \(e_{21}\) ist also 30.
Die Berechnung dieses Gedankens in mathematischer Notation funktioniert, indem wir die Anzahl der pünktlichen Züge (also 90) multiplizieren mit dem Anteil der Züge am Wochenende, \(\frac{60}{180}\). Das ergibt insgesamt \(\frac{60}{180} \cdot 90\), oder, etwas zusammengerückt, \(\frac{60 \cdot 90}{180}\).
Die Formel, die diesen Gedanken ausdrückt, lautet allgemein:
\[ e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n} \]
Die Notationen \(h_{i\cdot}\) usw. sind im Artikel Kreuztabellen erklärt. Am oben schon berechneten Beispiel für das Feld \(e_{21}\) schreibt man die Formel aus zu \(e_{21} = \frac{h_{2\cdot} \cdot h_{\cdot 1}}{n} = \frac{60 \cdot 90}{180} = 30\). So kann man nun alle erwarteten Häufigkeiten bestimmen, und landet am Ende bei der folgenden Unabhängigkeitstabelle:
pünktlich | 1-15 Min. | > 15 Min. | Summe | |
---|---|---|---|---|
Mo-Fr | 60 | 40 | 20 | 120 |
Wochenende | 30 | 20 | 10 | 60 |
Summe | 90 | 60 | 30 | 180 |
In der Realität (und in Klausuren) können in den erwarteten Häufigkeiten auch Kommazahlen wie z.B. „32.4 Züge“ herauskommen.
2. Berechnen des \(\chi^2\)-Koeffizienten
Der \(\chi^2\)-Koeffizient ist nun ein Wert, der entsteht indem man die Abweichungen der tatsächlichen Häufigkeiten von den erwarteten Häufigkeiten der Unabhängigkeitstabelle betrachtet. Es wurden zum Beispiel 58 Züge beobachtet, die unter der Woche (Mo-Fr) pünktlich abgefahren sind (das ist \(h_{11}\)). Unter totaler Unabhängigkeit würden wir \(e_{11} = \frac{120 \cdot 90}{180} = 60\) Züge in dieser Zelle erwarten. Die Abweichung ist also in diesem Fall 2 Züge.
Um den \(\chi^2\)-Koeffizienten zu berechnen, wird diese Abweichung nun noch quadriert, und danach durch die jeweilige erwartete Häufigkeit geteilt. Wir enden also bei \(\frac{2^2}{60} = 0.0667\).
Genau diese Berechnung (Abweichung \(\rightarrow\) quadrieren \(\rightarrow\) durch \(e_{ij}\) teilen) macht man nun für alle 6 Zellen in der Tabelle. Die resultierenden 6 Zahlen schreibt man auf – man kannn sie der Übersicht halber in eine neue Tabelle übertragen. Versucht es als Übung, und prüft, ob ihr diese Werte herausbekommt:
pünktlich | 1-15 Min. | > 15 Min. | |
---|---|---|---|
Mo-Fr | 0.0667 | 0.9 | 0.8 |
Wochenende | 0.1333 | 1.8 | 1.6 |
Der \(\chi^2\)-Koeffizient ist nun die Summe all dieser Zahlen:
\[ \chi^2 = 0.0667 + 0.9 + 0.8 + 0.1333 + 1.8 + 1.6 = 5.3 \]
Wenn \(\chi^2=0\) ist, dann sind in jeder Zelle der Tabelle die tatsächlichen Häufigkeiten genau gleich der erwarteten Häufigkeiten. Das wäre also eine „perfekte“ Unabhängigkeit. Je weiter sich der Wert von \(\chi^2\) von 0 entfernt, desto eher sprechen die Daten für eine Abhängigkeit zwischen den beiden Variablen.
Die Formel für den \(\chi^2\)-Koeffizienten
Das, was in diesem Abschnitt gerade ausführlich erklärt wurde, kann man in eine Formel zusammenfassen. Der \(\chi^2\)-Koeffizient ist die Summe über alle Zeilen \(i\) und alle Spalten \(j\), über die quadrierten und dividierten Abweichungen \(\frac{(h_{ij}-e_{ij})^2}{e_{ij}}\). Es ist also
\[ \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-e_{ij})^2}{e_{ij}} \]
Die einzelnen Buchstaben sind im Artikel Kreuztabellen erklärt. Wenn man die erwarteten Häufigkeiten \(e_{ij}\) nun auch noch ausschreibt (sie sind ja \(e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n}\)), kommt man zur oft gesehenen, aber sehr komplizierten Formel
\[ \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-\frac{h_{i\cdot} \cdot h_{\cdot j}}{n})^2}{\frac{h_{i\cdot} \cdot h_{\cdot j}}{n}} \]
Diese Formel fasst nun das gesamte Vorgehen bisher zusammen, sieht aber dafür eher furchteinflößend aus. Wer also mit dieser Formel Schwierigkeiten hat, findet es bestimmt hilfreich, sich das schrittweise Vorgehen einzuprägen oder intuitiv zu verstehen, warum \(\chi^2\) auf diese Art bestimmt wird.
Wann ist \(\chi^2\) gleich Null?
Der Wert für \(\chi^2\) kann zwischen 0 und \(\infty\) liegen. Je näher die Häufigkeiten der echten Tabelle an den erwarteten Häufigkeiten liegen, desto kleiner wird der Wert für \(\chi^2\).
Falls im Extremfall dieselbe Zahl in jeder Zelle steht, wie erwartet wurde, also \(h_{ij} = e_{ij}\) in jeder Zelle ist, dann sind die einzelnen Summanden für \(\chi^2\) alle gleich Null, und somit der gesamte Wert für \(\chi^2\) gleich Null. Dieser Fall tritt in der Praxis allerdings so gut wie nie auf, da es schon ein sehr großer Zufall sein müsste, genau die erwarteten Häufigkeiten zu beobachten.
3. Berechnen des Kontingenzkoeffizienten \(K\)
Der Nachteil des \(\chi^2\)-Koeffizienten ist nun, dass er Werte zwischen \(0\) und \(\infty\) angeben kann. Das bedeutet, dass man die tatsächliche Stärke des Zusammenhangs schlecht anhand des \(\chi^2\)-Wertes ablesen kann.
Der Kontingenzkoeffizient behebt diese Schwäche nun, denn er ist einfach eine normierte Version des \(\chi^2\)-Koeffizienten. Man berechnet ihn durch
\[ K = \sqrt{\frac{\chi^2}{\chi^2 + n}} \]
In unserem Beispiel haben wir die Verspätung für \(n=180\) Züge gemessen, und oben einen \(\chi^2\)-Koeffizienten von \(\chi^2=5.3\) bestimmt. Der Kontingenzkoeffizient in unserem Beispiel ist also
\[ K = \sqrt{\frac{5.3}{5.3+180}} = 0.169 \]
4. Berechnen des korrigierten Kontingenzkoeffizienten \(K^*\)
Der Kontingenzkoeffizient \(K\) ist nun fast normiert – sein Wertebereich geht nicht von 0 bis 1, sondern von 0 bis \(\sqrt{\frac{c-1}{c}}\) (das ist ein Wert, der auf jeden Fall kleiner als 1 ist). \(c\) ist definiert als die Anzahl der Zeilen bzw. Spalten der Kreuztabelle, je nachdem welcher Wert kleiner ist. In mathematisch heißt das: \(c = \min(I, J)\). In unserem Beispiel ist \(c=2\), da wir 2 Zeilen in der Kreuztabelle haben.
Um \(K\) jetzt endgültig in den Wertebereich von 0 und 1 zu normieren, gibt es den korrigierten Kontingenzkoeffizienten \(K^*\). Er wird berechnet durch
\[ K^* = \sqrt{\frac{c}{c-1}} K \]
In unserem Fall ist \(K^* = \sqrt{\frac{I}{I-1}} \cdot K = \sqrt{\frac{2}{2-1}} \cdot 0.169= 0.239\).
Da der Wert für \(K^*\) zwischen 0 (kein Zusammenhang) und 1 (großer Zusammenhang) liegen kann, deutet unser Wert von 0.239 hier auf einen eher geringen Zusammenhang hin.
Hallo! Mein Professor hat etwas geschrieben, dass ich nicht verstehe, vielleicht kannst du mir helfen?
Wann ist in einer quadratischen Kontingenztabelle K* = 1?
K* ist in einer quadratischen Kontingenztabelle genau dann
maximal, wenn in jeder Zeile und jeder Spalte genau eine Zelle
besetzt ist.
Vielen Dank für deine ganze Mühe!
Mit „besetzt“ meint er „nicht null“. Du kannst den Koeffizienten in so einer Tabelle mal ausrechnen und merkst dass dann 1 raus kommt.
VG
Alex
Pingback: Die Abschaffung der Signifikanz - BerkleyPR
Hallo,
danke für diese tolle Website, didaktisch 1a. Eine Frag habe ich. Alles verstanden bis auf folgendes: Die Eingangsfrage war „Um nun zu überprüfen, wie stark der Zusammenhang zwischen dem Wochentag und der Verspätung ist, berechnen wir die Abweichung dieser echten Tabelle von der…..“. Am Ende bekommen wir einen Wer heraus den ich allerdings lediglich als Abweichungswert zwischen der reallen und der perfekten Tabelle interpretieren würde, also der Abweichung in ihrer Gesamtheit. Das ist doch keine Antwort auf die spezifische Frage? Oder ist die Frage nach dem Zusammenhang zwischen Wochentag und Verspätung bereits mit den Zahlen „0.9 0.8“ beantwortet. Somit gäbe es so gut wie keinen Zusammenhang zwischen Wochentag und Verpätung?
Danke, ich hoffe ich habe mich ausgedrückt
Wenn ich dich richtig verstanden habe, dann ist das was du „spezifische Frage“ nennst, und das was du „Abweichung in ihrer Gesamtheit“ nennst, dasselbe.
Mit dem Chi-Quadrat test können wir nicht lediglich zwei Zeilen oder Spalten überprüfen, sondern nur eine Abhängigkeit in der gesamten Tabelle.
Viele Grüße,
Alex
Fantastisch, danke für die Antwort! Das war genau meine Frage! Tolle Website, wirklich der Hammer
Pingback: Die Abschaffung der Signifikanz | Berkeley
Du schreibst in Abschnitt 4: „c=min(I,J) . In unserem Beispiel ist c=2, da wir 2 Zeilen in der Kreuztabelle haben.“
Irgendwie ist mir unklar weshalb wir für „min“ jetzt die Anzahl der Zeilen nehmen. Ist das irgendwie so festgelegt? Ich wäre jetzt instinktiv davon ausgegangen, dass damit der kleinste Wert in der Tabelle gemeint ist.
Ja, es ist ‚festgelegt‘ dass man den kleineren Wert der Anzahl der Zeilen bzw. Anzahl der Spalten nimmt. Die Formel ist dann einfach die mathematische Darstellung dieser Regel. Wenn ich in die min() Funktion das I und das J (Anzahl Zeilen bzw. Anzahl Spalten) reinschreibe, kommt als Ergebnis der kleinere der beiden Werte raus.
Hallo lieber Autor, leider bin ich eine totale Niete was Statistik angeht. Jedoch erklärst du es wirklich wunderbar… Ich komme leider bei den erwarteten Häufigkeiten nicht weiter. Wie kommst du auf die weiteren Werte?! Bis zu der Formel habe ich soweit alles verstanden, bei einer erwarteten Häufigkeit = 30 und ab dann verlassen mich schon wieder die guten Geister… Vielen Dank und lg 🙂
Hi,
ich glaube, der Text war da etwas unvorteilhaft organisiert. Ich habe an der entsprechenden Stelle einen Absatz ergänzt, um es etwas ausführlicher zu machen. Ist es so verständlicher geworden?
VG,
Alex
Hey Alex
Danke für die tolle Erklärung! Nur ein Fehler ist mir aufgefallen: Bei Punkt 4, 1. Absatz schreibst du √(c−1/c) statt √(c/c-1), also den Kehrwert unter der Wurzel.
Ansonsten ist die Erklärung top, auch mit dem Beispiel. Also immer weiter so. 🙂
Lg Gefater
Hi,
das passt schon so. Der Wert \(K\) geht bei \(c=5\) z.B. zwischen 0 und \(4/5\). Deswegen multiplizieren wir mit \(5/4\), um ihn zwischen 0 und 1 zu kriegen 🙂
VG,
Alex
Stimmt, hab’s selbst auch gerade gemerkt, als ich es nochmal gelesen habe, hehe 🙂
Danke sehr!
Das ist die beste Chi-Quadrat-Erklaerung die ich jemals gelesen habe. Chapeau!
Hallo,
habe eine Verständnisfrage:
was gibt dann der Kontingenzkoeffizient an, wenn der korrigierter Kontingenzkoeffizient den Zusammenhang angibt?
Gruß Mila
Hallo,
die geben alle den Zusammenhang an.. aber jeder Koeffizient hat eben seine eigenen Eigenschaften und Qualitäten.
LG,
Alex
Hallo Alex,
Könntest du bisschen mehr über die Qualitäten und Eigenschaften erzählen, ich bereite eine Präsentation darüber, aber versuche noch was im Internet zu finden.
Vielen Dank
Das ‚bisschen mehr‘ steht ja im Artikel… 🙂
Hallo Alex,
erstmal vielen Dank für die tolle Erklärung!
Ich muss das ganze mit Wertepaaren machen für die Merkmale X und Y: (8;8), (8;4), (4;4) und (8;4), wie gehe ich jetzt hier vor wenn ich nur diese beiden Variablen habe?
Vielen Dank schonmal,
LG Lini
Das sieht nicht aus als könntest du die Merkmale in eine Kreuztabelle zusammenfassen, oder? Falls doch, gäbe es jeweils zwei Zeilen bzw. Spalten mit den Ausprägungen 4 und 8.
Bist du sicher dass du den Chi-Quadrat-Koeffizienten berechnen sollst? Vielleicht geht es eher um eine Korrelation?
Hi, ich habe am Freitag eine mündliche Prüfung in Statistik wo genau diese Formel dran kommt. Gibt es einen „einfachen“ Satz der erklärt für was x^2 genutzt wird? Also, wir benutzen x^2 für…um zu wissen..
Danke im Voraus.
LG Kathy
„Um nun zu beschreiben, wie gross der Zusammenhang zwischen den beiden Variablen ist“ wäre ein einfaches Ende für den Satz 🙂
LG,
Alex
Doch so simpel 😀
Ok dann vielen herzlich Dank.
LG Kathy
Ich stehe etwas auf der Leitung und habe daher eine Frage.
Wenn X^2 = 0 ist, sind X und Y (also im Beispiel die Verspätung und der Wochentag) abhängig oder unabhängig?
Wenn \(\chi^2 = 0\) ist, dann sind in jeder Zelle der Tabelle die tatsächlichen Häufigkeiten genau gleich der erwarteten Häufigkeiten. Das wäre also eine „perfekte“ Unabhängigkeit. Je weiter sich der Wert von \(\chi^2\) von 0 entfernt, desto eher ist die Beweislage für die Alternativhypothese, also eine Abhängigkeit.
Kann es sein, dass bei der Rechnung ein Fehler passiert ist und vergessen wurde, die Wurzel zu ziehen? Die Wurzel aus K/K+180 ergibt doch nicht 0,0286 sondern 0,169 oder? Und die Wurzel aus 2/2-1 ergibt auch nicht 2, sondern 1,414. K würde dann nicht 0,0572 ergeben, sondern 0,24. Damit wäre der Zusammenhang zwar immer noch gering, aber trotzdem größer. Oder habe ich hier einen Denkfehler?
Hallo Jan,
du hattest Recht, da war tatsächlich ein Fehler. Ich hab ihn gerade ausgebessert – vielen Dank für den Hinweis!
Alex