Archiv des Autors: Alex

Der Satz der totalen Wahrscheinlichkeit

Mit dem Satz der totalen Wahrscheinlichkeit kann man die Wahrscheinlichkeit für ein Ereignis \(A\) berechnen, wenn man nur bedingte oder gemeinsame Wahrscheinlichkeiten abhängig von einem zweiten Ereignis \(B\) gegeben hat.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Als Beispiel sei hier die Parkinson-Krankheit genannt. Da mehr Männer als Frauen an Parkinson erkranken, sind hauptsächlich geschlechtsspezifische Zahlen veröffentlicht. Möchte man aber die Wahrscheinlichkeit der Erkrankung für eine zufällige Person unabhängig vom Geschlecht bestimmen, braucht man dafür den Satz der totalen Wahrscheinlichkeit. Mit Hilfe der Erkrankungsrate pro Geschlecht, dem Verhältnis von Frauen und Männern in der Gesamtbevölkerung, und der entsprechenden Formel erhält man dann die Gesamtwahrscheinlichkeit einer Parkinsonerkrankung.

In einem Venn-Diagramm kann man das Aufteilen einer totalen Wahrscheinlichkeit wie folgt illustrieren:

venn_totaleWsk_gesamt

Es ist also

\[\mathbb{P}(A) = \mathbb{P}(A \cap B) + \mathbb{P}(A \cap \bar{B}). \]

In unserem Beispiel der Parkinson-Krankheit hieße das: Die Wahrscheinlichkeit für eine beliebige Person, an Parkinson zu erkranken, setzt sich zusammen als die Summe der Wahrscheinlichkeit, ein Mann zu sein und an Parkinson zu erkranken, plus die Wahrscheinlichkeit, eine Frau zu sein und an Parkinson zu erkanken.

Meist sind nicht die gemeinsamen Wahrscheinlichkeiten \(\mathbb{P}(A \cap B)\), sondern die bedingten Wahrscheinlichkeiten \(\mathbb{P}(A | B)\) gegeben. Man kann die gemeinsamen Wahrscheinlichkeiten aber erhalten, indem man die Formel der bedingten Wahrscheinlichkeiten etwas umstellt:

\[ \mathbb{P}(A \cap B) = \mathbb{P}(A | B) \cdot \mathbb{P}(B) \]

Wir erhalten also die verbreitetste Version der Formel für die totale Wahrscheinlichkeit:

\[\mathbb{P}(A) =\mathbb{P}(A | B) \cdot \mathbb{P}(B) +\mathbb{P}(A | \bar{B}) \cdot \mathbb{P}(\bar{B}). \]

Je nachdem, ob in einer Aufgabe die bedingten oder die gemeinsamen Wahrscheinlichkeiten gegeben sind, nimmt man die eine oder andere dieser beiden Formeln. In den allermeisten Fällen arbeitet man aber mit bedingten Wahrscheinlichkeiten.

Beispielaufgabe

Mit dieser Formel können wir nun für eine zufällige Person beliebigen Geschlechts die totale Wahrscheinlichkeit berechnen, an Parkinson zu erkranken. Wir benötigen dazu die folgenden Notationen:

  • \(A\): Die Person erkrankt an Parkinson
  • \(B\): Die Person ist männlich.
  • \(\bar{B}\): Das Gegenteil von \(B\), also: Die Person ist weiblich.

Aus einer Onlinepublikation über die Prävalenz von Parkinson erhalten wir die folgenden Wahrscheinlichkeiten:

  • Die Wahrscheinlichkeit für einen Mann, an Parkinson zu erkranken, liegt bei 0,309%. In unserer Formel bedeutet das: \(\mathbb{P}(A|B) = 0.00309\).
  • Die Wahrscheinlichkeit für eine Frau, an Parkinson zu erkranken, liegt bei 0,241%. Analog dazu: \(\mathbb{P}(A|\bar{B}) = 0.00241\).
  • Es gibt minimal mehr Männer in der Gesamtbevölkerung, nämlich 51,1%. Also: \(\mathbb{P}(B) = 0.511\).

Mit diesen Werten können wir nun die Gesamtwahrscheinlichkeit für eine beliebige Person berechnen:

\[\begin{array}{rclcl} \mathbb{P}(A) & = & \mathbb{P}(A | B) \cdot \mathbb{P}(B) +\mathbb{P}(A | \bar{B}) \cdot \mathbb{P}(\bar{B}) = \\ & & 0.00309 \cdot 0.511 + 0.00241 \cdot 0.489 = \\ & & 0.00275748 \end{array}\]

Wir enden also bei einer Wahrscheinlichkeit von 0,276% für eine Person beliebigen Geschlechts, an Parkinson zu erkranken. Wichtig ist hier, dass das nicht genau der Mittelwert zwischen \(\mathbb{P}(A|B) = 0.00309\) und \(\mathbb{P}(A|\bar{B}) = 0.00241\) ist, sondern dass diese Werte mit dem Geschlechterverhältnis gewichtet werden, das zwar nahe an 50/50 liegt, aber eben nicht genau gleich ist.

Mehr als zwei Gruppen in \(B\)

Man kann die totale Wahrscheinlichkeit auch bestimmen, wenn es sich um mehr als zwei Gruppen handelt. Dann arbeitet man nicht mit den beiden Ereignissen \(B\) und \(\bar{B}\), sondern z.B. mit drei Ereignissen \(B_1\), \(B_2\), und \(B_3\). Wichtig ist hier, dass diese Gruppen disjunkt sind, d.h. dass sie sich nicht überschneiden. Die Folge dieser Voraussetzung ist, dass sich ihre Wahrscheinlichkeiten zu 1 summieren, dass also jedes mögliche Ereignis in eines, und genau eines der drei Unterereignisse fällt:

\[ \mathbb{P}(B_1) +\mathbb{P}(B_2) +\mathbb{P}(B_3) = 1 \]

Für drei Untergruppen (und analog auch für beliebig viele Untergruppen) des Ereignisses \(B\) bestimmt man die totale Wahrscheinlichkeit wie folgt:

\[ \begin{array}{rclcl} \mathbb{P}(A) & = & \mathbb{P}(A|B_1)\cdot \mathbb{P}(B_1) + \\ & &\mathbb{P}(A|B_2)\cdot \mathbb{P}(B_2) + \\ & &\mathbb{P}(A|B_3)\cdot \mathbb{P}(B_3) \end{array} \]

Bedingte Wahrscheinlichkeiten

Mit Hilfe von bedingten Wahrscheinlichkeiten kann man die Wahrscheinlichkeit für ein Ereignis genauer bestimmen, wenn zusätzliche Information vorhanden ist. Diese zusätzliche Information ist ein anderes Ereignis, das schon eingetreten ist, und wodurch wir nun eine genauere Einschätzung der Wahrscheinlichkeit haben.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Dazu ein Beispiel: Möchten wir an einem Junitag die Wahrscheinlichkeit \(\mathbb{P}(A)\) bestimmen, dass morgen ein sonniger Tag wird, können wir zum Beispiel das Wetter an allen Junitagen der letzten zehn Jahre anschauen, und abzählen, an wievielen dieser Tage die Sonne schien. Wir können aber eine genauere Aussage über diese Wahrscheinlichkeit machen, wenn wir zusätzlich wissen dass es heute stark regnet. Wenn wir das Ereignis „Heute regnet es“ mit dem Buchstaben \(B\) bezeichnen, können wir die Wahrscheinlichkeit dass es morgen sonnig wird, gegeben heute regnet es stark, ausdrücken durch

\[ \mathbb{P}(A|B). \]

Man spricht diese Schreibweise aus als „Die Wahrscheinlichkeit von \(A\), gegeben \(B\)“.

Veranschaulichung an Venn-Diagrammen

Die Tatsache, dass man durch die Kenntnis des Eintretens von Ereignis \(B\) eine genauere Aussage über die Wahrscheinlichkeit des Eintretens von \(A\) machen kann, kann man mit Hilfe eines Venn-Diagramms veranschaulichen. Wenn wir wissen, dass \(B\) eingetreten ist, reduziert sich der gesamte Ergebnisraum \(\Omega\) auf \(B\):

venn_bedingteWsk

Links: Die Wahrscheinlichkeit für \(A\) ohne zusätzliche Information ist der ausgefüllte Kreis. Rechts: Wissen wir, dass \(B\) eingetreten ist, können wir die Wahrscheinlichkeit für \(A\) gegeben \(B\) berechnen. Die ausgefüllte Fläche in der Mitte ist hier \(A \cap B\).

Die Idee hinter bedingten Wahrscheinlichkeiten ist einfach, aber deren Berechnung kann zu Beginn oft kompliziert sein. Mit etwas Übung ist dieses Thema aber auch leicht zu bewältigen.

Etwas Übung

Sehen wir uns für eine Beispielrechnung die Studenten einer Statistikvorlesung an. Wir beobachten, wieviele der Studenten auf die Klausur lernen bzw. nicht lernen, und wieviele der Studenten die Klausur bestehen. Uns interessiert am Ende die Wahrscheinlichkeit, die Klausur zu bestehen, gegeben man hat auf sie gelernt.

Wir haben insgesamt \(n=50\) Studenten beobachtet. Von ihnen haben 25 auf die Klausur gelernt, und die übrigen 25 haben nicht gelernt. 30 der Studenten haben die Klausur bestanden. Von den 25 Studenten, die nicht auf die Klausur gelernt haben, haben 10 Studenten bestanden, und die übrigen 15 sind durchgefallen.

Erstelle aus diesen Angaben zuerst eine Kreuztabelle der Merkmale \(L\)=“Auf die Klausur gelernt“ und \(B\)=“Klausur bestanden“.

Lösung (klick)
\(B\) = Bestanden \(\bar{B}\) = Nicht bestanden Summe
\(L\) = Gelernt 20 5 25
\(\bar{L}\) = Nicht gelernt 10 15 25
Summe 30 20 50

Angenommen, wir nehmen aus dieser Gruppe Studenten nun eine zufällige Person heraus, können wir für sie die Wahrscheinlichkeit \(\mathbb{P}(B)\) bestimmen, dass sie die Klausur bestanden hat. Von 50 Studenten haben 30 die Klausur bestanden:

\[ \mathbb{P}(B) = \frac{30}{50} = 0.6 \]

Wenn wir aber nun zusätzlich wissen, dass diese Person gelernt hat, befinden wir uns nur in der ersten Zeile der obigen Kreuztabelle (vergleiche auch die bedingten Häufigkeiten im Artikel zu Kreuztabellen). Von insgesamt 25 Studenten, die auf die Klausur gelernt haben, haben sie 20 Studenten bestanden. Es ist also

\[ \mathbb{P}(B|L) = \frac{20}{25} = 0.8, \]

und somit ist die Wahrscheinlichkeit, dass der Student bestanden hat, gegeben er hat auf die Klausur gelernt, 80%.

Mathematisch drückt man die obige Formel wie folgt aus:

\[ \mathbb{P}(B|L) = \frac{\mathbb{P}(B \cap L)}{\mathbb{P}(L)} \]

Das ist somit die allgemeine Formel für die bedingte Wahrscheinlichkeit. Meistens werden in einer Formelsammlung natürlich statt \(B\) und \(L\) die Buchstaben \(A\) und \(B\) verwendet, aber das ist nur eine Sache der Notation, und macht sonst keinen Unterschied.

Beispielaufgabe

Wir werfen einen normalen Würfel, und betrachten die Ereignisse \(A\) = „Es kommt eine gerade Zahl“, und \(B\) = „Es kommt eine Zahl kleiner oder gleich 3“.

a) Bestimme die Wahrscheinlichkeit für \(A\).
b) Bestimme die Wahrscheinlichkeit für \(A\), gegeben \(B\) ist bereits eingetreten.

Lösung (klick)

a) Durch einfaches Abzählen finden wir die Laplace-Wahrscheinlichkeit. Im Zähler steht die Anzahl der „gewünschten“ Ergebnisse, das ist die 2, 4, und 6, also insgesamt 3 Ergebnisse. Im Nenner steht die Anzahl aller möglichen Ergebnisse, das ist bei einem Würfel 6:

\[\mathbb{P}(A) = \frac{3}{6} = 0.5\]

b) Hier möchten wir \(\mathbb{P}(A|B)\) bestimmen. Das tun wir mit der Formel über \(\mathbb{P}(A|B) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)}\).
Wir müssen jetzt also wieder durch Abzählen der Ereignisse die Laplace-Wahrscheinlichkeit für \(\mathbb{P}(A \cap B)\) sowie \(\mathbb{P}(B)\) bestimmen:

Für das Ereignis \(A \cap B\) brauchen wir im Zähler die Anzahl der Ergebnisse, die gerade und kleiner gleich 3 sind. Da kommt nur die Zahl 2 in Frage, d.h. nur ein mögliches Ergebnis – im Zähler steht also 1. Im Nenner steht die 6, da es bei einem Würfel 6 mögliche Ergebnisse gibt:

\[ \mathbb{P}(A \cap B) = \frac{1}{6} \]

Für das Ereignis \(B\) gibt es drei mögliche Ergebnisse, nämlich die 1, 2, und 3. Daher steht hier im Zähler die 3:

\[ \mathbb{P}(B) = \frac{3}{6} = \frac{1}{2} \]

Diese Werte können wir nun einsetzen und erhalten für die gesuchte Wahrscheinlichkeit:

\[ \mathbb{P}(A|B) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)} = \frac{1/6}{1/2} = \frac{1}{3} \]

Das bedeutet: Gegeben jemand hat uns schon verraten, dass das Ergebnis des Würfels eine Zahl kleiner gleich 3 ist, dann ist die Wahrscheinlichkeit dass die Zahl gerade ist, ein Drittel.

Das kann man sich auch leicht erklären: Nachdem unser Informant gesagt hat, dass der Würfel eine Zahl kleiner gleich 3 zeigt, wissen wir dass es nur noch drei mögliche Ergebnisse des Würfels gibt, nämlich die 1, 2, oder 3. Und nur eine davon ist gerade. Das heißt, eins von drei Ergebnissen ist für uns günstig, daher die letztendliche Wahrscheinlichkeit von \(\frac{1}{3}\).

Mengenlehre und Venn-Diagramme

Man verwendet Venn-Diagramme, um zwei oder mehrere Mengen und deren Beziehungen zueinander darzustellen. Man kann es auch gut dazu verwenden, um Regeln der Wahrscheinlichkeitsrechnung sehr einfach zu visualisieren, weshalb wir sie uns hier anschauen werden.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Ein Venn-Diagramm für zwei Mengen \(A\) und \(B\) sieht wie folgt aus:

venn

Wir halten uns dabei durchgehend an ein beispielhaftes Zufallsexperiment:

Wir werfen einen Würfel, und notieren uns die Augenzahl. Die möglichen Ergebnisse sind also \(\{ 1, 2, 3, 4, 5, 6\}\) (die Menge aller möglichen Ereignisse wird mit \(\Omega\) bezeichnet). Wir definieren außerdem zwei Ereignisse \(A\) und \(B\):

\[ A: \text{Es wurde eine gerade Zahl }\mathrm{gew\ddot{u}rfelt} \]

\[ B: \text{Es wurde eine Zahl von 1 bis 3 }\mathrm{gew\ddot{u}rfelt} \]

Das Ereignis \(A\) beinhaltet also die Zahlen 2, 4, und 6, und das Ereignis \(B\) umfasst die 1, 2, und 3. Hier fällt auf, dass die 2 in beiden Ereignissen vorkommt. In unserem Venn-Diagram wären die Ereignisse so aufgeteilt:

venn-beispiel

Man sieht hier ein großes Rechteck, das das ganze „Universum“ \(\Omega\), also alle möglichen Ereignisse darstellt. Innerhalb aller möglichen Eregnisse befinden sich die Mengen \(A\) und \(B\), die jeweils nur einen Teil aller möglichen Ereignisse beschreiben. Im Kreis von \(B\) liegen zum Beispiel die 1, 2, und 3. Die 2 liegt zudem auch im Kreis von \(A\). Die 5 kommt weder in \(A\), noch in \(B\) vor, liegt also im Bereich von \(\Omega\), also außerhalb beider Kreise.

Die Menge \(B\) lässt sich nun durch diesen blauen Kreis darstellen:

venn-B

Wenn ich dich den Würfel rollen lasse, und sage, bei einem Ergebnis aus \(B\) hast du gewonnen, dann hoffst du also auf eine 1, 2, oder 3 als Ergebnis. Vergleiche dieses Bild nochmal mit dem oberen Bild, in dem die Zahlen eingetragen sind, falls du gerade nicht folgen konntest.

Die Menge \(\Omega\) ist, wie schon gesagt, die Menge aller möglichen Ereignisse:

venn-omega

Angenommen, du spielst nun dasselbe Spiel, aber ich sage dir dass du bei einem Ergebnis aus \(\Omega\) gewonnen hast, welche Zahlen sind also günstig für dich?

Lösung (klick)

Die Menge \(\Omega\) umfasst alle möglichen Ergebnisse, also die Zahlen 1, 2, 3, 4, 5, und 6. Du kannst also den Würfel rollen, und wegsehen, weil du auf jeden Fall gewinnst!

Der „nicht“-Operator

Wenn man am Gegenteil eines Ereignisses interessiert ist, setzt man einen Querbalken darüber. Am Beispiel des Ereignisses \(A\) sieht das so aus:

venn-A-neben-nicht-A

 

Links ist das Ereignis \(A\) abgebildet (welche Zahlen auf dem Würfel beinhaltet das?), und rechts sein Gegenteil, nämlich \(\bar{A}\). Überlege dir auch, welche Zahlen das Ereignis \(\bar{A}\) beinhaltet.

Lösung (klick)

Wenn \(A = \{2, 4, 6\}\), dann muss \(\bar{A}\) sein Gegenteil, also \(\bar{A}=\{1, 3, 5\}\) sein. Beachte, dass das nicht dasselbe wie \(B\) ist; wenn das noch nicht ganz klar ist, schau dir die Bilder von \(B\) sowie \(\bar{A}\) nochmal an!

Der „oder“-Operator (Vereinigungsmengen)

Möchte man die einzelnen Elemente zweier Mengen \(A\) und \(B\) in einen Topf werfen, also vereinigen, verwendet man dazu das Symbol \(\cup\). Die Menge aller Elemente, die in \(A\) oder \(B\) enthalten sind, ist also \(A \cup B\).

Versuche, die Menge \(A \cup B\) in einem Venn-Diagramm zu zeichnen. Überlege dir auch, welche Elemente sie beinhaltet (und welche nicht).

Lösung (klick)

Die Menge \(A \cup B\) enthält die Zahlen 1, 2, 3, 4, und 6. Es sind also alle Zahlen außer der 5 in dieser Vereinigungsmenge enthalten. Das Venn-Diagramm sieht wie folgt aus:

venn-A-oder-B

Die Zahl 2 kommt zwar in beiden Mengen, \(A\) und \(B\) vor, ist aber in der Vereinigungsmenge nur einmal enthalten: \(A \cup B = \{ 1,2,3,4,6 \}\).

Der „und“-Operator (Schnittmengen)

Mit dem „und“-Operator \(\cap\) bezeichnet man die Schnittmenge zweier Mengen \(A\) und \(B\). Man erhält als Ergebnis nur die Elemente, die sowohl in \(A\) als auch in \(B\) enthalten sind:

venn-A-und-B

Für unser Beispiel mit den Würfeln bedeutet das: In \(A \cap B\) sind die Zahlen enthalten, die sowohl gerade als auch kleiner oder gleich 3 sind – also nur die 2: \(A \cap B = \{2\}\).

Kombinationen von Operatoren

Mit diesen drei Operatoren, der Vereinigungs- und Schnittmenge sowie der Negation (also dem Querbalken), kann man nun zusammen jede mögliche Kombination der beiden Mengen \(A\) und \(B\) erstellen. Zum Beispiel kann man sich alle Elemente ansehen, die zwar in \(A\), aber nicht in \(B\) enthalten sind:

venn-A-und-nicht-B

Diese Menge \(A \cap \bar{B}\) enthält die Zahlen 4 und 6, da das die geraden Zahlen aus \(A\) sind, die nicht in der Menge \(B\) vorkommen.

Eine weitere Möglichkeit, diese Menge darzustellen, ist mit dem Differenzoperator \(\setminus\). Es bedeutet also \(A \setminus B\) „A ohne B“, also dasselbe wie \(A \cap \bar{B}\).

Zwei abschließende Aufgaben zum Verständnis

(a) Zeichne die Menge \(B \cup \bar{A}\) in einem Venn-Diagramm und bestimme, um welche Zahlen auf dem Würfel es sich in unserem Beispiel handelt.

(b) Zeichne die Menge \(\bar{A} \cap \bar{B}\) und bestimme ebenso die resultierende Menge im Beispiel.

Lösung (klick)

(a) Hier handelt es sich um alle Zahlen, die in \(B\) enthalten sind, oder nicht in \(A\). In \(B\) sind die Zahlen 1, 2, und 3, und in \(\bar{A}\) sind die Zahlen 1, 3, und 5 enthalten. Die Vereinigungsmenge daraus ist also \(B \cup \bar{A} = \{1, 2, 3, 5\}\).

 

venn-B-oder-nicht-A

(b) Die Menge \(\bar{A} \cap \bar{B}\) bezeichnet alle Elemente, die weder in \(A\), noch in \(B\) enthalten sind. Das ist nur die Zahl 5.

venn-nicht-A-und-nicht-B

Die Menge \(\bar{A} \cap \bar{B}\) lässt sich übrigens äquivalent als \(\overline{A \cup B}\) ausdrücken. Das ist eine der Rechenregeln für Mengenoperationen, auf die wir hier aber nicht näher eingehen.

Wahrscheinlichkeiten mit Venn-Diagrammen

Man kann nun Laplace-Wahrscheinlichkeiten mit Venn-Diagrammen illustrieren. Möchte ich in dem oben verwendeten Beispiel die Wahrscheinlichkeit für das Ereignis \(B \cup \bar{A}\) bestimmen, können wir durch ein Venn-Diagramm schnell bestimmen, dass das Ereignis \(B \cup \bar{A}\) die Zahlen 1, 2, 3 und 5 auf dem Würfel umfasst. Das sind 4 verschiedene Ergebnisse von 6 möglichen Ergebnissen, also ist

\[ \mathbb{P}(B \cup \bar{A}) = \frac{4}{6} = \frac{2}{3} \]

Beachte aber, dass das einfache Abzählen (also die Idee „4 von 6 möglichen Ergebnissen, das heißt eine Wahrscheinlichkeit von \(\frac{4}{6}\)“) nur bei Laplace-Experimenten funktioniert, d.h. nur bei Experimenten, wo jedes mögliche Ergebnis mit derselben Wahrscheinlichkeit auftritt.

Was ist eine Wahrscheinlichkeit?

Eine Wahrscheinlichkeit ist ein Maß für die möglichen Ergebnisse eines Zufallsexperiments. Bei einem Zufallsexperiment wissen wir, welche möglichen Ereignisse eintreten können (z.B. „morgen regnet es“ und „morgen scheint die Sonne“), aber wir wissen noch nicht, welches Ereignis auftritt. Mit Wahrscheinlichkeiten können wir aber jedem Ereignis eine Art Gewicht geben, und z.B. beschreiben, dass morgen ziemlich sicher die Sonne scheint (mit einer Wahrscheinlichkeit von 90%), und es ziemlich sicher nicht regnet (nämlich nur mit 10%).

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Wahrscheinlichkeiten können ausgedrückt werden durch

  • Prozentzahlen wie z.B. 50%,
  • Brüche, wie z.B. \(\frac{1}{2}\), oder
  • Dezimalzahlen wie 0.5

Alle drei Darstellungen bedeuten dasselbe, und sind daher auch richtig. Welche man verwendet, bleibt einem selbst überlassen.

Verschiedene Definitionen der Wahrscheinlichkeit

Eine immer wieder gesehene Klausuraufgabe frägt nach den verschiedenen Auffassungen bzw. Definitionen der Wahrscheinlichkeit. Für die gibt es nämlich keine eindeutige Beschreibung, sondern mehrere. Vier davon sehen wir uns hier an:

Laplace-Wahrscheinlichkeit

Diese Definition der Wahrscheinlichkeit setzt voraus, dass alle elementaren Ergebnisse die gleiche Wahrscheinlichkeit haben. Es ist also möglich bei Zufallsexperimenten wie einem Münzwurf (Kopf und Zahl je mit Wahrscheinlichkeit 0.5), oder einem Rouletterad (die Zahlen 0 bis 36 mit jeweils einer Wahrscheinlichkeit von 1/37).

Die Laplace-Wahrscheinlichkeit für ein Ereignis \(E\) ist definiert als

\[ \mathbb{P}(E) = \frac{\text{Anzahl der „}\mathrm{g\ddot{u}nstigen}\text{“ Ergebnisse}}{\text{Anzahl aller } \mathrm{m\ddot{o}glichen}\text{ Ergebnisse}} \]

Dazu eine Beispielaufgabe: Wie groß ist die Wahrscheinlichkeit, bei einem Roulettespiel eine schwarze Zahl zu erhalten? (Vergiss die „0“ nicht!)

Roulette_frz

Lösung (klick)

Das Ereignis \(E =\) „schwarze Zahl“ hat 18 Ergebnisse. Insgesamt gibt es 37 mögliche Ergebnisse. Die Laplace-Wahrscheinlichkeit ist also \(\mathbb{P}(E) = \frac{18}{37} = 48.6\%\).

Objektive oder frequentistische Wahrscheinlichkeit

Wenn man ein Experiment beliebig oft wiederholen kann (man lässt zum Beispiel ein Reiskorn auf ein Schachbrett fallen, und will wissen, mit welcher Wahrscheinlichkeit man im oberen linken Feld landet), kann man die relative Häufigkeit berechnen, indem man einfach die Anzahl der Treffer durch die Anzahl der gesamten Versuche teilt. Der Grenzwert dieses Bruchs, also der Wert der herauskommt wenn die Anzahl der Versuche unendlich groß wird, ist nun die gesuchte Wahrscheinlichkeit.

Dieses Konzept beschreibt die objektive, oder frequentistische Definition der Wahrscheinlichkeit.

Subjektive Wahrscheinlichkeit

Manchmal kann man Experimente nicht beliebig oft wiederholen. Die Aussage „Die Klausur bestehe ich zu 80%“ basiert z.B. auf einer subjektiven Wahrscheinlichkeitsauffassung, da sie geschätzt und nicht berechnet wurde.

Diese Wahrscheinlichkeit kann man auch als Grad persönlicher Überzeugung auffassen, so wie es der Bayes’sche Wahrscheinlichkeitsbegriff tut.

Axiomatische Definition (nach Kolmogorov)

Axiome sind Aussagen, die nicht bewiesen werden, sondern ohne Beweis vorausgesetzt werden. Mathematische Gebiete beruhen oft auf einigen wenigen Axiomen, mithilfe derer dann alles andere bewiesen wird.

Die drei Axiome, die die Wahrscheinlichkeitstheorie begründen sind die folgenden:

  1. Die Wahrscheinlichkeit für jedes erdenkliche Ergebnis liegt zwischen 0 und 1 (jeweils einschließlich). Es gibt also keine Wahrscheinlichkeit von -0.5, und keine Wahrscheinlichkeit von 2.4.
  2. Ein Zufallsexperiment muß ein Ergebnis haben. Die Wahrscheinlichkeit, dass irgendein Ergebnis herauskommt, ist also 1.
  3. Die Wahrscheinlichkeit, dass irgendeines von zwei Ergebnissen eintritt, ist die Summe der Wahrscheinlichkeiten der beiden einzelnen Ergebnisse. Dies gilt nur, falls sich die beiden Ergebnisse gegenseitig ausschließen.
    Es ist also nicht gültig für \(E_1 = \text{Der }\mathrm{W\ddot{u}rfel}\text{ zeigt eine gerade Zahl}\) und \(E_2 = \text{Der }\mathrm{W\ddot{u}rfel}\text{ zeigt die 4}\), da falls \(E_2\) eintritt, automatisch auch \(E_1\) stimmt.
    Falls aber \(E_1 = \text{Der }\mathrm{W\ddot{u}rfel}\text{ zeigt eine gerade Zahl}\) und \(E_2 = \text{Der }\mathrm{W\ddot{u}rfel}\text{ zeigt die 1}\), so kann man die Wahrscheinlichkeit für \(E_1\) oder \(E_2\) als ihre Summe berechnen:
    \[ \mathbb{P}(E_1 \text{ oder } E_2) = \mathbb{P}(E_1) + \mathbb{P}(E_2) = \frac{3}{6} + \frac{1}{6} = \frac{4}{6} \]

Diese drei Axiome wurden natürlich in mathematischen Formeln verpackt. Man versteht diese Formeln am besten, wenn man sie mit der obigen Textinterpretation vergleicht. So sehen die dazugehörigen Formeln aus:

  1. \(0 \leq \mathbb{P}(E) \leq 1\) für alle möglichen Ereignisse \(E\).
  2. \(\mathbb{P}(\Omega) = 1\), wobei \(\Omega\) für das sichere Ereignis steht.
  3. Falls \(E_1 \cap E_2 = \emptyset\), dann ist \(\mathbb{P}(E_1 \cup E_2) = \mathbb{P}(E_1) + \mathbb{P}(E_2)\).

 

Phi-Koeffizient

Der \(\phi\)-Koeffizient ist ein Zusammenhangsmaß für zwei binäre (oder dichotome) Variablen, das heißt zwei Variablen, die jeweils nur zwei mögliche Ausprägungen haben. Die resultierenden Daten kann man in einer 2×2-Kreuztabelle zusammenfassen. (Für größere Tabellen muss man auf den Chi-Quadrat- oder den Kontingenzkoeffizienten ausweichen)

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Als Beispiel sehen wir uns eine andere Darstellung der Daten aus dem Artikel zum \(\chi^2\)-Koeffizienten an: Wir betrachten für 180 Züge nur, ob sie (a) unter der Woche oder am Wochenende abfahren, und (b) ob sie pünktlich oder mit Verspätung abfahren. Wir fassen also die letzten beiden Spalten der Tabelle aus dem obigen Artikel zusammen, und erhalten diese Tabelle:

pünktlich verspätet Summe
Mo-Fr 58 62 120
Wochenende 32 28 60
Summe 90 90 180

Mit dem \(\phi\)-Koeffizienten beantworten wir nun die Frage, wie stark der Zusammenhang dieser beiden Variablen ist, ob es also am Wochenende unterschiedlich viele Verspätungen gibt wie unter der Woche.

Allgemein sieht eine 2×2-Kreuztabelle (siehe Artikel) wie folgt aus:

\(b_1\) \(b_2\) Summe
\(a_1\) \(h_{11}\) \(h_{12}\) \(h_{1 \cdot}\)
\(a_2\) \(h_{21}\) \(h_{22}\) \(h_{2 \cdot}\)
Summe \(h_{\cdot 1}\) \(h_{\cdot 2}\) \(n\)

Der \(\phi\)-Koeffizient berechnet sich nun wie folgt:

\[ \phi = \frac{h_{11}\cdot h_{22} – h_{12}\cdot h_{21}}{\sqrt{h_{1 \cdot} \cdot h_{2 \cdot} \cdot h_{\cdot 1} \cdot h_{\cdot 2} }} \]

Er kann (im Gegensatz zum \(\chi^2\)-Koeffizienten und dem Kontingenzkoeffizienten \(K\)) Werte von -1 bis 1 annehmen, nicht nur von 0 bis 1. Auch hier bedeutet ein Wert von \(\phi=0\), dass kein Zusammenhang vorliegt. Je näher der Wert an -1 oder 1 rückt, desto stärker ist der Zusammenhang zwischen den beiden Variablen.

In unserem Beispiel setzen wir also ein:

\[ \phi = \frac{58 \cdot 28 – 62 \cdot 32}{\sqrt{120 \cdot 60 \cdot 90 \cdot 90}} = -0.0471 \]

Wir erhalten einen Wert, der fast Null ist, können also sagen, dass wir hier keinen großartigen Zusammenhang gefunden haben.

Chi-Quadrat-Koeffizient und Kontingenzkoeffizient K

Zwei nominale oder ordinale Merkmale werden immer mit einer Kreuztabelle visualisiert. Im entsprechenden Artikel gibt es Beispieldaten für die Merkmale „Geschlecht“ und „gewählte Partei“. Um nun zu beschreiben, wie gross der Zusammenhang zwischen den beiden Variablen ist, gibt es drei Koeffizienten, die in diesem Artikel vorgestellt werden, wobei die drei Werte am besten nacheinander berechnet werden:

  1. Aus der Kreuztabelle berechnet man die Unabhängigkeitstabelle (manchmal auch Indifferenztabelle genannt)
  2. Mithilfe derer berechnet man den \(\chi^2\)-Koeffizienten.
  3. Aus dem \(\chi^2\)-Koeffizienten berechnet man (falls gewünscht) den Kontingenzkoeffizienten \(K\).
  4. Aus dem Kontingenzkoeffizienten \(K\) berechnet man schließlich (falls gewünscht) den korrigierten Kontingenzkoeffizienten \(K^*\).
Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Wird also in einer Klausur nur nach dem \(\chi^2\)-Koeffizienten gefragt, führt man nur die ersten beiden Schritte aus. Wird stattdessen nur nach dem korrigierten Kontingenzkoeffizienten \(K^*\) gefragt, muss man alle vier Schritte berechnen.

Wir verwenden für die Berechnung als Beispiel eine Stichprobe von Verspätungen von Zügen. Es wurden für \(n=180\) Züge gemessen, ob sie pünktlich, mit einer Verspätung von 1-15 Minuten, oder mit mehr als 15 Minuten Verspätung abgefahren sind. Zusätzlich wurde festgehalten, ob der Zug an einem Wochentag (Montag-Freitag) oder am Wochenende abgefahren ist:

pünktlich 1-15 Min. > 15 Min. Summe
Mo-Fr 58 46 16 120
Wochenende 32 14 14 60
Summe 90 60 30 180

Um nun zu überprüfen, wie stark der Zusammenhang zwischen dem Wochentag und der Verspätung ist, berechnen wir die Abweichung dieser echten Tabelle von der Unabhängigkeitstabelle:

1. Berechnen der Unabhängigkeitstabelle

Angenommen, man bekommt nicht die Tabelle wie oben angegeben, sondern nur die getrennten Häufigkeiten (in der Tabelle heißen sie Randhäufigkeiten) für die Verspätung, sowie für den Wochentag. Man kann sich dann nur die folgende Tabelle aufstellen:

pünktlich 1-15 Min. > 15 Min. Summe
Mo-Fr 120
Wochenende 60
Summe 90 60 30 180

Unter der Annahme, dass es nun gar keinen Zusammenhang zwischen den zwei Variablen „Wochentag“ und „Verspätung“ gibt, können wir die erwarteten Häufigkeiten \(e_{ij}\) für die Tabelle berechnen.

Ein Beispiel: Wir wissen, dass insgesamt 60 der 180 Züge (das ist \(\frac{1}{3}\)) am Wochenende abgefahren sind. Wir wissen auch, dass insgesamt 90 von 180 Zügen (das ist die Hälfte) pünktlich abgefahren sind. Wir würden daher erwarten, dass auch innerhalb der Untergruppe der 60 Züge vom Wochenende die Hälfte der Züge (also dann 30 von 60) pünktlich abgefahren sind. Die erwartete Anzahl im Feld \(e_{21}\) ist also 30.

Die Berechnung dieses Gedankens in mathematischer Notation funktioniert, indem wir die Anzahl der pünktlichen Züge (also 90) multiplizieren mit dem Anteil der Züge am Wochenende, \(\frac{60}{180}\). Das ergibt insgesamt \(\frac{60}{180} \cdot 90\), oder, etwas zusammengerückt, \(\frac{60 \cdot 90}{180}\).

Die Formel, die diesen Gedanken ausdrückt, lautet allgemein:

\[ e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n} \]

Die Notationen \(h_{i\cdot}\) usw. sind im Artikel Kreuztabellen erklärt. Am oben schon berechneten Beispiel für das Feld \(e_{21}\) schreibt man die Formel aus zu \(e_{21} = \frac{h_{2\cdot} \cdot h_{\cdot 1}}{n} = \frac{60 \cdot 90}{180} = 30\). So kann man nun alle erwarteten Häufigkeiten bestimmen, und landet am Ende bei der folgenden Unabhängigkeitstabelle:

pünktlich 1-15 Min. > 15 Min. Summe
Mo-Fr 60 40 20 120
Wochenende 30 20 10 60
Summe 90 60 30 180

In der Realität (und in Klausuren) können in den erwarteten Häufigkeiten auch Kommazahlen wie z.B. „32.4 Züge“ herauskommen.

2. Berechnen des \(\chi^2\)-Koeffizienten

Der \(\chi^2\)-Koeffizient ist nun ein Wert, der entsteht indem man die Abweichungen der tatsächlichen Häufigkeiten von den erwarteten Häufigkeiten der Unabhängigkeitstabelle betrachtet. Es wurden zum Beispiel 58 Züge beobachtet, die unter der Woche (Mo-Fr) pünktlich abgefahren sind (das ist \(h_{11}\)). Unter totaler Unabhängigkeit würden wir \(e_{11} = \frac{120 \cdot 90}{180} = 60\) Züge in dieser Zelle erwarten. Die Abweichung ist also in diesem Fall 2 Züge.

Um den \(\chi^2\)-Koeffizienten zu berechnen, wird diese Abweichung nun noch quadriert, und danach durch die jeweilige erwartete Häufigkeit geteilt. Wir enden also bei \(\frac{2^2}{60} = 0.0667\).

Genau diese Berechnung (Abweichung \(\rightarrow\) quadrieren \(\rightarrow\) durch \(e_{ij}\) teilen) macht man nun für alle 6 Zellen in der Tabelle. Die resultierenden 6 Zahlen schreibt man auf – man kannn sie der Übersicht halber in eine neue Tabelle übertragen. Versucht es als Übung, und prüft, ob ihr diese Werte herausbekommt:

pünktlich 1-15 Min. > 15 Min.
Mo-Fr 0.0667 0.9 0.8
Wochenende 0.1333 1.8 1.6

Der \(\chi^2\)-Koeffizient ist nun die Summe all dieser Zahlen:

\[ \chi^2 = 0.0667 + 0.9 + 0.8 + 0.1333 + 1.8 + 1.6 = 5.3 \]

Wenn \(\chi^2=0\) ist, dann sind in jeder Zelle der Tabelle die tatsächlichen Häufigkeiten genau gleich der erwarteten Häufigkeiten. Das wäre also eine „perfekte“ Unabhängigkeit. Je weiter sich der Wert von \(\chi^2\) von 0 entfernt, desto eher sprechen die Daten für eine Abhängigkeit zwischen den beiden Variablen.

Die Formel für den \(\chi^2\)-Koeffizienten

Das, was in diesem Abschnitt gerade ausführlich erklärt wurde, kann man in eine Formel zusammenfassen. Der \(\chi^2\)-Koeffizient ist die Summe über alle Zeilen \(i\) und alle Spalten \(j\), über die quadrierten und dividierten Abweichungen \(\frac{(h_{ij}-e_{ij})^2}{e_{ij}}\). Es ist also

\[ \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-e_{ij})^2}{e_{ij}} \]

Die einzelnen Buchstaben sind im Artikel Kreuztabellen erklärt. Wenn man die erwarteten Häufigkeiten \(e_{ij}\) nun auch noch ausschreibt (sie sind ja \(e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n}\)), kommt man zur oft gesehenen, aber sehr komplizierten Formel

\[ \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-\frac{h_{i\cdot} \cdot h_{\cdot j}}{n})^2}{\frac{h_{i\cdot} \cdot h_{\cdot j}}{n}} \]

Diese Formel fasst nun das gesamte Vorgehen bisher zusammen, sieht aber dafür eher furchteinflößend aus. Wer also mit dieser Formel Schwierigkeiten hat, findet es bestimmt hilfreich, sich das schrittweise Vorgehen einzuprägen oder intuitiv zu verstehen, warum \(\chi^2\) auf diese Art bestimmt wird.

Wann ist \(\chi^2\) gleich Null?

Der Wert für \(\chi^2\) kann zwischen 0 und \(\infty\) liegen. Je näher die Häufigkeiten der echten Tabelle an den erwarteten Häufigkeiten liegen, desto kleiner wird der Wert für \(\chi^2\).

Falls im Extremfall dieselbe Zahl in jeder Zelle steht, wie erwartet wurde, also \(h_{ij} = e_{ij}\) in jeder Zelle ist, dann sind die einzelnen Summanden für \(\chi^2\) alle gleich Null, und somit der gesamte Wert für \(\chi^2\) gleich Null. Dieser Fall tritt in der Praxis allerdings so gut wie nie auf, da es schon ein sehr großer Zufall sein müsste, genau die erwarteten Häufigkeiten zu beobachten.

3. Berechnen des Kontingenzkoeffizienten \(K\)

Der Nachteil des \(\chi^2\)-Koeffizienten ist nun, dass er Werte zwischen \(0\) und \(\infty\) angeben kann. Das bedeutet, dass man die tatsächliche Stärke des Zusammenhangs schlecht anhand des \(\chi^2\)-Wertes ablesen kann.

Der Kontingenzkoeffizient behebt diese Schwäche nun, denn er ist einfach eine normierte Version des \(\chi^2\)-Koeffizienten. Man berechnet ihn durch

\[ K = \sqrt{\frac{\chi^2}{\chi^2 + n}} \]

In unserem Beispiel haben wir die Verspätung für \(n=180\) Züge gemessen, und oben einen \(\chi^2\)-Koeffizienten von \(\chi^2=5.3\) bestimmt. Der Kontingenzkoeffizient in unserem Beispiel ist also

\[ K = \sqrt{\frac{5.3}{5.3+180}} = 0.169 \]

4. Berechnen des korrigierten Kontingenzkoeffizienten \(K^*\)

Der Kontingenzkoeffizient \(K\) ist nun fast normiert – sein Wertebereich geht nicht von 0 bis 1, sondern von 0 bis \(\sqrt{\frac{c-1}{c}}\) (das ist ein Wert, der auf jeden Fall kleiner als 1 ist). \(c\) ist definiert als die Anzahl der Zeilen bzw. Spalten der Kreuztabelle, je nachdem welcher Wert kleiner ist. In mathematisch heißt das: \(c = \min(I, J)\). In unserem Beispiel ist \(c=2\), da wir 2 Zeilen in der Kreuztabelle haben.

Um \(K\) jetzt endgültig in den Wertebereich von 0 und 1 zu normieren, gibt es den korrigierten Kontingenzkoeffizienten \(K^*\). Er wird berechnet durch

\[ K^* = \sqrt{\frac{c}{c-1}} K \]

In unserem Fall ist \(K^* = \sqrt{\frac{I}{I-1}} \cdot K = \sqrt{\frac{2}{2-1}} \cdot 0.169= 0.239\).

Da der Wert für \(K^*\) zwischen 0 (kein Zusammenhang) und 1 (großer Zusammenhang) liegen kann, deutet unser Wert von 0.239 hier auf einen eher geringen Zusammenhang hin.

Spearman-Korrelation / Rangkorrelation

Mit der Spearman-Korrelation misst man ebenso wie mit der Pearson-Korrelation den Zusammenhang zwischen zwei Variablen. Er nimmt ebenso Werte von -1 (perfekte negative Korrelation) bis +1 (perfekte positive Korrelation) an, und ist nahe bei 0, falls gar keine Korrelation vorliegt.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Der Spearman-Korrelationskoeffizient \(r_\text{Sp}\) wird auch Rangkorrelationskoeffizient genannt, weil nur er einen kleinen, aber entscheidenden Unterschied zum klassischen Pearson-Korrelationskoeffizienten \(r\) hat:

Die Korrelation wird nicht zwischen den Datenpunkten selbst, sondern zwischen ihren Rängen berechnet. Ein Beispiel veranschaulicht das schnell:

Beispiel: Alter vs. Performance beim 100m-Lauf

Wir möchten den Zusammenhang zwischen dem Alter einer Person und ihrer Performance beim 100-Meter-Sprint analysieren. Dazu messen wir von 6 Personen das Alter in Jahren, und die Zeit für 100 Meter in Sekunden:

Person \(i\) Alter \(x_i\) Zeit in Sekunden \(y_i\)
A 59 14.61
B 35 11.80
C 43 14.34
D 23 13.03
E 42 14.18
F 27 11.02

Wir können nun die klassische Pearson-Korrelation zwischen den Variablen „Alter“ und „Zeit“ berechnen:

\[r = \frac{\sum_{i=1}^n (x_i – \bar{x}) (y_i – \bar{y})}{ \sqrt{\sum_{i=1}^n (x_i – \bar{x})^2} \cdot \sqrt{\sum_{i=1}^n (y_i – \bar{y})^2} } \]

Wer zur Übung nachrechnen will, das Ergebnis ist \(r = 0.73\). Um für dieselben Daten nun die Spearman-Korrelation zu berechnen, betrachten wir für beide Merkmale nicht die tatsächlichen Werte „Alter“ und „Zeit in Sekunden“, sondern deren Ränge. Wir arbeiten also mit den Platzierungen auf der Siegertreppe statt mit der tatsächlichen Zeit, und ebenso mit dem „Platz“ oder dem Rang des Alters.

In der Tabelle entstehen dafür zwei neue Spalten für die beiden Ränge. Die Ränge werden hier aufsteigend vergeben, was bedeutet dass die kleinste Zahl den Rang 1 erhält, usw.:

Person \(i\) Alter \(x_i\) Rang des Alters \(\text{rang}(x_i)\) Zeit in Sekunden \(y_i\) Platzierung \(\text{rang}(y_i)\)
A 59 6 14.61 6
B 35 3 11.80 2
C 43 5 14.34 5
D 23 1 13.03 3
E 42 4 14.18 4
F 27 2 11.02 1

Den Spearman-Korrelationskoeffizient erhält man nun, wenn man die Formel der Korrelation nicht auf die Variablen „Alter“ und „Zeit“ anwendet, sondern auf deren Ränge:

zweivariablen-spearman-bsp

Links ist das Alter und die Zeit für 100 Meter in einem Scatterplot dargestellt. Aus diesen Daten wird die Pearson-Korrelation \(r\) berechnet. Rechts sind die dazugehörigen Ränge (jeweils von 1 bis 6) dargestellt. Mit diesen Rängen berechnet man den Spearman-Korrelationskoeffizienten \(r_\text{Sp}\).

Die Formel für die Spearman-Korrelation ist genau dieselbe wie für die Pearson-Korrelation, nur werden die Daten \(x_i\) und \(y_i\) mit ihren jeweiligen Rängen ersetzt:

\[r_\text{Sp} = \frac{\sum_{i=1}^n (\text{rang}(x_i) – \overline{\text{rang}(x)}) (\text{rang}(y_i) – \overline{\text{rang}(y)})}{ \sqrt{\sum_{i=1}^n (\text{rang}(x_i) – \overline{\text{rang}(x)})^2} \cdot \sqrt{\sum_{i=1}^n (\text{rang}(y_i) – \overline{\text{rang}(y)})^2} } \]

Es ist wichtig zu verstehen dass dieser Koeffizient genauso berechnet wird wie die Pearson-Korrelation, und der einzige Unterschied ist, dass die Ränge statt der Originaldaten verwendet werden. Die Formel und das Vorgehen sind aber genau dasselbe wie im Artikel zur Pearson-Korrelation beschrieben.

Zur Übung: Berechne nun die Spearman-Korrelation dieser Daten. Verwende dazu die Ränge \(\text{rang}(x_i)\) und \(\text{rang}(y_i)\) aus der obigen Tabelle. Für die Berechnung kannst du je nach Vorliebe Formel 1 oder Formel 2 aus dem Artikel zur Pearson-Korrelation verwenden. Der resultierende Wert soll \(r_\text{Sp} = 0.83\) ergeben.

Zur Interpretation kann man nun sagen, dass mit steigendem Rang des Alters auch der Rang des Platzes ansteigt. Vorsicht. Ein „steigender“ Rang heißt hier, dass die Zahl des Platzes höher wird, die Person also langsamer läuft und später ins Ziel kommt! Das heißt in klaren Worten: Ältere Personen werden tendenziell später im Ziel ankommen.

Eine kurze Bemerkung noch: Die Ränge könnte man auch andersrum vergeben, dass also die älteste Person (oder die langsamste Person) den Rang 1 bekommt. Dann würde sich der Spearman-Koeffizient nur im Vorzeichen ändern, aus \(r_\text{Sp} = 0.83\) würde also \(r_\text{Sp} = -0.83\) werden. Die Interpretation würde dann etwas anders ablaufen, aber zum selben Ziel kommen: Die negative Korrelation bedeutet, dass mit steigendem Rang des Alters (d.h. jüngere Personen) der Rang der Platzierung sinkt (d.h. die Person schneller im Ziel ankommt). Hier also in klaren Worten: Je jünger eine Person wird, desto schneller kommt sie im Ziel an. Und daher genau dasselbe wie vorher.

Was ist der Effekt davon, die Ränge statt der Originaldaten zu nehmen?

Da bei der Spearman-Korrelation die Ränge verwendet werden, sind dort die tatsächlichen Abstände zwischen z.B. Platz 1 und Platz 2 egal. Die Spearman-Korrelation ist immer dann 1, wenn der niedrigste Wert für \(x\) gepaart ist mit dem niedrigsten Wert von \(y\), usw.

zweivariablen-spearman-r1

Links ist ein Scatterplot für Beispieldaten \(x\) und \(y\). Der niedrigste \(x\)-Wert gehört zum niedrigsten \(y\)-Wert, usw., jedoch ist der Zusammenhang nicht linear, sondern folgt einer Kurve. Rechts sieht man nun die Ränge der Daten gegeneinander geplottet. Der hieraus resultierende Spearman-Korrelationskoeffizient ist genau 1.

Mathematisch sagt man: Die Spearman-Korrelation misst den monotonen Zusammenhang, während die Pearson-Korrelation den linearen Zusammenhang misst.

Was passiert bei gleichen Rängen, also „Unentschieden“?

Es kann passieren, dass z.B. zwei oder mehr Werte für \(x\) denselben Wert annehmen. In diesem Fall wird den entsprechenden Werten der Durchschnittsrang zugewiesen. Hierzu drei Beispiele, hätten die Personen aus dem obigen 100-Meter-Sprint stattdessen ein anderes Alter gehabt:

Alter \(x_i\) 23 27 27 35 43 59
Rang \(\text{rang}(x_i)\) 1 2.5 2.5 4 5 6

In der obigen Tabelle haben zwei Personen dasselbe Alter, deren Ränge 2 und 3 wären. Daher bekommen beide Personen den Durchschnittsrang 2.5.

Alter \(x_i\) 23 27 35 35 35 59
Rang \(\text{rang}(x_i)\) 1 2 4 4 4 6

Hier haben drei Personen dasselbe Alter. Deren Ränge wären 3, 4, und 5. Der resultierende Durchschnittsrang für alle drei Personen ist also 4.

Eine kürzere Formel für die Spearman-Korrelation

Das oben angegebene Vorgehen zur Berechnung von \(r_\text{Sp}\) ist zwar (hoffentlich) einleuchtend und nachvollziehbar, aber die Formel ist doch sehr aufwändig auszurechnen. Es gibt zum Glück eine kürzere Formel, mit der die Spearman-Korrelation schneller ausgerechnet werden kann.

\[ r_\text{Sp} = 1 – \frac{6 \cdot \sum_{i=1}^n d_i^2}{n\cdot (n^2 -1)} \]

Vorsicht: Diese Formel darf man nur dann anwenden, wenn es keine Bindungen in den Daten gibt. Es müssen also alle \(x_i\) verschieden voneinander sein, und außerdem alle \(y_i\) voneinander verschieden sein. Andernfalls kommt mit dieser Formel ein anderes Ergebnis heraus.

Hier ist \(d_i\) die Rangdifferenz, d.h. der Unterschied zwischen den beiden Rängen für eine Beobachtung. Wenn also im oberen Beispiel jemand der jüngste ist (also sein Rang des Alters 1 ist), und das drittschnellste Ergebnis gelaufen ist (also der Rang der Platzierung 3 ist), ist die Rangdifferenz \(d_i = 1 – 3 = -2\). Diese Differenz bestimmen wir nun für jeden Läufer:

Person \(i\) Alter \(x_i\) Rang des Alters \(\text{rang}(x_i)\) Zeit in Sekunden \(y_i\) Platzierung \(\text{rang}(y_i)\) Rangdifferenz \(d_i = \text{rang}(x_i) – \text{rang}(y_i)\)
A 59 6 14.61 6 0
B 35 3 11.80 2 1
C 43 5 14.34 5 0
D 23 1 13.03 3 -2
E 42 4 14.18 4 0
F 27 2 11.02 1 1

Somit können wir die quadrierten (nicht vergessen!) Rangdiffernzen aufsummieren:

\[ \sum_{i=1}^n d_i^2 = 0^2 + 1^2 + 0^2 + (-2)^2 + 0^2 + 1^2 = 6 \]

Dieses Ergebnis setzen wir in die obige Formel nun ein:

\[ \begin{align*} r_\text{Sp} &= 1- \frac{6 \cdot \sum_{i=1}^n d_i^2}{n\cdot (n^2 -1)}\\ &= 1- \frac{6 \cdot 6}{6 \cdot (6^2 – 1)}\\ &= 0.828\end{align*} \]

Es kommt auf diesem Weg natürlich derselbe Wert für die Spearman-Korrelation heraus, \(r_\text{Sp} = 0.83\)

Streudiagramme

Streudiagramme (oft auch Scatterplots genannt) sind gleichzeitig eine der einfachsten und informativsten grafischen Darstellungen von Daten. Sie sind hauptsächlich für die gleichzeitige Darstellung von zwei Variablen geeignet.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Ein Beispiel ist der folgende Datensatz, in dem bei einer Reihe von Autos Vollbremsungen durchgeführt wurden, und die Ausgangsgeschwindigkeit (\(x\)-Achse) und der resultierende Bremsweg (\(y\)-Achse) gemessen wurde:

zweivariablen-streudiagramm-bspDurch die Darstellung der Daten fallen hier direkt drei Dinge auf:

  1. Es wurden keine Autos gemessen, deren Geschwindigkeit zwischen 100 km/h und 130 km/h war. Das kann an der Studie liegen, oder es ist ein Fehler bei der Datenverarbeitung unterlaufen.
  2. Ein Auto hatte eine Ausgangsgeschwindigkeit von ca. 40 km/h, aber einen Bremsweg von 110 Metern. Das ist ein Ausreißer, für den nachgeforscht werden muss was da passiert ist. Hat der Fahrer geschlafen, oder vielleicht der, der die Messungen in den Computer eingegeben hat, einen Fehler gemacht?
  3. Der Zusammenhang wird hier besser durch eine Parabel als durch eine Gerade modelliert. Das macht Sinn, denn wenn man sich an die Fahrschule erinnert, ist der Bremsweg quadratisch abhängig von der Geschwindigkeit.

Eine grafische Darstellung und Exploration eines Datensatzes ist also immer ein sinnvoller erster Schritt, noch vor irgendwelchen statistischen Modellierungen.

Streudiagramme für drei Variablen sind möglich, aber meistens unübersichtlich. Als Beispiel wird hier ein Datensatz von verschiedenen Autos visualisiert, in dem drei Variablen (Gewicht, Hubraum, und Benzinverbrauch) dargestellt werden:

zweivariablen-streudiagramme-3dWie gesagt, 3d-Streudiagramme sind nicht zu empfehlen, und wären auf dem Papier auch nur schwer zu zeichnen.

Zeichnen eines Streudiagramms

Um ein Streudiagramm zu zeichnen, benötigt man eine Reihe von gepaarten Messungen \(x_i\) und \(y_i\). Das können z.B. zwei Spalten, also zwei Variablen aus einem Datensatz sein, oder einfach die beiden gemessenen Merkmale in irgend einer Liste.

Als beispielhafte Daten schauen wir uns die Messungen \(x_i\) = Alter eines Kindes und \(y_i\) = Schugröße eines Kindes an. Wir bekommen die folgende Tabelle:

Kind \(i\) Alter \(x_i\) Schuhgröße \(y_i\)
1 3 22
2 5 26
3 3 23
4 6 25

Das erste Kind erhält nun einen Punkt der auf der \(x\)-Achse den Wert 3 hat, und auf der \(y\)-Achse den Wert 22. Genauso wird mit den übrigen drei Kindern verfahren. Das Streudiagramm für die 4 Kinder sieht wie folgt aus:

zweivariablen-streudiagramme-2d

Variationskoeffizient

Der Variationskoeffizient (oft mit \(v\) bezeichnet) ist eine Kennzahl, die die Streuung eines Merkmals beschreibt. Er wird berechnet indem man die Standardabweichung der Daten durch ihren Mittelwert teilt:

\[ v = \frac{s}{\bar{x}} \]

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Der Vorteil des Variationskoeffizienten \(v\) gegenüber der Standardabweichung \(s\) ist, dass dem Variationskoeffizient egal ist, auf welcher Skala die Daten gemessen wurden. Misst man etwa die Körpergrösse von fünf Personen in Zentimeter, kommt ein anderer Mittelwert raus (z.B. 175) als wenn man die Körpergrösse in Meter misst (dann sind es z.B. 1,75). Dasselbe passiert mit der Varianz und der Standardabweichung, aber nicht mit dem Variationskoeffizenten.

Dazu können wir uns beispielhaft die gerade erwähnten Daten anschauen, die Körpergrösse von fünf Personen in Zentimetern und in Metern:

Person \(i\) 1 2 3 4 5
Körpergrösse in Zentimeter 160 173 177 164 182
Körpergrösse in Meter 1.60 1.73 1.77 1.64 1.82

Beispielaufgabe

Berechne für beide Datenreihen, die Körpergrösse in Zentimeter sowie in Meter, die folgenden Kennzahlen:

Eine Anleitung zum Berechnen der ersten drei Werte findest du in den entsprechenden Artikeln. Den Variationskoeffizienten \(v\) erhältst du wie oben erklärt, indem du die Standardabweichung \(s\) durch den Mittelwert \(\bar{x}\) teilst.

Zum Nachprüfen: Die folgenden Kennzahlen sind richtig:

in Zentimeter in Meter
Mittelwert \(\bar{x}\) 171.2 1.712
Varianz \(s^2\) 82.7 0.00827
Standardabweichung \(s\) 9.09 0.0909
Variationskoeffizient \(v\) 0.0531 0.0531

Es fällt hier auf, dass der Mittelwert, die Varianz und die Standardabweichung jeweils andere Werte annehmen, aber der Variationskoeffizient \(v\) für beide Daten gleich ist. Aus diesem Grund ist der Variationskoeffizient eine geeignete Maßzahl, wenn man die Streuung eines Merkmals unabhängig von ihrer Skalierung beschreiben möchte.

Man kann auch den Variationskoeffizienten von zwei oder mehr Merkmalen mit unterschiedlicher Skalierung vergleichen, z.B. die Körpergröße und das Gewicht von Studenten, oder die Population der USA und Deutschland. Wo normalerweise die Standardabweichung eines Merkmals mit großem Mittelwert (z.B. die Bevölkerung der USA) automatisch dazu tendiert, größer zu sein, ist der Variationskoeffizient nun vergleichbar.

Unabhängigkeit zweier Zufallsvariablen

Das Konzept der Abhängigkeit lässt sich vereinfacht wie folgt beschreiben: Wenn man in einer Stichprobe für jede befragte Person zwei Merkmale erhebt (nennen wir sie \(X\) und \(Y\)), und man anhand des tatsächlichen Wertes von \(X\) eine genauere Vorhersage für \(Y\) machen kann (und umgekehrt), dann spricht man von einer Abhängigkeit zwischen \(X\) und \(Y\).

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Eine Abhängigkeit existiert ohne Richtung. Alle drei folgenden Aussagen bedeuten also das Gleiche:

  • \(X\) ist von \(Y\) abhängig.
  • \(Y\) ist von \(X\) abhängig.
  • \(X\) und \(Y\) sind abhängig.

Ein Beispiel für zwei abhängige Variablen ist \(X\)=Körpergrösse und \(Y\)=Körpergewicht von befragten Personen. Wenn ich die Größe einer Person kenne, kann ich ihr Gewicht besser einschätzen. Zwei unabhängige Variablen wären etwa \(X\)=Körpergewicht und \(Y\)=Hausnummer einer Person, denn die Hausnummer einer Person gibt mir keine Information über ihr Gewicht (und andersrum).

Es ist also bei zwei unabhängigen Variablen die Ausprägung von einem Wert für \(X\) keine Hilfe, um den Wert von \(Y\) vorherzusagen. Mathematisch ausgedrückt: Die Verteilung von \(Y\), gegeben ich kenne \(X\), ist gleich der Verteilung von \(Y\). Und noch kürzer, in einer Formel verpackt, schreiben wir das äquivalent als

\[ \mathbb{P}(Y|X) = \mathbb{P}(Y). \]

Es ist wichtig, im Kopf zu behalten dass eine Abhängigkeit nicht bedeutet, dass die eine Variable die andere beeinflusst. Um das am obigen Beispiel zu erläutern: Die Körpergrösse und das Körpergewicht sind voneinander abhängig. Wenn ich also eine Person habe, die 80kg schwer ist, und eine Person die 50kg schwer ist, dann gehe ich davon aus, dass die 80kg schwere Person etwas größer ist als die 50kg schwere. Das ist die Idee hinter dem Begriff Abhängigkeit. Es heißt aber nicht, dass ich jetzt 30kg zunehmen kann und erwarten darf, dass ich deswegen in die Höhe wachse. Dies unterstellt eine nicht vorhandene Kausalität. Der Unterschied zwischen den beiden Begriffen ist im Artikel „Korrelation und Kausalität“ detaillierter erklärt.

In der folgenden Grafik sind vier Beispiele für Streudiagramme von unabhängigen Zufallsvariablen abgebildet

zufallsvariablen-unabhaengige-ZV

(a) Eine Zählvariable \(Y\) und eine gleichverteilte stetige Variable \(X\)
(b) Zwei Zählvariablen
(c) Zwei stetig gleichverteilte Variablen
(d) Zwei normalverteilte Variablen

Die nächste Grafik zeigt vier beispielhafte Streudiagramme für abhängige Zufallsvariablen, und macht deutlich dass diese Abhängigkeiten nicht immer linear (wie in Grafik (a) dargestellt) sein müssen.

asdf

(a) Das klassische Beispiel: \(X\) und \(Y\) sind linear abhängig.
(b) Hier ist eine quadratische Abhängigkeit zwischen \(X\) und \(Y\) erkennbar
(c) Ein ungewöhnliches Beispiel, aber dennoch eine Abhängigkeit: Falls uns der Wert von \(X\) gegeben wird, lässt uns das eine genauere Aussage für \(Y\) treffen.
(d) Eine beispielhafte (quadratische) Abhängigkeit zwischen einer Zählvariable \(Y\) und einer gleichverteilten Variable \(X\).

In Abbildung (c) wird sehr schön klar, dass die absolute Verteilung von \(Y\) anders ist als die Verteilung von \(Y\), gegeben ich kenne \(X\). Denn es ist zum Beispiel \(Y|X=0.5 \sim N(1, 0.1)\), aber \(Y | X=-1 \sim N(0, 0.1)\). Das bedeutet: Die Verteilung von \(Y\), gegeben X ist 0.5, ist eine Normalverteilung mit Mittelwert 1 (und Standardabweichung 0.1). Falls \(X\) aber zum Beispiel -1 ist, ist die bedingte Verteilung von \(Y\) normalverteilt mit Mittelwert 0 (und Standardabweichung 0.1).

Die mathematische Definition der Unabhängigkeit lautet wie folgt:

Zwei Variablen \(X\) und \(Y\) heißen stochastisch unabhängig, falls für alle \(x\) und alle \(y\) gilt:

\[ f(x,y) = f_X(x) \cdot f_Y(y). \]

Das bedeutet, dass wir bei unabhängigen Variablen die gemeinsame Dichte \(f(x,y)\) berechnen können, indem wir einfach die einzelnen Dichten \(f_X(x)\) und \(f_Y(y)\) multiplizieren. Dazu ein Beispiel:

Angenommen wir werfen eine Münze \(X\) (Ergebnis: 0=Kopf oder 1=Zahl) und anschließend einen Würfel \(Y\) (Ergebnis: 1, 2, 3, 4, 5, oder 6). Diese beiden Zufallsvariablen sind voneinander unabhängig, da es den Würfel nicht interessiert, was das Ergebnis der Münze war. Wir können nun zum Beispiel die Wahrscheinlichkeit berechnen, dass die Münze „Kopf“ (wir kodieren „Kopf“ mit einer 0) zeigt:

\[ \mathbb{P}(X=\text{Kopf}) = f_X(0) = \frac{1}{2} \]

Außerdem können wir die Wahrscheinlichkeit notieren, dass der Würfel eine „1“ zeigt:

\[ \mathbb{P}(Y=1) = f_Y(1) = \frac{1}{6} \]

Rechenregeln für Dichten von unabhängigen Zufallsvariablen

Im Falle von unabhängigen Experimenten (so wie der Münze und dem Würfel oben) können wir nun gemeinsame Wahrscheinlichkeiten ganz einfach berechen: Möchten wir etwa wissen, wie hoch die Wahrscheinlichkeit ist, dass wir zuerst „Kopf“ werfen, und danach eine „3“ würfeln (das heisst, wir möchten \(f(0,3)\) berechnen), können wir die beiden einzelnen Dichten einfach multiplizieren:

\[ f(0, 3) = f_X(0) \cdot f_Y(3) = \frac{1}{2} \cdot \frac{1}{6} = \frac{1}{12} \]

Wenn man sich mit mehr als einem Zufallsexperiment beschäftigt, ist es übrigens hilfreich, die Dichten mit einem Index zu versehen. Ansonsten wüssten wir nämlich nicht, was mit der Dichte \(f(1)\) gemeint ist, der Würfel oder die Münze. Wenn wir stattdessen \(f_X(1)\) schreiben, ist klar, dass die Dichte der Zufallsvariablen \(X\), also der Münze, gemeint ist, und der Wert der Dichte daher \(\frac{1}{2}\) (und nicht \(\frac{1}{6}\)) ist.

Bedingte Dichten für unabhängige Zufallsvariablen machen wenig Sinn. Da uns \(X\) keine Information für die Ausprägung von \(Y\) liefert, ist die bedingte Dichte von \(Y\) gegeben \(X\) genau gleich der (nicht bedingten) Dichte von \(Y\):

\[ f(y|x) = f(y) \]

Die Frage, ob zwei Variablen voneinander abhängig oder unabhängig sind, hat wichtige Auswirkungen darauf, was man mit den beiden Variablen rechnen kann. Man braucht zum Beispiel voneinander abhängige Variablen, um eine Regression zu rechnen, denn wenn zwei Variablen voneinander unabhängig sind, also sich nicht gegenseitig beeinflussen, macht es auch keinen Sinn, eine der beiden Variablen mit Hilfe der anderen vorherzusagen. Für andere Berechnungen sind hingegen voneinander unabhängige Zufallsvariablen die Voraussetzung. Möchte man zum Beispiel den Erwartungswert des Produkts zweier Zufallsvariablen berechnen, gilt die einfache Formel nur im Fall der Unabhängigkeit.