Archiv des Autors: Alex

Vorgehen bei Hypothesentests

Das generelle Vorgehen bei einem Hypothesentest ist für alle Varianten gleich:

  1. Man stellt seine Hypothesen (Null- und Alternativhypothese) auf
  2. Man sucht den für seine Fragestellung passenden Test aus
  3. Man legt das Signifikanzniveau \(\alpha\) fest
  4. Man sammelt seine Daten
  5. Man berechnet mit diesen Daten eine zusammenfassende Kennzahl, die Prüfgröße (oder Teststatistik)
  6. Man bestimmt die Verteilung dieser Prüfgröße
  7. Man berechnet entweder den kritischen Bereich oder den p-Wert
  8. Man prüft anhand des Ergebnisses aus Schritt 6., ob man die Nullhypothese ablehnt oder beibehält.
Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Einführend wurden diese acht Schritte schon im Artikel „Was sind Hypothesentests?“ erwähnt. Hier werden diese Schritte nochmal etwas detaillierter beschrieben:

1. Hypothesen aufstellen

Zuallererst formuliert man seine Fragestellung, und bringt sie in die Form von zwei Hypothesen. Hier ist wichtig, dass man die Nullhypothese \(H_0\) widerlegen möchte, und nachweisen möchte dass stattdessen die Alternativhypothese, \(H_1\), gilt. Deswegen müssen sich \(H_0\) und \(H_1\) auch widersprechen. Im einführenden Artikel hatten wir schon das Beispiel mit den Maßkrügen. Dort wollten wir nachweisen, dass auf dem Oktoberfest im Durchschnitt zuwenig Bier in die Maßkrüge gefüllt wird. Unsere Hypothesen werden also wie folgt formuliert:

  • \(H_0\): Der durchschnittliche Inhalt eines Maßkruges ist gleich (oder größer) als ein Liter
  • \(H_1\): Der durchschnittliche Inhalt eines Maßkruges ist kleiner als ein Liter

Wichtig, wie gesagt, dass unsere Behauptung die wir nachweisen möchten, in der Alternative \(H_1\) formuliert ist. Der Artikel „Was kommt in \(H_0\) und was in \(H_1\)?“ gibt hier genauer Hilfe.

Stellen wir nun den durchschnittlichen Inhalt eines Maßkruges durch \(\mu\) dar, können wir die Hypothesen kürzer und mathematisch eindeutiger formulieren:

  • \(H_0: \; \mu \geq 1 \text{Ltr.}\)
  • \(H_1: \; \mu < 1 \text{Ltr.}\)

Einseitige und zweiseitige Tests

Es gibt drei mögliche Arten, ein Hypothesenpaar aufzustellen. Sie werden unterteilt in einseitige und in zweiseitige Tests, je nachdem in welche Richtung die Alternativhypothese zielt:

Einen einseitigen Test haben wir gerade eben im Beispiel oben schon gesehen: Wir möchten herausfinden, ob der durchschnittliche Inhalt in einem Maßkrug kleiner ist als ein Liter. Die Alternativhypothese geht also nur auf eine Seite, nämlich in die Richtung „kleiner als ein Liter“. Allgemein sieht das Hypothesenpaar wie folgt aus:

  • \(H_0: \; \mu \geq a\)
  • \(H_1: \; \mu < a\)

Genauso gibt es einseitige Tests in die andere Richtung. Dann lautet die Alternativhypothese, dass der Parameter größer ist als irgendein zuvor festgelegter Wert. Möchte man z.B. Alarm schlagen, wenn die Durchschnittstemperatur irgendwann größer ist als ein bestimmter Wert, dann würde man solch einen Test brauchen. Die Hypothesen lauten dann:

  • \(H_0: \; \mu \leq a\)
  • \(H_1: \; \mu > a\)

Bei einem zweiseitigen Test möchte man nur herausfinden ob ein Parameter anders ist als ein vorher festgelegter Wert – egal ob er nun kleiner oder größer ist. Ein Beispiel wäre ein Test einer Nahrungsmittelfabrik, ob das Füllgewicht in einer Packung konstant den vorgegebenen Wert hält. Man braucht einen Alarm wenn das Gewicht abweicht, egal ob nach oben oder nach unten. Die Hypothesen lauten dann allgemein:

  • \(H_0: \; \mu = a\)
  • \(H_1: \; \mu \neq a\)

Zwischenaufgabe

Man möchte durch einen Test nachweisen, dass Berufseinsteiger mit Masterabschluss im Durchschnitt mehr verdienen als Berufseinsteiger mit einem Bachelorabschluss. Dazu befragt man 100 Berufseinsteiger nach ihrem Abschluss und Einstiegsgehalt.

Wie lautet die Null- bzw. Alternativhypothese in diesem Fall?

Lösung (klick)

Da wir nachweisen wollen, dass Berufseinsteiger mit Masterabschluss ein höheres Einstiegsgehalt haben, muss diese Behauptung in die Alternativhypothese.

\(H_0\): Bachelor- und Masterabsolventen bekommen das gleiche Einstiegsgehalt.

Die Nullhypothese ist das genaue Gegenteil davon. Solange wir keinen Unterschied im Einkommen nachweisen, müssen wir annehmen, dass beide Gruppen dasselbe verdienen:

\(H_1\): Masterabsolventen bekommen ein höheres Einstiegsgehalt als Bachelorabsolventen.

Wenn wir das durchschnittliche Einstiegsgehalt von Bachelorabsolventen mit \(\mu_B\), und das von Masterabsolventen mit \(\mu_M\) bezeichnen, können wir die Hypothesen kürzer formulieren:

\[ H_0: \; \mu_M \leq \mu_B \\ H_1: \; \mu_M > \mu_B \]

2. Test wählen

Um zu entscheiden, welcher Test der passende ist, muss man erst die Null- und Alternativhypothese aufstellen, und das Skalenniveau aller vorkommenden Variablen (Zielgröße, und evtl. Einflussgröße(n)) festlegen. Die Testwahl ist dann z.B. über eine Tabelle möglich, wie ich sie in einem Artikel hier zeige. Im Beispiel mit dem Maßkrug oben haben wir eine normalverteilte Zielgröße, und keine Einflussgröße – laut Tabelle passt hier also der Einstichproben-t-Test.

Nachdem man den passenden Test gewählt hat, ergibt sich später auch automatisch, welche Prüfgröße man berechnen muss, und welche Verteilung sie hat.

3. Signifikanzniveau festlegen

Eine Hypothese kann nie mit absoluter Sicherheit bestätigt bzw. widerlegt werden, sondern immer nur mit einer gewissen Wahrscheinlichkeit. Es kann also immer passieren, dass wir durch Zufall in unserer Stichprobe viele Maßkrüge mit wenig Bier erhalten, und einen Mittelwert von zum Beispiel \(\bar{x}=940\text{ml}\) berechnen. Wir würden also fälschlicherweise „nachweisen“, dass im Mittel zuwenig Bier in die Krüge gefüllt wird, obwohl der echte durchschnittliche Inhalt tatsächlich ein Liter ist.

In statistischer Sprache formuliert heißt das: Wir würden also die Nullhypothese ablehnen, obwohl sie in der Realität wahr ist.

Man muss sich vor Durchführung des Tests auf ein Signifikanzniveau, genannt \(\alpha\), festlegen, das die maximale Wahrscheinlichkeit festlegt, mit der uns so ein Fehler passieren darf. Je sicherer wir mit unserer Entscheidung sein wollen, desto niedriger muss diese Fehlerwahrscheinlichkeit gewählt werden. In den allermeisten Fällen, sowohl in der Praxis als auch in Klausuren, ist dieser Wert festgelegt als \(\alpha = 5\%\).

\(\alpha\)- und \(\beta\)-Fehler

Neben dem Fehler, \(H_0\) abzulehnen obwohl sie wahr ist, gibt es eine weitere Fehlentscheidung, die beim Testen passieren kann: Falls tatsächlich im Mittel zuwenig Bier abgefüllt wird, und unser Test dies nicht nachweisen kann. Dann behalten wir die Nullhypothese (genug Bier) bei, obwohl in Wirklichkeit die Alternativhypothese (zuwenig Bier) wahr ist.

Insgesamt können bei einem Test vier Fälle auftreten:

  1. Wir lehnen \(H_0\) ab, also nehmen \(H_1\) an.
    1. In Wirklichkeit stimmt \(H_0\): Hier lehnen wir \(H_0\) fälschlicherweise ab. Das ist der \(\alpha\)-Fehler, auch Fehler 1. Art genannt. Dieser Fall tritt genau mit einer Wahrscheinlichkeit von \(\alpha\) auf – weil ein Test genau so konstruiert ist. Das Niveau \(\alpha\) regelt also, wie sicher man sich sein kann dass \(H_1\) tatsächlich wahr ist, gegeben man lehnt \(H_0\) auch ab.
    2. In Wirklichkeit stimmt \(H_1\): Alles in Ordnung. \(H_1\) stimmt, und wir nehmen \(H_1\) an.
  2. Wir behalten \(H_0\) bei.
    1. In Wirklichkeit stimmt \(H_0\): Alles in Ordnung. \(H_0\) stimmt, und wir glauben nicht an \(H_1\).
    2. In Wirklichkeit stimmt \(H_1\): In diesem Fall ist unsere Vermutung wahr (d.h. \(H_1\), die wir ja nachweisen möchten, stimmt), aber durch den Test konnte sie nicht bestätigt werden, da wir \(H_0\) beibehalten. Dies ist der sogenannte \(\beta\)-Fehler, auch Fehler 2. Art genannt. Diese Wahrscheinlichkeit können wir nicht kontrollieren, sie ist abhängig von der Art des Tests und des Signifikanzniveaus \(\alpha\).

4. Daten sammeln

Als nächstes erhebt man Daten. Das muss man in einer Klausur natürlich nicht machen, aber in realen Situationen ist die Datenerhebung meist der zeitaufwändigste Schritt.

In unserem Beispiel würden wir aufs Oktoberfest gehen, z.B. zehn Maß Bier bestellen, und deren Inhalt abmessen. Die Ergebnisse könnten so aussehen:

Krug \(x_i\) 1 2 3 4 5 6 7 8 9 10
Inhalt 968ml 1001ml 987ml 995ml 1010ml 983ml 994ml 962ml 979ml 965ml

5. Prüfgröße berechnen

Nun werden die Daten ausgewertet, und zwar unter der Annahme, dass \(H_0\) gilt, also alles in Ordnung ist, d.h. der durchnittliche Inhalt eines Maßkrugs tatsächlich ein Liter ist.

Um später eine Testentscheidung treffen zu können, muss man aus den Daten eine Kennzahl berechnen, deren Verteilung man kennt (und die in Klausuren meist als Verteilungstabelle in einer Formelsammlung angehängt ist).

Der Test in unserem Fall funktioniert von der Idee her wie folgt: Wir berechnen den durchschnittlichen Inhalt der erhobenen (hihi) Maßkrüge. Dieser ist bei uns \(\bar{x} = 984.4\text{ml}\).

Die Frage, die der Test beantwortet, ist nun: „Angenommen der wahre Durchschnittsinhalt liegt bei 1000ml, ist dieses Ergebnis von 984.4ml noch plausibel genug, dass es durch Zufallsschwankung entstanden sein kann, oder ist es so unplausibel, dass der wahre Mittelwert nicht bei 1000ml, sondern niedriger liegt?“

Wir könnten jetzt natürlich subjektiv sein und sagen: „984ml ist schon niedrig – da ist der Mittelwert bestimmt nicht bei 1000ml.“ Aber das ist keine klare Entscheidungsregel. Was würden wir bei einem Mittelwert von 985ml sagen? Bei 990ml? Bei 995ml?

Der Test verpackt diese Frage nun in eine mathematische Formel und eine Entscheidungsregel. Es wird dazu eine Prüfgröße (oder Teststatistik) berechnet, die in diesem Fall eine standardisierte Version des Mittelwerts \(\bar{x}\) ist:

\[ T = \sqrt{n} \frac{\bar{x} – \mu_0}{s} \]

Die ganzen Standardisierungen in dieser Formel sind dazu da, dass dem Test egal ist,

  • wie groß die Stichprobe ist (da mit \(\sqrt{n}\) multipliziert wird),
  • welchen Mittelwert wir als Nullhypothese festgelegt haben (da die 1000ml, also \(\mu_0\), wieder abgezogen werden),
  • welche Streuung die Daten aufweisen (da wir durch die Standardabweichung der Stichprobe, \(s\) teilen).

In unserem Beispiel bestimmen wir \(\bar{x} = 984.4\text{ml}\) und \(s= 16.057\). Den Wert \(\mu_0=1000\) nehmen wir aus der Nullhypothese. Unsere Prüfgröße \(Z\) ist somit

\[ T = \sqrt{n} \frac{\bar{x} – \mu_0}{s} = \sqrt{10} \frac{984.4 – 1000}{16.057} = -3.072\]

6. Verteilung der Prüfgröße bestimmen

Um bestimmen zu können, welche Werte für die Prüfgröße „normal“, also noch akzeptabel sind, muss man wissen, welche Verteilung diese Prüfgröße hat. Die Prüfgröße bei einem Binomialtest hat z.B. die Verteilung \(B(n,p)\), also eine Binomialverteilung mit n = „Anzahl der Beobachtungen“ und p = „Wahrscheinlichkeit in der Nullhypothese“. Bei einem t-Test hat die Prüfgröße dann eine \(t(n-1)\)-Verteilung, d.h. eine t-Verteilung mit \(n-1\) Freiheitsgraden.

Ein Test ist meistens so konzipiert, dass die Verteilung „einfach ist“, z.B. eine Normalverteilung mit Mittelwert 0 und Standardabweichung 1. Der Grund dafür ist, dass es dann reicht, in Büchern, Klausuren usw. nur eine Tabelle für die Normalverteilung abzubilden, nämlich die mit Mittelwert 0 und Standardabweichung 1.

Und diese Tatsache ist übrigens auch der Grund dafür, warum wir die Prüfgröße etwas umständlicher berechnen. Wir könnten als Prüfgröße ja einfach den Mittelwert der Daten nehmen. Stattdessen standardisieren wir ihn, indem wir \(\mu_0\) abziehen und durch \(s\) teilen. Der Vorteil dieser Variante ist nun, wie gerade beschrieben, dass die Prüfgröße in eine Verteilung „gezwängt“ wird, für die wir eine Tabelle vorhanden haben.

7. Test abschließen: Zwei Möglichkeiten

Nun gibt es zwei Möglichkeiten, die Frage zu beantworten, ob unser Mittelwert noch plausibel ist oder nicht:

Test abschließen: Über den kritischen Bereich (meist mit Hilfe einer Verteilungstabelle in Klausuren)

Bei der ersten Möglichkeit, die Testentscheidung zu treffen, bestimmen wir einen kritischen Bereich. Wenn unsere Prüfgröße dann nicht in diesem kritischen Bereich liegt, nehmen wir die Maßkrüge als korrekt befüllt an. Wenn die Prüfgröße aber in dem kritischen Bereich liegt, haben wir einen Nachweis dafür, dass in Wirklichkeit weniger als 1000ml in einen Maßkrug gefüllt werden.

Der kritische Bereich ist ein fester Bereich für eine bestimmte Testart, der, im Falle dass \(H_0\) gilt, von der Prüfgröße nur sehr selten (nämlich mit einer Wahrscheinlichkeit von \(\alpha\)) erreicht wird. Falls die Prüfgröße nun doch in diesem kritischen Bereich liegt, haben wir einen starken Grund, eher an \(H_1\) zu glauben.

Bei einem einseitigen Test liegt dieser Bereich nur auf einer Seite, es gibt eine Schranke, und je nach Testrichtung wird geschaut, ob die Prüfgröße über oder unter dieser Schranke liegt. Bei einem zweiseitigen Test besteht der kritische Bereich aus zwei Gebieten, es gibt also zwei Schranken, je eine links und rechts, und es wird geschaut, ob die Prüfgröße innerhalb der zwei Schranken liegt, oder (in irgendeine Richtung) außerhalb.

Man kann die kritische Schranke recht problemlos an einer Verteilungstabelle ablesen. So hat man das früher, vor dem Computerzeitalter gemacht, und so macht man es in Klausuren auch immernoch. In der Praxis ist es aber inzwischen verbreiteter, mit p-Werten zu arbeiten:

Test abschließen: Über den p-Wert (meist in Statistikprogrammen)

Alternativ können wir aus der Prüfgröße auch einen p-Wert berechnen. Dieser Wert sagt uns, wie wahrscheinlich es ist, unter Annahme einer korrekten Befüllung von durchschnittlich 1000ml eine so extreme Abweichung vom Mittelwert \(\mu_0=1000\text{ml}\) zu erhalten.

Wenn diese Wahrscheinlichkeit nun sehr gering ist (genauer: Wenn sie unter dem festgelegten Signifikanzniveau \(\alpha\) liegt), hat man wieder einen Nachweis dafür, dass in Wirklichkeit weniger als 1000ml in einen Maßkrug gefüllt werden. Liegt der p-Wert aber darüber, konnte man das nicht nachweisen und behält die Nullhypothese bei.

8. Testentscheidung treffen

Nun hat man alle Werte berechnet, um seine Testentscheidung treffen zu können. Falls man sich in Schritt 7. für den kritischen Bereich entschieden hat, betrachten wir zwei Werte: die Prüfgröße und den kritischen Bereich. Man sieht einfach nach, ob die Prüfgröße innerhalb oder außerhalb dieses Bereichs liegt. Liegt sie außerhalb, dann ist „alles in Ordnung“, also behalten wir die Nullhypothese, aber liegt sie innerhalb des kritischen Bereichs, dann haben wir genug Hinweise dafür gefunden, um die Alternativhypothese annehmen zu können.

Wenn man sich in Schritt 6. für den p-Wert entschieden hat, ist der letzte Schritt etwas einfacher: Man betrachtet zwei andere Werte: den p-Wert sowie das Signifikanzniveau \(\alpha\). Liegt der p-Wert über dem Signifikanzniveau \(\alpha\), behalten wir die Nullhypothese, aber falls der p-Wert kleiner ist als \(\alpha\), haben wir genug Hinweise dafür gefunden, um die Alternativhypothese annehmen zu können.

Was sind Hypothesentests?

Hypothesentests führt man immer dann durch, wenn man irgendetwas mit Hilfe von erhobenen Daten nachweisen möchte, zum Beispiel dass auf dem Oktoberfest die Maßkrüge nicht ganz vollgemacht werden. Der Grundsatz bei allen statistischen Tests ist hierbei, dass wir das Gegenteil widerlegen müssen – wir müssen also widerlegen, dass der Maßkrug tatsächlich mit einem Liter gefüllt ist.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Um den Grund für dieses Vorgehen zu verstehen, kann man sich eine Gerichtsverhandlung vorstellen, und Parallelen zum Ablauf eines Tests ziehen: Man geht davon aus, dass der Angeklagte unschuldig ist (ohne es genau zu wissen). Bevor man von der Schuld des Angeklagten überzeugt sein kann, muss man ausreichend Beweise gesammelt haben, um zweifelsfrei an die Schuldigkeit glauben zu können. Falls das nicht der Fall ist, muss man davon ausgehen, dass er unschuldig ist. Man könnte diesen Sachverhalt auch in statistischen Hypothesen formulieren:

  • \(H_0\): Der Angeklagte ist unschuldig
  • \(H_1\): Der Angeklagte ist schuldig

Wie läuft ein Test ab?

Jeder Test besteht aus den folgenden acht Schritten:

  1. Hypothesen aufstellen:
    Zuallererst formuliert man seine Fragestellung in ein Hypothesenpaar um, und zwar eine Nullhypothese und eine Alternativhypothese. Man geht davon aus, dass die Nullhypothese gilt, außer man findet durch die Daten einen starken Hinweis, dass stattdessen die Alternativhypothese wahr ist.
    In diesem Schritt definiert man bereits das Skalenniveau seiner Zielgröße (also z.B. nominal- oder intervallskaliert) und eventuell vorhandener Einflussgrößen.
  2. Test wählen:
    Mit den in Schritt 1 bestimmten Informationen kann man sich jetzt für den für seine Fragestellung richtigen Test entscheiden. Dazu gibt es hier einen Artikel, in dem abhängig von den Skalenniveaus von Zielgröße und Einflussgröße der passende Test vorgeschlagen wird.
  3. Signifikanzniveau festlegen:
    Man sollte das Signifikanzniveau festlegen, bevor man mit der Analyse beginnt. Es beschreibt die Wahrscheinlichkeit, einen bestimmten Fehler zu machen, nämlich die Nullhypothese abzulehnen, wenn sie in Wirklichkeit doch gilt.
    In einer Klausur ist das Signifikanzniveau meist vorgegeben, und in der Praxis hat sich der Wert 5% dafür eingebürgert.
  4. Daten sammeln:
    Dann sammelt man Daten, also erhebt eine Stichprobe. In Übungen und Klausuren ist das meist schon passiert. Man muss beachten, dass man die Daten in dem Skalenniveau misst, das in Schritt 1. festgelegt wurde.
  5. Prüfgröße berechnen:
    Aus den Daten berechnet man nun eine Prüfgröße, auch Teststatistik genannt. Die gesamte Stichprobe wird also in eine einzige Zahl zusammengefasst. Das ist beim klassischen Gaußtest zum Beispiel der Mittelwert der Daten (der mit einigen Faktoren standardisiert wird). Bei manchen anderen Tests ist die Berechnung der Prüfgröße ein wenig aufwändiger, aber die Idee ist überall dieselbe: Man fasst die Daten mit einer Formel in eine Prüfgröße zusammen, die einer bestimmten Verteilung folgt.
  6. Verteilung der Prüfgröße bestimmen:
    Nun bestimmt man die Verteilung der Prüfgröße. Die Kernidee beim Testen ist nämlich, dass diese Prüfgröße, falls die Nullhypothese gilt, eine bestimmte Verteilung hat. Wenn wir diese Verteilung bestimmen, können wir nachsehen ob die Prüfgröße für unsere spezielle Stichprobe dort „gut genug“ reinpasst, was für die Nullhypothese sprechen würde, oder eben nicht gut reinpasst, was dann ein starkes Indiz für die Alternativhypothese ist.
  7. Kritischen Bereich oder p-Wert berechnen:
    Ein Test ist nun nichts weiteres als eine mathematische Regel, um zu entscheiden, ob diese Prüfgröße eher auf die Null- oder die Alternativhypothese schließen lässt. Bei der einfachsten Variante bestimmt man einfach einen kritischen Bereich für die Prüfgröße – wenn die Prüfgröße in diesem kritischen Bereich liegt, dann lehnen wir die Nullhypothese ab. Alternativ kann man aus der Prüfgröße auch einen p-Wert berechnen, und dann nachsehen ob er unter oder über dem gewählten Signifikanzniveau liegt.
  8. Testentscheidung treffen:
    Zuletzt treffen wir die Testentscheidung: Wenn der Wert im kritischen Bereich liegt, haben wir einen Nachweis gefunden, dass die Alternativhypothese stimmt. Wenn der Wert der Prüfgröße aber außerhalb dieses kritischen Bereichs liegt, können wir keine sichere Aussage treffen.

Welche Arten von Tests gibt es?

Die klassischen Tests behandeln Mittelwerte. Sie fragen also, ob der Mittelwert eines gemessenen Merkmals größer (oder kleiner) als ein bestimmter, für uns wichtiger, Wert ist. Das wäre bei dem Maßkrug der Fall, wo wir wissen wollen ob der Inhalt des Kruges gleich einem Liter ist, oder ob weniger als ein Liter abgefüllt wird.

Andere Tests überprüfen, ob sich zwei Merkmale gegenseitig beeinflussen, oder ob sie unabhängig sind. Zum Beispiel könnte man sich dafür interessieren, ob bei einer Wahl Männer und Frauen ein unterschiedliches Wahlverhalten haben. Dann würde man testen, ob die Variable „Geschlecht“ und die Variable „gewählte Partei“ voneinander unabhängig sind.

Als letztes Beispiel sei die Regression genannt, in der wir Regressionsparameter (die meist \(\beta\) genannt werden) erhalten, die uns den Einfluss einer Variablen auf eine andere beschreiben. Hier möchte man testen, ob der Wert von \(\beta\) ungleich 0 ist, was nämlich belegt, dass ein Einfluss vorhanden ist.

 

Binomialverteilung

Idee

Die Binomialverteilung entsteht, wenn man ein Bernoulli-Experiment mehrere Male wiederholt, und an der gesamten Anzahl der Erfolge interessiert ist.

Im vorherigen Artikel zur Bernoulliverteilung haben wir ein Beispiel betrachtet, in dem wir auf einem Schießstand am Jahrmarkt einen einmaligen Schuß mit einer Trefferwahrscheinlichkeit von \(p=0.2\) abgeben. Wenn wir nun sechs Schüsse kaufen, folgt die Gesamtzahl der Treffer einer Binomialverteilung mit \(n=6\) und \(p=0.2\), oder:
\[ X \sim B(6, 0.2) \]

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Träger

Bei sechs Schüssen auf dem Schießstand können wir zwischen 0 und 6 jede Trefferzahl haben. Man darf hier die Null nicht vergessen, das kann leicht vorkommen. Es ist nämlich durchaus möglich, gar keine Treffer zu landen. Der Träger im allgemeinen Fall sind alle Ganzzahlen von \(0\) bis \(n\), also
\[ \mathcal{T} = \{0, 1, \ldots, n\} \]

Dichte

Die Dichte der Binomialverteilung mit den Parametern \(n\) und \(p\) lautet
\[ f(x) = {n \choose x} p^x (1-p)^{n-x} \]

Erinnert euch, dass für diskrete Zufallsvariablen die Bezeichnungen \(f(x)\) und \(\mathbb{P}(X=x)\) dasselbe bedeuten. Die Wahrscheinlichkeit für drei Treffer ist also \(\mathbb{P}(X=3)\), oder kurz \(f(3)\).

Der Wert \({n \choose k}\) ist dabei der Binomialkoeffizient, der im Artikel Mathematische Symbole erklärt wird, und auch in der Kombinatorik angewendet wird.

Wenn man versteht, wie diese Formel zustandekommt, kann man sie sich sogar selbst herleiten, und muss nicht in einer Formelsammlung nachsehen (wenn nicht, ist das aber auch nicht so schlimm).

verteilungen-binomialverteilung-dichte

Die Dichte der Binomialverteilung mit n=6 und p=0.2. Man sieht, dass man mit hoher Wahrscheinlichkeit zwischen 0 und 3 Treffer erhalten wird. 5 oder 6 Treffer zu bekommen, ist sehr unwahrscheinlich.

Am Beispiel des Schießstandes: Die Wahrscheinlichkeit, dass wir zwei Treffer erhalten werden, ist laut Formel \(f(2) = {6 \choose 2} (0.2)^2 (0.8)^4\). Interpretiert wird das so:

Die Wahrscheinlichkeit für einen Treffer (kurz: „T“) ist 0.2, die für eine Niete (kurz: „N“) ist 0.8. Wenn wir nun die Wahrscheinlichkeit für die Ergebnisfolge „TTNNNN“ ausrechnen, multiplizieren wir die Wahrscheinlichkeiten, und landen bei \(0.2^2 \cdot 0.8^4\). Dies ist aber nur eine von vielen Möglichkeiten, zwei Treffer zu erhalten. Zum Beispiel liefern die Schussfolgen „TNNNNT“, oder „TNTNNN“ dasselbe Ergebnis, und haben alle dieselbe Wahrscheinlichkeit: \(0.2^2 \cdot 0.8^4\).

Wieviele solcher Folgen mit zwei Treffern aus sechs Schüssen gibt es nun? Es sind genau \({6 \choose 2} = 15\), wie im Artikel Kombinationen erklärt wird.

So erklärt man sich also nacheinander die drei Faktoren der Formel, zuerst \(p^x\) (die Wahrscheinlichkeit für einen Treffer, potenziert mit der Anzahl an Treffern), dann \((1-p)^{n-x}\) (die Wahrscheinlichkeit für eine Niete, potenziert mit der Anzahl an Nieten), und dann \(n \choose k\)

Zwischenaufgabe

Berechne für das Beispiel Schießstand die Wahrscheinlichkeit, gar keinen Treffer zu erhalten, und überprüfe anhand der Abbildung oben, ob das Ergebnis plausibel ist.

Lösung (klick)

\(\mathbb{P}(X=0) = {6 \choose 0} 0.2^0 0.8^6 = 0.2621\)

Verteilungsfunktion

Für die Verteilungsfunktion gibt es hier keine einfache Formel. In manchen Büchern (oder Klausuren) gibt es eine Verteilungstabelle zum einfachen Ablesen. In allen anderen Fällen muss man die einzelnen Wahrscheinlichkeiten also von Hand summieren. Das heisst, wenn man die Wahrscheinlichkeit für höchstens zwei Treffer berechnen möchte, also \(\mathbb{P}(X \leq 2)\), rechnet man sich die Wahrscheinlichkeit für null Treffer, einen Treffer, und zwei Treffer aus, und summiert sie:

\[ \begin{align*} \mathbb{P}(X \leq 2) &= \sum_{x=0}^2 \mathbb{P}(X = x) \\ &= \mathbb{P}(X = 0) + \mathbb{P}(X = 1) + \mathbb{P}(X = 2) \end{align*} \]

verteilungen-binomialverteilung-verteilungsfunktion

Anhand der Verteilungsfunktion kann man auch ablesen, dass die Wahrscheinlichkeit, höchstens 4 Treffer zu erhalten, schon nahezu 1 ist.

Zwischenaufgabe

Berechne die Wahrscheinlichkeit für höchstens fünf Treffer, d.h. \(\mathbb{P}(X \leq 5)\).

Lösung (klick)

\(\sum_{i=0}^5\mathbb{P}(X=i) = 0.2621 + 0.3932 + 0.2458 + 0.0819 + 0.0154 + 0.0015 = 0.9999 \)

Das war ziemlich aufwändig, oder? Bei der Binomialverteilung gibt es einen Trick, der die Berechnung der Verteilungsfunktion oft schneller machen kann. Solche Aufgaben kommen oft in Klausuren vor, so dass man diesen Trick am besten verinnerlicht:

Statt alle Wahrscheinlichkeiten von \(x=0\) bis \(x=5\) aufzusummieren, kann man äquivalent die Wahrscheinlichkeiten aller „Gegenereignisse“, also in diesem Fall \(f(6)\), von 1 abziehen, und man erhält dieselbe Zahl. Denn wenn die Wahrscheinlichkeit für höchstens fünf Treffer 0.9999 ist, dann ist die Wahrscheinlichkeit für mehr als fünf (also 6) Treffer genau die Gegenwahrscheinlichkeit, d.h. 1-0.9999 = 0.0001.

Ein weiteres Beispiel (und wer das nachvollziehen kann, hat die Idee vollständig kapiert):

Uns interessiert nun die Wahrscheinlichkeit, zwischen einem und fünf Treffern (inklusive der eins und der fünf) zu erhalten. Die folgenden drei Formulierungen entsprechen den jeweiligen Formeln, und alle drei Formeln drücken genau dasselbe aus:

\(\mathbb{P}(1 \leq X \leq 5)\)
Die Wahrscheinlichkeit, eine Trefferzahl zwischen (inklusive) 1 und 5 zu erhalten
\(\mathbb{P}(X=1) + \mathbb{P}(X=2) + \mathbb{P}(X=3) + \mathbb{P}(X=4) + \mathbb{P}(X=5)\)
Die Wahrscheinlichkeit für einen, zwei, drei, vier, oder fünf Treffer
\(1 – \mathbb{P}(X=0) – \mathbb{P}(X=6)\)
Die Wahrscheinlichkeit, alles außer 0 und 6 Treffer zu erhalten

Ausrechnen kann man diesen Wert nun über die zweite oder dritte Formel dieser Liste. Es kommt natürlich dieselbe Zahl raus, wobei der letztere Weg der schnellere ist. Wichtig ist hier aber, dass man die Wahrscheinlichkeit für null Treffer, also \(f(0)\), nicht vergisst. Das passiert im Eifer des Gefechts nämlich gerne.

Erwartungswert

Der Erwartungswert der Binomialverteilung ist einfach:
\[ \mathbb{E}(X) = n \cdot p \]

Da der Erwartungswert für ein einzelnes Experiment \(p\) ist (siehe Bernoulliverteilung), erwartet man bei \(n\) Wiederholungen genau die \(n\)-fache Anzahl, also \(n\cdot p\) Treffer.

Varianz

Die Varianz der Binomialverteilung ist
\[ \mathbb{V}(X) = n \cdot p \cdot (1-p). \] Die Herleitung ist etwas aufwändiger, weshalb wir sie uns hier ersparen.

Korrelation und Kausalität

Zwischen einem reinem Zusammenhang, d.h. einer Korrelation zwischen zwei Variablen, und einer tatsächlichen Auswirkung von einer auf die andere Variable, d.h. einer Kausalität, besteht noch ein großer Unterschied, der in diesem Artikel behandelt wird.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Sehen wir uns eine Grafik dazu an. Wir befragen \(n=30\) Personen zu ihrer Schuhgröße und ihrem monatlichem Einkommen.

zweivariablen-kausalitaet

Die Korrelation beträgt hier \(r=0.709\).

Wir sehen einen Zusammenhang zwischen den beiden Variablen, der auch tatsächlich vorhanden ist, und durch den Korrelationskoeffizienten \(r\) berechnet werden kann. Es wäre jetzt aber falsch, deswegen auch auf eine Auswirkung von einer der beiden Variablen auf die andere zu schließen.

Einen Korrelation (oder einen Zusammenhang) formuliert man so: „Menschen mit größerer Schuhgröße haben tendenziell ein höheres Einkommen“.

Eine Kausalität würde aber so formuliert werden: „Die Schuhgröße hat einen Einfluss auf das Nettoeinkommen“.

Wenn der zweite Satz stimmen würde, dann könnte man sich morgen Schuhe der Größe 65 kaufen, und bekäme deswegen eine saftige Gehaltserhöhung. Das macht natürlich keinen Sinn. Auch umgekehrt wäre eine Kausalität sinnlos, denn dann hätte das Einkommen eine Auswirkung auf die Schuhgröße. Wenn ich also eine Gehaltserhöhung bekäme, würden deswegen meine Füße wachsen.

Eine Korrelation zwischen zwei Merkmalen \(X\) und \(Y\) bedeutet also noch nicht, dass \(Y\) ein Verursacher von \(X\) ist (oder \(X\) ein Verursacher von \(Y\)). Dieses Phänomen nennt man Scheinkorrelation.

Viele, teils richtig absurde Korrelationen gibt es auf der Webseite „Spurious Correlations“.

Was allerdings hier wahr ist: Wenn man zwei Menschen mit unbekanntem Einkommen auf einem Blatt Papier stehen hat, und einer eine viel größere Schuhgröße hat, erwarten wir von dieser Person ein höheres Einkommen als von der anderen.

Mediator-/Confoundervariablen

Wer aufgepasst hat, weiss vielleicht schon, was hier vor sich geht: Wir haben eine wichtige Variable, nämlich das Geschlecht der Personen nicht beachtet. Es ist nun so, dass Frauen im Durchschnitt 22% weniger verdienen als Männer. Das hat ein paar erklärbare Gründe, wie z.B. die Tendenz, dass Frauen häufiger Teilzeitjobs oder schlechter bezahlte Berufe annehmen, und ihnen eine steile Karriere nicht so wichtig ist wie z.B. geistige Gesundheit. Aber der Effekt auf das Einkommen ist trotzdem da. Wenn wir unsere befragten Personen nun nach Geschlecht auftrennen, erkennen wir zwei Gruppen, nämlich eine mit großen Füßen und eine mit kleinen Füßen, in denen jeweils keine Korrelation besteht:

zweivariablen-kausalitaet-getrennt

Die zu Beginn ignorierte Variable „Geschlecht“ ist hier eine Mediator- oder Confoundervariable (die Worte bedeuten das gleiche, aber in gewissen Fachbereichen benutzt man eines lieber als das andere).

Beispiel aus der Realität

Das klingt nun vielleicht alles etwas realitätsfern, weil mein Beispiel sehr offensichtlich unklug war. Solche Sachen passieren allerdings in der Realität, und auch unter Experten:

Im New England Journal of Medicine, einer hoch angesehenen wissenschaftlichen Zeitschrift, wurde 2012 ein Artikel veröffentlicht, der genau diesen Fehler machte. Sie fanden eine Korrelation zwischen Schokoladenkonsum und Anzahl an Nobelpreisträgern in einem Land, und schlossen auf einen Einfluss von Schokolade auf Intelligenz.

Quelle: Messerli, Franz H. (2012). Chocolate Consumption, Cognitive Function, and Nobel Laureates. New England Journal of Medicine, 367:16, 1562-1564.

Quelle: Messerli, Franz H. (2012). Chocolate Consumption, Cognitive Function, and Nobel Laureates. New England Journal of Medicine, 367:16, 1562-1564.

Ein Blogartikel, der dieses Beispiel (auf Englisch) ausführlich behandelt, und sich am Ende sogar darüber lustig macht, ist hier zu finden.

Kausalität nachweisen

Wie man sieht, gibt es mehrere mögliche Erklärungen für eine Korrelation zwischen zwei Variablen \(X\) und \(Y\). Es könnte z.B. \(X\) eine Auswirkung auf \(Y\) haben, oder umgekehrt \(Y\) eine Auswirkung auf \(X\), oder aber wie im Beispiel oben eine Mediatorvariable im Spiel sein, die beide Variablen, \(X\) sowie \(Y\) beeinflusst.

Nachweisen kann man eine Kausalität nur durch ein Experiment. Hier müssten wir zum Beispiel von 100 Personen die Schuhgrösse und das Einkommen notieren, und dann der einen Hälfte größere Schuhe geben und der anderen nicht. Wenn sich nun das Einkommen der Treatment-Gruppe, also der Personen mit größeren Schuhen, gegenüber der Kontrollgruppe erhöht, dann haben wir einen Zusammenhang nachgewiesen (das wird aber in diesem Fall eher nicht erwartet).

Bernoulliverteilung

Mit der Bernoulliverteilung kann man Experimente modellieren, die wie folgt aufgebaut sind: Es handelt sich um ein einziges Experiment mit nur zwei möglichen Resultaten, die wir als 0 (für „Mißerfolg“) und 1 (für „Erfolg“) kodieren. Ein schönes Beispiel hierfür ist der Schießstand auf einem Jahrmarkt, bei dem man auf weiße Plastiksterne schießt und nur mit einer bestimmten Wahrscheinlichkeit (sagen wir 20%) trifft.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Die Wahrscheinlichkeit, mit der bei einem Experiment der Erfolg eintritt, wird mit dem Parameter \(p\) bezeichnet. Die mathematische Schreibweise für eine bernoulliverteilte Zufallsvariable \(X\) lautet

\[ X \sim \text{Be}(p) \]

Weitere Beispiele für bernoulliverteilte Zufallsvariablen sind die Roulettewette auf die Zahl 0 – hier wäre \(X \sim \text{Be}(\frac{1}{37})\) – oder der erste Spielzug im „Mensch ärgere dich nicht“, in dem man eine 6 würfeln muss, um eine Figur ins Spiel bringen zu dürfen; hier ist \(X \sim \text{Be}(\frac{1}{6})\).

Träger

Da es bei diesem Experiment nur zwei Ausgänge, nämlich „Erfolg“ (kodiert durch eine 1) und „Mißerfolg“ (kodiert durch eine 0) gibt, ist der Träger \(\mathcal{T}\) der Bernoulliverteilung die Menge \(\mathcal{T} = \{0,1\}\).

Dichte

Die Dichte besteht aus drei Teilen: Der Wahrscheinlichkeit für einen Erfolg, also \(\mathbb{P}(X=1)\) (das ist \(p\)), der Wahrscheinlichkeit für einen Mißerfolg, also \(\mathbb{P}(X=0)\) (das ist die Gegenwahrscheinlichkeit \(1-p\)), und einer 0 für alle anderen Werte von \(X\), d.h. überall anders:

\[ f(x) = \begin{cases} p, & x = 1 \\ 1-p, & x=0 \\ 0, &\text{sonst} \end{cases} \]

asdf

Die Dichte für unser Beispiel auf dem Jahrmarktschießstand. Die Wahrscheinlichkeit für eine Niete (also \(X=0\)) ist hier 80%, und die Wahrscheinlichkeit für einen Treffer, \(X=1\), ist 20%. Alle anderen Werte haben den Wert 0. Die Wahrscheinlichkeit, mit einem Schuss zum Beispiel 0.5 oder 3 Treffer zu erhalten, ist natürlich 0.

Verteilungsfunktion

Die Verteilungsfunktion ist \(F(x) = \mathbb{P}(X \leq x)\). In Worten heißt das: Die Wahrscheinlichkeit, dass das Ergebnis des Experiments kleiner oder gleich dem Wert \(x\) ist. Sie ist definiert in drei Abschnitten:

\[ F(x) = \begin{cases} 0, & x < 0 \\ 1-p, & x>=0 \, \text{und} \, x<1 \\ 1, & x \geq 1 \end{cases} \]

Der oberste Abschnitt beschreibt die erste Stufe: Unsere Variable \(X\) kann ja nur die Werte 0 oder 1 annehmen. Die Wahrscheinlichkeit, dass also eine Zahl kleiner als 0 herauskommt, ist natürlich 0. (Ebenso ist die Wahrscheinlichkeit, dass eine Zahl kleiner als z.B. -0.5 rauskommt, also \(F(-0.5)\), auch 0.

Die zweite Stufe ist der Bereich zwischen 0 und 1. Dort ist die Wahrscheinlichkeit, dass \(X \leq x\) ist, genau \(1-p\), und zwar aus dem Grund, dass nur die 0 (also ein Mißerfolg, oder auf unserem Schießstand „kein Treffer“) als mögliches Ergebnis kleiner oder gleich diesen Werten vorkommt – und der Mißerfolg hat die Wahrscheinlichkeit \(1-p\).

Die dritte Stufe ist alles über \(x=1\). Da nur die Ergebnisse 0 oder 1 rauskommen können, ist z.B. die Wahrscheinlichkeit dass \(X \leq 5\) ist, gleich 1. Die Funktion \(F(x)\) geht also ins Unendliche konstant mit dem Wert 1 weiter.

asd

Die Verteilungsfunktion für das Beispiel des Jahrmarktschießstands ist eine Treppenfunktion. Hier liest man z.B. ab, dass \(\mathbb{P}(X \leq 0) = 0.8\) ist, und ebenso, dass \(\mathbb{P}(X \leq 0.5) = 0.8\) ist.

Erwartungswert

Der Erwartungswert der Bernoulliverteilung ist einfach: \(\mathbb{E}(X) = p\).

Das kann man sich über die Formel, die den Erwartungswert definiert, sofort herleiten:

\[ \mathbb{E}(X) = \sum_{i=1}^n x_i f(x_i) = 0 \cdot (1-p) + 1 \cdot p = p \]

Hier verwenden wir die beiden möglichen Ausprägungen \(x_1=0\) und \(x_2 = 1\), sowie deren Wahrscheinlichkeiten \(f(x_1) = 1-p\) (für Mißerfolg) und \(f(x_2) = p\) (für Erfolg).

Varianz

Die Varianz bei der Bernoulliverteilung ist \(\mathbb{V}(X) = p(1-p)\). Sie ist mit Hilfe ihrer Definition etwas aufwändiger zu bestimmen, aber auch noch machbar:

\[ \begin{align*} \mathbb{V}(X) &= \sum_{i=1}^n (x_i – \mu)^2 f(x_i) \\&=(x_1-p)^2 \cdot (1-p) + (x_2 – p)^2 \cdot p\\&=p^2 (1-p) + (1-p)^2 p \\&=(p^2 – p^3) + (1^2-2p+p^2)\cdot p \\&=p^2 – p^3 + p – 2p^2 + p^3 \\&=p – p^2 \\&=p(1-p) \end{align*} \]

Der Wert \(\mu\) ist hierbei, wie in der Definition beschrieben, eine Kurzschreibweise für den Erwartungswert \(\mathbb{E}(X) = p\).

Diskrete Gleichverteilung

Die diskrete Gleichverteilung liegt vor, wenn eine Zufallsvariable

  • diskret ist, also das Experiment nur eine endliche Zahl an möglichen Ergebnissen hat, und
  • jedes mögliche Ergebnis mit derselben Wahrscheinlichkeit auftritt.

Zwei schöne Beispiele hierfür sind der Münzwurf mit \(n=2\) möglichen Ergebnissen, Kopf oder Zahl, wo jedes mit der gleichen Wahrscheinlichkeit, \(\frac{1}{2}\), auftritt, und das Rouletterad mit \(n=37\) möglichen Ergebnissen (der Null und die Zahlen 1 bis 36), wo jede Zahl mit der Wahrscheinlichkeit \(\frac{1}{37}\) auftritt.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Parameter

Die möglichen Ergebnisse werden bezeichnet mit den Variablen \(x_1, x_2, \ldots, x_n\). Für das Beispiel des Münzwurfs können wir also „Kopf“ mit 1 kodieren, und „Zahl“ mit 2, und erhalten die möglichen Ergebnisse \(x_1=1, x_2=2\) (wir müssen diese Ereignisse in Zahlen umwandeln, der Grund ist im Artikel Was sind Zufallsvariablen? ganz oben erklärt.). Für das Roulette-Beispiel erhalten wir \(x_1=0, x_2=1, x_3=2, \ldots, x_{37}=36\).

Wir beschränken uns hier aber auf einen Spezialfall, nämlich Zufallsexperimente, deren Ergebnis jede Ganzzahl zwischen \(a\) und \(b\) sein kann. Beim Münzwurf haben wir also eine Gleichverteilung mit den zwei Parametern \(a=1\) und \(b=2\), und beim Roulettespiel eine Gleichverteilung mit \(a=0\) und \(b=36\). Mit dieser Art der Modellierung können wir die allermeisten Situationen modellieren, bis auf manche Sonderfälle, zum Beispiel das Punkteergebnis eines Fußballspiels, in dem ein Verein entweder 0, 1, oder 3 Punkte bekommt.

Träger

Der Träger \(\mathcal{T}\) der diskreten Gleichverteilung sind die einzelnen Ausprägungen \({x_1, x_2, \ldots, x_n}\), also alle ganzen Zahlen zwischen \(a\) und \(b\). Beim Roulettespiel sind das z.B. die Zahlen \({0, 1, 2, \ldots, 36}\). Andere Ergebnisse sind in diesem Beispiel nicht möglich: Das Rouletterad kann zum Beispiel keine 52, oder keine 3,5 zeigen.

Dichte

Die Dichtefunktion muss in zwei Teile aufgeteilt werden. Beim Roulettespiel ist z.B. die Wahrscheinlichkeit, dass die 17 erscheint, \(\mathbb{P}(X=17) = \frac{1}{37}\), aber die Wahrscheinlichkeit, dass das Ergebnis 1500 ist, \(\mathbb{P}(X=1500) = 0\). Die Dichte für das Roulettespiel ist also

\[ f(x) = \begin{cases} \frac{1}{37}, & x \in \{0, 1, \ldots , 36\} \\ 0, & \text{sonst} \end{cases} \]

Im Allgemeinen haben wir \(n\) verschiedene Ergebnisse für eine Zufallsvariable, die wir mit \(x_1, x_2, \ldots, x_n\) bezeichnen (also wieder alle Zahlen von \(a\) bis \(b\), den Träger). Hier ist die Dichte dann

\[ f(x) = \begin{cases} \frac{1}{n}, & x \in \{ a, a+1, \ldots , b \} \\ 0, & \text{sonst} \end{cases} \]

Verteilungsfunktion

Die Verteilungsfunktion der diskreten Gleichverteilung lautet wie folgt:

\[ F(x) = \begin{cases} 0, & x < a \\ \frac{\lfloor x \rfloor – a + 1}{b-a+1}, & x \in [a,b]\\ 1, & x > b \end{cases}\]

„Links“ von \(a\) ist die Verteilungsfunktion also immer 0, und „rechts“ von \(b\) ist sie immer 1. Mit \(\lfloor x \rfloor\) ist hier die Abrundung von \(x\) gemeint, also ist z.B. \(\lfloor 3.4 \rfloor = 3\) und \(\lfloor 5 \rfloor = 5\).

Möchten wir für das Roulettespiel z.B. bestimmen, mit welcher Wahrscheinlichkeit eine Zahl kleiner oder gleich 3.5 kommt, bestimmen wir:

\[ F(3.5) = \frac{\lfloor 3.5 \rfloor – 0 + 1}{36 – 0 + 1} = \frac{4}{37} \]

Versuche, mit dieser Definition für das Beispiel Würfelwurf zu bestimmen:

  • \(F(4)\), also die Wahrscheinlichkeit, mit der wir eine Augenzahl würfeln, die kleiner oder gleich 4 ist.
  • \(F(4.8)\)
  • \(F(0)\)
  • \(F(1500)\)

Erwartungswert

Der Erwartungswert ist bei der diskreten Gleichverteilung einfach der Mittelwert von \(a\) und \(b\):

\[ \mathbb{E}(X) = \frac{a+b}{2} \]

Varianz

Die Varianz dieser Verteilung lautet:

\[ \mathbb{V}(X) = \frac{(b-a+1)^2 – 1}{12} \]

 

Beispielaufgabe

Schauen wir uns die Zufallsvariable „\(X\) = ein Würfelwurf“ an, und bestimmen für sie

  • Träger
  • Dichte
  • Verteilungsfunktion
  • Erwartungswert
  • Varianz

Träger

Die Zufallsvariable \(X\) kann nur die Werte 1, 2, 3, 4, 5, oder 6 annehmen. Also ist der Träger \(\{ 1, 2, 3, 4, 5, 6 \}\).

Dichte

Die Dichte ist, wenn wir die obige Definition anwenden, einfach bestimmt:

\[ f(x) = \begin{cases} \frac{1}{6}, & x \in \{ 1, 2, 3, 4, 5, 6 \} \\ 0, & \text{sonst} \end{cases} \]

verteilungen-diskrete-gleichverteilung-dichte

Dichte der diskreten Gleichverteilung beim Experiment „Werfen eines Würfels“. Jedes Ereignis von 1 bis 6 tritt mit der gleichen Wahrscheinlichkeit \(\mathbb{P}(X=i) = \frac{1}{6}\) auf.

Verteilungsfunktion

Die Verteilungsfunktion ist einfach notierbar als:

\[ F(x) =\begin{cases}0, & x < 1\\ \frac{\lfloor x \rfloor}{6},& 1 \leq x <6\\ 1, & x \geq 6 \end{cases}\]

verteilungen-diskrete-gleichverteilung-verteilungsfunktion

Erwartungswert

Der Erwartungswert eines Würfelwurfs ist

\[ \mathbb{E}(X) = \frac{1}{2} (6 + 1) = 3.5 \]

Varianz

Auch hier sind wir schnell am Ziel. Die Formel angewendet lautet

\[ \mathbb{V}(X) = \frac{(6-1+1)^2 – 1}{12} = 2.917 \]

Mathematische Symbole

Das hier ist eine Übersicht aller mathematischen Schreibweisen, die in diesem Blog auftauchen werden. Man kann sie sich am besten kurz anschauen, dass man sie schonmal gesehen hat, und wieder zurückkommen, wenn die entsprechenden Notationen später wieder auftauchen.

\(\lceil x \rceil\) und \(\lfloor x \rfloor\): Auf- und abrunden

Diese beiden Schreibweisen bedeuten Abrunden bzw. Aufrunden der eingeklammerten Zahl \(x\). Es ist zum Beispiel \(\lfloor 2.5 \rfloor = 2\), oder \(\lceil 4 \rceil = 4\), oder \(\lceil \pi \rceil = 4\).

\(\bar{x}\): Der Mittelwert

Mit \(\bar{x}\) ist der Mittelwert aller \(n\) Werte \(x_i\) im Vektor \(x\) gemeint: \(\frac{1}{n} \sum_{i=1}^n x_i\). Ausgeschrieben bedeutet das: \(\bar{x} = \frac{1}{n} (x_1 + x_2 + \ldots + x_n)\). Siehe hierzu auch den Artikel Das Summenzeichen und Rechenregeln.

\(|x|\) und \(|\{1,5,\pi,2\} |\): Betragsstriche

Mit Betragsstrichen sind zweierlei Dinge gemeint:

Steht innerhalb der Betragsstriche eine einzelne Zahl, so wie \(x\) oder \(-2\), so wird mit dem Betrag ihr absoluter Wert bezeichnet. Dieser Wert ist immer positiv. \(|x|\) ist also genau gleich wie \(x\), falls \(x\geq 0\) ist, und \(|x| = -x\), falls \(x <0 \) ist. Ein Beispiel dafür: Sehen wir \( | -10 | \), so ist \(x\), also \(-10\), kleiner als 0, und \(|-10| = – (-10) = 10\).

Steht innerhalb der Betragsstriche aber eine Menge an Zahlen (man erkennt das an den geschweiften Klammern), so deuten die Betragsstriche an, dass uns die Anzahl der Elemente interessiert. Es ist also \(| \{1,5,\pi, 2\} | = 4\).

\( N! \): Fakultät

Das Ausrufezeichen steht für die Fakultät einer Zahl, womit gemeint ist, dass alle Zahlen von 1 bis \(N\) nacheinander multipliziert werden. Es ist zum Beispiel \(5! = 1 \cdot 2 \cdot 3 \cdot 4 \cdot 5 = 120\).

\({n \choose k}\): Binomialkoeffizient

Der Binomialkoeffizient wird in der Kombinatorik verwendet. Wenn wir eine Menge von \(n\) Objekten haben, und uns \(k\) Objekte daraus auswählen, so gibt es \(n \choose k\) Möglichkeiten, das zu tun. Berechnen lässt er sich durch die Formel \( {N\choose k} = \frac{N!}{(N-k)!\cdot k!} \). Beim Lotto gibt es z.B. \(n=49\) Zahlen, aus denen \(k=6\) ausgewählt werden. Dafür gibt es \({49 \choose 6} = 13983816\) verschiedene Möglichkeiten.

Darstellung und Eigenschaften von stetigen Zufallsvariablen

In diesem Artikel schauen wir uns stetige Zufallsvariablen im Allgemeinen an. Spezielle Verteilungen wie die Exponentialverteilung oder Normalverteilung findet man im Abschnitt „Verteilungen“ im Inhaltsverzeichnis.

zufallsvariablen-stetig-dichte-verteilung

Im linken Bild sieht man ein Beispiel einer Dichte für eine stetige Zufallsvariable. Die gestrichelte Linie markiert den Erwartungswert von X. Rechts ist die Verteilungsfunktion derselben Zufallsvariablen abgebildet. Die gestrichelte Linie hier markiert das 30%-Quantil, das wir genau wie bei diskreten Zufallsvariablen bestimmen.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Dichte

Jede Dichtefunktion einer stetigen Zufallsvariablen hat zwei Eigenschaften:

  1. Die Funktion hat nirgends einen negativen Wert, ist also auf den gesamten reellen Zahlen entweder 0 oder größer als 0. Mathematisch ausgedrückt: \(f(x) \geq 0\) für alle \(x \in \mathbb{R}\).
  2. Die Fläche unter der gesamten Dichtefunktion (ihr Integral) ergibt 1. Das ist analog zur Dichte bei diskreten Zufallsvariablen, wo die Summe aller ihrer einzelnen Wahrscheinlichkeiten 1 ergibt.

Der große Unterschied zwischen diskreten und stetigen Zufallsvariablen ist, dass die Dichte hier, bei stetigen Zufallsvariablen, nicht die Wahrscheinlichkeit für einen beliebigen Punkt repräsentiert. Im stetigen Fall ist es nun so, dass die Wahrscheinlichkeit für ein bestimmtes, festes Ergebnis immer Null ist. Im Beispielbild oben ist etwa \(\mathbb{P}(X=0.237) = 0\).

Im stetigen Fall kann man Wahrscheinlichkeiten nur für Intervalle bestimmen. Man kann also z.B. sagen, dass \(X\) mit 18.2% einen Wert zwischen 1 und 2 annehmen wird: \(\mathbb{P}(X \in [1,2]) = 0.182\). Diese „Wahrscheinlichkeitsmasse“ von 0.182 ist die Fläche unter der Dichte, von 1 bis 2.

zufallsvariablen-stetig-integral

Die Wahrscheinlichkeit, dass das Ergebnis unserer Zufallsvariablen zwischen 1 und 2 liegt, notieren wir mit \(\mathbb{P}(X \in [1,2])\). Wir bestimmen es als die Fläche unter der Dichte, beschränkt auf den Bereich \([1,2]\), hier als braune Fläche dargestellt.

Wie lässt sich diese Fläche nun berechnen? Es handelt sich nicht mehr um Rechtecke oder Trapeze (wie etwa beim Gini-Koeffizienten), sondern um eine glatte Funktion. Daher müssen wir mit dem Integral arbeiten. Die Verteilungsfunktion \(F(x)\) ist im stetigen Fall nun genau das Integral der Dichtefunktion \(f(x)\).

Verteilungsfunktion

Die Verteilungsfunktion \(F(x)\) ist im stetigen Fall genauso definiert wie im diskreten Fall:

\[ F(x) = \mathbb{P}(X \leq x) \]

Sie wird jetzt nicht über die Summe der Dichte berechnet, sondern weil wir ja unendlich mögliche Werte für \(x\) haben, über das Integral der Dichte berechnet.

zufallsvariablen-dichte-zu-integral-1

Links sieht man die Dichtefunktion. Die Wahrscheinlichkeit, dass \(X\) kleiner oder gleich 1.5 ist, entspricht der Fläche unter der Dichte bis zum Wert 1.5 auf der x-Achse. Rechts ist die Verteilungsfunktion \(F(x)\) abgebildet, die genau diese Fläche darstellt.

Es gilt also:

\[ F(x) = \int_{-\infty}^x f(t) dt \]

Wer sich nun wundert, warum wir auf einmal \(f(t)\) statt \(f(x)\) schreiben: Weil wir das \(x\) schon für die Verteilungsfunktion \(F\) verwenden, müssen wir uns bei der Dichte kurzfristig einen neuen Buchstaben überlegen. Ähnlich wie beim Summenzeichen \(\sum\), bei der man meistens die Indexvariable \(i\) einführt, wird hier temporär das Argument \(t\) statt \(x\) verwendet. Der Funktion \(f\) ist es ja egal, wie ihr Argument heißt, sie verarbeitet es einfach und spuckt ihr Ergebnis aus, nämlich die Dichte an dieser Stelle, sei es nun beispielhaft \(x=2.5\) oder \(t=2.5\).

Möchten wir also die Wahrscheinlichkeit wissen, dass \(x\) kleiner oder gleich 1.5 ist, berechnen wir \(\int_{-\infty}^{1.5} f(t) dt\). Das Integral startet immer bei \(-\infty\), egal wo die Dichte tatsächlich beginnt. Die Schreibweise ist einfach allgemeingültiger, für alle möglichen Dichten. Das macht in unserem Fall auch nichts aus, weil \(f(t)\) hier im negativen Bereich 0 ist, also keine Fläche hat.

Oft interessiert uns aber auch die Wahrscheinlichkeit, dass \(X\) zwischen zwei Werten, z.B. zwischen 0.5 und 1.5 liegt. Die Verteilungsfunktion liefert uns aber nur die Wahrscheinlichkeit, dass \(X\) kleiner/gleich einem Wert ist. Hier können wir aber einen Trick anwenden: Wenn wir zuerst \(F(1.5)\) berechnen, und davon dann \(F(0.5)\) abziehen, haben wir genau die gesuchte Wahrscheinlichkeit, \(\mathbb{P}(0.5 \leq X \leq 1.5)\). Die folgenden zwei Bilder ergänzen das erste Bild von oben und visualisieren diese Idee:

zufallsvariablen-dichte-zu-integral-2

Im ersten Schritt (weiter oben) berechneten wir \(\mathbb{P}(X \leq 1.5)\). Hier, im zweiten Schritt, berechnen wir nun \(\mathbb{P}(X \leq 0.5)\), was hier links als braune Fläche dargestellt wird, und rechts als entsprechender Wert der Verteilungsfunktion.

zufallsvariablen-dichte-zu-integral-3

Im letzten Schritt ziehen wir \(F(0.5)\) von \(F(1.5)\) ab. Übrig bleibt die gesuchte Wahrscheinlichkeit \(\mathbb{P}(0.5 \leq X \leq 1.5)\), die im linken Bild als Fläche dargestellt ist, und im rechten als Differenz der beiden Werte auf der y-Achse.

Formel oder Verteilungstabelle?

Die Dichte von allen relevanten Zufallsvariablen ist immer als Formel darstellbar. Es ist zum Beispiel für eine normalverteilte Variable \(X\) die Dichte \(f(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{(x-\mu)^2}{2\sigma^2})\). Bei der Verteilungsfunktion ist das allerdings nicht immer der Fall. Für die Exponentialverteilung existiert eine Formel für die Verteilungsfunktion, da es ein einfach zu berechnendes Integral ist. Für die Normalverteilung allerdings lässt sich die Verteilungsfunktion nicht einfach hinschreiben. In diesem Fall gibt es Verteilungstabellen, die z.B. in 0.01er-Schritten den Wert von \(F(x)\) tabelliert haben. Muss man also von Hand (und das passiert eigentlich nur noch in Klausuren) die Verteilungsfunktion einer Zufallsvariablen bestimmen, kommt es auf die Verteilung an, ob man eine Formel an einem bestimmten Wert \(x\) auswertet, oder in einer Verteilungstabelle für einen bestimmten Wert \(x\) nachsieht.

Quantilsfunktion

Die Quantilsfunktion \(Q(x)\) (manche nennen sie auch einfach nur \(F^{-1}(x)\)) bei stetigen Zufallsvariablen ist nichts anderes als die Umkehrfunktion der Verteilungsfunktion. Die Umkehrfunktion von einer beliebigen Funktion \(y=F(x)\) wird mit \(x=F^{-1}(y)\) bezeichnet. Das bedeutet aber nicht \(\frac{1}{F(x)}\), sondern dass sie von einem Funktionswert \(y\) zurück auf den ursprünglichen Wert \(x\) führt.

Die Umkehrfunktion von \(y=2x+3\) ist zum Beispiel \(x=\frac{1}{2}(y-3)\). Man bildet sie, indem man in der ursprünglichen Formel nach \(x\) auflöst:

\[ \begin{align*} y &= 2x+3\\ y-3 &= 2x \\ \frac{1}{2}(y-3) &= x \end{align*} \]

Genauso macht man das bei der Quantilsfunktion: Man löst die Formel der Verteilungsfunktion nach \(x\) auf. Voraussetzung dafür ist natürlich, dass die Verteilungsfunktion als Formel darstellbar ist. Wenn nicht, muss man (wie oben erklärt) wieder auf Tabellen zurückgreifen. Klassischer Fall dafür ist die Normalverteilung, deren Quantile beim Testen wichtig sind.

Umwandeln von der Dichte zur Verteilungsfunktion/Quantilsfunktion und wieder zurück

Eine Zufallsvariable ist schon eindeutig beschrieben, wenn man nur eine der drei Funktionen (Dichte, Verteilungsfunktion, oder Quantilsfunktion) hat. Man kann nämlich eindeutig zwischen den dreien hin- und herrechnen:

f_F_Q

  • Die Dichte ist die Ableitung der Verteilungsfunktion: \[ f(x) = \frac{d}{dx} F(x) \]
  • Die Verteilungsfunktion ist die Fläche unter der Dichte, d.h. das Integral der Dichte: \[ F(x) = \int_{-\infty}^x f(t) dt \]
  • Die Quantilsfunktion ist die Umkehrfunktion der Verteilungsfunktion: \[ Q(x) = F^{-1}(x) \]
  • Die Verteilungsfunktion ist die Umkehrfunktion der Quantilsfunktion: \[ F(x) = Q^{-1}(x) \]

Erwartungswert

Hinter dem Erwartungswert einer stetigen Zufallsvariable steckt genau dieselbe Idee wie im diskreten Fall. Hier wird lediglich statt der Summe ein Integral verwendet. Im diskreten Fall haben wir über alle möglichen Ausprägungen \(x_i\) multipliziert mit der zugehörigen Dichte \(f(x_i)\) summiert, und hier werden wir stattdessen über alle Ausprägungen \(x\) multipliziert mit der Dichte \(f(x)\) integrieren:

\[ \mathbb{E}(X) = \int_{-\infty}^\infty x \cdot f(x) \; dx \]

Varianz und Standardabweichung

Auch die Varianz ist im stetigen Fall ähnlich aufgebaut wie bei diskreten Zufallsvariablen:

\[ \mathbb{V}(X) = \int_{-\infty}^\infty (x-\mu)^2 f(x) dx, \]

wobei \(\mu = \mathbb{E}(X) = \int_{-\infty}^\infty x f(x) dx\). Man muss zur Berechnung der Varianz also vorher den Erwartungswert bestimmt haben.

Meistens ist es einfacher, statt diesem komplizierten Integral den Verschiebungssatz anzuwenden. Die Varianz ist äquivalent bestimmbar als

\[ \mathbb{V}(X) = \mathbb{E}(X^2) – \mathbb{E}(X)^2. \]

Dabei ist der zweite Teil, \(\mathbb{E}(X)^2\), einfach das Quadrat des Erwartungswertes, aber der erste Teil, \(\mathbb{E}(X^2)\), etwas ganz anderes, nämlich der Erwartungswert von \(X^2\). Das ist eine Transformation der Zufallsvariablen \(X\), deren Erwartungswert wir mit der Transformationsregel bestimmen können:

\[ \mathbb{E}(X^2) = \int_{-\infty}^\infty x^2 f(x) \, dx \]

Dieses Integral ist leichter zu berechnen als das vorherige, und wenn man den Erwartungswert eh schon bestimmt hat, ist man mit dieser Methode meist schneller am Ziel. In der folgenden Beispielaufgabe bestimmen wir u.a. die Varianz, und verwenden beide Methoden, um den Unterschied zu sehen.

Beispielaufgabe

Als Beispiel schauen wir uns eine Zufallsvariable \(X\) und ihre Dichte \(f(x)\) an:

\[ f(x) = \begin{cases} 2x &\mbox{falls } 0 \leq x \leq 1 \\ 0 & \mbox{sonst} \end{cases} \]

Für diese Dichte werden wir nun

  • die Funktion skizzieren
  • nachweisen, dass es sich tatsächlich um eine Dichte handelt
  • ihren Träger bestimmen
  • den Erwartungswert berechnen
  • die Varianz berechnen
  • ihre Verteilungsfunktion bestimmen
  • ihre Quantilsfunktion bestimmen
  • die Wahrscheinlichkeit, dass \(X\) zwischen 0.5 und 0.6 liegt, bestimmen

Skizze der Funktion

Die Dichte \(f(x)\) ist nur im Bereich von 0 bis 1 ungleich Null:

zufallsvariablen-stetige-dichte

Ist es tatsächlich eine Dichte?

Um nachzuweisen dass eine Funktion \(f(x)\) eine „echte“ Dichte ist, müssen wir zwei Eigenschaften überprüfen:

  1. Die Funktion darf auf den kompletten reellen Zahlen nicht negativ sein: \(f(x) \geq 0\) für alle \(x \in \mathbb{R}\).
  2. Das Integral der Dichte, über die gesamten reellen Zahlen, muss 1 ergeben: \(\int_{-\infty}^\infty f(x) dx = 1\).

Die erste Eigenschaft ist schnell nachgewiesen: Im Bereich von 0 bis 1 ist \(2x > 0\), und im übrigen Bereich ist die Funktion 0, das ist also okay. Man sieht das auch auf der Skizze oben.

Um die zweite Eigenschaft nachzuweisen müssen wir also die Dichte integrieren. Zuerst teilen wir das Integral von \(-\infty\) bis \(\infty\) in drei Teile auf:

\[ \begin{align*} \int_{-\infty}^\infty f(x) dx &= \int_{-\infty}^0 0 \, dx \\ &+ \int_0^1 2x \, dx \\ &+ \int_1^\infty 0 \, dx \end{align*} \]

Der erste und dritte Teil fällt sofort weg: Die Fläche unter der Funktion, die konstant Null ist, ist natürlich auch Null. Wir integrieren also nur den Teil von 0 bis 1:

\[ \begin{align*} \int_{-\infty}^\infty f(x) dx &= \int_0^1 2x \, dx \\ &= \left[ 2 \cdot \frac{1}{2} x^2 \right]^1_0 \\ &= 2\cdot \frac{1}{2} \cdot 1^2 – 2 \cdot \frac{1}{2} 0^2 = 1-0 = 1 \end{align*} \]

Das Integral ist also insgesamt 1, und damit ist \(f(x)\) eine echte Dichte.

Was ist der Träger der Zufallsvariablen?

Der Träger einer Zufallsvariablen ist einfach die Menge aller möglichen Ergebnisse von \(X\). Übersetzt bedeutet das: Der Bereich, in dem der Funktionswert \(f(x)\) (also der Wert auf der \(y\)-Achse) größer als 0 ist. In unserem Fall also das Intervall von 0 bis 1 (strikt gesagt ohne der Null). Somit ist der Träger \(\mathcal{T} = (0,1]\).

Was ist ihr Erwartungswert \(\mathbb{E}(X)\)?

Für den Erwartungswert wenden wir die Formel von oben an. Wir teilen das Integral wieder in drei Teile auf, wobei die Teile von \(-\infty\) bis \(0\) sowie von \(1\) bis \(\infty\) wieder wegfallen (da die Dichte dort 0 ist, und somit das Integral 0 wird):

Vorsicht: Im Integral steht hier nicht nur \( f(x) \), sonst wäre die Lösung des Integrals ja 1, sondern \( x \cdot f(x) \).

\[ \begin{align*} \mathbb{E}(X) = \int_{-\infty}^\infty x f(x) \, dx &= \int_{-\infty}^0 x \cdot 0 \, dx + \int_0^1 x \cdot 2x \, dx + \int_1^\infty x \cdot 0 \, dx \\ &= \int_0^1 x \cdot 2x \, dx \\ &= \int_0^1 2x^2 \, dx \\ &= \left[ 2\cdot \frac{1}{3} x^3 \right]^1_0 \\ &= 2 \cdot \frac{1}{3} 1^3 – 2 \cdot \frac{1}{3} 0^3 \\ &= \frac{2}{3} \end{align*} \]

Somit ist \(\mathbb{E}(X) = \frac{2}{3}\).

Was ist ihre Varianz \(\mathbb{V}(X)\)?

Die Varianz können wir mit zwei Methoden bestimmen. Zuerst verwenden wir die Methode mit Verschiebungssatz:

\[ \mathbb{V}(X) = \mathbb{E}(X^2) – \mathbb{E}(X)^2 \]

Da \(\mathbb{E}(X)=\frac{2}{3}\), ist der zweite Term hier schon bekannt: \(\mathbb{E}(X)^2 = (\frac{2}{3})^2 = \frac{4}{9}\).

Für den ersten Teil wenden wir die Transformationsregel an. Das Integral ist wieder nur im Bereich von 0 bis 1 ungleich Null, also interessiert uns nur dieser Bereich. Es ist ein häufiger Fehler, die Grenzen des Integrals bei \(-\infty\) und \(\infty\) zu lassen, was die Lösung dann unmöglich macht, hier also aufpassen!

\[ \begin{align*} \mathbb{E}(X^2) &= \int_{-\infty}^\infty x^2 f(x) \, dx \\ &= \int_0^1 x^2 \cdot 2x \, dx \\ &= \int_0^1 2x^3 \, dx \\ &= \left[ 2 \frac{1}{4} x^4 \right]^1_0 = \frac{1}{2} \end{align*} \]

Und damit können wir die Varianz bestimmen:

\[ \mathbb{V}(X) = \mathbb{E}(X^2) – \mathbb{E}(X)^2 = \frac{1}{2} – \frac{4}{9} = \frac{9}{18} – \frac{8}{18} = \frac{1}{18} \]

Damit sind wir fertig: \(\mathbb{V}(X) = \frac{1}{18}\).


Nur um zu sehen, wie kompliziert es ohne dieser Regel ist, berechnen wir die Varianz hier nocheinmal mit der ursprünglichen Formel (ich ersetze hier \(\mathbb{E}(X)\) mit \(\mu\), damit die Notation übersichtlicher wird). Wer noch Schwierigkeiten beim Integrieren hat, kann natürlich auf dem Papier mitrechnen:

\[ \begin{align*} \mathbb{V}(X) = \int_{-\infty}^\infty (x-\mu)^2 f(x) \, dx &= \int_0^1 (x^2 – 2\mu x + \mu^2) \cdot 2x \, dx \\ &= \int_0^1 2x^3-4\mu x^2 + 2\mu^2 x \, dx \\ &= \left[ 2 \cdot \frac{1}{4} x^4 – 4 \mu \cdot \frac{1}{3} x^3 + 2\mu^2 \cdot \frac{1}{2} x^2 \right]_0^1 \\ &= (2 \cdot \frac{1}{4} 1^4 – 4\mu \cdot \frac{1}{3}1^3 + 2\mu^2 \cdot \frac{1}{2} 1^2) – (0-0+0) \\ &= \frac{2}{4} – \frac{4}{3}\mu + \frac{2}{2}\mu^2 \\ &= \frac{1}{2} – \frac{4}{3} \cdot \frac{2}{3} + \left( \frac{2}{3} \right)^2 \\ &= \frac{1}{2} – \frac{8}{9} + \frac{4}{9} \\ &= \frac{9}{18} – \frac{16}{18} + \frac{4}{9} \\ &= \frac{1}{18} \end{align*} \]

Was ist ihre Verteilungsfunktion \(F(x)\)?

Die Verteilungsfunktion an der Stelle \(x\) ist die Fläche der Dichte, links von der Stelle \(x\). Wir integrieren also die Dichte von \(-\infty\) bis \(x\). Da die Variable \(x\) hier die rechte Grenze der Fläche angibt, müssen wir in der Dichtefunktion einen anderen Variablennamen nehmen, wir verwenden einfach \(t\). Das ändert natürlich die Funktion nicht, denn ob da \(f(x)=2x\) oder \(f(A) = 2A\) steht, ist egal.

Da die Dichte stückweise definiert ist, d.h. einmal von \(-\infty\) bis \(0\), dann von \(0\) bis \(1\), und schließlich von \(1\) bis \(\infty\), müssen wir auch die Verteilungsfunktion getrennt in diesen Stücken definieren.

Die Fläche unter der Dichte von \(-\infty\) bis \(0\) ist Null: \(F(x) = 0 \; \text{falls} \; x \leq 0\).

Für den Bereich von 0 bis 1 müssen wir wieder ein Integral lösen:

\[ \begin{align*} F(x) &= \int_0^x f(t) \, dt \\ &= \int_0^x 2t \, dt \\ &= \left[ 2 \cdot \frac{1}{2} t^2 \right]_0^x \\ &= \frac{2}{2} x^2 – \frac{2}{2} 0^2 \\ &= x^2 \end{align*} \]

Und schließlich, im Bereich von \(1\) bis \(\infty\) ist \(F(x)\) konstant, weil die Dichte dort 0 ist. Der Wert von \(F(x)\) ist hier konstant 1, da z.B. \(\mathbb{P}(X \leq 123) = 1\).

zufallsvariablen-stetige-verteilungsfunktion

Was ist die Quantilsfunktion \(Q(x)\)?

Die Quantilsfunktion ist nur von 0 bis 1 definiert, und ist in diesem Bereich die Umkehrfunktion der Verteilungsfunktion \(F(x)\). Um die Umkehrfunktion zu berechnen, ersetzen wir in der Definition der Verteilunsfunktion \(F(x)\) durch \(x\), und \(x\) durch \(Q(x)\):
\[ \begin{align*} F(x) &= x^2 \\ x &= \left(Q(x)\right)^2 \end{align*}\]

Das lösen wir jetzt nach \(Q(x)\) auf:

\[ \sqrt{x} = Q(x)\]

Und das ist auch schon die Quantilsfunktion (nicht vergessen, nur im Bereich von 0 bis 1!)

zufallsvariablen-stetige-quantilssfunktion

Was ist die Wahrscheinlichkeit, dass \(X\) zwischen 0.5 und 0.6 liegt?

Wir möchten also \(\mathbb{P}(0.5 \leq X \leq 0.6)\) bestimmen. Hierfür gibt es wieder eine einfache, und eine aufwändige Methode. In der einfachen Methode arbeiten wir mit der Verteilungsfunktion:

\[ \begin{align*} \mathbb{P}(0.5 \leq X \leq 0.6) &= \mathbb{P}(X \leq 0.6) – \mathbb{P}(X \leq 0.5) \\ &= F(0.6)-F(0.5) \\ &= 0.6^2 – 0.5^2 \\ &= 0.36-0.25 \\ &= 0.11 \end{align*} \]

Die Wahrscheinlichkeit liegt also bei 0.11.

In der komplizierteren Variante würden wir die Fläche unter der Dichte im Bereich von 0.5 bis 0.6 bestimmen, wir würden also das folgende Integral lösen:

\[ \int_{0.5}^{0.6} f(x) \, dx = \int_{0.5}^{0.6} 2x \, dx = \left[ x^2 \right]^{0.6}_{0.5} = 0.6^2-0.5^2 = 0.11 \]

zufallsvariablen-stetige-wahrscheinlichkeit

Die grafische Idee hinter der Bestimmung von \(\mathbb{P}(0.5 \leq X \leq 0.6)\). Im linken Bild die Motivation über die Fläche unter der Dichte in diesem Bereich, also die Lösung über das Integral von 0.5 bis 0.6. Im rechten Bild die Motivation über die Verteilungsfunktion, also die Lösung über \(F(0.6)-F(0.5)\).

Darstellung und Eigenschaften von diskreten Zufallsvariablen

Dieser Artikel beschreibt Eigenschaften, die allen Zufallsvariablen mit diskreten Verteilungen zugrunde liegen. Für Eigenschaften spezieller Verteilungen, z.B. der Poissonverteilung, verweise ich auf den Abschnitt „Verteilungen“ im Inhaltsverzeichnis.

zufallsvariablen-dichte-verteilung

Im linken Bild sieht man die Dichte einer diskreten Zufallsvariable. Man sieht, dass die Wahrscheinlichkeit f(x) für die Ergebnisse 2 und 3 am höchsten ist. Der Erwartungswert E(X) ist 3, und ist mit einer gestrichelten Linie eingezeichnet. Im rechten Bild sieht man die entsprechende Verteilungsfunktion derselben Zufallsvariablen. Außerdem ist das 30%-Quantil eingezeichnet. Man bestimmt es, indem man von der y-Achse auf der Höhe des Quantils (bei uns 0.3) waagerecht nach rechts bis zur Verteilungsfunktion geht, und dann das Lot nach unten fällt. Unser 30%-Quantil ist also 2.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Dichte

Eine Zufallsvariable \(X\) beschreibt, wie schon besprochen, ein Zufallsexperiment, bevor es durchgeführt wird. Der Ausgang dieses Experiments ist also noch unklar. Die Dichte beschreibt nun für jedes mögliche Ergebnis \(x\) dessen Wahrscheinlichkeit. Sie wird mathematisch mit \(\mathbb{P}(X=x)\) dargestellt, und weil das aufwändig zu schreiben ist, mit \(f(x)\) abgekürzt.

Wir verwenden die Dichte, um Wahrscheinlichkeiten für ein einzelnes, oder mehrere mögliche Ergebnisse zu berechnen.

Im Beispiel mit einem Würfelwurf können wir die Dichte wie folgt darstellen:

\[ \begin{align*}f(1) &= \frac{1}{6} \\f(2) &= \frac{1}{6} \\f(3) &= \frac{1}{6} \\f(4) &= \frac{1}{6} \\f(5) &= \frac{1}{6} \\f(6) &= \frac{1}{6} \end{align*} \]

Das geht natürlich auch kürzer. Äquivalent können wir schreiben:

\[ f(x) = \frac{1}{6}, \;\; \text{falls} \; x \in \{ 1,2,3,4,5,6 \} \]

Hiermit können wir z.B. die Wahrscheinlichkeit ablesen, dass wir eine 4 würfeln:

\[ \mathbb{P}(X=4) = f(4) = \frac{1}{6} \]

Außerdem können wir uns mit der Dichte z.B. herleiten, mit welcher Wahrscheinlichkeit wir eine ungerade Zahl würfeln:

\[ \mathbb{P}(X \in \{ 1,3,5\}) = \mathbb{P}(X=1) + \mathbb{P}(X=3) + \mathbb{P}(X=5) = \frac{3}{6} = \frac{1}{2} \]

Damit eine Funktion eine echte Dichte sein kann, muss sie zwei Bedingungen entsprechen:

  1. Sie darf nirgends kleiner als Null sein. Es muss also gelten: \(f(x) \geq 0\) für alle \(x \in \mathbb{R}\). Diskrete Dichten sind, wie der Name schon sagt, nur an einigen diskreten Punkten größer als Null, und auf den restlichen reellen Zahlen gleich Null.
  2. Die Summe aller ihrer einzelnen Wahrscheinlichkeitswerte muss 1 ergeben. Das macht Sinn, da ja die Wahrscheinlichkeit, dass irgendein beliebiges Ergebnis eintritt, 1 ist.

Verteilungsfunktion

Die Verteilungsfunktion ist eine weitere Variante, eine Zufallsvariable und ihre möglichen Resultate zu beschreiben. Sie drückt aus, mit welcher Wahrscheinlichkeit das Resultat kleiner oder gleich eines bestimmten Werts ist. Die Verteilungsfunktion beschreibt also \(\mathbb{P}(X \leq x)\), und wird mit \(F(x)\) abgekürzt.

Wenn wir die Dichte einer diskreten Zufallsvariablen haben, können wir leicht die Verteilungsfunktion berechnen. Beim Würfelwurf ist z.B.

\[\begin{align*}\mathbb{P}(X\leq 3) = F(3) = f(1) + f(2) + f(3) = \frac{3}{6}\end{align*}\].

Allgemein ist die Verteilungsfunktion definiert als

\[ F(x) = \mathbb{P}(X \leq x) = \sum_{i: x_i \leq x} f(x_i). \]

Der letzte Term beschreibt genau das, was wir im Beispiel zwei Zeilen höher berechnet haben: \(F(x)\) ist die Summe der Wahrscheinlichkeiten aller möglichen Werte \(x_i\), die kleiner oder gleich \(x\) sind. Unter dem Summenzeichen steht der folgende Satz in „mathematisch“ ausgedrückt: „Summiere über alle Werte \(i\), deren zugehöriges \(x_i\) kleiner ist als \(x\)“. In diesem Spezialfall geht \(i\) von 1 bis 6, und die zugehörigen \(x_i\) sind genau dieselben Werte, das muss aber im Allgemeinen nicht so sein – deswegen muss man das allgemeingültig so notieren.

Die komplette Verteilungsfunktion im Spezialfall Würfelwurf ist \(F(x) = \frac{x}{6}\). Somit ist z.B. die Wahrscheinlichkeit, höchstens eine Vier zu würfeln \(F(4) = \frac{4}{6}\).

Quantile

Das Quantil einer Zufallsvariablen ist sehr ähnlich zum empirischen Quantil von bereits gemessenen Daten definiert. So ist etwa das 5%-Quantil einer Zufallsvariable genau der Wert von \(X\), der den Wertebereich so aufteilt, dass \(X\) zu 5% kleiner/gleich diesem Wert ist, und zu 95% größer/gleich. Bei stetigen Zufallsvariablen ist der Wert immer eindeutig, aber bei diskreten Zufallsvariablen kann der Wert ein ganzes Intervall zwischen zwei Ausprägungen annehmen – vergleiche hierzu auch den oben verlinkten Artikel zu empirischen Quantilen.

Allgemein ist ein \(p\)-Quantil so definiert: Das \(p\)-Quantil ist jeder Wert \(x_p\) von \(X\), für den \(F(x_p) = \mathbb{P}(X \leq x_p) \geq p\), und gleichzeitig \(\mathbb{P}(X \geq x_p) \geq 1-p\) gilt.

Erwartungswert

Auch wenn wir nicht wissen, welches Ergebnis unser Zufallsexperiment abwirft, können wir doch berechnen, mit welchem Ergebnis wir „im Mittel“ rechnen können. Wenn wir das Experiment also sehr oft durchführen, und den arithmetischen Mittelwert aller Ergebnisse bilden, erhalten wir den Erwartungswert. Der Erwartungswert für eine Zufallsvariable \(X\) wird mit \(\mathbb{E}(X)\), manchmal auch kurz mit \(\mu\), bezeichnet.

Er lässt sich zum Glück auch von der Dichte berechnen, ohne das Experiment so oft durchführen zu müssen. Dazu summieren wir alle möglichen Ausprägungen, die wir mit ihren zugehörigen Wahrscheinlichkeiten gewichten, auf:

\[ \mathbb{E}(X) = \sum_i x_i f(x_i) \]

Der Erwartungswert der Augenzahl bei einem Würfelwurf ist zum Beispiel \[ \mathbb{E}(X) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = 3.5. \] Hier sieht man auch, dass der Erwartungswert nicht unbedingt eine Zahl sein muss, die auch tatsächlich vorkommen kann. 3.5 Augen werden nie gewürfelt, aber sie sind eben die im Mittel zu erwartende Zahl an Augen.

Bei manchen Verteilungen, wie z.B. der Poissonverteilung, gibt es unendlich viele Ausprägungen, das heisst diese Summe ist unendlich lang. Sie lässt sich aber mit Hilfe eines Tricks (der Exponentialreihe) berechnen und hat ein festes Ergebnis. Meistens steht dieses Ergebnis natürlich in Formelsammlungen und Tabellen und muss nicht von Hand berechnet werden, daher gehe ich hier nicht näher darauf ein.

Varianz und Standardabweichung

zufallsvariablen-varianz

Zwei beispielhafte Dichten. Oben sieht man eine Dichte mit niedriger Varianz, das Ergebnis der Zufallsvariable bewegt sich meist im Bereich von 0 bis 5. Unten eine Zufallsvariable mit höherer Varianz, hier ist die Dichte breit gestreut.

Die Varianz einer Zufallsvariablen wird mit \(\mathbb{V}(X)\), und manchmal kurz mit \(\sigma^2\) notiert. Sie ist die erwartete quadratische Abweichung einer Zufallsvariablen von ihrem Erwartungswert. Die Abweichung vom Erwartungswert \(\mathbb{E}(X)\), nennen wir ihn kurz \(\mu\), ist \(X-\mu\). Die quadratische Abweichung ist \((X-\mu)^2\), und die erwartete quadratische Abweichung ist nun \(\mathbb{E}[(X-\mu)^2]\). Und das ist auch schon die Definition der Varianz einer Zufallsvariablen:

\[ \mathbb{V}(X) = \mathbb{E}[(X-\mu)^2] \]

Dies ist nun ein Erwartungswert einer transformierten Zufallsvariable, und mit der entsprechenden Rechenregel können wir die Varianz so formulieren und berechnen:

\[ \mathbb{V}(X) = \mathbb{E}[(X-\mu)^2] = \sum_i (x_i – \mu)^2 f(x_i) \]

Auch die Varianz ist für Zufallsvariablen ähnlich definiert wie die empirische Varianz für gemessene Daten. Bei gemessenen Daten wird aber erstens mit dem arithmetischen Mittel \(\bar{x}\) statt dem Erwartungswert \(\mu\) gearbeitet, und zweitens jeder Datenpunkt mit \(\frac{1}{n}\) gewichtet, anstatt wie hier mit \(f(x_i)\). Ansonsten sind die Formeln identisch.

Die Standardabweichung \(\sigma\) ist einfach zu berechnen, sobald man die Varianz hat:

\[ \sigma = \sqrt{\mathbb{V}(X)} \]

Rechenregeln für Erwartungswert und Varianz

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Rechenregeln für den Erwartungswert

Summe zweier Zufallsvariablen

Angenommen, wir führen unser Beispiel aus dem Artikel über diskrete Zufallsvariablen weiter, und werfen jetzt nicht einen, sondern zwei Würfel. Nennen wir die Zufallsvariable für den ersten Würfel \(X\), und die für den zweiten \(Y\). Uns interessiert der Erwartungswert der Summe der Augenzahlen, also \(\mathbb{E}(X+Y)\).

Wir könnten jetzt aufwändig alle möglichen Ergebnisse von \(X+Y\) zusammen mit deren Wahrscheinlichkeiten ausrechnen. So ist z.B. \(\mathbb{P}(X+Y=2) = \frac{1}{36}\), da dieser Fall nur auftritt wenn \(X=1\) und \(Y=1\). Als weiteres Beispiel ist \(\mathbb{P}(X+Y=7) = \frac{1}{6}\), denn es gibt \(6\cdot 6 = 36\) mögliche Ergebnisse der beiden Würfel, und 6 dieser Möglichkeiten resultieren in einer Augenzahl von 7, nämlich \((1,6), \,(2,5), \,(3,4), \,(4,3), \,(5,2), \,(6,1)\).

Über diese gemeinsame Dichte können wir dann den mit der Formel den Erwartungswert bilden.

Oder wir machen es uns einfach und benutzen folgende Formel:

\[ \mathbb{E}(X+Y) = \mathbb{E}(X) + \mathbb{E}(Y) \]

Der Erwartungswert der Summe zweier Würfel ist also die Summe beider Erwartungswerte (den Satz muss man vielleicht zweimal lesen). Der Erwartungswert eines Wurfes ist ja 3.5; das haben wir hier schon berechnet. Bei unserem Beispiel ist \(\mathbb{E}(X+Y) = \mathbb{E}(X) + \mathbb{E}(Y) = 3.5 + 3.5 = 7\).

Das klingt eventuell selbstverständlich. Dass das nicht so ist, sieht man bei der nächsten Rechenregel, die nur im Spezialfall unabhängiger Zufallsvariablen gilt.

Produkt zweier unabhängiger Zufallsvariablen

Was, wenn wir wie oben zwei Würfel werfen, und den Erwartungswert vom Produkt statt der Summe der Augenzahlen berechnen möchten? Unter der Bedingung, dass zwei Zufallsvariablen unabhängig sind, geht das:

\[ \mathbb{E}(X \cdot Y) = \mathbb{E}(X) \cdot \mathbb{E}(Y), \]

und damit ist unser gesuchter Erwartungswert \(3.5 \cdot 3.5 = 12.25\).

Vorsicht: Bei abhängigen Zufallsvariablen gilt diese Regel nicht. Ein Beispiel für zwei Zufallsvariablen, die voneinander abhängig sind, ist \(X\): Augenzahl auf der Oberseite eines geworfenen Würfels, und \(Y\): Augenzahl auf der Unterseite desselben Würfels. Wenn \(X=2\), ist automatisch \(Y=5\) (die Augenzahlen auf gegenüberliegenden Seiten summieren sich nämlich immer zu 7). Wenn wir den Erwartungswert von \(X\cdot Y\) von Hand berechnen (über die Summe aller möglichen Ergebnisse multipliziert mit ihren Wahrscheinlichkeiten), kommen wir auf das folgende (richtige) Ergebnis:

\[ \mathbb{E}(X\cdot Y) = \frac{1}{6} \cdot (1 \cdot 6) + \frac{1}{6} \cdot (2 \cdot 5) + \frac{1}{6} \cdot (3 \cdot 4) + \frac{1}{6} \cdot (4 \cdot 3) + \frac{1}{6} \cdot (5 \cdot 2) + \frac{1}{6} \cdot (6 \cdot 1) \approx 9.333, \]

und das ist nicht dasselbe wie \( \mathbb{E}(X) \cdot \mathbb{E}(Y) = 3.5 \cdot 3.5 = 12.25\), was das falsche Ergebnis ist.

Lineartransformationen

Angenommen, der Wetterbericht verrät euch, dass die erwartete Außentemperatur morgen 24 Grad Celsius (°C) beträgt, könnt ihr daraus die erwartete Außentemperatur in Grad Fahrenheit (°F) berechnen?

Natürlich. Und das ist die Idee hinter dieser Formel:

\[ \mathbb{E}(aX + b) = a \cdot \mathbb{E}(X) + b \]

Von °C rechnet man wie folgt in °F um: \(^{\circ}F = 1.8 \cdot ^{\circ}C + 32\). Die Umwandlung von Grad Celsius in Grad Fahrenheit (und andersrum) ist eine Lineartransformation. In unserem Fall ist \(a=1.8\) und \(b=32\). Die erwartete Temperatur in Fahrenheit ist also

\[ \mathbb{E}(^{\circ}F) = \mathbb{E}(1.8 \cdot ^{\circ}C + 32) = 1.8\cdot \mathbb{E}(^{\circ}C) + 32 =1.8\cdot 24 + 32 = 75.2 \]

Transformationsregel

Manchmal bildet man aus einer Zufallsvariablen eine neue Zufallsvariable, wenn man nicht an dem Ergebnis eines Zufallsexperiments interessiert ist, sondern an einer Transformation davon.

Schauen wir uns ein vereinfachtes Casinospiel an: Wir werfen einen Würfel. Kommt eine 1 oder 2, verlieren wir 15€. Kommt aber eine 3, 4, 5, oder 6, gewinnen wir 5€. Ist das ein Spiel, das wir spielen können? Oder, anders formuliert, hat dieses Glücksspiel einen positiven Erwartungswert?

Unsere alte Zufallsvariable ist der Würfelwurf, \(X\). Jetzt sind wir aber nicht am Erwartungswert von \(X\) interessiert (der ist 3,5 und unwichtig), sondern am Erwartungswert von unserem Glücksspiel, das wir \(Y\) nennen.

Wir können \(Y\) als Funktion von \(X\) darstellen, und \(Y=g(X)\) dazu sagen. Diese Funktion ist wie folgt definiert:

\[ \begin{align*} g(1) &= -15 \\ g(2) &= -15 \\ g(3) &= +5 \\ g(4) &= +5 \\ g(5) &= +5 \\ g(6) &= +5 \end{align*} \]

Die Transformationsregel hilft uns nun, den Erwartungswert von \(Y\) zu berechnen, und ist (für diskrete Zufallsvariablen) wie folgt definiert:

\[ \mathbb{E}(Y) = \mathbb{E}(g(X)) = \sum_i g(x_i) f(x_i) \]

Dabei ist \(g(x_i)\) der Wert von \(Y\), also der Gewinn/Verlust des Spiels, und \(f(x_i)\) die zugehörige Wahrscheinlichkeit, die wir von \(X\), also vom Würfelwurf her kennen. Schreiben wir diese Formel für unseren Fall aus:

\[ \mathbb{E}(Y) = (-15)\cdot \frac{1}{6} + (-15)\cdot \frac{1}{6} + 5\cdot \frac{1}{6} + 5\cdot \frac{1}{6} + 5\cdot \frac{1}{6} + 5\cdot \frac{1}{6} \approx -1.667.\]

Somit ist der Erwartungswert dieses Glücksspiels -1.667€, und damit negativ. Es lohnt sich also nicht, zu spielen. Ist auch keine Überraschung, da es ein Casinospiel ist. 🙂

Für stetige Zufallsvariablen greift genau dasselbe Konzept, aber die Summe wird durch ein Integral ersetzt. Die Formel wird etwas schwieriger zu berechnen und lautet hier

\[ \mathbb{E}(Y) = \mathbb{E}(g(X)) = \int_{-\infty}^\infty g(x) f(x) dx. \]

Die häufigste Anwendung dieser Regel ist wohl bei der Berechnung der Varianz einer Zufallsvariablen zu finden. Hier können wir den Verschiebungssatz anwenden, und uns bei der Berechnung einiges an Zeit sparen, wenn wir \(\mathbb{E}(X^2)\) berechnen.

Rechenregeln für die Varianz

Lineartransformationen

Die Varianz einer Zufallsvariablen ändert sich nicht, wenn ich zu jeder Realisierung einen festen Wert \(b\), zum Beispiel 4, addiere. Wenn ich die Realisierungen aber mit einem Faktor \(a\) multipliziere, dann wird die Varianz der Zufallsvariable mit \(a^2\) multipliziert. In einer Formel ausgedrückt sieht das so aus:

\[ \mathbb{V}(a\cdot X + b) = a^2 \cdot \mathbb{V}(X) \]

Wenn der Wetterbericht also wie oben erklärt, für morgen eine erwartete Temperatur von \(\mathbb{E}(^{\circ}C)=24^{\circ}C\) vorhersagt, und eine Unsicherheit, d.h. Varianz, von \(\mathbb{V}(^{\circ}C)=4\) angibt, dann ist dieselbe Vorhersage in Fahrenheit übersetzt:

\[ \begin{align*} \mathbb{E}(^{\circ}F) &= 1.8 \cdot 24 + 32 = 75.2 \\ \mathbb{V}(^{\circ}F) &= 1.8^2 \cdot 4 = 12.96 \end{align*} \]

Summe zweier unabhängiger Zufallsvariablen

Möchten wir die Varianz der Summe zweier Zufallsvariablen bestimmen, ist es sehr hilfreich, wenn die beiden Zufallsvariablen voneinander unabhängig sind. Dann ist die Varianz der Summe nämlich gleich der Summe der einzelnen Varianzen:

\[ \mathbb{V}(X + Y) = \mathbb{V}(X) + \mathbb{V}(Y) \]

Falls \(X\) und \(Y\) voneinander abhängig sind, gilt diese Formel nicht mehr. Das sieht man an einem stupiden, aber hoffentlich einleuchtenden Beispiel: Die Zufallsvariable \(X\) ist sehr wohl abhängig von sich selbst, \(X\). Möchten wir die Varianz von \(X+X\) bestimmen, kommt nach dem Abschnitt über Lineartransformationen heraus: \(\mathbb{V}(X+X) = \mathbb{V}(2\cdot X) = 2^2 \cdot \mathbb{V}(X) = 4 \cdot \mathbb{V}(X)\), und das ist nicht dasselbe wie das, was fälschlicherweise hier herauskommen würde, nämlich \(2 \cdot \mathbb{V}(X)\).

Der Verschiebungssatz

Der Verschiebungssatz ist eine Regel, mit der wir die Varianz einer Zufallsvariablen umformen. Wir können die Varianz dadurch mit einer anderen Formel berechnen, die in den meisten Fällen (auf Papier und im Taschenrechner) viel einfacher geht. Die Varianz ist (für beide Fälle, stetige und diskrete Zufallsvariablen) durch den Verschiebungssatz definiert als

\[ \mathbb{V}(X) = \mathbb{E}(X^2) – \mathbb{E}(X)^2. \]

Der zweite Teil der Differenz, nämlich \(\mathbb{E}(X)^2\), ist dabei einfacher zu bestimmen: Er ist einfach das Quadrat des Erwartungswertes \(\mu\). Wenn man den also bestimmt hat, quadriert man ihn einfach und setzt ihn dort ein.

Der erste Teil, \(\mathbb{E}(X^2)\) ist komplizierter: Er ist der Erwartungswert einer neuen, transformierten Zufallsvariablen, nämlich \(X^2\). Ihn müssen wir mit der Transformationsregel (in diesem Artikel weiter oben) bestimmen. Dieser Teil kommt nun wieder darauf an, ob wir es mit einer diskreten oder stetigen Zufallsvariablen zu tun haben. Er ist aber meistens trotzdem schneller zu berechnen als über die andere, längere Definition der Varianz.

Beispiel Verschiebungssatz: Varianz eines Würfelwurfs

Den Verschiebungssatz veranschaulicht man am besten anhand eines Beispiels. Wir können die Varianz eines Würfelwurfs zwar theoretisch einfach durch die Formel der diskreten Gleichverteilung berechnen, wie es im verlinkten Artikel geschieht. Aber die allgemeine Formel ist natürlich immer noch gültig. Die ganz allgemeine (aber auch ganz aufwändige) Formel lautet ja

\[ \mathbb{V}(X) = \mathbb{E}[(X-\mu)^2] = \sum_i (x_i – \mu)^2 f(x_i) \]

Wenn wir \(\mathbb{E}(X) = \mu = 3.5\) berechnet haben, können wir die Varianz berechnen:

\[\mathbb{V}(X) = (1 – 3.5)^2 \cdot \frac{1}{6} + \ldots + (6 – 3.5)^2 \cdot \frac{1}{6} = 2.91667 \]

Über den Verschiebungssatz geht das nun auch. In diesem einfachen Beispiel ist das nicht viel schneller, aber sobald der Träger größer ist, d.h. mehr Ausprägungen möglich sind, nimmt das viel Arbeit ab. Wir brauchen also \(\mathbb{E}(X)\) (den haben wir schon, das ist 3.5) und \(\mathbb{E}(X^2)\). Diesen Wert erhalten wir mit Hilfe der oben beschriebenen Transformationsregel, wenn wir nämlich \(g(x) = x^2\) setzen. Ich zeige hier nochmal die Berechnung von \(\mathbb{E}(X)\), und gleich danach die Berechnung von \(\mathbb{E}(X^2)\), um die Parallelen zu betonen:

\[ \mathbb{E}(X) =\frac{1}{6} \cdot 1 +\frac{1}{6} \cdot 2 + \frac{1}{6} \cdot 3 +\frac{1}{6} \cdot 4 +\frac{1}{6} \cdot 5 +\frac{1}{6} \cdot 6 = 3.5\]

\[ \mathbb{E}(X^2) =\frac{1}{6} \cdot 1^2 +\frac{1}{6} \cdot 2^2 + \frac{1}{6} \cdot 3^2 +\frac{1}{6} \cdot 4^2 +\frac{1}{6} \cdot 5^2 +\frac{1}{6} \cdot 6^2 = 15.1667 \]

Schließlich erhalten wir die Varianz, natürlich dasselbe Ergebnis, aber mit einer anderen Methode berechnet:

\[ \mathbb{V}(X) = \mathbb{E}(X^2) – \mathbb{E}(X)^2 = 15.1667 – 3.5^2 = 2.91667 \]