Archiv des Autors: Alex

Was sind Zufallsvariablen?

Zufallsvariablen werden meistens mit \(X\), und manchmal mit \(Y\) oder \(Z\) beschrieben. Sie sind Variablen, mit denen wir das Ergebnis eines noch nicht durchgeführten Zufallsexperiments beschreiben. Betrachten wir zum Beispiel den Wurf eines Würfels, können wir die Zufallsvariable dafür \(X\) nennen. Vor dem Würfelwurf ist der Wert von \(X\) unbekannt, und nach dem Wurf nimmt \(X\) einen Wert von \(1, 2, 3, 4, 5, 6\) an. Diesen Wert nennt man Realisierung der Zufallsvariable, und nennt ihn verallgemeinert \(x\).

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Der Unterschied zwischen \(X\) und \(x\) ist also, dass \(X\) die tatsächliche Zufallsvariable ist, und keinen festen Wert hat, sondern quasi für das noch unbekannte Ergebnis des Zufallsexperiments steht, und \(x\) für eine feste Zahl steht, die für das Ergebnis nach dem Experiment steht. Man sieht also für das Beispiel Würfelwurf Schreibweisen wie \(\mathbb{P}(X=1) = \frac{1}{6}\). Da aber die Wahrscheinlichkeit für jede Augenzahl \(x=1,2,3,4,5,6\) gleich ist, schreibt man verallgemeinert \(\mathbb{P}(X=x) = \frac{1}{6}\). Gesprochen wird das so: „Die Wahrscheinlichkeit, dass X gleich x ist, beträgt ein Sechstel.“

Es ist wichtig, dass die möglichen Werte der Zufallsvariablen immer Zahlen sind. Für einen Münzwurf können wir also nicht \(\mathbb{P}(X=\text{Kopf})\) schreiben, sondern müssen die Werte vorher kodieren, z.B. in \(\text{Kopf}=0\) und \(\text{Zahl}=1\). Das ist wichtig, um später Erwartungswerte der Zufallsvariablen bilden zu können. Es ist nämlich unmöglich, den Mittelwert von \(\text{Kopf}\) und \(\text{Zahl}\) zu bilden, aber der Mittelwert von \(0\) und \(1\) ist \(0.5\).

Diskrete und stetige Zufallsvariablen

Es gibt zwei verschiedene Klassen von Zufallsvariablen. Diskrete Zufallsvariablen können nur eine endliche oder abzählbar unendliche Menge an Werten annehmen. Das bedeutet meist, dass es entweder eine feste Anzahl an Werten gibt (wie z.B. beim Würfelwurf), oder dass es sich um Zähldaten handelt, wie etwa die Anzahl an Bankkunden an einem Tag, oder die Anzahl an Blitzen in einem Gewitter. Theoretisch sind beliebig hohe Werte möglich, aber die möglichen Werte sind doch abzählbar.

Stetige Zufallsvariablen hingegen können innerhalb eines beliebigen Intervalls unendlich viele Werte annehmen. Wenn wir die Körpergröße eines Menschen messen, sind theoretisch unendlich viele Werte zwischen z.B. 165.3cm und 166.84cm möglich. Man nennt diese Wertebereiche überabzählbar unendlich.

Der Träger einer Zufallsvariablen

Mit dem Wort „Träger“ – und dem Zeichen \(\mathcal{T}\) bezeichnen wir die Menge aller möglichen Ergebnisse einer Zufallsvariablen. Für das obige Beispiel eines Würfelwurfs wäre der Träger z.B. \(\mathcal{T} = {1, 2, 3, 4, 5, 6}\). Für die Körpergröße eines Menschen kommen theoretisch alle positiven reellen Zahlen in Frage, hier wäre der Träger also \(\mathbb{R}^+\).

Verteilung von Zufallsvariablen

Für alle Zufallsexperimente, mit denen wir uns (zumindest in den einführenden Veranstaltungen, und in einfachen Anwendungsproblemen) beschäftigen, existieren bekannte Verteilungen. Wir wissen also vor dem Experiment zwar nicht, welches Ergebnis wir bekommen, aber wir wissen, wie wahrscheinlich bestimmte Ergebnisse sind. Diese Information stellen wir dar, indem wir sagen, \(X\) folgt einer bestimmten Verteilung. Mathematisch notiert wird das so: \[ X \sim P_\theta \] Dabei steht \(P\) für eine bestimmte Verteilung (bei der Normalverteilung würde hier z.B. \(N\) stehen, und \(\theta\) sind die Parameter dieser Verteilung (bei der Normalverteilung wäre das der Mittelwert, \(\mu\), und die Varianz, \(\sigma^2\)).

Man kann die möglichen Werte einer Zufallsvariable und die Wahrscheinlichkeitsverteilung über alle diese Werte auf drei verschiedene Arten darstellen: Mit der Dichte, der Verteilungsfunktion, und der Quantilsfunktion. Alle diese Arten sind gleichwertig, spezifizieren die Eigenschaften der Zufallsvariablen vollständig, und man kann auf dem Papier zwischen allen drei Arten hin-und-her-rechnen.

Parameter von Verteilungen

Jede Verteilungsklasse (als Beispiel wieder die Normalverteilung) kann natürlich mehr als nur eine Verteilung beschreiben. Parameter sind Variablen, die zu einer Verteilungsklasse gehören, und mit denen die Verteilung einer Zufallsvariablen \(X\) dann vollständig spezifiziert ist.

Wenn wir zum Beispiel mit \(X\) den Intelligenzquotienten von einigen Personen messen, folgt das Ergebnis einer Normalverteilung mit Mittelwert 100 und Varianz 225, also \(X \sim N(100, 225)\). Messen wir aber von einigen Autos die Geschwindigkeit innerorts, erhalten wir vielleicht eine Normalverteilung mit Mittelwert 55 und Varianz 25, also \(X \sim N(55, 25)\).

Kreuztabellen / Kontingenztafeln

Kreuztabellen sind Häufigkeitstabellen für zwei Merkmale. Sie sind also dazu da, die gemeinsame Verteilung von zwei Merkmalen zu visualisieren.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Kreuztabellen für absolute Häufigkeiten

Die einfachste Tabelle besteht aus absoluten Häufigkeiten, also einfach der Anzahl an untersuchten Einheiten in jeder Gruppe. Befragt man zum Beispiel 200 Personen nach ihrem Geschlecht und der letzten gewählten Partei, könnte sich eine Tabelle wie folgt ergeben:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 26 22 8 12 16 84
Frauen 36 28 14 14 24 116
Summe 62 50 22 26 40 200

Allgemein notieren kann man eine Tabelle zum Beispiel so:

\(b_1\) \(b_2\) \(\dots\) \(b_J\) Summe
\(a_1\) \(h_{11}\) \(h_{12}\) \(\dots\) \(h_{1J}\) \(h_{1\cdot}\)
\(a_2\) \(h_{21}\) \(h_{22}\) \(\dots\) \(h_{2J}\) \(h_{2\cdot}\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\ddots\) \(\vdots\) \(\vdots\)
\(a_I\) \(h_{I1}\) \(h_{I2}\) \(\dots\) \(h_{IJ}\) \(h_{I\cdot}\)
Summe \(h_{\cdot 1}\) \(h_{\cdot 2}\) \(\dots\) \(h_{\cdot J}\) \(n\)

Das Merkmal \(X\) ist in den Zeilen dargestellt und kann \(I\) verschiedene Ausprägungen haben, \(a_1\) bis \(a_I\). Im oberen Beispiel war \(X\) das Geschlecht, \(I=2\) und \(a_1\) war „männlich“, \(a_2\) war „weiblich“. Das zweite Merkmal, \(Y\) läuft über die Spalten und hat \(J\) verschiedene Ausprägungen \(b_1, \ldots, b_J\) (oben waren das die fünf Parteien).

Die einzelnen Häufigkeiten werden nun durch \(h_{ij}\) dargestellt, wobei die erste Zahl, \(i\), immer die Zeile angibt, und die zweite Zahl, \(j\), immer die Spalte. \(h_{13}\) ist also der Eintrag in der ersten Zeile, dritte Spalte. In unserer Parteientabelle ist \(h_{13}=8\).

Die Randhäufigkeiten sind die gebildeten Summen über eine ganze Zeile (z.B. \(h_{2\cdot}\) für die zweite Zeile) oder eine ganze Spalte (z.B. \(h_{\cdot 1}\) für Spalte 1). Der Punkt deutet an, dass an dieser Position summiert wird; steht er an erster Stelle, wird eine feste Spalte über alle Zeilen summiert. Für eine beliebige Zeile \(i\) stellt man die Zeilensumme durch die Formel \(h_{i\cdot} = \sum_{j=1}^J h_{ij}\) dar, und eine Spaltensumme für eine beliebige Spalte \(j\) bildet man mit \(h_{\cdot j} = \sum_{i=1}^I h_{ij}\).

Ganz unten rechts steht noch \(n\), die gesamte Anzahl an untersuchten Einheiten. In unserem Beispiel war \(n=200\).

Als kleine Verständniskontrolle kann man sich überlegen, wofür die folgenden Bezeichnungen in unserer Beispieltabelle der Wahldaten stehen:

  • \(I\)
  • \(h_{12}\)
  • \(h_{\cdot 2}\)
  • \(a_2\)
  • \(n\)
Lösung (klick)
  • \(I=2\) (die Anzahl der Zeilen ohne der Summenzeile)
  • \(h_{12} = 22\) (die Anzahl der Männer, die CDU/CSU gewählt haben)
  • \(h_{\cdot 2}=50\) (die Anzahl aller CDU/CSU-Wähler)
  • \(a_2=\text{Frauen}\) (die zweite Ausprägung für das Merkmal \(X\) in den Zeilen)
  • \(n=200\) (die Gesamtzahl an befragten Einheiten)

Kreuztabellen für relative Häufigkeiten

Eine Tabelle für absolute Häufigkeiten wandelt man ganz einfach in eine Tabelle relativer Häufigkeiten um: Man dividiert jede Zelle (egal ob es eine Datenzelle oder eine Randhäufigkeit ist) durch \(n\), und ist fertig. Hier ist unsere Beispieltabelle von oben in relativen Häufigkeiten, indem wir jede Zelle durch 200 teilen:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 0.13 0.11 0.04 0.06 0.08 0.42
Frauen 0.18 0.14 0.07 0.07 0.12 0.58
Summe 0.31 0.25 0.11 0.13 0.20 1

Relative Häufigkeiten sollte man anders bezeichnen als absolute Häufigkeiten. Daher nennen wir absolute Häufigkeiten \(h_{ij}\), und relative Häufigkeiten \(f_{ij}\). Das kann aber natürlich in jedem Kurs anders heißen.

Exkurs: Bedingte Häufigkeiten

Mit bedingten Häufigkeiten drücken wir die Verteilung eines Merkmals aus, gegeben ein zweites Merkmal hat eine bestimmte Ausprägung. In einer Formel deutet der vertikale Balken an, dass es sich um eine bedingte Häufigkeit handelt. So bedeutet f(Grüne|Mann) die relative Häufigkeit der Grünen-Wähler bedingt auf die Männer.

Wenn man auf die Männer bedingt, interessiert einen in der folgenden Tabelle nur die erste Zeile:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 26 22 8 12 16 84
Frauen 36 28 14 14 24 116
Summe 62 50 22 26 40 200

Der Anteil der Grünen-Wähler an den Männern ist also 12 von 84 Männern, d.h. 14%.

Um eine bedingte Häufigkeit zu erhalten, teilen wir also nicht durch die Gesamtzahl an Personen \(n\), sondern nur durch die Personen, auf die bedingt wurde. Im Beispiel oben teilen wir die absolute Anzahl an Männern, die die Grünen gewählt haben (=12) durch die Anzahl an befragten Männern (also durch \(h_{1\cdot} = 84\) statt durch \(n\)).

Mit unseren Bezeichnungen von oben („Grüne“ sind \(b_4\) usw.) berechnen wir diese bedingte Häufigkeit wie folgt:

\[ f(b_4 | a_1) = \frac{h_{14}}{h_{1\cdot}} = 12/84 = 0.14 \]

In Formeln ausgedrückt berechnet man die auf eine Spalte bedingte Häufigkeit durch

\[ f(a_i | b_j) = \frac{h_{ij}}{h_{\cdot j}}, \]

und die auf eine Zeile bedingte Häufigkeit durch

\[ f(b_j | a_i) = \frac{h_{ij}}{h_{i \cdot}}. \]

Der Korrelationskoeffizient nach Pearson

Die Korrelation ist eine Möglichkeit, den Zusammenhang zwischen zwei Variablen zu beschreiben. Der Pearson-Korrelationskoeffizient \(r\) ist einer von vielen Möglichkeiten dazu, und meiner Meinung nach die einfachste, am ehesten intuitive.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Mit der Korrelation mißt man den linearen (dazu später mehr) Zusammenhang zwischen zwei Variablen. Der Wert kann zwischen -1 und 1 liegen, und wird wie folgt interpretiert:

  • \(r \approx 0\): Wenn zwei Variablen eine Korrelation von ungefähr Null haben, lässt sich kein Zusammenhang erkennen. Die Variablen sind unkorreliert. Eine Korrelation von 0 erwartet man z.B. zwischen der Hausnummer und der Körpergrösse einer Person.
  • \(r > 0\): Wenn \(r\) größer als Null ist, spricht man von einer positiven Korrelation. Größere Werte von \(X\) gehen dann einher mit größeren Werten von \(Y\). Das ist zum Beispiel bei der Körpergrösse und der Schuhgrösse einer Person der Fall: Grössere Menschen haben meistens auch grössere Schuhe.
  • \(r < 0\): Wenn \(r\) negativ ist, dann hängen höhere Werte von \(X\) mit niedrigeren Werten für \(Y\) (und umgekehrt) zusammen. Betrachtet man etwa die Anzahl der Skiurlauber und die Aussentemperatur, sieht man, dass bei niedrigeren Temperaturen mehr Urlauber kommen.

Sehen wir uns ein paar grafische Beispiele an:

asdf

Hier sieht man vier Beispiele für Datensätze mit zwei Variablen. Gezeigt sind die X- und Y-Werte, sowie der jeweilige Korrelationskoeffizient \(r\), und eine Regressionslinie.

A)
Hier sieht man eine starke positive Korrelation. Die hohe Korrelation deutet darauf hin, dass ein Zusammenhang zwischen Außentemperatur und Umsatz einer Eisdiele besteht.
B)
Ein Beispiel für eine negative Korrelation. Höhere Preise für Kinokarten gehen mit weniger Besuchern einher. Hier fällt auch auf, dass die Steigung der Geraden keine Rolle spielt. Der Korrelationskoeffizient bemerkt nur, wie „perfekt“ der lineare Zusammenhang ist, aber nicht, wie stark er ist.
C)
Sieht man sich Daten für Körpergrösse und Nettoeinkommen an, erkennt man keinen Zusammenhang. Hier ist sogar eine leicht negative Korrelation zu erkennen, die man aber wohl als zufällig betrachten kann.
D)
Ein Beispiel für die Grenzen der Korrelation: Sehr arme Menschen können sich keine Busfahrkarten leisten, und sehr reiche Menschen fahren eher Auto. Der Zusammenhang ist hier nicht linear, sondern folgt eher einer Parabel. Man sieht eine Abhängigkeit zwischen dem Einkommen und der gekauften Busfahrkarten, aber die lineare Korrelation erkennt ihn nicht.

Um den Korrelationskoeffizienten \(r\) für zwei Variablen zu berechnen, gibt es zwei Formeln, wo bei beiden natürlich das Gleiche rauskommt. Manchmal ist allerdings die eine oder andere Formel einfacher in den Taschenrechner einzutippen.

Für die Formeln sollte man mit dem Summenzeichen umgehen können, das im entsprechenden Artikel erklärt wird.

Formel 1: \[ r = \frac{\sum_{i=1}^n (x_i – \bar{x}) (y_i – \bar{y})}{ \sqrt{\sum_{i=1}^n (x_i – \bar{x})^2} \cdot \sqrt{\sum_{i=1}^n (y_i – \bar{y})^2} } \]

Formel 2: \[ r= \frac{\sum_{i=1}^n x_i y_i – n \bar{x} \bar{y}}{\sqrt{\sum_{i=1}^n x_i^2 – n\bar{x}^2} \cdot \sqrt{\sum_{i=1}^n y_i^2 – n\bar{y}^2} } \]

Die zweite Formel ist einfacher und schneller im Taschenrechner zu berechnen. Wenn allerdings sehr große Zahlen für \(x\) oder \(y\) vorkommen, werden die Summen der Quadrate (die Terme \(\sum_{i=1}^n x_i^2\)) zu gross, und der Speicher des Taschenrechners spielt nicht mehr mit.

Beispielaufgabe

Schauen wir uns die Berechnung von \(r\) mit beiden Formeln anhand eines Beispiels an:

Person \(i\) 1 2 3 4 5 6 7
\(x_i\): Zigaretten pro Tag 4 21 2 11 14 2 6
\(y_i\): Todesalter 70 63 82 65 61 74 84

Überlege dir vorher, ob du eine positive oder negative Korrelation erwartest. Du kannst auch ein Streudiagramm der Daten zeichnen, um im Vorfeld etwas mehr Klarheit zu bekommen.

Für beide Formeln müssen wir zuerst die Mittelwerte \(\bar{x}\) und \(\bar{y}\) berechnen:

\[ \bar{x} = \frac{1}{7} \cdot (4+21+2+11+14+2+6) = 8.57\]

\[ \bar{y} = \frac{1}{7} \cdot (70+63+82+65+61+74+84) = 71.29\]

Formel 1

Am einfachsten ist es, die Formel in drei Schritten zu berechnen, und die Zwischenergebnisse aufzuschreiben, und am Ende den gesamten Bruch auszurechen. Beginnen wir mit dem Zähler:

\[ \begin{align*} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) = & (4-8.57)\cdot (70-71.29)+\\ & (21-8.57)\cdot (63-71.29)+\\ & (2-8.57)\cdot (82-71.29)+\\ & (11-8.57)\cdot (65-71.29)+\\ & (14-8.57)\cdot (61-71.29)+\\ & (2-8.57)\cdot (74-71.29)+\\ & (6-8.57)\cdot (84-71.29) \\ & = -289.14 \end{align*} \]

Nun die beiden Teile im Nenner:

\(\sqrt{\sum_{i=1}^n (x_i – \bar{x})^2} = \sqrt{(4-8.57)^2 + (21-8.57)^2 + \ldots +(6-8.57)^2} = 17.43\)

\(\sqrt{\sum_{i=1}^n (y_i – \bar{y})^2} = \sqrt{(70-71.29)^2 + \ldots +(84-71.29)^2 } = 22.35\)

Zusammen in die Formel von oben eingesetzt ergibt sich die Korrelation:

\[ r= \frac{-289.14}{17.43 \cdot 22.35} = -0.74 \]

Formel 2

Mit diesem Weg hat man mehr Zwischenergebnisse als mit Formel 1, und kann sich im Taschenrechner nicht so leicht vertippen. Man berechnet nacheinander die folgenden fünf Werte:

  • \(\bar{x} = 8.57\)
  • \(\bar{y} = 71.29\)
  • \(\sum_{i=1}^n x_iy_i = 4\cdot 70 + 21\cdot 63 + 2\cdot 82 + 11\cdot 65 + 14\cdot 61 + 2\cdot 74 + 6\cdot 84 = 3988\)
  • \(\sum_{i=1}^n x_i^2 = 4^2+21^2+2^2+11^2+14^2+2^2+6^2 =818\)
  • \(\sum_{i=1}^n y_i^2 = 36071\)

Diese Werte setzt man nun in die Formel ein:

\[ r = \frac{3988 – 7\cdot 8.57 \cdot 71.29}{\sqrt{818 – 7\cdot 8.57^2} \cdot \sqrt{36071 – 7\cdot 71.29^2}} = -0.74 \]

Wie man sieht, ist die zweite Variante angenehmer zu rechnen, könnte aber problematisch werden, wenn z.B. Zahlen über 10,000 quadriert und summiert werden.

Herleitung über die empirische Kovarianz

Dieser Abschnitt wird ein bisschen mathematisch, kann also gerne übersprungen werden, wenn man nicht an der Intuition hinter der Formel interessiert ist.

Die Korrelation ist eigentlich eine standardisierte Version der Kovarianz zweier Variablen. Die Kovarianz ist definiert als

\[ \text{Cov}(x, y) = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})\]

Der Betrag der Kovarianz bewegt sich zwischen \(0\) (bei unkorrelierten Variablen) und \(s_x \cdot s_y\) (bei perfekt korrelierten Variablen). Dabei ist \(s_x\) die Standardabweichung von \(X\), und \(s_y\) die von \(Y\). Das Vorzeichen der Kovarianz lässt nun schon erkennen, in welche Richtung der Zusammenhang zweier Variablen geht, genauso wie bei der Korrelation. Aber ihr Wert ist abhängig von der Varianz von \(x\) und \(y\). Daher wird die Kovarianz standardisiert, indem man durch die Standardabweichungen von \(x\) und \(y\) teilt – dadurch erhält man die Korrelation, deren Wertebereich nun von -1 bis 1 geht:

\[ r = \frac{\text{Cov}(x, y)}{s_x \cdot s_y} \]

Die Faktoren \(\frac{1}{n-1}\) stehen im Zähler und im Nenner, und kürzen sich heraus, wodurch die Formel 1 oben entsteht.

Permutationen

Die Fragestellung in einer Permutation lautet: „Auf wieviele Möglichkeiten kann ich \(N\) Elemente anordnen (oder permutieren)?“ Diese Fragestellung ist im Endeffekt nichts anderes als eine Variation (mit Reihenfolge) ohne Zurücklegen, mit der zusätzlichen Eigenschaft, dass wir aus \(N\) Objekten alle \(N\) ziehen, d.h. \(k=N\).

Die Formel \(\frac{N!}{(N-k)!}\) wird also zu \(\frac{N!}{(N-N)!}\), und damit zu \(\frac{N!}{0!} = N! \).

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Als Beispiel:

  • Eine Fußballmannschaft, bestehend aus 11 Spielern, verlässt zu Spielbeginn der Reihe nach die Mannschaftskabine. Wie viele Reihenfolgen sind dabei möglich?

Für die 11 Spieler gibt es \(11! = 39916800\) verschiedene Anordnungen, in der sie aus der Kabine laufen können. So schnell wird ihnen also bestimmt nicht langweilig—falls sie dieses Experiment wirklich durchführen möchten.

Ein weiteres Beispiel ist das Mischen eines Kartenspiels. Bei 52 Karten gibt es \(52!\) verschiedene Reihenfolgen für die Karten. Diese Zahl ausgerechnet ist eine 8 mit 67 Nullen hintendran!

Falls Elemente in der Ausgangsmenge identisch sind

Manchmal besteht eine Grundgesamtheit aus Elementen, die nicht alle voneinander verschieden sind. Betrachten wir den Inhalt eines typischen Studentengeldbeutels:

  • eine 2€-Münze
  • zwei 1€-Münzen
  • eine 50ct-Münze
  • drei 10ct-Münzen
permutationen

Wieviele Möglichkeiten gibt es, 7 Elemente in eine Reihenfolge zu bringen, wenn einige Elemente davon nicht unterscheidbar sind?

Man möchte jetzt wissen, wieviele Möglichkeiten es gibt, diese \(N=7\) Münzen in eine Reihe zu legen. Dabei sollen die gleichen Elemente—also die beiden 1€-Münzen und die drei 10ct-Münzen—nicht unterscheidbar sein. Man teilt die bekannte Formel \(N! \) durch das Produkt der Fakultäten der Häufigkeiten jedes Elementes. In unserem Fall gibt es also
\[ \frac{7!}{1!\cdot 2!\cdot 1!\cdot 3!} = 420 \] Möglichkeiten, eine Münzreihe zu bilden. Da \(1!=1\) ist, kann man die Einser weglassen und schreibt im Normalfall nur die Fakultäten über 1 in den Nenner:
\[ \frac{7!}{2!\cdot 3!} = 420 \]

Das macht Sinn, da es \(3! \) Möglichkeiten gibt, die drei 10ct-Münzen zu permutieren, und \(2! \) Möglichkeiten für die beiden 1€-Münzen. Diese uninteressanten Möglichkeiten werden im Nenner wieder „herausdividiert“.

Variationen – mit Reihenfolge

Bei einer Variation zieht man eine Stichprobe während die Reihenfolge, in der die Elemente gezogen werden, beachtet wird. Es macht also einen Unterschied, ob ein Element als erstes oder als zweites, drittes, etc. gezogen wird.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Ziehen ohne Zurücklegen

Typische Fragestellungen in diesem Fall sind etwa die folgenden:

    • Auf wieviele Arten kann man bei einem Formel-1-Rennen mit 16 Rennfahrern das Siegertreppchen (mit 3 Plätzen) besetzen?
    • Wieviele Möglichkeiten gibt es, ein rotes und ein weißes Auto in 5 Parklücken zu parken?

Bei dem Formel-1-Rennen haben wir 16 mögliche Fahrer, die den ersten Platz belegen können. Danach bleiben uns noch 15 Fahrer übrig, aus denen wir einen für den zweiten Platz aussuchen können, und schließlich 14 mögliche Fahrer für den dritten Platz. Die Formel lautet also
\[ 16\cdot 15\cdot 14 = \frac{16!}{13!} = 3360. \] Verallgemeinert für \(N\) Objekte, aus denen \(k\) ohne Zurücklegen gezogen werden, lautet die Formel
\[ \frac{N!}{(N-k)!}. \]

Das Problem der beiden Autos, die fünf Parklücken zur Auswahl haben, ist ähnlich dem der 16 Rennfahrer, nur anders herum formuliert. Vergleicht man nämlich die 5 Parkplätze mit den 16 Rennfahrern, und die zwei Autos mit den drei Siegerplätzen, kommen wir auf \(5!/(5-2)! = 20\) mögliche Anordnungen der beiden Autos.

Ziehen mit Zurücklegen

Beim Ziehen mit Zurücklegen können wir jedes Mal \(N\) Elemente ziehen. Da die Reihenfolge hier beachtet wird, wird die Anzahl der Möglichkeiten in jedem der \(k\) Versuche mit \(N\) multipliziert. Es gibt in diesem Fall also \(N^k\) Möglichkeiten. Dazu ein Beispiel:

        • Ein Zahlenschloss für das Fahrrad besteht aus vier Rädern, die jeweils die Ziffern 1–6 enthalten. Wieviele Stellungen hat das Fahrradschloss?

Jedes der \(k=4\) Räder hat \(N=6\) mögliche Stellungen. Die Gesamtzahl der möglichen Kombinationen ist also \(6^4 = 1296\).

Kombinationen – ohne Reihenfolge

Bei einer Kombination spielt die Reihenfolge, in der Objekte gezogen werden, keine Rolle. Man interessiert sich also nur dafür, welche Elemente man zieht.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Ziehen ohne Zurücklegen

Ziehen ohne Zurücklegen (oft auch ohne Wiederholung genannt) bedeutet, dass ein Element das einmal gezogen wurde aus der Grundgesamtheit entfernt wird, und im weiteren Verlauf nicht noch einmal gezogen werden kann.

Diese Situation kennt man aus der klassischen Stichprobe, bei der aus einer Grundgesamtheit von \(N\) Elementen ein paar Elemente gezogen werden. Auch eine Lottoziehung, bei der 6 aus 49 Kugeln gezogen werden, folgt diesem Prinzip.

Die Gesamtzahl der möglichen Kombinationen von \(k\) Elementen aus einer Grundgesamtheit mit \(N\) Elementen ist

\[ {N\choose k} = \frac{N!}{(N-k)!\cdot k!}. \]

Einige Beispiele für die Kombination ohne Zurücklegen:

  • Aus einem Pokerspiel mit 52 Karten werden 2 Karten („eine Hand“) gezogen.
  • Auf einer Party mit 12 Personen gibt zur Begrüßung jeder jedem einmal die Hand. Wie oft wird insgesamt Hände geschüttelt? (ohne Reihenfolge, da eine bestimmte Person sich nicht selbst die Hand gibt, also nicht zweimal gezogen werden kann).
  • Lotto: Wieviele Möglichkeiten gibt es, 6 von 49 Zahlen anzukreuzen?

Für das Pokerspiel kommen wir auf \({52 \choose 2} = 1326\) mögliche Hände (wobei hier z.B. die Hände [3\(\clubsuit\) K\(\heartsuit\)] und [K\(\heartsuit\) 3\(\clubsuit\)] als äquivalent angesehen werden, die Hände [9\(\spadesuit\) 2\(\diamondsuit\)] und [9\(\diamondsuit\) 2\(\spadesuit\)] allerdings nicht.). Auf der Party haben wir \({12 \choose 2} = 66\) Begrüßungen. Hier rechnet man ohne Reihenfolge, da es für ein Paar egal ist, wer wem die Hand gibt. Ziehen ohne Zurücklegen wird angewendet, da ansonsten—falls wir „mit Zurücklegen“ ziehen würden—eine Person zweimal gezogen werden könnte, und sich somit selbst die Hand gibt. Die berühmte Zahl für die 6 aus 49 im Lotto ist \({49\choose 6} = 13983816\). Soviele Möglichkeiten gibt es, die Kreuzchen auf den Lottoschein zu setzen. Mit Superzahl (die ist eine Ziffer von 0 bis 9) sind es übrigens nochmal zehnmal so viele!

Ziehen mit Zurücklegen

Diese Art der Stichprobenbildung kommt in der Praxis eher selten vor. Ein Anwendungsfall könnte in etwa so lauten:

  • Wieviele Möglichkeiten gibt es, fünf Äpfel auf drei Kinder zu verteilen?

Man berechnet die Anzahl dieser Möglichkeiten wie folgt:
\[ {N+k-1 \choose k} = \frac{(N+k-1)!}{(N-1)!\cdot k!} \]

In unserem Beispiel hilft es, sich das Verteilen andersherum vorzustellen: Jeder Apfel „zieht sich ein Kind“, und zwar ohne Reihenfolge, da es egal ist welche Äpfel ein Kind hat, und mit Zurücklegen, da ein Kind öfter als einmal ausgewählt werden kann.

Es gibt insgesamt also \(N=3\) Elemente (Kinder), und es werden \(k=5\) Elemente mit Zurücklegen gezogen (ein Kind pro Apfel).

Hier kämen wir also auf \({3+5-1 \choose 5} = {7 \choose 5} = \frac{7!}{5! \cdot 2!} = \frac{7\cdot 6}{2\cdot 1} = 21\) mehr oder weniger faire Möglichkeiten, die Äpfel auf die Kinder zu verteilen.

Kombinatorik: Ein Überblick

Die Kombinatorik ist ein breites Teilgebiet der Mathematik. Im Bereich der Statistik sind hier aber meist nur Berechnungen gemeint, die mit Stichproben und Umordnungen aus einer Grundgesamtheit zu tun haben. Die Problemstellung ist hier meist von der Form „es werden \(k\) Objekte aus einer Grundgesamtheit von \(N\) Objekten gezogen“.

Die zwei zentralen Begriffe sind hier zum einen die Kombination, und zum anderen die Variation von Objekten. Der Unterschied zwischen den beiden Begriffen ist, dass in einer Kombination die Reihenfolge der Objekte nicht interessant ist, in einer Variation jedoch schon.

Das Wichtigste in Kürze

In einer Aufgabe sollte man sich immer die folgenden Fragen stellen:

  1. Wie groß ist meine Grundgesamtheit? \(\longrightarrow N\)
  2. Wieviele Objekte werden gezogen? \(\longrightarrow k\)
  3. Ist die Reihenfolge der gezogenen Objekte wichtig? (Falls ja: Variation / Falls nein: Kombination)
  4. Werden die Objekte mit oder ohne Zurücklegen gezogen?
  5. Kommen Objekte in der Grundgesamtheit mehrfach vor?

Durch die Antworten auf die Fragen 3 und 4 wird nun klar, welche der Formeln aus der folgenden Tabelle man verwendet.

Variation Kombination
mit Zurücklegen \(N^k\) \(\frac{(N+k-1)!}{(N-1)!\cdot k!} = {N+k-1 \choose k}\)
ohne Zurücklegen \(\frac{N!}{(N-k)!} = {N \choose k}k! \) \(\frac{N!}{(N-k)!\cdot k!} = {N \choose k}\)

Die Schreibweise \({N \choose k}\) beschreibt dabei den Binomialkoeffizienten.

Die Permutation ist ein Spezialfall der Variation, wenn man \(N=k\) setzt. In Worten ausgedrückt hat man eine Permutation, wenn man wissen will, auf wieviele Arten man \(N\) unterscheidbare Objekte (z.B. eine vierköpfige Familie auf einem Familienfoto) in eine Reihenfolge anordnen kann. Hier ist dann auch die 5. Frage wichtig, denn es kann vorkommen, dass in der Ausgangsmenge manche Elemente gleich sind (hier gibt es ein Beispiel dafür).

Vorsicht: Wenn man \(N=k\) wählt, also z.B. 7 Objekte hat, und davon 7 zieht, dann ergibt sich im Nenner der Term \(0!\), also die Fakultät von Null. Hier muss man wissen, dass \(0!=1\) ist, sonst würde man durch Null dividieren.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Die grundlegende Frage in der Kombinatorik ist also immer, wieviele Möglichkeiten es gibt, eine bestimmte Konstellation von Objekten zu erhalten. Der Trick in der Kombinatorik ist immer, dass man die Anzahl der gesamten Möglichkeiten durch Multiplizieren der einzelnen Möglichkeiten erhält. Dazu zwei Beispiele:

  • In meiner Küche habe ich die folgenden Zutaten:
    • Fleisch: Huhn, Schwein und Rind
    • Gemüse: Broccoli, Karotten und Bohnen
    • Kohlenhydrate: Reis und Nudeln

    Wenn ich nun ein Gericht aus einer Zutat jeder Gruppe (d.h. eine Sorte Fleisch, eine Sorte Gemüse, und eine Sorte Kohlenhydrate) kochen will, wieviele verschiedene Gerichte wären damit möglich?
    Hier gibt es 3 Sorten Fleisch, 3 Sorten Gemüse und 2 Sorten Kohlenhydrate. Die Anzahl der gesamten Möglichkeiten erhält man dann, wie oben erklärt, durch die Multiplikation der einzelnen Möglichkeiten. Ich kann aus diesen Zutaten also \(3\cdot 3\cdot 2 = 18\) verschiedene Gerichte zaubern.

  • Wieviele Möglichkeiten gibt es, eine vierköpfige Familie für ein Familienfoto in eine Reihenfolge zu stellen?
    Wenn wir die Plätze in der Reihenfolge mit 1, 2, 3, und 4 benennen, gibt es für den ersten Platz vier Möglichkeiten. Für den zweiten Platz gibt es dann nur noch drei Möglichkeiten, da die erste Person ja schon auf Platz 1 steht. Für den dritten Platz gibt es noch zwei, und für den vierten Platz bleibt nur noch eine Möglichkeit. Die Gesamtzahl der möglichen Anordnungen ist also \(4\cdot 3\cdot 2\cdot 1 = 24\).
    Diese Situation ist eine Permutation, und ist im entsprechenden Artikel näher erklärt.

Histogramme

Histogramme sehen zunächst ähnlich aus wie Balkendiagramme, werden aber für stetige statt diskrete Daten verwendet. Um ein Histogramm zu zeichnen, muss man seine Daten zuerst klassieren, d.h. Gruppen bilden und sie ihnen zuordnen.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Einfacher: Histogramme für gleich breite Gruppen

Am einfachsten sind Histogramme zu zeichnen, wenn diese Gruppen gleich breit sind. Mißt man zum Beispiel die Körpergröße von 20 Personen, könnte man diese Gruppen in 10cm-Abständen bilden, also von 150-159cm, von 160-169cm, und so weiter.

Wir bauen nun ein Histogramm für die folgenden zwanzig Körpergrößen:

172 164 160 162 173 180 158 185 171 181 162 184 177 175 177 174 158 151 192 177

Zuerst müssen wir die Gruppen festlegen, in die wir die Daten zuordnen wollen. Wir zeichnen zuerst ein Histogramm für fünf gleich breite Gruppen:

Gruppe 1 2 3 4 5
Intervall [150, 160) [160, 170) [170, 180) [180, 190) [190, 200)

Die eckigen und runden Klammern beschreiben die jeweiligen Grenzen des Intervalls. In der zweiten Spalte ist z.B. die 160 enthalten, da davor eine eckige Klammer steht, aber die 170 ist nicht enthalten, da dort eine runde Klammer ist. Wenn also jemand genau 170cm groß ist, fällt er in die dritte Gruppe. Falls jemand 169.8cm groß ist, fällt er in die zweite Gruppe.

Jetzt zählen wir, wie viele Personen in jede Gruppe fallen. Es gibt z.B. drei Personen in der Gruppe von 150 (einschließlich) bis 160 (ausschließlich). Mit diesen Daten könnte man nun schon ein Histogramm mit absoluten Häufigkeiten zeichen. Das möchten wir aber nicht, da diese Art dann bei komplizierteren Histogrammen mit variablen Gruppenbreiten nicht mehr funktioniert (wer mir nicht glaubt, kann es gerne versuchen, das ist eine schöne Übung). Wir berechnen als Höhe der einzelnen Balken stattdessen die Dichte, und zwar wie folgt:

\[ h_i = \frac{n_i}{N \cdot b_i} \]

Hier ist \(h_i\) die Höhe des \(i\)-ten Histogrammbalkens, \(n_i\) ist die Anzahl der Personen in dieser Gruppe \(i\), \(N\) ist die Gesamtzahl an Personen (bei uns \(N=20\)), und \(b_i\) ist die Breite der \(i\)-ten Klasse (bei uns sind alle Klassen gleich breit, also \(b_i=10\) für alle Klassen). In der ersten Klasse ist die Höhe zum Beispiel \(h_1 = \frac{3}{20 \cdot 10} = 0.015\).

Am einfachsten erstellt man all diese Daten in einer Tabelle:

Gruppe \(i\) 1 2 3 4 5
Intervall [150, 160) [160, 170) [170, 180) [180, 190) [190, 200)
Anzahl an Personen in dieser Gruppe, \(n_i\) 3 4 8 4 1
Histogrammhöhe, \(h_i\) 0.015 0.02 0.04 0.02 0.005

Damit kann man nun ein Histogramm zeichen:
histogramm-fix

Das linke Histogramm haben wir gerade berechnet. Das rechte unterscheidet sich nur darin, dass auf der \(y\)-Achse absolute Zahlen verwendet wurden—es wurden also statt den Höhen \(h_i\) die Anzahl an Personen, \(n_i\) gezeichnet. Man sieht hier also direkt, dass in der mittleren Klasse 8 Personen liegen. Aber wie gesagt, für variable Klassenbreiten kann man das dann nicht mehr machen.

Der Anteil an Beobachtungen in jeder Gruppe entspricht nun der Fläche dieser Balken. In der ersten Gruppe ist ein Anteil von \(10\cdot 0.015 = 0.15\), also 15% der Daten, was bei 20 Personen genau 3 Personen entspricht. Diese Art der Interpretation wird wichtig, wenn wir uns Histogramme mit variablen Gruppenbreiten ansehen:

Komplizierter: Histogramme für variable Gruppenbreiten

Diese Art von Histogramm sieht man in der Realität so gut wie nie – zumindest ich bin noch nie einem begegnet. Ich habe aber in einer Klausur mal ein solches Histogramm zeichnen müssen, daher zeige ich hier auch, wie man diese Art erstellt.

Das einzige, was hier noch dazukommt, sind die Klassenbreiten \(b_i\), die ja nun verschieden breit sind. Schauen wir uns ein Histogramm für die folgenden Klassen an:

Gruppe \(i\) 1 2 3 4
Intervall [140, 160) [160, 165) [165, 190) [190, 200)

Mit derselben Formel von oben, in die wir nun aber unterschiedliche Klassenbreiten eintragen, erhalten wir nun diese Werte:

Gruppe \(i\) 1 2 3 4
Intervall [140, 160) [160, 165) [165, 190) [190, 200)
Klassenbreite \(b_i\) 20 5 25 10
Anzahl an Personen in dieser Gruppe, \(n_i\) 3 4 12 1
Histogrammhöhe, \(h_i\) 0.0075 0.04 0.024 0.005

Das zugehörige Histogramm sieht wie folgt aus:

histogramm-variabel

Wie schon gesagt, diese Darstellung macht wenig Sinn, könnte aber in einer Klausur abgefragt werden, um zu prüfen ob man das Prinzip verstanden hat.

Boxplots

Ein Boxplot ist eine grafische Zusammenfassung der folgenden fünf Punkte:

  • Minimum (= 0%-Quantil)
  • 25%-Quantil
  • Median (= 50%-Quantil)
  • 75%-Quantil
  • Maximum (= 100%-Quantil)
Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Da man das Minimum, den Median und das Maximum als 0%-, 50%- bzw. 100%-Quantil ausdrücken kann, zeigt der Boxplot eigentlich nur fünf häufig verwendete, interessante Quantile. Dabei ist die Box und ihre sogenannten „Whiskers“, die Striche außerhalb der Boxen, wie folgt aufgebaut:

Die Box spannt sich vom 25%-Quantil bis zum 75%-Quantil auf, in ihr ist der Median durch einen Querstrich markiert. Außerhalb der Boxen spannen sich nach oben und unten die Whiskers zum Minimum bzw. Maximum der Datenreihe.

Es gibt eine Ausnahme, in der die Whiskers meistens nicht bis zum Minimum bzw. Maximum gezeichnet werden. „Meistens“, weil dieses Vorgehen nirgends festgelegt ist, und nur eine Art Quasi-Standard ist. Falls die Whiskers länger sind als das 1.5-fache der Box (d.h. der 1.5-fache Interquartilsabstand), werden sie nicht bis zum letzten Punkt gezeichnet, sondern nur bis zum letzten Punkt der weniger als das 1.5-fache des Interquartilsabstands von der Box entfernt ist. Alle Datenpunkte, die dann ausserhalb der Whiskers liegen, werden als Ausreißer separat eingezeichnet.

Am Boxplot kann man auch zwei Streuungsmaße ablesen: Die Spannweite ist nämlich der Abstand zwischen den beiden Whiskers (bzw. zwischen den äußersten Ausreißern). Der Interquartilsabstand, der ja als \(x_{0.75} – x_{0.25}\) definiert wurde, ist genau die Breite der Box.

Beispielaufgabe

Um einen Boxplot von Hand zu zeichnen, benötigen wir nur die sogenannte Fünf-Punkte-Zusammenfassung einer Datenreihe. Diese wollen wir jetzt anhand von Beispieldaten berechnen.

Nehmen wir an, wir bekommen einen Datensatz mit \(n=20\) befragten Autofahrern. Die Personen haben uns gesagt, wie oft sie in ihrem Leben schon geblitzt wurden. Wir bekamen von den Personen die folgenden Antworten:

1 4 3 3 7 1 0 9 2 3 1 1 2 0 5 0 0 1 0 2

Wir brauchen also als allererstes für die Box das 25%- und das 75%-Quantil sowie den Median. Dazu sortieren wir die Liste zuerst:

0 0 0 0 0 1 1 1 1 1 2 2 2 3 3 3 4 5 7 9

Der Median ist für 20 Elemente definiert als \(\frac{1}{2} (x_{(10)} + x_{(11)})\), also 1.5. Die Quantile sind \(x_{0.25} = \frac{1}{2} (x_{(np)} + x_{(np+1)}) = \frac{1}{2} (x_{(5)} + x_{(6)}) = 0.5\), und \(x_{0.75} = 3\). Die Box erstreckt sich also von 0.5 zu 3, mit dem Median-strich bei 1.5.

Für die Whisker müssen wir nachsehen: Das Minimum der Daten ist 0. Der Whisker streckt sich bis zum Minimum, falls es nicht weiter als \(1.5\cdot IQR\) von der Box (also von \(x_{0.25}\)) entfernt ist. \(IQR\) steht hier für interquartile range, also den Interquartilsabstand, oder \(x_{0.75}-x_{0.25}\). Der ist bei uns 2.5. Und das Minimum ist nicht weiter als \(1.5\cdot 2.5\) von 0.5 entfernt: Daher geht der untere Whisker bis zum Minimum 0.

Das Maximum der Daten liegt bei 9. Das ist 9-3=6 von der Box entfernt. Geteilt durch die \(IQR\) ergibt das \(6/2.5 = 2.4\). Das bedeutet, dass das Maximum die 2.4-fache IQR als Abstand zur Box hat, und das ist mehr als das 1.5-fache. Der Whisker geht daher bis zum größten Datenpunkt, der kleiner als \(1.5\cdot IQR\) von der Box entfernt ist. Das wäre bei uns der Punkt, der (von unten) am nähesten an \(3 + 1.5\cdot 2.5\), also 6.75 liegt. Das ist 5; und genau so weit geht unser oberer Whisker. Alle Werte, die darüber liegen (die sogenannten Ausreißer), werden noch als einzelne Punkte eingezeichnet.

Der dazugehörige Boxplot sieht so aus:

boxplot1

Ein Boxplot. Man sieht die Daten hier aufgeteilt in vier Viertel: Das untere Viertel der Daten geht (inklusive) von 0 bis 0.5, das zweite Viertel von 0.5 bis 1.5, das dritte Viertel von 1.5 bis 3, und das letzte Viertel von 3 bis 9.

Verteilungsfunktion

Häufigkeitstabellen kann man auf zweierlei Art visualisieren: Absolute oder relative Häufigkeiten stellt man meist durch Balkendiagramme dar. Für kumulierte Häufigkeiten ist nun eine Verteilungsfunktion angebracht. Sie zeigt auf der \(x\)-Achse die geordneten Ausprägungen für das Merkmal, und auf der \(y\)-Achse den Anteil der Daten, der kleiner oder gleich dieser Ausprägung ist.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Wenn wir eine Verteilungsfunktion zeichen, sollten wir immer ihr Prinzip im Hinterkopf behalten: Sie zeigt euch für jede Ausprägung den Anteil der Daten, der kleiner oder gleich dieser Ausprägung ist. Diese Verteilungsfunktion \(F(x)\) haben wir im Artikel zu Häufigkeitstabellen schon gesehen, allerdings nur in Tabellenform. Hier zeichnen wir im Prinzip nur die zu der Tabelle passende Grafik.

Beispielaufgabe

Wir haben 80 Studenten befragt, in welchem Semester sie sich befinden, und daraus eine Häufigkeitstabelle erstellt:

Semester \(i\) 1 2 3 4 5 6 7
\(h_i\) 20 4 13 9 21 5 8
\(f_i\) 0.25 0.05 0.1625 0.1125 0.2625 0.0625 0.1
\(F_i\) 0.25 0.3 0.4625 0.575 0.8475 0.9 1

Die folgende Abbildung zeigt die Verteilungsfunktion für unsere Studentenbefragung (das Semester \(i\) ist die \(x\)-Achse, und die Zeile \(F_i\) ist die \(y\)-Achse).

verteilungsfunktion

Die Verteilungsfunktion für unsere Studentenbefragung. An den „Sprüngen“ der Funktion zählt der Wert, an dem der Punkt eingezeichnet ist. Vertikale Linien zwischen den Sprüngen der Funktion können, aber müssen nicht gezeichnet werden.

In dieser Grafik sind die Punkte einfach aus der Häufigkeitstabelle übernommen. Der \(x\)-Wert ist das jeweilige Semester, und der \(y\)-Wert das zugehörige \(F_i\), also der Anteil der Studenten, die höchstens in diesem Semester sind. Die horizontalen Linien zwischen den Punkten geben nun auch für „krumme“ Zahlen einen sinnvollen Prozentsatz an: Möchte man z.B. wissen, welcher Anteil der Studenten mit einer Semesterzahl von höchstens 4.3 geantwortet hat, ist das (also \(F(4.3)\)) derselbe Anteil, der mit höchstens 4.0 geantwortet hat (also \(F(4.0)\)).

Hier ist dann natürlich zwingend, dass die Verteilungsfunktion immer bei 0 beginnt, und dann kontinuierlich (mathematisch: monoton) steigt, und irgendwann bei 1 endet. Die Verteilung kommt immer von \(-\infty\) und geht immer weiter bis \(+\infty\): Der Anteil der Studenten, die höchstens im 7. Semester sind, ist 1; der Anteil derer, die höchstens im 850. Semester sind, ist natürlich immer noch 1.

Quantilsfunktion

Übrigens kann man an der Verteilungsfunktion auch die Quantile ablesen, indem man den Graphen „andersrum“ liest. Sucht man sich auf der \(y\)-Achse ein gewünschtes Quantil, z.B. das 70%-Quantil, geht man von dort auf einer Horizontalen nach rechts, bis man die Verteilungsfunktion schneidet. Der zugehörige \(x\)-Wert (in diesem Fall 5) ist das Semester, das 70% der Studenten nicht überschreiten (also das 70%-Quantil, oder \(x_{0.7}\)).

Für den Fall, dass man ein \(p\)-Quantil bestimmen will, und \(np\) gerade ist (vgl. den Artikel Quantile), landet man in der Verteilungsfunktion direkt auf einer „Stufe“ der Treppe. In dem Fall kann das Quantil theoretisch jeder Wert dieser Stufe sein, wir nehmen aber meist den Mittelwert der beiden „Grenzen“. Schauen wir uns die Verteilungsfunktion für die folgenden Daten an:

Person A B C D E
Ausprägung 1 2 3 5 7

verteilungsfunktion-beispiel

Das 20%-Quantil (die gepunktete Linie) in diesem Beispiel könnte jeder Wert auf der \(x\)-Achse sein, der zwischen dem ersten (1) und dem zweiten Datenpunkt (2) liegt, da alle Werte die Daten in „niedrige 20%“ und „hohe 80%“ teilen. Das wird durch das Plateau auf der Treppenfunktion verdeutlicht. Das Quantil kann man aber meist einfach als \(\frac{1}{2}(1+2)\), also 1.5 definieren.

Mathematisch ausgedrückt: Die Quantilsfunktion ist die Inversfunktion der Verteilungsfunktion. Die Quantilsfunktion wird daher auch mit \(F^{-1}(x)\) bezeichnet.