Archiv der Kategorie: Deskriptive

Balkendiagramme

Balkendiagramme sind die einfachste Variante, um diskrete Daten zu visualisieren. In einem Balkendiagramm wird für jede mögliche Ausprägung des untersuchten Merkmals ein Balken gezeichnet. Dessen Höhe ist proportional zur jeweiligen Häufigkeit des Merkmals. Es ist für die Grafik selbst egal, ob hier relative oder absolute Häufigkeiten verwendet werden, es ändert sich nur die Skala auf der \(y\)-Achse.

Kurz am Rande: Das Balkendiagramm heißt genaugenommen Säulendiagramm, da die Daten als vertikale Säule dargestellt werden. Ein Balkendiagramm hingegen hätte man, wenn die komplette Grafik um 90 Grad nach rechts gedreht wird. Das Erstellen dieses Diagramms geht aber genauso wie beim Säulendiagramm, und ich finde den Begriff „Balkendiagramm“ einfach schöner 🙂

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Beispielaufgabe

Wir benutzen die Daten aus dem Artikel zu Häufigkeitstabellen:

Semester \(i\) 1 2 3 4 5 6 7
\(h_i\) 20 4 13 9 21 5 8
\(f_i\) 0.25 0.05 0.1625 0.1125 0.2625 0.0625 0.1
\(F_i\) 0.25 0.3 0.4625 0.575 0.8475 0.9 1

Damit zeichnen wir nun ein Balkendiagramm für die absolute (die Zeile \(h_i\)) und relative (die Zeile \(f_i\)) Häufigkeit für jedes Semester.

balkendiagramm

Hier sieht man nun, dass sich nur die Skalierung der \(y\)-Achse ändert; die (relativen) Höhen der Balken bleiben gleich.

Gini-Koeffizient

Der Gini-Koeffizient verpackt die grafische Information der Lorenzkurve in eine einzelne Zahl. Die Grundidee dazu basiert auf der Fläche, die zwischen der tatsächlichen Lorenzkurve und der Winkelhalbierenden (die „Gerade der perfekten Verteilung“) aufgespannt wird; wir nennen sie Konzentrationsfläche. Wenn diese Fläche nämlich größer wird, ist das ein Zeichen dafür, dass die Verteilung ungerechter wird. Je größer diese Konzentrationsfläche ist, desto größer ist der dazugehörige Gini-Koeffizient, und desto ungerechter ist die Verteilung des betrachteten Merkmals.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Die folgende Abbildung zeigt ein paar Beispiele für die Konzentrationsfläche.

gini-veranschaulichung

Die farbige Konzentrationsfläche, zwischen der gestrichelten Geraden der perfekten Gleichverteilung und der tatsächlichen Lorenzkurve, ist ein Maß dafür, wie gleichmäßig die Merkmalssumme verteilt ist. Je fairer das Merkmal verteilt ist, desto näher kommt die Lorenzkurve an die gestrichelte Gerade, und damit wird die Konzentrationsfläche kleiner.

Damit der Gini-Koeffizient auf einen Bereich von 0 bis 1 normiert wird, teilt man diese Fläche nun durch die „maximal mögliche Fläche“. Der Koeffizient ist also ein Anteil, nämlich die tatsächliche Konzentrationsfläche geteilt durch die größtmögliche Konzentrationsfläche.

Die Interpretation eines einzelnen Gini-Koeffizienten (z.B. vom Wert 0,68) ist schwierig. Es gibt keine klaren Regeln, ab welchem Wert eine Verteilung „konzentriert“, oder „unfair“ ist. Sinnvoller ist es, zum Beispiel für mehrere Länder jeweils einen Koeffizienten zur Einkommensverteilung zu berechnen, und diese dann zu vergleichen oder zu sortieren.

Es gibt nun wirklich eine Vielzahl von Formeln, um diesen Koeffizienten zu berechnen. Im Endeffekt kommt natürlich für jede Formel dasselbe raus—es handelt sich nur um verschiedene Schreibweisen, die zum selben Ergebnis führen. Ein einfacher Ablauf für die Bestimmung des Gini-Koeffizienten ist der folgende:

  • Fläche unter der Lorenzkurve bestimmen.
  • Die Konzentrationsfläche ist \(\frac{1}{2}\) minus der Fläche unter der Lorenzkurve
  • Der Gini-Koeffizient ist nun die Konzentrationsfläche geteilt durch die maximal mögliche Konzentrationsfläche

Beispielaufgabe

Einheit \(i\) Einheit 1 Einheit 2 Einheit 3 Einheit 4 Einheit 5
Einkommen 3 4 5 5 18
Aufsummiertes Einkommen 3 7 12 17 35
Anteil an der Gesamtsumme (\(y\)-Achse) 0.086 0.2 0.343 0.486 1
Prozent der Ärmsten (\(x\)-Achse) 20% 40% 60% 80% 100%

Wir verwenden dieselben Daten der Aufgabe zur Lorenzkurve, und berechnen hierfür Schritt für Schritt den Gini-Koeffizienten. Visualisiert sehen diese Schritte so aus:

gini-schritte

Die Schritte zur Berechnung des Gini-Koeffizienten.
Oben links: Die Flächen dieser Trapeze werden einzeln ausgerechnet und aufsummiert.
Oben rechts: So berechnet man die Fläche eines Trapezes.
Unten links: Die „maximal mögliche Fläche“ beim einfachen Gini-Koeffizienten.
Unten rechts: Die „maximal mögliche Fläche“ beim normierten Gini-Koeffizienten.

Die Fläche unter der Lorenzkurve

Die Fläche unter der Lorenzkurve teilt man am besten in \(i\) Trapeze auf, deren Flächeninhalte \(A_i\) man einzeln berechnet und dann aufsummiert. Die Formel für die Trapezfläche bedient sich eines Tricks, indem sie das Trapez mit den Höhen \(h_1\) und \(h_2\) als ein Rechteck mit demselben Flächeninhalt ansieht (siehe die Abbildung oben). Die Höhe des Rechtecks ist der Mittelwert aus den beiden Höhen des Trapezes.

Bestimmen wir also diese Fläche. Jede Spalte in der folgenden Tabelle stellt ein Trapez dar, dessen Fläche \(A_i\) wir berechnen wollen. Das \(i\) ist hierbei 1, 2, 3, 4, oder 5, je nachdem welches Trapez wir uns ansehen. Zum Verständnis kann man sich z.B. die zweite Spalte alleine ansehen, die die Fläche \(A_2\) des zweiten Trapezes berechnet. Die hier benutzten Zahlenwerte für \(h_1\) und \(h_2\) haben wir in der Tabelle oben schon berechnet. Die Grundfläche \(b\) ist bei uns 1/5 = 0.2, da wir in unserem Beispiel fünf Personen betrachten. Allgemein ausgedrückt: Bei \(n\) Personen ist die Grundfläche \(\frac{1}{n}\) breit.

Trapez 1 Trapez 2 Trapez 3 Trapez 4 Trapez 5
\(h_1\) 0 0.086 0.2 0.343 0.486
\(h_2\) 0.086 0.2 0.343 0.486 1
\(\frac{h_1+h_2}{2}\) 0.043 0.143 0.271 0.414 0.743
\(b\) 0.2 0.2 0.2 0.2 0.2
\(A_i = \frac{h_1+h_2}{2} \cdot b\) 0.0086 0.0286 0.0542 0.0828 0.1486

Die Gesamtfläche unter der Lorenzkurve ist nun die Summe der Teilflächen, also die Summe der letzten Zeile in der obigen Tabelle. Wir kommen hier auf eine Fläche von 0.3228.

Die Konzentrationsfläche

konzentrationsflaeche

Um die Konzentrationsfläche—also die Flächen, von der wir in der obersten Abbildung gesprochen haben—zu erhalten, ziehen wir einfach die Fläche unter der Lorenzkurve von \(\frac{1}{2}\) ab. Warum? Weil die Fläche unter der Gleichverteilungsgeraden ein halbes Quadrat ist, also die Fläche \(\frac{1}{2}\) ist. Die Fläche zwischen zwei Kurven ist nun genau die Fläche unter der oberen minus der Fläche unter der unteren Kurve (nochmal lesen!). Unsere Konzentrationsfläche ist also \(\frac{1}{2} – 0.3228 = 0.1772\).

Der einfache Gini-Koeffizient

Um letztendlich den Gini-Koeffizienten zu bekommen, teilen wir die Konzentrationsfläche durch die „maximal mögliche Konzentrationsfläche“. Beim einfachen Gini-Koeffizienten ist diese Fläche einfach \(\frac{1}{2}\), also die Fläche unter der Geraden der Gleichverteilung. Der Gini-Koeffizient ist hier also einfach die Konzentrationsfläche geteilt durch \(\frac{1}{2}\), das ist dasselbe wie die Konzentrationsfläche mal zwei. Unser Gini-Koeffizient ist hier \(2\cdot 0.1772 = 0.3544\).

Alternative Berechnung per Formel

Der einfache Gini-Koeffizient lässt sich auch über eine kompakte Formel berechnen. Diese ist zwar kürzer, aber nicht so intuitiv. Sie lautet

\[ G = \frac{2 \sum_{i=1}^n i x_{(i)}}{n \sum_{i=1}^n x_{(i)}} – \frac{n+1}{n}, \]

wobei mit \(x_{(i)}\) das \(i\)-te Element der sortierten Daten gemeint ist – man muss die Werte also wieder zuerst aufsteigend sortieren.

Für unsere Beispieldaten von oben (die Werte \(x_1=3\), \(x_2=4\), \(x_3=5\), \(x_4=5\), und \(x_5=18\)) berechnen wir diese Formel am besten, indem wir zuerst die beiden Summen des ersten Bruchs als Zwischenergebnis ausrechnen:

  • \(\sum_{i=1}^n i x_{(i)} = 1\cdot 3 + 2 \cdot 4 + 3 \cdot 5 + 4 \cdot 5 + 5 \cdot 18 = 136\)
  • \(\sum_{i=1}^n x_{(i)} = 3 + 4 + 5 + 5 + 18 = 35\)

Diese Werte setzen wir (zusammen mit den übrigen Werten für \(n\)) in die Formel ein:

\[G=\frac{2\cdot 136}{5\cdot 35}-\frac{5+1}{5}=0.3543\]

Dieser Wert ist natürlich (bis auf einen Rundungsfehler) derselbe wie oben mit den Trapezen bestimmt.

Der normierte Gini-Koeffizient

Beim normierten Gini-Koeffizienten wird dem Phänomen Beachtung geschenkt, dass die „schlimmste“ Lorenzkurve, also die maximal mögliche Konzentrationsfläche nicht das gesamte Dreieck (vgl. die erste Abbildung) sein kann, sondern bei vollständiger Konzentration ein kleineres Dreieck ist. Für 5 Personen sieht die schlimmstmögliche Lorenzkurve so aus wie Abbildung (c) im obersten Bild dieses Artikels. Der einfache Gini-Koeffizient für diese schlimmstmögliche Lorenzkurve bei 5 betrachteten Einheiten ist aber nicht 1, sondern 0.8 (das kann man zur Übung selbst nachrechnen).

Der normierte Gini-Koeffizient wird nun so verändert, dass er tatsächlich Werte zwischen 0 und 1 annehmen kann. Es wird also die Konzentrationsfläche nicht durch \(\frac{1}{2}\) geteilt, sondern durch diese maximale Fläche, nämlich \(\frac{n-1}{2n}\). Diese Fläche ergibt sich, indem man von der ursprünglichen Fläche von \(\frac{1}{2}\) das jetzt fehlende Dreieck mit dem Flächeninhalt \(\frac{1}{2}\cdot 1\cdot \frac{1}{n}\) abzieht. Beim Ausrechnen ist es allerdings einfacher, nicht durch \(\frac{n-1}{2n}\) zu teilen, sondern mit dem Kehrwert \(\frac{2n}{n-1}\) zu multiplizieren.

Unser normierter Gini-Koeffizient ist \(\frac{2\cdot 5}{5-1} \cdot 0.1772 = 0.443\).

Wenn man übrigens sehr viele Beobachtungen hat, z.B. ganze Länder mit Millionen von Personen, macht dieser kleine Unterschied zwischen einfachem und normiertem Gini-Koeffizienten fast nichts aus. Das normieren ist aber wichtig bei z.B. 4 oder 5 Beobachtungen (wie es in Klausuren oft vorkommt).

Alternative Berechnung per Formel

Auch für den normierten Gini-Koeffizient existiert eine kompakte Formel. Wenn man zuerst den einfachen Gini-Koeffizienten \(G\) bestimmt hat, dann multipliziert man ihn nur mit \(\frac{n}{n-1}\), und erhält so den normierten Gini-Koeffizienten \(G^*\):

\[ G^* = \frac{n}{n-1} \cdot G \]

Für unser Beispiel ist der korrigierte Gini-Koeffizient

\[ G^* = \frac{5}{5-1} \cdot 0.3543 = 0.443, \]

und ist somit natürlich auch gleich dem oben bestimmten Wert dafür.

Lorenzkurve

Das Wichtigste in Kürze

Die grundlegende Frage, die durch die Lorenzkurve beantwortet wird, ist die folgende: Welcher Anteil der sortierten Grundgesamtheit besitzt welchen Anteil an der Merkmalssumme?

Um die Kurve zu zeichnen, benötigt man also eine Liste von Anteilen (das wird die \(x\)-Achse), und eine Liste der kumulierten Merkmalssummen, die diesen Anteilen gehören (das wird die \(y\)-Achse).

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Idee der Lorenzkurve

Die Lorenzkurve ist ein beliebtes grafisches Mittel, um so eine Ungleichmäßigkeit zu visualisieren. An ihr kann man ablesen, wie sehr eine Verteilung von einer völlig gerechten Gleichverteilung abweicht.

lorenz

Ist das eine gerechte Verteilung eines Einkommens auf fünf Personen, oder ist sie zu konzentriert?

Erstellen einer Lorenzkurve

Nehmen wir zur Vereinfachung ein Land mit 5 Einwohnern an. Die fünf Personen verdienen 3€, 4€, 5€, 5€ bzw. 18€. Zugegeben, das ist ein sehr kleines Land mit sehr niedrigem Lohn—aber wir möchten es ja einfach halten. Wir möchten nun für diese Einwohner und ihre Einkommensverteilung eine Lorenzkurve bilden.

Zuerst müssen dazu die Merkmalsausprägungen der Einheiten nach der Größe sortiert werden. Das weitere Vorgehen wird anhand der folgenden Tabelle Zeile für Zeile gezeigt.

Einheit \(i\) Einheit 1 Einheit 2 Einheit 3 Einheit 4 Einheit 5
Einkommen 3 4 5 5 18
Aufsummiertes Einkommen 3 7 12 17 35
Anteil an der Gesamtsumme (\(y\)-Achse) 0.086 0.2 0.343 0.486 1
Prozent der Ärmsten (\(x\)-Achse) 20% 40% 60% 80% 100%

Zeile für Zeile werden hier die benötigten Punkte für die Lorenzkurve erstellt. In der Konzentrationsmessung dreht sich alles um die sogenannte Merkmalssumme, die in unserem Beispiel das gesamte aufsummierte Einkommen, also 35€ ist (die lila Zelle). In der ersten Zeile steht das tatsächliche Einkommen der jeweiligen Person.

In der zweiten Zeile wird nun Stück für Stück das Einkommen aufsummiert. Für Einheit 3 steht hier z.B. die bisherige Teilsumme von 3€ + 4€ + 5€, also 12€. In der letzten Zelle dieser Zeile sieht man die gesamte Merkmalssumme. Es werden also die kumulierten Häufigkeiten gebildet. Die dritte Zeile ist nichts anderes als die zweite Zeile, geteilt durch die gesamte Merkmalssumme. Hier sieht man also, welcher Anteil des gesamten Einkommens jeweils auf einen Anteil der Bevölkerung abfällt. Diese Zeile wird die \(y\)-Achse in der Lorenzkurve. Die \(x\)-Achse ist in der letzten Zeile abgebildet; sie ist der jeweilige Anteil der Bevölkerung \(\frac{i}{n}\), also bei fünf Einheiten 20%, 40%, 60%, 80% und 100%.

Um die Lorenzkurve zu zeichnen, werden nun einfach diese Punkte in einen Graphen gezeichnet. In der folgenden Abbildung sind die schwarzen Punkte genau die, die aus der oberen Tabelle hervorgehen.

lorenzkurve

Eine mögliche Lorenzkurve für Einkommensdaten. Die gestrichelte Linie ist die „Gerade der perfekten Gleichverteilung“. Hätte jedes Merkmal den gleichen Anteil, würde die Lorenzkurve nämlich genau auf dieser Geraden liegen. Man liest die tatsächliche Kurve am Beispiel der gepunkteten Linie folgendermaßen ab: „Die ärmsten 80% der Bevölkerung haben 48.6 Prozent des gesamten Einkommens“ (Der genaue Wert stammt aus der Tabelle oben). Umgekehrt kann man dann natürlich über die reichsten 20% der Bevölkerung sagen, dass sie 51.4 Prozent des Einkommens haben.

Eine perfekte Gleichverteilung, wenn also jede Person das gleiche Einkommen hätte, wird in der Lorenzkurve durch eine Gerade vom Punkt (0,0) zu (1,1) dargestellt. In der obigen Abbildung ist diese Gerade durch eine gestrichelte Linie eingezeichnet. Hier könnte man ablesen, dass die ärmsten 20% genau 20% des Einkommens hätten, usw.—wobei es bei einer absolut fairen Gleichverteilung ja eigentlich keine „ärmsten“ 20% gibt. Die entsprechende (nicht sehr spannende) Lorenzkurve ist in Kurve (d) unten dargestellt.

Das andere Extrem wäre eine Verteilung, bei der eine einzelne Person das komplette Einkommen hätte, und alle anderen gar nichts. Diese Lorenzkurve sieht man in der Kurve (c) unten.

vierlorenzkurven

Vier beispielhafte Lorenzkurven. Kurve (a) ist eine übliche Kurve, die wir oben schon gesehen haben. Kurve (b) ist etwas unfairer, hier sind 60% (also drei von fünf) der Einwohner noch sehr arm. Kurve (c) ist für fünf Personen das unfairste Extrem, da 80% der Personen (vier von fünf) gar nichts besitzen. Kurve (d) ist die fairste Lorenzkurve, nämlich eine Gerade vom Punkt (0,0) zum Punkt (1,1).

Mathematische Definition der Lorenzkurve

Wenn man seine Studenten ärgern möchte, definiert man die Lorenzkurve so:

Für gegebene Daten \(x_j, j=1,\ldots,n\) bestimmt man die Punkte \((u_j, v_j)\) der Lorenzkurve durch
\[ \begin{align*} u_j & = \frac{j}{n} \\ v_j & = \frac{\sum_{i=1}^j x_{(i)}}{\sum_{i=1}^n x_{(i)}} \end{align*} \]

Das ist eine zunächst unverständliche, aber kurze Zusammenfassung der Tabelle im vorherigen Beispiel. Die Punkte \(u_j\) sind die summierten Anteile, also die \(x\)-Achse, und die Punkte \(v_j\) die Anteile der Merkmalssumme (im Zähler steht die bisherige Summe bis zum \(j\)-ten Punkt, und im Nenner die gesamte Merkmalssumme)—also die \(y\)-Achse.

Es gibt übrigens noch eine stetige Variante der Lorenzkurve. Die ist allerdings relativ kompliziert über Integrale zu berechnen, und wird daher in Einführungsveranstaltungen zur Statistik meist nicht behandelt.

Streuungsparameter: Spannweite, Quartilsabstand, Varianz, Standardabweichung

Meist reicht ein Lageparameter als Zusammenfassung einer Datenreihe nicht aus, und man wünscht sich mehr Information. Streuungsparameter sind nun ein Maß dafür, wie sehr die Daten um einen Mittelwert schwanken. Auch hier gibt es verschiedene Möglichkeiten, solche Kennziffern zu berechnen. In der Praxis wird allerdings meist die Varianz bzw. ihre Wurzel, die Standardabweichung benutzt.

Da (zumindest die gebräuchlichen) Streuungsparameter in ihrer Definition immer irgendwo eine Differenz beinhalten, kann man sie nur für numerische Daten bestimmen, also diskrete oder stetige Zahlen. Bei einem nominal- oder ordinalskalierten Merkmal ist das nicht möglich.

Das Wichtigste in Kürze

Für gemessene Daten \(x_1, x_2, \ldots, x_n\):

Spannweite:
\[ x_\text{max} – x_\text{min} \]
Interquartilsabstand:
\[ x_{0.75} – x_{0.25} \]
Varianz:
  • In einer Stichprobe (meistens der Fall) kann man die folgenden zwei äquivalenten Formeln verwenden:
    \[ \begin{align*} s^2 & = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 \\ s^2 & = \left( \frac{1}{n-1}\sum_{i=1}^n x_i^2 \right)-\frac{n}{n-1}\bar{x}^2\end{align*}\]
  • In einer Vollerhebung oder wenn der wahre Mittelwert \(\mu\) bekannt ist (selten der Fall) verwendet man eine dieser beiden Formeln:
    \[ \begin{align*} \tilde{s}^2 & = \frac{1}{n} \sum_{i=1}^n (x_i-\mu)^2 \\ \tilde{s}^2 &= \left( \frac{1}{n}\sum_{i=1}^n x_i^2 \right)-\mu^2 \end{align*} \]
Standardabweichung:
  • In einer Stichprobe: \(s = \sqrt{s^2}\)
  • In einer Vollerhebung oder bei bekanntem Mittelwert: \(\tilde{s} = \sqrt{\tilde{s}^2}\)
Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Spannweite und Quartilsabstand

Die Spannweite einer Datenreihe ist definiert als der Abstand zwischen dem
Maximum und dem Minimum dieser Daten:

spannweite

Man sucht also in den Daten nach dem Maximum und dem Minimum, und zieht das Minimum vom Maximum ab—so erhält man die Spannweite. Das ist ein sehr einfaches Streuungsmaß, aber unglaublich anfällig für Ausreißer (was in der Statistik meist unerwünscht ist). Daher betrachtet man auch den Interquartilsabstand, der ein bisschen dagegen hilft; er ist der Abstand zwischen dem 75%-Quantil und dem 25%-Quantil:

interquartilsabstand

Hier muss man also das 75%-Quantil (\(x_{0.75}\)) und das 25%-Quantil (\(x_{0.25}\)) berechnen, und erhält den Interquartilsabstand durch \( x_{0.75}-x_{0.25} \). Im oberen Bild mit \(n=10\) Datenpunkten ist das 25%-Quantil bestimmt als \(x_{0.25}=x_{(\lfloor np \rfloor + 1)} = x_{(3)}\), und das 75%-Quantil analog als \(x_{(8)}\). Die tatsächlichen Werte der Datenpunkte sind hier nicht berücksichtigt, aber wir nehmen immer den dritten und achten Wert der sortierten Daten.

Den Interquartilsabstand interessiert es nun nicht, ob die „äußeren“ Daten (also \(x_{(1)}\), \(x_{(2)}\), \(x_{(9)}\) und \(x_{(10)}\)) Ausreißer sind oder nicht, also wenn man sie weiter nach aussen verschieben würde.

Varianz und Standardabweichung

Für die Varianz einer Reihe von Daten gibt es dummerweise zwei ähnliche, aber verschiedene Formeln. Zu allem Übel gibt es für die beiden Formeln keine einheitliche Bezeichnung. Welche man verwendet, hängt von der Art der Daten ab, die man ansieht.

Die Idee hinter der Varianz ist grob ausgedrückt die folgende: Man will wissen, wie weit die Daten \((x_1, x_2, \ldots, x_n)\) normalerweise vom Mittelwert \(\mu\) abweichen—das ist die Distanz \((x_i-\mu)\). Dabei ist egal, ob die Abweichung nach oben oder nach unten ist, daher quadriert man die Distanz (Man könnte hier natürlich auch den Betrag der Distanz statt dem Quadrat nehmen. Allerdings macht es später vieles einfacher, wenn wir das Quadrat nehmen, z.B. die Maximum-Likelihood-Schätzung oder die Regression. So gesehen ist es rein willkürlich, dass man den quadratischen Abstand verwendet.): \((x_i-\mu)^2\). Und genau aus diesem quadratischen Abstand wird nun der Mittelwert über alle Daten, d.h. alle \(x_i\) gebildet: \(\frac{1}{n} \sum_{i=1}^n (x_i-\mu)^2\).

Ist der wahre Mittelwert der Daten bekannt, benutzt man die empirische Varianz, \(\tilde{s}^2\). Wenn die Daten die komplette Grundgesamtheit widerspiegeln, ist dies der Fall, da man den wahren Mittelwert ja ausrechnen kann, wenn einem alle Daten zur Verfügung stehen. Die empirische Varianz ist für eine Datenreihe \(x_1, x_2, \ldots, x_n\) und deren Mittelwert \(\mu\) folgendermaßen bestimmt:
\[ \tilde{s}^2 = \frac{1}{n} \sum_{i=1}^n (x_i-\mu)^2 \]

Meistens ist der wahre Mittelwert der unterliegenden Grundgesamtheit allerdings nicht bekannt, und man benutzt stattdessen den Mittelwert der Stichprobe (Vorsicht: Das sind zwei verschiedene Dinge: Der wahre Mittelwert ist ein fester Wert und ändert sich innerhalb der Grundgesamtheit nie, aber das Stichprobenmittel ist im Allgemeinen für jede Stichprobe ein anderer). Man bestimmt also, wie sehr die Daten um das Stichprobenmittel streuen, und nicht, wie stark sie um den wahren Mittelwert streuen. In diesem Fall, der eigentlich so gut wie immer gegeben ist, betrachtet man die (korrigierte) Stichprobenvarianz \(s^2\), die folgendermaßen bestimmt ist:
\[ s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 \]

Der Unterschied zu der empirischen Varianz \(\tilde{s}^2\) ist, dass in der Summe jeweils das Stichprobenmittel \(\bar{x}\) abgezogen wird, und dass vor der Summe durch \(n-1\) statt \(n\) geteilt wird. Für größere Stichproben wird der Unterschied zwischen \(s^2\) und \(\tilde{s}^2\) immer kleiner, da für sehr grosse \(n\) erstens der Unterschied zwischen \(n\) und \(n-1\) nicht mehr so wichtig ist, und zum anderen das Stichprobenmittel \(\bar{x}\) immer näher an den wahren Mittelwert \(\mu\) der Grundgesamtheit kommt (Der Grund für dieses Verhalten ist das Gesetz der großen Zahlen, das wir uns später noch anschauen werden).

Die Berechnung der Varianz mit dem Taschenrechner ist ziemlich nervig. Als kleine Hilfestellung dafür gibt es den sogenannten Verschiebungssatz. Nach ihm kann man die Formel der empirischen bzw. Stichproben-Varianz folgendermaßen umschreiben:

\[ \begin{array}{rclcl} \tilde{s}^2 & = & \frac{1}{n} \sum_{i=1}^n (x_i-\mu)^2 & = & \left( \frac{1}{n}\sum_{i=1}^n x_i^2 \right)-\mu^2 \\ s^2 & = & \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 & = & \left( \frac{1}{n-1}\sum_{i=1}^n x_i^2 \right)-\frac{n}{n-1}\bar{x}^2 \end{array} \]

Die jeweils rechte Seite der Gleichung ist nun die neue Formel. Sie ist bei der Berechnung von Hand angenehmer, weil man nicht erst den Mittelwert ausrechnen muss. Außerdem hat die zweite Formel den Vorteil, dass sie nicht nochmal komplett von vorne berechnet werden muss, wenn ein neuer Datenpunkt zu den Daten dazukommt. Man kann dann nämlich zur gesamten Summe der \(x_i\) und \(x_i^2\) den neuen Wert einfach addieren, und \(n\) um eins erhöhen. In der alten Formel müsste man jede Teilsumme \((x_i-\bar{x})^2\) nochmal ausrechnen, da sich ja durch den neuen Datenpunkt das Stichprobenmittel \(\bar{x}\) bzw. der Erwartungswert \(\mu\) verändert hat.

Die Standardabweichung einer Datenreihe ist einfach die Wurzel aus der Varianz. Je nachdem, welche Formel man für die Varianz verwendet hat (wie gesagt, meistens ist es die Stichprobenvarianz, die durch \(n-1\) teilt), ist die Standardabweichung \(s\) entweder \(\sqrt{s^2}\) oder \(\sqrt{\tilde{s}^2}\).

Beispielaufgabe

Schauen wir uns Beispieldaten eines diskreten Merkmals für 7 Personen an. Wir berechnen für diese Datenreihe die Spannweite, den Interquartilsabstand, und die Varianz und Standardabweichung.

Person A B C D E F G
Merkmal 3 2 0 5 1 4 4

Für Spannweite und Interquartilsabstand brauchen wir zuerst wieder die sortierten Daten:

geordnetes Merkmal 0 1 2 3 4 4 5

Die Spannweite ist also \(5-0=5\).

Für den Interquartilsabstand berechnen wir zuerst

  • \(x_{(0.25)} = x_{(\lfloor np \rfloor +1)} = x_{(\lfloor 7\cdot 0.25 \rfloor +1)} = x_{(2)} = 1\) und
  • \(x_{(0.75)} = x_{(\lfloor np \rfloor +1)}= x_{(\lfloor 7\cdot 0.75 \rfloor +1)} = x_{(6)} = 4\).

(Die Klammern \(\lfloor\) und \(\rfloor\) bedeuten hier Abrunden)

Der Interquartilsabstand ist nun \(x_{0.75}-x_{0.25}=4-1=3\).

Die Varianz geht ein bisschen mühsamer, aber einfach nach Formel. Nachdem wir den Mittelwert \(\bar{x}=2.714\) berechnet haben:
\[ \begin{align*} s^2 = & \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 \\ = &\frac{1}{6} \cdot [ (3-2.714)^2 + (2-2.714)^2 + (0-2.714)^2 + \\ & (5-2.714)^2 + (1-2.714)^2 + (4-2.714)^2 + (4-2.714)^2 ] \\ =& 3.238 \end{align*} \]

Die Standardabweichung ist nun einfach \(\sqrt{s^2} = \sqrt{3.238} = 1.799\).

Lageparameter: Mittelwert, Median, Modus

Das Wichtigste in Kürze

Lageparameter beschreiben grob gesagt, wo auf einer Skala sich die Daten befinden. Dabei gibt es verschiedene Methoden der Berechnung, die für verschiedene Merkmalstypen mehr oder weniger Sinn machen. Eine kurze Übersicht sieht man in der Tabelle unten. Da der Median ein bestimmtes Quantil ist (nämlich das 50%-Quantil), sind die beiden Spalten gleich. Mit „Diskret“ sind in dieser Tabelle Zähldaten wie etwa die Kinderzahl gemeint.

Modus Median Quantile Mittelwert
Nominal ja nein nein nein
Ordinal ja ja ja nein
Diskret ja ja ja ja
Stetig klassiert ja ja ja nein
Stetig nein ja ja ja
Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Arithmetischer Mittelwert

Der arithmetische Mittelwert (oft auch „arithmetisches Mittel“ oder nur „Mittelwert“ genannt) ist der bekannteste Lageparameter. Er wird gebildet, indem man alle Ausprägungen aufsummiert und durch die Gesamtzahl von Ausprägungen teilt. Für die Beobachtungen \(x_1, x_2, \ldots, x_n\) sieht das arithmetische Mittel \(\bar{x}\) folgendermaßen aus:
\[ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i \]

Angenommen, wir befragen 7 Familien nach der Kinderzahl im Haushalt und bekommen folgende Antworten:

Familie Weber Kaiser Kandl Nöbauer Sturm Baumann Dürr
Merkmal \(x_1\) \(x_2\) \(x_3\) \(x_4\) \(x_5\) \(x_6\) \(x_7\)
Kinder 1 2 6 1 1 3 2

Der Mittelwert berechnet sich demnach zu \(\frac{1}{7}(1+2+6+1+1+3+2) = 2.2857\).

Median

Der Median ist der Wert, der die Daten in zwei gleich große Hälften teilt. Genauer gesagt ist es der Wert, für den mindestens die Hälfte der Daten kleiner oder gleich dem Median, und mindestens die Hälfte der Daten größer oder gleich dem Median sind. Warum man das so kompliziert formulieren muss, sehen wir gleich am folgenden Beispiel.

Schauen wir uns nochmal die Kinderzahlen an, um die es beim arithmetischen Mittel schon ging. Um für diese Daten den Median von Hand zu bestimmen, müssen wir die Merkmalsausprägungen zuerst aufsteigend in eine sogenannte geordnete Urliste sortieren:

Merkmal \(x_{(1)}\) \(x_{(2)}\) \(x_{(3)}\) \(x_{(4)}\) \(x_{(5)}\) \(x_{(6)}\) \(x_{(7)}\)
Kinder 1 1 1 2 2 3 6

Wenn der Index—wie hier—in Klammern steht, handelt es sich immer um sortierte Daten.

Nun brauchen wir eine Zahl (das muss, genau wie beim Mittelwert, nicht unbedingt eine Merkmalsausprägung aus der Datenreihe sein), für die mindestens die Hälfte der Daten größer/gleich diesem Wert sind, und mindestens die Hälfte kleiner/gleich.

Würden wir die Zahl 1 nehmen, sind \(\frac{3}{7}\), also ca. 43% der Daten kleiner/gleich der 1, und 100% der Daten größer/gleich der 1. Hätten wir z.B. die Zahl 1.5 gewählt, wären immer noch 43% der Daten kleiner/gleich der 1.5, aber jetzt sind nur noch \(\frac{4}{7}\), also ca. 57\% der Daten größer/gleich der 1.5. Nehmen wir jetzt die Zahl 2 als möglichen Median. Es sind nun \(\frac{5}{7}\), also ca 71% kleiner/gleich der 2, und \(\frac{4}{7}\), also ca. 57% größer/gleich der 2. Wir haben unseren Median gefunden.

Der Median ist übrigens ein robuster Lageparameter, da er auf Ausreißer in den Daten nicht so stark reagiert wie z.B. der Mittelwert. Falls die Familie Kandl einen unerwarteten Kinderschub bekommt, könnte unsere Urliste auf einmal wie folgt aussehen:

Merkmal \(x_{(1)}\) \(x_{(2)}\) \(x_{(3)}\) \(x_{(4)}\) \(x_{(5)}\) \(x_{(6)}\) \(x_{(7)}\)
Kinder 1 1 1 2 2 3 127

Das ist natürlich eine etwas optimistische Kinderplanung. Aber der wichtige Punkt ist dieser: Der Mittelwert ist jetzt 19.57, aber der Median ist immer noch 2.

Mit Hilfe der Schreibweise \(x_{(i)}\) für sortierte Daten lässt sich der Median nun sehr leicht mathematisch hinschreiben:

\[ x_\mathrm{med} = \begin{cases} x_{(\frac{n+1}{2})} & n \text{ ungerade}\\ \frac{1}{2} (x_{(\frac{n}{2})} + x_{(\frac{n}{2}+1)}) & n \text{ gerade} \end{cases} \]

Die zweiteilige Definition ist deswegen notwendig, weil wir bei einer ungeraden Anzahl von Daten einfach den „mittleren“ Datenpunkt nehmen können—bei fünf Datenpunkten also einfach den dritten (die Grafik unten klärt das vielleicht). Falls wir eine gerade Anzahl von Datenpunkten (z.B. vier) haben, gibt es keinen direkten „mittleren“ Punkt, und wir müssen den Mittelwert aus den „beiden mittleren“ (z.B. dem zweiten und dritten Punkt) bilden.

median-gerade

median-ungerade

Der Median einer Datenreihe mit einer ungeraden bzw. geraden Anzahl von Elementen. Bei einer ungeraden Anzahl gibt es ein „mittleres“ Element, nämlich das \(\frac{n+1}{2}\)-te Element \(x_{(\frac{n+1}{2})}\). Bei einer geraden Anzahl bildet man den Mittelwert zwischen den zwei Elementen in der Mitte, dem \(\frac{n}{2}\)-ten und dem \((\frac{n}{2}+1)\)-ten Element: \(\frac{1}{2}(x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)})\)

Modus

Der Modus oder Modalwert ist nur für nicht-stetige Daten definiert. Er ist die Ausprägung, die in der Stichprobe am häufigsten gezählt wurde. Für unsere Stichprobe zur Kinderanzahl ist der Modus also 1, da drei Familien ein Kind haben. Kein allzu großes Geheimnis.

Beispielaufgabe

Schauen wir uns Beispieldaten eines diskreten Merkmals für 7 Personen an. Wir berechnen für diese Datenreihe den Mittelwert, Median, Modus, und das 75%-Quantil.

Person A B C D E F G
Merkmal 3 2 0 5 1 4 4

Der Mittelwert berechnet sich zu \(\frac{1}{7}(3+2+0+5+1+4+4) \approx 2.714\). Für den Median ordnen wir unsere Daten. Da \(n\) ungerade ist, können wir direkt das mittlere, vierte Element in der geordneten Liste verwenden:

geordnetes Merkmal 0 1 2 3 4 4 5

Der Median ist also 3. Der Modus ist 4, da diese Ausprägung am häufigsten (zweimal) vorkommt.

Zum 75%-Quantil: Wir wollen also einen Wert bestimmen, der die Daten so aufteilt, dass mindestens 75% kleiner/gleich und mindestens 25% größer/gleich diesem Wert sind. Diese Datenreihe kann man nicht genau in 75% und 25% aufteilen, d.h. \(np\) ist keine ganze Zahl. Über die Formel \(x_{(\lfloor np \rfloor + 1)}\) kommen wir zu \(x_{(5+1)}\), also dem sechsten Wert in der geordneten Liste, nämlich 4.

Quantile

Quantile (oder genauer gesagt \(p\)-Quantile) sind Werte, die eine Menge von \(n\) Datenpunkten in zwei Teile spalten, und zwar so, dass mindestens ein Anteil \(p\) kleiner oder gleich dem \(p\)-Quantil ist, und mindestens ein Anteil \(1-p\) größer oder gleich dem \(p\)-Quantil.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Man bezeichnet Quantile entweder durch den Anteil \(p\), oder durch eine Prozentzahl, die allerdings dasselbe aussagen. Ein 0.2-Quantil ist dasselbe wie ein 20%-Quantil.

Wer jetzt aufgepasst hat, dem könnte die Definition vielleicht bekannt vorkommen. Der Median ist nämlich nichts anderes als das 50%-Quantil (oder das 0.5-Quantil). Die Quantile können die Daten jetzt aber nicht nur in zwei gleiche Hälften, sondern beliebig aufteilen. Das 0.2-Quantil etwa teilt die Daten in die niedrigen 20% und die hohen 80%. Hierbei steht das \(p\) für die 20% (also die 0.2), und \(1-p\) sind 0.8, also die verbleibenden 80%.

In manchen Fällen kann man die Daten genau in zwei Anteile \(p\) und \(1-p\) aufteilen, wenn man etwa das 20%-Quantil einer Datenreihe mit 5 Elementen bilden will. Dann ist der untere \(p\)-Anteil—also die unteren 20%—durch das erste Element gegeben, und der obere Anteil durch die restlichen, größten vier Elemente. In diesem Fall kann das 0.2-Quantil jeden Wert zwischen dem ersten und zweiten Element annehmen.

quantile-gerade

quantile-gerade

Bestimmung eines 20%-Quantils für die beiden Spezialfälle: Oben ist \(n\cdot p\) ganzzahlig (\(n=5\) Beobachtungen und \(p=0.2\), und das Quantil liegt theoretisch „irgendwo“ zwischen dem ersten und zweiten Punkt. In der Praxis wird meist der Mittelwert zwischen den beiden Punkten genommen. Im unteren Bild ist \(n\cdot p\), also \(6\cdot 0.2\), nicht ganzzahlig, und das Quantil fällt genau auf den zweiten Wert.

Es gibt ein paar verschiedene Methoden, in diesem Fall einen festen Wert für das Quantil zu bestimmen. Meist nimmt man einfach den Mittelwert der beiden anliegenden Punkte. Das haben wir ja beim Median schon so gemacht.

Meistens ist die Situation allerdings ein bisschen anders, und aufgrund der Anzahl der Daten kann man nicht genau einen Anteil \(p\) der Daten abkapseln. Wie bestimmt man zum Beispiel das 20%-Quantil von 6 Daten? Hier merkt man, warum das Quantil so seltsam definiert ist: Wenn wir nämlich das 20%-Quantil als genau das zweite Element festlegen, dann sind \(\frac{2}{6}\), also 33% der Daten kleiner oder gleich diesem Quantil, und \(\frac{5}{6}\), also 83% der Daten größer oder gleich dem Quantil.

Der Spezialfall, in dem man genau einen Anteil \(p\) der Daten bestimmen kann, ist genau dann gegeben, wenn \(n\cdot p\) ganzzahlig ist. In unserem Beispiel mit fünf Datenpunkten und \(p=0.2\) war das der Fall. Die andere Situation, in der wir einen Datenpunkt als Quantil bestimmen, ist gegeben wenn \(n\cdot p\) nicht ganzzahlig ist. Formal wird ein \(p\)-Quantil als \(x_p\) geschrieben, und ist folgendermaßen definiert:

\[ x_p = \begin{cases} \frac{1}{2} (x_{(np)} + x_{(np+1)}) & np \text{ ganzzahlig}\\ x_{(\lfloor np \rfloor +1)} & np \text{ nicht ganzzahlig} \end{cases} \]

Die Klammern \(\lfloor np \rfloor\) bedeuten dabei, dass die Zahl \(np\) auf die nächste ganze Zahl abgerundet wird. Wem das noch ein bisschen kryptisch erscheint, kann ja mit Hilfe der Abbildung oben mal die 20%-Quantile durch diese Formel bestimmen.

Häufigkeitstabellen

Häufigkeitstabellen fassen Daten in einer Tabelle zusammen, die für jede mögliche Ausprägung zeigt, wie oft diese Ausprägung vorgekommen ist. Diese Tabellen sind nur für diskrete Daten sinnvoll, da bei stetigen Daten jede Beobachtung einen anderen Wert hat, und die Tabelle dann nichts zusammenfassen würde. Bei gruppierten stetigen Daten kann aber eine Tabelle erstellt werden.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Häufigkeitstabellen sind meist ein erster Schritt in der Datenanalyse, da sie die Grundlage für z.B. Balkendiagramme, Lorenzkurven oder Verteilungsfunktionen bilden.

Man unterscheidet absolute und relative Häufigkeiten. Absolute Häufigkeiten bezeichnet man für die verschiedenen Ausprägungen mit \(h_i\). Sie sind einfach die ausgezählten Daten für jede Ausprägung. Relative Häufigkeiten, die wir \(f_i\) nennen, sind die Anteile, die auf jede Ausprägung fallen.

Dann gibt es noch kumulierte Häufigkeiten, die wir \(F_i\) nennen. In ihr werden die relativen Häufigkeiten aufsummiert. Die kumulierte Häufigkeitstabelle wird meist nur mit relativen Häufigkeiten gebildet—mit absoluten Häufigkeiten findet sie eigentlich nirgends Verwendung. Ein Beispiel veranschaulicht das wahrscheinlich am besten.

Wir packen einen Block und einen Bleistift ein, und machen uns auf den Weg zum Campus, um 80 Studenten zu befragen. Uns interessiert, in welchem Semester sie sich so befinden. Da gerade Wintersemester ist, erwarten wir mehr Studenten in „ungeraden“ Semestern, also im ersten, dritten, etc.

Nach einem anstrengenden Tag zählen wir die Daten aus. 20 unserer 80 befragten Studenten—also ein Viertel—sind im ersten Semester. Die restlichen Antworten sind in der folgenden Tabelle zusammengefasst. Die Zeile \(h_i\) zeigt die absolute Anzahl an Antworten für jede Semesterzahl (von 1 bis 7). In der Zeile \(f_i\) ist die relative Häufigkeit, also die Zeile \(h_i\) geteilt durch \(n=80\). In der letzten Zeile ist die kumulierte Häufigkeit \(F_i\); hier werden die Elemente der Zeile \(f_i\) schrittweise aufsummiert.

Semester \(i\) 1 2 3 4 5 6 7
\(h_i\) 20 4 13 9 21 5 8
\(f_i\) 0.25 0.05 0.1625 0.1125 0.2625 0.0625 0.1
\(F_i\) 0.25 0.3 0.4625 0.575 0.8375 0.9 1