Archiv der Kategorie: Allgemein

Stetige Gleichverteilung: Wartezeit auf den Bus

Idee

Die stetige Gleichverteilung ist quasi eine Verallgemeinerung der diskreten Gleichverteilung. Während bei der diskreten Gleichverteilung jede ganze Zahl zwischen a und b möglich ist (beim Würfelwurf ist z.B. a=1 und b=6), so ist bei der stetigen Gleichverteilung nun jede reelle Zahl im Intervall von a bis b ein mögliches Ergebnis.

Ein einleuchtendes Beispiel für eine stetig gleichverteilte Zufallsvariable ist die Wartezeit auf einen Bus. Wenn ich weiß, dass der Bus alle 10 Minuten abfährt, aber den Fahrplan nicht im Kopf habe, sondern einfach an die Haltestelle laufe, dann folgt meine Wartezeit an der Haltestelle einer stetigen Gleichverteilung zwischen a=0 und b=10 Minuten. Hier ist nun jede reelle Zahl als Wartezeit möglich, z.B. auch 4.325 Minuten. Durch die Modellierung der Wartezeit als stetige Gleichverteilung kann ich nun zum Beispiel die durchschnittliche Wartezeit sowie ihre Varianz berechnen.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Parameter

Die stetige Gleichverteilung hat zwei Parameter, a und b. Das sind die Intervallgrenzen. Es ist also a das kleinste mögliche Ergebnis der Zufallsvariablen, und b das größte mögliche. Eine Zufallsvariable X, die stetig gleichverteilt ist, bezeichnet man durch

XU(a,b)

Das U kommt aus dem Englischen „uniform“, denn die Gleichverteilung heißt dort uniform distribution. Die Wartezeit in Minuten auf den nächsten Bus bezeichnet man etwa durch XU(0,10).

Träger

Aus der Beschreibung der Parameter geht hervor, dass der Träger der stetigen Gleichverteilung genau das Intervall [a,b] ist. Der Träger ist also T=[a,b]. An der Bushaltestelle sind so alle Wartezeiten zwischen 0 und 10 Minuten denkbar.

Dichte

Die Dichte setzt sich aus zwei Teilen zusammen: Außerhalb des Intervalls von a bis b ist sie überall 0, und innerhalb des Trägers [a,b] ein gleichbleibender (konstanter) Wert, der abhängig von der Breite des Intervalls ist.

Der Wert der Dichte innerhalb des Intervalls ist f(x)=1ba. Dadurch wird sichergestellt, dass die gesamte Fläche unter der Dichtefunktion 1 ergibt.

Außerhalb des Intervalls [a,b] ist die Dichte überall null. Und damit gelangt man zur zweiteiligen Definition der Dichte:

f(x)={1bafalls axb0sonst

Der y-Wert der Dichtefunktion an der Stelle x ist also, falls x zwischen a und b liegt, gleich 1ba, und für alle anderen x gleich null.

 

a

Die Dichte der stetigen Gleichverteilung mit a=0 und b=10. Sie ist überall null, und im Bereich von 0 bis 10 gleich 110.

Verteilungsfunktion

Die Verteilungsfunktion ist nun dreiteilig definiert: Links von der unteren Grenze a ist sie überall null, da die Wahrscheinlichkeit, dass X einen Wert kleiner als a annimmt, null ist: P(Xa)=0. Rechts von der oberen Grenze b ist sie konstant 1, da auf jeden Fall ein Wert kleiner oder gleich b herauskommt: P(Xb)=1.

Die Verteilungsfunktion aus dem Beispiel der Wartezeit auf den Bus sieht wie folgt aus:

b

Die Verteilungsfunktion der stetigen Gleichverteilung, hier mit a=0 und b=10.

Innerhalb des Intervalls von a bis b ist die Verteilungsfunktion eine gerade Linie von 0 bis 1. In einer Formel drückt man diese Linie durch xaba aus. Der Nenner ist hier an jeder Stelle von x eine Konstante. Der Zähler ist an der Stelle x=a genau null, und wird dann in Richtung b immer größer.

Das führt zu einer dreiteiligen Definition der Verteilungsfunktion:

F(x)={0falls x<axabafalls axb1falls x>b

Bei der Wartezeit auf den Bus, mit a=0 und b=10, können wir also zum Beispiel die folgenden Werte ablesen:

  • Die Wahrscheinlichkeit, dass wir weniger als -2 Minuten warten, ist null: P(X2)=F(2)=0. Wir warten also auf jeden Fall eine positive Zeit (das macht auch Sinn).
  • Die Wahrscheinlichkeit, dass wir maximal 3 Minuten warten, berechen wir durch P(X3)=F(3)=30100=0.3. Wir warten also mit einer 30-prozentigen Wahrscheinlichkeit weniger als 3 Minuten.
  • Umgekehrt warten wir mit einer 70-prozentigen Wahrscheinlichkeit mehr als 3 Minuten, denn P(X>3)=1P(X3)=10.3=0.7.
  • Wie im allgemeinen Artikel zu stetigen Zufallsvariablen beschrieben, können wir auch die Wahrscheinlichkeit berechnen, zwischen 3 und 5 Minuten auf den Bus zu warten. Das ist nämlich P(3<x5)=P(x5)P(x3)=F(5)F(3)=0.50.3=0.2.
  • Die Wahrscheinlichkeit, dass wir höchstens 30 Minuten warten, ist 1, denn der Bus kommt alle 10 Minuten (wir modellieren hier keine außergewöhnlichen Verspätungen): P(X30)=F(30)=1.

Erwartungswert

Der Erwartungswert bei der Gleichverteilung ist genau die Mitte zwischen a und b:

E(X)=a+b2

Auf den Bus, der alle zehn Minuten kommt, warten wir also durchschnittlich 0+102=5 Minuten.

Varianz

Die Varianz berechnet sich zu

V(X)=112(ba)2

 

 

Das Produktzeichen und Rechenregeln

Das Pendant zum Summenzeichen Σ für die Multiplikation ist das Produktzeichen Π, ein großes Pi. Mit diesem Zeichen kann man Multiplikationen über viele Variablen zusammenfassen. Diese Notation sieht für Nicht-Mathematiker auf den ersten Blick immer etwas furchteinflößend aus, aber wenn man versteht, dass es einfach nur eine Abkürzung für eine längere Formel ist, kommt man gut mit dieser Schreibweise zurecht.

Statt ausführlich 12345 zu schreiben, kann man nämlich einfach eine Zählvariable i von 1 bis 5 laufen lassen, und diese Zählvariablen multiplizieren:

i=15i=12345

Diese Notation ist übrigens äquivalent zur Fakultät von 5. Es ist also x!=i=1xi.

Wenn man nicht über Ganzzahlen, sondern z.B. gemessene Daten x1,x2,x3,x4,x5 multiplizieren möchte, kann man auch über den Index der Variablen x laufen:

i=15xi=x1x2x3x4x5

Die Variable hinter dem Π ist jetzt nicht mehr nur ein i, sondern ein Datenpunkt xi. Man muss sich merken, dass der Index, der unter dem Π steht, eine Zählvariable ist, die in diesem Fall von 1 bis 5 läuft. Wenn man genau diesen Index i multiplizieren will, dann steht eben nur ein i nach dem Π, aber wenn man Datenpunkte xi muliplizieren will, dann ersetzt man das i durch ein xi.

Da sich hinter dem Produktzeichen eine ganz normale Multiplikation verbirgt, gelten dafür dieselben Rechenregeln wie für die normale Multiplikation:

  1. Nach dem Distributivgesetz kann man bei der Multiplikation die Reihenfolge der Faktoren vertauschen. Es gilt also z.B. x1y1x2y2=x1x2y1y2. Genauso gilt das Distributivgesetz auch mit dem Produktzeichen:
    i=1n(xiyi)=i=1nxii=1nyi Wenn man diese Formel anhand eines kurzen Beispielfalls ausschreibt, sieht man, dass hier tatsächlich nur die Reihenfolge vertauscht wurde.
  2. Wenn man eine konstante Zahl n-mal mit sich selbst multipliziert, erhält man ihre n-te Potenz:
    i=1nc=cn Die Zahl c ist hier nicht vom Index i abhängig. Daher wird einfach nur c multipliziert. Es gilt also ic=ccc=cn.
  3. Man kann ebenso eine Konstante aus einem Produkt herausziehen, wenn noch andere Faktoren mit dabei stehen. Es gilt also zum Beispiel
    i=13cxi=cx1cx2cx3=c3i=13xi Allgemein ausgedrückt lautet diese Formel
    i=1ncxi=cni=1nxi

Exponentialfunktion und Logarithmusfunktion

Potenzen

Bevor wir Polynome und Exponentialfunktionen besprechen, frischen wir die Grundlagen über Potenzen nocheinmal auf.

Potenzen sind, einfach ausgedrückt, eine Kurzschreibweise für wiederholte Multiplikation. Genauso wie man statt 4+4+4+4+4 einfach kurz 54 schreiben kann, so kann man 33333 durch 35 abkürzen. Hier bezeichnet man die 3 als Basis, und die 5 als Exponent.
Der Sonderfall x0=1 ist so definiert, da wir quasi „null“ Multiplikationen vornehmen, also nur das bei der Multiplikation neutrale Element 1 übrigbleibt.

Negative Exponenten verwendet man für wiederholte Division. Es gilt also z.B.

24=1÷2÷2÷2÷2=124

Brüche als Exponenten bezeichnen Wurzeln. Zum Beispiel bedeutet 512 dasselbe wie 5, und 213 ist gleichbedeutend mit 23.
Falls im Zähler des Bruches eine andere Zahl als 1 steht, ist das die Potenz der Basis unter dem Bruch:

234=234

Reelle Exponenten, also zum Beispiel 33.1415926, sind nicht mehr ganz so intuitiv zu erklären. Man kann sich den Exponenten am besten als Interpolation zweier ihm nahe liegender Brüche vorstellen.

Rechenregeln für Potenzen gibt es einige. Die wichtigsten sind in der folgenden Übersicht zusammengefasst – links die allgemeine Regel, rechts ein veranschaulichendes Beispiel:

xaxb=xa+b x3x2=xxxxx=x5=x2+3
xaxb=xab x4x2=xxxxxx=x2=x42
(xr)s=xrs (x2)2=x2x2=xxxx=x22
(xy)r=xryr (xy)3=xyxyxy=x3y3
(xy)r=xryr (xy)2=(xy)(xy)=x2y2

Exponentialfunktion

Die Exponentialfunktion ist eine in der Statistik sehr häufig verwendete Funktion, denn sie kommt in den meisten stetigen und diskreten Dichten vor. Was es damit auf sich hat, werden wir hier besprechen.

Die meisten sind wohl vertraut mit Polynomialfunktionen wie f(x)=x3. Hier ist die Basis (hier x) die Variable, und der Exponent (hier 3) eine konstante Zahl. Die dazugehörigen Kurven sehen beispielsweise wie folgt aus:

Beispiele für Polynomfunktionen: Die Kurven für xa mit a=1,2,3,4,5.

Von der Polynomfunktion zur Exponentialfunktion gelangt man nun, wenn man nicht die Basis variiert, sondern den Exponenten. Wir nehmen also nicht f(x)=x2, sondern stattdessen f(x)=2x. Exponentialfunktionen sehen wie folgt aus:

Die Exponentialfunktionen für die Basis 1, 2, e, und 3. Die Funktion f(x)=1x ist konstant 1, da z.B. 13=1 ist.

Hier fallen die folgenden Dinge auf:

  • Alle Exponentialfunktionen haben an der Stelle 0 den Wert 1, da a0=1, egal für welches a.
  • Im negativen Bereich nehmen die Funktionen Werte zwischen 0 und 1 an, da die negativen Exponenten in diesem Bereich wie oben besprochen zu einem Bruch führen, der kleiner als 1 ist.
  • Je größer die Basis ist, desto steiler steigt die Exponentialfunktion an.

Die Funktionen haben den Definitionsbereich R, denn jede reelle Zahl kann im Exponenten stehen. Weil die Funktion aber nur Werte im positiven Bereich liefert, ist ihr Wertebereich R+, die reellen Zahlen größer als Null.

Eine besondere Basis ist die eulersche Zahl e. Sie ist ungefähr e2.71828 und wird in Dichtefunktionen häufig als Basis verwendet. Dargestellt wird sie häufig in Termen wie e12x2, oder in der alternativen Schreibweise exp(12x2).

Rechenregeln für die Exponentialfunktion lassen sich anhand der Rechenregeln für Potenzen ableiten. Da, wie oben besprochen, zum Beispiel xaxb=xa+b gilt, ist genauso mit der Basis e die folgende Gleichung gültig: exp(a)exp(b)=exp(a+b).

Mit dem Summenzeichen kann man diese Formel noch auf längere Summen erweitern, und es gilt:

i=1nexp(xi)=exp(i=1nxi)

Logarithmusfunktion

Der Logarithmus ist die Umkehrfunktion zur Exponentialfunktion. Mit einer Umkehrfunktion kann man eine Transformation quasi rückgängig machen. Es ist zum Beispiel die Wurzelfunktion die Umkehrfunktion zur Quadratfunktion, denn mit ihr kann man eine Quadrierung wieder rückgängig machen:

32=99=3

Genauso kann man mit dem Logarithmus einer Zahl, der als log(x) dargestellt wird, eine Exponentialfunktion wieder rückgängig machen. Es ist also zum Beispiel

exp(3)20.086log(20.086)3

In diesem Beispiel interpretiert man den Logarithmus so: „e hoch wieviel ist 20.086?“. Der Logarithmus gibt die Antwort auf diese Frage.

asd

Auf der linken Grafik sieht man die Exponentialfunktion f(x)=exp(x). Hier kann man ablesen, dass exp(3) in etwa 20 ist. Auf der rechten Grafik ist die Logarithmusfunktion, f(x)=log(x), dargestellt. Hier kann man die erhaltenen 20 wieder umkehren in log(20)3.

Genauso wie es bei Exponentialfunktionen eine Basis gibt (wie z.B. die Basis 10 bei der Funktion f(x)=10x, so bezieht sich auch ein Logarithmus immer auf eine Basis. Der natürliche Logarithmus, den wir bisher betrachtet haben, bezieht sich auf die Basis e. Die verbreitetsten anderen Logarithmen ist der Zweierlogarithmus mit der Basis 2, und der Zehnerlogarithmus mit der Basis 10. Am eindeutigsten notiert man den Logarithmus, indem man die Basis unter das Log-Symbol schreibt, also z.B. log10 oder log2. Wenn keine Zahl als Basis hinzugefügt wurde, meint ein „nacktes“ log-Symbol zumindest im statistischen Bereich immer den natürlichen Logarithmus, zur Basis e. In manchen angewandten Gebieten kann damit allerdings auch der Zehnerlogarithmus gemeint sein, dort wird dann ln für den natürlichen Logarithmus verwendet. Wegen dieser Möglichkeit der Verwechslung ist es empfohlen, die Basis immer explizit dazuzuschreiben.

Der Zehnerlogarithmus ist besonders leicht zu interpretieren, da die Zehnerpotenzen (10, 100, 1000, usw.) eine ganze Zahl ergeben. Er findet oft in Grafiken Anwendung, wo er zur Transformation von Daten verwendet wird, die man in ihrer untransformierten Darstellung schlecht erkennen kann. Das sind meistens Daten, die eine schiefe Verteilung haben – als Beispiele kann man sich das Nettoeinkommen in einer großen Firma, oder die Einwohnerzahl aller deutschen Städte vorstellen.

asdf

Die Einwohnerzahlen aller deutschen Großstädte (>100.000 Einwohner). Oben sieht man die untransformierten Daten, und eine sehr schiefe Verteilung, in der sich fast alle Punkte zwischen 100.000 und 500.000 aufhalten. Die vier Städte rechts der 1Mio-Marke sind Berlin, Hamburg, München und Köln. In der unteren Grafik sind die Daten nur mit dem Zehnerlogarithmus transformiert. Man hat hier eine bessere Übersicht über die Streuung der Daten in den niedrigen Bereichen. Da log10(1.000.000)=6 ist, sind die vier Millionenstädte in der unteren Grafik die, die rechts der 6.0 liegen.

Da das Ergebnis einer Exponentialfunktion nur positiv sein kann, kann man umgekehrt den Logarithmus auch nur von einer positiven Zahl nehmen. Ein Wert wie z.B. log(3) ist nicht definiert. Der Definitionsbereich für die Logarithmusfunktion ist also R+, die gesamten positiven reellen Zahlen. Der Wertebereich hingegen sind die gesamten reellen Zahlen R.

Rechenregeln für den Logarithmus gibt es natürlich auch. Die wichtigsten sind in der folgenden Tabelle zusammengefasst, wobei links die allgemeine Regel, und rechts eine Anwendung der Regel steht:

Regel Beispiel
log(exp(x))=x log10(108)=8
exp(log(x))=x 10log10(8)=8
log(xy)=log(x)+log(y) log(i=1nxi)=i=1nlog(xi)
log(xy)=log(x)log(y) log(13)=log(1)log(3)
log(xr)=rlog(x) log(x)=log(x12)=12log(x)

Poissonverteilung: Anzahl an Toren pro Fußballspiel

Idee

Die Poissonverteilung ist eine diskrete Verteilung, mit der man die Anzahl von Ereignissen in einem gegebenen Zeitintervall modellieren kann. Ein schönes Beispiel ist die Anzahl von Toren, die Verein A innerhalb eines Fußballspiels schießt. Andere Anwendungen sind etwa die Anzahl an Bankkunden, die innerhalb eines Tages am Schalter ankommen, oder die Anzahl an Schadensfällen, die in einem Monat bei einer Versicherung eingehen.

Man zählt in jedem dieser Fälle die Anzahl der Ereignisse, die in einem fest vorgegebenen Zeitintervall eintreten, und möchte die Wahrscheinlichkeiten modellieren, mit der x Ereignisse in diesem Zeitraum auftreten.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Parameter

Die Poissonverteilung hat nur einen Parameter, nämlich λ. Er bezeichnet die durchschnittlich zu erwartende Anzahl an Ereignissen (also den Erwartungswert). Eine poissonverteilte Zufallsvariable X bezeichnet man dann durch

XPo(λ)

Man könnte nun zum Beispiel für 100 Fußballspiele vom Verein A die Anzahl seiner geschossenen Tore notieren, und deren Mittelwert ausrechnen. Wenn der Mittelwert 1.2 Tore sind, dann wäre in diesem Fall XPo(1.2).

Träger

Bei einem Poisson-Experiment können zwischen null und unendlich viele Ereignisse eintreten. Im Beispiel mit dem Fußballspiel sind theoretisch unbegrenzt viele Tore möglich. Der Träger einer poissonverteilten Zufallsvariable ist also

T(X)={0,1,2,}

Dichte

Die Wahrscheinlichkeit, dass bei einer poissonverteilten Zufallsvariable mit dem Parameter λ genau x Ereignisse auftreten, berechnet man über die Dichte zu

f(x)=λxx!exp(λ)

Dabei bezeichnet x! die Fakultät von x. Falls man die Wahrscheinlichkeit für 0 Ereignisse berechnen möchte, tritt hier 0!, die Fakultät von null, auf. Das ist definitionsgemäß gleich eins.

Im Beispiel mit dem Fußballverein berechnet man etwa die Wahrscheinlichkeit, dass Verein A genau zwei Tore schießt, zu

f(2)=1.222!exp(1.2)=0.217

asdf

Die Dichte der Poissonverteilung für die Anzahl der von Team A geschossenen Tore in einem Spiel, mit λ=1.2. Die x-Achse ist hier bei 7 abgeschnitten: Höhere Werte als x=7 sind theoretisch möglich, aber sehr unwahrscheinlich. Man sieht hier auch, dass mit der höchsten Wahrscheinlichkeit ein Tor geschossen wird.

Zwischenaufgabe

Angenommen, die Anzahl der Tore von Team A ist tatsächlich poissonverteilt mit λ=1.2. Ein Freund wettet um 10€ mit dir, dass das Team im folgenden Spiel genau ein Tor schießt, da das die Anzahl mit der höchsten Wahrscheinlichkeit ist. Solltest du diese Wette annehmen?

Lösung (klick)

Deine Gewinnwahrscheinlichkeit ist die Summe aller einzelnen Wahrscheinlichkeiten f(x) für x Tore, außer für x=1. Man kann natürlich nicht f(0)+f(2)+f(3)+f(4)+ berechnen, sondern geht hier wieder mit der Gegenwahrscheinlichkeit vor. Wir berechen also nicht P(alles ausser ein Tor), sondern stattdessen äquivalent 1P(ein Tor):

1f(1)=11.211!exp(1.2)=10.3614=0.639

Da wir mit einer Wahrscheinlichkeit von etwa 63,9% gewinnen, sollten wir diese Wette also annehmen. Obwohl das Ereignis mit der höchsten einzelnen Wahrscheinlichkeit ein Tor ist, so ist es doch wahrscheinlicher, dass irgendein anderes Ergebnis eintritt.

Verteilungsfunktion

Für die Verteilungsfunktion gibt es keine bequeme Formel. Man muss für F(x)=P(Xx) die einzelnen Werte der Dichtefunktion von 0 bis x aufsummieren:

F(x)=f(0)+f(1)++f(x)=k=0xf(k)

Die Wahrscheinlichkeit dass unser Verein höchstens zwei Tore schießt, berechnet man also durch

F(2)=f(0)+f(1)+f(2)=1.200!exp(1.2)+1.211!exp(1.2)+1.222!exp(1.2)=0.301+0.361+0.217=0.879

asdf

Die Verteilungsfunktion für die Anzahl der Tore von Verein A. Man sieht, dass die Wahrscheinlichkeit F(4) für maximal vier Tore schon sehr nahe an der 1 liegt, dass es also andersherum sehr unwahrscheinlich ist, dass Team A in einem Spiel mehr als vier Tore schießt.

Erwartungswert und Varianz

Der Parameter λ einer poissonverteilten Zufallsvariable ist zugleich Erwartungswert und Varianz dieser Verteilung:

E(X)=λV(X)=λ

Eigenschaften

Die folgenden Regeln sind hilfreich für kompliziertere Aufgaben mit der Poissonverteilung.

  1. Wenn die Anzahl der Tore von Verein A innerhalb eines 90-minütigen Spiels poissonverteilt mit λ=1.2 ist, dann ist die Anzahl der Tore innerhalb der ersten Halbzeit auch poissonverteilt, aber mit λ=0.6.
    Allgemein gesagt: Wenn der betrachtete Zeitraum mit einem Faktor n multipliziert wird, ist die Anzahl der Ereignisse in diesem Zeitraum poissonverteilt mit dem Parameter λn.
  2. Die Wahrscheinlichkeit, dass mindestens ein Ereignis eintritt, ist das Gegenteil der Wahrscheinlichkeit dass gar kein Ereignis auftritt, und somit 1f(0).
    Verein A schießt also mit einer Wahrscheinlichkeit von 11.200!exp(1.2)=0.699 mindestens ein Tor.
  3. Wenn die Anzahl der Tore von Verein A poissonverteilt mit λA=1.2, und die Anzahl der Tore seines Gegners, Verein B, poissonverteilt mit λB=0.6 ist, dann ist die Gesamtzahl der gefallenen Tore im Spiel von A gegen B wieder poissonverteilt mit λ=λA+λB=1.8.
    Allgemein gilt: Die Summe zweier unabhängiger poissonverteilten Zufallsvariablen A und B mit den Parametern λA und λB ist poissonverteilt mit dem Parameter λ=λA+λB.

Geometrische Verteilung: Der betrunkene Pförtner

Idee

Bei der geometrischen Verteilung liegt folgender Gedanke zugrunde: Wir haben ein Bernoulli-Experiment mit einer Erfolgswahrscheinlichkeit von p. Nun fragen wir uns, wie oft wir dieses Experiment ausführen müssen, bis der erste Erfolg eintritt.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Das meiner Meinung nach schönste Beispiel zur Veranschaulichung ist das vom betrunkenen Pförtner: Er hat einen Schlüsselbund mit 8 Schlüsseln, und einer davon öffnet das Tor, vor dem er steht. Da er aber betrunken ist, fällt ihm nach jedem Fehlversuch der Schlüsselbund herunter, und er weiß nicht mehr, welchen Schlüssel er schon probiert hat.

Jeder einzelne Versuch ist also ein neues Bernoulli-Experiment mit der Erfolgswahrscheinlichkeit p=18. Da er 8 Schlüssel hat, ist ein zufällig gewählter Schlüssel mit einer Wahrscheinlichkeit von 18 der richtige.

Mit der geometrischen Verteilung können wir dieses Experiment nun beschreiben, und die Wahrscheinlichkeiten dafür bestimmen, dass er zum Beispiel genau einen Versuch, genau vier Versuche, oder höchstens fünf Versuche benötigt.

Parameter

Die geometrische Verteilung hat nur einen Parameter, nämlich p, die Erfolgswahrscheinlichkeit bei einem einzelnen Versuch. Im Beispiel des betrunkenen Pförtners ist p=18. Benennen wir die Zufallsvariable für das Experiment mit X, wird die geometrische Verteilung dargestellt durch

XG(p),

in unserem Beispiel

XG(18).

Träger

Es gibt theoretisch keine Obergrenze für die Anzahl der Versuche, die der Pförtner benötigt. Jeder neue Versuch gelingt nur mit einer Wahrscheinlichkeit von 1p, daher kann X jede natürliche Zahl von 0 bis unendlich annehmen:

T={0,1,2,}

Dichte

Die Dichte der geometrischen Verteilung lautet

f(x)=(1p)x1p

Diese Dichte kann man sich leicht veranschaulichen: Um die Wahrscheinlichkeit zu bestimmen, dass der Pförtner beim dritten Versuch den richtigen Schlüssel erwischt, also P(X=3)=f(3), muss er nacheinander zwei Fehlversuche (mit Wahrscheinlichkeit 1p und einen Treffer (mit Wahrscheinlichkeit p) machen. Die gesamte Wahrscheinlichkeit ist also das Produkt der drei Bernoulli-Experimente, also (1p)(1p)p. Das kann man zu (1p)2p zusammenfassen. Setzt man nun allgemein ein x statt der 2 ein, erhält man die Dichte der geometrischen Verteilung, nämlich das Produkt von x1 Mißerfolgen und einem Erfolg.

fdg

Die Dichte der geometrischen Verteilung für das Beispiel des betrunkenen Pförtners. Die x-Achse ist abgeschnitten, da die Dichte nach rechts ins Unendliche weitergeht. Die Wahrscheinlichkeiten für mehr als ca. 30 Versuche werden verschwindend gering, aber sind theoretisch immer noch im Bereich des Möglichen. Man sieht auch, dass f(1), die Wahrscheinlichkeit, dass gleich beim ersten Versuch der Treffer erfolgt, genau p ist.

Verteilungsfunktion

Die Verteilungsfunktion lässt sich mit Hilfe einer Rechenregel für Wahrscheinlichkeiten herleiten. Wir suchen nämlich gemäß der Definition der Verteilungsfunktion den Wert P(Xx), also die Wahrscheinlichkeit, dass der Pförtner maximal x Versuche benötigt, um das Tor zu öffnen. Dieser Wert ist nur über eine Summe der Dichten von f(0) bis f(x) zu erhalten. Aber die Gegenwahrscheinlichkeit ist einfach:

Die Wahrscheinlichkeit P(X>x), dass der Pförtner mehr als x Versuche benötigt, ist leicht zu berechnen. Es ist nämlich das Produkt von x Fehlversuchen, also (1p)x. Und das ist genau das Gegenereignis vom Ereignis „maximal x Versuche“.

Mit der folgenden Regel erhalten wir dann die Verteilungsfunktion:

P(A¯)=1P(A)

Die Verteilungsfunktion der geometrischen Verteilung ist also

F(x)=P(Xx)=1P(X>x)=1(1p)x

asfasdf

Die Verteilungsfunktion der geometrischen Verteilung. Ihr Wert nähert sich im Unendlichen der 1 an, erreicht ihn aber nie exakt.

Erwartungswert

Der Erwartungswert der geometrischen Verteilung ist

E(X)=1p

Bei 8 Schlüsseln, also p=18, braucht der Pförtner also im Durchschnitt 8 Versuche, um das Tor zu öffnen.

Varianz

Die Varianz der geometrischen Verteilung berechnet man durch

V(X)=1p21p

Alternative Darstellung

In manchen Büchern bzw. Skripten begegnet man auch einer alternativen Darstellung der geometrischen Verteilung. Hier ist mit X nicht wie hier die Anzahl der Versuche bis (inklusive!) zum ersten Treffer gemeint, sondern die Anzahl der Fehlversuche vor dem ersten Treffer. Wenn ich also modellieren will, dass der betrunkene Pförtner drei Fehlversuche macht, bis er im vierten Versuch das Tor öffnet, so berechne ich in der hier besprochenen Darstellung f(4), aber in dieser alternativen Darstellung wäre es stattdessen f(3). Die Formeln für Dichte, Verteilungsfunktion, und Erwartungswert verändern sich natürlich entsprechend, so dass dieselben Wahrscheinlichkeiten herauskommen.

Hypergeometrische Verteilung

Idee

Während die Binomialverteilung für Experimente mit gleichbleibender Wahrscheinlichkeit für „Erfolg“ verwendet wird, wendet man die hypergeometrische Verteilung dann an, wenn sich die Grundgesamtheit im Laufe des Experiments verändert. Anders ausgedrückt: Mit der Binomialverteilung beschreibt man Experimente mit Zurücklegen, und mit der hypergeometrischen Verteilung Experimente ohne Zurücklegen.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Habe ich also einen Beutel mit 10 roten und 5 weißen Kugeln, und nehme viermal hintereinander eine Kugel aus dem Beutel, die ich danach wieder zurücklege, so dass wieder insgesamt 15 Kugeln im Beutel sind, dann kann ich mit der Binomialverteilung die Verteilung der Anzahl der gezogenen weißen Kugeln beschreiben. Das wäre nämlich eine Binomialverteilung mit n=4 und p=515=13. Hier fällt auf, dass die genaue Anzahl an Kugeln egal ist, und nur ihr Verhältnis zueinander interessiert. Das Experiment wäre also genau dasselbe, wenn nicht 10 rote und 5 weiße, sondern 100 rote und 50 weiße Kugeln in dem Beutel steckten.

Möchte man stattdessen die Kugeln nicht zurücklegen, verwendet man die hypergeometrische Verteilung. Das Experiment, das man mit ihr modellieren kann, sieht also zum Beispiel wie folgt aus: Man hat einen Beutel mit 15 Kugeln, wovon 5 Kugeln weiß sind. Man nimmt nun nacheinander vier Kugeln aus dem Beutel, ohne sie danach zurückzulegen. Nun kann ich mit Hilfe der hypergeometrischen Verteilung ausrechnen, mit welcher Wahrscheinlichkeit ich keine, eine, zwei, drei, oder vier weiße Kugeln in meiner Stichprobe erhalte.

Parameter

Für die hypergeometrische Verteilung ist es nun im Gegensatz zur Binomialverteilung wichtig, wieviele Kugeln jeder Sorte im Beutel liegen. Daher hat diese Verteilung drei Parameter:

  1. N, die Anzahl der Elemente insgesamt. Im oberen Beispiel haben wir N=15 Kugeln.
  2. M, die Anzahl der Elemente, die die gewünschte Eigenschaft besitzen („Treffer“). Hier ist M=5, die Anzahl der weißen Kugeln.
  3. n, die Anzahl der Kugeln, die als Stichprobe gezogen wird. Hier ist n=4.

Wenn wir unser Beispiel mit der Zufallsvariablen X beschreiben, sieht die hypergeometrische Verteilung wie folgt aus:

XHG(15,5,4)

Träger

Die hypergeometrische Verteilung hat denselben Träger wie die Binomialverteilung: Wenn man n=4 Kugeln zieht, sind 0 bis 4 Erfolge möglich. Allgemein ist also

T={0,1,,n}

Dichte

Die Dichte einer hypergeometrisch verteilten Zufallsvariable X lautet

f(x)=(Mx)(NMnx)(Nn)

In unserem Beispiel ist also die Wahrscheinlichkeit, bei 4 gezogenen Kugeln 2 weiße Kugeln darunter zu finden, gleich

f(2)=(52)(15542)(154)=0.3297

Die Dichte f(x) für die hypergeometrische Verteilung unseres Beispiels.

Beachte hier, dass die Werte N, M und n das Experiment beschreiben, und dann (gegeben einem Experiment) nicht mehr verändert werden. Die Variable x hingegen kann alle möglichen Ausgänge des Experiments annehmen, hier also alles von 0 bis 4.

Verteilungsfunktion

Für die Verteilungsfunktion gibt es hier, wie bei der Binomialverteilung, keine kürzere Formel, sondern man summiert einfach die Dichte über alle möglichen Ausprägungen aus:

F(x)=P(Xx)=k=0xf(k)

Die Verteilungsfunktion F(x) für dieses Beispielexperiment.

Möchte ich also die Wahrscheinlichkeit wissen, höchstens drei weiße Kugeln in meiner Stichprobe zu erhalten, muss ich die einzelnen Wahrscheinlichkeiten aufsummieren:

F(3)=P(X3)=P(X=0)+P(X=1)+P(X=2)+P(X=3)=0.1538+0.4396+0.3297+0.0733=0.996

Einen Trick gibt es allerdings in den Fällen, in denen man viele einzelne Wahrscheinlichkeiten im Taschenrechner berechnen müsste: Über die Gegenwahrscheinlichkeit lässt sich derselbe Wert viel schneller berechnen:

F(3)=P(X3)=1P(X=4)=10.004=0.996

Erwartungswert

Der Erwartungswert ist, analog zur Binomialverteilung, einfach n-mal der anfängliche Anteil an Treffern, also M/N. Es ist daher

E(X)=nMN

Varianz

Die Varianz berechnet man durch

V(X)=nMN(1MN)NnN1

Beispielaufgabe

Mit Hilfe der hypergeometrischen Verteilung können wir zum Beispiel die folgenden Fragen beantworten:

  • Wie hoch ist die Wahrscheinlichkeit, beim deutschen Lotto (6 aus 49) drei gerade und drei ungerade Zahlen zu ziehen?
  • Wie hoch ist dort die Wahrscheinlichkeit für sechs gerade Zahlen?

In beiden Fragen verwenden wir eine Zufallsvariable mit der Verteilung

XHG(49,24,6).

Denn es gibt insgesamt N=49 Kugeln, davon sind M=24 eine gerade Zahl, und wir ziehen n=6 dieser Kugeln. Mit der Dichtefunktion für diese Verteilung können wir nun die Wahrscheinlichkeit für drei (über f(3)), sechs (über f(6)), oder beliebig viele Kugeln mit geraden Zahlen bestimmen:

f(3)=(243)(492463)(496)=0.3329f(6)=(246)(492466)(496)=0.0096

 

Der Satz von Bayes

Der Satz von Bayes ist eine hilfreiche Regel, um bedingte Wahrscheinlichkeiten der Form P(A|B) auszurechnen, wenn nur „andersherum“ bedingte Wahrscheinlichkeiten der Form P(B|A) gegeben sind.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Herleitung des Satzes von Bayes

Der Satz von Bayes erweitert die bekannte Formel für bedingte Wahrscheinlichkeiten:

P(A|B)=P(AB)P(B)

Falls die im Zähler stehende gemeinsame Wahrscheinlichkeit nicht gegeben ist, kann man sie auch durch den Multiplikationssatz bestimmen:

P(AB)=P(A|B)P(B)

Diese Regel ergibt sich durch das Umstellen der Formel für die bedingte Wahrscheinlichkeit. Da in der Notation die Reihenfolge bei zwei gemeinsam eintretenden Ereignissen egal ist, d.h. P(AB)=P(BA), gilt der Multiplikationssatz auch mit umgekehrten Buchstaben:

P(AB)=P(B|A)P(A)

Genau diese Formel wird nun im Zähler ersetzt, und man erhält den Satz von Bayes:

P(A|B)=P(B|A)P(A)P(B)

Falls P(B) nicht gegeben ist

In manchen Aufgaben ist die Wahrscheinlichkeit P(B) im Nenner nicht gegeben. Dann muss man sie über einen Umweg mit dem Satz der totalen Wahrscheinlichkeit herleiten.

Für den Spezialfall von nur zwei Aufteilungen von A ersetzt man den Nenner also wie folgt:

P(A|B)=P(B|A)P(A)P(B|A)P(A)+P(B|A¯)P(A¯)

Beispielaufgabe

Eine neu entwickelte Maschine kann gefälschte Geldscheine erkennen. Wir definieren das Ereignis A: „Die Maschine schlägt Alarm“, und Ereignis F: „Der Geldschein ist falsch“.

Wir möchten nun herausfinden, wie hoch die Wahrscheinlichkeit ist, dass ein Geldschein tatsächlich eine Fälschung ist, gegeben die Maschine schlägt Alarm. Gesucht ist also

P(F|A).

Die Maschine wurde anhand vieler echter und unechter Scheine getestet. Man fand heraus, dass die Maschine bei einem falschen Schein mit 96% Sicherheit Alarm schlägt. Allerdings gibt die Maschine auch bei 1% der echten Geldscheine Alarm. Wir wissen also:

  • P(A|F)=0.96
  • P(A|F¯)=0.01

Zusätzlich ist bekannt, dass 0,01% aller im Umlauf befindlichen Geldscheine Fälschungen sind. Das heißt:

  • P(F)=0.0001

Aufgaben dieser Art lassen sich mit dem Satz von Bayes lösen, da P(A|F) gegeben, aber P(F|A) gesucht ist. Wir starten also mit der Formel von Bayes (adaptiert mit den Buchstaben für unsere Ereignisse):

P(F|A)=P(A|F)P(F)P(A)

Die beiden Faktoren im Zähler sind in der Aufgabe gegeben, wir können sie also einfach einsetzen: P(A|F)=0.96 und P(F)=0.0001.

Im Nenner fehlt uns noch P(A), die nicht-bedingte Wahrscheinlichkeit, dass die Maschine Alarm schlägt. Diese Wahrscheinlichkeit ist nicht gegeben, aber wir haben die beiden bedingten Wahrscheinlichkeiten, dass die Maschine Alarm schlägt, gegeben der Geldschein ist echt bzw. falsch. Wir können P(A) also mit dem Satz der totalen Wahrscheinlichkeit berechnen:

P(A)=P(A|F)P(F)+P(A|F¯)P(F¯)=0.960.0001+0.010.9999=0.010095

Die Maschine schlägt also insgesamt in etwas über 1% aller Fälle Alarm. Mit diesem Wert können wir nun die gesuchte bedingte Wahrscheinlichkeit berechnen, dass ein Geldschein gefälscht ist, gegeben die Maschine schlägt Alarm:

P(F|A)=P(A|F)P(F)P(A)=0.960.00010.010095=0.0095

Dieser Wert ist erschreckend: Wenn die Maschine Alarm schlägt, ist der betreffende Geldschein nur zu etwa 0,95% eine Fälschung, und umgekehrt zu etwa 99,05% ein echter Geldschein.

Dieses Phänomen lässt sich dadurch erklären, dass sich sehr viel mehr echte als falsche Geldscheine im Umlauf befinden, und dass also ein Alarm viel wahrscheinlicher fälschlicherweise bei einem echten Geldschein gegeben worden ist als korrekterweise bei einem gefälschten Schein. Um eine verlässliche Maschine zu bauen, muss man also entweder die Wahrscheinlichkeit für einen Fehlalarm senken, oder die Genauigkeit beim tatsächlichen Erkennen gefälschter Scheine erhöhen.

Klausuraufgabe

Die Rot-Grün-Blindheit ist eine angeborene Sehschwäche, die bei etwa 9% aller Jungen, aber nur bei 0,6% aller Mädchen auftritt. Wir nehmen hier an, dass ein neugeborenes Kind zu 51% ein Junge wird, und zu 49% ein Mädchen.

Eine Mutter erzählt dir, dass ihr Kind eine Rot-Grün-Blindheit hat. Bestimme nun die Wahrscheinlichkeit, gegeben dieser Information, dass es sich um einen Jungen handelt.

Hinweis: Gesucht ist die Wahrscheinlichkeit P(J|B), mit den Ereignissen J=“Kind ist ein Junge“ (d.h. J¯=“Kind ist ein Mädchen“) und B=“Kind hat Rot-Grün-Blindheit“. Verwende den Satz von Bayes, um diese Wahrscheinlichkeit zu ermitteln. Auf dem Weg dorthin begegnest du P(B), der Wahrscheinlichkeit, dass irgendein Kind unter der Rot-Grün-Blindheit leidet. Das ermittelst du mit dem Satz der totalen Wahrscheinlichkeit.

Lösung (klick)

Gegeben sind in dieser Aufgabe die folgenden Wahrscheinlichkeiten:

  • P(B|J)=0.09
  • P(B|J¯)=0.006
  • P(J)=0.51
  • P(J¯)=0.49

Die gesuchte Wahrscheinlichkeit P(J|B) erhalten wir wieder über den Satz von Bayes:

P(J|B)=P(B|J)P(J)P(B)

Bis auf P(B) können wir alle Werte direkt einsetzen. Für P(B) verwenden wir den Satz der totalen Wahrscheinlichkeit:

P(B)=P(B|J)P(J)+P(B|J¯)P(J¯)=0.090.51+0.0060.49=0.04884

Damit erhalten wir die gesuchte Wahrscheinlichkeit:

P(J|B)=P(B|J)P(J)P(B)=0.090.510.04884=0.9398

Das Kind ist also zu etwa 94% ein Junge, wenn man die Information hat, dass es rot-grün-blind ist.

 

 

 

Anleitung zum Rechnen mit Wahrscheinlichkeiten

Das Umgehen mit Wahrscheinlichkeiten gehört zum essentiellen Handwerkszeug in den einführenden Statistikklausuren. Die wichtigsten Regeln, die verwendet werden, wurden in früheren Artikeln bereits besprochen:

Laplace-Wahrscheinlichkeit P(A)=Anzahl der fu¨rA „gu¨nstige“ ErgebnisseAnzahl aller mo¨glichen Ergebnisse
Bedingte Wahrscheinlichkeit P(A|B)=P(AB)P(B)
Totale Wahrscheinlichkeit P(A)=P(A|B)P(B)+P(A|B¯)P(B¯)
Multiplikationssatz P(AB)=P(A|B)P(B)
Multiplikationssatz für unabhängige Ereignisse P(AB)=P(A)P(B)
Satz von Bayes P(A|B)=P(B|A)P(A)P(B)
Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Welche Formel man in einer bestimmten Situation braucht, kann man herausfinden, indem man die Aufgabe systematisch angeht:

  1. Benenne die Ereignisse und Wahrscheinlichkeiten der Aufgabe mit Buchstaben, falls noch keine gegeben sind.
  2. Notiere in Formelschreibweise, was gesucht ist (z.B.: P(B|C)).
  3. Notiere in Formelschreibweise, welche Werte gegeben sind.
  4. Suche die Formeln heraus, in denen sowohl die gesuchten als auch die gegebenen Werte vorkommen.

Dazu ist es hilfreich, noch ein paar zusätzliche Regeln zu kennen (wenn sie nicht schon offensichtlich sind):

  • P(A¯)=1P(A). Mit A¯ ist die Gegenwahrscheinlichkeit von A gemeint. Das ist natürlich genau die Wahrscheinlichkeit, die auf die Gesamtsumme von 1 fehlt, denn P(A)+P(A¯)=1.
  • P(AB)=P(A)+P(B)P(AB). Die Wahrscheinlichkeit P(AB), dass also entweder A oder B eintritt (oder auch beide Ereignisse gleichzeitig), ist deren Summe, minus der Wahrscheinlichkeit dass beide Ereignisse eintreten. Diese Formel kann man sich an einem Venn-Diagramm gut selbst herleiten.

Ab und zu muss man mit den gegebenen Werten erst ein Zwischenergebnis berechnen, bevor man das letztendliche Ergebnis erhalten kann. Das ist zum Beispiel beim Satz von Bayes der Fall, wo man im Nenner die Wahrscheinlichkeit P(A) erst über den Satz der totalen Wahrscheinlichkeit berechnen muss. Die folgende Beispielaufgabe illustriert dieses Vorgehen:

Beispielaufgabe

In einer Spielwarenfabrik stehen drei Maschinen 1, 2, und 3, die mit unterschiedlicher Geschwindigkeit Spielzeugsoldaten herstellen. Jede Maschine produziert mit einer bestimmten Wahrscheinlichkeit ein fehlerhaftes Spielzeug, das in der Qualitätskontrolle aussortiert werden muss:

Maschine 1 2 3
Anteil an der Gesamtproduktion 0.15 0.40 0.45
Anteil fehlerhafter Soldaten 0.10 0.02 0.01

Man sieht, dass die Maschine 1 ein älteres Stück ist, das langsamer und fehleranfälliger arbeitet.

Angenommen, man hält nun einen fehlerhaften Spielzeugsoldaten in der Hand. Wie hoch ist die Wahrscheinlichkeit, dass er von Maschine 1 kommt?

Lösungsansatz

Um diese Aufgabe zu lösen, gehen wir wie oben beschrieben Schritt für Schritt vor. Zuerst stellen wir die Aufgabe in Formelschreibweise dar:

Ereignisse benennen
Die Ereignisse „Ein Soldat wurde von Maschine 1 produziert“ können wir einfach M1, M2, und M3 nennen. Das Ereignis „Ein produzierter Soldat ist fehlerhaft“ nennen wir F, somit ist das Ereignis „Ein Soldat ist in Ordnung“ das Gegenereignis F¯.
Gesuchter Wert
Gesucht ist die Wahrscheinlichkeit, dass ein Soldat von Maschine 1 produziert wurde, gegeben er ist fehlerhaft, also: P(M1|F).
Gegebene Werte
Gegeben sind zum Einen die A-priori-Wahrscheinlichkeiten, dass ein beliebiger Soldat von Maschine 1, 2, bzw. 3 kommt. Das sind einfach die Werte P(M1)=0.15, P(M2)=0.40 und P(M3)=0.45. Zusätzlich sind die Anteile fehlerhafter Soldaten die bedingte Wahrscheinlichkeit für F, gegeben der Maschine, also P(F|M1)=0.10, P(F|M2)=0.02, und P(F|M3)=0.01.
Hilfreiche Formeln
Wir sehen, dass eine bedingte Wahrscheinlichkeit gesucht ist, und die „andersrum“ bedingten Wahrscheinlichkeiten gegeben sind. Das sind Aufgabentypen, die mit dem Satz von Bayes gelöst werden können:
P(A|B)=P(B|A)P(A)P(B)

In dieser Aufgabe beginnen wir also mit dem Satz von Bayes und unseren Ereignissen:

P(M1|F)=P(F|M1)P(M1)P(F)

Alle diese Werte sind aus der Angabe bekannt, bis auf P(F), die Wahrscheinlichkeit, dass ein beliebiger Soldat fehlerhaft ist. Um diese Wahrscheinlichkeit aus den gegebenen Werten zu berechnen, bietet sich der Satz der totalen Wahrscheinlichkeit an:

P(F)=P(F|M1)P(M1)+P(F|M2)P(M2)+P(F|M3)P(M3)=0.100.15+0.020.40+0.010.45=0.0275

Es sind also insgesamt etwa 2,75% aller Soldaten fehlerhaft. Diesen Wert können wir nun in die Bayes-Formel einsetzten, um die gesuchte Wahrscheinlichkeit zu erhalten:

P(M1|F)=P(F|M1)P(M1)P(F)=0.100.150.0275=0.545

Ein beliebiger defekter Soldat kommt also mit einer Wahrscheinlichkeit von über 50% von Maschine 1. Obwohl diese Maschine nur 15% aller Soldaten produziert, kommen mehr als die Hälfte aller defekten Soldaten von ihr.

Unabhängigkeit von Ereignissen

Wenn zwei Ereignisse A und B voneinander abhängig sind, dann liefert das Eintreten von A hilfreiche Information über die Wahrscheinlichkeit des Eintretens von B. Dazu zwei Bespiele:

Die Augenfarbe und Haarfarbe einer Person sind voneinander abhängig. Wenn ich z.B. weiß, dass Ereignis A: „eine Person hat schwarze Haare“, eingetreten ist, dann macht das das Ereignis D: „diese Person hat braune Augen“, viel wahrscheinlicher als wenn sie blonde Haare hätte. In diesen Beispiel ist A von D abhängig (und umgekehrt auch D von A).

Ein Beispiel für zwei unabhängige Ereignisse wäre das Ereignis A: „Eine Person hat schwarze Haare“ und das Ereignis C: „Diese Person ist über 1,70m groß“. Oder, wenn man es auf die Spitze treiben will: das Ereignis A: „eine Person hat schwarze Haare“ und Ereignis B: „Gestern hat es geschneit“ sind ganz bestimmt voneinander unabhängig.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Sobald man mehr als ein Ereignis betrachtet, ist es essentiell zu wissen ob diese Ereignisse voneinander abhängig sind oder nicht. Die Unabhängigkeit zweier Ereignisse ist ein wichtiges Konzept, da sie viele Berechnungen immens vereinfacht. Sind zum Beispiel zwei Ereignisse voneinander unabhängig, kann man ihre gemeinsame Wahrscheinlichkeit viel einfacher berechnen als wenn sie abhängig sind.

Vereinfachungen wenn zwei Ereignisse unabhängig sind

  1. Wenn zwei Ereignisse voneinander unabhängig sind, ist die bedingte Wahrscheinlichkeit gleich der unbedingten Wahrscheinlichkeit:
    P(A|B)=P(A) Dieses Gesetz gilt auch umgekehrt:
    P(B|A)=P(B) Das leuchtet ein, da das Eintreten von B keine genauere Information über das Eintreten von A (oder umgekehrt) liefert. Um auf das oben aufgeführte Beispiel zurückzugreifen: Die bedingte Wahrscheinlichkeit dass eine Person schwarze Haare hat, gegeben es hat gestern geregnet, ist genau gleich der unbedingten Wahrscheinlichkeit, dass eine Person schwarze Haare hat. Die Tatsache dass es gestern geregnet hat, liefert keine zusätzliche Information. (Anders wäre es mit Ereignis D: „diese Person hat braune Augen“. Das wäre eine hilfreiche Information.)
  2. Außerdem kann man bei zwei unabhängigen Ereignissen die gemeinsame Wahrscheinlichkeit für das Eintreten beider Ereignisse einfach durch das Produkt der einzelnen Wahrscheinlichkeiten berechnen:
    P(AB)=P(A)P(B) Falls zwei Ereignisse abhängig sind, gilt diese Formel nicht, sondern man verwendet in einem der beiden Faktoren die bedingte Wahrscheinlichkeit:
    P(AB)=P(A|B)P(B) Für unabhängige A und B reduziert sich der erste Faktor zur unbedingten Wahrscheinlichkeit, da in diesem Fall P(A|B)=P(A) gilt.

Der Satz der totalen Wahrscheinlichkeit

Mit dem Satz der totalen Wahrscheinlichkeit kann man die Wahrscheinlichkeit für ein Ereignis A berechnen, wenn man nur bedingte oder gemeinsame Wahrscheinlichkeiten abhängig von einem zweiten Ereignis B gegeben hat.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Als Beispiel sei hier die Parkinson-Krankheit genannt. Da mehr Männer als Frauen an Parkinson erkranken, sind hauptsächlich geschlechtsspezifische Zahlen veröffentlicht. Möchte man aber die Wahrscheinlichkeit der Erkrankung für eine zufällige Person unabhängig vom Geschlecht bestimmen, braucht man dafür den Satz der totalen Wahrscheinlichkeit. Mit Hilfe der Erkrankungsrate pro Geschlecht, dem Verhältnis von Frauen und Männern in der Gesamtbevölkerung, und der entsprechenden Formel erhält man dann die Gesamtwahrscheinlichkeit einer Parkinsonerkrankung.

In einem Venn-Diagramm kann man das Aufteilen einer totalen Wahrscheinlichkeit wie folgt illustrieren:

venn_totaleWsk_gesamt

Es ist also

P(A)=P(AB)+P(AB¯).

In unserem Beispiel der Parkinson-Krankheit hieße das: Die Wahrscheinlichkeit für eine beliebige Person, an Parkinson zu erkranken, setzt sich zusammen als die Summe der Wahrscheinlichkeit, ein Mann zu sein und an Parkinson zu erkranken, plus die Wahrscheinlichkeit, eine Frau zu sein und an Parkinson zu erkanken.

Meist sind nicht die gemeinsamen Wahrscheinlichkeiten P(AB), sondern die bedingten Wahrscheinlichkeiten P(A|B) gegeben. Man kann die gemeinsamen Wahrscheinlichkeiten aber erhalten, indem man die Formel der bedingten Wahrscheinlichkeiten etwas umstellt:

P(AB)=P(A|B)P(B)

Wir erhalten also die verbreitetste Version der Formel für die totale Wahrscheinlichkeit:

P(A)=P(A|B)P(B)+P(A|B¯)P(B¯).

Je nachdem, ob in einer Aufgabe die bedingten oder die gemeinsamen Wahrscheinlichkeiten gegeben sind, nimmt man die eine oder andere dieser beiden Formeln. In den allermeisten Fällen arbeitet man aber mit bedingten Wahrscheinlichkeiten.

Beispielaufgabe

Mit dieser Formel können wir nun für eine zufällige Person beliebigen Geschlechts die totale Wahrscheinlichkeit berechnen, an Parkinson zu erkranken. Wir benötigen dazu die folgenden Notationen:

  • A: Die Person erkrankt an Parkinson
  • B: Die Person ist männlich.
  • B¯: Das Gegenteil von B, also: Die Person ist weiblich.

Aus einer Onlinepublikation über die Prävalenz von Parkinson erhalten wir die folgenden Wahrscheinlichkeiten:

  • Die Wahrscheinlichkeit für einen Mann, an Parkinson zu erkranken, liegt bei 0,309%. In unserer Formel bedeutet das: P(A|B)=0.00309.
  • Die Wahrscheinlichkeit für eine Frau, an Parkinson zu erkranken, liegt bei 0,241%. Analog dazu: P(A|B¯)=0.00241.
  • Es gibt minimal mehr Männer in der Gesamtbevölkerung, nämlich 51,1%. Also: P(B)=0.511.

Mit diesen Werten können wir nun die Gesamtwahrscheinlichkeit für eine beliebige Person berechnen:

P(A)=P(A|B)P(B)+P(A|B¯)P(B¯)=0.003090.511+0.002410.489=0.00275748

Wir enden also bei einer Wahrscheinlichkeit von 0,276% für eine Person beliebigen Geschlechts, an Parkinson zu erkranken. Wichtig ist hier, dass das nicht genau der Mittelwert zwischen P(A|B)=0.00309 und P(A|B¯)=0.00241 ist, sondern dass diese Werte mit dem Geschlechterverhältnis gewichtet werden, das zwar nahe an 50/50 liegt, aber eben nicht genau gleich ist.

Mehr als zwei Gruppen in B

Man kann die totale Wahrscheinlichkeit auch bestimmen, wenn es sich um mehr als zwei Gruppen handelt. Dann arbeitet man nicht mit den beiden Ereignissen B und B¯, sondern z.B. mit drei Ereignissen B1, B2, und B3. Wichtig ist hier, dass diese Gruppen disjunkt sind, d.h. dass sie sich nicht überschneiden. Die Folge dieser Voraussetzung ist, dass sich ihre Wahrscheinlichkeiten zu 1 summieren, dass also jedes mögliche Ereignis in eines, und genau eines der drei Unterereignisse fällt:

P(B1)+P(B2)+P(B3)=1

Für drei Untergruppen (und analog auch für beliebig viele Untergruppen) des Ereignisses B bestimmt man die totale Wahrscheinlichkeit wie folgt:

P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+P(A|B3)P(B3)