In diesem Artikel wird nun – aufbauend auf das einführende Beispiel – beschrieben, wie man die Regressionsgerade für unsere Beispieldaten berechnet und einzeichnet. Zur Wiederholung:
Wir möchten die Ringgröße (
Person |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
Körpergröße |
156.3 | 158.9 | 160.8 | 179.6 | 156.6 | 165.1 | 165.9 | 156.7 | 167.8 | 160.8 |
Ringgröße |
47.1 | 46.8 | 49.3 | 53.2 | 47.7 | 49.0 | 50.6 | 47.1 | 51.7 | 47.8 |
Wir nennen hier
Diese Daten können wir nun in ein Streudiagramm einzeichnen, und erkennen sofort, dass größere Frauen tendenziell auch größere Ringe brauchen:
Die Regression ist nun eine statistische Methode, um die bestmögliche Gerade zu finden, die man durch diese Daten legen kann. Eine Gerade wird ja definiert durch zwei Parameter
Manchmal sieht man übrigens statt
Berechnung der Parameter und
Wenn wir also die bestmögliche Gerade finden wollen, die wir durch diese Punktwolke an Daten legen können, ist das gleichbedeutend damit, dass wir die bestmöglichen Werte für
Die Formel für
Die Werte
Eine kürzere Formel für die Berechnung von
Die Formel für
Dabei ist
Beispielaufgabe
Wir berechnen hier die Werte
Genauso erhält man dann auch
Zum Berechnen von
Bestimmen der Werte und
Zuerst brauchen wir Zwischenergebnisse, wo wir von jedem Wert den zugehörigen Mittelwert abziehen. Aus der Tabelle
Person |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
Körpergröße |
156.3 | 158.9 | 160.8 | 179.6 | 156.6 | 165.1 | 165.9 | 156.7 | 167.8 | 160.8 |
Ringgröße |
47.1 | 46.8 | 49.3 | 53.2 | 47.7 | 49.0 | 50.6 | 47.1 | 51.7 | 47.8 |
werden also die folgenden Werte berechnet:
Person |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
-6.55 | -3.95 | -2.05 | 16.75 | -6.25 | 2.25 | 3.05 | -6.15 | 4.95 | -2.05 | |
-1.93 | -2.23 | 0.27 | 4.17 | -1.33 | -0.03 | 1.57 | -1.93 | 2.67 | -1.23 |
Als Beispiel: Der erste Wert für
Berechnen von
Jetzt sind wir nicht weit vom Ergebnis entfernt. Wir brauchen im Zähler der Formel für
Im Nenner der Formel für
Diese Werte berechnen wir nun für alle 10 Personen und können sie (ich runde auf zwei Nachkommastellen) in zwei neue Zeilen der Tabelle einfügen:
Person |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
-6.55 | -3.95 | -2.05 | 16.75 | -6.25 | 2.25 | 3.05 | -6.15 | 4.95 | -2.05 | |
-1.93 | -2.23 | 0.27 | 4.17 | -1.33 | -0.03 | 1.57 | -1.93 | 2.67 | -1.23 | |
12.64 | 8.81 | -0.55 | 69.85 | 8.31 | -0.07 | 4.79 | 11.87 | 13.22 | 2.52 | |
42.90 | 15.60 | 4.20 | 280.56 | 39.06 | 5.06 | 9.30 | 37.82 | 24.50 | 4.20 |
Und wenn man sich jetzt nochmal die Formel für
und
Somit können wir also
Berechnen von
Der Wert
Einzeichnen der Regressionsgerade
Wir haben also nun die letztendliche Regressionsgerade berechnen können:
Um die Gerade dann einzuzeichnen, reicht es, zwei Punkte zu bestimmen, indem wir irgendwelche
Die Punkte
Vorhersage bei der einfachen linearen Regression
Bisher haben wir gelernt, wie man die beiden Koeffizienten
Das Ziel, das wir mit der Regression erreichen wollen, ist nämlich folgendes: Angenommen es kommt eine neue Person, von der wir nur die Körpergröße
Bei der einfachen linearen Regression gibt es ja nur eine Einflussgröße
Um eine Vorhersage für die Zielgröße
Als Beispiel: Im Beispiel aus dem vorherigen Artikel haben wir die Werte
Ein Ring mit der Größe 51 sollte also gut bei ihr passen.
Es ist hier noch wichtig zu erwähnen, dass wir nur den Erwartungswert von
wobei
Dieser Fehler heißt meistens Residuum, aber man trifft ihn auch manchmal unter den Namen Fehlerterm oder Epsilon an.
Hallo Alex, sehr übersichtliche Zusammenfassung vielen dank dafür.
Was mir gerade in den Sinn kommt. Würden sich nicht jeweils eine Klammer mit (xi – MittelwertX) herauskürzen?
Liebe Grüße
Benjamin
Hi Benjamin,
das darf man hier nicht kürzen, weil es eine Summe ist. Wenn du das Summenzeichen mal evtl. mit einem Beispiel von n=2 ausschreibst, siehst du dass man die Terme nicht kürzen darf.
VG
Alex
Hey Alex,
Super Zusammenfassung, danke dir!
2 Fragen:
Warum teilst du 131,39 nicht durch n (also 10)?
und wieso bei 463,2 ebenfalls nicht durch n?
Weil eigentlich teilt man ja bei der Varianz für das unabhängige Mittel X und bei der Kovarianz von X und Y in beiden Fällen durch N?
Liebe Grüße und ein schönes Wochenende,
Christin
Die beiden 1/10 kann man in dem Bruch rauskürzen. Du kannst alternativ auch beide Zahlen durch 10 teilen, und danach den Bruch ausrechnen (13.139 / 46.32), und dann kommt dasselbe Ergebnis raus 🙂
Erstmal vielen Dank für die super einfach beschriebenen Informationen. In Fachbüchern denk ich mir meistens: Gut, und was bedeutet das jetzt?
Folgende Frage: a und b sind also Regressionsparameter? Oder wird der Begriff für etwas anderes verwendet? Noch mal vielen Dank!
Genau, a und b sind die Parameter, die geschätzt werden.
Hallo Yannick!
„Folgende Frage: a und b sind also Regressionsparameter? Oder wird der Begriff für etwas anderes verwendet?“
Das ist ja eine Frage zu den Begrifflichkeiten, also quasi, was Regressionsparameter eigentlich heißt, wenn ich dich richtig verstehe. Regression bedeutet so viel wie „Rückführung“. Im vorliegenden Fall wird die Ringgröße auf die Körpergröße zurückgeführt. Dabei wird angenommen, dass es einen einfachen linearen Zusammenhang gibt, das Ganze also als eine Gerade dargestellt werden kann. Jede Gerade kann man durch zwei Parameter beschreiben: den Schnittpunkt mit der y-Achse (b) und die Steigung (b). Daher kommt der Name Regressionsparameter. Es kann sich dabei aber auch um mehr als zwei Parameter handeln, wenn es nicht um die einfache lineare Regression geht. Beispielsweise könnte die Ringgröße auch vom Gewicht abhängen, dann würde man das auf eine Ebene im dreidimensionalen Raum zurückführen und braucht dafür 3 Regressionsparameter.
Du hättest mich aber auch direkt fragen können, lieber Arbeitskollege! 😉
Viele Grüße
Hejko
Tolle Erklärung Danke 😀 aber ich habe mal eine Frage ich, bei diesen Daten würde ja jetzt eine Autokorrelation bestehen?
zumindest habe ich mit dem DW-Test die Zahl DW= 3,4 ermitteln könnnen.
Also wird da ja theoretisch die Modellanahme zur Verwendung eines Einfachen Linearen Regressionsanalyse verletzt oder ?
Hallo lieber Alex,
bin totaler Neuling und frage mich
was setzt du den genau für ∑𝑖=1𝑛(𝑥𝑖−𝑥¯)⋅(𝑦𝑖−𝑦¯) und ∑𝑖=1𝑛(𝑥𝑖−𝑥¯)2 um auf das Ergebnis zu kommen?
Mit freundlichen Grüßen
Hi,
zur Schreibweise helfen dir diese Artikel hoffentlich weiter:
https://www.crashkurs-statistik.de/das-summenzeichen-und-rechenregeln/
https://www.crashkurs-statistik.de/lageparameter-mittelwert-median-modus/#mittelwert
Viele Grüße
Alex
Danke sehr gut erklärt schade das man im Studium so eine einführung nicht bekommt 🙂
Hii Alex,
wie müsste ich a und b berechnen, wenn ich z.B y=a+b×x^2 hätte? Kann ich da die Werte quadrieren und in cov-Formel einsetzen und wie bisher rechnen?!
Genau. Wenn deine x-Werte 1, 3, 4 sind, dann ersetze sie einfach durch 1, 9, 16, und rechne mit den Werten die üblichen Formeln aus.
Pingback: Lineare Regression und Anwendung in Python – Statis Quo
Hey Alex, deine Erklärungen sind sehr hilfreich und ich bin sehr dankbar für deine Arbeit.
Es gibt aber noch eine Sache, die mir nicht so ganz klar ist. Der Parameter a ist eigentlich der Y-Achsenabschnitt für x=0. Auf deiner Grafik sieht man das nicht direkt aber wenn die Gerade noch weiter nach links verlaufen würde, dann wäre es der Punkt (0, 2.8457). Die Körpergröße = 0? Verstehe ich das richtig?
Danke
VG
Aleks
Genau 🙂
Danke, jetzt habe Ichs auch kapiert, sehr sehr gut erklärt und vor allem so ausführlich.
Danke!!!
Hey Alex, ich habe so vieles im Internet recherchiert über das Thema und hatte es nie wirklich verstanden, aber dein Blog hat mir super geholfen. Ich habe es nun verstanden *freu*
Hey wirklich guter Blog!
Du rettest viele BWL Studenten damit…werde ich definitiv weiterempfehlen
Wow, vielen Dank für deine so toll verständlichen Beispiele und Formulierungen.
Ich schreibe bald mein Statistik 2 – Klausur. Leider hab ich die ANOVA- Themen auch noch nicht ganz drin, aber deine bisherigen Beiträge, die ich bisher nutzen konnte, sind wirklich Gold wert. 🙂
Weiter so.
Unglaublich gut, was man mit klarer, unprätentiöser Sprache so alles erreichen kann.
Hallo,
also ein wirkllich sehr gelungener Blog. Was 10 skripte zusammn nicht erklären können, schaffst du in 10 Min. Empfehle ich weiter.
Tip Top!
VG
Sebastian
Vielen Dank, lieber Alex, für diese hilfreichen Erklärungen! Ich bestreite meinen gesamten Biometriekurs mit diesem Blog und bin nun zuversichtlich auch die Prüfung zu bestehen 🙂 du erklaerst das einfach super
LG Alice
Hi Alex,
da ich im Verbundstudium nur kurze Infos bekomme wollte ich mich für deinen Post bedanken! Hat mir in etwas mehr als einer Stunde erklärt, was der Dozent in 4 Stunden nicht geschafft hat 😉
Ich wollte mich einfach mal für diese Erklärung bedanken – hat mir sehr geholfen… Danke!
Hi Alex, ich hätte da eine Frage btw.. deine Einträge sind spitze.. aber eine Frage drängt sich mir auf..
Wir haben ja die Y-Werte bestimmt.. mit Y= 48,22 und 51,06. Woher kommen dann auf einmal beim Einzeichnen die Werte 47,64 und 50,44. Vielleicht habe ich auch etwas übersehen?.. Aber das geht mir gerade nicht ein.. Danke
Ohweia, das war ein Fehler von mir. Ich habe da mal die Zahlen verändert, und ganz unten vergessen, sie anzupassen. Die 48.22 und 51.06 sind natürlich richtig, die anderen Zahlen waren falsch. Sorry – ich habs gerade korrigiert.
Danke für den Hinweis 🙂
Alex
Hallo und Dankeschön, das hat mir sehr geholfen! Allerdings habe ich eine Frage zur Kovarianz bzw. zur Berechnung von b. Über dem Bruchstrich steht ja im Prinzip die Kovarianz s(x,y). Muss man diese jetzt nicht noch durch n (also 10) teilen? (Laut manchen Formelsammlungen soll man auch durch n-1 teilen).
Jedenfalls weicht mein Ergebnis für b dadurch um eine Kommastelle von dieser Lösung hier ab.
Sind das einfach verschiedene Annäherungen, oder ein Fehler in meiner Formelsammlung?
Hi,
eigentlich müsste man im Zähler und im Nenner durch n-1 teilen, ja. Da man das aber oben und unten macht, kürzt sich der Faktor wieder raus.
VG,
Alex