You are on page 1of 38

Statistik

11. STATISTIK
11.1. Begriffsbestimmung
Die Statistik ist wie auch die Wahrscheinlichkeitsrechnung ein Wissensgebiet der sogenannten Stochastik. Die Stochastik kann man als die Lehre von zuflligen Vorgngen bzw. Ereignissen beschreiben. Als zufllige Ereignisse bezeichnet man Vorgnge, deren Ausgnge nicht genau vorhersagbar sind. Es ist nicht einmal sicher, ob die Ereignisse eintreten werden. Der Begriff zufllig im Sinn der Stochastik mu jedoch genau festgelegt werden.

Eine zufllige Auswahl ist eine Auswahl, bei der jedes Element die gleiche Chance hat, ausgewhlt zu werden; d.h. keines der Elemente darf bevorzugt oder benachteiligt werden. Das Ergebnis darf nicht von subjektiven Eindrcken des Auswhlenden abhngen. Beispiele: Es drfen reprsentative Umfragen in Haushalten nicht nur vormittags durchgefhrt werden, da zu diesem Zeitpunkt nur ein bestimmter Personenkreis (Berufsttige fehlen) erfat wrde. Eine zufllige Auswahl aus einer Personengruppe sollte nicht aus den Personen direkt getroffen werden (sympathisches oder weniger sympathisches Aussehen), sondern z.B. durch Zuordnen von Nummern und Ziehen aus einer Urne gettigt werden.
Die Statistik kann nun folgendermaen beschrieben werden:

Die Statistik ist die Gesamtheit aller Methoden zur Untersuchung von Massenerscheinungen und umfat die Bereiche beschreibende Statistik und beurteilende Statistik.

- 137 -

Statistik

Die beschreibende Statistik hat die Aufgabe, Datenmaterial zu sammeln, zu ordnen, bersichtlich darzustellen und daraus bestimmte Kennzahlen zu berechnen. Weiters sollen aus dem gesammelten Datenmaterial einer mglichst umfangreichen Stichprobe Wahrscheinlichkeiten fr die Gesamtheit geschtzt werden. Somit ist die beschreibende Statistik eine Hilfswissenschaft der Wahrscheinlich-keitsrechnung. Die beurteilende Statistik hat die Aufgabe, mit Hilfe der Wahrscheinlichkeitsrechnung abzuschtzen, wie gerechtfertigt ein Rckschlu aus einer Stichprobe auf die Gesamtheit ist (Testen von Hypothesen). Somit ist in diesem Fall die Wahrscheinlichkeitsrechnung eine Hilfswissenschaft der beurteilenden Statistik. Im folgenden Abschnitt wird nur auf die beschreibende Statistik eingegangen.

11.2. Methoden der Statistik


(a) Erhebung und Aufbereitung von Datenmengen

In jeder statistischen Untersuchung mu eine groe Zahl von Daten erhoben und ausgewertet werden. Dies kann auf zwei Arten erfolgen; nmlich einerseits durch sekundrstatistische Erhebungen, d.h. Zurckgreifen auf bereits vorhandene Daten aus statistischen Jahrbchern, amtlichen Statistiken, Fachliteratur, etc. oder andererseits durch primrstatistische Erhebungen, wenn z.B. neue Untersuchungen ntig sind.

Beispiele: - In einer Schule sollen zur Durchfhrung von Schilanglaufkursen zentral die Ausrstungen angeschafft werden. Um zu wissen, wieviele Stck pro Gre fr die nchsten Jahre gekauft werden sollen, wird ein Fragebogen an alle 560 Schler ausgegeben, in dem nach Krpergre und Schuhnummer gefragt wird. Die durchschnittliche Lebensdauer einer neuentwickelten Glhbirne soll bestimmt werden. Dazu werden 1000 Glhbirnen einer Dauerbelastung unterzogen und aus den gemessenen Brennzeiten die durchschnittliche Lebensdauer errechnet.

- 138 -

Statistik

- Ein neues Medikament gegen Allergien soll auf den Markt gebracht werden. Um dessen Wirksamkeit zu testen, wird eine Gruppe von 300 Allergikern gezielt unterschiedlichen Dosen ihres Allergens ausgesetzt und anschlieend die Wirkung auf Augenrtung und Nasenschleimhautschwellung mit und ohne Medikament genau beobachtet und aufgezeichnet. Die Methoden der Datenerhebung sind dabei: schriftliche oder mndliche Befragung; Experiment (Messung); Beobachtung.
Aus jedem der obigen Beispiele knnen nun Aussagen gewonnen werden, die bestenfalls so gut sind, wie die Daten, auf die sie sich beziehen. Aus ungenauen Erhebungen sind keine sinnvollen Aussagen mglich. So mssen z.B. beim Glhbirnentest alle Lampen mit gleicher Spannung und Stromstrke versorgt werden. Allen Beispielen ist folgendes gemeinsam:

In jeder Datenerhebung wird eine Gesamtheit von n Elementen auf ein (oder mehrere) Merkmal(e) x, (y, ...) hin untersucht. Beispiele: Gesamtheit n: - Menge von 560 Schlern n = 560 - Menge von 1000 Glhbirnen n = 1000 - Menge von 300 Allergikern n = 300 Merkmal x (Variable) Krpergre, Schuhnummer Brenndauer Augenrtung, Schleimhautschwellung

(b) Ordnen der Daten und Ermitteln von Hufigkeiten


Zum Ordnen der Daten mu zunchst festgestellt werden, ob das untersuchte Merkmal x in einer endlichen Zahl (diskrete Variable) oder unendlichen bzw. sehr groen Zahl (kontinuierliche Variable) von Merkmalausprgungen (Variablenwerten) vorkommt. Am Beginn des Datenordnens steht das Ordnen der Daten nach ihrer Gre, sofern es sich um quantitative Daten handelt.

- 139 -

Statistik

Zustzlich ist es meist notwendig, eine Klasseneinteilung durchzufhren. Eine Klasseneinteilung ist die Unterteilung des Variablenwertesbereichs in zueinander elementfremde Teilbereiche. Ein solcher Teilbereich wird als Klasse bezeichnet. Bei quantitativen Daten nennt man die Differenz zwischen grtem und kleinsten Wert einer Klasse die Klassenbreite. Bei Klasseneinteilungen mssen die einzelnen Klassen darberhinaus nicht gleiche Klassenbreite aufweisen.

Die Einteilung in elementfremde Bereiche einer Datenmenge bezeichnet man als Klasseneinteilung. Beispiele: In der Befragung von 560 Schlern einer Schule nach ihren Schuhgren traten die Gren 36 bis 46 auf. D.h. das Merkmal Schuhgre trat in 11 Ausprgungen in den Variablenwerten x1 = 36; x2 = 37; x3 = 38; ... , x11 = 46 auf und somit in einer endlichen Anzahl. - Bei der Brennzeit von Glhbirnen knnen beliebige Zeiten zwischen wenigen Minuten und ber 15000 Stunden auftreten, bis ein Defekt eintritt. Man mu daher zunchst eine Mindestbrenndauer festlegen, unter der alle Testglhbirnen als defekt gelten und daher fr die Bewertung der Brenndauer einer intakten Glhbirne nicht in Betracht kommen und aus der Wertung genommen werden. Fr die verbleibenden n Brennzeiten, die in die Statistik aufgenommen werden, wird es auch nicht sinnvoll sein, jede Zeit als eigene Merkmalsausprgung auszuwerten, sondern man wird eine geeignete Einteilung (Klasseneinteilung) vornehmen. Das Merkmal Brenndauer wird im folgenden mit x bezeichnet.
Klasse 1 Klasse 2 Klasse 3 Klasse 4 Klasse 5 ... Klasse 15 13000 Std. x < 13200 Std. 13200 Std. x < 13400 Std. 13400 Std. x < 13600 Std. 13600 Std. x < 13800 Std. 13800 Std. x < 14000 Std. ... 15800 Std. x < 16000 Std.

- 140 -

Statistik

Somit hat man die zunchst beraus zahlreichen Zeiten (aber nicht unendlich vielen) auf 15 Klassen, d.h. 15 Variablenwerte, reduziert. Zweckmigerweise whlt man dazu eine konstante Klassenbreite - hier 200 Stunden. Liegen nach Auswertung der Meergebnisse vielleicht in den Klassen 11 bis 15 nur noch sehr wenige Elemente (Glhbirnenbrenndauern), so knnten diese zu einer Klasse 11 mit x 15000 Std. zusammengefat werden. Auf diese unterschiedliche Klassenbreite mu jedoch in einer graphischen Darstellung des Sachverhalts Rcksicht genommen werden, um nicht zu einer falschen Interpretation des Ergebnisses zu kommen.

Der Grad der Augenrtung von untersuchten Allergikern tritt kontinuierlich in unendlich vielen Rottnen (unendliche Variablenwertanzahl, also kontinuierliche Variable) auf und kann daher nur auf Grund der Megenauigkeit der optischen Analysegerte in Klassen eingeteilt werden, z.B.
Klasse 1 Klasse 2 Klasse 3 Klasse 4 keine Rtung leichte Rtung mittlere Rtung starke Rtung

D.h. die Variable x = Augenrtung tritt somit nur noch in 4 Variablenwerten x1, x2, x3, x4 auf.

Ist das Einteilen und Ordnen der Daten aus der sogenannten Urliste abgeschlossen, kann mit der Auszhlung der einzelnen Daten mit jeweils einer bestimmten Merkmalsausprgung xi (i, 1ik; k ist die Anzahl der verschiedenen Variablenwerte des Merkmals x) begonnen werden. Diese Anzahl wird als absolute Hufigkeit Hi bezeichnet.

Die Anzahl der Elemente mit jeweils der gleichen Merkmalsausprgung wird als die absolute Hufigkeit Hi bezeichnet.
Die Ermittlung der absoluten Hufigkeit kann fr die einzelnen Daten oder aber auch fr die einzelnen Klassen erfolgen.

- 141 -

Statistik

Beispiel:

ad Beispiel Schuhgre
xi ... Schuhgre x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 insgesamt 36 37 38 39 40 41 42 43 44 45 46 Hi ... Schlerzahl 6 45 82 98 87 84 51 23 48 31 5 H1 H2 H3 H4 H5 H6 H7 H8 H9 H10 H11 560 = n

Bei diesem Vorgang gilt:

Die Summe aller absoluten Hufigkeiten mu die Anzahl der Elemente der Gesamtheit ergeben:

H
i=1

=n

Die absolute Hufigkeit eines bestimmten Variablenwertes ist als alleinige Angabe ohne die Kenntnis der Gesamtzahl n nicht aussagekrftig, denn 90 von 100 sind sehr viele, 90 von 1000 sind relativ wenige; daher sagt die Zahl 90 alleine nichts aus. Aus diesem Grund whlt man fr die Angabe der Hufigkeit einer Merkmalsausprgung xi blicherweise die relative Hufigkeit hi .

Die relative Hufigkeit betrgt:

hi =

Hi n

0 hi 1

Hufig wird die relative Hufigkeit auch in Prozent von der Gesamtheit n ausgedrckt:

Die relative prozentuelle Hufigkeit betrgt:

h i (%) =

Hi 100 n

0% hi(%) 100%

- 142 -

Statistik

Beispiele: H1 6 $ 1,07% = = 0,0107 = 560 560 H 45 $ 8,04% = 2 = = 0,0804 = 560 560 H 82 $ 14,64% = 3 = = 0,1464 = 560 560 H 98 $ 17,50% = 4 = = 0,175 = 560 560 H 87 $ 15,54% = 5 = = 0,1554 = 560 560 H 84 $ 15,00% = 6 = = 0 ,15 = 560 560

ad Beispiel Schuhgre
H7 560 H = 8 560 H = 9 560 H = 10 560 H = 11 560 51 560 23 = 560 48 = 560 31 = 560 5 = 560 =

h1 = h2 h3 h4 h5 h6

h7 = h8 h9 h10 h11

$ 9,11% = 0,0911 = $ 4,11% = 0,0411 = $ 8,57% = 0,0857 = $ 5,54% = 0,0554 = $ 0,89% = 0,0089 = $ 100% h = 1=
i i =1 11

Brenndauer in Stunden xi x1 = Klasse 1 = [13000;13200) x2 = Klasse 2 = [13200;13400) x3 = Klasse 3 = [13400;13600) x4 = K4 x5 = K5 x6 = K6 x7 = K7 x8 = K8 x9 = K9 x10 = K10 x11 = K11 x12 = K12 x13 = K13 x14 = K14
15

ad Beispiel Brenndauer
Hi 7 8 11 42 65 96 104 173 105 143 108 72 34 22 10
15

hi(%)

$ 0,7% 0,007 =
$ 0,8% 0,008 = $ 1,1% 0,011 =

. . . . . . . . . . .

$ 4,2% 0,042 =
$ 6,5% 0,065 =

$ 9,6% 0,096 =
$ 10,4% 0,104 = $ 17,3% 0,173 =

$ 10,5% 0,105 =
$ 14,3% 0,143 =

$ 10,8% 0,108 =
$ 7,2% 0,072 = $ 3,4% 0,034 =

$ 2,2% 0,022 =
$ 1,0% 0,010 =
$ 100% h =1 =
i i =1

x15 = Klasse 15 = [15800;16000)


n=

i =1

Hi = 1000

- 143 -

Statistik

ohne Einnahme des Medikamentes Augenrtung xi x1 keine Rtung x2 leichte Rtung x3 mittlere Rtung x4 starke Rtung Hi 3 12 129 156 n = 300

ad Beispiel Allergiker
nach Einnahme des Medikamentes Hi 42 102 96 60 n = 300

$ hi(%) hi =
$ 1% 0,01 = $ 4% 0,04 =

$ hi(%) hi =
$ 14% 0,14 = $ 34% 0,34 =

$ 43% 0,43 =
$ 52% 0,52 =

$ 32% 0,32 =
$ 20% 0,2 =

$ 100% 1 =

$ 100% 1 =

Abgesehen von ungenauen Rundungen mu immer gelten:

hi = 1
i=1

h (%) = 100%
i i =1

(c) Graphische Darstellungen


Die relativen Hufigkeiten lassen sich in verschiedenen Diagrammen, sogenannten Histogrammen, darstellen, um einen berblick ber die Hufigkeitsverteilung zu gewinnen.

Stabdiagramm
98 82 45

100

Beispiele: Anzahl der Schler mit der jeweiligen Schuhgre


Hi

87 84 51 23 48 31 5

80 60 40 20 0 36 37 38 39 40 41 42 43 44 45 46 6

Schuhgre

- 144 -

Statistik

Augenrtung nach Einnahme des Medikamentes

35 30 25 20 hi (%) 15 10 5 0

34

32 20

14 keine leichte mittlere starke

Augenrtung

Kreisdiagramm

starke

keine

Beispiel: Augenrtung nach Einnahme des Medikamentes


mittlere leichte

Sulendiagramm
100% 20 starke

Beispiel: Augenrtung nach Einnahme des Medikamentes

80% 60% 40% 20% 0% 14 keine 32 mittlere

34

leichte

In allen Darstellungen sind die Hhen der Rechtecke, Lnge der Stbe, Winkel der Kreisausschnitte bzw. Hhen der Sulenabschnitte proportional zu den Hufigkeiten.

Lngen und Winkel in Histogrammen sind proportional zu den Hufigkeiten.

- 145 -

Statistik

Sind die Variablenwerte xi Klassen von quantitativen Daten wie im Beispiel Brenndauer und whlt man als graphische Darstellung der Hufigkeiten Rechtecke, wobei die Rechtecksbreite mastabsgetreu der Klassenbreite entspricht, so sind die Hufigkeiten nur dann proportional zu den Rechteckshhen, wenn die Klassen alle gleich breit sind. Bei unterschiedlicher Klassenbreite mu immer beachtet werden, da die Flcheninhalte der Rechtecke in einem Histogramm proportional zu den entsprechenden Hufigkeiten sein mssen.

Histogramm bei Klasseneinteilung

Hhe =

H ufigkeit Klassenbreite

Beispiel:

ad Beispiel Brenndauer

Die Klassenbreiten haben alle die gleiche Breite, nmlich 200 Stunden. Im Histogramm sind die Hhen aller Rechtecke also proportional zu den Hufigkeiten. Fat man die ersten drei Klassen zusammen, also zu [13000;13600), zu sind in dieser neuen Klasse mit der Klassenbreite 600 nun 26 Lampen enthalten. Im Histogramm ist die Hhe der neuen Klasse jedoch nicht 26 Einheiten hoch einzuzeichnen, sondern durch 3 zu dividieren, da die Klasse dreimal so breit ist.

180 160 140 120 100 Hi 80 60 40 20 0 K11 K13 K15 K1 K3 K5 K7 K9

180 160 140 120 100 Hi 80 60 40 20 0 K11 K13 K1 K3 K5 K7 K9

Brenndauer

Brenndauer

Das zweite Histogramm weist aufgrund der Zusammenfassung dreier Klassen nur mehr 13 Klassen auf. Im speziellen ist die Klasse K1 nur 26 : 3 = 8,67 Einheiten hoch gezeichnet. Wird bei der Darstellung in Histogrammen die Klassenbreite nicht entsprechend bercksichtigt, so vermitteln die Histogramme einen falschen Eindruck. Oftmals wird dies jedoch bewut zur Manipulation des Betrachters verwendet.

- 146 -

Statistik

11.3. Zentralmae
Meist versucht man in der Statistik die Vielzahl der aufgenommenen Daten durch eine Zahl zu ersetzen, welche die ganze Liste mglichst gut reprsentiert. Solche Zahlen bezeichnet man als Zentralmae. Es gibt verschiedene solche Zentralmae: Minimum, Maximum, Spannweite, Modus, Median, Quartilen und diverse Mittelwerte. Im folgenden wird zwischen direkt ablesbaren Zentralmaen, die ohne Berechnung aus der Datenmenge ermittelt werden knnen, und den Mittelwerten, die sich erst nach Berechnung ergeben, unterschieden.

(a)

Direkt ablesbare Zentralmae

Das Minimum min ist naheliegender Weise der kleinste Wert der Datenmenge, das Maximum max entsprechend der grte Wert der Datenmenge. Als Spannweite S bezeichnet man die Differenz zwischen Maximum und Minimum. Der Modus oder Modalwert M ist der Variablenwert mit der grten Hufigkeit. Er wird dann eine Liste gut reprsentieren, wenn die Hufigkeit des Modus viel grer als die Hufigkeit der brigen Werte ist und auerdem die meisten auftretenden Variablenwerte in der Nhe des Modus liegen. Der Median oder Zentralwert Z ist der in der Mitte stehende Variablenwert der der Gre nach geordneten Liste der Variablenwerte. Der Median ist also nicht geeignet als Zentralma fr rein qualitative Variablen (z.B. Haarfarbe von n Personen). Zu Ermittlung mu man zunchst alle n Werte der Gre nach ordnen, wobei gleiche Werte mehrmals ihrer Hufigkeit entsprechend angeschrieben werden x1 x2 x3 ... xn. Dann gilt:
Z= 1 x n + x n falls n gerade bzw. Z = x n+1 falls n ungerade + 1 2 2 2 2

Bei einer geraden Anzahl von Werten ergibt sich also der Median aus dem Mittelwert der beiden in der Mitte stehenden Werte. Bei einer ungeraden Anzahl von Werten ist der Median der in der Mitte stehende Wert. Der Median teilt die Liste aller Werte in zwei gleich groe Teile, nmlich in die Menge der darunter-liegenden und die der darberliegenden Werte. Manchmal ist es von Interesse, die Datenliste nicht nur in zwei gleich groe Teile zu teilen, sondern in vier Bereiche, in denen jeweils gleich viele Werte liegen. Die Grenzen dieser Viertel sind durch die sogenannten

- 147 -

Statistik

Quartilen gegeben. Der untere Quartil oder 1. Quartil Q1 ist der Median der 1. Hlfte der Werte; der obere Quartil oder 3. Quartil Q3 ist der Median der 2. Hlfte der Werte.

Beispiel:

Bei einem Wettrennen von 20 Lufern wurden folgende Zeiten gemessen (Liste in geordneter aufsteigender Reihenfolge). 9,2s; 9,3s; 9,3s; 9,4s; 9,4s; 9,5s; 9,6s; 9,6s; 9,6s; 9,8s; 9,9s; 9,9s; 10,0s; 10,0s; 10,0s; 10,0s; 10,1s; 10,1s; 10,2s; 10,3s. Ein Lufer mit der Zeit 9,6s will wissen, ob er im besten Viertel liegt. Ermitteln Sie zustzlich alle bisher bekannten Zentralmae.

In diesem Fall sucht man also die Quartilen. Da n=20 gerade ist, ist der Median der Mittelwert zwischen 10. und 11. Wert der Liste, also

Z = (x10 + x11) = (9,8 + 9,9) = 9,85


Der 1. Quartil ist der Median der unteren Hlfte, und da nun n=10, ist der 1. Quartil der Mittelwert zwischen 5. und 6. Wert der Liste, also

Q1 = (x5 +x6) = (9,4 + 9,5) = 9,45 Der Lufer liegt nicht im besten Viertel.
Der Lufer liegt im zweiten Viertel, d.h. in der besseren Hlfte, aber nicht im besten Viertel. Er ist aber wesentlich besser als der Modus M = 10,0s. Abschlieend die fehlenden Zentralmae:

Q3 = (x15 + x16) = (10,0 + 10,0) = 10,0 min = 9,2; max = 10,3; S = 1,1; M = 10
Zu den bisherigen Zentralmaen ist anzumerken, da kein Wert alleine die Datenliste gut reprsentieren kann. Erst durch das Wissen mehrerer Zentralmae kann man einen vereinfachten berblick ber die Datenliste erhalten. Zur Reprsentation einer Datenliste von quantitativen Daten durch einen alleinigen Wert verwendet die Statistik meist einen der sogenannten Mittelwerte. Da sich diese aus der Datenliste errechnen lassen und daher jeder Wert der Datenliste verwendet wird, sind diese ungleich reprsentativer als die bisherigen Zentralmae. Trotzdem mu klar bleiben, da ein einzelner Wert keinen berblick ber eine Datenliste geben kann.

- 148 -

Statistik

(b)

Mittelwerte

Zur Reprsentation einer Datenliste von quantitativen Daten verwendet die Statistik meist den arithmetischen Mittelwert x . Die Merkmalsausprgungen mssen durch Zahlen angegeben sein, welche nicht nur Verschiedenartigkeit und Rangordnung ausdrcken, sondern mit deren Hilfe auch Abstnde zwischen den Merkmalsausprgungen angegeben werden knnen.

Man nennt x =

x 1 + x 2 + ... + x n 1 n = x i das arithmetische Mittel der reellen Zahlen xi. n n i=1

Zur Berechung des arithmetischen Mittels werden also alle Wert addiert und diese Summe durch die Anzahl der Werte dividiert. Sind die xi nicht alle verschieden, sondern treten mehrere gleiche Daten auf, so fertigt man zunchst eine Hufigkeitstabelle an. Sind dann x1, x2, ..., xk alle verschiedenen Variablenwerte mit den absoluten Hufigkeiten H1, H2, ..., Hk und den relativen Hufigkeiten h1, h2, ..., hk, dann gilt:
x= x1 H1 + x2 H2 + ... + xk Hk 1 = n n
k

x H
i i=1 k

bzw.

x = x1

H1 H H + x2 2 + ... + xk k = x1 h1 + x2 h2 + ... + xk hk = n n n

x h
i i=1

Das arithmetische Mittel ist vor allem dann das geeignete Zentralma, wenn es um Summenbildung geht, denn x ist jene Zahl, fr die gilt: n x = x1H1 + x2H2 + ... +xkHk =

x
i=1

Das arithmetische Mittel ist also jene Zahl, die man n-mal addieren knnte, um die gleiche Summe aller tatschlichen Werte x1, x2, x3, ..., xn zu erhalten. Die Formel fr den arithmetischen Mittelwert unter Bercksichtigung der Hufigkeiten der Variablenwerte wird auch gewogenes arithmetisches Mittel der Variablenwerte x1, x2, x3, ..., xk mit den Gewichten h1, h2, h3, ..., hk genannt.

Gewogenes arithmetisches Mittel:

1 k x = x i Hi = n i =1

x
i=1

hi

- 149 -

Statistik

Beispiele: ad Beispiel Schuhgre n = 560 Schuhgren von x1 = 36 bis x11 = 46


6 36 + 45 37 + 82 38 + 98 39 + 87 40 + 84 41 + 51 42 + 23 43 + 48 44 + 31 45 + 5 46 560

x =

x = 40,38
ad Beispiel Brenndauer n = 1000 Brenndauer von Glhbirnen von 13000 Stunden bis 16000 Stunden in 15 Klassen eingeteilt.
Zur Berechnung des Mittelwertes ersetzt man die einzelnen Klassen durch den Mittelwert der jeweiligen Klassengrenzen:
1 (131007+133008+1350011+1370042+1390065+1410096+14300104+14500173+ 1000

x=

+14700105+14900143+15100108+1530072+1550034+1570022+1590010 )
x

=14612,8 Stunden

Es wird daher sinnvoll sein, die mittlere Brenndauer der Glhbirne mit ca. 14600 Stunden anzugeben.

ad Beispiel Allergiker n = 300 Augenrtung mit Medikament in 4 Klassen eingeteilt

Um den Mittelwert zu berechnen, ersetzt man die qualitativen Werte der einzelnen Klassen durch Zahlen z.B. x1 = 1; x2 = 2; x3 = 3; x4 = 4
x = 42 1 + 102 2 + 96 3 + 60 4 300

x =2,58; also beim bergang von der 2. zur 3. Klasse


Im Schnitt hatten die Patienten mit Medikamenteneinnahme eine leichte bis mittlere Augenrtung.

- 150 -

Statistik

Der Vollstndigkeit halber sei erwhnt, da es zur Mittelwertbildung nicht nur die Mglichkeit des arithmetischen Mittels gibt, sondern auch noch das geometrische Mittel und das harmonische Mittel. In der Statistik ist jedoch meist das arithmetische Mittel von Bedeutung.
$ x

Den geometrischen Mittelwert

bentigt man zur Durchschnittsberechnung bei exponentiellen

Wachstums- oder Abnahmeprozessen.

$ = Man nennt x

x 1 x 2 ... x n das geometrische Mittel der reellen Zahlen xi.

Beispiel:

In einem Betrieb wurden in 5 aufeinanderfolgenden Jahren die Produktionszahlen jeweils um 5%; 35%; 105%; 25% und 30% gesteigert. Wie gro ist die durchschnittliche jhrliche Steigerung?

Angenommen man berechnet das arithmetische Mittel aus den Steigerungen:


x= 5 + 35 + 105 + 25 + 30 200 = = 40 5 5

So mte also eine durchschnittliche Steigerung um 40% durch alle 5 Jahre dasselbe Resultat liefern, wie die tatschlichen Steigerungen. Bei einer Ausgangsproduktion P0 ergibt sich dann: P1 (nach einem Jahr) = Po + P2 (nach zwei Jahren) = P1 +
5 P 0 = Po 1,05 100

35 P1 = P1 1,35 = Po 1,05 1,35 usw. 100

und letztendlich fr P5 = Po 1,051,352,051,251,3 = Po 4,722 Mit 40% jhrlicher Steigerung erhlt man fr P5 = P0 1,405 = Po 5,378, also ein wesentlich greres Endresultat. Der arithmetische Mittelwert ist daher nicht zufriedenstellend. Ist p die gesuchte prozentuelle Steigerung, dann mu gelten: Po 1,051,352,051,251,3 = Po(1+
p 5 ) 100

p 5 1 + = 1,05 1,35 2 ,05 1,25 1,3 100 1+ p = 1,364 100 p = 36 ,4

Die durchschnittliche prozentuelle Steigerung durch alle 5 Jahre betrug 36,4%.

- 151 -

Statistik

Die Werte x1, x2, ..., x5 sind also nicht die Prozentzahlen 5, 35, 105, 25 und 30 sondern die Wachstumsfaktoren 1,05; 1,35; 2,05; 1,25 und 1,3. Beim arithmetischen Mittel ndert sich die Summe der Datenliste nicht, wenn man den Mittelwert n-mal anstatt der einzelnen xi addiert. Entsprechend ndert sich beim geometrischen Mittel das Produkt nicht, x ist wenn man den Mittelwert n-mal anstatt der einzelnen x multipliziert. Der harmonische Mittelwert ~
i

immer dann anzuwenden, wenn die Variablenwerte verkehrt proportional zu jener Gre sind, die sich durch die Durchschnittsbildung nicht verndern darf.

Man nennt ~ x=

n 1 1 1 + + ... + x1 x2 xn

das harmonische Mittel der reellen Zahlen xi.

Beispiel:

Ein Rennfahrer fhrt hintereinander 6 Runden mit folgenden mittleren Wie gro ist die mittlere Geschwindigkeit fr alle 6 Runden?

Geschwindigkeiten: 190 km/h, 205 km/h, 185 km/h, 208 km/h 201 km/h und 198 km/h.

Die aufgewendete Gesamtzeit darf sich durch Verwendung des Mittelwertes anstatt der Einzelgeschwindigkeiten nicht ndern. Es gilt:
t = s (t ... Zeit, s ... Weg, v ... Geschwindigkeit) v

v ist also verkehrt proportional zu t


s s s s s s 6s + + + + + = ~ 190 205 185 208 201 198 v

~ = v

6 1 1 1 1 1 1 + + + + + 190 205 185 208 201 198

~ = 197 ,5 km/h v
Mit einer Durchschnittsgeschwindigkeit von 197,5 km/h ber alle 6 Runden htte der Rennfahrer dieselbe Gesamtzeit erreicht. Oftmals wird gerade bei der Berechnung der durchschnittlichen Geschwindigkeit im Alltagsleben fehlerhaft vorgegangen.

- 152 -

Statistik

11.4. Streuungsmae
Die Angabe eines Zentralmaes alleine besagt meist sehr wenig ber die vorliegende Datenliste, wenn nicht bekannt ist, wie stark die einzelnen Werte der Liste vom Zentralma abweichen bzw. um das Zentralma streuen. Eine Mglichkeit, die Streuung von Daten auszudrcken, ist die mittlere (absolute) Abweichung s* vom Zentralma. Man versteht darunter den arithmetischen Mittelwert aller Absolutbetrge der Differenzen aller Listenwerte vom Zentralma (Zm). Die Absolutbetrge sind ntig, da sich sonst im Durchschnitt negative und positive Abweichungen aufheben wrden.

Man nennt s * =

1 n x i Zm die mittlere absolute Abweichung der reellen Zahlen xi von n i=1

einem Zentralma Zm.


x1 x + x2 x + ... + xn x n
n

Whlt man als Zentralma den Mittelwert x , dann gilt :

s* =

1 xi x n i=1

Bei x1, x2, ..., xk verschiedenen Variablenwerten mit den absoluten Hufigkeiten H1, H2, ..., Hk und den relativen Hufigkeiten h1, h2, ... hk ergibt sich dann:
s* = 1 Hi xi x = n i=1

h x x
i i i=1

Zur Berechnung der absoluten Abweichungen ist das geeignetste Zentralma nicht das arithmetische Mittel, sondern der Median, da fr den Median die mittlere Abweichung s* = erreicht. Fr den arithmetischen Mittelwert erreicht die Summe der Quadrate der Abweichungen ihren kleinsten Wert. Diese Behauptung, wie auch der Beweis ist erst nach dem Kapitel Differentialrechnung einsichtig. Aus diesem Grund ist fr den arithmetischen Mittelwert das geeignete Streuma der Mittelwert der Quadrate der Abweichungen. Man nennt diese mittlere quadratische Abweichung vom arithmetischen Mittel
(empirische) Varianz.
1 xi Z den kleinsten Wert n i=1

- 153 -

Statistik

Man

nennt

1 n V = ( x i x) n i=1

bzw.

V=

k 1 k 2 2 ( x i x ) H i = ( x i x) h i n i=1 i=1

die

empirische Varianz der reellen Zahlen xi.


Diese Formel lt sich noch vereinfachen zu:

1 n n 2 V = Hi x i x 2 = hi x i x 2 n i=1 i=1

Steinerscher Verschiebungssatz

Beweis:

V=

( x1 x) 2 H1 + ( x2 x) 2 H2 +
n

... + ( xk x) Hk
2

(x =
=

2 1

2x1x + x 2 H1 + x22 2x2 x + x 2 H2 + ... + xk 2 2xk x + x 2 Hk n

k k k k 1 k 1 1 1 xi 2 Hi 2x xiHi + x 2 Hi = xi 2Hi 2x xiHi + x 2 n = n i=1 n i=1 n n i=1 i=1 i=1

k 1 k 1 xi 2Hi 2x 2 + x 2 = xi 2Hi x 2 n n i=1 i=1

Aus der Varianz lt sich durch Wurzelziehen die sogenannten empirische Standardabweichung s einer Liste von n Werten mit dem arithmetischen Mittel x errechnen.

Die empirische Standardabweichung s betrgt:


s= V = 1 n 2 1 n 2 ( x i x) = x i x 2 bzw. n i=1 n i =1

s=

V =

1 k 2 H i ( x i x) = n i=1

k 1 k 2 2 H i x i x 2 = hi x i x 2 n i=1 i=1

Die empirische Standardabweichung ist das gebruchlichste Streuungsma.

- 154 -

Statistik

Um Listen miteinander vergleichen zu knnen, mu immer das Streuungsma im Zusammenhang mit dem Zentralma angegeben werden. Will man beurteilen, bei welcher Liste die Werte strker streuen, so gengt es nur dann, die absoluten mittleren Abweichungen bzw. die Standardabweichungen der Liste miteinander zu vergleichen, wenn die Listen ungefhr denselben Median bzw. arithmetischen Mittelwert aufweisen. Denn es ist zum Beispiel bei einer mittleren Lnge von 10 m eine Abweichung von 1 mm sehr gering; aber bei einer mittleren Lnge von 10 mm wre die Abweichung von 1 mm extrem gro.
s* Z

Streuungen knnen daher nur verglichen werden, wenn sie durch den Variabilittskoeffizienten v * = bzw. durch den Variationskoeffizienten v =

s angegeben werden. In beiden Fllen wird blicherweise die x * Abweichung (s bzw. s) in Prozent vom Zentralma (Z bzw. x ) angegeben.

Man nennt
koeffizienten.

v* =

s* Z

den Variabilittskoeffizienten und

v=

s x

den Variations-

Nachfolgend sollen fr die Beispiele Schuhgre und Brenndauer die Streuungsmae berechnet werden.

Beispiele: xi 36 37 38 39 40 41 42 43 44 45 46 Z = 40
x = 40,38

ad Beispiel Schuhgre
Hi 6 45 82 98 87 84 51 23 48 31 5 560
*

Hi |xi Z| 24 135 164 98 0 84 102 69 192 155 30 1053 s = 1,88

Hi (xi x )2 114,94 513,12 463,23 185,76 12,35 32,63 134,38 158,27 630,13 662,60 158,10 3065,50 s = 2,34

- 155 -

Statistik

Die Standardabweichung lt sich aufgrund der gegebenen Hufigkeiten leichter mit der entsprechenden Formel berechnen:
1 s= n

x
i =1

1 2 Hi 36 2 6 + 37 2 45 + ... + 46 2 5 40 ,38 2 = 2 ,34 x = 560

Nun lassen sich Variabilittskoeffizient und Variationskoeffizient berechnen.

v* = v=

1,88 = 0 ,047 4 ,7% Streuung um Z 40 Streuung um x

2 ,45 = 0 ,060 6% 40 ,37

Die durchschnittliche Schuhgre der Schler betrgt 40,37 6% bzw. die Schuhgren liegen mit 4,7% um die Gre 40.
Welches Ma das aussagekrftigste bzw. das sinnvollste ist, hngt prinzipiell immer vom konkreten Beispiel ab. Im obigen Fall ist die Streuung um den Median Z, der ja selbst eine Schuhgre darstellt, sicher die interessantere Aussage.

Klassenmitte xi 13100 13300 13500 13700 13900 14100 14300 14500 Z=14500
x =14600

ad Beispiel Brenndauer
Hi 7 8 11 42 65 96 104 173 1000 Hi|xi Z| 9800 9600 11000 33600 39000 38400 20800 0 xi 2 Hi in 104 120127 261639 200475 788298 1255865 1908576 2126696 3637325 Klassenmitte xi 14700 14900 15100 15300 15500 15700 15900 Hi 105 143 108 72 34 22 10 Hi|xi Z| 21000 57200 64800 57600 34000 26400 14000 437200 xi 2 Hi in 104 2268945 3174743 2462508 1685448 816850 542278 252810 21502580

s* = 437,2 und s = 1365,95 v* = 3% und v = 9,35% Die mittlere Brenndauer der Glhlampen betrgt also 14600 Stunden 9,35%.

- 156 -

Statistik

11.5. Zusammenhnge zwischen Datenmengen


(a) Regressionsanalyse

Bei vielen statistischen Erhebungen wird die Gesamtheit der n Elemente auf mehrere Merkmale x, y, ... hin untersucht, wobei im Anschlu nicht nur die Auswertung der einzelnen Variablen von Bedeutung ist, sondern es wird von Interesse sein, Zusammenhnge zwischen den einzelnen Variablen zu untersuchen. Zum Beispiel wird oft ein Zusammenhang hergestellt zwischen Krpergre und Krpermasse, zwischen Luftdruck und Niederschlagsmenge, zwischen Werbungskosten und Umsatzsteigerung, u.v.a.

Beispiel:

ad Beispiel Schuhgre

Die Schler wurden auch nach ihrer Krpergre befragt. Im folgenden werden 20 solcher zusammenhngender Daten herausgegriffen:

xi (Schuhnummer) 36 37 37 38 38 38 39 39 39 39 Z = 39,5

yi (Krpergre in m) 1,42 1,40 1,45 1,47 1,50 1,52 1,50 1,54 1,49 1,51 Z = 1,51

xi (Schuhnummer) 40 40 40 40 40 41 41 41 42 42
x = 39,35 39,4

yi (Krpergre in m) 1,59 1,56 1,57 1,50 1,51 1,59 1,51 1,58 1,57 1,60
y = 1,519 1,52

Aus den Daten lt sich ein tendenzieller Zusammenhang erkennen; nmlich mit zunehmender Gre der Schuhnummer wird auch die Krpergre grer. Diese Tendenz mu jedoch nicht in jedem Einzelfall stimmen (z.B. 41/1,51). Darberhinaus kann auch keine Aussage ber die Strke dieses Zusammenhangs gegeben werden. Besser als in einer Tabelle lt sich ein eventueller Zusammenhang in einem Streudiagramm erkennen. In einem solchen Diagramm werden alle Wertepaare (xi;yi) als Punkte Pi(xi | yi) dargestellt. Auf diese Weise entsteht eine Punktwolke, deren Schwerpunkt durch S( x | y ) gegeben ist.

- 157 -

Statistik

1,6

Krpergre

Beispiel:

1,55 1,5 1,45 1,4 36 38

Streudiagramm zum Beispiel Schuhgre / Krpergre

40

42

Schuhgre

Die Regressionsanalyse versucht den Zusammenhang zwischen zwei Variablen durch eine Funktion zu beschreiben. Wie gut dieser Zusammenhang tatschlich gegeben ist, wird durch die Korrelationsanalyse ausgedrckt. Im einfachsten Fall kann der Zusammenhang durch eine lineare Funktion beschrieben werden. In diesem Fall spricht man von linearer Regression. Man versucht bei diesem Verfahren, die Punktewolke durch eine Gerade vereinfacht darzustellen. Der Graph der linearen Regressionsfunktion ist also die sogenannte Regressionsgerade. Die Regressionsgerade mu den Schwerpunkt der Punktwolke S( x / y ) enthalten und soll

mglichst nahe bei den einzelnen Punkten liegen. Will man durch lineare Regression aus den x-

Werten die y-Werte nherungsweise berechnen, so mssen die Abstnde di = Yi yi der tatschlichen Punkte von der 1. Regressionsgeraden in y-Richtung mglichst gering sein. Man nimmt als Ma fr diese Abweichung nicht d1, d2, etc., da diese fr jede Gerade durch S einander aufheben wrden (Vorzeichen); auch die Betrge der Abweichungen fhren zu Schwierig-

- 158 -

Statistik

keiten beim Festlegen der Regressionsgeraden. Die bliche Methode ist die Fehlerquadratmethode von
C.F. GAUSS (1777-1855). Die Methode der kleinsten Quadrate verlangt, da die Summe aller

Abweichungen d12+d22+ ... +dn2 ein Minimum annimmt, wenn die Regressionsgerade richtig festgelegt wird. Es sei Y = kX + d die Regressionsfunktion, Pi (xi | yi) sind die tatschlichen Punkte; auf der 1. Regressionsgeraden liegen die Punkte Ri (Xi = xi | Yi = kxi + d). Die Summe der Abstandsquadrate ergibt sich somit:
2 2 (Yi yi ) = (kxi + d yi ) = F(k, d) i=1 i =1 n n

Die Werte fr k und d sollen nun so bestimmt werden, da F(k,d) einen Minimalwert annimmt. Die genaue Berechnung erfolgt mit den Mitteln der Differentialrechnung, an dieser Stelle sei nur das Ergebnis angefhrt.

i=1

xi yi
2

y
xi
i=1 i=1 2

Fr k ergibt sich:

k=

x
i=1

n xi i=1

Fr d ergibt sich:
d=
i=1

yi k

x
i=1

Die 1. Regressionsgerade lautet n xi y i xi y i


i=1 i=1 i=1 n n n

Y = kX + d mit k =

n 2 n xi xi i=1 i=1
n

und d =

yi
i=1

x
i=1

Unter Anwendung des Zusammenhangs umformen:

1 1 yi = y und xi = x lassen sich obige Ausdrcke noch n i=1 n i=1

d = y kx.

Dies ist gleichzeitig ein Beweis dafr, da der Schwerpunkt S( x | y ) auf der Regressionsgeraden liegt. Auch das Ergebnis fr k lt sich unter Verwendung des Steinerschen Verschiebungssatzes weiter vereinfachen.

- 159 -

Statistik

n k=

xi yi n x n y
2

i=1 n

x
i=1

( n x)

n n 1 n 1 1 n2 xi yi xy xi yi xy ( xi x ) ( y i y ) n n i=1 n i=1 sxy i=1 = 2 = = = n n n 1 sx 1 1 2 xi 2 x 2 xi x ) ( n2 xi2 x 2 n i=1 n i=1 n i=1

In diesem Zusammenhang bezeichnet man sxy =

1 ( xi x) ( yi y) als Kovarianz von x und y und n i=1

sx =

Kovarianz von x und y 1 . ( xi x)2 wie bisher als Varianz von x. Damit lt sich k angeben als k = n i=1 Varianz von x

Da die Abstnde di in y-Richtung minimiert wurden, stellt die 1. Regressionsgerade nun eine Mglichkeit zur Abschtzung von y-Werten aus gegebenen x-Werten dar. Einige Taschenrechner mit statistischen Funktionen sind in der Lage, nach Eingabe der Datenlisten xi und yi die Zentralmae, Streuungsmae und Koeffizienten der Regressionsgeraden zu berechnen. Fr die hndische Berechnung geht man wie bisher mit Tabellen vor.

Beispiel:

ad Beispiel Schuhgre / Krpergre Welche Krpergre hat ein Schler voraussichtlich mit Schuhgre 39 bzw. 40?

In diesem Beispiel soll nun eine Krpergre (y) abgeschtzt werden, wenn die Schuhnummer des Schlers (x) bekannt ist. Dazu werden zunchst die Koeffizienten der 1. Regressionsgeraden errechnet.

n k=

i =1 n

xi y i

y
xi
i =1 i =1 2

n n xi 2 xi i =1 i =1

20 1196 ,97 787 30 ,38 20 31021 787 2

= 0 ,02886

d=

30 ,38 787 k = 0 ,383 20 20

Y = 0,02886X + 0,383
Nun wird mit den Werten X = 39 und X = 40 in der Funktion eingesetzt, um die voraussichtliche Krpergre Y zu erhalten.

Fr Schuhgre 39 schtzt man eine Krpergre 1,508 1,51m. Fr Schuhgre 40 schtzt man eine Krpergre 1,537 1,54m.

- 160 -

Statistik

Besteht ein Zusammenhang zwischen den Variablen x und y, so kann natrlich nicht nur von x auf y geschlossen werden, sondern auch aus bekannten y-Werten auf x. Dazu sollte dann allerdings eine Regressionsgerade verwendet werden, fr die die Summe der Quadrate der Abstnde der tatschlichen Punkte von der Regressionsgeraden in x-Richtung mglichst klein wird. Dies ist dann die 2. Regressionsgerade.

Die gesuchte Regressionsgerade fr diesen Fall lautet X = k* Y + d*. In diesem Fall mssen die Abstnde di = Xi xi bzw. genauer die Summe deren Quadrate minimiert werden. Daher mu also
F(k * , d* ) =
2 ( X i xi ) = ( k * y i + d * xi ) i =1 i =1 n n 2

einen Minimalwert annehmen. Vllig analog zur 1. Regressionsgeraden ergibt sich:

n k =
*

i=1 n

xi y i


xi
i=1

yi =

n yi2 yi i=1 i=1

i=1 2

1 xi yi xy n i=1

1 y i2 y 2 n i=1

s xy sy
2

und d =

i=1

xi k * n

y
i=1

= x k* y

Die 2. Regressionsgerade lautet


n xi y i xi y i
i=1 i=1 i=1 n n n

X = k* Y + d* mit k * =

n 2 n yi yi i=1 i=1
n

und d * =

x
i=1

k * yi
i=1

Wie die obigen Formeln zeigen, liegt S( x| y ) auch auf der 2.Regressionsgeraden. Die zweite Regressionsgerade erlaubt es nun, fr ein Y ein voraussichtliches X zu schtzen.

- 161 -

Statistik

Beispiel:

ad Beispiel Schuhgre / Krpergre Welche Schuhgre hat ein Schler voraussichtlich mit Krpergre 1,50 m bzw. 1,54 m?

Fr dieses Beispiel ergibt sich folgende 2. Regressionsgerade:


k* = 20 1196 ,97 787 30 ,38 20 46 ,2082 ( 30 ,38 )2 d* =
= 24 ,877

787 30 ,38 k* = 1,5618 20 20

X = 24,877Y + 1,5618
Nun wird mit den Werten Y = 1,50 und Y = 1,54 in der Funktion eingesetzt, um die voraussichtliche Schuhgre X zu erhalten.

Fr Krpergre 1,50 m kann damit die Schuhgre 38,87 39 abgeschtzt werden. Fr Krpergre 1,54 m kann damit die Schuhgre 39,87 40 abgeschtzt werden.

Um beide Regressionsgeraden im selben Koordinatensystem einzuzeichnen und miteinander vergleichen zu knnen, ist es gnstiger, bei beiden Geraden Y explizit auszudrcken:
sxy s2 x sxy s2 x

1. Regressionsgerade g1:
1 k* d* k* sy 2 sxy

Y = kX +d =

X + y

2. Regressionsgerade g2:

Y=

x k*y k*

sy 2 sxy

X + y

sy 2 sxy

Im Falle eines perfekten linearen Zusammenhanges zwischen den Variablen x und y mssen die beiden Regressionsgeraden zusammenfallen. Der nchste Abschnitt beschftigt sich genauer mit der Untersuchung des Zusammenhangs zwischen den beiden Regressionsgeraden und daher mit dem Zusammenhang zwischen den beiden Datenlisten. Diese Untersuchung bezeichnet man als Korrelationsanalyse.

- 162 -

Statistik

(b)

Korrelationsanalyse

Naheliegenderweise fallen die Regressionsgeraden zusammen, wenn zwischen den Variablen x und y ein perfekter linearer Zusammenhang besteht. Das bedeutet, da man in die Regressionsgeraden mit einem Wert einsetzen kann und dann den tatschlichen Wert, und nicht nur eine Schtzung, als Ergebnis bekommt. Darberhinaus bedeutet es auch, da alle Wertepaare der Datenliste auf einer Geraden liegen. Wenn die Geraden zusammenfallen, heit das, da sie auch den gleichen Anstieg haben. Es gilt also:

k=

1 k*

und somit k k * = 1

Im anderen Extremfall, wenn also berhaupt kein Zusammenhang zwischen den Variablen x und y besteht, ergeben sich aufeinander normal stehende Regressionsgeraden. In diesem Fall ist sowohl k=0 also auch k*=0 und es gilt:
k k* = 0

In jedem anderen Fall schlieen die beiden Regressionsgeraden einen spitzen (und einen stumpfen) Winkel ein, der umso grer sein wird, je weniger der tatschliche Zusammenhang linear ist (0<<90). Die Untersuchung, wie gut nun die lineare Regression dem tatschlichen Zusammenhang angepat ist, nennt man Korrelationsanalyse.
1 k*

Das rechte Ma dafr ist also der Winkel zwischen g1 und g2. Aus k = tan(1) und

= tan(2) lt sich 1

1 und 2 errechnen. Dann ist arctan(k) = 1 und arctan * = 2 , wobei 1 der Winkel zwischen g1 und der xk

Achse und 2 der Winkel zwischen g2 und der x-Achse ist. Es ergibt sich dann der Winkel zwischen den beiden Geraden als = 2 1 . Eine zweite Berechnungsmethode unter Verwendung der Vektorrechnung liefert folgendes:
1 1 1 k k* 1 k 1 1* k 1+ = k k*
2

cos( ) =

1 1+ k 2 1+ * k

blicherweise verzichtet man jedoch auf die Berechnung der Winkel und verwendet als Bestimmtheitsma
der Korrelation das Verhltnis der Steigungen der beiden Regressionsgeraden.

- 163 -

Statistik

Bestimmtheitsma der Korrelation:

rxy = k:

s xy s xy 1 = k k* = 2 2 * k sx sy

Da sich aus diesem Wert problemlos die Wurzel ziehen lt, verwendet man in der Praxis meist den Pearsonschen Korrelationskoeffizienten rxy , den sogenannten linearen Korrelationskoeffizient.

Pearsonscher Korrelationskoeffizient rxy

rxy = k k * =

s xy sx sy

Setzt man mit der Kovarianz sxy =


1 n

1 n

(x x)(y y )
i i i=1 2

und den Standardabweichungen sx und sy mit

sx =

i=1

(xi x )2 und sy =
n

1 n

(y y )
i i=1
i i

in die Formel fr den Korrelationskoeffizienten ein, so erhlt


n n n

(x x)(y y )
man:
rxy =
i=1

(x x ) (y y )
i 2 i i=1 i=1

bzw. rxy =

i=1 n

xi yi xi
2

y
xi
i=1 i=1

i n

x
i=1

i=1

i=1

yi
2

i=1

yi

Fr den linearen Korrelationskoeffizienten gilt dabei stets: Hierbei haben die Werte von rxy folgende Bedeutung: rxy = 1 0 < rxy < 1 rxy = 0 1 < rxy < 0 rxy = 1

1 rxy +1 perfekter direkter Zusammenhang

(d.h. z.B. bei Verdopplung von x auch Verdopplung von y) direkter Zusammenhang (d.h. mit zunehmenden Werten von x auch Zunahme der Werte von y) kein Zusammenhang zwischen x und y oder zumindest kein linearer indirekter (umgekehrter) Zusammenhang (d.h. mit zunehmenden Werten von x Abnahme der Werte von y) perfekter indirekter (umgekehrter) Zusammenhang (d.h. z.B bei Verdopplung von x folgt Halbierung von y) Wenn man rxy ber die Anstiege berechnet, mu das Vorzeichen dieser Anstiege erst nach dem Wurzelziehen bercksichtigt werden, d.h., da man unter der Wurzel vorerst den Absolutbetrag nimmt und nach dem Wurzelziehen die Vorzeichen der Anstiege wieder hinzufgt.

- 164 -

Statistik

Beispiel:

ad Beispiel Schuhgre / Krpergre Bestimmen Sie den Zusammenhang zwischen Schuh- und Krpergre.

Die Regressionsanalyse hat die beiden Regressionsgeraden g1 und g2 ergeben:


g1: Y = 0,02886X + 0,383 g2: X = 24,877Y + 1,5618

rxy = 0 ,02886 24 ,877 = 0 ,847


g2
1,6

Krpergre

Da rxy in der Nhe von 1 liegt besteht ein ziemlich guter linearer Zusammenhang und y zwischen x (Schuhgre) (Krpergre). Das

1,55 1,5 1,45 1,4 36 38

g1

Streudiagramm mit den beiden Regressionsgeraden spiegelt auch diesen Zusammenhang wider.

40

42

Schuhgre

Um die Korrelation direkt aus den Daten zu ermitteln, empfiehlt sich folgende Tabelle:
xi 2 1296 1369 1369 1444 1444 1444 1521 1521 1521 1521 yi 2 2,0164 1,96 2,1025 2,1609 2,25 2,3104 2,25 2,3716 2,2201 2,2801 xi 2 1600 1600 1600 1600 1600 1681 1681 1681 1764 1764 yi 2 2,5281 2,4336 2,4649 2,25 2,2801 2,5281 2,2801 2,4964 2,4649 2,56

xi 36 37 37 38 38 38 39 39 39 39

yi 1,42 1,40 1,45 1,47 1,50 1,52 1,50 1,54 1,49 1,51
= 787

xi yi 51,12 51,8 53,65 55,86 57,0 57,76 58,5 60,06 58,11 58,89

xi 40 40 40 40 40 41 41 41 42 42

yi 1,59 1,56 1,57 1,50 1,51 1,59 1,51 1,58 1,57 1,60

xi yi 63,6 62,4 62,8 60,0 60,4 65,19 61,91 64,78 65,94 67,2
= 1196 ,67

= 30 ,38

2 i

= 31021

2 i

= 46 ,2082

x y

i i

rxy =

( 20 31021 787 ) (
2

20 1196 ,97 787 30 ,38 20 46 ,2082 30 ,38 2

= 0 ,847

- 165 -

Statistik

Das Berechnen von Regressionsgeraden und des Korrelationskoeffizienten ist nur fr metrisch skalierte
Daten mglich (d.h. quantitative Daten, aus denen nicht nur Verschiedenartigkeit und Rangordnung,

sondern auch Abstnde zwischen den Merkmalsausprgungen angegeben werden knnen) und nur sinnvoll, wenn gengend Daten vorhanden sind (zumindest n > 5). Regression und Korrelation beschreiben einen linearen Zusammenhang zwischen zwei Variablen auf rein mathematischer Grundlage ohne auf die Ursachen oder Sinnhaftigkeit des Zusammenhangs einzugehen. Fr |rxy| > 0,6 besteht rechnerisch ein starker Zusammenhang, der aber vllig sinnlos sein kann, z.B. kann die Anzahl der Autos in einer Stadt in den letzten 3 Jahren stark gestiegen und gleichzeitig die Geburtenrate stark zurckgegangen sein. Rechnerisch knnen diese beiden Merkmale korrelieren, trotzdem wird man kaum einen urschlichen Zusammenhang zwischen diesen beiden Variablen herstellen knnen. Es liegt dann eine Scheinkorrelation vor. Hufig sollen in der Statistik auch Zusammenhnge zwischen nominal skalierten Daten, die nur Verschiedenartigkeit ausdrcken wie z.B. Geschlecht, Haarfarbe, usw., oder ordinal skalierten Daten, die Verschiedenartigkeit und Rangordnung ausdrcken wie z.B. Klasseneinteilung bei Beispiel Allergiker, Schulnoten, usw., untersucht werden. Handelt es sich sowohl bei der Variablen x als auch bei y um ordinal skalierte Daten, so ordnet man zunchst die Variablenwerte gem ihrer natrlichen Rangfolge und ordnet ihnen dann die Rangzahlen zugeordnet. Sind dann di die Differenzen aus den Rangzahlen der Werte xi und yi, so erhlt man durch Vereinfachung des Pearsonschen Korrelationskoeffizienten den sogenannten Spearmanschen Rangkorrelationskoeffizienten rs. r = 1, 2, 3, ... zu. Bei gleichen Variablenwerten wird das arithmetische Mittel der entsprechenden Rangzahlen

Spearmanscher Rangkorrelationskoeffizient rs:

rs = 1

6 di

n n2 1

i=1

Auch rs nimmt die Werte zwischen 1 und +1 an mit derselben Bedeutung wie rxy. Da die Differenzen di im Zuge der Berechnung quadriert werden, ist es egal, ob die Differenz der Rangzahlen r(xi)r(yi) oder r(yi)r(xi) gebildet wird.

- 166 -

Statistik

Beispiel:

Die Korrelation zwischen Aufmerksamkeit von Schlern im Unterricht und Note auf die nchste Schularbeit soll untersucht werden.
Bewertung Aufmerksamkeit: Sehr gut 1, Mittelmig 2, Schlecht 3

Schler Nr.: xi (Aufmerksamkeit) yi (Schularbeitsnote)

1 1 1

2 2 3

3 3 3

4 3 4

5 2 1

6 1 3

7 1 2

8 1 1

9 3 4

10 3 5

11 3 4

Um die Rangzahlen fr xi und yi zu ermitteln, mssen die Listen ihrer Gre nach geordnet werden und erhalten Grundrangzahlen entsprechend ihrer Reihenfolge. Aus den Grundrangzahlen wird nun fr jedes xi und yi die definitive Rangzahl ermittelt. Diese ist die Grundrangzahl, sofern der Variablenwert nur einmal auftritt. Tritt er jedoch fters auf, so ergibt sich die Rangzahl als arithmetisches Mittel der Grundrangzahlen mit diesem Variablenwert. So ist der Rang fr die Aufmerksamkeitsnote 1 gleich 2,5, da (1+2+3+4):4=2,5 gilt.

xi (Aufmerksamkeit) Grundrangzahl Rangzahl yi (Schularbeitsnote) Grundrangzahl Rangzahl

1 1 2,5 1 1 2

1 2 2,5 1 2 2

1 3 2,5 1 3 2

1 4 2,5 2 4 4

2 5 5,5 3 5 6

2 6 5,5 3 6 6

3 7 9 3 7 6

3 8 9 4 8 9

3 9 9 4 9 9

3 10 9 4 10 9

3 11 9 5 11 11

Somit ergibt sich fr die einzelnen Schler mit anschlieender Differenzbildung di = r(yi) r(xi):

Schler Nr.: Rang fr xi Rang fr yi di

1 2,5 2

2 5,5 6 0,5

3 9 6

4 9 9 0

5 5,5 2

6 2,5 6 3,5

7 2,5 4 1,5

8 2,5 2

9 9 9 0

10 9 11 2

11 9 9 0

0,5

3,5

0,5

rs = 1

6 40 ,5 = 0 ,8159 11 (121 1)

Es besteht ein deutlicher Zusammenhang zwischen Aufmerksamkeit und Noten.

- 167 -

Statistik

Am kompliziertesten ist die Untersuchung des Zusammenhangs von nominal skalierten Daten. Dazu werden die Daten in eine Tafel eingetragen.

x1 y1 y2
M

x2 H1,2 H2,2
M

x3 H1,3 H2,3
M

... ... ...


M

xk H1,k H2,k
M

insgesamt

H1,1 H2,1
M

H
j=1 k

1 ,j

H
j=1

2, j

ym insgesamt

Hm,1

Hm,2

Hm,3

... ...

Hm,k

H
j=1

m, j

H
i=1

i,1

H
i=1

i,2

H
i=1

i,3

H
i=1

i,k

H
i=1 j=1

i, j

Die Werte Hi,j sind die beobachteten Anteile fr die Variablenwerte yi und xj . Bei Unabhngigkeit der beiden Merkmale kann man die Anteile, die zu erwarten wren, berechnen, denn die Hufigkeitsverteilung hinsichtlich der Merkmalsausprgung xj mte fr alle yi gleich sein. Diese erwarteten Anteile Er,s fr die rte Zeile und s-te Spalte berechnen sich folgendermaen:

H
Er,s =
i=1

i,s

H
j=1

r, j

(s te Spaltensumme) (r te Zeilensumme) n

Das Ma fr die Strke des Zusammenhangs zwischen den Merkmalen x und y ist der sogenannte Kontingenzkoeffizient C.

Kontingenzkoeffizient C:

C=

2 n + 2

mit =
2

(H

i, j

E i, j
E i, j

( ... Chi)

i= 1 j = 1

C kann Werte zwischen 0 und 1 annehmen. Der maximal mgliche Wert von C hngt jeweils von der Zeilenund Spaltenzahl ab. Fr quadratische Tafeln m=k gilt Cmax = gilt Cmax
m1 = m k 1 , fr rechteckige Tafeln m k k

k 1 1 m1 . Das Verfahren ist in der Regel nur anwendbar, wenn kein erwarteter Anteil + k 2 m

kleiner 1 ist und hchstens ein Fnftel der erwarteten Anteile kleiner 5 ist.

- 168 -

Statistik

Beispiel:

Der Zusammenhang zwischen Rauchgewohnheit und Geschlecht soll an 200 Personen untersucht werden.
Raucher mnnlich weiblich insgesamt 64 21 85 Nichtraucher 42 73 115 insgesamt 106 94 200

Aus obiger Tabelle lassen sich die angesprochenen erwarteten Anteile leicht errechnen:
E1,1 = E2 ,1 = 85 106 = 45 ,05 200 85 94 = 39 ,95 200 E1,2 = 115 106 = 60 ,95 200 85 94 = 54 ,05 200

E2 ,2 =

Nun lt sich berechnen:


2 =

(64 45 ,05 ) 2 + ( 42 60 ,95 ) 2 + ( 21 39 ,95 ) 2 + (73 54 ,05 ) 2


45 ,05 60 ,95 39 ,95 54 ,05

= 29 ,4956 29 ,5

Und mit letztendlich der Kontingenzkoeffizient C:

C=

29 ,5 = 0 ,358 und C max = 200 + 29 ,5

2 1 = 0 ,707 2

Der errechnete Kontingenzkoeffizient C ist also etwa halb so gro wie Cmax. Daher besteht ein mittelstarker Zusammenhang zwischen Rauchgewohnheit und Geschlecht. In diesem Beispiel traten in der Tafel nur vier Felder auf. Fr einen solchen Fall kann als Ma fr die Strke des Zusammenhangs auch der wesentlich einfacher zu berechnende Vierfelderkoeffizient werden. Auch

verwendet

kann Werte zwischen 0 und 1 annehmen, praktisch kann +1 aber fast nie erreicht werden.
H11 , H 2,2 H1,2 H 2,1

Vierfelderkoeffizient :

(H

11 ,

+ H1,2 ) (H 2,1 + H 2,2 ) (H11 , + H 2,1 ) (H1,2 + H 2,2 )

Fr das vorangegangene Beispiel ergibt sich:

64 73 42 21 106 94 85 115

= 0 ,384

- 169 -

Statistik

Anhang: bungsbeispiele zum 11. Kapitel


11/1 Bestimmen Sie die Hufigkeiten, relativen Hufikeiten und prozentuellen Hufigkeiten der folgenden Datenliste: 68, 84, 75, 82, 68, 90, 62, 88, 76, 93, 73, 79, 88, 73, 60, 93, 71, 59, 85, 75, 61, 65, 75, 87, 74, 62, 95, 78, 63, 72, 66, 78, 82, 75, 87, 74, 62, 95, 78, 63, 72, 66, 78, 82, 75, 94, 77, 69, 74, 68, 60, 96, 78, 89, 61, 75, 95, 60, 79, 73 11/2 Bestimmen Sie die Hufigkeiten, relativen Hufikeiten und prozentuellen Hufigkeiten der folgenden Datenliste: 179, 162, 167, 197, 178, 185, 176, 165, 171, 175, 165, 180, 173, 157, 188, 178, 162, 176, 153, 174, 186, 167, 173, 181, 172, 163, 176, 175, 185, 177 11/3 Die Daten aus Beispiel 11/1 sind das Ergebnis eines Tests, bei dem 100 Punkte zu erreichen waren. Legen Sie eine geeignete Klasseneinteilung fest und bestimmen Sie die Hufigkeiten, relativen Hufikeiten und prozentuellen Hufigkeiten der einzelnen Klassen. 11/4 Die Daten aus Beispiel 11/2 sind das Ergebnis eines Bewerbungstests, bei dem 200 Punkte zu erreichen waren. Legen Sie eine geeignete Klasseneinteilung fest und bestimmen Sie die Hufigkeiten, relativen Hufikeiten und prozentuellen Hufigkeiten der einzelnen Klassen. 11/5 Stellen Sie die Daten der Klasseneinteilung aus Beispiel 11/3 in einem geeigneten Diagramm dar. 11/6 Stellen Sie die Daten der Klasseneinteilung aus Beispiel 11/3 in einem geeigneten Diagramm dar. 11/7 Bestimmen Sie fr das Beispiel 11/1 folgende Zentralmae: Minimum, Maximum, Spannweite, Modus, Median und Quartilen.

- 170 -

Statistik

11/8

Bestimmen Sie fr das Beispiel 11/2 folgende Zentralmae: Minimum, Maximum, Spannweite, Modus, Median und Quartilen.

11/9

Bestimmen Sie fr das Beispiel 11/1 das arithmetische Mittel.

11/10 Bestimmen Sie fr das Beispiel 11/2 das arithmetische Mittel. 11/11 Bestimmen Sie fr das Beispiel 11/1 unter Verwendung der Hufigkeiten das arithmetische Mittel. 11/12 Bestimmen Sie fr das Beispiel 11/2 unter Verwendung der Hufigkeiten das arithmetische Mittel. 11/13 Der Umsatz eines Betriebes ist in 4 aufeinanderfolgenden Jahren jeweils um 45%, 110%, 30% und 40% gestiegen. Wie gro ist die durchschnittliche jhrliche Steigerung? 11/14 Eine Bakterienkultur wchst whrend der 16 Tagstunden um 20% pro Stunde, in der Nacht um nur 12% pro Stunde. Berechnen Sie das durchschnittliche Wachstum pro Stunde. 11/15 Ein Kapital von S 1000,- wird drei Jahre lang verzinst, und zwar im ersten Jahr mit p = 8%, im zeiten mit p = 7% und im dritten mit i = 6,5%. Berechnen Sie den durchschnittlichen Jahreszinssatz. 11/16 Ein Sportflugzeug fliegt von Graz nach Wien (ca. 150 km) mit einer Geschwindigkeit von 300 km/h und zurck mit 450 km/h. Berechnen Sie die mittlere Geschwindigkeit. 11/17 Bei einem Autorennen sind 5 Runden zu fahren. Die mittleren Geschwindigkeiten fr die einzelnen Runden betragen fr einen Fahrer 183, 210, 201, 180, 182 km/h. Wie gro ist die mittlere Geschwindigkeit fr alle 5 Runden?

- 171 -

Statistik

11/18 Wie schnell mu man eine zweite Runde auf einer Rennstrecke fahren, wenn die erste mit 120 km/h gefahren wurde und fr beide durchschnittlich 200 km/h erzielt werden sollen? 11/19 Berechnen Sie fr das Beispiel 11/1 die absolute Abweichung vom Median. 11/20 Berechnen Sie fr das Beispiel 11/2 die absolute Abweichung vom Median. 11/21 Berechnen Sie fr das Beispiel 11/1 die Varianz und die Standardabweichung vom Mittelwert. 11/22 Berechnen Sie fr das Beispiel 11/2 die Varianz und die Standardabweichung vom Mittelwert. 11/23 Berechnen Sie fr das Beispiel 11/1 den Variabilitts- und den Variationskoeffizienten. 11/24 Berechnen Sie fr das Beispiel 11/2 den Variabilitts- und den Variationskoeffizienten. 11/25 In der folgenden Tabelle sind Krpergre (cm) und Krpermasse (kg) von 12 Personen gegeben. Ermitteln Sie sowohl fr Gre als auch Masse den Mittelwert, den Median und die Standardabweichung und vergleichen Sie die Streuungen der beiden Datenlisten mittels der Variationskoeffizienten. Nr. i 1 2 3 4 Gre xi Masse yi 164 169 160 171 48 68 51 54 Nr. i 5 6 7 8 Gre xi Masse yi 165 165 170 164 53 66 56 48 Nr. i 9 10 11 12 Gre xi Masse yi 171 167 154 156 63 50 46 50

- 172 -

Statistik

11/26 Folgende Tabelle zeigt den Zusammenhang zwischen Werbungskosten fr ein Produkt und dem zugehrigen Jahresumsatz. Ermitteln Sie sowohl fr Kosten als auch Umsatz den Mittelwert, den Median und die Standardabweichung und vergleichen Sie die Streuungen der beiden Datenlisten mittels der Variationskoeffizienten. Kosten xi (in 10000) Umsatz yi (in Mio.) 30 50 35 60 35 70 40 90 50 120 50 130 55 140 65 140

11/27 Der Zusammenhang zwischen den Punkten bei der Aufnahmsprfung und der Note nach dem 1. Jahr am Wifi ist gegeben durch folgende Tabelle. Ermitteln Sie sowohl fr Punkte als auch Noten den Mittelwert, den Median und die Standardabweichung und vergleichen Sie die Streuungen der beiden Datenlisten mittels der Variationskoeffizienten. Punkte Note 52 2 46 3 41 2 48 2 42 3 47 2 50 2 56 1

11/28 Bestimmen Sie fr das Beispiel 11/25 die 1. Regressionsgerade und schtzen Sie die voraussichtliche Masse fr eine Krpergre von 180 cm. 11/29 Bestimmen Sie fr das Beispiel 11/26 die 1. Regressionsgerade und schtzen Sie den voraussichtlichen Umsatz fr Werbungskosten in Hhe von S 450000,-. 11/30 Bestimmen Sie fr das Beispiel 11/27 die 1. Regressionsgerade und schtzen Sie die voraussichtliche Note fr eine Punktezahl von 44 Punkten. 11/31 Bestimmen Sie fr das Beispiel 11/25 die 2. Regressionsgerade und schtzen Sie die voraussichtliche Krpergre fr eine Masse von 65 kg. 11/32 Bestimmen Sie fr das Beispiel 11/26 die 2. Regressionsgerade und schtzen Sie die voraussichtlichen Werbungskosten fr einen Umsatz in Hhe von 10 Millionen.

- 173 -

Statistik

11/33 Bestimmen Sie fr das Beispiel 11/27 die 2. Regressionsgerade und schtzen Sie die voraussichtliche Punktezahl fr die Note 3. 11/34 Bestimmen Sie fr das Beispiel 11/25 den Korrelationskoeffizienten. 11/35 Bestimmen Sie fr das Beispiel 11/26 den Korrelationskoeffizienten. 11/36 Bestimmen Sie fr das Beispiel 11/27 den Korrelationskoeffizienten. 11/37 Von 12 Schler wurden die Noten aus Mathematik und Datenverarbeitung erhoben. Bestimmen Sie, ob ein Zusammenhang zwischen den Noten besteht. Schler M DV 1 3 3 2 3 4 3 4 2 4 3 1 5 5 4 6 2 1 7 1 1 8 3 2 9 4 5 10 3 2 11 2 1 12 4 3

11/38 Untersuchen Sie, ob sich anhand der nachstehenden Tabelle bei den befragten Personen ein Zusammenhang zwischen Schulbildung und Einstellung gegenber Auslndern ableiten lt bzw. wie stark dieser ist. Schulbildung Einstellung negativ neutral positiv Hauptschule 84 126 72 Matura 34 42 35 Studium 12 34 14

11/39 Je 100 Mnner und Frauen wurden befragt, ob sie lieber einen Sohn oder eine Tochter htten. Dabei entschieden sich 27 Mnner und 52 Frauen fr einen Sohn, 48 Mnner und 26 Frauen fr eine Tochter. Die anderen waren unentschlossen. Besteht ein Zusammenhang zwischen dem Geschlecht des Befragten und dem erwnschten Geschlecht des Kindes und wie gro ist dieser?

- 174 -

You might also like