Konrad, Lisa - Biostatistik

Biostatistik
Lisa Konrad

Inhaltsverzeichnis

1. Deskriptive (=beschreibende) Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1 Der Begriff Merkmal und die Einteilung von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . . .
Einteilung der Merkmale nach Skalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Einteilung der Merkmale mit den Begriffen qualitativ und quantitativ . . . . . . . . . . . . . . . . . . . .
Einteilung der Merkmale mit den Begriffen diskret und kontinuierlich . . . . . . . . . . . . . . . . . . .

1.2 Darstellung der Daten in Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3 Graphische Darstellung von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kreisdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Polygon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.4 Verteilungsformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5 Formmae von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.6 Statistische Kennwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.1 Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modalwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Arithmetischer Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gewogenes arithmetisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Box-and-Whiskers-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1
1
1
1

1

2
2
2
3
3

4

4

5
5
5
5
5
6

6

TEIL A
Theorie & Formeln
1.6.2 Streuungsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Eveness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Spannweite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interquartilabstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Variationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Standardfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.7 Merkmalsverteilung Klassifizierte Hufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
absolute Hufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
relative Hufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
absolute Summenhufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
relative Summenhufigkeit) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.8 Wahrscheinlichkeitstheorie und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Chi (X) Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.9 Korrelation und Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Korrelationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Korrelationskoeffizient nach Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Der kritische Wert r* . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rangkorrelationskoeffizient nach Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Die erklrte Varianz r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
7
7
7
7
7
7
7
7
7

8
8
8
8
8

8
8
8
9
9
9
10
10

10
11
11

12

13
13

13

2. induktive (=schlieende) Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Anpassung an eine Normalverteilung & X-Anpassungstest. . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Anpassung an eine Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.3 Anpassung an eine Gleichverteilung & Chi-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Chi-Test bei der Logarithmischen Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Kolmogorov-Smirnov-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
t-Test fr unverbundene Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . .
t-Test fr verbundene Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14

14
15
17
18

18
19
20
20
20
21

1
1. Deskriptive (=beschreibende) Statistik
Die beschreibende (deskriptive) Statistik befasst sich mit der Untersuchung und Beschreibung, mglichst
der ganzen, Grundgesamtheit.

Grundgesamtheit: alle zu untersuchenden Daten (z.B. gesamte Schafsherde; nicht nur Stichproben)

1.1 Der Begriff Merkmal und die Einteilung von Merkmalen

Merkmal: Eigenschaft, die fr die statistische Auswertung relevant ist.

Einteilung der Merkmale nach Skalen
Nominalskala: Klassifizierung; Merkmale bekommen zur Unterscheidung eine
fortlaufende Zahl zugeordnet
Ordinalskala (= rating & ranking scales): Wertung der Merkmalsausprgungen mittels
Rangfolge (z.B. nach Schulnotensystem oder -- bis ++)
Metrische Skalen:
o Intervallskala: Abstnde der Merkmalsausprgungen knnen durch
eine Skala erfasst werden. Intervallskalen besitzen keinen absoluten
Nullpunkt.
o Verhltnisskala: kann auch die Quotienten (Verhltnisse) vergleichen
und hat einen eindeutig festgelegten Nullpunkt.

Einteilung der Merkmale mit den Begriffen qualitativ und quantitativ
qualitative (artmige) Merkmale: z.B. nominalskalierte Daten
quantitative (zahlenmige) Merkmale: z.B. metrisch skalierte Daten
semiquantitative Merkmale: ordinalskalierte Daten, da eine eindeutige Zuordnung zu
qualitativen bzw. quantitativen Merkmalen oft nicht mglich ist.

Einteilung der Merkmale mit den Begriffen diskret und kontinuierlich
diskrete (diskontinuierliche) Merkmale: knnen nur bestimmte Werte annehmen (z.B.
Zhlung von ; meist ganze Zahlen)
stetige (kontinuierliche) Merkmale: knnen beliebige Werte annehmen (z.B.
gemessene Lngen; Dezimalzahlen)

1.2 Darstellung der Daten in Tabellen

Messdaten (mit fortlaufenden Nummern markiert) in Tabelle spaltenweise eintragen
Bestimmung der Klassenanzahl (m):
I
n
f
o
r
m
a
t
i
o
n
s
g
e
h
a
l
t

s
t
e
i
g
t

m n
n .. Anzahl der Werte (Messdaten)
2
Bestimmung der Klassenbreite:
o Variationsbreite (=Spannweite) festlegen: V = Max Min
o Klassengrenzen sinnvoll setzen dabei beachten:
Klassen sollen disjunkt sein (d.h. alle Werte untergebracht)
Klassen sollen gleich gro sein
Randklassen knnen nach oben/unten offen gelassen werden,
damit Ausreier die Statistik nicht verflschen. Meistens fgt man
jedoch eine weitere Klasse fr Ausreier hinzu (auch, wenn dann
die Zahl der Klassen hher ist als die Berechnete).
o Klassenbreite berechnen: Spannweite / Klassenzahl

1.3 Graphische Darstellung von Daten

Kreisdiagramm: nominal-, ordinalskalierte Daten
496.051; 23%
641.923; 29%
169.829; 8%
363.341; 17%
205.492; 10%
189.672; 9%
62.881; 3%
113; 0%
26.145; 1%
Wien
Burgenland
Niedersterreich
Obersterreich
Salzburg
Steiermark
Krnten
Tirol
Vorarlberg

dargestellt ist hier ein Kreisdiagramm. Es werden Werte und Anteile angezeigt. Einstellbar bei Diagrammoptionen

Das Balkendiagramm: Hufigkeitsdiagramm
relative nichtkumulierte Hufigkeit
0
5
10
15
20
25
30
[0,2 - 2) [2 - 3,8) [3,8 - 5,6) [5,6 - 7,4) [7,4 - 9,2) [9,2 - 11,9]
Klassen
H
u
f
i
g
k
e
i
t

3
Histogramm: Klassen sind untereinander verbunden (kein Abstand zw. den Balken)
Wenn die Breite jeder Klasse auf den Wert 1 standardisiert ist, entspricht
die Flche unter der Histogrammkurve der Anzahl der Messwerte
0
2
4
6
8
10
12
14
16
(18-25] (25-32] (32-39] (39-46] (46-53] (53-60] (60-67)
Inkubationszeit (Tagen)
A
n
z
a
h
l
h(x)
f(x)

o Summenhistogramm: Die Summenhufigkeiten (H
i
) werden
aufgetragen)
absolute Summenhufigkeit (kumulierte Hufigkeit)
0
10
20
30
40
50
60
[ 18-21) [ 21-24) [ 24-27) [ 27-30) [ 30-33) [ 33-36) [ 36-39]
Al t er i n Jahren
H(x)

Polygon: die Hufigkeiten ber den Klassenmitten werden abgetragen und verbunden
und man fgt vorne und hinten noch einer Leerklasse hinzu.
0
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9 10 11 12

o Summenpolygon: Die Summenhufigkeiten werden ber dem
jeweiligen Ende der Klasse abgetragen und verbunden. Es wird
zustzlich noch vorne und
hinten eine Leerklasse
hinzugefgt. Die Funktion, die
das Polygon beschreibt, verluft
unter dem Summenhistogramm.

dargestellt ist hier ein
Histogramm
kombiniert mit einer
angepassten Fuktion

Darstellungsmglichkeit
mit der Diagrammoption
Sule-Linie

Zustzlich wurde die
Funktion noch geglttet.
Zu finden bei
Diagrammoptionen
4
1.4 Verteilungsformen
unimodal: eingipflig
bimodal: zweigipflig
multimodal: mehrgipflig

1.5 Formmae von Verteilungen
Graphische Darstellungen von Verteilungen lassen schnell erkennen, welche Form die Verteilung
besitzt: symmetrisch oder asymmetrisch, eingipflig oder mehrgipflig, normalverteilt oder nicht
normalverteilt.
Die Formae g
1
und g
2
geben bei metrischen Daten von Stichproben diesbezgliche Informationen.

Die Schiefe, g
1
, ist nur bei eingipfligen Hufigkeitsverteilungen sinnvoll zu berechnen. Sie beschreibt
den Grad der Unsymmetrie von Verteilungen:
Formel:
g
1
1
n
1
n
i
x
i
m
( )
3
s
3

n Anzahl der Messwerte
xi Messwerte
m arithmetischer Mittelwert
s .. Standardabweichung

g
1
= 0 symmetrische Verteilung
g
1
< 0 linksschiefe (rechtssteil) Verteilung
g
1
> 0 rechtsschiefe (linkssteil) Verteilung

Die Wlbung, g
2
auch Kurtosis oder Exzess, dient zur Beschreibung von Verteilungen, die zwar
symmetrisch sind, aber schmaler (steilgipfliger) als die Normalverteilung verlaufen oder aber flacher
(oder sogar u-frmig) sind.
Formel:
g
2
1
n
1
n
i
x
i
m
( )
4
s
4
3

xi Messwerte
m arithmetischer Mittelwert
s .. Standardabweichung

g
2
< 0 Verteilung flacher oder u-frmig
g
2
> 0 Verteilung schmaler und steiler

rechtsschief linksschief
5
Beispiele, und der Grund, warum g
1
bei Normalverteilung und u-frmigen Verteilungen sinnlos ist:
0
10
20
30
40
50
60
1 3 5 7 9 11 13 15 17 19
x
H
u
f
i
g
k
e
i
t

0
10
20
30
40
50
60
1 3 5 7 9 11 13 15 17 19
x
H
u
f
i
g
k
e
i
t

1.6 Statistische Kennwerte
Lageparameter
o Modalwert:
Anwendung: bei Nominaldaten, ordin. u. metr. Daten mit multimodaler
Verteilung.
Definiton: Der Modalwert ist der am hufigsten in einer Liste (Grund-
gesamtheit) auftretende Wert.
EXCEL-Funktion: =MODALWERT()

o Median:
Anwendung: bei metrisch- und nominalskalierten Daten.
Definition: gleich viele Messwerte liegen oberhalb und unterhalb dieser
Zahl.
Bei einer ungeraden Anzahl an Messwerten entspricht dieser Wert dem
mittleren Wert.
Besondere Eigenschaft: ist robust gegen Ausreier.
EXCEL-Funktion: =MEDIAN()

o Arithmetischer Mittelwert:
Anwendung: fr metrische Daten
Defnition: Summe aller Messwerte, geteilt durch die Anzahl der Messwerte
Formel:
m
1
n
1
n
i
x
i

Besondere Eigenschaft: sehr empfindlich gegen Ausreier. Schon ein
falscher Wert kann den Mittelwert dramatisch verndern.
EXCEL-Funktion: =MITTELWERT()

g1 = -0,302
g2 = 1,21
g1 = -0,043
g2 = -1,58
6
Auswirkungen der 3 oben genannten Lageparameter auf eine Glockenkurve:

o Gewogenes arithmetisches Mittel: wird angewandt, wenn der Mittelwert von mehreren
Untersuchungen mit verschiedener Anzahl von Messwerten ermittelt werden soll.
Dabei muss man sich nach der jeweiligen Anzahl richten (dabei wird mit der Anzahl
multipliziert).
Formel:
m
1
n
1
n
i
n
i
m
i
( )

Box-and-Whiskers-Plot
Der Box-and-Whiskers-Plot zeigt, ob die Verteilung symmetrisch oder asymmetrisch ist, wo der Median
liegt, wie gro die Spannweite ist und in welchem Bereich 50% der Messwerte liegen.
Die Box begrenzt das erste und das dritte Quartil (Q
3
Q
1
) und beinhaltet 50% der Messwerte, whrend
die Spannweite sowieso erstes und viertes Quartil abgrenzt. Die Spannweite wird mit Strichen
dargestellt auch als Whiskers (Schnurrhaare) bezeichnet.
Ist der Median (Linie in der Box) der oberen Boxbegrenzung nher, so ist die Verteilung rechtssteil.

7
Streuungsparameter:
o Eveness (Homogenittsindex): beschreibt, wie unterschiedlich die Ausprgungen
eines nominalskalierten Merkmals sind. Der Index erreicht den Wert 1, wenn alle
Kategorien gleich stark besetzt sind (Gleichverteilung). Wenn alle Werte in der
gleichen Kategorie liegen, nimmt der Wert 0 an.
o Spannweite (=Variationsbreite): V = x
max
x
min

o Interquartilabstand:
Quartil: Teilung der ansteigend sortierten Messwerte in 4 Klassen.
1. Quartil: enthlt 25% der Messwerte

I
50
= Q
3
Q
1

EXCEL-Funktion: =QUARTILE(Daten;Q
x
)

Quantil: x-viele Klassen
EXCEL-Funktion: =QUANTIL(Daten;%)

o Varianz:
Formel:
2 1
n 1
1
n
i
x
i
m
( )
2

EXCEL-Funktion: =VARIANZ()

o Standardabweichung: je kleiner , desto homogener ist die Stichprobe
Formel:

2

EXCEL-Funktion: =STABW()

o Variationskoeffizient: beschreibt die am arith. Mittelwert relativierte
Standardabweichung
Formel:
cv

m

o Standardfehler:
Formel:
s
x
n

100% = 1
50% = 0,5
8

1.7 Merkmalsverteilung Klassifizierte Hufigkeiten
Klassifizierte Hufigkeit (=absolute Hufigkeit): h
i
= Anzahl der Messwerte in Klasse i
EXCEL-Funktion: Spalten, in dies reinkommen soll, markieren, dann oben in der Leiste wo f(x)=
steht: =HUFIGKEIT(Daten;Klassenobergrenzen) + Crtl. + SHIFT + ENTER
& Daten mit F4 fixieren, dann ENTER drcken und
runterziehen.

Prozentuale klassifizierte Hufigkeit (=relative Hufigkeit):
Formel:
h
i
%
h
i
n
100

Klassifizierte Summenhufigkeit (=absolute / kumulierte Hufigkeit): Anzahl der Messwerte bis
einschlielich Klasse i.
EXCEL-Funktion: =HUFIGKEIT(Daten;Klassenobergrenze), dann ENTER drcken und
runterziehen.

Formel:
H
i
1
i
j
h
j
=

Prozentuale klassifizierte Summenhufigkeit (=relative Summenhufigkeit): prozentualer Anteil
der Messwerte bis inklusive Klasse i.
Formel:
H
i
%
H
i
n
100

ACHTUNG:
o Ausreier beeinflussen die Statistik
o Bei nominalskalierten Merkmalen ist die Berechnung von Summenhufigkeiten nicht
sinnvoll

1.8 Wahrscheinlichkeitstheorie und Verteilungen
Diskrete Verteilungen:
o Binomialverteilung:
Die Binomialverteilung ergibt sich aus dem Bernouli-Versuch, der die Frage
beantwortet, wie oft ein Ereignis eintritt. Dieser Versuch ist n-mal reproduzierbar.
Ist die berechnete Wahrscheinlichkeit 1, so hat man (zu 100%) Erfolg, ist die
berechnete Wahrscheinlichkeit jedoch 0, so hat man einen Misserfolg (=0% Erfolg).

absolute Summenhufigkeit (kumulierte Hufigkeit)
0
10
20
30
40
50
60
[ 18-21) [ 21-24) [ 24-27) [ 27-30) [ 30-33) [ 33-36) [ 36-39]
Al t er i n Jahr en
H(x)
0
2
4
6
8
10
12
14
1 2 3 4 5 6 7 8 9 10
9
Formel:
P X k ( )
n
k
|
\
|
|
p
k
1 p ( )
n k

n
k
|
\
|
|
n!
k! n k ( )!

n Anzahl der Wiederholungen
k Zahl der Erfolge
p Wahrscheinlichkeit, dass ein gewnschtes
Ereignis eintritt
P errechnete Wahrscheinlichkeit

P(X = k) genau P X k ( )
n
k
|
\
|
|
p
k
1 p ( )
n k

P(X k) max.
P X k ( )
0
k
i
P
i
X k
i
( )
=

P(X k) mind. P X k ( ) 1 P X k 1 ( ) [ ]

EXCEL-Funktion: =BINOMVERT(k;n;p; 0 od. 1)

o Poissonverteilung:
Die Poissonverteilung wird dann angewandt, wenn die Anzahl der Versuche gegen
Unendlich geht und die Wahrscheinlichkeit sehr gering ist, denn die
Binomialverteilung wre hier viel zu ungenau.
Formel:
P
X k ( )

k
k
e

Erwartungswert
EXCEL-Funktion: =POISSON(Klassenobergr.;Mittelwert; 0 od. 1)

Stetige Verteilungen:
o Normalverteilung (= Dichtekurve, Gausche Glockenkurve):
Der Flcheninhalt unter der Kurve bis zu dem Punkt, an dem die Wahrscheinlichkeit
abgetragen ist, entspricht der Wahrscheinlichkeit (kann also nur zw. 0 und 1 sein).
Die Werte der x-Achse haben keine
Bedeutung.
Der Mittelwert (Lageparameter)
ist hier auch der Erwartungswert
je grer dieser ist, umso hher ist
der Peak.
Die Standardabweichung
(Streuungsparameter) ist ein weiteres wichtiges Ma. Je grer ist, desto breiter
werden die Auslufe der Glockenkurve.

0 bei max.
1 bei genau
0 bei nicht kumuliert
1 bei kumuliert
10
Formel:
X ( )
1
2
e
1
2
X
\
|
|

Erwartungswert, Mittelwert
Standardabweichung
x

Gesetz der groen Zahlen: Die Normalverteilung kann auf jede Verteilung
angewendet werden, sofern der Stichprobenumfang sehr gro ist. So ist der
Mittelwert von Stichproben normalverteilt, auch wenn die Grundgesamtheit nicht
normalverteilt ist.

EXCEL-Funktion: =NORMVERT(Klassenmitte;Mittelwert;Standardabw.;0 od.1)

o Chi (X) Verteilung:
Die X-Verteilung hnelt der Normalverteilung, jedoch ist diese immer unsymmetrisch.
Auerdem ist hier nur die Summe der Quadrate von v mit unabhngigen
Standardnormalvaribalen normalverteilt.
Die Form der Verteilung hngt von den Freiheitsgraden ab, aber mit wachsenden
Freiheitsgraden nhert sie sich an die Normalverteilung an ( = v; = 2v). Daher ist
die X-Verteilung mit den meisten Freiheitsgraden der Normalverteilung sehr hnlich.
Nimmt der Freiheitsgrad zu, so wird die Kurve flacher und symmetrischer.
Die Freiheitsgrade v = n 1 .

Die X-Verteilung ist fr Test mit unabhngigen Gren geeignet. Grund dafr ist die
Additivitt zweier Freiheitsgrade, wenn man zwei unabhngige Gren mit X-
Verteilung mit den Freiheitsgraden v
1
und v
2
hat. Die Summe dieser Verteilungen hat
dann v
1
+ v
2
Freiheitsgrade.

Formel:
X
2
1
v
i
x
i
( )
2
=

Die Gleichverteilung: Bei dieser Verteilung kommt jeder Wert gleich hufig in einer Klasse vor. g
1

ist in diesem Fall = 0. Diese Verteilung kann bei sehr hufigen Versuchswiederholungen erreicht
werden. Z.B. Wrfeln

1.9 Korrelation und Regression
Begriffe:
o Bivariate Analyse: Zusammenhang von zwei Merkmalen
x
i
.. unabhngige, standardnormalverteilte
Zufallsvariblen

1 bei kumuliert
11
o Korrelation: beschreibt den mathematischen Zusammenhang. Sind die Merkmale
metrisch skaliert, so ist der Zusammenhang linear.
o Regression: Form und Strke des Zusammenhangs
o Koordinatendiagramm:
x-Achse: unabhngiger Parameter
y-Achse: abhngiger Parameter
o Scatterplot: Streudiagramm
o Konfidenzintervall: Intervall, in dem der wahre Messwert liegt.
Da bei der Messung von mehreren, z.B. Lngenmessungen im
Millimeterbereich mit einem Lineal, verschiedene Messwerte
auftreten, stellt sich die Frage, welcher dieser Werte nun der wahre
Messwert ist. Daher werden Konfidenzintervalle oder der
Standardfehler angegeben. Diese werden den Messwerten im
Diagramm (Punkt, Balken) mit Linien (od. hnlichem) angehngt.

Korrelationsanalyse:
o Vorraussetzungen:
Beide Merkmale sind metrisch skaliert
Zusammenhang scheint linear
Die einzelnen Beobachtungen sind unabhngig voneinander

o Korrelationskoeffizient nach Pearson (=Makorrelationskoeffizient):
Beschreibt die Strke und Form des Zusammenhangs
Der Korr.koeff. kann Werte zw. -1 und +1 annehmen

r = 1 r = -1 r = 0
gleichsinnig linearer
Zusammenhang
gegensinnig linearer
Zusammenhang
kein linearer
Zusammenhang

oben
m s t +
n
unten
m s t
n

t = TINV(%;FG)
100% = 1
50% = 0,5

12

fr normalverteilte und metrische Daten
Formel:
r
x y ,
s
x y ,
s
x
s
y
1
n
i
x
i
m
x
( )
y
i
m
y
( )
(

=
n 1 ( ) s
x
s
y
s
x
s
y
1
n
i
x
i
m
x
( )
2
= 1
n
i
y
i
m
y
( )
2

m
x
, m
y
Mittelwerte
s
x
, s
y
Standardabweichungen der Mittelwerte
s
x,y
Kovarianz zweier Merkmale in der Stichprobe
r
x,y
Korrelationskoeffizient

EXCEL-Funktion: =PEARSON(Daten)
=KORREL(Daten)
Test, ob eine lineare Korrelation besteht bzw. ob diese Korrelation signifikant
(deutlich erkennbar) ist: Vergleich von r mit r* (=kritischer Wert), einem
Tabellenwert bei einer Irrtumswahrscheinlichkeit von .
Ist |r| > r*, so besteht ein deutlich erkennbarer linearer Zusammenhang.
Ist |r| < r*, so gibt es keinen erkenntlichen linearen Zusammenhang.

Der kritische Wert r*
Der Tabellenwert hngt von drei Parametern ab:
o N (Zahl der Wertepaare) Freiheitsgrade ( v = n 2, da 2 Parameter in Funktion)
o Irrtumswahrscheinlichkeit
o Einseitig oder zweiseitiger Test? (wenn nicht bekannt, dann zweiseitig whlen)
einseitig: Irrtumswahrscheinlichkeit nur auf einer Seite (Datenreihe)
zweiseitig: Irrtumswahrscheinlichkeit auf beiden Seiten (od. unbekannt wer)

?
13
Der kritische Wert r* ist erst bei grerem Stichprobenumfang (>70) aussagekrftig!

Regressionsanalyse: beschreibt einen linearen Zusammenhang mittels Regressionsgerade der
Form y = kx + d, wobei diese Gerade den Nullpunkt nicht schneiden muss.
o Lineares Modell: linear
o Methode der kleinsten Quadrate: Summe der y-Abstnde der Werte von der
Regressionsgeraden gestreut
o Trendlinie hinzufgen bei einem Diagramm in EXCEL

Rangkorrelationskoeffizient nach Spearman: fr Werte, die man nicht durch Zahlen ausdrcken
kann, aber in eine Rangfolge ordnen kann. Dazu muss mindestens ein Datensatz ordinalskaliert
sein. Da man rechnerisch mit den Rngen so nichts anfangen kann, gibt es eine Variante diese
Wertung in Zahlen auszudrcken: mit einem berechneten Koeffizienten.
Da hier aber die Vorraussetzungen fr den Korr.koeff. r nicht erfllt sind (Unabhngigkeit, abh.
Merkmal y ist nicht normalverteilt), kann man eine Nherung von d mit der Pearsonfunktion
erreichen.

In EXCEL wird diese Berechnung mit der Pearson-Funktion angenhert.
EXCEL-Funktion: =PEARSON()

Bevor man aber die Rnge in Zahlen umwandeln kann, braucht man zunchst eine Rangfolge
der Daten. Hndisch teilt man einfach den Zahlen ihre Rangnummer zu, mit EXCEL jedoch kann
man dies automatisieren.
EXCEL-Funktion: =RANG()

Die erklrte Varianz r
Die erklrte Varianz r das Bestimmtheitsma der Korrelation und Regression und sagt aus, wie viel
Prozent der einen Gre die andere erklrt. Dabei werden die Quadrate des Abstands von Punkt zu
Linie berechnet, zusammengezhlt und ausgewertet.

r = durch Regression erklrte Varianz / Gesamtvarianz

r kann in EXCEL automatisch berechnet werden, wenn das Diagramm
fertig gestellt und eine Trendlinie erstellt wurde. Dabei kann man in den
Optionen whlen, dass r angezeigt wird.
Formel:
r
s
1
6
1
n
i
d
i
2
n n
2
1
( )

d
i
.. Differenzen der Rangzahlen

r
2 1
n
i
y
i
m
y.
( )
2
=
1
n
i
x
i
m
x
( )
y
i
m
y
( )
(

=
???
14
2. induktive (=schlieende) Statistik
Die schlieende Statistik untersucht nur einen Teil, der fr die Grundgesamtheit, deren Eigenschaften
uns interessieren, charakteristisch oder reprsentativ sein soll.
Es wird also von einem Teil der Beobachtungen auf die Grundgesamtheit aller geschlossen.
Entscheidend ist hierbei, dass der zu prfende Teil der Grundgesamtheit die Stichprobe zufllig
ausgewhlt wird.
Wir bezeichnen eine Stichprobenentnahme als zufllig, wenn jede mgliche Kombination von
Stichprobenelementen der Grundgesamtheit dieselbe Chance der Entnahme besitzt. Zufallsproben sind
wichtig, da nur sie Rckschlsse auf die Grundgesamtheit zulassen.
Totalerhebungen sind hufig kaum oder nur mit groem Kosten- und Zeitaufwand mglich abgesehen
von ethischen Bedenken.

Die Stichprobe
Die Stichprobe muss zufllig gewhlt werden. Mit Excel geht das sehr einfach:
EXCEL-Funktion: ZUFALLSZAHL()
Da diese Funktion aber nur Werte von 0 1 ausgibt muss man multiplizieren und die Zahl auf eine
ganze Zahl runden. Will man ein spezielles Fenster an Zahlen, z.B. 10-20, so muss man die
multiplizierten Zufallszahlen auch noch verschieben (Addition/Subtraktion).

2.1 Anpassungstests
Wird an eine empirisch bestimmte Hufigkeitsverteilung eine theoretische Verteilung angepasst,
dann muss man immer mit einem statistischen Testverfahren prfen, ob die Anpassung erfolgreich
war.

Nullhypothese: Die Hypothese, dass zwei Stichproben (bzw. Grundgesamtheiten) hinsichtlich eines
oder mehrerer Merkmale bereinstimmen, wird Nullhypothese genannt. (Ausreier werden als
zufllig betrachtet)
Alternativhypothese: Im Fall, dass sich zwei Stichproben hinsichtlich eines Merkmals unterscheiden,
wird dies als Alternativhypothese bezeichnet.
Die Irrtumswahrscheinlichkeit: gibt das Risiko an, dass die Nullhypothese irrtmlich abgelehnt wird.
(=Fehler 1. Art
1
)

1
Fehler 1. Art: Der Fehler 1. Art besteht darin, dass die Nullhypothese (H0) aufgrund der Stichprobe verworfen wird, in der Grundgesamtheit
aber trifft H0 zu. Es wird somit in den Stichproben ein zufllig bestehender Unterschied gefunden, aber tatschlich existiert in der
Grundgesamtheit kein Unterschied.

Fehler 2. Art: Der Fehler 2. Art besteht darin, dass H0 aufgrund der Stichprobe akzeptiert wird, in der Grundgesamtheit aber trifft H0 nicht zu. =
Irrtumswahrscheinlichkeit ( 1- = Testpower = Wahrscheinlichkeit, signifikante Testergebnisse zu erhalten)
15
Theoretischer Ablauf:
Fragestellung: Passt die angepasste Funktion? Oder sind die beobachteten Unterschiede signifikant
(bedeutend)? Inwieweit diese Vorgangsweise sinnvoll ist kann durch verschiedene Tests, wie dem
X-Test berprft werden.
Ermittlung einer Prfgre (z.B. X)
Bestimmung des kritischen Wertes
Vergleich: berschreitet die Prfgre den kritischen Wert, so wird die Nullhypothese abgelehnt
(theoretische Funktion passt nicht). Daher ist der beobachtete Unterschied nicht zufllig.

2.1.1 Anpassung an eine Normalverteilung & X-Anpassungstest

Anpassung
Berechnung von: Mittelwert, Standardabweichung, Minimum, Maximum, Spannweite,
Klassenzahl, Klassenbreite, Klasseneinteilung, Obergrenzen, Klassenmitte, absolute Hufigkeit,
Verteilung bei Normalverteilung f(x), Differenz, kritischer Wert

ad Berechnung der Klassenmitte: EXCEL-Funktion: =(Kassenuntergrenze+Klassenobergrenze)/2
und dann runterziehen

ad Berechnung von f(x):
EXCEL-Funktion: =NORMVERT(Klassenmitte;Mittelwert;Standardabw.;0/1)
*Klassenbreite * Anzahl

ad Berechnung der Differenz:
EXCEL-Funktion: =(f(x) abs.H.)^2) / f(x) und dann runterziehen

1 bei kumuliert
16
Anpassungstest
Dazu whlt man zum Beispiel den Chi-Anpassungstest. Hierzu ist der Mittelwert m der
empirischen Verteilung = der Normalverteilung und die Standardabweichung s wird fr
eingesetzt.

Der Chi-Test
Bei diesem Test wird berprft, ob die Abstnde der Anzahl von Werten in den Klassen zu der
theoretischen Verteilung mglichst klein / gering ist ist dies der Fall, so passt die theoretische
Verteilung zu der empirisch ermittelten Hufigkeitsverteilung.
0
2
4
6
8
10
12
14
16
18
(155-160] (160-165] (165-170] (170-175] (175-180] (180-185] (185-190] (190-195)
Klassen
A
n
z
a
h
l

Vorrausetzungen:
o Die zu untersuchende Stichprobe muss klassenorientiert vorliegen
o Eine Einschrnkung auf die Normalverteilung besteht nicht

Prfgre X:

Formel:
X
2
1
k
i
h x
i
( )
f x
i
( )
( )
2
f x
i
( )
=

h(xi) relative Hufigkeit der Stichprobe an xi (empirische
Daten)
f(xi) relative Hufigkeit der Grundgesamtheit (theoretische
Daten)
k Klassenanzahl
v Freiheitsgrade v = k a 1
a Zahl der freien Parameter der theoretischen Verteilung

Die Freiheitsgrade beeinflussen den Chi-Test enorm. Fr die einzelnen anzupassenden
Verteilungen gibt es verschiedene Freiheitsgrade:
v a
Gleichverteilung k - 2 1
Normalverteilung k 3 2
Log-Normalverteilung k 3 2

17
Ist X sehr gro, so sind die Abweichungen von der theoretischen Funktion sehr gro und somit
ist die Wahrscheinlichkeit gro, dass die Nullhypothese abgelehnt wird. Die angepasste Funktion
wrde dann nicht zu der empirisch ermittelten Hufigkeitsverteilung passen.

Daher vergleicht man den Wert von X mit einem Tabellenwert (kritischer Wert) bei einer best.
Irrtumswahrscheinlichkeit.
Man kann diesen Tabellenwert auch automatisiert mit EXCEL berechnen:
EXCEL-Funktion: =CHIINV(;k)

Ist X < CHIINV, so passt die theoretische Funktion zur ermittelten Hufigkeitsverteilung.
Ist X > CHIINV, so ist die theoretische Funktion zu verwerfen und eine andere
Verteilungsfunktion zu prfen.

Mit dem Normalverteilungs-Anpassungstest kann man natrlich auch die Normalverteilung als
Hufigkeitsverteilung sicher ausschlieen (Ausschlussverfahren), sofern Zweifel bestehen.

2.1.2 Anpassung an eine Poissonverteilung

Dazu muss man die absolute (nicht-kumulierte) Hufigkeit berechnen. Dann werden der
Mittelwert und die Anzahl der Messwerte berechnet.
Um den absoluten POISSON-Wert zu erhalten, berechnet man mit Excel
=POISSON(Klassenobergrenze;Mittelwert;0)*Anzahl der Messwerte. Den Mittelwert nicht
vergessen zu fixieren. Beide Spalten in ein Diagramm eingetragen zeigen, ob die Verteilung
passt.

Labmagenverlagerungen bei Khen
0
5
10
15
20
25
30
35
40
0 1 2 3 4 5 6 7 8 9 10 11
Anz. der Verl. pro Pentade
A
n
z
.

d
e
r

M
i
l
c
h
k
h
e
abs. n-kum. H
abs. POISSON

Irrtumswahrscheinlichkeit
k Klassenzahl
18
2.1.3 Anpassung an eine Gleichverteilung & Chi-Test
Abgesehen von f(x) wie bei Normalverteilung.
Verteilungsdiagramm
0
2
4
6
8
10
12
(10-12] (12-14] (14-16] (16-18] (18-20)
Zufallszahl
A
n
z
a
h
l
Reihe2
Reihe1

Min 10
Max 20
Klassenbreite 2
Klassenanzahl 5

h(X) h(x) f(x)
Klasse Klassenobergr. abs. H. abs. S. H. Differenz
(10-12] 12 10 10 8 0,5
(12-14] 14 11 21 8 1,125
(14-16] 16 6 27 8 0,5
(16-18] 18 8 35 8 0
(18-20) 20 5 40 8 1,125

Summe: 40 3,25 CHI^2
Irrtumswahrsch. 0,05
Freiheitsgrade 3,00

kritischer Wert 7,814727764

2.2 Statistische Tests
Auswahl des Testverfahrens
Die Bedingungen zur Anwendbarkeit des Tests mssen von der Testsituation erfllt werden. Die
Anwendbarkeit eines Tests wird von verschiedenen Faktoren bestimmt:
Von der Anzahl der Stichproben,
Ob die Stichproben verbunden oder nicht verbunden sind,
Vom Datenmaterial (Skalenniveau und Verteilungsform der Daten)

Prfung der Verteilung: Chi-Test, Kolmogorov-Smirnov-Test
Prfung auf Unterschiede: t-Test (=Vergleich von 2 verbundenen/unverbundenen Stichproben)

Bei Normalverteilung werden parametrische Tests durchgefhrt.

19
Verbundene und unverbundene Stichproben
verbundene Stichproben: Vergleich von einer Gruppe nach zwei Untersuchungseinheiten
(Zeitunterschied); jeweils zu einem bestimmten Tier gehrig
unverbundene Stichproben: Vergleich von 2 Gruppen zum selben Zeitpunkt; Gruppen aus versch.
Tieren (z.B. Placebo-Gruppe & Arznei-Gruppe)

2.2.1 Chi-Test bei der Logarithmischen Normalverteilung
Da die Daten linkssteil (rechtsschief) sind, wird an die logarithmische Normalverteilung
angepasst.

EXCEL-Funktion: =LOGNORMVERT(Klassenobergr.;Mittelwert;Stabw

0
2
4
6
8
10
12
14
16
(18-
25]
(25-
32]
(32-
39]
(39-
46]
(46-
53]
(53-
60]
(60-
67)
A
n
z
a
h
l
h(x)
f(x)

Nr. t ln(t) norm log
1 23 3,13549 Mittelwert 31 3
2 22 3,09104 Stabw. 10,2105 0,30797
3 38 3,63759
4 20 2,99573 Min 18
5 26 3,2581 Max 64
6 23 3,13549 Spannw. 46
7 28 3,3322 Anzahl 40
8 21 3,04452 Kl.anz 6,32456 7
9 22 3,09104 Kl.breit. 7,27324 7
10 23 3,13549
11 21 3,04452 h(x) F(x) f(x)
12 35 3,55535 Klassen Obergr. abs. H. log. S. H. log. H. (f(x)-h(x))/f(x)
13 54 3,98898 (18-25] 25 15 11,82 11,82 0,857455671
14 25 3,21888 (25-32] 32 9 24,16 12,35 0,907279125
15 30 3,4012 (32-39] 39 10 32,70 8,54 0,249283962
16 48 3,8712 (39-46] 46 3 37,02 4,31 0,398812278
17 40 3,68888 (46-53] 53 1 38,86 1,84 0,384495533
18 29 3,3673 (53-60] 60 1 39,58 0,72 0,109419821
19 34 3,52636 (60-67) 67 1 39,85 0,27 1,992818133
20 32 3,46574
21 46 3,82864 chi 4,899564521
22 19 2,94444 Irrtumswahrsch. 0,05
23 24 3,17805 Freiheitsgrade 4,00
24 37 3,61092 kritischer Wert 9,487729037
20

2.2.2 Kolmogorov-Smirnov-Test
Ausgewhlte statistische Tests basieren auf einer theoretischen Ebene, bei der alle
Vorraussetzungen erfllt sind. In der Realitt ist dies aber nicht immer gegeben, da sich immer
wieder Fehler einschleichen.
Des halb soll bei diesem Test getestet werden, ob zwei Verteilungsfunktionen (mssen stetig
sein, z.B. Normalverteilung) bereinstimmen.

Nullhypothese: Zufallsvariable X ist normalverteilt.

2.2.3 t-Test
2.2.3.1 t-Test fr unverbundene Stichproben
Beim t-Test fr unverbundene Stichproben werden mit den jeweiligen Mittelwerten m
1
und m
2

verglichen und geprft, ob diese sich signifikant unterscheiden.

Die Nullhypothese H
0
postuliert, dass sich die Mittelwerte nicht unterscheiden.

Vorraussetzungen: Normalverteilung der Grundgesamtheit, Homogenitt der Varianzen
(beide Zufallsvariablen haben dieselbe unbekannte Standardabweichung )

Freiheitsgrade: v = n
1
+ n
2
2 (n
1
/n
2
Anzahl der Messwerte)

Prfma t: Kritischer Wert t*:
EXCEL-Funktion: t* = TINV(0,05;FG)

d
i
: Differenz der Werte
n: Anzahl
s: Standardabweichung
se: Standardfehler
smd: Standardabweichung der Mittelwerte ?

Fr einen signifikanten unterschied muss |t| > als |t*| sein.

t
d
smd
smd se
1
2
se
2
2
+
se
s
n
21
2.2.3.2 t-Test fr verbundene Stichproben
Es wird geprft, ob sich die mittlere Differenz der gepaarten Messwerte signifikant von 0
unterscheiden.
gepaarte Messwerte: zB. Messwerte desselben Tieres zu 2 versch. Zeiten
HUND
vor
Bewerb
nach
Bewerb
1 64 70
2 59 69

Vorraussetzungen: Normalverteilung der Grundgesamtheit, bekannter Mittelwert,
unbekannte Standardabweichung
Freiheitsgrade: v = n - 1 (nAnzahl der Messwerte)

Prfma t: Kritischer Wert t*:
EXCEL-Funktion: t* = TINV(0,05;FG)
t m di ( ) d
i
n
s di ( )

d
i
: Differenz der Werte
s
i
: Standardabweichung der d
i
-Werte
m
i
: Mittelwert der d
i
-Werte

Inhaltsverzeichnis

1. Deskriptive (=beschreibende) Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1 Der Begriff Merkmal und die Einteilung von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2 Darstellung der Daten in Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3 Graphische Darstellung von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kreisdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Polygon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.4 Verteilungsformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5 Formmae von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.6 Statistische Kennwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.1 Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modalwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Arithmetischer Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gewogenes arithmetisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.6.2 Streuungsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Eveness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Spannweite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interquartilabstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1

2
2
3
3
4

4

4

4
4
4
4
4
4

4
4

4

4

4
TEIL B
EXCEL-Hilfe
Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.7 Merkmalsverteilung Klassifizierte Hufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
absolute Hufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
relative Hufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
absolute Summenhufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
relative Summenhufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.8 Wahrscheinlichkeitstheorie und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.9 Korrelation und Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Korrelationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Korrelationskoeffizient nach Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rangkorrelationskoeffizient nach Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Die erklrte Varianz r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4

4
4
5
5
5

5
5
5
5
5
5

6
6
6
6
6

7

2. induktive (=schlieende) Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Anpassung an eine Normalverteilung & X-Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . .
Anpassung an eine Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Chi-Test bei der logarithmischen Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Automatische Antwort

Zufllige Einteilung in 2 Gruppen
7

6
6
8
8
8
8

1
Hilfe, wie geht das in EXCEL ???!!!???

1.1 --
1.2 Darstellung der Daten in Tabellen

Messdaten (mit fortlaufenden Nummern markiert) in Tabelle spaltenweise eintragen
Nr. Gewicht Brustumfang
(kg) (cm)
1 19 62,0
2 20 63,0
3 20 63,0
4 22 65,0
5 24 71,0
6 25 69,0
7 25 67,0
8 25 67,0
9 28 68,0

Bestimmung der Klassenanzahl (m):
EXCEL-Funktion: =WURZEL(n)

Formel eingeben und Markieren von Zellen: In Zelle klicken, Formel schreiben und Klammer ffnen,
dann, wenn die Werte eingegeben werden sollen:
a) hndisch eintippen (mhsam)
b) einfach auf andre Zellen klicken (und mit ziehen der Maus andre Zellen mitmarkieren)
dann die Parameter eingeben (werden immer mit ; getrennt) und die Klammer schlieen schlielich
ENTER-Taste drcken

n =ANZAHL(Wert1;Wert2;)
=ANZAHL(Wert1:letzter Wert)

o Variationsbreite (=Spannweite) festlegen: V = Max Min
min =MIN(Wert1:letzter Wert)
max =MAX(Wert1:letzter Wert)
Spannweite =(Zelle von min) - (Zelle von max)

Pseudoformeln mit Rechenoperatoren
In Zelle klicken, dann betroffene Zelle markieren, dann + - / * eingeben (ohne Leerzeichen oder
hnlichem!), dann weitere Zelle(n) anklickenetc.
Sollte es eine Rechnung mit mehreren Operatoren sein, sind Klammern obligat.
Beispiel: Berechnung der Spannweite mit EXCEL

m n
n .. Anzahl der Werte (Messdaten)
2
o Klassenbreite berechnen: Spannweite / Klassenzahl
Klassenbreite =(Zelle von Spannweite) / (Zelle von Klassenanzahl)

Runden: =RUNDEN(Zelle anklicken;Zahl der Kommastellen)

1.3 Graphische Darstellung von Daten

Diagramm erstellen: Auf eine leere Zelle klicken, dann in der Leiste das Diagramm-Symbol anklicken.
Der Diagrammasisstent wird geffnet und du musst eine Form auswhlen. Mchtest du ein Sule-Linie-
oder ein Sulen-Flche-Diagramm, musst du die Rubrik Benutzerdefinierte Typen anklicken und dann
die gewnschte Form suchen.
Dann weiter klicken und die Datenfelder eingeben (reinklicken). EXCEL nimmt automatisch die Sulen-
oder Balkenform (bei Sule-Linie-Diagramm). Sollte das Programm die falsche Reihe als Linie/Sule
dargestellt haben, lsst sich das ganz einfach richten: Rubrik Reihen whlen, dort die Datenfelder der
Reihen so tauschen, dass EXCEL es wie gewnscht anzeigt.
Des Weiteren kann man in dieser Rubrik den Reihen Namen geben, diese in ihrer Reihenfolge
verschieben UND: die Bezeichnungen fr die x-Achse eingeben (letzte Zeile).

Kreisdiagramm: nominal-, ordinalskalierte Daten
496.051; 23%
641.923; 29%
169.829; 8%
363.341; 17%
205.492; 10%
189.672; 9%
62.881; 3%
113; 0%
26.145; 1%
Wien
Burgenland
Niedersterreich
Obersterreich
Salzburg
Steiermark
Krnten
Tirol
Vorarlberg

Anzeigen von Werten und Anteilen:
a) Beim Erstellen des Diagrammes: Nachdem du die Datenfelder eingegeben hast,
klicke auf weiter. Dann findest du eine Rubrik Datenbeschriftungen. Dort findest du
Kstchen zum anhaken. Wert und Prozentsatz anhakeln und schon erscheint das
gewnschte Ergebnis.
b) Auf das fertige Diagramm rechts-klicken. Dann auf Datenreihen formatieren
klicken und es erscheint ein Fenster. Dort findest du wieder die Rubrik
Datenbeschriftungen und kannst Wert und Prozentsatz anhakeln.

Kreisdiagramm

Es werden Werte und
Anteile angezeigt.

Einstellbar bei
Diagrammoptionen

3
Das Balkendiagramm: Hufigkeitsdiagramm
relative nichtkumulierte Hufigkeit
0
5
10
15
20
25
30
[0,2 - 2) [2 - 3,8) [3,8 - 5,6) [5,6 - 7,4) [7,4 - 9,2) [9,2 - 11,9]
Klassen
H
u
f
i
g
k
e
i
t

Existiert nur eine Datenreihe, kann man die Legende weglassen, da diese nur strt.
Einstellen kann man das indem man auf das Diagramm rechts-klickt, dann auf
Diagrammoptionen geht und bei der Rubrik Legende Legende anzeigen vom
Hakerl befreit.

Frben von Hintergrund und Balken/Linien/Punkten: funktioniert nur beim fertig erstellten Diagramm.
Frben vom Hintergrund: Klicke doppelt auf eine freie Stelle am Hintergrund. Es erscheint ein Fenster
und du kannst eine Farbe auswhlen. Bei einem serisen Diagramm entfrbt man den Hintergrund.
Frben der Balken/Linien/Punkte: Doppelklick auf einen Balken/die Linie/einen Punkt. Ein Fenster
erscheint und man kann die Farben und die Gren der Punkte bzw. die Strke der Linie verndern.

Histogramm: Klassen sind untereinander verbunden (kein Abstand zw. den Balken)
0
2
4
6
8
10
12
14
16
(18-25] (25-32] (32-39] (39-46] (46-53] (53-60] (60-67)
A
n
z
a
h
l
h(x)
f(x)

Abstand zwischen den Balken auf 0 setzen: funktioniert nur beim fertig
erstellten Diagramm. Klicke doppelt auf die Balken, whle die Rubrik
Optionen und setze die Abstandsbreite von 150 auf 0.

Histogramm
kombiniert mit einer
angepassten Fuktion

Darstellungsmglichkeit
mit der Diagrammoption
Sule-Linie

Zustzlich wurde die
Funktion noch geglttet.
Zu finden bei
Diagrammoptionen
4
Polygon: die Hufigkeiten ber den Klassenmitten werden abgetragen und verbunden
und man fgt vorne und hinten noch einer Leerklasse hinzu.
0
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9 10 11 12

Polygon zeichnen: Whle den Diagrammtyp: Sule-Flche in
Benutzerdefinierte Diagrammtypen. Damit die Flche sichtbar wird musst
du die Sulen entfrben (keine Farbe) und die Linien verstrken.

o Summenpolygon: mit EXCEL nicht darstellbar. (bzw. wei ichs nicht)
1.4 --
1.5 --
1.6 Statistische Kennwerte
Lageparameter
o Modalwert:
Modalwert =MODALWERT(Daten markieren)

o Median:
Median =MEDIAN(Daten markieren)

o Arithmetischer Mittelwert:
arith. Mittelwert =MITTELWERT(Daten markieren)

Streuungsparameter:
o Interquartilabstand:
Quartil:
Quartil =QUARTILE(Daten;Qx)

Quantil:
Quantil =QUANTILE(Daten;%)

o Varianz:
Varianz =VARIANZ(Daten markieren)

o Standardabweichung:
Standardabw. =STABW(Daten markieren)

1.7 Merkmalsverteilung Klassifizierte Hufigkeiten
absolute Hufigkeit: h
i
= Anzahl der Messwerte in Klasse i
EXCEL-Funktion: Spalten, in dies reinkommen soll, markieren, dann oben in der Leiste wo f(x)=
steht: =HUFIGKEIT(Daten;Klassenobergrenzen) + Crtl. + SHIFT + ENTER
& Daten mit F4 fixieren ENTER drcken, dann runterziehen
100% = 1
50% = 0,5

5
Anz. D. Messwerte
n 40
Klassenanzahl 6,32455532
min 0,2 Klassen Klassenob. h(i) H(i) %H(i)
max 11,9 1 [0,2 - 2) 2 3 3 7,5
2 [2 - 3,8) 3,8 10 7 17,5
Spannweite 11,7 3 [3,8 - 5,6) 5,6 16 6 15
4 [5,6 - 7,4) 7,4 27 11 27,5
Klassenbreite 1,84993243 5 [7,4 - 9,2) 9,2 33 6 15
6 [9,2 - 11,9] 11,9 40 7 17,5
Summe: 100

Prozentuale klassifizierte Hufigkeit (=relative Hufigkeit): =(h
i
/ n) * 100

absolute / kumulierte Hufigkeit: Anzahl der Messwerte bis einschlielich Klasse i.
EXCEL-Funktion: =HUFIGKEIT(Daten;Klassenobergrenze), ENTER drcken und runterziehen.
Anz. D. Messwerte
n 40
Klassenanzahl 6,32455532
min 0,2 Klassen Klassenob. h(i) H(i) %H(i)
max 11,9 1 [0,2 - 2) 2 3 3 7,5
2 [2 - 3,8) 3,8 10 7 17,5
Spannweite 11,7 3 [3,8 - 5,6) 5,6 16 6 15
4 [5,6 - 7,4) 7,4 27 11 27,5
Klassenbreite 1,84993243 5 [7,4 - 9,2) 9,2 33 6 15
6 [9,2 - 11,9] 11,9 40 7 17,5
Summe: 100

1.8 Wahrscheinlichkeitstheorie und Verteilungen
Diskrete Verteilungen:
o Binomialverteilung:
EXCEL-Funktion: =BINOMVERT(X;k;p; 0 od. 1)

o Poissonverteilung:
EXCEL-Funktion: =POISSON(X;Mittelwert; 0 od. 1)

Stetige Verteilungen:
o Normalverteilung:
EXCEL-Funktion: =NORMVERT(x;Mittelwert;Standardabw.;0 od.1)

o Chi (X) Verteilung: --

=HUFIGKEIT(Daten;Klassen-
obergrenze)
0 bei max.
1 bei genau
1 bei kumuliert
1 bei kumuliert
6
1.9 Korrelation und Regression
Korrelationsanalyse:
o Korrelationskoeffizient nach Pearson:
EXCEL-Funktion: =PEARSON(Daten) oder: =KORREL(Daten)

Korrelationsgerade: in Excel: Trendlinie

Korrelationsgerade mit der Hand:
Krpermasse = Steigung * Krpergre + Achsenabschnitt
y-Werte x-Werte

Steigung: EXCEL-Funktion: =STEIGUNG(y-Werte;x-Werte)
Achsenabschnitt: EXCEL-Funktion: =ACHSENABSCHNITT(y-Werte;x-Werte)
Regressionsgerade
Student
Nr.
Krper-
gre (cm)
Krper-
masse (kg) krpermasse regression
1 167 52 56
2 168 55
57
3 168 60
57
4 167 50 56
5 178 65 66
6 175 67 64

Regressionsanalyse: beschreibt einen linearen Zusammenhang mittels Regressionsgerade der
Form y = kx + d, wobei diese Gerade den Nullpunkt nicht schneiden muss.

Hinzufgen einer Trendlinie in einem Scatterplot: Punkt anklicken, rechts-
klicken, dann auf Trendlinie hinzufgen. Es ffnet sich nun ein Fenster.
Nun die Trendlinienform whlen (meistens linear) und auf OK klicken.
Gibt es mehr als eine Datenreihe, so muss man bevor man die
Trendlinienform whlt noch die Reihe (meistens benannt) auswhlen, fr
die eine Trendlinie hinzugefgt werden soll.
Rangkorrelationskoeffizient nach Spearman: EXCEL-Funktion: =PEARSON()
o Rnge vergeben: EXCEL-Funktion: =RANG()

Student
Nr.
Krper-
gre
(cm)
Krper-
masse
(kg) Rang Gre Masse
Differenz
di^2 Rangkorr.koeff.
1 167 52 9 6 9 0,704562862
2 168 55 12 11 1
3 168 60 12 19 49
4 167 50 9 4 25 Nherung:
5 178 65 30 29 1
6 175 67 27 31 16 0,70186968

werden in Diagramm als
Regressionsgerade
dargestellt
7
Die erklrte Varianz r
r kann in EXCEL automatisch berechnet werden, wenn das Diagramm fertig gestellt und eine Trendlinie
erstellt wurde. Dabei kann man in den Optionen whlen, dass r angezeigt wird.

2. induktive (=schlieende) Statistik
Stichproben zufllig auswhlen:
EXCEL-Funktion: ZUFALLSZAHL()
Da diese Funktion aber nur Werte von 0 1 ausgibt muss man multiplizieren und die Zahl auf eine
ganze Zahl runden. Will man ein spezielles Fenster an Zahlen, z.B. 10-20, so muss man die
multiplizierten Zufallszahlen auch noch verschieben (Addition/Subtraktion).

2.1 Anpassungstests
2.1.1 Anpassung an eine Normalverteilung und X-Anpassungstest

Berechnung der Klassenmitte:
EXCEL-Funktion: =(Kassenuntergrenze+Klassenobergrenze)/2 und dann runterziehen

Berechnung von f(x) = Normalverteilung:
EXCEL-Funktion: =NORMVERT(Klassenmitte;Mittelwert;Standardabw.;0/1)

Berechnung der Differenz:
EXCEL-Funktion: =(f(x) abs.H.)^2) / f(x) und dann runterziehen
1 bei kumuliert
8
0
2
4
6
8
10
12
14
16
18
(155-160] (160-165] (165-170] (170-175] (175-180] (180-185] (185-190] (190-195)
Klassen
A
n
z
a
h
l

2.1.2 Anpassung an eine Poissonverteilung --
2.1.3 Anpassung an eine Gleichverteilung & Chi-Test --
2.2 Statistische Tests
2.2.1 Chi-Test bei der logarithmischen Normalverteilung
EXCEL-Funktion: =LOGNORMVERT(Klassenobergr.;Mittelwert;Stabw

2.2.2 Kolmogorov-Smirnov-Test --
2.2.3 t-Test
2.2.3.1 t-Test fr unverbundene Stichproben
Kritischer Wert t*: EXCEL-Funktion: t* = TINV(0,05;FG)

2.2.3.2 t-Test fr verbundene Stichproben

Gruppe1
(Mastfutter A)
Gruppe2
(Mastfutter B)
Krpermasse,
Mastende (g)
Krpermasse,
Mastende (g) Gruppe1 Gruppe2
1644 1638 m 1636,7 1644,6
1642 1638 s 9,3 5,4
1658 1638 n 27,0 27,0
1624 1639 se 1,8 1,0
1652 1639
1653 1640
1637 1640
1631 1640
1622 1640 smd 2,1
1646 1641 d -7,9
1622 1642 t 3,8
1632 1642 FG 52,0
1632 1643 t* 2,0

Automatische Antwort:
Zum Beispiel: =WENN(K29>K25;"Daten gleichverteilt";"Daten sind nicht gleichverteilt")

Zufllige Einteilung in 2 Gruppen:
Zufallszahlen zw. 0 u. 20: =ZUFALLSZAHL()*20
Gerundet und durch Division durch 2 (Erg. = 0 od. 1): =REST(RUNDEN(ZUFALLSZAHL()*20;0);2)

Konrad, Lisa - Biostatistik

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Konrad, Lisa - Biostatistik

Uploaded by

Copyright:

Available Formats

Biostatistik

n Anzahl der Messwerte

You might also like