Professional Documents
Culture Documents
GGH
Elemente
Stichprobe
Vorteile Nachteile
einfacher kein
Zeitersparnis 100%iges Ergebnis
Kostenersparnis nur Aussagen mit einer
WSK von 95-99% möglich
Stichprobe
Ergebnis
Skalierung
Mean: x=
∑x i
(sample); µ=
∑x i
(population)
n N
n: sample size N: population size
mean
mode median
p
Percentiles: i= ⋅n (value position)
100
i + (i +1)
(for even numbers; always round up for non-integers)
2
s =
2 ∑ ( xi − x ) 2
;σ =
2 ∑ ( xi − µ ) 2
n −1 N
Summe aller Abweichungen vom arithmetischen Mittel
(nur Hilfsmittel, hat keine Aussagekraft)
Standard deviation: s = s 2
durchschnittliche Abweichung vom arithmetischen Mittel
___________________________________________________________________________
Deduktive Statistik
Skalierung Mittelwerte
nominal Modus (D)
orinal Modus (D), Median ( ~
x)
metrisch ~
Modus (D), Median ( x ), Mean (
x)
D, ~
x, x
D ~
x x
Mittelwert Streumaße
mode (D) -
median ( ~
x) Interquartile range (IQR), range
mean ( x ) 2
variance ( s x ), standard deviation ( s x
)
Eindimensionale Häufigkeiten
i: Nummer der Klasse
xi : Klassenbeschriftung/Merkmalsausprägung
ni : absolute Häufigkeit
n : Stichprobenumfang ( ∑ni )
N : Grundgesamtheit (GGH)
n
hi : relative Häufigkeit ( i )
n
Fi : kumulierte relative Häufigkeit (macht prozentuale Aussagen möglich)
∆xi : Klassenbreite (bei gruppierten Daten; xio − xiu )
h
f i : Dichte ( i )
∆xi
→ nur interessant bei Klassen mit mit unterschiedlicher Breite
→ gibt Auskunft über den Modus (D) bei unterschiedlicher Klassenbreite
→ unverfälschtes Bild der Verteilung
x o − xiu
xi* : Klassenmitte ( i )
2
Ausreißer Ausreißer
-3s -2s -s x s 2s 3s
68%
96%
99%
Zweidimensionale Häufigkeit
nominal ordinal metrisch
- Kontingenzkoeffizient K * nominal K* K* K*
- Korrelationskoeffizient r ordinal rsp rsp
K*
- Rangkorrelationskoeffizient rsp r
metrisch K* rsp
zunächst: Unabhängigkeitstabelle
ni • : Summe Zeile i
n• j : Summe Spalte j
~n = ni• ⋅ n• j
~ )2
(nij − n
; χ2 = ∑
ij
ij ~
n
M ij
s xy =
∑(x i − x ) ⋅ ( yi − y )
(nicht quadrieren, da sonst nur
n −1
positive Werte möglich)
Regression
- Merkmale nicht gleichberechtigt
- Ursache-Wirkung-Zusammenhang (x: Ursache , y: Wirkung)
Die Lage der Punktwolke soll durch die Bildung der Regressionsgeraden bestmöglich
beschrieben werden. Es zeichnet sich ein Trend ab.
lineare Regression: mit Hilfe einer linearen Funktion soll die Beziehung zwischen zwei
Variablen (x, y) beschrieben werden
→ Vorhersagen/Prognosen (nur für metrisch skalierte Merkmale)
s xy
Regressionsgerade: yˆ = b0 + b1 ⋅ x mit b0 = y − b1 ⋅ x ; b1 = 2
sx
Bestimmungsmaß: r2 =
SSR
=
∑ ( yˆ i − y) 2
SST ∑( y i − y) 2
r²: Güte der Regression (Annäherung der Punkte an die Gerade
→ Je näher r² an 1, desto besser beschreibt die Regressions
gerade die Punktwolke.
r² = 1: alle Werte liegen auf der Geraden
Interpretation: r² Prozent der Streuung der abhängigen Variable
lässt sich durch die Streuung der unabhängigen
Variable erklären.
Induktive Statistik
Stichprobe GGH
Mittelwerte x µ = E (x )
Standardabw sx σ
.
Anteilswerte p P
Der zentrale Grenzwertsatz:
Die Summe einer großen Stichprobe von unabhängigen, identisch verteilten Zufallsvariablen
xi ist annähernd (standard-) normalverteilt.
σ
E (x ) = µ (Erwartungswert von x der GGH); sx =
n
mehrere Stichproben → mehrere Mittelwerte
Je größer die Stichprobe, desto näher kommt man dem wahren Mittelwert, desto kleiner die
Varianz und die Standardabweichung.
Standardnormalverteilung:
→ Approximation (Annäherung) der Normalverteilung durch die Standardnormalvertei
lung geschieht durch die z-Transformation
x −µ
z= → die Wahrscheinlichkeiten können als Flächen zwischen Kurve
σ
und x-Achse abgelesen werden (v. l. n. r.)
Konfidenzintervall
Mit Hilfe der Konfidenzintervalle lassen sich Aussagen über ausgewählte Kenngrößen der
GGH machen, ohne dass die GGH beobachtet wird.
Es beschreibt einen Bereich, in dem ein Parameter der GGH mit einer vorgegebenen
Sicherheitswahrscheinlichkeit (95%, 99%), basierend auf einer Stichprobe, erwartet werden
kann.
1 −α
α α
= 95% α = 5%
2 2
µ
- je kleiner α , desto größer und präziser das Intervall
- je größer α , desto kleiner und ungenauer das Intervall
- je kleiner n , desto größer und ungenauer das Intervall
- je größer n , desto kleiner und genauer das Intervall
x→ σ gegeben P( x − z α ⋅ σ x ≤ µ ≤ x + z α ⋅ σ x ) = 1 − α
; z: Stichprobenfehler
2 2
Die Binomialverteilung lässt sich durch die Normalverteilung annähern, wenn folgende
Vorraussetzung erfüllt ist: n ⋅ p ⋅ (1 − p ) ≥ 9 oder n ⋅ p ≥ 5 und n ⋅ (1 − p ) ≥ 5
σ
Streuung: x ± zα ⋅ → Standardabw. für den durchschnittlichen Anteilswert
2 n
Freiheitsgrade:
Ist σ unbekannt, so muss es durch den Schätzer s (Standardabweichung der Stichprobe)
ersetzt werden. Das dazugehörige Konfidenzintervall basiert auf einer t-Verteilung mit
v = n −1 Freiheitsgraden. Für eine kleine Anzahl an Freiheitsgraden verläuft die t-Verteilung
flacher als die Normalverteilung. Dieser Unterschied verringert sich mit wachsenden
Freiheitsgraden, so dass es ab einem Stichprobenumfang von n ≥ 30 zulässig ist, anstelle der
t-Verteilung die Standardnormalverteilung zu verwenden.
Anteilswert:
Aus Anteilswerten in der Stichprobe sollen diese in der Grundgesamtheit bestimmt werden.
Bei dichotomer (zweigeteilter) Grundgesamtheit:
p : Anteilswert der GGH
p̂ : Anteilswert der Stichprobe
p 0 : unterstellter Anteilswert für eine Hypothese
Stichprobenfehler ( = ∆p )
z 2 ⋅ pˆ ⋅ (1 − pˆ )
optimaler Stichprobenumfang → n ≥
∆p 2
Einsatz: Mittelwert einer GGH (μ) / Anteilswert einer GGH (p) / Regressionskoeffizien
ten einer GGH (ß0, ß1) / Unabhängigkeitstest
Fall 1:
zweiseitige Fragestellung: H0: µ = µ0
HA: µ ≠ µ0
Annahme-
Ablehnungsbereich bereich Ablehnungsbereich
α α
1− 1−
2 2
Fall 2:
einseitige Fragestellung: H0: µ ≤ µ0
(Abgrenzung nach oben) HA: µ ≥ µ0
Annahme-
bereich Ablehnungsbereich
1 −α
Fall 3:
einseitige Fragestellung: H0: µ ≥ µ0
(Abgrenzung nach unten) HA: µ ≤ µ0
Annahme-
Ablehnungsbereich bereich
1 −α
Die Größe der WSK für einen Fehler 1.Art kann man durch α bestimmen (meistens 5% und
1%). Durch negative Formulierung mit dem Ziel H0 abzulehnen kann der Fehler 2. Art
vermieden werden.