Zusammenfassung Statistik

Statistik
empfohlene Literatur: Contemporary Business Statistics (Sweeny)
Grundgesamtheit (GGH): gesamte zu beobachtende Menge (z. B. Bürger eines Landes)

Element: z. B. Studenten; Student = 1 Element
Merkmal u. Ausprägung: z. B. Haarfarbe(M), blond, braun,…(A)
GGH
Elemente
Stichprobe
deskriptive (beschreibende) Statistik:

Beschreibung von vorliegenden Daten und deren Zusammenfassung zur Ermittlung von
Kenngrößen.
 eindimensionale Häufigkeitsverteilung (1 Merkmal)
 zweidimensionale Häufigkeitsverteilung (2 Merkmale)
induktive (schließende) Statistik:

Durchführung einer Stichprobe um Rückschlüsse auf die Grundgesamtheit zu ziehen.
Zufallsauswahl (repräsentativ) → gleiche Auswahlwahrscheinlichkeit

Bsp.: Produktion von Schokoladentafeln: 1000 Stk./Tag, Kontrolle von 20 Stk.
→ jede 50. Tafel wird kontrolliert
Vorteile Nachteile
einfacher  kein
Zeitersparnis 100%iges Ergebnis
Kostenersparnis  nur Aussagen mit einer
WSK von 95-99% möglich
Auswahl aus Geratewohl (convenience sample)

 nicht repräsentativ → keine Rückschlüsse auf die GGH
 ungleiche Auswahl - WSK
 z. B. Füßgängerzone vormittags
Primärforschung: erhebt Daten direkt am Markt zu einem bestimmten Zweck

Vorteil: Aktualität auf spez. Bedingungen zugeschnitten
Nachteil: Kosten, Zeit
Sekundärforschung: Beschaffung und Analyse bereits vorhandener Daten (können

ursprünglich zu einem anderen Zweck erhoben worden sein, z. B.
statistisches Bundesamt)
Vorteil: geringe Kosten, Zeitersparnis
Nachteil: ungenau, unpassend, nicht aktuell
Grundgesamtheit
Stichprobe
deskriptive Statistik Auswertung induktive Statistik
Ergebnis
Skalierung
nominal: Ausprägungen stehen gleichberechtigt nebeneinander (quantitativ)

metrisch: Rangordnung und Abstände lassen sich angeben (quantitativ)
ordinal: Rangordnung lässt sich angeben (Abstände nicht messbar → qualitativ)
Measures of Location - Mean Median, Mode, Percentiles, Quantiles
Mean: x=
∑x i
(sample); µ=
∑x i
(population)
n N
n: sample size N: population size
Median: measure of location; 50% of values / Median / 50% of values

a +b
- even numbers: between 2 values,
2
- odd numbers: middle value
Mode: value that is most often mentioned
mean
mode median
p
Percentiles: i= ⋅n (value position)
100
i + (i +1)
(for even numbers; always round up for non-integers)
2
Quartiles: specific percentiles

~
- unteres Quartil: Q1 =ˆ x0, 25
→ Aussagen über die ersten 25% der Werte möglich
- mittleres Quartil: Q2 =ˆ ~x0,5 = ~x
- oberes Quartil: Q3 =ˆ ~x0,7 5
Measures or variabilities - Range, Interquartile range, Variance,

Standard Deviation
Range: Differenz/Abstand zwischen dem größten und dem kleinsten Wert

R = xio − xiu
→ wo hätte der häufigste Wert (D) vorkommen können (nur geringe
Aussagekraft)
Interquartile range: Range für die mittleren 50% (75% - 25%)

→ in welcher Spannweite weichen die Werte vom Median ab
Variance: average of the squared difference

based on the difference between the value of each observation
s =
2 ∑ ( xi − x ) 2
;σ =
2 ∑ ( xi − µ ) 2
n −1 N
Summe aller Abweichungen vom arithmetischen Mittel
(nur Hilfsmittel, hat keine Aussagekraft)
Standard deviation: s = s 2
durchschnittliche Abweichung vom arithmetischen Mittel
___________________________________________________________________________
Deduktive Statistik
Beschreibung von eindimensionalen Häufigkeiten durch

Lageparameter
→ Lokationsmaße / measures of location (Mittelwerte), die die durchschnittliche
Lage der Merkmalswerte beschreiben
Skalierung Mittelwerte
nominal Modus (D)
orinal Modus (D), Median ( ~
x)
metrisch ~
Modus (D), Median ( x ), Mean (
x)
Modus (Modalwert): am häufigsten auftretende Wert bzw. Merkmalsausprägung einer

Verteilung
Interpretation: Die meisten Elemente haben D als Wert/Ausprägung.
Median: Wert, der die Stichprobe in zwei Hälften teilt

Interpretation: 50% aller Werte sind kleiner oder gleich dem Median und der
Rest ist größer.
Mean (Arithm. Mittel): durchschnittlicher Wert einer Verteilung

Interpretation: Im Durchschnitt haben alle Elemente eine Ausprägung mit dem
Wert x .
Schiefe der Verteilung

→ stellt die Mittelwerte grafisch dar
1) symmetrisch: entspricht der Normalverteilung D=~

x=x
D, ~
x, x
2) linkssteil / rechtsschief: (right hand slope) x≤~

x≤D
D ~
x x
3) linksschief / rechtssteil: left hand slope x≤~

x≤D
x ~
x D
Streumaße (Measures of variability)

→ treffen Aussagen über die Größe der Abweichung der einzelnen Werte von den
Mittelwerten
Mittelwert Streumaße
mode (D) -
median ( ~
x) Interquartile range (IQR), range
mean ( x ) 2
variance ( s x ), standard deviation ( s x
)
Eindimensionale Häufigkeiten
i: Nummer der Klasse
xi : Klassenbeschriftung/Merkmalsausprägung
ni : absolute Häufigkeit
n : Stichprobenumfang ( ∑ni )
N : Grundgesamtheit (GGH)
n
hi : relative Häufigkeit ( i )
n
Fi : kumulierte relative Häufigkeit (macht prozentuale Aussagen möglich)
∆xi : Klassenbreite (bei gruppierten Daten; xio − xiu )
h
f i : Dichte ( i )
∆xi
→ nur interessant bei Klassen mit mit unterschiedlicher Breite
→ gibt Auskunft über den Modus (D) bei unterschiedlicher Klassenbreite
→ unverfälschtes Bild der Verteilung
x o − xiu
xi* : Klassenmitte ( i )
2
Ausreißer einer Analyse

Normalverteilung (→ Gaußsche Glockenkurve)
Ausreißer Ausreißer
-3s -2s -s x s 2s 3s
68%
96%
99%
Verfahren mit Ausreißern: Werte auf Fragestellung prüfen (situationsbedingt)

empfindlich gegenüber Ausreißern: x , s x , R
Warum verwendet man gruppierte Daten? günstiger, übersichtlicher
Zielsetzung der Statistik für die Wirtschaft:

Generieren von Wissen durch Datenerfassung und Auswertung
→ dient der Entscheidungsfindung bzw. Unterstützung von Entscheidungen
Zweidimensionale Häufigkeit
nominal ordinal metrisch
- Kontingenzkoeffizient K * nominal K* K* K*
- Korrelationskoeffizient r ordinal rsp rsp
K*
- Rangkorrelationskoeffizient rsp r
metrisch K* rsp
Korrelation: Wechselbeziehung zweier Merkmale soll beschrieben werden. Hierbei

wird nicht berücksichtigt, ob es einen Ursache-Wirkungs-Zusammenhang
gibt, nur die Stärke und Richtung des Zusammenhangs.
Kontingenzkoeffizient: mind. ein nominales Merkmal

0 ≤ K * ≤ 1 (Stärke des Zusammenhangs, nicht die Richtung)
χ2 M
K* = ⋅ ; M = min(Spalte, Zeile)
n + χ M −1
2
zunächst: Unabhängigkeitstabelle
ni • : Summe Zeile i
n• j : Summe Spalte j
~n = ni• ⋅ n• j
~ )2
(nij − n
; χ2 = ∑
ij
ij ~
n
M ij
Rangkorrelationskoeffizient: mind. ein ordinales und kein nominales Merkmal

6 ⋅ ∑( Ri − Ri' ) 2
rsp = 1 − ; −1 ≤ rsp ≤1
(n +1) ⋅ n ⋅ ( n −1)
(Stärke und Richtung des Zusammenhangs)
Ergebnis: positiv → gleichlaufender Zusammenhang
negativ → gegenläufiger Zusammenhang
Berechnung: x: i ; y: i'
1) Rangfolge der Werte
2) Merkmale müssen gleichgerichtet sortiert werden
Merke: Bei einem metrischen Merkmal müssen zuerst Ränge gebildet
werden!
Korrelationskoeffizent: beide Merkmale sind metrisch
0 ≤ rxy ≤1 ; x: unabhängiges Merkmal , y: abhängiges Merkmal
Ziel: Berechnung der beidseitigen Abhängigkeiten zweier Merkmale
x und y.
s xy
r= ; sxy: Kovarianz , sx/y: Standardabweichung (x, y)
sx ⋅ s y
s xy =
∑(x i − x ) ⋅ ( yi − y )
(nicht quadrieren, da sonst nur
n −1
positive Werte möglich)
Regression
- Merkmale nicht gleichberechtigt
- Ursache-Wirkung-Zusammenhang (x: Ursache , y: Wirkung)
Die Lage der Punktwolke soll durch die Bildung der Regressionsgeraden bestmöglich
beschrieben werden. Es zeichnet sich ein Trend ab.
lineare Regression: mit Hilfe einer linearen Funktion soll die Beziehung zwischen zwei
Variablen (x, y) beschrieben werden
→ Vorhersagen/Prognosen (nur für metrisch skalierte Merkmale)
s xy
Regressionsgerade: yˆ = b0 + b1 ⋅ x mit b0 = y − b1 ⋅ x ; b1 = 2
sx
y-Achse bei x=0 Steigung
Bestimmungsmaß: r2 =
SSR
=
∑ ( yˆ i − y) 2
SST ∑( y i − y) 2
r²: Güte der Regression (Annäherung der Punkte an die Gerade
→ Je näher r² an 1, desto besser beschreibt die Regressions
gerade die Punktwolke.
r² = 1: alle Werte liegen auf der Geraden
Interpretation: r² Prozent der Streuung der abhängigen Variable
lässt sich durch die Streuung der unabhängigen
Variable erklären.
Induktive Statistik
→ Rückschlüsse der Kennziffern aus einer Stichprobe auf die Grundgesamtheit
Stichprobe GGH
Mittelwerte x µ = E (x )
Standardabw sx σ
.
Anteilswerte p P
Der zentrale Grenzwertsatz:
Die Summe einer großen Stichprobe von unabhängigen, identisch verteilten Zufallsvariablen
xi ist annähernd (standard-) normalverteilt.
σ
E (x ) = µ (Erwartungswert von x der GGH); sx =
n
mehrere Stichproben → mehrere Mittelwerte
Je größer die Stichprobe, desto näher kommt man dem wahren Mittelwert, desto kleiner die
Varianz und die Standardabweichung.
Die Normalverteilung (→ Gaußsche Glockenkurve) wird durch zwei Parameter bestimmt:
µ : Kurvenlage auf der x-Achse

σ : Höhe der Stauchung
Alle normalverteilten x-Werte aus einer Stichprobe können zu standardnormalverteilten z-
Werten standardisiert werden, um Wahrscheinlichkeiten bestimmen zu können.
Standardnormalverteilung:
→ Approximation (Annäherung) der Normalverteilung durch die Standardnormalvertei
lung geschieht durch die z-Transformation
x −µ
z= → die Wahrscheinlichkeiten können als Flächen zwischen Kurve
σ
und x-Achse abgelesen werden (v. l. n. r.)
Konfidenzintervall
Mit Hilfe der Konfidenzintervalle lassen sich Aussagen über ausgewählte Kenngrößen der
GGH machen, ohne dass die GGH beobachtet wird.
Es beschreibt einen Bereich, in dem ein Parameter der GGH mit einer vorgegebenen
Sicherheitswahrscheinlichkeit (95%, 99%), basierend auf einer Stichprobe, erwartet werden
kann.
allgemein: P (Untergrenz e < Parameter < Obergrenze ) = 1 − α ,

α =ˆ Irrtums-WSK
→ die Intervallgrenzen (eines Konfidenzintervalls) können wir beeinflussen durch:
Sicherheitswahrscheinlichkeit ( =1 −α)
Irrtumswahrscheinlichkeit (= α)
Stichprobenumfang (= n)
ob die Varianz (→ Streuung) gegeben ist
1 −α
α α
= 95% α = 5%
2 2
µ
- je kleiner α , desto größer und präziser das Intervall
- je größer α , desto kleiner und ungenauer das Intervall
- je kleiner n , desto größer und ungenauer das Intervall
- je größer n , desto kleiner und genauer das Intervall
Vorteile: - Kosten- und Zeitersparnis

- genaue Eingrenzung der Standardabweichung
Nachteile: - keine 100%igen Aussagen möglich

- Ausreißer werden nicht herausgefiltert
Welche Verteilung nehme ich?
x→ σ gegeben P( x − z α ⋅ σ x ≤ µ ≤ x + z α ⋅ σ x ) = 1 − α
; z: Stichprobenfehler
2 2
x→ σ nicht gegeben 2 Fälle:

sx
n < 3 0 → t − V e r te ilu n: tgv α ⋅ ; v =ˆ F r e ih e itsragd e
1−
2 n
sx
n ≥ 30 → Normalverteilung : z α ⋅
1−
2 n
Die Binomialverteilung lässt sich durch die Normalverteilung annähern, wenn folgende
Vorraussetzung erfüllt ist: n ⋅ p ⋅ (1 − p ) ≥ 9 oder n ⋅ p ≥ 5 und n ⋅ (1 − p ) ≥ 5
σ
Streuung: x ± zα ⋅ → Standardabw. für den durchschnittlichen Anteilswert
2 n
Freiheitsgrade:
Ist σ unbekannt, so muss es durch den Schätzer s (Standardabweichung der Stichprobe)
ersetzt werden. Das dazugehörige Konfidenzintervall basiert auf einer t-Verteilung mit
v = n −1 Freiheitsgraden. Für eine kleine Anzahl an Freiheitsgraden verläuft die t-Verteilung
flacher als die Normalverteilung. Dieser Unterschied verringert sich mit wachsenden
Freiheitsgraden, so dass es ab einem Stichprobenumfang von n ≥ 30 zulässig ist, anstelle der
t-Verteilung die Standardnormalverteilung zu verwenden.
Anteilswert:
Aus Anteilswerten in der Stichprobe sollen diese in der Grundgesamtheit bestimmt werden.
Bei dichotomer (zweigeteilter) Grundgesamtheit:
p : Anteilswert der GGH
p̂ : Anteilswert der Stichprobe
p 0 : unterstellter Anteilswert für eine Hypothese
Modell mit Zurücklegen (Binomialverteilung):

günstigeFä lle ( pˆ )
Test auf Anteilswerte →
möglicheFä lle (n)
pˆ ⋅ (1 − pˆ ) pˆ ⋅ (1 − pˆ )
Konfidenzintervall → P( pˆ − z1−α ⋅ ≤ p ≤ pˆ + z α ⋅ ) = 1−α
2
n 1−
2
n
Stichprobenfehler ( = ∆p )
z 2 ⋅ pˆ ⋅ (1 − pˆ )
optimaler Stichprobenumfang → n ≥
∆p 2
Testen von Hypothesen

→ Aussagen oder Behauptungen über einen Wert in der Grundgesamtheit werden überprüft.
Einsatz: Mittelwert einer GGH (μ) / Anteilswert einer GGH (p) / Regressionskoeffizien
ten einer GGH (ß0, ß1) / Unabhängigkeitstest
Nullhypothese (H0): zu überprüfende Hypothese

Alternativhypothese (HA): gegenseitige Hypothese
- einseitige (Über- oder Unterschreitung) oder zweiseitige (Intervall) Fragestellung

- kritischer Bereich: in welchem Bereich H0 abgelehnt werden muss
- beobachteter Wert:
x − µ0
z-Test → z = ⋅ n → Normalverteilung
σ
x − µ0
t-Test → t = ⋅ n → t-Verteilung (wenn σ unbekannt; n ≤ 30 )
s
Vorgehensweise: 1) Hypothese aufstellen (H0, HA)
→ einseitige oder zweiseitige Fragestellung
2) Verteilung bestimmen: z oder t
3) kritischen Bereich definieren
4) beobachteten Wert berechnen
5) H0 annehmen/ablehnen + Interpretation
Fall 1:
zweiseitige Fragestellung: H0: µ = µ0
HA: µ ≠ µ0
Annahme-
Ablehnungsbereich bereich Ablehnungsbereich
α α
1− 1−
2 2
Fall 2:
einseitige Fragestellung: H0: µ ≤ µ0
(Abgrenzung nach oben) HA: µ ≥ µ0
Annahme-
bereich Ablehnungsbereich
1 −α
Fall 3:
einseitige Fragestellung: H0: µ ≥ µ0
(Abgrenzung nach unten) HA: µ ≤ µ0
Annahme-
Ablehnungsbereich bereich
1 −α
→ Die angezweifelte Behauptung/Aussage kommt immer in H0
α-Fehler und β-Fehler:

Da man hat nicht die volle Information über alle Werte der GGH, sondern nur eine Stichprobe
hat, muss man die Möglichkeit einräumen, Fehler zu machen.
Entscheidung
H0 ablehnen H0 annehmen
In Wirklichkeit gilt
H0 richtig α-Fehler kein Fehler

(Fehler 1-Art) richtige Entscheidung
H0 falsch kein Fehler β-Fehler

richtige Entscheidung
α- Fehler (Fehler 1. Art):

man lehnt H0 ab, obwohl sie richtig ist
β-Fehler (Fehler 2. Art):

man nimmt H0 an, obwohl sie falsch ist
Die Größe der WSK für einen Fehler 1.Art kann man durch α bestimmen (meistens 5% und
1%). Durch negative Formulierung mit dem Ziel H0 abzulehnen kann der Fehler 2. Art
vermieden werden.

Zusammenfassung Statistik

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Zusammenfassung Statistik

Uploaded by

Copyright:

Available Formats

Statistik

empfohlene Literatur: Contemporary Business Statistics (Sweeny)

Grundgesamtheit (GGH): gesamte zu beobachtende Menge (z. B. Bürger eines Landes)

deskriptive (beschreibende) Statistik:

induktive (schließende) Statistik:

Zufallsauswahl (repräsentativ) → gleiche Auswahlwahrscheinlichkeit

Auswahl aus Geratewohl (convenience sample)

Primärforschung: erhebt Daten direkt am Markt zu einem bestimmten Zweck

Sekundärforschung: Beschaffung und Analyse bereits vorhandener Daten (können

deskriptive Statistik Auswertung induktive Statistik

nominal: Ausprägungen stehen gleichberechtigt nebeneinander (quantitativ)

Measures of Location - Mean Median, Mode, Percentiles, Quantiles

Median: measure of location; 50% of values / Median / 50% of values

Mode: value that is most often mentioned

Quartiles: specific percentiles

Measures or variabilities - Range, Interquartile range, Variance,

Range: Differenz/Abstand zwischen dem größten und dem kleinsten Wert

Interquartile range: Range für die mittleren 50% (75% - 25%)

Variance: average of the squared difference

Beschreibung von eindimensionalen Häufigkeiten durch

Modus (Modalwert): am häufigsten auftretende Wert bzw. Merkmalsausprägung einer

Median: Wert, der die Stichprobe in zwei Hälften teilt

Mean (Arithm. Mittel): durchschnittlicher Wert einer Verteilung

Schiefe der Verteilung

1) symmetrisch: entspricht der Normalverteilung D=~

2) linkssteil / rechtsschief: (right hand slope) x≤~

3) linksschief / rechtssteil: left hand slope x≤~

Streumaße (Measures of variability)

Ausreißer einer Analyse

Verfahren mit Ausreißern: Werte auf Fragestellung prüfen (situationsbedingt)

Warum verwendet man gruppierte Daten? günstiger, übersichtlicher

Zielsetzung der Statistik für die Wirtschaft:

Korrelation: Wechselbeziehung zweier Merkmale soll beschrieben werden. Hierbei

Kontingenzkoeffizient: mind. ein nominales Merkmal

Rangkorrelationskoeffizient: mind. ein ordinales und kein nominales Merkmal

y-Achse bei x=0 Steigung

→ Rückschlüsse der Kennziffern aus einer Stichprobe auf die Grundgesamtheit

Die Normalverteilung (→ Gaußsche Glockenkurve) wird durch zwei Parameter bestimmt:

µ : Kurvenlage auf der x-Achse

allgemein: P (Untergrenz e < Parameter < Obergrenze ) = 1 − α ,

Vorteile: - Kosten- und Zeitersparnis

Nachteile: - keine 100%igen Aussagen möglich

Welche Verteilung nehme ich?

x→ σ nicht gegeben 2 Fälle:

Modell mit Zurücklegen (Binomialverteilung):

Testen von Hypothesen

Nullhypothese (H0): zu überprüfende Hypothese

- einseitige (Über- oder Unterschreitung) oder zweiseitige (Intervall) Fragestellung

→ Die angezweifelte Behauptung/Aussage kommt immer in H0

α-Fehler und β-Fehler:

H0 richtig α-Fehler kein Fehler

H0 falsch kein Fehler β-Fehler

α- Fehler (Fehler 1. Art):

β-Fehler (Fehler 2. Art):

You might also like