You are on page 1of 7

1.2 Estadstica descriptiva: Anlisis de datos univariados. Tabla de distribucin de frecuencias.

Medidas de tendencia
central, dispersin y asimetra.

Estadstica descriptiva
Anlisis de datos univariados
Los anlisis univariados se aplican a mtodos para agrupar datos que se
refieren a una caracterstica de los miembros de una poblacin o muestra,
conocidos como datos univariados. Por ejemplo, el estudio podra referirse a
la edad de los estudiantes del grupo de estadstica, pero sin considerar el
sexo, la estatura y otras caractersticas. El anlisis genera un diagrama de
dispersin de los valores.
Una vez que las observaciones han sido ordenadas, los datos univariados
proyectados son utilizados para agrupar las observaciones de acuerdo a los
valores de las distancias entre dos observaciones consecutivas.
Tabla de distribucin de frecuencias
Si se renen grandes cantidades de datos sueltos es til distribuirlos en
clases categoras, y determinar el nmero de individuos que pertenecen a
cada categora, a lo que se llama Frecuencia de Clase. A una disposicin de
tabular de los datos por clases, con sus correspondientes frecuencias de
clase, se les conoce como distribucin de frecuencias o tabla de frecuencias.
Construccin de la tabla de distribucin de frecuencias
La tabla puede contener intervalos, lmites inferior y superior o fronteras
inferior y superior, para clasificar los datos en grupos de valores. Contiene
tambin la marca de clase que representa el valor promedio de los valores
anteriores y que ser utilizada para calcular distintas medidas estadsticas.
Variables cuantitativas discretas:
Categoras de la
variable

Frecuencia
Absoluta

Frecuencia
Relativa

Frecuencia Absoluta
Acumulada

Frecuencia Relativa
Acumulada

...

...

...

...

...

...

...

...

...

...

En las variables cuantitativas discretas la distribucin de frecuencias


(Absolutas o Relativas) puede representarse mediante un grfico de varillas,
AVEM

1.2 Estadstica descriptiva: Anlisis de datos univariados. Tabla de distribucin de frecuencias. Medidas de tendencia
central, dispersin y asimetra.

que no es sino una especie de grfico de barras donde las barras se


representan como una lnea gruesa (una especie de varilla).

El grfico para frecuencias acumuladas (Absolutas o Relativas) de variables


discretas se construye de manera que slo aparece la lnea de lo que sera el
borde superior del rectngulo de un grfico de barras

Variables cuantitativas continuas:


El anlisis de la distribucin de frecuencias en las variables cuantitativas
continuas es ms complejo y tiene el inters de que las categoras mediante
las que se ordena la distribucin no viene determinado por la variable, sino
que debe elegirse. El primer paso para construir la tabla de la distribucin de
frecuencias es dividir el recorrido (conjunto de posibles valores de la variable)
en clases o intervalos (preferentemente que no se solapen). Al punto central
de cada uno de estos recorridos lo llamaremos marcas de clase y lo
representamos por Ci.
Intervalo

Categoras de la Frecuencia
variable
Absoluta

Frecuencia
Relativa

Frecuencia
Acumulada

...

...

...

...

AVEM

...

Absoluta Frecuencia
Acumulada

Relativa

...

1.2 Estadstica descriptiva: Anlisis de datos univariados. Tabla de distribucin de frecuencias. Medidas de tendencia
central, dispersin y asimetra.

...

...

...

...

...

...

1
La marca de clase queda fijada por c i
del intervalo y

li 1 l i
2

donde

es el lmite inferior

es el lmite superior del intervalo.

Llamaremos amplitud del intervalo a la cantidad de unidades del recorrido de


la variable que contiene un intervalo.
Para calcular el nmero de intervalos de clase en los que se debern
clasificar los datos no agrupados, se calcular segn el tamao de la
muestra mediante la regla de Sturgess (desarrollada en 1926) no es sino una
recomendacin acerca del nmero de clases que deben considerarse a la
hora de elaborar un histograma. ste viene dado por la siguiente expresin:
Nmero de clases = 1 + 3.3 * Log10(tamao del colectivo)
En la siguiente tabla se muestra el nmero recomendado para uso en las
subdivisiones de datos numricos en funcin del tamao de la muestra
Tamao de la muestra

Nmero de clases

menos de 16
16 - 31
32 - 63
64 - 127
128 - 255
256 - 511
512 - 1023
1024 - 2047
2048 - 4095
4096 - 8190

datos insuficientes

5
6
7
8
9
10
11
12
13

Una forma ms sencilla es tomando en cuenta si la muestra es menor a 400


elementos el nmero de intervalos se puede calcular mediante la raz
cuadrada del tamao de la muestra (este tamao puede no coincidir con el
de la tabla de Sturges). Se recomienda que el nmero de intervalos no sea
menor de 5 ni mayor de 20.
Rango
Algo que responde a la identificacin de la dispersin de los datos de una
muestra es el rango, el cual se define como la diferencia entre el dato mayor
AVEM

1.2 Estadstica descriptiva: Anlisis de datos univariados. Tabla de distribucin de frecuencias. Medidas de tendencia
central, dispersin y asimetra.

menos el dato menor de un conjunto de datos. Su obtencin es sumamente


sencilla, sin embargo se considera que no es una medida muy significativa,
su aplicacin es ms til en la llamada estadstica no parmetrica. Una
expresin para el rango puede ser vista como:
Para la una muestra (0, 45, 50, 55, 100), el dato menor es 0 y el dato mayor
es 100, por lo que sus valores se encuentran en un rango de:
Rango = 100 0 =100
Mientras que para otra muestra (47, 49.5, 50, 51.5, 52), el dato menor es 47
y el dato mayor es igual a 52 por lo que su rango correspondiente es igual a:
Rango = 52 47= 5
Lo que indica que la segunda muestra es ms homognea ya que sus datos
estn dispersos en un menor rango.
Es tambin comn identificar el rango como recorrido
Para construir la tabla con intervalos de clase sin intervalos semiabiertos,
ser necesario construir nuevos intervalos tomando en cuenta lo siguiente:
1. Lmite inferior = num. Menor de la tabla de datos no agrupados, en el ej. =
76
2. Lmite superior: agregar al lmite inferior el tamao del intervalo pero
incluyendo al valor del lim. Inferior, lo que significara restar una unidad al
tamao del intervalo por ejemplo 76 + 18 = 94 sera el limite superior del
primer intervalo
3. El siguiente intervalo se construir a partir del 95 para evitar traslapes de
valores
4. El intervalo superior del nuevo intervalo se construir de la forma en la que
se construy en el paso 2 por ej. 95+18=113
5. Construir todos los intervalos de esta forma, quedando como se muestra
en el ejemplo.
6. A partir de los lmites se construir la tabla de fronteras de clase o lmites
verdaderos de una clase, se calcula: restando 0.5 al lmite inferior y
sumando 0.5 al lmite superior, esto permitir observar intervalos
continuos al momento de construir el histograma. Para fines de
simplificacin se construirn las fronteras de valores enteros de esta
forma, para valores con parte decimal se restar 0.05 si se tiene un dgito
despus del punto, 0.005 si se tienen 2 dgitos despus del punto, etc.
Para la frontera superior se sumar 0.05 si se tiene un dgito despus del
punto, 0.005 si se tienen 2 dgitos despus del punto, etc. La principal
AVEM

1.2 Estadstica descriptiva: Anlisis de datos univariados. Tabla de distribucin de frecuencias. Medidas de tendencia
central, dispersin y asimetra.

ventaja es que la marca de clase queda en trminos del mismo tipo de


datos proporcionado en la muestra, en este caso enteros.
DATOS NO AGRUPADOS SIN ORDENAR
105

221

183

186

121

181

180

97

154

153

174

120

168

167

143
141

245

228

174

199

181

158

176

110

163

131

154

115

160

208

158

133

207

180

190

193

194

133

156

123

134

178

76

167

184

135

229

146

218

157

101

171

165

172

158

169

199

151

142

163

145

171

148

158

160

175

149

87

160

237

150

135

196

201

200

176

150

170

118

149

76

123

145

154

163

172

181

200

87

131

146

156

163

174

183

201

97

133

148

157

165

174

184

207

101

133

149

158

167

175

186

208

105

134

149

158

167

176

190

218

110

135

150

158

168

176

193

221

115

135

150

158

169

178

194

228

118

141

151

160

170

180

196

229

120

142

153

160

171

180

199

237

121

143

154

160

171

181

199

245

DATOS NO AGRUPADOS ORDENADOS

INTERVALO
[ 76 , 95 )

CONSTRUCCIN DE LA TABLA DE DATOS AGRUPADOS


marca de
lmite inferior lmite superior frontera inf. frontera sup. clase Xi frecuencia fi frec.relativa fi*
76

94

75.5

94.5

85

0.025

Frecuencia Frec. Rel.


acum. Fi
acum. Fi*
0

0.025

[ 95 , 114 )

95

113

94.5

113.5

104

0.05

0.075

[ 114 , 133 )

114

132

113.5

132.5

123

0.075

12

0.15

[ 133 , 152 )

133

151

132.5

151.5

142

16

0.2

28

0.35

[ 152 , 171 )

152

170

151.5

170.5

161

20

0.25

48

0.6

[ 171 , 190 )

171

189

170.5

189.5

180

16

0.2

64

0.8

[ 190 , 209 )

190

208

189.5

208.5

199

10

0.125

74

0.925

[ 209 , 228 )

209

227

208.5

227.5

218

0.025

76

0.95

[ 228 , 247 ]

228

246

227.5

246.5

237

0.05

80

Histogramas y polgonos de frecuencias


El histograma es un grfico para la distribucin de una variable cuantitativa
continua que representa frecuencias mediante el volumen de las reas. Un
histograma consiste en un conjunto de rectngulos con (a): bases en el eje
horizontal, centros en las marcas de clase y longitudes iguales a los tamaos
de los intervalos de clase y (b): reas proporcionales a las frecuencias de
clase.

AVEM

1.2 Estadstica descriptiva: Anlisis de datos univariados. Tabla de distribucin de frecuencias. Medidas de tendencia
central, dispersin y asimetra.

En el caso de un histograma para intervalos desiguales slo se sealizan los


valores sobre el eje horizontal, el eje vertical no tiene sentido porque las
frecuencias corresponden al rea de cada rectngulo.

Si en la distribucin se toman clases de la misma longitud, las frecuencias


son proporcionales a las alturas de los rectngulos del histograma ya que el
rea se obtiene multiplicando la base por la altura por lo que queda similar a
un diagrama de barras, solo que ahora las barras van una junto a otra por
tratarse de una variable continua

Polgonos de frecuencia: El polgono de frecuencias es una representacin


grfica de la distribucin de frecuencias que resulta esencialmente
equivalente al histograma y se obtiene uniendo mediante segmentos los
centros de las bases superiores de los rectngulos del histograma (es decir,
los puntos de las marcas de clase).

AVEM

1.2 Estadstica descriptiva: Anlisis de datos univariados. Tabla de distribucin de frecuencias. Medidas de tendencia
central, dispersin y asimetra.

Vase que para cerrar la figura, se une la lnea quebrada con lo que sera la
marca de clase (sobre la superficie del eje horizontal) anterior a la primera y
posterior a la ltima registrada

Ojiva:
La misma idea de unir los centros de las bases superiores de los rectngulos
de la distribucin del histograma de frecuencias acumuladas, da lugar al
polgono de frecuencias acumuladas u ojiva.

AVEM