You are on page 1of 47

OBTENCION Y REVISION DE

DATO S
Un dato es un valor de la variable, por
consiguiente, este puede ser categórico o
cuantitativo.
De acuerdo a los antecedentes que el
investigador dispone el tema, puede decidir
si el dato a considerar es primaria o
secundaria.
Recolección de datos
1º Datos Secundarios. los datos ya han
sido obtenidos de las unidades de
observación y están publicados o
registrados en algún documento.
2º Datos Primarios. El investigador
obtiene los datos directamente de las
unidades de observación. Se tiene los
siguientes métodos: Cuestionario,
Entrevista y Observación.
2. REVISIÓN DE DATOS
Debe realizarse conforme se van obteniendo los datos y
tiene por finalidad:
- Controlar el total de formularios, según el tamaño de
muestra del estudio.
- Verificar que los formularios contengan todas las
respuestas requeridas, y
- Localizar posibles incongruencias en la información
proporcionada
- Revisión de datos = Control de calidad de la
información
ELABORACION DE
DATOS

Una vez que se han captado o


recopilado los datos de cada uno de
los elementos del grupo de estudio,
estos son revisados, clasificados,
presentados y resumidos para
permitir su análisis e interpretación.
Ilustración del porqué se tiene que clasificar
los datos

Objetivo. Describir las característica personales de los


estudiantes de ciencias: Edad, sexo, peso, consumo de alcohol
(CA), Cociente de Inteligencia (CI)
Población objeto de Estudio: Estudiantes de la facultad de
ciencias de la UPCH. Abril_2017
Recolección de datos:
Alumno edad sexo peso CA CI
1. 19 M 70 si 120
2. 20 F 55 no 130
3. 21 M 68 si 140
. . . . . .
. . . . . .
. . . . . .
CLASIFICACION DE
DATOS

La clasificación consiste en agrupar


los datos en un número
determinado de categorías o clases.
El número de categorías o clases
depende del tipo de variable.
CLASIFICACIÓN DE DATOS SEGÚN VARIABLE
CUALITATIVA

Ejemplo:

Población: Niños menores de 5 años de edad.


Características cualitativas de interés a estudiar:
Sexo: Masculino (M), Femenino (F)
Estado de la nutrición: Normal, desnutrido y obeso
Nivel socio económico: B, C y D
CLASIFICACIÓN DE DATOS SEGÚN UNA
VARIABLE CUALITATIVA

Sexo Nº % Estado de la Nº %
Nutrición
Masculino
Normal
Femenino
Desnutrido
Total
Obeso
Total
CLASIFICACIÓN DE DATOS SEGÚN UNA
VARIABLE CUALITATIVA:

Nivel Nº %
socioeconómico
B
C
D
Total
CLASIFICACIÓN DE DATOS SEGÚN DOS
VARIABLES CUALITATIVAS:

Estado de la Sexo
Nutrición Masculino Femenino Total
Normal
Desnutrido
Obeso
Total
CLASIFICACIÓN DE DATOS SEGÚN DOS
VARIABLES CUALITATIVAS:

Estado de la Nivel Socioeconómico


Nutrición B C D Total
Normal
Desnutrido
Obeso
Total
Clasificación de datos según variable
discreta
Ejemplo:
X: Nº de hijos por familia
Se tiene 50 familias y los datos son:
5 3 1 2 1 0 1 2 0 1 3 0 1 0
1 4 3 5 2 1 0 1 2 0 1 4 5 1
3 4 1 0 1 0 2 3 1 0 1 2 5 4
1 0 1 0 2 3 4 0
Las categorías que se consideran en la
clasificación es de acuerdo a los valores
que puede tomar la variable

Nº hijos/familia fi hi*100 Fi Hi*100


0
1
2
3
4
5
Total
Ejemplo de clasificación de datos según variable continua
Se ha recogido la información sobre el consumo de
proteínas (medido en gramos) en una muestra de 20
ostiones mantenidos en los acuarios del laboratorio a los
que se les administro una dieta especial. Los datos son los
siguientes:
21 25 35 22 18
24 21 23 16 23
27 17 26 19 29
20 19 20 23 22
Al observar estos datos de esta manera, son bastante poca
la información que se puede visualizar. Quizás solo
podríamos decir que existe una variación entre los datos
observados. De esta manera para ordenar esta información
se construirá una tabla de frecuencias
Clasificación de datos según variable
continua

. A continuación se presenta la presión sanguínea de 40 ratas:

84 87 89 89
78 84 94 86
86 84 92 88
89 92 91 93
85 88 92 85
85 89 91 85
92 92 95 89
79 89 89 90
76 87 87 90
83 88 91 93
Procedimiento para establecer los
intervalos de clase

Determinar el valor de la amplitud del


conjunto de valores que se desea clasificar:
A = (Vmáx - Vmín) +1 ,
En relación al conjunto de valores se tiene:
Vmáx = 95
Vmín = 76
En este caso, el valor que le corresponde a la
amplitud es: A= (95-76)+1= 20
Procedimiento para establecer los
intervalos de clase
Para determinar el número de intervalos para
clasificar los datos, se tiene en cuenta la
siguiente fórmula : K = n
Se recomienda que el número de
intervalos este entre 5 y 16.
Según el ejemplo: k= 40 =6.3 , el cual
nos indica que el nº de intervalos puede
ser 6 ó 7 u 8 .
En este caso, consideramos 7
intervalos de clase.
.Amplitud de cada intervalo de clase
Si la amplitud es constante, para el cálculo
se considera la siguiente fórmula:
C= A/K .
El valor de C se expresa de acuerdo a las
unidades de los datos que se desea clasificar.
En nuestro ejemplo, la amplitud será
C=20/7 =2.86
Aproximando al número entero inmediato, se tiene
que C=3.
-Los intervalos de clase, son cerrados
en ambos límites, por consiguiente ,
los intervalos se establecen como:
-Para determinar el límite superior del 1º
intervalo, al límite inferior se le suma la
amplitud menos 1 (c-1); el límite inferior
del 2º intervalo es igual al límite sup. Del 1º
intervalo mas uno, y el límite sup. que le
corresponde es igual al límite inf. más (c-1);
y así sucesivamente se van generando los
otros intervalos.
Nota.- Si los valores están expresados en
décimas al valor C se disminuye 0.1, ......
Por consiguiente, se establece la siguiente
Tabla de distribución de frecuencias

Clase Intervalo de clase Paloteo fi hi Fi Hi Xi


1. 76 - 78
2. 79 - 81
3. 82 - 84
4. 85 - 87
5. 88 - 90
6. 91 - 93
7. 94 - 96
Propiedades

Donde: hi = ni/n h1+h2+…+hm = 1 ,


m : nº de intervalos
Fi : frecuencia absoluta acumulada
F1 = f1; F2 = f1 + f2 ; F3 = f1+f2+f3 ;
....... ; Fm = 1
Hi : frecuencia relativa acumulada
H1 = h1; H2 = h1 + h2; … ; Hm =1
Xi : Marca de clase (Punto medio de cada
intervalo)
Concentración de espermatozoides en 45
muestras de semen de toro medidos en 108
espermat/ml.

13.8 11.0 12.1 10.2 12.2 13.9 9.0 15.8


13.9 12.5 10.4 9.6 14.1 12.2 11.0 13.3
7.5 12.4 8.6 10.5 11.3 12.7 10.4 13.2
12.9 9.7 14.3 12.8 11.0 15.1 14.2 12.0
12.3 9.7 11.7 12.3 12.6 14.2 9.6 14.8
12.0 13.8 14.3 11.8 9.3
Construir tabla de frecuencias
Tabla 1 de distribución de frecuencias

Grupos de
erpematozoi
de Freq. Percent Cum.

7.5-8.8 2 4.44 4.44


8.9-10.2 7 15.56 20.00
10.3-11.6 7 15.56 35.56
11.7-13.0 15 33.33 68.89
13.1-14.4 11 24.44 93.33
14.5-15.8 3 6.67 100.00

Total 45 100.00
MÉTODO GRÁFICO

El objetivo primordial de un gráfico es dar una


impresión visual de conjunto para una rápida y fácil
comprensión del fenómeno que se está estudiando.

Por tal motivo un gráfico debe ser sencillo y


explicativo.
 Gráfica de datos según una variable numérica
Si los datos corresponden a variables continuas se
representarán gráficamente mediante: histogramas y
polígonos de frecuencias.
Histograma.- Es un gráfico que se utiliza para
representar las frecuencias absolutas o relativas
simples mediante rectángulos adyacentes, teniendo
como base los respectivos límites reales de los
intervalos de clase y la altura proporcional a la
frecuencia respectiva.

Las áreas de los rectángulos son proporcionales a la


frecuencia de la clase.
Polígono de frecuencias (simples),

Este gráfico se obtiene uniendo los puntos medios


superiores de los rectángulos del histograma,
formándose de esta manera un gráfico lineal, el
cual debe llevarse hasta el eje x en los extremos del
límite inferior del primer intervalo y superior del
último intervalo respectivamente.

El área total bajo el polígono equivale al área del


histograma.
Polígono de frecuencias relativas simples
40
30
porcentaje
20
10
0

8 10 12 14 16
espermatozoide

Fuente: Tabla1
Polígono de frecuencias acumuladas
Denominado también ojiva, utiliza las frecuencias
absolutas o relativas acumuladas, y consiste en un
gráfico lineal que nos permite observar la cantidad de
elementos que quedan por encima o por debajo de
determinados valores de los límites de los intervalos de
clase.

La ojiva se obtiene uniendo los puntos que le


corresponden a las frecuencias acumuladas de los
respectivos límites superiores de cada intervalo.
La ojiva de las frecuencias relativas acumuladas

100
80 60
porcentaje
40 20
0

8 10 12 14 16
espermatozoide

porcentaje porcentaje

Fuente: Tabla1
Variable Obs Mean Std. Dev. Min Max

pc 35 34.59143 .7890317 33.1 36.5

lpc Freq. Percent Cum.

33.1-33.6 3 8.57 8.57


33.7-34.2 11 31.43 40.00
34.3-34.8 10 28.57 68.57
34.9-35.4 6 17.14 85.71
35.5-36.0 3 8.57 94.29
36.1-36.6 2 5.71 100.00

Total 35 100.00

A= (36.5 – 33.1) + 0.1=3.5; K=35 =5.9 6; c= A/K=3.5/6=0.58  6

Solución Pcorto2
Análisis Rápido de
Datos
•Organización de los datos (II):
Tallo y hojas
Análisis exploratorio de datos
Esta técnica se debe utilizar en las primeras fases
del análisis estadístico con la finalidad de:
- Evaluar la calidad y la consistencia de los datos.
- Investigar la distribución de las variables a
estudiar.
- Resumir la información mediante el uso conjunto
de diferentes estadígrafos y sus gráficos
- Detectar valores fuera de lo esperado, “outliers”,
fuera del contexto o alejados del conjunto.
- Explorar formas de categorizar variables a través
de búsqueda de puntos de corte.
Diagrama de tallo y hojas
El diagrama de tallo hojas nos permite ver el
conjunto de números como un todo y destacar
algunas características como:
- Cuál es la simetría del conjunto.
- Cuán disperso están los números
- Si existen valores muy alejados del conjunto o
outliers.
- Si existe una concentración en los datos.
- Si existe brechas en el conjunto de datos.
- Si existe patrones de dispersión y errores de
dígitos.
Gráficas: Tallo y hojas
10 1

101 103 115 112 134 126 113


134 122 101 108 112 111 126 10
140 140 143 113 117 115 112 11
109 103 102 101 101 103 104 12
119 117 113 112 134 139 102 13
103 102 101 123 125 126 132 14
133 134 135 141 143 143 133
Gráficas: Tallo y hojas
10 1

101 103 115 112 134 126 113


134 122 101 108 112 111 126 10 1
140 140 143 113 117 115 112 11
109 103 102 101 101 103 104 12
119 117 113 112 134 139 102 13
103 102 101 123 125 126 132 14
133 134 135 141 143 143 133
Gráficas :Tallo y hojas

101 103 115 112 134 126 113


134 122 101 108 112 111 126 10 11111
140 140 143 113 117 115 112 11
109 103 102 101 101 103 104 12
119 117 113 112 134 139 102 13
103 102 101 123 125 126 132 14
133 134 135 141 143 143 133
Gráficas: Tallo y hojas

101 103 115 112 134 126 113


134 122 101 108 112 111 126 10 111112223333489
140 140 143 113 117 115 112 11
109 103 102 101 101 103 104 12
119 117 113 112 134 139 102 13
103 102 101 123 125 126 132 14
133 134 135 141 143 143 133
Gráficas: Tallo y hojas

101 103 115 112 134 126 113


134 122 101 108 112 111 126 10 111112223333489
140 140 143 113 117 115 112 11 1222233355779
109 103 102 101 101 103 104 12
119 117 113 112 134 139 102 13
103 102 101 123 125 126 132 14
133 134 135 141 143 143 133
Gráficas: Tallo y hojas

101 103 115 112 134 126 113


134 122 101 108 112 111 126 10 111112223333489
140 140 143 113 117 115 112 11 1222233355779
109 103 102 101 101 103 104 12 235666
119 117 113 112 134 139 102 13 233444459
103 102 101 123 125 126 132 14 001333
133 134 135 141 143 143 133
Tallo y hojas: Amplitud 5

101 103 115 112 134 126 113 10-


134 122 101 108 112 111 126
10+
11-
140 140 143 113 117 115 112
11+
109 103 102 101 101 103 104
12-
119 117 113 112 134 139 102
12+
103 102 101 123 125 126 132
13-
133 134 135 141 143 143 133
13+
14-
Tallo y hojas: Amplitud 5

101 103 115 112 134 126 113 10- 1111122233334


134 122 101 108 112 111 126
10+
11-
140 140 143 113 117 115 112
11+
109 103 102 101 101 103 104
12-
119 117 113 112 134 139 102
12+
103 102 101 123 125 126 132
13-
133 134 135 141 143 143 133
13+
14-
Tallo y hojas: Amplitud 5

101 103 115 112 134 126 113 10- 1111122233334


134 122 101 108 112 111 126
10+ 89
11- 12222333
140 140 143 113 117 115 112
11+ 55779
109 103 102 101 101 103 104
12- 23
119 117 113 112 134 139 102
12+ 5666
103 102 101 123 125 126 132
13- 2334444
133 134 135 141 143 143 133
13+ 59
14- 001333
Tallo y hojas: Decimales
Tallo y hojas: Grupos

¿Qué grupo tiene mejor rendimiento?


Porcentaje de hijos ilegítimos nacidos en 24
comunas de un estado de EEUU

 3,1 3,8 4,6 4.6 5,6 5,3 5,8 5,7 5,1


5,1 5,1 6,0 6,1 6,9 7,1 7,1 7,2 7,0
8,5 9,8 9,0 9,3 10,4 15,2
Se pide: Elaborar un diagrama de tallo_
hoja.
Diagrama de dispersión de puntos

 Una compañía farmacéutica conduce un estudio


piloto para evaluar la relación entre tres dosis en un
nuevo agente hipnótico y tiempo de sueño. los
resultados de este estudio son presentados de la
siguiente manera.
Tiempo de sueño en horas: 4 6 5 9 8 7 13 11 9
Dosis (mM/Kg) : 3 3 3 10 10 10 15 15 15
Gráfico de una nube de puntos

You might also like