You are on page 1of 17

1

I N D I C E
............................................................................................................................................................. 2
ANALISIS DE DATOS DE DOS VARIABLES ............. 3
REPRESENTACIN DE DATOS DE DOS VARIABLES .................. 3
TABLA DE CONTINGENCIA ......................................................... 3
CONCEPTOS PREVIOS ..................................................................................................... 4
ASOCIACIN ENTRE DOS VARIABLES CUALITATIVAS ............ 5
EJEMPLO: ............................................................................................................................. 5
CORRELACIN ENTRE DOS VARIABLES CUANTITATIVAS ....10
EJEMPLO: ........................................................................................................................... 10
DATOS DE UNA VARIABLE CUALITATIVA Y UNA VARIABLE
CUANTITATIVA ............................................................................12
CORRELACIN LINEAL .................................................................14
COEFICIENTE DE CORRELACIN LINEAL DE PEARSON ........14
REGRESIN LINEAL ......................................................................15
ESTIMACIONES ...........................................................................15
BIBLIOGRAFIA ................................................................................17


2



3

ANALISIS DE DATOS DE DOS VARIABLES
Como sabemos los datos los podemos representar de dos maneras
primordialmente: una es mediante tablas o cuadros y la otra es mediante grficas.
En ambas maneras debemos denotar el nombre de las variables.
REPRESENTACIN DE DATOS DE DOS VARIABLES
Datos de dos variables: Estos datos constan de valores diferentes que se obtienen
del mismo elemento de la poblacin.
Cada una de las dos variables puede ser naturaleza cualitativa o cuantitativa.
Como resultado, los datos de dos variables pueden formarse mediante tres
combinaciones de tipos de variables:
* Ambas variables son cualitativas (de atributo): Cuando los datos bivariados
resultan de dos variables cualitativas (de atributo o categricas), a menudo los
datos se disponen en una tabla de clasificacin o de contingencia
* Una variable es cualitativa (de atributo) y otra es cuantitativa (numrica): Cuando
los datos se obtienen de una variable cuantitativa y otra cualitativa, los valores
cuantitativos se consideran como muestras ajenas, cada una identificada por
niveles de la variable cualitativa.
* Ambas variables son cuantitativas (numricas):Cuando los datos son resultados
de dos variables cuantitativas, los datos suelen expresarse matemticamente
como pares ordenados (X, Y), donde X es la variable de entrada (algunas veces
se denomina variable independiente) y Y es la variable de salida (algunas veces
se denomina variable dependiente). Se dice que los datos estn ordenados
porque siempre se escribe primero un valor X, y se explica que estn pareados
porque para cada valor X existe un valor Y correspondiente que proviene de la
misma fuente.
TABLA DE CONTINGENCIA
La tabla de contingencia es una tabla de doble entrada, donde en cada casilla
figurar el nmero de casos o individuos que poseen un nivel de uno de los
factores o caractersticas analizadas y otro nivel del otro factor analizado.
Dos variables cualitativas
- Tabla de datos
- Tabla de contingencia
- Diagrama de barras

4

- Tabla de diferencias entre frecuencias empricas y tericas
- Calculo de coeficiente X2
- Clculo del coeficiente de contingencia
Dos variables cuantitativas
- Tabla de datos conjuntos
- Diagrama de dispersin
- Clculo de covarianza
- Clculo del coeficiente de correlacin de Pearson
Adems
Si dos variables cuantitativas estn relacionadas linealmente utilizaremos la recta
de regresin.
CONCEPTOS PREVIOS
Asociacin y/o relacin entre dos variables: Dos variables estn relacionadas entre
s cuando ciertos valores de una de las variables se asocian con ciertos valores de
la otra variable.











5

ASOCIACIN ENTRE DOS VARIABLES CUALITATIVAS
Recordamos que la variable cualitativa era
aquella que estaba medida en una escala
nominal o de clasificacin (tema 1).
Adems pueden ser:
Dicotmicas: Cuando solo representan
dos categoras
Politmicas: Cuando representan un
mayor nmero
Cuando se dispone de los datos de dos
variables cualitativas para todos los sujetos de una muestra, se puede elaborar la
Tabla de contingencia y su correspondiente diagrama de barras (pgina 125). Los
datos de esta tabla son las frecuencias empricas u observadas y se representan
por (ne)
EJ EMPLO:
DATOS DE DOS VARIABLES CUALITATIVAS
1) Treinta estudiantes de una universidad se identificaron y clasificaron segn dos
variables: gnero (masculino M o femenino F) y especializacin ( Filosofa y
Letras, Administracin de Empresas y Tecnologa). En la siguiente tabla se
presentan los datos obtenidos:
Estudiante Gnero Especializacin
1 M Filosofa y Letras
2 F Administracin de Empresas
3 M Filosofa y Letras
4 F Filosofa y Letras
5 M Administracin de Empresas
6 M Tecnologa
7 F Filosofa y Letras
8 M Tecnologa
9 F Filosofa y Letras
10 F Filosofa y Letras
11 M Tecnologa
12 M Administracin de Empresas
13 F Administracin de Empresas
14 M Tecnologa
15 F Tecnologa
16 M Administracin de Empresas
17 M Filosofa y Letras
18 M Filosofa y Letras
19 F Filosofa y Letras

6








En este caso, los datos corresponden a variables cualitativas (gnero y
especializacin).

Cuando los datos resultan de dos variables cualitativas, se organizan en una tabla
cruzada o de contingencia.

Para la situacin planteada tenemos la siguiente tabla:

ESPECIALIZACION



Genero
Filosofa y
Letras
Administracin
de Empresas
Tecnologa
Totales por
rengln
Masculino 5 6 7 18

Femenino 6 4 2 12
Totales por
columna
11 10 9 30

Las tablas de contingencia se pueden hacer tambin con las frecuencias relativas
(porcentajes). Para ello, se divide cada frecuencia entre el total de elementos de la
muestra y el resultado se multiplica por 100. Teniendo en cuenta lo anterior,
tendramos la siguiente tabla cruzada de gnero y especializacin:
ESPECIALIZACION



Genero
Filosofa y
Letras
Administracin
de Empresas
Tecnologa
Totales por
rengln
Masculino 17% 20% 23% 60%

Femenino 20% 13% 7% 40%
Totales por
columna
37% 33% 30% 100%
20 M Tecnologa
21 M Administracin de Empresas
22 F Administracin de Empresas
23 M Tecnologa
24 F Administracin de Empresas
25 M Tecnologa
26 M Administracin de Empresas
27 F Administracin de Empresas
28 F Tecnologa
29 M Administracin de Empresas
30 M Filosofa y Letras

7

Para este caso la grfica de barras ser la siguiente:

Los elementos de la tabla, se pueden expresar tambin teniendo en cuenta los
porcentajes totales por rengln (en este caso por gnero). Para obtener los
valores, cada elemento del rengln de la primera taba, se divide entre el total de
dicho rengln y se divide entre 100. Se obtendra entonces la siguiente tabla:
ESPECIALIZACION



Genero
Filosofa y
Letras
Administracin
de Empresas
Tecnologa
Totales por
rengln
Masculino 28% 33% 39% 100%

Femenino 50% 33% 17% 100%
Totales por
columna
37% 33% 30% 100%






0%
5%
10%
15%
20%
25%
Filosofa y
Letras
Administracin
de Empresas
Tecnologa
PORCENTAJES BASADOS EN EL
GRAN TOTAL
Masculino
Femenino

8

Para esta tabla, la grfica de barras es:

Los elementos de la tabla cruzada o de contingencia, se pueden expresar como
porcentajes de los totales por columna (en este caso especializacin). Para esto,
se divide cada elemento de la columna en le primera tabla, entre el total de dicha
columna y dividir el resultado entre 100. En este caso, obtenemos la siguiente
tabla:




Genero
ESPECIALIZACION
Filosofa y
Letras
Administracin
de Empresas
Tecnologa
Totales por
rengln
Masculino 45% 60% 78% 60%

Femenino 55% 40% 22% 40%
Totales por
columna
100% 100% 100% 100%





0%
10%
20%
30%
40%
50%
60%
Masculino Femenino
PORCENTAJES BASADOS EN EL
GENERO
Filosofa y Letras
Administracin de
Empresas
Tecnologa

9

Los datos de la ltima tabla se pueden representar mediante el siguiente grfico de
barras:


0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
Filosofa y
Letras
Administracin
de Empresas
Tecnologa
PORCENTAJES BASADOS EN LA
ESPECIALIZACION
Masculino
Femenino

10

CORRELACIN ENTRE DOS VARIABLES CUANTITATIVAS
Nos presentan una tabla de datos conjuntos (pgina 132)
Lo primero que hacemos es elaborar el diagrama de dispersin o nube de puntos
(pgina 133)
Una vez realizado el diagrama y tan slo observndolo, podemos decir que existe
una relacin lineal en las variables X e Y. Es decir, a valores mayores de X
correspondern valores mayores de Y y viceversa.
Cuando los datos bivariados son resultado de dos variables cuantitativas, los datos se
expresan como pares ordenados (x,y) donde x es la variable de entrada (variable
independiente) y y es la variable de salida (variable dependiente).
En los problemas en los que se tienen dos variables cuantitativas, los datos de la muestra
se representan grficamente mediante un diagrama de dispersin. En dicho diagrama se
ubican los pares ordenados. En el eje x se grfica la variable x (de entrada) y en el eje
vertical se grfica la variable y (de salida).
Veamos el siguiente ejemplo de una situacin donde se tienen dos datos cuantitativos.
EJ EMPLO:

1) En la clase de educacin fsica, se tomaron varios puntajes de condicin fsica
teniendo en cuenta el nmero de lagartijas y de sentadillas realizadas por 10
estudiantes elegidos aleatoriamente. Se obtuvieron los siguientes datos:

ESTUDIANTE
1 2 3 4 5 6 7 8 9 10
Lagartijas (x) 27 22 15 35 30 52 35 55 40 40
Sentadillas (y) 30 26 25 42 38 40 32 54 50 43

11

El diagrama de dispersin correspondiente es:

La correlacin lineal tiene como objetivo principal medir la intensidad de una relacin
lineal entre da variables. Si a medida que x crece no hay un cambio definido en los
valores de y, se dice que no hay correlacin. Si a medida que x crece hay un cambio en
los valores de y, existe una correlacin.
La correlacin es positiva cuando y tiende a crecer y es negativa cuando y tiende a
decrecer. Si los pares ordenados (x,y) tienden a seguir un patrn de lnea recta, se dice
que se tiene una correlacin lineal.
El anlisis de regresin lineal encuentra la ecuacin de la recta que describe mejor la
relacin entre dos variables cuantitativas. Esta ecuacin sirve para hacer predicciones.





0
5
10
15
20
25
30
35
40
45
50
55
60
0 5 10 15 20 25 30 35 40 45 50 55 60
S
e
n
t
a
d
i
l
l
a
s

(
y
)

Lagartijas (x)
Clase de educacin fsica

12

DATOS DE UNA VARIABLE CUALITATIVA Y UNA VARIABLE CUANTITATIVA

Cuando los datos son bivariados tienen una variable cualitativa y otra cuantitativa. Un
ejemplo de este caso, es la siguiente situacin:
Para comparar la capacidad de frenado de tres diseos de bandas de rodamiento, se
midi la distancia necesaria para detener un automvil de 3000 libras que se desplazaba
sobre pavimento hmedo. Los neumticos de cada diseo fueron probados en el mismo
vehculo que circulaba sobre un pavimento hmedo controlado.
Se obtuvieron los siguientes datos:
Diseo A Diseo B Diseo C
37 33 40
34 34 41
38 38 40
36 35 39
40 42 41
32 34 43

En esta situacin, el diseo de la banda de rodamiento es la variable cualitativa con tres
niveles de respuesta y la distancia de frenado es una variable cuantitativa. La distribucin
de las distancias de frenado del diseo A de la banda de rodamiento, debe compararse
con las distribuciones de frenado de las distancias de cada uno de los otros diseos. Esta
comparacin se puede hacer mediante grfica de puntos, en el eje horizontal se
representan los diseos y en el eje vertical las distancias de frenado. Elaboro la grfica en
el cuaderno.
Los datos anteriores, se pueden representar tambin mediante una tabla que resume
cinco puntos para cada diseo as:
Diseo A Diseo B Diseo C
Mximo 40 42 43
Q
3
38 38 41
Mediana 36.5 34.5 40.5
Q
1
34 34 40
Mnimo 32 33 39

Diseo A Diseo B Diseo C
Media 36.2 36.0 40.7
Desviacin estndar 2.9 3.4 1.4


13

Los datos anteriores, se representan grficamente con un diagrama de cajas y bigotes
as:





14

CORRELACIN LINEAL
Vamos a estudiar un coeficiente que nos permita cuantificar la correlacin lineal de
las dos variables. Antes necesitamos conocer un parmetro conjunto para ambas
variables, llamado covarianza.
Se define la covarianza de la siguiente forma:

Sin embargo, esta frmula resulta complicada de aplicar. Podemos desarrollar el
numerador y llegar a la siguiente frmula, mucho ms fcil para trabajar con ella:

Ahora ya si estamos en condiciones de definir el siguiente coeficiente.

COEFICIENTE DE CORRELACIN LINEAL DE PEARSON

Se define este coeficiente como el cociente entre la covarianza y el producto de
las desviaciones tpicas de ambas variables, es decir:
Este coeficiente tomar siempre valores comprendidos entre -1 y 1. Segn los
valores que tome, podremos deducir que:
Si r=1, existe dependencia funcional, todos los puntos del diagrama de dispersin
estn situados en una lnea recta creciente.
Si 0<r<1, la correlacin es positiva y ser ms fuerte segn se aproxime ms a 1.
Si r=0, no existe correlacin lineal, pero puede existir correlacin curvilnea.
Si -1<r<0, la correlacin es negativa y ser ms fuerte segn se aproxime ms a -
1.
Si r=-1, existe dependencia funcional, todos los puntos del diagrama de dispersin
estn situados en una lnea recta decreciente.


15

REGRESIN LINEAL
Cuando existe relacin lineal podemos utilizar la recta de regresin para efectuar
pronsticos de los valores de una variable a partir de otra variable.

Y = a + bX

Observando el diagrama de dispersin, podemos obtener una primera idea de si
existe relacin o no entre las variables estadsticas. Con el coeficiente de
correlacin podemos medir la correlacin lineal, en caso de existir. Vamos ahora a
calcular las lneas que mejor se aproximen a la nube de puntos. A estas lneas se
les llama lneas de regresin.

La funcin que mejor se aproxima a la nube de puntos puede ser lineal, de
segundo grado, exponencial, logartmica, ... En este tema vamos a calcular
nicamente funciones lineales, que vamos a llamar rectas de regresin.

La forma de obtener estas rectas es por el procedimiento conocido como el
mtodo de los mnimos cuadrados. Buscamos una recta de ecuacin y=mx+n que
sea la mejor aproximacin. Cada punto xi de la primera variable tendr, por una
parte, el valor correspondiente a la segunda variable yi, y por otra, su imagen por
la recta de regresin y=mxi+n. Entre estos dos valores existir una diferencia
di=mxi+n-yi. Vamos a calcular la recta con la condicin de que la suma de los
cuadrados de todas estas diferencias (mxi+n-yi)2 sea mnima. Derivando
respecto de m y de n y realizando los clculos matemticos necesarios, llegamos
a la recta de regresin de Y sobre X, que tiene por ecuacin en la forma punto-
pendiente:

Si ahora cambiamos los papeles de las variable X e Y y realizamos el mismo
procedimiento, obtenemos la ecuacin de la recta de regresin de X sobre Y:

ESTIMACIONES

Una vez que conocemos la mayor o menor relacin entre las variables con el
coeficiente de correlacin lineal y que hemos calculado las rectas de regresin,
podemos utilizarlas para predecir el valor de una de las variables a partir de la
otra. Por ejemplo, en el ejemplo 1, se conoce la relacin entre la cantidad de agua

16

cada y la produccin de aceite. Se sabe tambin que en el ltimo ao hidrolgico
se ha registrado una precipitacin media de 411 litros por metro cuadrado, pero
an no ha empezado la recoleccin de la aceituna, por lo que no conocemos la
produccin de aceite de este ao. Podramos utilizar la recta de regresin de Y
sobre x para calcularlo.

Despus de haberlo calculado, nos podemos preguntar si este dato obtenido es
fiable o no. Esto depender de dos cuestiones.

La primera que exista correlacin lineal entre ambas variables. El dato ser ms
fiable cuanto ms se aproxime el coeficiente de correlacin lineal a 1 o a -1.

La segunda que las rectas de regresin se han obtenido para unos valores
concretos de X y de Y. Aunque exista una correlacin lineal fuerte, si intentamos
hacer predicciones para valores de las variables lejanos a los estudiados,
podemos llevarnos sorpresas. Es decir, para que sea fiable una estimacin,
adems de la primera condicin, los valores de X e Y tienen que estar dentro del
dominio de los estudiados.


REPRESENTACIN DE DATOS

Datos de dos variables: Estos datos constan de los valores de dos variables
diferentes que se obtienen del mismo elemento de la poblacin
Cuantitativa: Es aquella que puede medirse numricamente (edad, talla, altura)
Cualitativa: Son aquellas que no se miden numricamente sino que se ordenan en
categoras (sexo, nacionalidad)
Dos variables continuas

17

Cuando las dos resultan de dos variables continuas, los datos se disponen en una
tabla de contingencia. Con (R) renglones y (C) columnas que se le conoce como
una tabla R(C) y a los totales de los renglones y columnas se les denomina
frecuencias marginales.
Ejemplo: Treinta estudiantes de la universidad fueron identificados y clasificados
aleatoriamente segn dos variables.
1) Genero (masculino/femenino)
2) Especializacin (filosofa y letras/administracin/tecnologa)
Las frecuencias observadas se representan en la siguiente tabla de contingencias:
GENERO FILOSOFIA
Y LETRAS
ADMINISTRACION TECNOLOGIA TOTAL
Masculino 5 6 7 18
Femenino 6 4 2 12
TOTAL 11 10 9 30





BIBLIOGRAFIA

Canavos, G.(1992): PROBABILIDAD Y ESTADSTICA, Editorial McGraw-Hill.
Martn Pliego, F. J. (1994): INTRODUCCIN A LA ESTADSTICA ECONMICA Y
EMPRESARIAL. (Teora y prctica). Coleccin Plan Nuevo. Editorial AC.
Martn Pliego, F.J. Y Ruiz-Maya, L. (1995): ESTADSTICA I: PROBABILIDAD. Coleccin
Plan Nuevo. Editorial AC.
Ruiz-Maya, L. Y Martn Pliego, F.J. (1995): ESTADSTICA II: INFERENCIA. Coleccin
Plan Nuevo. Editorial AC.

You might also like