You are on page 1of 5

Pontificia Universidad Católica de Chile

Departamento de Matemáticas

Mat 0100 Razonamiento Cuantitativo

Clase #18

Histogramas y gráficos de lı́nea

Contenidos

Histogramas.

Gráficos de lı́nea.
Diagramas de dispersión.

Para la categorı́a de datos cuantitativos, los dos tipos de gráficos más comunes para la representación de las
distribuciones de frecuencia son los histogramas y gráficos de lı́neas o polı́gonos de frecuencia. El objetivo
principal aquı́ es comparar frecuencias absolutas de las mismas categorı́as o variables. Es semejante a un gráfico
de barras, aunque este presenta sus columnas acopladas. Un histograma consiste en una serie de rectángulos con
sus bases que corresponden a los intervalos de clase, sobre el eje horizontal. Estos intervalos pueden o no ser del
mismo largo, los intervalos son consecutivos y por lo tanto los rectángulos se tocan.
El área de cada rectángulo es proporcional a la frecuencia de la clase. Si los intervalos de clase tienen todos
igual tamaño, las alturas de los rectángulos son proporcionales a las frecuencias de clase y se acostumbra en tal
caso a tomar las alturas numéricamente iguales a las frecuencias de clase. Si los intervalos de clase no son de igual
tamaño, estas alturas deberán ser calculadas.
Un polı́gono de frecuencias es un gráfico de lı́nea trazado sobre las marcas de clase y su altura es proporcional
a la frecuencia de la clase representada por dicho valor. El objetivo principal es observar una tendencia entre las
frecuencias absolutas de las mismas categorı́as o variables. Puede obtenerse uniendo los puntos medios de los
techos de los rectángulos en el histograma.
En la siguiente figura, cada barra representa 5 puntos en un examen. Aquı́ no hay espacios entre las barras y
por lo tanto ellas se tocan.

Si lo observado es la variación de alguna variable con respecto al tiempo, tanto si es un histograma como si es
un polı́gono de frecuencia, el gráfico se llama diagrama de series de tiempo. Por lo tanto, un diagrama de serie
de tiempo es un histograma o diagrama de lı́nea en el cuál el eje horizontal representa el tiempo. Por ejemplo, la
siguiente figura se muestra cómo ha variado con respecto al tiempo la tasa de homicidios en Estados Unidos:

1
2

Resumiendo:
Histograma :Es un gráfico de barras para categorı́as de datas cuantitativas. Las barras tienen un orden natural y
sus anchos tienen significados especı́ficos.
Gráfico de lı́nea :Muestra el valor de la data para cada categorı́a como un punto y los puntos se conectan con una
lı́nea. Para cada punto, su posición horizontal es el centro del objeto que representa y su posición vertical es
el valor de la data para el objeto.
Diagrama de serie de tiempo :Es un histograma o diagrama de lı́nea en el cual el eje horizontal representa el
tiempo.

Ejemplo
La siguiente tabla muestra las edades de las actrices que ganaron un Oscar de la Academia entre
1927 y 2008. Dibuje un histograma y un gráfico de lı́nea para representar estos datos.

Rango de edad 20-29 30-39 40-49 50-59 60-69 70-79 80-89


Número de actrices
28 34 12 1 5 1 1
premiadas
Las siguientes figuras muestran los dos gráficos y de ambos podemos concluir que la tendencia es que las
actrices jóvenes tienen mayor probabilidad de ganar un Óscar.

Un objetivo fundamental en muchos estudios estadı́sticos es determinar si es que un factor incide en otro. Por
ejemplo, ¿fumar causa cáncer pulmonar? Ahora vamos a discutir como la estadı́stica puede ser usada para buscar
correlaciones que puedan sugerir una relación de causa-efecto, y lo más importante, determinar la causalidad.
Para comenzar, veamos cómo los investigadores llegaron a la conclusión de que fumar causa cáncer pulmo-
nar. Antes de empezar a investigar la causa, necesitaron establecer correlaciones entre fumadores y cáncer. Este
proceso se inició con observaciones y las iniciales fueron muy informales. Los doctores observaron que los fu-
madores constituı́an una alta proporción de los enfermos con cáncer pulmonar. Este fue el indicio para realizar
investigaciones serias y cuidadosas que relacionaran cáncer pulmonar entre la población de fumadores y la de
no fumadores. Estos estudios demostraron que grandes fumadores tenı́an más posibilidades de desarrollar cáncer
pulmonar. Estadı́sticamente hablando, hay más posibilidades de desarrollar cáncer pulmonar entre la población de
fumadores que de no fumadores.
3

Una correlación existe entre dos variables cuando valores más grandes de una variable consistentemente llevan
a valores más grandes de la otra variable o cuando valores más grandes de una llevan a valores más pequeños de
la otra.

Existe una correlación entre estatura y peso de las personas. Personas más altas tienden a pesar más.
Demanda de tomates y precio del kilo de tomates. Si el precio aumenta, la demanda tiende a bajar.

Tiempo de dedicación al estudio de un curso y la nota final del curso. Especifique la correlación de estas
dos variables.

La siguiente tabla muestra las producciones de las 10 pelı́culas de ciencia ficción más populares durante el
2009, con su costo de producción y sus ganancias en millones de dólares.

Pelı́cula Costo Ganancia


Hombre araña 3 258 337
King-Kong 207 218
El regreso de Superman 204 200
Crónicas de Narnia 200 373
Iron man 186 318
Indiana Jones y el templo de la calavera de cristal 185 317
Wall-E 180 223
El caballero de la noche 185 533
La salvación de Terminator 185 125
La momia: tumba del dragón 175 102

Los productores de pelı́culas esperan obtener una buena correlación entre costo y ganancia. Para buscar tal co-
rrelación, vamos a utilizar un diagrama de dispersión (Figura ??) que muestre relaciones entre las dos variables:
costo de producción y ganancias. Un diagrama de dispersión es un gráfico en el cual cada punto representa el
valor de dos variables. El objetivo principal es observar una tendencia entre frecuencias absolutas de las mismas
categorı́as o variables cuantitativas. Se usan dos variables de manera simultánea para observar si ambas tienen
alguna relación, es decir, si poseen correlación.

Para construir este diagrama, seguimos los siguientes pasos:


Asignamos cada variable a un eje coordenado. En este caso, a la variable costo de producción le asignamos
el eje X y a la variable ganancias el eje Y. Escogemos un rango de variación para cada variable; en el
ejemplo, desde 160 hasta 280 millones de dólares para el eje X y desde 0 hasta 600 millones de dólares para
el eje Y.
Para cada pelı́cula de la tabla colocamos en el gráfico un punto cuya posición horizontal corresponde a la
ganancia que se obtuvo y su posición vertical corresponde al costo de producción.
4

(Opcional) Colocamos nombres a todos o a algunos puntos.


Al mirar la figura anterior, los puntos aparecen dispersos en el gráfico, aparentemente sin patrón especı́fico. Es
decir, para estas pelı́culas de grandes presupuestos, parece no haber relación entre la cantidad de dinero invertido
en la producción y las ganancias obtenidas.

Ahora consideremos los diagramas 4.10 (a) y 4.10 (b). En (a) tenemos un diagrama de dispersión que grafica
el peso (en kilates) de 23 diamantes versus su precio de venta. Aquı́ los puntos muestran una clara tendencia hacia
arriba, es decir, a mayor peso va asociado en general un mayor precio de venta. Dado que en este ejemplo los
precios tienden a subir con los pesos de los diamantes, decimos que en esta figura se muestra una correlación
positiva.
En (b), tenemos un diagrama de dispersión para las variables esperanza de vida y mortalidad infantil en
16 paı́ses del mundo. Aquı́ también notamos una tendencia clara, pero esta vez es una correlación negativa: los
paı́ses con mayor esperanza de vida tienen menor mortalidad infantil.
Las posibles relaciones entre dos variables son:
No hay correlación :No se observa ninguna relación evidente entre las variables.

Correlación positiva : Ambas variables tienden a aumentar (o disminuir) juntas.


Correlación negativa : Las dos variables tienden a ir en direcciones opuestas; una aumenta mientras la otra
disminuye.
Fuerza de una correlación: Cuanto más cercanas las dos variables sigan una tendencia general, más fuerte es la
correlación (ya sea positiva o negativa). Una correlación perfecta es cuando todos los puntos están en una lı́nea
recta, o equivalentemente, la relación es 1 : 1.

Ejemplo
Antes de 1990 muchos economistas suponı́an que la tasa de desempleo y la tasa de inflación tenı́an una
correlación negativa, es decir, el desempleo baja y la inflación sube. A continuación damos una tabla de valores
para estas dos variables a partir de 1998. Dibuje un gráfico de dispersión y de acuerdo a este, dé su opinión sobre
la relación antes mencionada.
5

Tasa Tasa Tasa Tasa


Año desempleo inflación Año desempleo inflación
1990 7,79 27,4 2000 9,23 4,5
1991 8,18 18,7 2001 8,94 2,6
1992 6,65 12,7 2002 9,77 2,8
1993 6,55 12,2 2003 9,52 1,01
1994 7,87 8,9 2004 10,3 2,43
1995 7,33 8,2 2005 6,22 3,7
1996 6,37 6,6 2006 7,81 2,6
1997 6,09 6,0 2007 7,1 7,8
1998 6,42 4,7 2008 7,81 7,8
1999 9,83 2,3 2009 9,69 -1,4

La siguiente figura muestra el gráfico de dispersión sin incluir el año 2010, por tener rangos distintos de
información. Sobre el eje X colocamos la tasa de desempleo y sobre el eje Y, la tasa de inflación. A primera vista
no se ve una correlación obvia entre las dos variables. Por lo tanto, estos datos no corroboran la hipótesis planteada
por los economistas.

You might also like