You are on page 1of 127

Gobierno de Córdoba

Ministerio de Educación
Dirección de Educación Media, Especial y Superior

COLEGIO UNIVERSITARIO
Instituto Superior “María Justa Moyano de Ezpeleta”
Asociación para el crecimiento Educativo

ESTADÍSTICA

Profesor:
CDOR. LUCAS PABLO ANDRÉS
DALL’AGATA

Material elaborado por el


Prof. Daniel Tosco

ANALISTA DE SISTEMAS DE INFORMACION

- 2011-
INTRODUCCIÓN ESTADÍSTICA

INTRODUCCION:

Lo m ismo que Ud. espera de su profesor, ex actamente lo m ismo es lo que espera su


profesor de UD.; que se interese, que estudi e, que vaya m ás allá de los conocim ientos
adquiridos, que lea m ás de lo que se le da, que obtenga excelentes resultados, ETC.,
ETC., ETC.
El profesor espera de sus alum nos adem ás de todo lo nombrado anteriorm ente, que
critique, qu e exprese s us ideas para m ejorar el aprendizaje, que ante cualquier d uda
pregunte y consulte,

PARA ESO ESTAMOS.

Esperamos que encuentre relación entre lo ap rendido y los hechos de la vida cotidiana,
que continúe aprendiendo en su actividad particular y luego integre sus nuevos
conocimientos al curso ya que de esa forma permitirá la retroalimentación de todos.
Si alguna vez Ud. nos dice: ¿Este tema hay que saberlo?, sentiremos:

DESALIENTO

No he mos logrado despertar su interés, por favor, háganoslo saber e intentaremos


modificar el enfoque. Aspiram os que Ud. participe con verdadero placer de las
actividades propuestas, es por ello que tratar emos de no agregarle m ás tareas a las que
ya sin duda tiene, sino tratar qu e las desarrolle dentro de los plazos establecidos pero
regulando su tiem po de la for ma que le que de m ás cóm odo para alcanzar resultados
positivos.
Se hace m ás complejo aún hablar s obre las modalidades de estudio ind ividuales, pues
nos es ajena la historia de aprendizaje de cada uno de los alum nos, Si mplemente nos
resta señalar a fin de lo grar los m ejores re sultados la n ecesidad de m antener un ritmo
sostenido en el proceso de estudio, intent ando adecuarlo a la propuesta de enseñanza,
aunque sabemos que se trata de tiempos dife rentes. La posibilidad de interactuar con
profesores y com pañeros trabajan do en forma grupal puede favorecer el ajuste
progresivo de la experiencia, profundiza ndo los aprendizajes alcanzados y ayudando a
resolver los problemas que se planteen.
Lo que creemos im prescindible es imprim irle a la tarea la fuerza de la motivación, que
seguramente se in scribe tanto en el crecim iento personal como en el de los proyectos
personales, laborales o profesionales que cada uno desarrolla.

EL PROFESOR

Ahora pasemos al material de nuestra signatura:

ESTADISTICA

Este material de trabajo está diseñado de tal forma que per mite sepáralo perfectam ente
en unidades.
En cada una de ellas encontrará infor mación, en la cual se desarrollan todos los
conceptos teóricos de la misma conjuntamente con ejercitación resuelta. Y por otro lado

PROFESOR: CDOR. LUCAS DALL’AGATA 1


INTRODUCCIÓN ESTADÍSTICA

Ud. encontrará toda la parte práctica con ej ercicios, algunos resueltos y otros no (estos
últimos adm iten gran cantidad de respu estas, pres entan una s ituación d istinta
relacionada directamente con un caso real).

Cabe aclarar que en este material ex isten distinto s artículos re cortes y


cometarios que fueron extraídos de lib ros y revistas, los mismos son de
carácter informativo y ejemplificador.

EJE TRANSVERSAL

El hombre en interacción con los sistemas de información y la tecnología informática.

SUBEJE TRANSVERSAL:

Herramientas estadísticas en la confección de programas.

COMPETENCIAS:

Comprender la im portancia de la estadística como herramienta de trabajo en el diseño,


implementación de las bases de datos de los sistemas informáticos.

Aplicar los conocimientos y técnicas estadísticas en el diseño de sistemas informáticos.

Resolver situaciones problem áticas de cálculo , utilizando distintos software (Excel,


SPSS y diseño propio).

Presentar los trabajos en forma sencilla, clara y prolija.

Participar en un clima de respeto en la tarea cotidiana.

PROFESOR: CDOR. LUCAS DALL’AGATA 2


INTRODUCCIÓN ESTADÍSTICA

CONTENIDOS:

UNIDAD I:
1- Generalidades. Historia. Análisis exploratorio y confirmatorio de datos. Tipos
de investigación. Marco, unidades elem entales, universo poblaciones finitas e
infinitas, muestra. Datos: definición. Prueba de datos.
2- Obtención de la infor mación: distintos tipos de fuen tes, cuestionarios: tipos.
Elección y Confección de distintos tipos de encuesta. Errores m ás com unes,
distintos tipos de preguntas. Los cuadros. Tipos y partes.
3- Identificación y cla sificación d e la infor mación: Variables: tipos y
clasificación. Niveles de m edición de las variables: nominal y ordinal, discretas
y continuas
4- Procesamiento de la información : Cálculo y representación de los distintos
tipos de frecuencia: absolutas, acumuladas, relativas, porcentuales y acumuladas.
Diagrama de tallo y hojas. Interpretación.
5- Presentación de la información: gráficos, tipos y función. Histogram as y
gráficos de bastones. Poligonal en las variables continúas. Ojivas para las
frecuencias acum uladas. Utilización de cada uno de los gráficos de acuerdo a
tipo de variable. Aplicación. Utilización de las distintas plan illas de calculo
(Excel) para la resolución de situ aciones prácticas. Aplicación. Glosario.
Diagrama de flujo.

UNIDAD II:
1- Medidas de posición: media, m ediana y m odo. Ve ntajas y desventajas de
cada una Cuartiles y percentiles. Rango. Calculo de cada un a de las m edidas
de acuerdo al tipo d e variable en estudio. Comparación de media, mediana y
modo. Elección de una medida de posición adecuada.
2- Medidas de variabilidad: Variancia, desv ió estándar, coeficiente de
variación y asim etría. C oeficiente de Pearson. Interpretación y calculo de
acuerdo al tipo de variab le, Utilización del desvió estándar. Teorem a de
Tchebychev. Defectos del desvió estándar. Utilidad de las m edidas de
dispersión. Glosario. Diagrama de flujo.
3- Ejercitación:

UNIDAD III:
1- Covariación: distintos tipos. Técnicas para el estudio de la Covariación.
2- Análisis de regresión: Calculo del error estándar de estimación. Parámetros,
errores y límites de predicción.
3- Análisis de correla ción: coeficientes de co rrelación y determ inación.
Interpretación. Números índices simples y complejos. Glosario. Diagrama de
flujo
4- Ejercitación.

METODOLOGÍA
Métodos, procedimientos y técnicas:

PROFESOR: CDOR. LUCAS DALL’AGATA 3


INTRODUCCIÓN ESTADÍSTICA

Inductivo, deductivo, síntesis, comparación, exposición, técnicas grupales.

EVALUACIÓN:
FORMATIVA: prácticos
SUMATIVA: examen.

• Práctico Nº 1: temas de la UNIDAD I


• Práctico Nº 2: temas de la UNIDAD II
• Práctico Nº 3: presentación de un practico grupal de dos alum nos
como máximo, que se desarrollará durante todo el cuatrimestre.
• Se prevén instancias de recuperación para los prácticos.
• Examen final.

PROFESOR: CDOR. LUCAS DALL’AGATA 4


INTRODUCCIÓN ESTADÍSTICA

BIBLIOGRAFÍA:

• ESTADÍSTICA P ARA ADMINIST RADORES. RICHARD LEVIN


Y DAVID RUBIN. S EXTA E DICION. EDIT ORIAL MAC GRAW
HILL PRENTICE may MEXICO, 1996.
• ELEMENTOS DE ESTADÍSTICA CURSO DE
PERFECCIONAMIENTO UNIVERSIDAD DE BE LGRANO.
BUENOS AIRES 1992.
• ESTADÍSTICA AP LICADA Y P RONÓSTICOS. CURS O DE
PERFECCIONAMIENTO DE LA UNIVER SIDAD DE
BELGRANO. BUENOS AIRES, 1993.
• POSGRADO EN ESTADÍ STICA APLICADA A LA
INVESTIGACIÓN UNIVERSIDAD NACIONAL DE C ÓRDOBA.
FACULTAD DE CS ECONÓMICAS. CÓRDOBA 1996-1997.
• ESTADÍSTICA APL ICADA CUADER NILLO DE LA
UNIVERISDAD NACIONAL DE CÓRDOBA 1990.
• ESTADÍSTICA PAR A ADMINISTRACIÓM Y ECONOMÍA:
CONCEPTOS Y APLICACIONES . EDITORIAL CANA MEXICO,
1984.
• INTRODUCCIÓN A LA PROBABILIDAD Y LA EST ADÍSTICA
MENDENHALL, W. EDITORIAL IBEROAMERICANA. MEXICO
1991.
• ESTADÍSTICA. M URRAY R. SPIEGEL S EGUNDA EDICIÓN.
EDITORIAL AC GRAW-HILL. ESPAÑA 1991
• ANÁLISIS ESTADÍ STICO. C HOU. Y. L. EDITORIAL
INTERAMERICANA. MEXICO. 1989.
• ESTADISTICA INFE RENCIAL APLIC ADA UNIVERSIDAD
NACIONAL DEL LITORAL
• REVISTA MERCADO CÓRDOBA.
• AYUDA DE MICROSOFT OFFICE EXCEL 2003
• DIARIO AMBITO FINANCIERO BUENOS AIRES.
• SITOS DE INTERNET VARIOS
• www.mercado.com.ar
• www.indec.gov.ar

PROFESOR: CDOR. LUCAS DALL’AGATA 5


UNIDAD I ESTADÍSTICA

UNIDAD I:

PROFESOR: CDOR. LUCAS DALL’AGATA 7


UNIDAD I ESTADÍSTICA

PROFESOR: CDOR. LUCAS DALL’AGATA 8


UNIDAD I ESTADÍSTICA

UNIDAD I:

TEMARIO:

1- Generalidades. Historia. Análisis exploratorio y confirmatorio de datos. Tipos


de investigación. Marco, unidades elementales, universo poblaciones finitas e
infinitas, muestra. Datos: definición. Prueba de datos.
2- Obtención de la infor mación: distintos tipos de fuentes, cuestionarios: tipos.
Elección y Confección de distintos tipos de encuesta. Errores más comunes,
distintos tipos de preguntas. Los cuadros. Tipos y partes.
3- Identificación y cla sificación d e la infor mación: Variables: tipos y
clasificación. Niveles de medición de las variables: nominal y ordinal, discretas
y continuas
4- Procesamiento de la información : Cálculo y representación de los distintos
tipos de frecuencia: absolutas, acumuladas, relativas, porcentuales y acumuladas.
Diagrama de tallo y hojas. Interpretación.
5- Presentación de la información: gráficos, tipos y función. Histogramas y
gráficos de bastones. Poligonal en las variables continúas. Ojivas para las
frecuencias acumuladas. Utilización de cada uno de los gráficos de acuerdo a
tipo de variable. Aplicación. Utilización de las distintas planillas de calculo
(Excel) para la resolución de situaciones prácticas. Aplicación. Glosario.
Diagrama de flujo.

PROFESOR: CDOR. LUCAS DALL’AGATA 9


UNIDAD I ESTADÍSTICA

1- GENERALIDADES.

El uso de la ESTADISTICA es muy importante. En los últimos cincuenta años uno de


los aspectos que más ha evolucionado la humanidad es el auge de la información y de la
comunicación, prácticamente no hay límites en cuanto al acceso al conocimiento, es
posible adquirir información y conocimientos de cualquier parte del mundo al instante:
Internet, MODEM, fax, e-mail, etc.-
Todo ese caudal informativo debe ser seleccionado, ordenado, procesado, presentado y
representado, de tal forma que sea atractivo y elegante para el observador y sobre todo
que permita interpretar esa información, sacar conclusiones y predecir resultados.
La opinión que mucha gente conserva aún de la Estadística es que esta materia consiste
en un reservorio de estadísticas, es decir, de tablas repletas de cifras encolumnadas, o de
fechas de nacimiento y de muerte, de resultados de competencias y certámenes, de
gráficos, de censos, de encuestas. Nada más que un amontonamiento de cifras curiosas o
anodinas, pertinentes o innecesarias a veces, pero siempre en cierto modo ridículo,
como una especie de erudición inútil, sin sustancia ni finalidad; sobre todo sin finalidad.

• HISTORIA

La palabra statistik proviene de la palabra italiana statiata (que significa “estadístista”).


Fue utilizada por primera vez por Gottfried Achenwall (1719-1772), un profesor de
Marlborough y de Gottingen, y el Dr. E. A. W. Zimmerman introdujo el término
estadística a Inglaterra.
Su uso fue popularizado por sir John Sinclair en su obra Statistical Accoun o Scotland
1794-1799 (informe estadístico sobre Escocia 1791-1799). Sin embargo, mucho antes
del siglo XVII, la gente utilizaba y registraba datos.
La estadística gubernamental oficial es tan vieja como la historia registrada. El antiguo
testamento contiene varios informes sobre levantamiento de censos. Los gobiernos de
los antiguos Babilonia, Egipto y Roma reunieron registros detallados sobre población y
recursos.
En la edad media, los gobernantes empezaron a registrar la propiedad de la tierra. En el
año 762 de nuestra era, Carlomagno pidió la descripción detallada de las propiedades de
la Iglesia.
A principios del siglo IX terminó la enumeración estadística de los siervos que había en
los feudos. Por el año 1806, Guillermo el Conquistador ordena que se escribiera el
Domesday Book, un registro de la propiedad, extensión y valor de las tierras de
Inglaterra. Este trabajo fue el primer resumen estadístico de Inglaterra.
Una antigua predicción de la estadística
Debido al temor que tenía Enrique VII a la peste, Inglaterra empezó a registrar sus
muertos en 1532. Aproximadamente por esta misma época, la ley francesa requirió al
clero que registrará bautismos, defunciones y matrimonios. Durante un brote de peste a
finales del siglo XVI, el gobierno inglés empezó a publicar semanalmente las
estadísticas de mortalidad.
Esta práctica continuó y por el año 1632, estos Bills of mortality (Listas de Mortalidad)
contenían listados de los nacimientos y de las muertes clasificados según el sexo. En
1662, el Capitán John Graunt utilizó 30 años de dichos listados para hacer predicciones
sobre el número de personas que morirían a causa de diferentes enfermedades, y sobre
la proporción de nacimientos, de ambos sexos, que ese podría esperar. Resumido en su

PROFESOR: CDOR. LUCAS DALL’AGATA 10


UNIDAD I ESTADÍSTICA

trabajo, Observaciones Naturales y Políticas hechas con las Listas de Mortalidad, el


estudio de Graunt fue uno de los primeros análisis estadísticos. Por el éxito conseguido
al usar registros anteriores para predecir sucesos fututos, Graunt fue nombrado miembro
de la Royal Society original. La historia del desarrollo de la teoría estadística y su
práctica es larga. Solo hemos empezado a nombrar las personas que hicieron
contribuciones significativas al campo mas adelante encontraremos a otras cuyos
nombres están relacionados con leyes y métodos específicos. Mucha gente ha
contribuido al estudio de la estadística con refinamientos e innovaciones que, en
conjunto, constituyen la base teórica de lo que se va estudiar en el presente apunte.
La Estadística sirve entonces también a los registros astronómicos. Meteorológicos a las
tablas de mediciones físicas, químicas, biológicas. La única exigencia es la de contar
con una colección grande de datos. Y, para tal caso, la técnica de la estadística permite
cierta fortuna el estudio de poblaciones y apegados de cualquier naturaleza, prever el
comportamiento colectivo sobre la base de los datos consignados y, acorde con las
posibilidades de ese comportamiento, planear una acción científica.
La palabra estadística significa cosas diferentes para personas diferentes. Para un
aficionado al básquet, se trata del número de dobles, triples asistencias rebotes; para el
administrador de una planta de energía, es la cantidad de contaminantes que se liberan a
la atmósfera. Para el Administrador del Departamento de Alimentos y Medicina, es el
porcentaje posible de defectos secundarios no deseados con el uso generalizado de una
nueva medicina para curar el cáncer de próstata. Para el Banco, la estadística es la
posibilidad de que un deudor pague a tiempo el préstamo. Para el estudiante que cursa
esta materia, se trata de la calificación que obtenga en los tres exámenes parciales y en
el final de la materia.
Cada una de estas personas utiliza la palabra de manera correcta, aunque le den un uso
diferente. Todos ellos recurren a la estadística para auxiliarse en la toma de decisiones.
La razón de esta materia es ayudarle a entender la importancia de la estadística y la
manera de usarla en su vida personal y profesional. En cierta ocasión, Benjamín Disraeli
hizo la siguiente aseveración: “existen tres tipos de mentiras, las mentiras ordinarias, las
grandes mentiras y las mentiras estadísticas”. Este juicio, tremendamente severo,
respecto a la estadística, que fue hecho hace ya varios años, se ha vuelto una descripción
bastante acertada de muchos de los fracasos estadísticos que encontraos en la vida
diaria. Darle Huffm, en un librito muy lindo, “Cómo mentir con la estadística”,
anotó que: Los bribones ya conocen tales trucos; los hombres honrados deben
aprenderlos para defenderse.
En cierta ocasión le preguntaron a un vendedor que cómo podía vender tan
baratos sus sándwiches de conejo, a lo que respondió:
-"ejem, debo admitir que hay un poco de carne de caballo... pero la mezcla es sólo
50:50; uso el mismo número de conejos que de caballos".

SACANDO CONCLUSIONES. En el ejemplo que se muestran a continuación,


subrayan la importancia de no lanzarse a sacar implicaciones de tipo causal tan pronto
se tiene noticia de una correlación estadística.
Un reciente estudio psicopedagógico ha mostrado que los niños de pie grande saben leer
mejor que los de pie pequeño. ¿Permitirá el tamaño del pie medir la capacidad de
lectura de los niños?

PROFESOR: CDOR. LUCAS DALL’AGATA 11


UNIDAD I ESTADÍSTICA

No, desde luego. El estudio se hizo sobre escolares que están en crecimiento. Todo
cuanto se demostró en él es que los niños mayorcitos, cuyos pies son más grandes, leen
mejor que los pequeñines.

Uno de los objetivos del presente libro consiste en revisar algunas de las formas más
comunes en que utiliza la estadística de manera incorrecta, ya sea por honesta falta de
conocimiento o debido al intento de engañar al usuario. En cualquier caso, los que
utilizan la estadística y no saben como tratar tales prácticas fraudulentas, no pueden
obtener mucha utilidad de esta disciplina.
Es una ciencia de lo masivo que había empezado por ser solo social, pasa a abarcar por
completo el dominio de lo multitudinario y, por lo tanto, temas de galaxias, cultivos,
lenguas, economías, etc., devienen como parte de sus actividades más corrientes.
Por ello es muy importante la estadística como herramienta de trabajo aplicada a cada
uno de los campos de la ciencia y en nuestro país son pocas las carreras que no cuentan
con un curso acerca de ella. También insistiremos en las probabilidades y las teorías
probabilísticas necesarias para realizar ingerencias estadísticas.

Siendo una rama de la MATEMATICA, los libros no escapan al atractivo de abordar


demostraciones y no son pocas las ocasiones en las que se privilegia este aspecto y se
descuida lo conceptual y la aplicabilidad de los conceptos.
Este material se dedica exclusivamente a algunos temas de estadística descriptiva y
parte de teoría de probabilidades, escogidos especialmente para que Ud, estudiante de
Analista de sistemas de información pueda afrontar, en forma simple, los requisitos que
la EMPRESA MODERNA ubicada dentro del entorno del mercado se le plantean.
La competencia que se establece entre las distintas empresas lleva a que sus directivos
se replanten los medios que utilizan para que los objetivos se cumplan.
Saber quienes son los consumidores, no solamente los actuales sino los potenciales, de
sus productos, cuales son sus preferencias o demandas, cuales son las características o
los nuevos productos que la empresa debe producir, de acuerdo a las necesidades de los
clientes.
Estos datos son algunos de los que se deben tener en cuenta para tomar decisiones
estratégicas.

Una de las herramientas que posibilita el estudio de mercado es la información brindada


por la Estadística y los conceptos relacionados con POBLACION Y MUESTRA.
Vamos a definir ahora estos dos conceptos muy importantes:

Se denomina población al conjunto de individuos u objetos en los cuales un


investigador está interesado.
En cambio, cuando se considera solamente un conjunto de individuos que componen
una parte representativa de la población, se dice que se está trabajando con una
muestra.

Una población puede ser finita o infinita.


• Población finita: una población finita es aquella que puede ser
físicamente listada.
Ejemplo:

PROFESOR: CDOR. LUCAS DALL’AGATA 12


UNIDAD I ESTADÍSTICA

Una población puede ser definida como los alumnos de la Facultad de Ciencias
Agropecuarias y, en ese caso pueden ser listados e individualizados todos los elementos
que constituyen esa población.
Una población puede estar definida como las hectáreas sembradas con soja en un campo
experimental, las temperaturas diarias mínimas durante un año en cierta localidad, los
niños con problemas visuales en un determinado radio escolar, etc.
Ellos son ejemplos de poblaciones infinitas.
• Población infinita: una población infinita es aquella que, en la práctica,
no puede ser físicamente listada.
Existen distintas definiciones de estadística, la que más se adapta a nuestros conceptos
es la siguiente.

“Es la ciencia que estudia los métodos científicos, para


recoger, resumir y analizar datos con el fin de obtener
conclusiones válidas y la tomar decisiones; basadas en
datos”

Los datos deben ser chequeados antes de que podamos obtener conclusiones acerca de
ellos. Una forma es a través de las pruebas para datos.
Los datos pueden ayudar a los responsables de tomar decisiones a hacer suposiciones
bien pensadas acerca de las causas y, por tanto, de los efectos probables de ciertas
características en situaciones dadas. También el conocimiento de tendencias adquirido
de la experiencia previa puede permitir a los ciudadanos que les interesa estar al tanto
de posibles resultados y actuar en consecuencia. Nuestra investigación de mercado
puede revelar que determinado producto es preferido por amas de casa de origen
italiano y español, con ingresos y educación medianos. Una copia de propaganda del
producto debe estar dirigida a esta audiencia. Y si los registros del hospital muestran
que mas pacientes han utilizado el aparato de rayos X en junio que en enero, el
departamento de personal del hospital debe determinar si esto es algo que sólo sucedió
ese año o es indicativo de una tendencia y, tal vez, debería ajustar su programa de
contratación y asignación de vacaciones de acuerdo con la información.
Cuando los datos son ordenados de manera compacta y útil, los responsables de tomar
decisiones pueden obtener información confiable sobre el ambiente y usarla para tomar
decisiones inteligentes.
En la actualidad, las computadoras permiten a los especialistas en estadística recolectar
enormes volúmenes de observaciones y comprimirlas de manera instantánea en tablas,
graficas y números; éstas son formas compactas y útiles, pero ¿son confiables?
Recuerde que los datos producidos por una computadora son tan precisos como los
datos que entraron en ella.
Como dicen los programadores de computación: basura entra, basura sale. Los
administradores deben tener mucho cuidado y asegurar que los datos utilizados estén
basados en suposiciones e interpretaciones correctas.
Antes de depositar nuestra confianza en cualquier conjunto de datos interpretados, ya
vengan éstos de una computadora o no, pruébelos mediante las siguientes preguntas:

PROFESOR: CDOR. LUCAS DALL’AGATA 13


UNIDAD I ESTADÍSTICA

• ¿De dónde vienen los datos? ¿La fuente es parcial?, es decir, ¿es
posible que haya un interés en proporcionar datos que conduzcan a
una cierta conclusión más que a otras?
• ¿Los datos comprueban o contradicen otras evidencias que se
poseen?
• ¿Hace falta alguna evidencia cuya ausencia podría ocasionar que se
llegue a una conclusión diferente?
• ¿Cuántas observaciones se tienen? ¿Representan a todos los grupos
que se desea estudiar?
• ¿La conclusión es lógica?, ¿Se ha llegado a conclusiones que
nuestros datos no confirman?

Al recoger los datos de un grupo de individuos u objetos, ya sea alturas y pesos de


estudiantes o piezas defectuosas producidas en una máquina, preferencias por un
determinado producto, grado de conformidad con un servicio, etc.; suele ser imposible o
nadad práctico observar a todo un grupo y su costo es demasiado, sobre todo si este es
muy grande; además hay veces que la unidad a medir queda inutilizada luego de la
medición, por ello en lugar de examinar el grupo entero se examina una parte del grupo
llamada muestra.

Subdivisiones de la estadística
Los administradores aplican alguna técnica estadística a virtualmente todas las ramas de
las empresas públicas y privadas. Estas técnicas son tan diversas que los estadísticos,
por lo general, las dividen en dos grandes categorías: estadística descriptiva y estadística
inferencial. Algunos ejemplos nos serán de ayuda para entender la diferencia entre las
dos.

• Estadística descriptiva: supóngase que un profesor calcula las notas de


los diferentes grupos, podemos decir que el profesor está utilizando
calificación promedio de un grupo de historia. Como la estadística
describe el desempeño del grupo pero no hace ninguna generalización.
Gráficas, tablas y diagramas que muestren los datos de manera que sea
más fácil su entendimiento son ejemplos de estadística descriptiva.
• Estadística inferencial: Supóngase ahora que el profesor de historia
decide utilizar el promedio de calificación obtenido por uno de sus
grupos para estimar la calificación promedio de las diez unidades del
mismo curso de historia. El proceso de estimación de tal promedio sería
un problema concerniente a al estadística inferencial. Los estadísticos se
refieren también a esta rama como inferencia estadística. Obviamente,
cualquier conclusión a la que llegue el profesor sobre las diez unidades
del curso al estar basada en una generalización que va mas allá de los
datos del grupo original de historia, y ésta puede no ser completamente
válida, de modo que el profesor debe establecer que, posibilidad hay de
que sea cierta. De manera similar, la inferencia estadística implica
generalizaciones y afirmaciones con respecto a la probabilidad de su
validez.

PROFESOR: CDOR. LUCAS DALL’AGATA 14


UNIDAD I ESTADÍSTICA

Teoría de decisiones: Los métodos y las técnicas de la inferencia estadística se pueden


utilizar también en una rama de la estadística que se conoce como teoría de decisiones.
El conocimiento de la teoría de decisiones. El conocimiento de la teoría de decisiones es
muy útil para los administradores, ya que se le usa para tomar decisiones en condiciones
de incertidumbre, cuando, por ejemplo, un fabricante de aparatos de sonido no puede
especificar precisamente la demanda de sus productos.

A continuación expresaremos algunos conceptos acerca de la clasificación de u na


investigación de acuerdo a los fines que persigue.
* El análisis exploratorio de datos.
* El análisis confirmatorio de datos.

Algunos investigadores relacionan el análisis exploratorio de datos con la estadística


descriptiva. En nuestra opinión, el análisis exploratorio de datos va más allá y forma
parte de la actitud que define a un buen investigador. Esto es así por cuanto únicamente
explorando sus datos podrá estar seguro de las conclusiones obtenidas aún por
aplicación de técnicas estadísticas algunas veces muy sofisticadas.
No existe un catálogo de técnicas que pueda reemplazar la habilidad del investigador
para mirar lo que expresan sus datos, ello constituye la esencia del análisis exploratorio.
Este procedimiento generalmente implica la utilización de métodos gráficos, pero el
gráfico no es en si mismo una técnica sino más bien un reconocimiento de que el ojo
humano es el mejor observador de lo que expresan los datos.

En cambio, el análisis confirma torio de datos está generalmente relacionado con la


estadística denominada inferencial. Este comienza con el establecimiento de hipótesis
causales que luego serán confrontadas con datos empíricos por medio de metodología
estadísticas adecuadas, las que verifican o no las hipótesis planteadas. También pueden
perseguir fines predictivos o de estimación de ciertas medidas de la población que se
está considerando.
Cuando el objetivo de la investigación implica la utilización de metodologías
estadísticas inferenciales, conocidas comúnmente como estimación de parámetros, test
de hipótesis, análisis de regresión, etc., el investigador debe tener sumo cuidado en su
aplicación ya que por la forma en que se recolectaron los datos o por el tipo de variable
que se está utilizando puede llevar a conclusiones erróneas que, en algunos casos,
conducen a tomar decisiones en perjuicio de la comunidad, empresa, o cualquier otro
campo específico donde se esta desarrollando el plan de investigación.
Una aproximación descriptiva responde a la pregunta cuánto; la interpretación de este
cuánto, da sentido al análisis exploratorio.
Una aproximación explicativa trata con la pregunta por qué. En este caso la respuesta
generalmente implica un proceso de inferencial causal.
Por ejemplo, en una investigación agrícola, la producción de trigo, es una descripción,
la interpretación avícola, la producción de trigo, es una descripción, la interpretación de
estos resultados por provincia, utilizando un gráfico adecuado, es una exploración. En
cambio, tratar de explicar las diferencias en la producción de trigo entre regiones, por
efecto de la incidencia de variables climatológicas, económicas, políticas, etc., implica
un análisis confirmatorio de los datos.

PROFESOR: CDOR. LUCAS DALL’AGATA 15


UNIDAD I ESTADÍSTICA

En algunos informes estadís ticos se expresa la metodología con la cual fueron


recolectados los datos, definiciones de los conceptos a investigar, además de
información relevante para entender los resultados.

Características Generales
La Encuesta Permanente de Hogares (EPH) es un programa nacional que abarca
actualmente, despúes de una incorporación progresiva, 28 aglomerados urbanos
donde habita el 70% de la población urbana del país.
Incluye también un área urbano-rural: el Alto Valle de Río Negro.
La encuesta se basa en una muestra probabilística, estratificada, en dos etapas de selección,
que comprende actualmente 27.000 viviendas en todo el país y produce estimaciones
válidas para cada uno de los aglomerados urbanos que cubre y para su total.

FECHA DE INCORPORACION DE LOS AGLOMERADOS AL PROGRAMA


Provincia Aglomerado Fecha de
urbano incorporación
Buenos Aires Gran Buenos Aires Octubre '72
Bahía Blanca - Cerri Mayo '85
Gran La Plata Mayo '74
Mar del Plata y Batán Octubre '95
San Nicolás-V.Constitución Octubre '02
Catamarca Gran Catamarca Octubre '78
Córdoba Gran Córdoba Mayo '78
Río Cuarto Octubre '95
Corrientes Corrientes Octubre '76
Curuzú Cuatiá Mayo '79 (a)
Goya Octubre '78 (a)
Chaco Gran Resistencia Octubre '74
Chubut Comodoro Rivadavia- Rada Tilly Mayo '74
Rawson-Trelew Octubre '02
Entre Ríos Gran Paraná Octubre '74
Concordia Mayo '75 (b)
Gualeguaychú Octubre '75 (c)
Formosa Formosa Octubre '75
Jujuy S.S.de Jujuy - Palpalá Octubre '77
La Pampa Santa Rosa - Toay Octubre '82
La Rioja La Rioja Octubre '78
Mendoza Gran Mendoza Octubre '74
Misiones Posadas Mayo '74
Neuquén Neuquén - Plottier Mayo '76
Rio Negro Viedma-Carmen de Patagones Octubre '02
Salta Salta Octubre '78
San Juan Gran San Juan Octubre '79
San Luis San Luis - El Chorrillo Octubre '78
Santa Cruz Río Gallegos Mayo '79
Santa Fe Gran Rosario Mayo '74
Gran Santa Fe Octubre '74
Sgo.del Estero Sgo. del Estero - La Banda Octubre '76
T.del Fuego Ushuaia - Río Grande Octubre '87
Tucumán G.S.M.de Tucumán - Tafí Viejo Mayo '74
Río Negro Alto Valle Septiembre '77

(a) Relevado hasta Octubre de 1990


(b) No se relevó desde Octubre de1985 hasta Mayo de 1995 inclusive.
(c) Relevado hasta Mayo de 1985

PROFESOR: CDOR. LUCAS DALL’AGATA 16


UNIDAD I ESTADÍSTICA

OBJETIVO GENERAL
Caracterizar a la población del país en términos de su inserción en la estructura socioeconómica.
Para alcanzar este objetivo la Encuesta define la siguiente cobertura temática:
* Características Habitacionales
* Demográficas
* Laborales
* Educacionales
* Ingresos
* Migraciones

Periodicidad:
El relevamiento se realiza dos veces en el año: mayo y octubre. En los años 1998 y 1999 ante el requerimiento de
mayor frecuencia se intercaló una onda en el mes de agosto. El Alto Valle de Río Negro se releva en marzo y
septiembre, siendo marzo época de cosecha y setiembre etapa de receso. En 1998, se intercaló una onda
adicional en junio.
Semana de referencia:
Es la semana calendario completa que precede a la iniciación del relevamiento. Las estimaciones de las Tasas
relativas a la situación ocupacional se refieren a las condiciones existentes en la semana de referencia.
Definiciones básicas
A continuación se agrega un conjunto de definiciones básicas para una mejor comprensión de los datos
presentados.
Población económicamente activa:
La integran las personas que tienen una ocupación o que sin tenerla la están buscando activamente. Está
compuesta por la población ocupada más la población desocupada.
Población desocupada:
Se refiere a personas que, no teniendo ocupación, están buscando activamente trabajo. Corresponde a
Desocupación Abierta. Este concepto no incluye otras formas de precariedad laboral (también relevadas por la
EPH) tales como personas que realizan trabajos transitorios mientras buscan activamente una ocupación,
aquellas que trabajan jornadas involuntariamente por debajo de lo normal, a los desocupados que han
suspendido la búsqueda por falta de oportunidades visibles de empleo, a los ocupados en puestos por debajo de
la remuneración vital mínima o en puestos por debajo de su calificación, etcétera.
Población subocupada visible:
Se refiere a los ocupados que trabajan menos de 35 horas semanales por causas involuntarias y desean trabajar
más horas. Comprende a todos los ocupados en empleos de tiempo reducido: incluye, entre otros, a agentes de
la Administración Pública Provincial o Municipal, cuyo horario de trabajo ha sido disminuido y están dispuestos a
trabajar más horas.
Población subocupada demandante:
Se refiere a la población subocupada que además busca activamente otra ocupación.
Población subocupada no demandante:
Se refiere a la población subocupada que no está en la búsqueda activa de otra ocupación.
Tasa de actividad:
Calculada como porcentaje entre la población económicamente activa y la población total.
Tasa de empleo:
Calculada como porcentaje entre la población ocupada y la población total. Se difunde a partir de abril de 1983 a
fin de completar la información sobre el mercado de trabajo.
Tasa de desocupación:
Calculada como porcentaje entre la población desocupada y la población económicamente activa.
Tasa de subocupación horaria:
Calculada como porcentaje entre la población subocupada y la población económicamente activa
Tasa de subocupados demandantes:
Calculada como porcentaje entre la población de subocupados demandantes y la población económicamente
activa.
Tasa de subocupados no demandantes:
Calculada como porcentaje entre la población de subocupados no demandantes y la población económicamente
activa.

Signos utilizados:
No se releva el aglomerado.
( .) Dato no registrado
( * ) Cifras provisionales
(...) Dato no disponible a la fecha

Llamadas que se repiten en las páginas siguientes


(1 ) Aglomerado con distinto mes de referencia.
(2) Relevamiento bajo condiciones especiales (inundaciones, terremotos, etc.).
(3) Tamaño de muestra menor que el habitual.
(4) Para las ondas de mayo 1974 a octubre 1980 no hay información desagregada para Capital Federal
y 19 partidos.

Importante:
En los Informes de Prensa solamente se publican los Indicadores básicos de Condición de Actividad.La Encuesta
Permanente de Hogares posee una COBERTURA TEMÁTICA amplia, disponible para su consulta en el Centro
Estadístico de Servicio, Julio Argentino Roca 609, PB, Capital Federal. Te: 4349-9654, Mail:
ces@indec.mecon.gov.ar

PROFESOR: CDOR. LUCAS DALL’AGATA 17


UNIDAD I ESTADÍSTICA

Evolución de las tasas de actividad, empleo, desocupación y subocupación


Total de aglomerados urbanos desde 1974 en adelante Subocupación Horaria
Subocu
Años Actividad Empleo Desocupación pación demandante no demandante
Horaria (1) (1)
Mayo 1974 40,6 38,6 5,0 5,4
Octubre 1974 40,1 39,7 3,4 4,6
Mayo 1975 40,0 38,6 3,5 5,3
Octubre 1975 39,7 38,2 3,8 5,4
Mayo 1976 39,9 37,8 5,2 5,3
Octubre 1976 38,7 37,0 4,4 5,3
Mayo 1977 38,8 37,3 3,9 4,1
Octubre 1977 38,6 37,6 2,7 3,8
Mayo 1978 38,8 37,2 4,2 5,5
Octubre 1978 39,0 38,1 2,3 3,8
Mayo 1979 38,2 37,2 2,6 3,9
Octubre 1979 38,4 37,5 2,4 3,6
Mayo 1980 38,3 37,3 2,6 4,5
Octubre 1980 38,5 37,5 2,5 5,8
Mayo 1981 38,5 36,9 4,2 5,0
Octubre 1981 38,3 36,3 5,3 6,0
Mayo 1982 38,2 35,9 6,0 6,7
Octubre 1982 38,5 36,7 4,6 6,4
Mayo 1983 37,4 35,3 5,5 5,9
Octubre 1983 37,3 35,8 3,9 5,9
Mayo 1984 37,8 36,0 4,7 5,4
Octubre 1984 37,9 36,2 4,4 5,9
Mayo 1985 37,9 35,5 6,3 7,5
Noviembre 1985 38,2 35,9 5,9 7,1
Mayo 1986 38,6 36,3 5,9 .
Noviembre 1986 38,7 36,7 5,2 7,4
Mayo 1987 39,5 37,1 6,0 8,2
Octubre 1987 38,9 36,7 5,7 8,5
Mayo 1988 38,7 36,2 6,5 7,8
Octubre 1988 39,4 37,0 6,1 8,0
Mayo 1989 40,2 36,9 8,1 8,6
Octubre 1989 39,3 36,5 7,1 8,6
Mayo 1990 39,1 35,7 8,6 9,3
Octubre 1990 39,0 36,5 6,3 8,9
Junio 1991 39,5 36,8 6,9 8,6
Octubre 1991 39,5 37,1 6,0 7,9
Mayo 1992 39,8 37,1 6,9 8,3
Octubre 1992 40,2 37,4 7,0 8,1
Mayo 1993 41,5 37,4 9,9 8,8
Octubre 1993 41,0 37,1 9,3 9,3 4,1 5,2
Mayo 1994 41,1 36,7 10,7 10,2 4,8 5,4
Octubre 1994 40,8 35,8 12,1 10,4 5,4 5,0
Mayo 1995 42,6 34,8 18,4 11,3 7,0 4,3
Octubre 1995 41,4 34,5 16,6 12,5 7,7 4,8
Mayo 1996 41,0 34,0 17,1 12,6 8,1 4,5
Octubre 1996 41,9 34,6 17,3 13,6 8,5 5,1
Mayo 1997 42,1 34,6 16,1 13,2 8,4 4,8
Octubre 1997 42,3 35,3 13,7 13,1 8,1 5,0
Mayo 1998 42,4 36,9 13,2 13,3 8,2 5,1
Agosto 1998 42,0 36,5 13,2 13,7 8,5 5,2
Octubre 1998 42,1 36,9 12,4 13,6 8,4 5,2
Mayo 1999 42,8 36,6 14,5 13,7 8,9 4,8
Agosto 1999 42,3 36,2 14,5 14,9 9,2 5,7
Octubre 1999 42,7 36,8 13,8 14,3 9,1 5,2
Mayo 2000 42,4 35,9 15,4 14,5 9,5 5,0
Octubre 2000 42,7 36,5 14,7 14,6 9,3 5,3
Mayo 2001 42,8 35,8 16,4 14,9 9,6 5,3
Octubre 2001 42,2 34,5 18,3 16,3 10,7 5,6
Mayo 2002 41,8 32,8 21,5 18,6 12,7 5,9
Octubre (2) 2002 42,9 35,3 17,8 19,9 13,8 6,1
Mayo (3) 2003 42,8 36,2 15,6 18,8 13,4 5,4
(1) Demandante y no demandante. Para este período se consigna la tasa de subocupación horaria total.
(2) Hasta mayo 1995 el relevamiento se realizaba en 25 aglomerados. En octubre de ese año se incorporaron
Y en la onda de octubre 2002 se incorporaron tres nuevos aglomerados: Viedma-Carmen de Patagones, San
A partir de esta medición, la Encuesta se releva en un total de 31 aglomerados urbanos.
(3) Los resultados de Mayo 2003 no incluyen el aglomerado Gran Santa Fe, cuyo relevamiento se postergó
debido a las inundaciones.

PROFESOR: CDOR. LUCAS DALL’AGATA 18


UNIDAD I ESTADÍSTICA

Como hemos observado la información que le hemos presentado esta integrada por
DATOS.
El dato u observación es el elemento básico a partir del cual se elabora la información.
Una observación puede ser la respuesta a una pregunta, (si, no), una medida física:
(peso, altura, volumen) o una clasificación (defectuosa o no defectuosa)
El conjunto de todas las observaciones posibles de una característica específica recibe el
nombre de población o universo.
Otro concepto que debemos tener en cuenta por que se relaciona con el de población es
el de unidades elementales – En una empresa, por ejemplo, el conjunto de las edades de
los empleados constituye la población, pero el conjunto de empleados en si mismos son
las unidades elementales de la población.
Las unidades elementales dan origen al marco, disponible solo ocasionalmente.
La población, que es preexistente a la realización de observaciones, puede ser real, tal
como el ingreso mensual de los empleados de una fábrica o su lugar de residencia; o
hipotética, por ejemplo la variación de las tasas de interés en un determinado país de
mundo ante un supuesto fenómeno meteorológico (terremoto) que ocasione la pérdida
de la totalidad de las cosechas que son el único medio de subsistencia del país.

PROFESOR: CDOR. LUCAS DALL’AGATA 19


UNIDAD I ESTADÍSTICA

2- OBTENCIÓN DE LA INFORMACIÓN

Ahora veremos como recolectar la información.


En la parte anterior vimos unos recortes en los cuales las empresas encargados de
realizar la investigación, luego construir tablas y presenta en gráficas los datos
obtenidos.
Los temas que veremos en esta parte son los siguientes:

Obtención de la información: cuestionario y entrevista


Una vez seleccionada la población, como lo vimos en la unidad anterior, comienza el
trabajo de la recolección de datos.
Estos pueden ser obtenidos de datos propios de la empresa, tales como precios, ventas,
producción, ventas, horas de trabajo por empleado, en cuyo caso la fuente informadora
se llama FUENTE INTERNA. En cambio puede suceder que la empresa encuestadora
solicite datos externos de la firma por ejemplo INDEC, etc. En cuyo caso los datos son
provenientes de FUENTES EXTERNAS.

Los cuestionarios y entrevistas: presentados en las páginas posteriores son de distintos


tipos, pero en realidad todos poseen la misma finalidad, la de obtener información
confiable, objetiva y con el mínimo costo posible. Algunos son de revistas y diarios y
otros fueron elaborados por alumnos del Instituto.
No profundizaremos en este tema ya que se verá específicamente en otras asignaturas.

Tipos de cuestionarios
Pueden clasificarse de la siguiente forma:

• Cuestionario directo:
Su característica es que el objetivo se persigue con las preguntas, pero no
sabe cuál es la firma patrocinante.
• Cuestionario indirecto:
Su particularidad es que el entrevistado desconoce cuál es el objetivo de la
encuesta. De todas formas sea el cuestionario directo o indirecto, hay
elementos en la formulación de las preguntas que deben tenerse en cuenta en
el momento de la confección.
• Estructurado:
Las preguntas y las respuestas están organizadas a partir de un criterio
preestablecido. No es necesario que los entrevistados estén especialmente
adiestrados. Conviene utilizarlo después de haber efectuado una
investigación exploratoria que permita analizar las preguntas y sus posibles
respuestas.
• No estructurado:
El tema a investigar se aborda incluyen preguntas generales. Las preguntas
no se realizan siguiendo un orden dado, ya que el encuestador tiene amplia
libertad, por ello debe ser muy hábil para poder guiar este tipo de diálogo.
Podemos concluir que el encargado de realizar la encuesta debe estar muy
bien instruido para poder insistir en las preguntas que resultan más
importantes.
Ellos son: el tipo de preguntas, su estructura y la fuente de errores.

PROFESOR: CDOR. LUCAS DALL’AGATA 20


UNIDAD I ESTADÍSTICA

• Tipos de preguntas:
Es importante al elaborar un cuestionario el tipo de información que se
quiere obtener de acuerdo con ello se pueden utilizar las siguientes
preguntas.
i. De identificación: suministran datos básicos, por ejemplo edad,
sexo, nivel de ingresos, ocupación, lugar de residencia, etc.
ii. De opciones concretas: preguntan concretamente si prefieren un
producto u otro, una etiqueta vs. Otra, etc.
iii. De motivación: no sólo sobre las opciones concretas, sino
también sobre las opciones que originan la elección.
• Estructura de las preguntas:
Las preguntas pueden ser:
i. Estructuradas: del tipo SI-NO, GUSTA- NO GUSTA, etc.
ii. De opción múltiple: en las que se otorga un puntaje por cada una
de las respuestas.
• Fuente de errores
Las preguntas pueden ser:
i. incompleta
ii. indefinida
iii. imprecisa
iv. demasiado simple
v. compleja
vi. demasiado general

Además pueden ser:


Ajenas a la experiencia del entrevistado, demasiado técnica, idiomáticamente dudosa,
omitir alternativas en las opciones múltiples, imposibles de responder por su
ambigüedad y contar de dos partes que requieren dos respuestas por separado.
A continuación se presentan como ejemplo modelos instrumentos para la recolección de
datos.

EJEMPLO 1:

CENTRO EDUCATIVO DE NIVEL MEDIO Nº 195 MARCONI – MORTEROS -


CORDOBA

1- Apellido y Nombre

2- Domicilio:

3- Sexo: (colocar una X donde corresponda)


Masculino
Femenino

4- Edad: (colocar una X donde corresponda)

PROFESOR: CDOR. LUCAS DALL’AGATA 21


UNIDAD I ESTADÍSTICA

Edad Alumno
18-22
23-27
28-32
33-37
38-42
43-47
+ de 48

5- Número de hijos: (colocar una X donde corresponda)


Nº de hijos Alumno
No tiene
1
2
3
4
5
+ de 5

6- Sostén de Familia: (colocar una X donde corresponda)


Sostén Flia. Alumno
Si
No

Si eligió la opción “Si” complete el siguiente cuadro.

Tipo de sostén de flia. Alumno


Único
No único y mayor
No único y no mayor

7- Situación laboral: (colocar una X donde corresponda)


Trabaja Alumno
Si
No
Si eligió la opción “Si” complete el siguiente cuadro.
Horario Alumno Tipo de trabajo Alumno Cantidad de HS. Alumno
Mañana Estable 0-4
Tarde Temporal 4-8
Noche 8-12
+ de 12

PROFESOR: CDOR. LUCAS DALL’AGATA 22


UNIDAD I ESTADÍSTICA

8- Estudios anteriores, previo al ingreso al CENMA 195: (colocar una X donde


corresponda)
Estudios Alumno
Primario
CENPA
CBU inc.
CBU comp.
CE inc.
Sec. inc.
Otros

9- Número de horas diarias dedicadas al estudio: (colocar una X donde


corresponda)

Nº de Horas Alumno
0
1
2
3
4
+ de 4

Si eligió una opción de 1 a más de 4 complete el siguiente cuadro. Puede elegir más de
1 opción.
Horario del día dedicado al estudio Alumno
Mañana
Tarde
Luego de clases
De 12 a 15 hs.
Fines de semana
Otros

10- Dispone de un lugar cómodo para estudiar: (colocar una X donde


corresponda)
Lugar de estudio Alumno
Si
No

11- Dificultades para el cursado presencial: (colocar una X donde corresponda)


Dificultades para el cursado presencial Alumno
Si
No

PROFESOR: CDOR. LUCAS DALL’AGATA 23


UNIDAD I ESTADÍSTICA

Si eligió la opción si complete el siguiente cuadro. Puede elegir más de 1 opción.


Tipos de dificultades Alumno
Oblig. Lab.
Oblig. Fliares.
Falta de apoyo fliar.
Otras: Cuales

.............................................................................................................................................

Agradecemos su colaboración

EJEMPLO 2:

Entrevista a docentes de Nivel Inicial y 1º año de E.G.B.

1) ¿En qué nivel desarrolla su actividad?


2) ¿Considera necesaria la articulación entre el Nivel Inicial y el 1º año de la
E.G.B? ¿Por qué?
3) ¿Se realiza la articulación entre el Nivel Inicial y el 1º año de la E.G.B. en su
Centro Educativo? ¿Por qué?
En caso de respuesta afirmativa: ¿Cómo se lleva a cabo?

EJEMPLO 3:

ENCUESTA SOBRE EL JUEGO

¿Cree que para su hijo es importante el tiempo para jugar? ¿Por qué?
…………………………………………………………………………………………….
…………………………………………………………………………………………….

¿Se le permite jugar en casa? ¿Cuándo?


…………………………………………………………………………………………….
…………………………………………………………………………………………….

¿Con quién juega?


…………………………………………………………………………………………….
…………………………………………………………………………………………….

La familia ¿Dedica un tiempo para jugar o hacer algo juntos? ¿Qué cosa? ¿Quién?
…………………………………………………………………………………………….

Escriba cinco palabras que expliquen cómo se siente su hijo jugando.


…………………………………………………………………………………………….
SE RUEGA DEVOLVER A LA SEÑO. GRACIAS

PROFESOR: CDOR. LUCAS DALL’AGATA 24


UNIDAD I ESTADÍSTICA

EJEMPLO 4:

Modelo de entrevista a los directivos y docentes

1) ¿Cuál es su opinión acerca del espacio exterior destinado a los juegos en cuanto
a: tamaño, cantidad y tipos de juegos, zona soleadas y con sombra, arenero, etc.?
…………………………………………………………………………………………….
…………………………………………………………………………………………….

2) ¿Considera que los juegos que posee su jardín son peligrosos para los niños?
¿Por qué?
…………………………………………………………………………………………….
…………………………………………………………………………………………….

3) ¿Se utiliza el espacio exterior para realizar actividades relacionadas con el


aprendizaje? ¿Cuáles?
…………………………………………………………………………………………….
…………………………………………………………………………………………….

4) ¿Cuáles son las conductas observables en sus alumnos en los momentos de


juegos al aire libre?
…………………………………………………………………………………………….
…………………………………………………………………………………………….
5) ¿Qué actividades prefieren realizar sus alumnos en los momentos de juegos al
aire libre? ¿Cómo se organizan?
…………………………………………………………………………………………….

EJEMPLO 5:

Relevamiento de las Instituciones: Observación del espacio exterior

Jardín de Infantes:……………………………………………………………………….

ESPACIO EXTERIOR
ELEMENTOS TIENE NO TIENE
Zona arbolada
Zona soleada
Zona techada
Césped
Juegos prefabricados
Cemento
Arenero
Equipos de juego para la
arena
Agua
Tierra
TOTAL

PROFESOR: CDOR. LUCAS DALL’AGATA 25


UNIDAD I ESTADÍSTICA

TIPOS DE JUEGOS
JUEGOS TIENE NO TIENE
Juegos en la arena
Juegos prefabricados
Juegos libre
TOTAL

CONDUCTAS DE LOS NIÑOS


TIPOS CANTIDAD
Agresiva
Pasiva
Indiferente
Ordenada
Inestable
TOTAL

ACTIVIDADES LÚDICAS EN EL ESPACIO EXTERIOR


TIPOS SUBTIPOS CANTIDAD
ARENA
INDIVIDUALES PREFABRICADOS
LIBRES
ARENA
GRUPALES PREFABRICADOS
LIBRES
TOTAL

EJEMPLO 6:

Encuesta: (macar co n una cruz la respuesta que e stimativamente cons ideren


correcta y si lo consideran necesario efectuar alguna observación)

1) ¿Qué cantidad de terreno se necesita para contar con un microemprendimiento


importante de aloe?

5.000 m2 10.000 m2

2) ¿Qué cantidad de plantines se necesitan de acuerdo a lo indicado en la respuesta


anterior para comenzar con el emprendimiento?

2.000 3.000 5.000 10.000

3) ¿Qué costo tienen los plantines?

(Chicos de 6 a 8 hojas) 0,30 0,50 1,00 1,50


(Adultos) 1,50 2,00 2,50 3,00

PROFESOR: CDOR. LUCAS DALL’AGATA 26


UNIDAD I ESTADÍSTICA

4) El plantín de aloe que se utiliza es:

Saponaria Barbadensis Millar

5) ¿Qué precio abonan por el Kg. de hoja de Aloe?

0,60 0,80 1,00 1,20 1,50 Mayor volumen

6) ¿El flete del envió de la producción esta a cargo del productor?

SI NO

7) ¿Por mayores volúmenes mejoran el precio?

SI NO

8) ¿En que tiempo deben ser enviadas luego de recogidas las hojas de aloe?

12 hs. 24hs. 48hs. 72hs.

9) ¿En qué tiempo se empiezan a cosechar las hojas?

1 año 2 años 3 años

10) ¿En que tiempo se retiran los hijuelos?

1 año 2 años 3 años

11) ¿Cuánto tienen que pesar las hojas?

150grs. 200grs. 250grs.

12) ¿Son rechazadas cuando vienen con hongos, cortadas o pinchadas?

SI NO

13) ¿Se pueden usar químicos para combatir las malezas, con glifosato?

SI NO

14) ¿Si responde que si, en que cantidad?

0,50 cm. 0,80 cm. 1,00 cm.

¿Y en cuantos litros de agua?

1 litro 2 litros 3 litros

PROFESOR: CDOR. LUCAS DALL’AGATA 27


UNIDAD I ESTADÍSTICA

15) ¿En que época se aconseja la siembra?

Verano Otoño Invierno Primavera

Quedamos en aguardo de vuestra respuesta agradeciéndoles desde ya vuestra


atención.

Como tarea extra realiza comentarios y sugerencias acerca de los distintos ejemplos de
los instrumentos de recolección de datos presentados con anterioridad.

Los cuadros
Veremos algunos elementos a tener en cuenta en la construcción de un cuadro

Partes de un cuadro
Titulo, encabezamiento, columna, nota de calce y cuerpo.
En cada uno de los gráficos siguientes se muestra la forma en la que se puede presentar
la información a través de cuadros, tablas que remiten comprender e interpretar mejor y
más rápido la información.

PROFESOR: CDOR. LUCAS DALL’AGATA 28


UNIDAD I ESTADÍSTICA

http://www.visionesalternativas.com/militarizacion/articulos/petrol/16.htm
Articulo "El Petróleo en cifras: Las causas económicas de la Guerra de EE.UU.
Por Orlando Caputo"

En algunos casos la nota introductoria se encuentra al final luego de la nota de calce, en


la cual informa acerca de la totalidad del cuadro. También cuando se comparan cifras
éstas pueden estar colocadas en filas o en columnas depende de la necesidad y de la
cantidad de datos que debemos colocar en el cuadro.
En algunos es interesante establece las comparaciones de cifras por columnas, en otros
casos la comparación se realiza por filas. A veces es importante resaltar algún tipo de
información dentro de un cuadro, entonces se coloca en negrita la fila que interesa darle
mayor importancia.
Ubicación de la información: es importante tener en cuenta que nosotros como
occidentales leemos de izquierda a derecha y de arriba hacia abajo, por lo tanto la
información más importante debe estar colocada arriba en la columna matriz y a la
izquierda en los encabezados.

PROFESOR: CDOR. LUCAS DALL’AGATA 29


UNIDAD I ESTADÍSTICA

Si los datos se clasifican en forma geográfica o cualitativa los disponemos


alfabéticamente.
Si lo más importante a resaltar en el cuadro son las cifras es conveniente ordenarlas de
mayor a menor.

Importante: todas estas aclaraciones y recomendaciones son generales, luego el propio


autor del cuadro determinará cual es la forma más clara y mejor de presentar la
información.
Así como en la parte anterior estudiamos las distintas formas de presentar la
información, ahora nos detendremos a analizar una forma específica en que los datos
puedan ser agrupados:

LA DISTRIBUCION DE FRECUENCIAS

Dentro de la distribución de frecuencias analizaremos distintos temas específicos.

PROCESAMIENTO

INFORMACION IDENTIFICACION Y CLASIFICACION

PRESENTACION

PROFESOR: CDOR. LUCAS DALL’AGATA 30


UNIDAD I ESTADÍSTICA

3- IDENTIFICACION Y CLASIFICACION DE LA INFORMACION

LAS VARIABLES:
Antes de comenzar a estudiar los siguientes tipos de variables, es importante tener en
cuenta qué, forma influyen las mismas en una determinada investigación ya que del
control y la definición de las mismas depende la validez de nuestras conclusiones, ya
sean inferenciales o no. Todos estos conceptos se relacionan de una forma muy estrecha
con otras asignaturas por ello pueden resultar comunes.
Actualmente todas las empresas manejan una cantidad casi ilimitada de datos, lo cual
hace que se deban agrupar convenientemente para poder ser estudiados analizados e
interpretados en forma correcta.
Pasemos a definir variable como toda caracter ística capa z de as umir distintos
valores. Por ejemplo la variable países de América del sur puede adoptar los siguientes
valores: Argentina, Chile, etc.

NOMINAL
CUALITATIVAS
ORDINAL
VARIABLES
DISCRETA
CUANTITATIVAS
CONTINUA

Esta clasificación de las variables está dada desde el punto de vista del procesamiento,
operación gráfica en el caso anterior el punto de vista del investigador.
Cuado una variable no posee valores numéricos se llama CUALITATIVA a su vez
puede ser nominal como color de preferencia o programa televisivo más votado;
también puede ser ordinal, a través de enunciados como mayor o menor que, por
ejemplo pequeñas, medianas grandes empresas.
A continuación presentamos un ejemplo de esta clasificación de variables:
Cuando los valores de la variable adquieren un sentido matemático, por lo tanto se
pueden realizar con ellos operaciones de suma, resta, multiplicación, etc., recibe el
nombre de CUANTITATIVA O INTERVALAR.
Un ejemplo típico de este tipo de variables es el número de hijos de un conjunto de
familias, la variable puede tomar valores como 0, 1, 2, 3, etc., siempre valores enteros
nunca valores intermedios, no puede ser ½ hijo en una familia.
En este caso se llama VARIABLE CUANTITATIVA DISCRETA.
Al contrario existen variables que pueden tomar infinitos valores, por ejemplo 1,67 cm.;
70,50 Kg. Etc. Es decir entre dos valores de variables que difieren en una unidad es
posible encontrar un tercero que se encuentre entre los dos anteriores.
La variable que puede tomar este tipo de valores se llama VARIAB LE
CUANTITATIVA CONTINUA.

PROFESOR: CDOR. LUCAS DALL’AGATA 31


UNIDAD I ESTADÍSTICA

4- PROCESAMIENTO DE LA INFORMACION

NIVELES DE MEDICION DE LAS VARIABLES

Una de las formas más conveniente de tratar estos datos (agrupándolos de tal forma que
su lectura sea clara) como los vimos anteriormente, recibe el nombre de
DISTRIBUCIÓN DE FRECUENCIAS.

**IMPORTANTE**

Según sea el tipo de medición de la variable, será la


distribución de frecuencias. Se suele establecer una
clasificación en la c ual se habla de niveles de medición
nominal, ordinal o intercalar, a cada uno de estos niveles los
definimos cuando explicamos lo s distinto s tipos de variables,
ahora veremos la distribución de frecuencias.

Las distribuciones de frecuencias de variables cualitativas nominales y ordinales son las


vistas en el ejemplo anterior.

DISCRETAS

En el caso del número de hijos de las familias, podríamos haber obtenido una
distribución de frecuencias como esta:

X F Podremos observar que en la columna de la izquierda (X) se colocan los valores


0 1 de la variable 0, 1, 2, 4 y 5. Estos valores corresponden a la cantidad de hijos, la
1 3 letra x suplanta al número de hijos y la hemos colocado para otorgarle a la
2 5 variable una característica matemática. Una variable como esta sólo puede tomar
3 7 valores enteros ya que nadie tiene dos hijos y medio. Se dice, entonces, que
4 4 pertenece al nivel de medición INTERVALAR DISCRETO.
5 2

ACTIVIDAD
A partir de variables y valores extraídos de su propio ámbito laboral, construya por lo
menos dos distribuciones de frecuencia CONTINUAS.
Ahora, le presentamos un ejemplo para poder comprender la forma de efectuar la
presentar los datos en el nivel de medición intercalar continuo.
El gerente de una empresa dedicada al transporte de sustancias alimenticias le solicita al
jefe del personal, una lista resumen con los salarios que perciben los operarios de la
firma.
Estas fueron las cifras entregadas:

PROFESOR: CDOR. LUCAS DALL’AGATA 32


UNIDAD I ESTADÍSTICA

$ 575 $ 472 $ 253 $ 625 $ 546 $ 508 $ 300 $ 653 $ 473 $ 399
$ 506 $ 400 $ 655 $ 506 $ 325 $ 375 $ 753 $ 752 $ 553 $ 504
$ 350 $ 380 $ 463 $ 424 $ 600 $ 429 $ 561 $ 534 $ 525 $ 603
$ 648 $ 349 $ 436 $ 550 $ 448 $ 408 $ 636 $ 568 $ 639 $ 624
$ 655 $ 379 $ 592 $ 469 $ 709 $ 697 $ 468 $ 536 $ 538 $ 548
$ 472 $ 669 $ 498 $ 479 $ 548 $ 503 $ 546 $ 525 $ 546 $ 638
$ 525 $ 545 $ 593 $ 550 $ 590 $ 553 $ 439 $ 714 $ 563 $ 574
$ 551 $ 518 $ 639 $ 713 $ 453 $ 708 $ 755 $ 698 $ 458 $ 598

Cuando el gerente de la empresa observó las cifras se dio cuanta que no podía formarse
una idea clara sobre el comportamiento de los salarios ni cuántos operarios ganaban
entre 300 y 500 pesos por mes.
Esto ocurrió porque los datos no fueron organizados convenientemente para facilitar su
lectura al hacer esta observación al jefe de personal, este inmediatamente decide hacer
una presentación diferente a través del agrupamiento de las cifras según una distribución
de frecuencias. Para ello, parte del hecho de que la variable en cuestión de frecuencias.
Para ello, parte del hecho de que la variable en cuestión, salarios, es continua, ya que
admite entre dos valores cualesquiera, infinitos valores.
Al observar detenidamente los datos, encuentra que el más pequeño es de 253 y que el
más grande es 755. Decide entonces probar como queda si hace una distribución con
intervalos de 50 dólares.
El resultado, presentado es el siguiente:

X
$ 250 $ 300
$ 300 $ 350
$ 350 $ 400
$ 400 $ 450
$ 450 $ 500
$ 500 $ 550
$ 550 $ 600
$ 600 $ 650
$ 650 $ 700
$ 700 $ 750
$ 750 $ 800

Después de agregar una columna f que simboliza las frecuencias es decir la cantidad de
veces que se repite dentro de cada intervalo un determinado sueldo. La forma más
sencilla es marcando palotes en cada intervalo a medida que vamos marcando cada
sueldo de la lista original.
El problema surge cuando un valor de sueldo coincide con el límite superior o inferior
de un intervalo, en ese caso debemos establecer un criterio para ubicar cada dato, por
ejemplo si un dato coincide con el límite superior de un intervalo, entonces lo incluyo
en él, utilizo el mismo criterio para todos los datos.
Los datos presentados son los siguientes:

PROFESOR: CDOR. LUCAS DALL’AGATA 33


UNIDAD I ESTADÍSTICA

X f Existe una serie de consideraciones a tener en cuenta, por


$ 250 $ 300 2 ejemplo: comenzar con el sueldo más bajo con un valor de 250,
$ 300 $ 350 3 en realidad el sueldo menor es de 253, pero por comodidad en la
$ 350 $ 400 5 división de los intervalos se utiliza 250. De la misma forma el
$ 400 $ 450 6 valor mayor es 755, pero se utiliza como valor máximo 800.
$ 450 $ 500 10
$ 500 $ 550 20
$ 550 $ 600 13
$ 600 $ 650 8
$ 650 $ 700 6
$ 700 $ 750 4
$ 750 $ 800 3
TOTAL 80
En los párrafos anteriores mencionamos los términos límite superior y límite inferior de
cada intervalo, la diferencia entre ambos limites recibe el nombre de MODULO O
AMPLITUD, como en este caso son todos iguales se llama MONOMODULAR.
También debemos aclarar dos conceptos que corresponden los límites de distribución.

Decimos que una distribución abierta si falta el límite inferior del primer intervalo y/o el
límite superior del último intervalo.
LIMITE INF. ABIERTO SIN LIMITES CERRADOS LIM. SUP. ABIERTO
X f X f X f
MENOS DE $ 300 2 MENOS DE $ 300 2 $ 250 $ 300 2
$ 300 $ 350 3 $ 300 $ 350 3 $ 300 $ 350 3
$ 350 $ 400 5 $ 350 $ 400 5 $ 350 $ 400 5
$ 400 $ 450 6 $ 400 $ 450 6 $ 400 $ 450 6
$ 450 $ 500 10 $ 450 $ 500 10 $ 450 $ 500 10
$ 500 $ 550 20 $ 500 $ 550 20 $ 500 $ 550 20
$ 550 $ 600 13 $ 550 $ 600 13 $ 550 $ 600 13
$ 600 $ 650 8 $ 600 $ 650 8 $ 600 $ 650 8
$ 650 $ 700 6 $ 650 $ 700 6 $ 650 $ 700 6
$ 700 $ 750 4 $ 700 $ 750 4 $ 700 $ 750 4
$ 750 $ 800 3 $ 750 Y MAS 3 $ 750 Y MAS 3
TOTAL 80 TOTAL 80 TOTAL 80

Es evidente que en una distribución cerrada los límites superior e inferior están
establecidos. Ahora volvamos a la distribución de frecuencia presentada al gerente de la
empresa y agreguémosle algunas columnas:

PROFESOR: CDOR. LUCAS DALL’AGATA 34


UNIDAD I ESTADÍSTICA

X f fa fr fr % fa %
$ 250 $ 300 2 2 0,0250 2,50% 2,50%
$ 300 $ 350 3 5 0,0375 3,75% 6,25%
$ 350 $ 400 5 10 0,0625 6,25% 12,50%
$ 400 $ 450 6 16 0,0750 7,50% 20,00%
$ 450 $ 500 10 26 0,1250 12,50% 32,50%
$ 500 $ 550 20 46 0,2500 25,00% 57,50%
$ 550 $ 600 13 59 0,1625 16,25% 73,75%
$ 600 $ 650 8 67 0,1000 10,00% 83,75%
$ 650 $ 700 6 73 0,0750 7,50% 91,25%
$ 700 $ 750 4 77 0,0500 5,00% 96,25%
$ 750 $ 800 3 80 0,0375 3,75% 100,00%
TOTAL 80 1,0000 100,00%

F o f: este símbolo significa FRECUENCIA ABSOLUT A y expresa la cantidad de


veces que se repite un valor de la variable.
Fa o fa: este símbolo significa FRECUENCIA ACUMULADA y se obtiene sumando
sucesivamente la primera columna y colocando el resultado en la segunda:
Y es importante la interpretación de las frecuencias acumuladas, por ejemplo el número
5 (intervalo de 300 a 350) indica las frecuencias acumuladas en el segundo intervalo, es
decir que el gerente sabe que hay cinco personas, entre sus operarios, que ganan menos
de 350 pesos mensuales
Por supuesto el último valor de esta columna debe ser el valor total de las
observaciones. En este caso 80.
Fr: este símbolo significa FRECUENCIA RELATIVA y se obtiene al dividir cada
una de las frecuencias de la segunda columna por el total, es decir 80. Por supuesto la
suma de dicha columna debe dar como resultado 1.
2/80= 0,025
3/80=0,0375
Fr%: este símbolo significa FRECUENCIAS RELATIVAS PORCENTUALES y se
obtiene al multiplicar las columnas de las frecuencias relativas por 100. Por 100, porque
expresa la participación porcentual relativa de los valores de cada intervalo en el total,
como si el total fuera 100.
La frecuencia porcentual relativa del 2,50 indica que el 2,50 % de los operarios perciben
salarios entre $ 250 y $ 300. En la misma forma se puede decir que 3,75 % de los
operarios ganan entre $ 300 y $ 350. Por supuesto que la suma de dicha columna debe
dar el valor 100, esto significa el ciento por ciento de las observaciones.
Una última columna es la de las FRECUENCIAS ACUMUL ADAS
PORCENTUALES. Estas indican el porcentaje acumulado hasta un determinado valor
de variable.
POR EJEMPLO: el 73,75 % de los empleados gana gasta $ 600.

Existe otra forma de construir una tabla,

• Diagrama de tallo y hoja.


además de los métodos comentados, existe una técnica sencilla de gran utilidad para
explorar y describir una gran masa de datos, que fue desarrollada por Turkey. A
continuación explicaremos la misma por medio de un ejemplo.

PROFESOR: CDOR. LUCAS DALL’AGATA 35


UNIDAD I ESTADÍSTICA

Supongamos que se han contabilizado las llamadas telefónicas por hora en una
determinada central y los resultados obtenidos fueron los siguientes:

100 20 51 95 22 30 19 23 16 67 75 12 70 45 55 15 60 82 20 116
23 21 26 54 105 41 27 44 29 73 85 19 50 17 32 16 64 6 80 15
6 22 50 73 65 12 29 35 47 90 63 11 27 17 9 29 55 32 27 44
61 8 76 18 18 17 22 11 50 84 37 52 40 21 52 43 43 17 82 5
16 26 10 43 16 29 57 36 49 115 116 20 30 21 22 35 43 82 15 5

Esta técnica descriptiva comienza el agrupamiento de datos con un ordenamiento


alternativo a al tabla de distribución de frecuencias que se conoce con el nombre de
diagrama de tallo y hojas.
El diagrama se construye colocando en una columna todos los números que conforman
los datos eliminando la última cifra (unidades). Esta columna debe ordenarse de menor
a mayor. A la derecha de cada número se escribe la ultima cifra (unidad) de cada dato,
que comienza con ese número. Posteriormente, se ordenan también de menor a mayor
los números de cada fila. Cabe aclarar que en la columna cada número aparece una sola
vez en tanto que en las filas pueden repetirse de acuerdo a las cantidades que conforman
los datos.
Por ejemplo, el valor 100 se coloca en la fila que dice 10 agregando el cero; el valor 19
en la fila del 1 agregando el 9; el 22 en la fila del 2 agregando el 2; etc.

El diagrama de tallo y hojas correspondiente al ejemplo planteado es el siguiente:

0 5 5 6 6 8 9 De esta manera se ha
1 0 1 1 2 2 5 5 5 6 6 6 6 7 7 7 7 8 8 9 9obtenido una distribución
2 0 0 0 1 1 1 2 2 de frecuencias donde la
2 2 3 3 6 6 7 7 7 9 9 9 9
3 0 0 2 2 5 5 6 7 frecuencia ahora esta
4 0 1 3 3 3 3 4
5 7 9 4 representada por una fila
5 0 0 0 1 2 25 74 5 de números en lugar de un
6 0 1 3 4 5 7 rectángulo.
7 0 3 3 5 6 La interpretación de este
8 0 2 2 25 4 gráfico es la siguiente: Por
9 0 5 ejemplo, tomando la
10 0 5
segunda fila puede
11 5 6 6
observarse que hay 2
registros de 10, 3 de 11, etc. De la misma manera se interpretan las demás filas.

A continuación presentamos algunos ejemplos con las distribuciones de frecuencias de


algunas de las variables clasificadas anteriormente.

• Tabla de frecuencias con intervalos:


Una tabla de distribución de frecuencias sirve para resumir un conjunto de datos
estadísticos. Por ejemplo, esta tabla muestra las 1200 notas o calificaciones recibidas en
4 exámenes por 10 clases de 30 alumnos cada una:
1º columna es la lista de los diez intervalos en que se han agrupado las notas.
2º columna es el punto medio de cada intervalo.

PROFESOR: CDOR. LUCAS DALL’AGATA 36


UNIDAD I ESTADÍSTICA

3º columna muestra el número de notas de cada intervalo, es decir su frecuencia (por


ejemplo, hay 20 notas entre 0 y 1).
4º columna es el cociente entre el número de notas en el intervalo y el número total, es
decir, la frecuencia relativa (hay 0,017 notas entre 0 y 1 por cada una de las 1.200
notas).
5º columna es el número de notas en un intervalo y los intervalos menores que él, es
decir, la frecuencia acumulada (hay 35 notas menores o iguales que 2).
6º columna es el cociente entre el número de notas menores o iguales que el intervalo y
el número total, es decir, la frecuencia acumulada relativa (0,029 notas entre 0 y 2 por
cada una de las 1.200).

INTERVALO MARCA FRECUENCIA


DE CLASE RELATIVAACUMULADAACUM. REL.
0 1 0,50 20 0,017 20 0,017
1 2 1,50 15 0,013 35 0,029
2 3 2,50 18 0,015 53 0,044
3 4 3,50 25 0,021 78 0,065
4 5 4,50 44 0,037 122 0,102
5 6 5,50 88 0,073 210 0,175
6 7 6,50 222 0,185 432 0,360
7 8 7,50 335 0,279 767 0,639
8 9 8,50 218 0,182 985 0,821
9 10 9,50 215 0,179 1200 1,000
1200

OBSERVACION:
1200 calificaciones distribuidas en 10 intervalos.

• Tablas de doble entrada:


En las distribuciones bidimensionales, en las que a cada individuo le corresponden dos
valores, xj, yj, puede suceder que cada par de valores (xm, yn) ocurra varias veces, es
decir lleve apareada una frecuencia. En tal caso convienen disponer los resultados
mediante una tabla de doble entrada como la que se muestra a continuación,
correspondiente a los resultados de un colectivo de 125 personas puntuadas por su
sensibilidad ecológica, xj, y por sus conocimientos de biología, yj.

PROFESOR: CDOR. LUCAS DALL’AGATA 37


UNIDAD I ESTADÍSTICA

5- PRESENTACIÓN DE LA INFORMACION

REPRESENTACIÓN GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS

La representación gráfica de la distribución de frecuencias para las variables


cuantitativas continua, recibe el nombre de HISTOGRAMA, luego aclararemos que
sucede con las variables discretas.
Función de los gráficos.
Las gráficas de distribuciones de frecuencias simples y de distribuciones de frecuencias
relativas son de utilidad debido a que resaltan y aclaran los patrones que no se pueden
distinguir fácilmente en las tablas. Atraen la atención del que las observa hacia los
patrones existentes en los datos. Las gráficas pueden también ayudarnos a resolver
problemas concernientes a la distribución de frecuencias. Nos permitirán estimar
algunos valores con sólo una mirada y nos proporcionarán una verificación visual sobre
la precisión de nuestras soluciones.
El gráfico, lo mismo que la distribución de frecuencias, varía en función del tipo de
variable considerada.

X f Actividad:
$ 250 $ 300 2 Con la distribución de frecuencias de los salarios de la empresa
$ 300 $ 350 3 construye el histograma correspondiente siguiendo las
$ 350 $ 400 5 indicaciones:
$ 400 $ 450 6 - dibuja un sistema de ejes cartesianos (X e Y)
$ 450 $ 500 10 - marca sobre el eje de las abscisas los valores de la variable
$ 500 $ 550 20 (en este caso los valores correspondientes a los límites de los
$ 550 $ 600 13 intervalos)
$ 600 $ 650 8 - señala sobre el eje de las ordenadas, las frecuencias 1, 3, 5,
$ 650 $ 700 6 etc. en la escala que consideres conveniente.
$ 700 $ 750 4 - Construye por cada intervalo, un rectángulo cuya base sea el
$ 750 $ 800 3 intervalo y su altura la frecuencia
TOTAL 80 - Importante colocar título al histograma y nombre a los ejes.

SUELDOS DE EMPLEADOS
25

500 -550
20
FRECUENCIAS

15 550 - 600

450 - 500
10 600 - 650
400 -450 650 - 700
350 - 400
5 700 - 750
300 - 350 750 - 800
250 - 300

0
PESOS

Construye, ahora otro tipo de histograma (de bastones), a partir de la distribución de


frecuencias de variables discretas, efectuada para el número de hijos de las 22 familias
que habíamos considerado anteriormente y repetimos a continuación

PROFESOR: CDOR. LUCAS DALL’AGATA 38


UNIDAD I ESTADÍSTICA

X f • Construye un sistema de ejes cartesianos (X e Y).


0 1 • Marca en el las abscisas los valores de la variable, (número de hijos).
1 3 • Marca en el de las ordenadas los valores de las frecuencias
2 5 correspondientes, 1, 2, 3, etc. en la escala que consideres conveniente.
3 7 • Levanta una perpendicular en aquellos en que la variable está definida
4 4 (debes tener presente que la altura debe estar dada por las frecuencias)
5 2 • Importante: colocar título al gráfico de bastones y nombre a los ejes.

NÚMERO DE HIJOS
8
7
FRECUENCIA

6
5
4
3
2
1
0
0 1 2 3 4 5
HIJOS

De acuerdo a la forma de los gráficos, ya sean bastones o histogramas podemos decir


que poseen distintas asimetrías, positivas, negativas o simétricas (caso anterior).

NÚMERO DE HIJOS NÚMERO DE HIJOS


8 5
FRECUENCIA

4
FRECUENCIA

6
3
4
2
2 1

0
0
0 1 2 3 4 5 0 1 2 3 4 5
HIJOS HIJOS

IMPORTANTE

VARIABLES CUALITATIVAS cualquier tipo de gráfico, ya sea de barras separadas


o circulares.

VARIABLES CUANTITATI BAS gráfico de bastones para variables discretas


histograma o poligonal para variable continuas.

En el caso de tratarse de variables nominales, las barras pueden ser colocadas de


cualquier forma, en cambio si las variables son ordinales es necesario respetar el orden
de presentación de las barras.

PROFESOR: CDOR. LUCAS DALL’AGATA 39


UNIDAD I ESTADÍSTICA

OJIVA DE LOS SUELDOS DE LOS 80 EMPLEADOS


90
750 - 800
80 700 - 750
650 - 700
70 600 - 650
FECUENCIA ACUMULADA

550 - 600
60

50 500 -550

40

30 450 - 500

20 400 -450
350 - 400
10 300 - 350
250 - 300
0
PESOS

De la misma forma podríamos realizarlo para una variable discreta.

ACLARACIÓN: es importante tener en cuenta que para graficar se puede utilizar el


gráfico más conveniente, respetando las características de la variable en cuestión.

En la lectura diaria de libros, artículos, revistas de cualquier tipo vemos que la


información suministrada por las mismas se presenta, no solamente mediante párrafos
escritos, también a través de cuadros y gráficos, de estos últimos hablaremos a
continuación.

EJEMPLOS DE ALT ERNATIVAS DE PRESENTACION DE INFORMACI ON


ESTADÍSTICA

Ejemplo 1)

Técnicas modernas en acuicultura

En 2000, la producción total notificada de la acuicultura (incluidas plantas acuáticas)


fue de 45,7 millones de toneladas en peso. Según los informes, China produjo el 71 por
ciento del volumen total y el 49,8 por ciento del valor total de la acuicultura. Más de la
mitad de la producción total mundial de la acuicultura en 2000 consistió en peces
propiamente dichos, y continúa hasta la fecha el aumento de la producción de los
principales grupos de especies sin que se registre ningún descenso aparente (ver mapa).
La producción mundial de plantas acuáticas ascendió a 10,1 millones de toneladas.

PROFESOR: CDOR. LUCAS DALL’AGATA 40


UNIDAD I ESTADÍSTICA

Estadísticas de la FAO del año 2000 indicaban que la producción de alimentos


provenientes del medio acuático era cercana a 137 millones de toneladas métricas, de
las cuales casi el 31% provenían de actividades de cultivo. La FAO también proyectó
que, para satisfacer las necesidades de la población humana del 2025, la producción
total debería aumentar a 165 millones de toneladas métricas. Este aumento significativo
no puede provenir de las capturas de especies silvestres sin causar serios daños a los
ecosistemas marinos, lagos y ríos. En consecuencia, el aumento en la producción de
alimentos de origen acuático debe necesariamente provenir de un aumento en la
eficiencia en la producción de estas especies cultivadas.

Para satisfacer las necesidades futuras, es necesario expandir la capacidad productiva a


un amplio rango de recursos acuáticos incluyendo algas, peces, moluscos y crustáceos.
Esto sólo se puede lograr a través de amplios esfuerzos en investigación en acuicultura
en el ámbito mundial, basados en un sólido conocimiento de la biología reproductiva,
del crecimiento y de la genética de las especies cultivadas.

Entre las áreas de investigación en desarrollo se encuentran: la maduración de


reproductores, manejo de gametos, manipulaciones cromosómicas, control del sexo,
incubación y desarrollo larvario, desarrollo embrionario y metamorfosis, nutrición,
crecimiento, salud, genética, bancos de genes y transgénesis (obtención de organismos
genéticamente modificados).

Extraído de (www.porquebiotecnologia.com.ar) / Consejo Argentino para la


información y el desarrollo de la biotecnología (www.argenbio.org)

Ejemplo 2)
PRODUCCIÓN DE PETRÓLEO POR PROVINCIA (metros cúbicos)

PROFESOR: CDOR. LUCAS DALL’AGATA 41


UNIDAD I ESTADÍSTICA

AÑO 2004 AÑO 2003 ACUMULADO ANUAL


PROVINCIA MAYO ABRIL VAR (1) MAYO VAR (2) 2004 2003 VAR (3)
NEUQUÉN 1062497 1018265 1,0% 1185919 -10,4% 5160636 5683523 -9,2%
CHUBUT 778482 740964 1,7% 722945 7,7% 3689477 3401367 8,5%
SANTA CRUZ 758559 589400 24,5% 783885 -3,2% 3464168 3811037 -9,1%
MENDOZA 476824 483431 -4,5% 558820 -14,7% 2423710 2774396 -12,6%
RÍO NEGRO 159060 157642 -2,4% 179680 -11,5% 762734 868769 -12,2%
TIERRA DEL FUEGO 95144 91747 0,4% 110746 -14,1% 466832 522896 -10,7%
OTROS 159856 159472 -3,0% 174724 -8,5% 804103 854227 -5,9%
TOTAL 3490422 3240921 4,2% 3716719 -6,1% 16771660 17916215 -6,4%

(1) VARIACION MEDIA DIARIA MAYO/ABRIL 2004


(2) VARIACION MAYO 2004/2003
(3) VARIACION ENERO-MAYO 2004/ENERO-MAYO 2003

PRODUCCION DE PETRÓLEO POR PROVINCIA

TIERRA DEL
FUEGO
OTROS
RÍO NEGRO 3%
5%
5%

NEUQUÉN
M ENDOZA 29%
14%
SA NTA CRUZ
22%

CHUB UT
22%

Material extraído de la Secretaria de Energía, informe estadístico mensual mayo 2004


pagina 3 (http://energia3.mecon.gov.ar/contenidos/verpagina.php?idpagina=1793)

En la actualidad existen planillas de cálculo que permiten realizar gráficos con mucha
rapidez y comodidad, tal como se pudo observar anteriormente.

PROFESOR: CDOR. LUCAS DALL’AGATA 42


UNIDAD I ESTADÍSTICA

De esta forma finalizamos la parte en la cual detallamos los distintos tipos de gráficos
que podemos utilizar, siempre y cuando tengamos en cuentas las consideraciones.

La siguiente actividad corresponde a un caso real de una


Universidad, es una actividad a distancia, obligatoria y
grupal (grupos de 2 como máximo) y debe ser entregada en
el último encuentro d el cuatri mestre. Es un requisito para
poder regularizar la materia

Un psicólogo de la Universidad de Mohamed interesado en estimar algunas


características de los estudiantes, como así también determinar algunas relaciones entre
variables, extrajo una muestra al azar de 40 alumnos de una población de 2000 (fracción
de muestreo = 40/2000*100= 2 %). Entre otras variables, obtuvo las que figuran en el
siguiente listado donde:
Obs.: Nº de observaciones
Nº: corresponde al número de registro de los estudiantes en la universidad y que fue
tenido en cuenta para la obtención de la muestra
Y1: corresponde al coeficiente de inteligencia (IQ)
Y2: peso de los alumnos expresados en libras
Y3: tiempo en segundos que demoraron los estudiantes en un experimento en psicología
en el que se pedía que memoricen cierta secuencia de palabras
Y4: son lecturas de la presión sanguíneas asistólica al momento del ingreso a la
universidad, registradas por el departamento de salud,
Y5: programa de TV preferido
Y6: sexo
Y7: cantidad de cigarrillos fumados durante la mañana

El psicólogo necesita de su ayuda para resumir esta información, como así también para
el cálculo de algunas estadísticas y hacer inferencias.

Consignas:
1) Definir de que tipo de variables se trata y escala de medición de cada una.
2) Con la variable coeficiente de inteligencia construya una tabla de distribución de
frecuencias de 7 clases, la primera incluye los límites 88 ≤ x < 94, las restantes
surgen de ésta (la amplitud del intervalo es igual a 6)
3) Calcule las frecuencias relativas en porcentajes y las frecuencias acumuladas
también en porcentajes.

PROFESOR: CDOR. LUCAS DALL’AGATA 43


UNIDAD I ESTADÍSTICA

OBS Nº Y1 Y2 Y3 Y4 Y5 Y6 Y7
1 1009 88 158 2 104 NOTICIAS F 0
2 3754 119 166 11 126 CULTURALESM 20
3 842 93 165 4 116 PELICULAS F 3
4 1280 99 187 10 105 DEPORTES M 3
5 1180 106 168 3 114 PELICULAS F 6
6 898 102 159 12 124 EDUCATIVOS F 2
7 1255 108 179 23 124 CULTURALESM 12
8 1544 109 162 2 112 DEPORTES F 6
9 449 114 170 11 126 MUSICA M 7
10 54 108 191 18 114 MUSICA M 3
11 1956 91 184 10 120 NOTICIAS M 2
12 1863 91 173 12 122 PELICULAS F 1
13 1166 89 174 11 111 NOTICIAS M 2
14 918 120 173 6 122 EDUCATIVOS M 1
15 835 106 172 9 128 DEPORTES F 15
16 480 127 185 17 115 CULTURALESM 10
17 59 105 177 8 129 MUSICA M 3
18 1493 104 173 15 146 PELICULAS M 4
19 1632 106 158 9 116 PELICULAS F 6
20 40 114 180 19 121 NOTICIAS M 7
21 326 115 181 7 134 DEPORTES M 1
22 1964 113 160 7 139 DEPORTES F 2
23 937 105 174 15 118 NOTICIAS M 4
24 205 111 171 5 117 MUSICA F 3
25 532 105 179 16 121 PELICULAS M 3
26 352 100 160 6 108 EDUCATIVOS F 8
27 1490 102 163 21 111 CULTURALESF 4
28 628 110 167 8 131 PELICULAS F 3
29 1746 98 178 9 118 PELICULAS M 5
30 1772 122 184 24 117 DEPORTES M 1
31 1422 101 175 5 106 EDUCATIVOS F 0
32 139 120 186 21 120 NOTICIAS M 5
33 175 95 171 5 122 PELICULAS F 7
34 39 118 169 28 114 CULTURALESF 4
35 1358 122 178 10 132 PELICULAS M 2
36 801 95 176 13 116 PELICULAS F 3
37 204 96 176 30 124 NOTICIAS M 0
38 12 129 177 14 102 PELICULAS M 2
39 1059 112 168 1 112 CULTURALESF 9
40 229 117 175 13 123 EDUCATIVOS F 5

PROFESOR: CDOR. LUCAS DALL’AGATA 44


UNIDAD I ESTADÍSTICA

GLOSARIO

Clase de extremo abierto: clase que permite que el extremo superior o inferior de un
esquema de clasificación cuantitativo no tenga límite.

Conjunto de datos: una colección de datos.

Curva de frecuencias: polígono de frecuencias alisado mediante el aumento de clases y


puntos de dato a un conjunto de datos.

Datos: colección de cualquier número de observaciones relacionadas sobre una o más


variables. Muestra cuantos datos están por encima o por debajo de ciertos valores.

Distribución de frecuencias relativas: despliegue de un conjunto de datos en el que se


muestra la fracción o porcentaje del total del conjunto de datos que entra en cada
elemento de un conjunto de clases mutuamente exclusivas y colectivamente
exhaustivas.

Histograma: gráfica de un conjunto de datos compuesta de una serie de rectángulos,


cada uno con un ancho proporcional al alcance de los valores de cada clase y altura
proporcional al número de elementos que entran en la clase, o altura proporcional a la
fracción de elementos de la clase.

Datos continuos: datos que pueden pasar de una clase a la siguiente sin interrumpirse y
que pueden expresarse mediante números enteros o fraccionarios.

Datos discretos: datos que no pasan de una clase a la siguiente sin que haya una
interrupción: esto es, en donde las clases representan categorías o cuentas distintas que
pueden presentarse mediante números enteros.

Datos sin procesar: información antes de ser organizada o analizada por métodos
estadísticos.

Distribución de frecuencias: despliegue organizado de datos que muestran el número de


observaciones del conjunto de datos que entran en cada una de las clases de un conjunto
de clases mutuamente exclusivas y colectivamente exhaustivas.

Distribución de frecuencias acumuladas: despliegue de datos en forma de tabla


acumulando la frecuencia anterior.

Muestra: colección de algunos elementos, pero no de todos, de la población bajo


estudio, utilizada para describir poblaciones.

Muestra representativa: muestra que contiene las características importantes de la


población en las mismas proporciones en que están contendidas en la población.

Ojiva: grafica de una distribución de frecuencias acumuladas.

PROFESOR: CDOR. LUCAS DALL’AGATA 45


UNIDAD I ESTADÍSTICA

Población: colección de todos los elementos que se están estudiando y sobre los cuales
intentamos llegar a conclusiones.

Polígono de frecuencias: línea que une los puntos medios de cada clase de un conjunto
de datos, trazada a la altura correspondiente a la frecuencia de los datos.

Punto de dato: una sola observación de un conjunto de datos.

PROFESOR: CDOR. LUCAS DALL’AGATA 46


UNIDAD I ESTADÍSTICA

Diagrama de flujo:

INICIO

RECOLECCION DE DATOS
SIN PROCESAR

ORGANIZACIÓN DE DATOS
SIN PROCESAR

NO
DEBEN
CONDENSARSE
LOS DATOS

SI
CONSTRUYE LA DISTRIBUCIÓN DE FRECUENCIAS

DESEA UNA
REPRESETACIÓN
GRÁFICA
NO
SI
PREPARE UNA
REPRESENTACION
GRAFICA ACORDE
A LA VARIABLE

SI

TERMINAR

PROFESOR: CDOR. LUCAS DALL’AGATA 47


UNIDAD II ESTADÍSTICA

UNIDAD II:

PROFESOR: CDOR. LUCAS DALL’AGATA 49


UNIDAD II ESTADÍSTICA

PROFESOR: CDOR. LUCAS DALL’AGATA 50


UNIDAD II ESTADÍSTICA

UNIDAD II:

TEMARIO:

1- Medidas de posición: media, mediana y modo. Ventajas y desventajas de


cada una cuartiles y percentiles. Rango. Calculo de cada una de las medidas
de acuerdo al tipo de variable en estudio. Comparación de media, mediana y
modo. Elección de una medida de posición adecuada.
2- Medidas de variabilidad: Variancia, desvió estándar, coeficiente de
variación y asimetría. Coeficiente de Pearson. Interpretación y calculo de
acuerdo al tipo de variable, Utilización del desvió estándar. Teorema de
Tchebychev. Defectos del desvió estándar. Utilidad de las medidas de
dispersión. Glosario. Diagrama de flujo.
3- Ejercitación:

PROFESOR: CDOR. LUCAS DALL’AGATA 51


UNIDAD II ESTADÍSTICA

1- MEDIDAS DE POSICIÓN

Con la distribución de frecuencias se ha condensado, en cierto sentido la información.


Sin embargo, es necesario resumirla en un número que sea representativo de todo el
conjunto.
Como dijimos en la unidad anterior, donde construimos tablas y gráficas a partir de una
colección de datos sin procesar. Los resultados de las distribuciones de frecuencias nos
indicaron tendencias y patrones de los datos.
En casi todos los casos, sin embargo, teníamos necesidad de medidas más exactas. En
estos casos, podemos usar una serie de números conocidos como estadísticas. La forma
más usual es el promedio, de ahí que hablemos, por ejemplo del promedio de ventas del
año 2006.
Estos números llamados estadísticas se dividen generalmente en tres grupos:
Tendencia central: La tendencia central se refiere al punto medio de una distribución.
Las medidas de tendencia central se conocen también como medidas de posición dentro
de las cuales estudiaremos a la media aritmética, la mediana, el modo y los cuartiles.
Dispersión: La dispersión se refiere a la extensión de los datos en una distribución, es
decir, el grado con que las observaciones se distribuyen.
Para ello estudiaremos el coeficiente de variación, desvío estándar, rango y varianza
Existen otras características de los conjuntos de datos que proporcionan información
útil: la asimetría, indicada por el coeficiente de PEARSON.
En este punto de la unidad definiremos PROMEDIO O MEDIA ARITMÉTICA y otras
cantidades que en conjunto son las medidas de posición.
Las medidas de posición poblacionales constituyen los PARÁMETROS
POBLACIONALES, que expresan propiedades particulares de todo la población. Las
medidas resumen de los datos maestrales se llaman.

ESTADISTICAS
• MUESTRALES → ESTADÍSTICAS
• POBLACIONALES → PARÁMETROS

Dentro de las mediadas de posición, como lo refleja el cuadro, estudiaremos las


MEDIDAS DE TENDENCIA CENTRAL, llamadas así porque tienden a los valores
medios y son:
• MEDIA ARITMETICA
• MEDIANA
• MODO
• CUARTILES

• MEDIA ARITMETICA
La definimos como el promedio de los valores de la variable, en el caso de ciertos
valores de las ventas que representan a un total general, nos encontramos en presencia
de una muestra por lo tanto el resultado del cálculo es una media muestral.
En el caso de que los valores correspondan al total de la población el resultado seria la
media poblacional.

PROFESOR: CDOR. LUCAS DALL’AGATA 52


UNIDAD II ESTADÍSTICA

X 1 ,… , X n
X=
n

Xn: valores de la variable


n: tamaño de la muestra

Esta misma fórmula puede abreviarse de la forma siguiente:

∑X i
X= i =1

∑: símbolo de sumatória

En caso de la media poblacional se utiliza la letra griega “mu” µ


De acuerdo al tipo de distribución de frecuencias, es decir al tipo de variable, se debe
calcular la media aritmética de distinta forma

DISCRETA
CÁLCULO
CONTINUA

El cálculo de la media aritmética se puede realizar con calculadora, oportunamente lo


realizaremos

Datos sin agrupar

En este caso lo único que debemos hacer es reemplazar en la fórmula.

Ejemplo:
Calcular la media aritmética de los datos correspondientes a la muestra de diámetros
internos de aros de pistón (en milímetros).

74.030 74.002 74.018 73.993 74.005 74.005 73.996 73.998

Rta. Media aritmética correspondiente a la muestra de aros de pistón es de 74.006


mm.

Datos agrupados, distribuciones discretas

Volvemos al ejemplo de la distribución de frecuencias del número de hijos por familia.


En este caso para calcular la media aritmética debemos tener en cuenta las columnas de
las frecuencias que indica la cantidad de veces que se repite la variable. Por lo tanto la
Fórmula cambia

PROFESOR: CDOR. LUCAS DALL’AGATA 53


UNIDAD II ESTADÍSTICA

X f X.f

∑ X .F
0 1 0
i i 1 3 3
X= 2 5 10
n
3 7 21
4 4 16
5 2 10
TOTAL 22 60

El resultado al reemplazar en la fórmula será:

60
X= = 2, 72hijos (Este valor es un promedio, no un valor posible o real)
22

LA MEDIA ARITMÉTICA PUEDE RESULTAR CON


VALORES ENTEROS O DECIMALES.

Observación:
Es evidente que el resultado es el mismo si tomo todos los valores de variable con
frecuencia 1 o sea datos sin agrupar y aplico la primera fórmula que al resolver con los
valores de la distribución de frecuencias con datos agrupados aplicando la segunda
fórmula. Comprobar dichos resultados.

Ejemplo:
Calcular la media aritmética con respecto a la cantidad de días de suspensión de tareas
en una fábrica automotriz.

11 10 9 11 12 13 12 11 9 10
10 11 12 11 11 10 11 8 11 10
9 11 10 11 8 9 10 10 9 8 Rta: 10,27 días

Este cálculo también se puede realizar con:


• la calculadora
• formulas de planilla de calculo

link de CASIO (donde se puede consultar los manuales)


http://world.casio.com/calc/download/es/manual/

Distribuciones continuas
En el caso del cálculo de la media en distribuciones continuas, debemos tener en cuenta
una operación previa:

• determinar el punto medio del intervalo.


• Calcular la media de la misma forma que las variables discretas

IMPORTANTE

PROFESOR: CDOR. LUCAS DALL’AGATA 54


UNIDAD II ESTADÍSTICA

El cálculo que hacemos es aproximado, porque al tomar como valor x el punto


medio del intervalo, estamos reuniendo toda la información del intervalo a un solo
punto. Evidentemente si el intervalo tiene un módulo pequeño la aproximación
será mucho mayor que la que obtendría si su módulo sería mayor.

Volvamos al ejemplo de los sueldos de la empresa de la unidad anterior

X f Xj Xj.f
$ 250 $ 300 2 $ 275 550
$ 300 $ 350 3 $ 325 975
$ 350 $ 400 5 $ 375 1875
$ 400 $ 450 6 $ 425 2550
$ 450 $ 500 10 $ 475 4750
$ 500 $ 550 20 $ 525 10500
$ 550 $ 600 13 $ 575 7475
$ 600 $ 650 8 $ 625 5000
$ 650 $ 700 6 $ 675 4050
$ 700 $ 750 4 $ 725 2900
$ 750 $ 800 3 $ 775 2325
TOTAL 80 42950 Media $ 536,88

∑X j .Fi
X=
n
_
x = 536,88 pesos. Es el sueldo promedio de los 80 empleados de la fábrica

Ventajas:
• Es una medida que puede calcularse y es única debido a que cada conjunto de
datos posee una y solo una media.
• Por último, la media es útil para llevar a cabo procedimientos estadísticos como la
comparación de medias de varios conjuntos de datos.

Desventajas:
Sin embargo, como cualquier medida, la media aritmética tiene desventajas de las
cuales debemos tener conocimiento.
1º Aunque la media es confiable en el sentido de que toma en cuenta todos los valores
del conjunto de datos puede verse afectada por valores extremos que no son
representativos del resto de los datos. Es decir, que si en el caso de los sueldos hubiera
uno de $ 2000, intervendría en el cálculo de la media distorsionándola, el valor extremo
de $ 2000 distorsiona el valor que obtengamos para la media. Sería más representativo
calcular la media sin tomar en cuenta el valor extremo.
2º Problema con la media es el mismo que encontramos con nuestros 80 sueldos.
Resulta tedioso calcular la media debido a que utilizamos cada uno de los puntos de
datos en nuestro cálculo al menos, desde luego, que tomemos datos agrupados para
determinar aproximadamente la media.

PROFESOR: CDOR. LUCAS DALL’AGATA 55


UNIDAD II ESTADÍSTICA

3º Desventaja es que somos incapaces de calcular la media para un conjunto de datos


que tiene clases de extremo abierto, ya sea en el inferior o en el superior de la escala.
La media, a menudo, puede malinterpretarse si los datos no forman parte de un grupo
homogéneo. Es importante revisarlos después de haber sido registrados ya sea
poniéndolos en una lista o representándolos gráficamente, y decidir si la media tendrá
significado.

Para concluir con esta medida de posición leer el siguiente poema titulado:

LA ESTADÍSTICA

¿Sabes qué es la estadística? Una cosa


con que se hace la cuenta general
de los que nacen, van al hospital.
A la curia, a la cárcel o a la fosa.

Más para mí la parte más curiosa


Es la que da le promedio individual.
En la que todo se parte por igual
Hasta en la población menesterosa.

Por ejemplo, resulta sin engaño.


Que según la estadística del año,
Te toca un pollo y medio cada mes.

Y aunque el pollo en tu mesa se halle


Ausente entras en la estadística igualmente
Porque hay alguno que se come tres

• MEDIANA
Es el valor de la variable que deja a su izquierda y a su derecha el 50 % de los datos. Al
igual que la media proporciona un valor numérico y se representa con el símbolo:
Me
Se puede calcular en el nivel intercalar y determinar en el nivel ordinal.
Debemos determinar en el nivel ordinal, ya que este nivel no es matemático y por lo
tanto no se puede efectuar ningún cálculo.
Lo mismo que para la media aritmética, realizaremos el cálculo para los distintos tipos
de distribuciones.

DISCRETA
CÁLCULO
CONTINUA

Debemos tener en cuenta dos pasos antes de realizar el cálculo.

PROFESOR: CDOR. LUCAS DALL’AGATA 56


UNIDAD II ESTADÍSTICA

• ordenar los datos en forma creciente.


• Buscar el dato ubicado en la posición central.

Esto lo podemos realizar de la siguiente forma:


n +1
Me =
2

lo aplicaremos en el siguiente ejemplo:


Datos de la cantidad de facturas de una empresa durante las primeras 5 semanas

28 35 36 44 44

Reemplazando en la fórmula tenemos:

5 +1
Me = =3
2

Este valor indica el orden de la mediana no el valor numérico de la misma.


Una vez determinado el orden de la mediana, en este caso el TERCER LUGAR,
procedemos a establecer su valor.

En este caso no hay dudas que el VALOR es 36.

El primer problema se plantea citando el número de DATOS ES PAR, en este caso el


orden me indica un valor con “,” es decir 0,50

28 35 36 44

Reemplazando en la fórmula tenemos:

4 +1
Me = = 2,5
2

En este caso la mediana es promedio de los dos valores centrales.


En este otro caso no hay dudas que el VALOR es 35,50.

La unidad de medida es la misma que la de la variable.

Ejemplos:

Calcular la media y la mediana de tres personas cuyas edades son:

Ejemplos:
1) 1 2 3 promedio 2
media 2

PROFESOR: CDOR. LUCAS DALL’AGATA 57


UNIDAD II ESTADÍSTICA

2) 1 2 96 promedio 33
media 2

Datos agrupados, variable discreta

Volvemos al ejemplo anterior:

X f Fa
0 1 1
1 3 4
2 5 9
3 7 16
4 4 20
5 2 22
TOTAL 22

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 TOTAL
0 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 5 5 MEDIA 3

Como la variable es discreta, seguimos el mismo procedimiento que para el caso en que
le número de datos es impar.

Determinar el orden de la mediana: en este caso es 11,50 el número de ORDEN,


entonces sabemos que la mediana se encuentra en el lugar, entonces nos remitimos a la
columna de las FRECUENCIAS ACUMULADAS. Vemos que hasta x = 2 se acumulan
9 datos, y para x = 3 se acumulan 16 datos. Por lo tanto el valor de orden 11,50 debe
corresponder al valor de variable 3 ya que es menor que 16 y mayor que 9 datos.

X f Fa
0 1 1
1 2 3
2 3 6
3 5 11
4 6 17
5 5 22
TOTAL 22

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 TOTAL
0 1 1 2 2 2 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 MEDIA 3,5

Rta:
Después de construir la columna de las frecuencias acumuladas obtenemos el orden
11,50; por lo tanto la posición 11 corresponde al 3 y la posición 12 corresponde al 4 por
lo tanto el valor de la Me = 3,50

Variable continúa

PROFESOR: CDOR. LUCAS DALL’AGATA 58


UNIDAD II ESTADÍSTICA

En este caso la situación es un poco distinta, pero volviendo al ejemplo de los salarios
de la empresa resulta más sencillo

X f Xj Xj.f Fa
$ 250 $ 300 2 $ 275 550 2
$ 300 $ 350 3 $ 325 975 5
$ 350 $ 400 5 $ 375 1875 10
$ 400 $ 450 6 $ 425 2550 16
$ 450 $ 500 10 $ 475 4750 26
$ 500 $ 550 20 $ 525 10500 46
$ 550 $ 600 13 $ 575 7475 59
$ 600 $ 650 8 $ 625 5000 67
$ 650 $ 700 6 $ 675 4050 73
$ 700 $ 750 4 $ 725 2900 77
$ 750 $ 800 3 $ 775 2325 80
TOTAL 80 42950

Las columnas de los Xj y Xj . f no son necesarias.


Seguiremos el procedimiento: determinar el orden de la mediana empleando la fórmula:

(x) = n/2

Se diferencia de la anterior por no tener el número 1 sumado a n

En este caso (X) = 40 siendo el ORDEN de la mediana, el VALOR se calcula con la


siguiente fórmula:

(( x) − Fa ).a
Me = Li +
fi

A continuación analizaremos los términos nuevos que aquí aparecen: en primer lugar
debemos observar la columna de la Fa y vemos que el orden de la mediana es 40
corresponde al intervalo 500-550
Li: limite inferior del intervalo; en este caso 500
a: módulo del intervalo en el que se encuentra la mediana; en este caso 50
Fa: es el valor de la frecuencia acumulada hasta el intervalo anterior; en este caso 26
fi: Frecuencia correspondiente al intervalo donde se encuentra la mediana; en este caso
20

Reemplazando en la fórmula anterior tenemos:

((80 / 2) − 26).50
Me = 500 +
20

Me = $ 535 es el sueldo medio de los 80 empleados de la fábrica

PROFESOR: CDOR. LUCAS DALL’AGATA 59


UNIDAD II ESTADÍSTICA

Por supuesto la mediana tiene la misma unidad que la media aritmética y que la
variable, en este caso pesos.
Las ventajas y desventajas de la mediana

Ventajas: con respecto a la media la más importante de ellas, demostrada en el ejemplo


de los sueldos, es que los valores extremos no afectan a la mediana (ya que no depende
de los valores que toma la variable, sino del orden de las mismas) tan intensamente
como a la media. La mediana es fácil de entender y se puede calcular a partir de
cualquier tipo de datos incluso a partir de datos agrupados con el extremo abierto como
los ejemplos dados anteriormente, a menos que la mediana entre en una clase del
extremo abierto. Por ello es adecuado su uso en distribuciones asimétricas.
Desventajas: los cálculos que se utilizan en la mediana son más complejos que aquellos
que utilizan la media. También, ya que la mediana es una posición promedio cualquier
cálculo implica consumo de tiempo para cualquier conjunto de datos que se utilice.

• CUARTILES
Los cuartiles de una distribución, como su nombre lo indica, son valores de la variable
que dividen al conjunto de datos (ordenados de menor a mayor) en cuatro subconjuntos
que contienen la misma cantidad de datos.
Para calcular los cuartiles de una distribución de frecuencias se precede del mismo
modo que en el caso de la mediana, salvo que ahora dividiremos a la distribución de la
variable en cuatro partes iguales en lugar de dos.
A partir de esta definición es evidente que la mediana coincide con el segundo cuartil.
Los cuartiles se simbolizan con la letra Q y un subíndice que indica el número. Para
ubicar los valores de la variable que se encuentran en cada cuarto de la distribución,
veremos un ejemplo sencillo para el caso de datos no agrupados.

DISCRETA
CÁLCULO
CONTINUA

Datos sin agrupar


Supongamos que un veterinario ha registrado los pesos de pollos de seis semanas de
vida y los ordenó de menor a mayor obteniendo:

150 151 152 154 155 156 157 159 Q1 151,50


Q2 154,50
Q3 156,50

La mediana de este conjunto de datos está posicionada entre el 4º y el 5º valor de la


serie.
El primer cuartil Q1 surge de dividir la primera mitad de la serie en dos partes iguales
por lo que el valor Q1 se ubicará entre el 2º y 3º valor de la serie.
Del mismo modo Q3 el tercer cuartil, divide a la segunda mitad de la serie en dos partes
iguales.

Datos agrupados

PROFESOR: CDOR. LUCAS DALL’AGATA 60


UNIDAD II ESTADÍSTICA

En el caso de trabajar con datos agrupados y si la variable es discreta se puede proceder


de la misma manera que con la mediana
La única diferencia es que en el caso del primer cuartil se debe utilizar ¼ n y en el tercer
cuartil ¾ n.
Volviendo al ejemplo del número de hijos de las familias urbanas tenemos:

X f Fa
0 1 1
1 2 3
2 3 6
3 5 11
4 6 17
5 5 22
TOTAL 22

Para calcular el primer cuartil Q1 en el caso de familias, se establece primero el orden


n/4.

Orden n/4 = 22/4 = 5,5

Es decir que 5,5 se encuentra en el valor 6 de la columna de las frecuencias acumuladas,


por lo tanto es el valor de variable correspondiente a 2. El valor del primer cuartil será:
Q1 = 2 hijos

Recordar el ejemplo presentado en mediana que expresa la misma situación.

En el caso del tercer cuartil se debe calcular Q3, el orden se busca haciendo: ¾ n.

Orden ¾ n = ¾ . 22 = 16,50

Es decir, que 16,50 se encuentra en el valor 17 de la columna de las frecuencias


acumuladas, por lo tanto es el valor de variable 4. Por lo tanto el valor del tercer cuartil
será:
Q3 = 4 hijos

Datos agrupados, variable continua

El problema se vuelve a presentar cuando se deben calcular los cuartiles para datos
agrupados continuos donde también se aplican fórmulas de interpolación.
En este caso las fórmulas son iguales a las de mediana lo único que cambia es n/2 por
n/4 y ¾ n para primer y tercer cuartil respectivamente:

PROFESOR: CDOR. LUCAS DALL’AGATA 61


UNIDAD II ESTADÍSTICA

X f Xj Xj.f Fa
$ 250 $ 300 2 $ 275 550 2
$ 300 $ 350 3 $ 325 975 5
$ 350 $ 400 5 $ 375 1875 10
$ 400 $ 450 6 $ 425 2550 16
$ 450 $ 500 10 $ 475 4750 26
$ 500 $ 550 20 $ 525 10500 46
$ 550 $ 600 13 $ 575 7475 59
$ 600 $ 650 8 $ 625 5000 67
$ 650 $ 700 6 $ 675 4050 73
$ 700 $ 750 4 $ 725 2900 77
$ 750 $ 800 3 $ 775 2325 80
TOTAL 80 42950

Las columnas de los Xj y Xj . f no son necesarias

Calcularemos ahora el primer y el tercer cuartil en el ejemplo de los sueldos de los 80


empleados.

Como el primer cuartil Q1, esta posicionado en el primer cuarto de la distribución, el


orden surge de dividir al número total de observaciones por 4.
Orden: n/4 = 80/4 = 20
A continuación, se debe buscar en la columna de la frecuencia acumulada a la mayor de
dichas frecuencias que contiene al valor n/4 = 20.

La fórmula es la siguiente:

((n / 4) − Fa).a
Q1 = Li +
fi

A continuación analizaremos los términos nuevos que aquí aparecen: en primer lugar
debemos observar la columna de la Fa y vemos que el orden del 1º cuartil es 20
corresponde al intervalo 450-500
Li: limite inferior del intervalo; en este caso 450
a: módulo del intervalo en el que se encuentra la mediana; en este caso 50
Fa: es el valor de la frecuencia acumulada hasta el intervalo anterior; en este caso 16
fi: Frecuencia correspondiente al intervalo donde se encuentra la mediana; en este caso
10

Reemplazando en la fórmula anterior tenemos:

((80 / 4) − 16).50
Q1 = 450 +
10

Q1 = 470 pesos es el valor correspondiente al primer cuartil

PROFESOR: CDOR. LUCAS DALL’AGATA 62


UNIDAD II ESTADÍSTICA

Esta medida resumen nos indica que el 25 % de los sueldos es menor a $ 470 y el 75 %
es mayor a $ 470.
Habiendo calculado todos estos datos, ya se puede aplicar la fórmula de interpolación
que permite obtener el valor de Q3.

Orden: ¾ n = ¾ . 80 = 60

A continuación, se debe buscar en la columna de la frecuencia acumulada a la mayor de


dichas frecuencias que contenga al valor 60.
Reemplazando en la fórmula anterior tenemos:

((n.3 / 4) − Fa).a
Q 3 = Li +
fi

((80.3 / 4) − 59).50
Q 3 = 600 +
8

Q3 = 606,25 pesos es el valor correspondiente al tercer cuartil

Esta medida resumen nos indica que el 75 % de los sueldos es menor a $ 606,25 y el 25
% es mayor a 606,25

• MODO O MODA
La tercera medida de tendencia central es el modo y la podemos definir como el valor
más frecuente de la variable es decir el que más veces se repite.
Supongamos este ejemplo:

2 3 4 4 4 5 6 6 6 6 7 8 8 9 9 12

Observamos que el valor que más se repite es el 6, no importa cuantas veces, sino que
es el más frecuente. De esta forma decimos que 6 es el MODO, por supuesto que la
unidad es la misma que la de la variable.
Para su cálculo debemos tener en cuenta el tipo de distribución:
El MODO lo simbolizamos de la siguiente forma:
Mo

DISCRETA
CÁLCULO
CONTINUA

Es el tipo de ejemplo que dimos al iniciar el concepto de modo.

Datos agrupados, variable discreta

Agrupamos los datos del ejemplo anterior y obtenemos la distribución de frecuencia.

PROFESOR: CDOR. LUCAS DALL’AGATA 63


UNIDAD II ESTADÍSTICA

X f Observamos que en la columna de las frecuencias el valor mayor es 4 por lo


1 0 tanto vemos que le corresponde a la variable 6, SIENDO 6 EL VALOR DEL
2 1 MODO, que es el mismo resultado que en el caso de los datos sin agrupar, ya
3 1 que los datos son los mismos en definitiva.
4 3
5 1
6 4
7 1
8 2
9 2
10 0
11 0
12 1

Datos agrupados, variable continua

f 2•a
Mo = Li +
f 1+ f 2

A continuación analizaremos los términos nuevos que aquí aparecen:


f1: frecuencia anterior a la mayor.
f2: frecuencia posterior a la mayor frecuencia a modulo del intervalo

X f
$ 250 $ 300 2
$ 300 $ 350 3
$ 350 $ 400 5
$ 400 $ 450 6
$ 450 $ 500 10
$ 500 $ 550 20
$ 550 $ 600 13
$ 600 $ 650 8
$ 650 $ 700 6
$ 700 $ 750 4
$ 750 $ 800 3
TOTAL 80

13.50
Mo = 500 +
10 + 13

Mo = 528,26

Ventajas y desventajas del modo

Ventajas:
* Al igual que la mediana, se puede utilizar como una posición central para datos tanto
cualitativos como cuantitativos. Si una prensa estampa cinco impresiones que podemos

PROFESOR: CDOR. LUCAS DALL’AGATA 64


UNIDAD II ESTADÍSTICA

clasificar como “muy nítida”, “nítida”, “nítida y borrosa” “borrosa”; entonces el valor
modal es “nítido”. De manera análoga, podemos hablar de estilos modales cuando, por
ejemplo, los clientes de una mueblería prefieren muebles tipo “colonial” sobre cualquier
otro estilo.
* Al igual que la mediana, la moda no se ve mayormente afectada por los valores
extremos. Incluso si los valores extremos son muy altos o muy bajos, nosotros
escogemos el valor más frecuente del conjunto de datos como el valor modal. Podemos
utilizar la moda sin importar que, tan grandes o que, tan pequeños sean los valores del
conjunto de datos, e independientemente d cuál sea su dispersión.
* La podemos utilizar aun cuando una o más clases sean de extremo abierto como en
los ejemplos anteriores.

Desventajas
* A pesar de estas ventajas, la moda no se utiliza con tanta frecuencia como medida de
tendencia central, como se hace con la media y la mediana. Muy a menudo, no existe un
valor modal debido a que el conjunto de datos no contiene valores que se presenten más
de una vez. En otras ocasiones, cada valor es la moda, pues cada uno de ellos se
presenta el mismo número de veces. Resulta claro que la moda es una medida inútil en
tales casos.
* Cuando los conjuntos de datos contienen dos, tres o más modas. Resultan difíciles de
interpretar y compara.
* Adicionalmente cuando existe más de un modo. En ese caso se deben calcular en
forma separada y puede estar indicando dentro de la población general la existencia de
subpoblaciones. La existencia de DOS MODOS nos indicaría la necesidad de, por
ejemplo, preparar publicidad para dos grupos distintos dentro de una misma población.
¿qué sucede cuando tenemos dos valores diferentes y cada uno parece ser el número
mayor de veces que aparece un valor en un conjunto de datos?
Esta distribución, entonces, tiene dos modas y se le conoce como distribución bimodal
y procede a calcular e interpretar los dos modos.

Elección de una medida de posición adecuada

Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar la


media, la mediana o la moda como medidas de tendencia central.
• Las distribuciones simétricas que sólo contienen una moda siempre
tienen el mismo valor para la media, la mediana y la moda. En tales
casos, no es necesario escoger la medida de tendencia central, pues
ya está hecha la selección.
• En una distribución positivamente sesgada (es decir, sesgada hacia la
derecha), la moda todavía se encuentra en el punto más alto de la
distribución, la mediana está hacia la derecha de la moda y la media
se encuentra todavía más a la derecha de la moda y la mediana.
• En un distribución negativamente sesgada (es decir, sesgada hacia la
izquierda), la moda sigue siendo el punto más alto de la distribución,
la mediana está hacia la izquierda de aquella y la media se encuentra
todavía más a la izquierda de la moda y la mediana.
Cuando la población está sesgada negativa o positivamente, con frecuencia la mediana
resulta ser la mejor medida de posición, debido a que siempre está entre la moda y la

PROFESOR: CDOR. LUCAS DALL’AGATA 65


UNIDAD II ESTADÍSTICA

media. La mediana no se ve altamente influida por la frecuencia de aparición de un solo


valor como es el caso de la moda, ni se distorsiona con la presencia de valores extremos
como la media.

Asimetría positiva:
Si las frecuencias más altas se encuentran en el lado izquierdo de la media,
mientras que en derecho hay frecuencias más pequeñas (cola).
Asimetría negativa:
Cuando la cola está en el lado izquierdo.

Figura: Asimetría positiva y asimetría negativa

En cualquier otro caso, no existen guías universales para la aplicación de la media, la


mediana o la moda como medidas de tendencia central para diferentes poblaciones.
Cada caso debe considerarse de manera independiente, de acuerdo con las líneas
generales que hemos analizado
La selección de la media, la mediana o la moda, en ocasiones, depende de la práctica
común de cada caso en particular. Con frecuencia se habla del salario promedio de los
empleados de una fábrica (media aritmética) y éste puede ser de utilidad para tomar
muchas de las decisiones en la planeación de negocios. Pero el precio mediano de una
casa nueva es una estadística más útil para personas que se mudan a un nuevo
vecindario (evita el problema causado por la presencia de una o dos crestas que pueden
distorsionar la media)
La elección de una medida de posición adecuada depende de la variable que estamos
observando y de la forma de la distribución de frecuencias.
En el caso que la variable utilizada sea del tipo cualitativa nominal, la única medida que
se puede utilizar es el modo o la mediana en algunos casos.
Cuando la distribución es bimodal, cualquier medida de posición que utilicemos es
inútil, por eso conviene calcular las medidas de las dos poblaciones por separado
Con esta última conclusión finalizamos las de tendencia central.

PROFESOR: CDOR. LUCAS DALL’AGATA 66


UNIDAD II ESTADÍSTICA

2- MEDIDAS DE VARIABILIDAD

• RANGO
• DESVIO ESTÁNDAR
• COEFICIENTE DE VARIACIÓN

Estas son cantidades que acompañan al promedio, midiendo el grado de concentración o


de dispersión d las observaciones con respecto a aquel.
Sirven para ver cuán representativo resultó el promedio. Es decir el promedio solo no es
suficiente para obtener una conclusión válida.

• RANGO
Se denomina rango de un conjunto de observaciones a la diferencia entre el mayor y el
menor valor de la variable.
Recordemos que ya hemos hablado del rango sin haber dado su nombre en las partes
anteriores. Definiendo ahora el rango como una medida de dispersión, debemos destacar
que el mismo es completamente dependiente de los dos valores extremos que toma la
variable. Por ejemplo, si dos familias tienen 1 y 4 hijos, respectivamente, el rango es:

Rango = R = 4-1 = 3 hijos

Ahora bien, si se agrega otra familia, el rango será el mismo si, esta tiene 1, 2, 3 o 4
hijos, pero será mayor si tiene 0 o más de 4 hijos.
Ahora si podemos utilizar el rango para comparar las dispersiones de dos o más
muestras o poblaciones.
La utilización del rango como medida de dispersión presenta el problema que se
incrementa con la cantidad de observaciones, porque existe una mayor posibilidad de
que los datos se encuentren más dispersos. Una medida de dispersión debería ser
independiente el número de mediciones para reflejar realmente la mayor o menor
variabilidad de los datos.
El rango es una medida de dispersión satisfactoria únicamente cuando la muestra es
pequeñá, prácticamente menor a 10 observaciones. Esta medida es muy utilizada en los
estudios de control de procesos productivos para la confección de gráficos de control
dado que, en estos casos, los procesos son generalmente evaluados por muestras
frecuentes y de reducido tamaño.

• DESVÍO ESTÁNDAR
En una reunión entre nueve empresas se dispone a tratar el tema de salarios.
Todos coinciden en que pagan a sus empleados 500 pesos mensuales (por supuesto
todos ellos hacen referencia al promedio de los salarios, es decir a la media
aritmética).
En un determinado momento se comenta acerca de la cantidad de empleados y de los
sueldos de los jefes de las mismas, entonces ante las diferencias uno de los empresarios
propone presentar un listado de cada una de las empresas:

PROFESOR: CDOR. LUCAS DALL’AGATA 67


UNIDAD II ESTADÍSTICA

LEG. EMP. 1 EMP. 2 EMP. 3 EMP. 4 EMP. 5 EMP. 6 EMP. 7 EMP. 8 EMP. 9
1 $ 500 $ - $ - $ -$ 1 $ 500 $ 100 $ 100 $ 80
2 $ 500 $ - $ - $ -$ 2 $ 200 $ 100 $ 80
3 $ 500 $ - $ - $ -$ 3 $ 300 $ 100 $ 80
4 $ 500 $ - $ - $ 2.000 $ 4 $ 400 $ 300 $ 80
5 $ 500 $ - $ - $ 5 $ 500 $ 1.000 $ 80
6 $ 500 $ 3.000 $ - $ 6 $ 1.500 $ 1.400 $ 100
7 $ - $ 7 $ 200
8 $ - $ 9 $ 800
9 $ - $ 13 $ 3.000
10 $ 5.000 $ 100
11 $ 150
12 $ 200
13 $ 1.000
14 $ 5.500
MEDIA $ 500 $ 500 $ 500 $ 500 $ 500 $ 500 $ 500 $ 500 $ 500

Podemos ver una gran heterogeneidad en la distribución de los salarios en las distintas
empresas, aún cuando tienen el mismo promedio, de esta situación irreal podemos decir
que el promedio es una medida insuficiente, por lo tanto es imprescindible agregar otra
medida llamada DESVÍO ESTÁNDAR.
Es una medida que refleja la: HETEROGENEIDAD
Las fórmulas para su cálculo son:

∑(X − µ )2
σn = Para la población
n

µ: media poblacional
n: cantidad de elementos
En la práctica el valor del desvío no puede determinarse, ya que por lo general las
poblaciones son muy grandes, lo que obliga a extraer una muestra, siendo la fórmula la
siguiente:

∑(X − X )2
σ n −1 = Para la muestra
(n − 1)
_
x: media muestral
n: cantidad de elementos

Existen otras fórmulas derivadas de las anteriores, que se utilizan con mayor frecuencia
por su comodidad y simplicidad, pero en realidad el cálculo se realiza, con la
calculadora ya sea para población o muestra.

Cuando se consideran estas cantidades antes de extraerles la raíz cuadrada reciben el


nombre de varianza, no es muy aplicable ya que esta expresado en las mismas unidades
que la variable y las medidas de posición, por lo tanto se puede operar y comparar.

PROFESOR: CDOR. LUCAS DALL’AGATA 68


UNIDAD II ESTADÍSTICA

DISCRETA
CÁLCULO
CONTINUA

Solamente debemos reemplazar en la fórmula para obtener los resultados, teniendo en


cuenta o para mayor simplicidad utilizar la calculadora.

Veamos para cada una de las empresas:

LEG. EMP. 1 EMP. 2 EMP. 3 EMP. 4


EMP. 5 EMP. 6 EMP. 7 EMP. 8 EMP. 9
1 $ 500 $ - $ - $ $ -
1 $ 500 $ 100 $ 100 $ 80
2 $ 500 $ - $ - $ $ 2 - $ 200 $ 100 $ 80
3 $ 500 $ - $ - $ $ 3 - $ 300 $ 100 $ 80
4 $ 500 $ - $ - $ $ 2.000
4 $ 400 $ 300 $ 80
5 $ 500 $ - $ - $ 5 $ 500 $ 1.000 $ 80
6 $ 500 $ 3.000 $ - $ 6 $ 1.500 $ 1.400 $ 100
7 $ - $ 7 $ 200
8 $ - $ 9 $ 800
9 $ - $ 13 $ 3.000
10 $ 5.000 $ 100
11 $ 150
12 $ 200
13 $ 1.000
14 $ 5.500
MEDIA $ 500 $ 500 $ 500 $ 500 $ 500 $ 500 $ 500 $ 500 $ 500
σ n-1 0,00 1224,74 1581,14 1000,00 1462,95 0,00 509,90 562,14 966,44
σn 0,00 1118,03 1500,00 866,03 1409,73 0,00 465,47 513,16 911,17

Datos agrupados, distribuciones discretas

X F
0 1
1 3
2 5
3 7
4 4
5 2
22

Para calcular en estos casos debemos tener en cuenta las frecuencias, es decir el número
de veces que se repite la variable.

Para la población

∑ (x . f )
2

σn = − µ2
n

PROFESOR: CDOR. LUCAS DALL’AGATA 69


UNIDAD II ESTADÍSTICA

Para la muestra

∑ x . f − nX
2 2

σ n −1 =
n −1

Al igual que para el cálculo de la media aritmética, es más cómodo agregar columnas
con los cálculos de los cuadrados y de, estos multiplicados por las frecuencias.
Este cálculo es mucho más fácil realizarlo con la calculadora (viendo el manual de
la misma), asimismo, estos son los resultados.

σ n = 1,28 hijos
σ n – 1 = 1,3159 hijos

Distribuciones continuas
Retomamos el ejemplo original de los salarios de una empresa:
Completar las columnas que faltan y resolver. Este cálculo es mucho más fácil realizarlo
con la calculadora (viendo el manual de la misma), asimismo, estos son los resultados.

X f Xj
$ 250 $ 300 2 $ 275
$ 300 $ 350 3 $ 325
$ 350 $ 400 5 $ 375
$ 400 $ 450 6 $ 425
$ 450 $ 500 10 $ 475
$ 500 $ 550 20 $ 525
$ 550 $ 600 13 $ 575
$ 600 $ 650 8 $ 625
$ 650 $ 700 6 $ 675
$ 700 $ 750 4 $ 725
$ 750 $ 800 3 $ 775
TOTAL 80 σ n-1 $ 111,26
σn $ 113,26

• Utilidad de las medidas de dispersión

Regla empírica o Teorema de Chebyshev


La desviación estándar nos permite determinar, con un buen grado de precisión, dónde
están localizados los valores de una distribución de frecuencias con relación a la media.
Podemos hacer esto de acuerdo con un teorema establecido por el matemático ruso P. L.
Chebyshev (1821-1894).
El teorema de Chebyshev dice que no importa que forma tenga la distribución:
al menos 68 % de los valores caen dentro de + y – 1 desviación estándar,
al menos 75 % de los valores caen dentro de + y – 2 desviaciones estándar a partir
de la media de la distribución,

PROFESOR: CDOR. LUCAS DALL’AGATA 70


UNIDAD II ESTADÍSTICA

al menos 89 % de los valores caen dentro de + y – 3 desviaciones estándar a partir


de la media.

Podemos medir aún con más precisión el porcentaje de observaciones que caen dentro
de un alcance específico de curvas simétricas con forma de campana como lo vemos a
continuación:

Xi
µ-3σ µ-2σ µ-σ µ µ+σ µ+2σ µ+3σ
68,26 %

95,44 %

99,74 %

En estos casos, podemos decir que:

• Aproximadamente el 68 % de los valores de la población cae


dentro de + y - 1 σ (desviación estándar a partir de la media.
• Aproximadamente el 95 % de los valores de la población cae
dentro de + y - 2 σ (desviación estándar a partir de la media.
• Aproximadamente el 99 % de los valores de la población cae
dentro de + y - 3 σ (desviación estándar a partir de la media.

A la luz del teorema de Chebyshev, analicemos los datos de un ejemplo.

Supongamos que se está considerando la variable continua “altura de niños” de una


determinada edad escolar en la ciudad de Morteros. Una vez medida la altura de los
niños y sistematizando la información podríamos haber obtenido los siguientes valores:

µ = 1,30 m
σ = 0.12 m

Si la distribución de la variable “altura de niños” es aproximadamente simétrica, se


podrían aplicar las propiedades enunciadas precedentemente obteniendo las siguientes
conclusiones:

1 – El 68 % aproximadamente de los niños medirá entre (1,30 – 1 . 0,12) y (1,30 + 1 .


0,12)
O, lo que es lo mismo el 68 % de estos niños tendrán una altura comprendida en el
intervalo (1,18; 1,42)

PROFESOR: CDOR. LUCAS DALL’AGATA 71


UNIDAD II ESTADÍSTICA

2 – El 95 % aproximadamente de los niños medirá entre (1,30 – 2 . 0,12) y (1,30 + 2 .


0,12)
O, lo que es lo mismo el 95 % de estos niños tendrán una altura comprendida en el
intervalo (1,06; 1,54)

3 – El 99 % aproximadamente de los niños medirá entre (1,30 – 3 . 0,12) y (1,30 + 3 .


0,12)
O, lo que es lo mismo el 99 % de estos niños tendrán una altura comprendida en el
intervalo (0,94; 1,66)

La desviación estándar es también útil para describir que tan lejos las observaciones
individuales de una distribución se apegan de la media de la distribución. Una medida
que se conoce como resultado estándar nos da el número de desviaciones estándar que
una observación en particular ocupa por debajo o por encima de la media. Si hacemos
que X simboliza la observación, entonces el resultado estándar calculado a partir de los
datos de la población es:

x−µ
Resultado estándar de la población Z =
σ

En la que:
X: observación tomada de la población
µ: media de la población
σ: desviación estándar de la población

Suponga que observamos una altura de 1,18 m. Debido a que nuestra población tiene
una media de 1,30 m y una desviación estándar de 0,12 m, una observación de 1,18 m
tendría un resultado estándar de – 1:

1,18 − 1,30
Resultado estándar de la población Z =
0,12

Resultado estándar de la población = -1

De la misma forma una altura de la población de 1,54 m tendrá un resultado estándar de


+2
1,54 − 1,30
Resultado estándar de la población Z =
0,12

Resultado estándar de la población = -2

El resultado estándar indica que una altura de 1,54 m se desvía de la media en 2 .


0,12 m = 0,24 m, que es igual a + 2, en términos de unidades de desviación
estándar, alejada de la media.

PROFESOR: CDOR. LUCAS DALL’AGATA 72


UNIDAD II ESTADÍSTICA

Al comparar dos distribuciones siempre se enfoca la atención sobre su posición y su


variabilidad. Si las posiciones son las mismas, ellas pueden diferir en su variabilidad. Si
las posiciones son las mismas, ellas pueden diferir en su variabilidad y, por el contrario
pueden tener la misma variabilidad pero diferir en su localización.
Por ejemplo, dos países pueden tener ingresos medios iguales pero con diferentes
desviaciones estándares, lo que dará diferentes modelos de distribución de ingresos. Un
país cuyos ingresos presenta una desviación estándar muy grande puede estar indicando
que dicho país tiene una clase baja o alta y una clase media muy pequeña o nula. Otro
ejemplo puede darse cuando se debe elegir una zona para desarrollar un determinado
cultivo y se tiene como variable de referencia las precipitaciones mensuales.

Supóngase que la cantidad de lluvias caídas en el mes correspondiente a la siembra de


dicho cultivo durante los últimos 5 años fue 40, 36, 25, 60 y 54 mm en la zona A y 38,
40, 35, 50 y 52 mm en la zona B.
En la primera zona se tiene:

X = 43mm
σ n = 12,59mm

En la zona B, en cambio:

X = 43mm
σ n = 6, 75mm

Generalmente se elegirá las zonas cuyas precipitaciones presentan menor variabilidad


pues el plan del cultivo se llevaría mejor a cabo con menor riesgo de sequía o
abundancia de agua.
En este caso las precipitaciones de ambas zonas presentan la misma media por lo cual se
pueden comparar fácilmente sus correspondientes variabilidades.
En cambio, cuando dos conjuntos de observaciones presentan distintos promedios la
comparación de las variabilidades se realiza por medio del coeficiente de variación.

• COEFICIENTE DE VARIACIÓN

El desvío estándar permite analizar la variabilidad de los datos en torno a la media


aritmética.
En el caso de las 9 empresas que presentamos en el ejemplo anterior, vemos que el
desvío estándar resultaba más alto cuanto mayor era la distancia entre los datos y la
media aritmética.
No se presentaba ningún problema, porque las medias eran iguales, pero en el caso que
las medias sean diferentes, qué interpretación le podemos dar al desvío estándar.
Si por ejemplo tomamos dos distribuciones en unidades de medida diferentes (horas /
hombre trabajadas y pesos) la comparación no va a ser posible en lo que respecta a la
variabilidad, mediante el desvío.
Por lo tanto debe encontrar una cantidad libre de unidades de medida. Esta unidad
libre de medida se llama coeficiente de variación. Y es una medida de dispersión
relativa.

PROFESOR: CDOR. LUCAS DALL’AGATA 73


UNIDAD II ESTADÍSTICA

Para su cálculo se efectúa el cociente entre el desvío estándar y la media aritmética y se


multiplica el resultado por 100 para poder expresarlo en porcentajes
σn
Para la población C.V . = ⋅100
µ

σ n −1
Para la muestra C.V . = ⋅100
x

Cuando el coeficiente de variación es mayor al 20 %, la media no puede ser


considerada como representativa de los valores de la variable, pero debemos
analizar cada situación en particular.

Para aclarar este concepto veremos el caso de dos empresas

PEQUEÑAS EMPRESAS GRANDES EMPRESAS


media aritmética $ 200.000,00 $ 4.000.000,00
desvío $ 20.000,00 $ 400.000,00

Si observamos los desvíos en ambos grupos de empresas encontramos que la diferencia,


al realizar el coeficiente de variación, en ambos casos es del 10 % en consecuencia
ambos grupos tienen la misma variabilidad, significa que en ambos casos el desvío
es del 10 % de la media, cuanto meno es su valor más precisa son las medidas.

• ASIMETRÍA
Existe el coeficiente llamado coeficiente de Pearson que mide la dirección y la
magnitud de la asimetría. Se lo simboliza con la letra K.

3.( µ − Me)
Para la población K =
σn

3.( X − Me)
Para la muestra K =
σ n −1

También existe una forma de comprobar si el resultado del coeficiente de Pearson es


correcto de la siguiente forma:

• La distribución es asimétrica a la izquierda cuando modo > mediana


> media
• La distribución es simétrica cuando modo, mediana y media
coinciden.
• La distribución es asimétrica a la derecha cuando modo < mediana <
media.

PROFESOR: CDOR. LUCAS DALL’AGATA 74


UNIDAD II ESTADÍSTICA

3- EJERCITACIÓN

ACTIVIDAD 1
Para que aplique los conceptos tratados, indique en cada una de las siguientes
situaciones, si la población de referencia es finita o infinita.

PROFESOR: CDOR. LUCAS DALL’AGATA 75


UNIDAD II ESTADÍSTICA

a) Palabras con error en un texto.


b) Hectáreas sembradas con ajo en la República Argentina
c) Clientes morosos de una entidad bancaria
d) Contribuyentes de la DGI
e) Alumnos de colegios privados de la Provincia de Córdoba
f) Portadores de SIDA

ACTIVIDAD 2
Diferenciar y clasificar los tipos de variable.

a) Peso de niños al nacer


b) Ingreso de jefe del hogar.
c) Cantidad de cigarrillos fumados por día
d) Nivel de educación.
e) Estado civil.
f) Cantidad de palabras escritas por minuto.
g) Contenido de latas de tomate.
h) Cantidad de llamadas telefónicas por hora.
i) Nivel educación máximo alcanzado.
j) Nivel socioeconómico bajo, medio y alto.
k) País de origen.

ACTIVIDAD 3

Ejemplifique las siguientes afirmaciones


a) la población puede tener existencia teórica pero la muestra puede ser real.
b) De las mismas unidades elementales es posible definir una variedad ilimitada de
poblaciones

ACTIVIDAD 4

La empresa GOMEZ COLA SA contrata por un mes, durante 2006 el siguiente número
de empleados:

Ene-06 Feb-06 Mar-06 Abr-06 May-06 Jun-06 Jul-06 Ago-06 Sep-06 Oct-06 Nov-06 Dic-06
15 3 18 11 8 9 6 11 7 10 16 4

a) Calcula la media aritmética.


Esta misma compañía tiene montado un sistema de calidad. Los siguientes datos
corresponden a muestras horarias del llenado de las gaseosas, en cm. Cúbicos

8 horas 330,00 330,05 329,78 330,64 330,12


9 horas 330,99 331,78 332,00 334,65 341,80
10 horas 344,23 345,50 347,40 349,60 350,02
11 horas 350,97 360,41 361,89 362,87 367,05

PROFESOR: CDOR. LUCAS DALL’AGATA 76


UNIDAD II ESTADÍSTICA

b) Para cada una de las muestras precedentes calcular la media aritmética e indica si el
proceso de las botellas debe ser interrumpido y calibrado (tener presente que si el
proceso es normal las medias deben ser aproximadamente iguales)

ACTIVIDAD 5

Observa una distribución abierta y calcula la media aritmética. Fundamenta tu


respuesta.

ACTIVIDAD 6

Una cooperativa de alimentos, creada con la finalidad de ofrecer a la venta productos de


alta calidad a precios menores de los que se observan en los supermercados, registra en
la actualidad 200 socios.
Debido a la imposibilidad de tener un trato directo con cada uno de sus miembros,
decidió realizar una encuesta para conocer las características y hábitos de los mismos.
Para ello tomó una muestra de 40 familias. Entre otras, se consideraron las siguientes
variables:

a) Educación del jefe de familia:


1) primaria (completa o incompleta)
2) Secundaria incompleta
3) Secundario completa
4) Universitaria incompleta
5) Universitaria completa

b) Cantidad de personas por familia

c) Ingresos mensuales

Los resultados fueron:

PROFESOR: CDOR. LUCAS DALL’AGATA 77


UNIDAD II ESTADÍSTICA

FLIA Nº NIVEL EDUC. PERS. POR FLIA. ING. MENS.


1 1 1 $ 250,00
2 1 1 $ 280,00
3 1 1 $ 200,00
4 1 1 $ 500,00
5 2 1 $ 800,00
6 2 1 $ 700,00
7 2 1 $ 350,00
8 1 2 $ 280,00
9 2 2 $ 600,00
10 5 5 $ 2.450,00
11 2 3 $ 450,00
12 2 3 $ 350,00
13 3 3 $ 1.700,00
14 2 4 $ 900,00
15 2 4 $ 600,00
16 1 2 $ 280,00
17 3 2 $ 450,00
18 2 2 $ 350,00
19 2 3 $ 800,00
20 3 4 $ 1.100,00
21 1 3 $ 800,00
22 3 4 $ 1.350,00
23 5 5 $ 1.300,00
24 3 8 $ 2.100,00
25 1 1 $ 500,00
26 4 2 $ 1.800,00
27 3 3 $ 2.400,00
28 4 3 $ 2.200,00
29 2 4 $ 900,00
30 2 4 $ 2.000,00
31 1 5 $ 450,00
32 4 6 $ 2.450,00
33 5 1 $ 1.400,00
34 5 3 $ 1.200,00
35 5 4 $ 2.400,00
36 3 4 $ 1.600,00
37 5 3 $ 2.000,00
38 2 3 $ 900,00
39 2 4 $ 900,00
40 4 4 $ 1.450,00

a) Construir la distribución de frecuencia para cada variable y calcular el


modo e interpretar.
b) Calcular mediana y cuartiles para cada variable e interpretar.
c) Calcular media aritmética para cada variable e interpretar.

PROFESOR: CDOR. LUCAS DALL’AGATA 78


UNIDAD II ESTADÍSTICA

d) Graficar las distribuciones de frecuenta en cada caso y marcar en cada


gráfico las mediadas de posición calculadas.
e) Comentar qué medida utilizaría en cada caso.
f) Calcular desvío y coeficiente de variación para la variable ingresos
familiares.

Respuestas

ACTIVIDAD 1
a) Finita
b) Infinita
c) Finita
d) Finita
e) Finita
f) Infinita

ACTIVIDAD 2
a) Cuantitativa continua
b) Cuantitativa continua
c) Cuantitativa discreta
d) Cuantitativa ordinal
e) Cualitativa nominal
f) Cuantitativa discreta
g) Cuantitativa continua
h) Cuantitativa discreta
i) Cualitativa ordinal
j) Cualitativa ordinal
k) Cualitativa nominal

ACTIVIDAD 3
a) Ejemplo, la actitud del público ante un nuevo diseño de envase para bebidas
gaseosas puede ser estudiado mediante una muestra de personas
b) Ejemplo, del conjunto de comercios al por mayor – unidades elementales – se
puede definir la población de: cantidad de empleados, rama de actividad,
volumen de ventas, precio por artículo, etc.

ACTIVIDAD 4
a)
9,83 empleados
b)
8 horas 330,12 cc
9 horas 334,24 cc
10 horas 347,35 cc
11 horas 360,64 cc
Hay que detener el proceso porque sigue en crecimiento

ACTIVIDAD 5

PROFESOR: CDOR. LUCAS DALL’AGATA 79


UNIDAD II ESTADÍSTICA

Si la distribución es abierta la media no puede calcularse porque es imposible


determinar la primera y la última marca de clase.

ACTIVIDAD 6
a)
1)
NIVEL DE EDUCACIÓN: CUALITATIVA ORDINAL
VARIABLE F Fa Fr % Fa %
1 9 9 22,50% 22,50%
2 14 23 35,00% 57,50%
3 7 30 17,50% 75,00%
4 4 34 10,00% 85,00%
5 6 40 15,00% 100,00%
TOTAL 40

Modo: Variable 2 (nivel de secundario incompleto)

2)
CANT. DE INTEGRANTES POR FLIA.: CUALITATIVA DISCRETA
VARIABLE F Fa Fr % Fa %
1 9 9 22,50% 22,50%
2 6 15 15,00% 37,50%
3 10 25 25,00% 62,50%
4 10 35 25,00% 87,50%
5 3 38 7,50% 95,00%
6 1 39 2,50% 97,50%
7 0 39 0,00% 97,50%
8 1 40 2,50% 100,00%
TOTAL 40

Modo: BIMODAL
Variable 3 (3 personas por flia.)
Variable 4 (4 personas por flia.)

3)
INGRESOS MENSUALES EN PESOS: CUANTITATIVA CONTINUA
VARIABLE F Fa Fr % Fa %
$ - $ 500,00 11 11 27,50% 27,50%
$ 500,00 $ 1.000,00 12 23 30,00% 57,50%
$ 1.000,00 $ 1.500,00 6 29 15,00% 72,50%
$ 1.500,00 $ 2.000,00 3 32 7,50% 80,00%
$ 2.000,00 $ 2.500,00 8 40 20,00% 100,00%
TOTAL 40

PROFESOR: CDOR. LUCAS DALL’AGATA 80


UNIDAD II ESTADÍSTICA

f 2•a
Mo = Li +
f 1+ f 2

6 • 500
Mo = 500 + = 676, 47
11 + 6

b)
integrante por flia ing. por flia
mediana 3,00 $ 875,00
Q1 2,00 $ 454,55
Q3 4,00 $ 1.666,67

c)

integrante por flia ing. por flia


media 3,00 $ 1.062,50

Cantidad de integrantes por familia, cuantitativa discreta


Cantidad de ingresos mensuales en pesos por familia, cuantitativa continúa

d)

VARIABLE: NIVEL DE EDUCACION


16
14
12
FRECUENCIA

10
8
6
4
2
0
1 2 3 4 5
NIVEL

CANTIDAD DE PERSONAS POR FLIA


12
FRECUENCIAS

10
8
6
4
2
0
1 2 3 4 5 6 7 8
PERSONAS

PROFESOR: CDOR. LUCAS DALL’AGATA 81


UNIDAD II ESTADÍSTICA

INGRESOS MENSUALES POR FLIA EN PESOS


14
500-1000
12 0 - 500
FRECUENCIA

10
2000-2500
8
1000-1500
6
4 1500-2000
2
0
PESOS

e)
La distribución de la variable “cantidad de personas por familia” presenta una asimetría
hacia la derecha y, además, presenta dos valores modales. Los valores 6 y 8 de la
variable, complican bastante la interpretación; por ello, habría que estudiar
convenientemente su inclusión en el análisis de los datos.
La variable “ingresos mensuales familiares” presenta una distribución atípica. Por un
lado, se observa una concentración de familias con ingresos menores a $ 1000 por otro,
se observa una cantidad importante de familias con ingresos superiores a los $ 2000.
Esta situación de bimodalidad debe alertar al investigador sobre la posibilidad de
encontrarse frente a dos poblaciones de ingresos.
En el caso de la variable cualitativa “nivel de educación” la única posibilidad es calcular
el modo.
En el caso de la variable “cantidad de personas por familia”, por tratarse de una
distribución donde no existe una moda bien definida y por notarse cuenta asimetría
hacia la derecha, conviene utilizar la mediana como medida de posición.
En el caso de variable “ingresos mensuales familiares” o bien se separan las poblaciones
agrupando por clases de ingresos o bien se trabaja con la moda o la mediana pues la
media aritmética, en esta situación, pierde representatividad.

f)
Media aritmética $ 1.062,50
Desvio de la muestra $ 739,78
C.V. 69,63%

Actividades optativas y sin respuesta. Estas pueden ser resueltas y luego corregidas
por el profesor.

ACTIVIDAD 1
Los siguientes datos corresponden a un estudio realizado por un médico acerca de los
niveles de calcio de 25 pacientes luego de un tratamiento. Las medicaciones se
realizaron pre y post tratamiento.

PROFESOR: CDOR. LUCAS DALL’AGATA 82


UNIDAD II ESTADÍSTICA

Nº DE NIVEL DE NIVEL DE Nº DE NIVEL DE NIVEL DE


PACIENTE CALCIO CALCIO PACIENTE CALCIO CALCIO
PRETRATAMIENTO POSTRATAMIENTO PRETRATAMIENTO POSTRATAMIENTO
1 98 121 13 97 105
2 109 121 14 90 110
3 97 120 15 90 110
4 106 120 16 103 106
5 99 122 17 101 112
6 100 108 18 99 106
7 96 109 19 93 112
8 105 110 20 102 106
9 90 110 21 96 112
10 100 116 22 98 111
11 91 107 23 102 111
12 96 111 24 99 115

A) Define y clasifica la variable.


B) Construye una tabla de frecuencias para el pretratamiento y otra para el
postratamiento, con todas las frecuencias que conoces.
C) Interpreta un valor de variable (fila) para cada uno de los valores de las
frecuencias.
D) Representa la situación con el grafico (uno para cada distribución de
frecuencias) que consideres conveniente y compáralos. Realiza un breve
comentario del caso.
E) Calcula media aritmética, mediana, modo y cuartiles. Calcula desvío
estándar y coeficiente de variación para cada coso. Calcula el coeficiente
de asimetría. Interpreta cada una de las medidas calculadas.
F) De acuerdo a las medidas, considera que las medias se pueden comparar
de acuerdo a su representatividad.

ACTIVIDAD 2

Los siguientes datos corresponden a cantidades vendidas de un artículo producido por


una empresa del sector alimenticio
VENTAS REALIZADAS EN LOS ULTIMOS MESES DE 2006 EN MILES DE
PESOS

407 170 406 473 408 379 304 427 236 390 336 308 455 130
301 353 401 407 232 245 309 233 495 97 296 366 356 310
121 136 135 24 485 165 198 194 377 264 223 299 322 390
45 215 31 444 10 348 492 266 63 108 84 375 399 374
90 138 210 26 275 116 470 445 295 102 362 418 340 50
346 39 109 427 440 400 41 213 195 353 21 266 100 259
217 437 186 92 290 376 317 374 373 302 29 48 200 603
318 22 491 446 342 368 165 375 457 466 392 433 250 39

PROFESOR: CDOR. LUCAS DALL’AGATA 83


UNIDAD II ESTADÍSTICA

a) de tener la posibilidad de obtener los datos de una empresa del sector alimenticio
analizarlos y compararlos con los anteriores.
b) B) de no tener acceso a datos de una empresa alimenticia analiza la información
anterior y compárala con datos ficticios
c) Construye una distribución de frecuencias relativas acumuladas y porcentuales
calcula media, mediana, modo y cuartiles y las medidas de dispersión y
asimetría. Construye los gráficos adecuados.

ACTIVIDAD 3

Se ha realizado una plantación de soja con dos variedades distintas A y B, las mismas
tienen distintas características. Luego del tiempo necesario para su cultivo se ha
realizado una muestra de 60 plantas de cada variedad, obteniendo la siguiente
distribución de frecuencias;

CANTIDAD VARIEDAD VARIEDAD


VAINAS A B
X F F
0 3 7
1 5 10
2 8 15
3 9 12
4 12 7
5 12 2
6 7 4
7 4 3

a) Define y clasifica la variable


b) Construye una tabla de frecuencias para la variedad A y otra para la variedad B,
con todas las frecuencias que conoces.
c) Interpreta un valor de variable (fila) para cada uno de los valores de las
frecuencias.
d) Representa la situación con el gráfico (uno para cada distribución de
frecuencias) que considere conveniente y compáralos. Realiza un breve
comentario del caso.
e) Calcula media aritmética, mediana modo y cuartiles. Calcula desvío estándar y
coeficiente de variación para cada caso. Calcula el coeficiente de asimetría.
Interpreta cada una de las medidas calculadas.
f) De acuerdo a las mediadas, considera que las medias se pueden comparar de
acuerdo a su representatividad.

PROFESOR: CDOR. LUCAS DALL’AGATA 84


UNIDAD II ESTADÍSTICA

DIAGRAMA DE FLUJO (medidas de tendencia central)

INICIO

LA VARIABLE ES

CUALITATIVA CUANTITATIVA

DESEA SI ESTÁN NO DESEA


CONOCER AGRUPADOS CONOCER
PROMEDIO LOS DATOS PROMEDIO

∑ X i .Fi ∑X i
X= X= i =1

n n

DESEA DESEA
CONOCER CONOCER EL
EL VALOR VALOR
MEDIO MEDIO

(( x) − Fa).a
Me = Li + n +1
fi Me =
2

DESEA CONOCER EL VALOR DESEA CONOCER EL VALOR


QUE MAS SE REPITE QUE MAS SE REPITE

f 2.a VALOR DE VARIABLE


Mo = Li + DE MAYOR f
f 1+ f 2

TERMINAR

PROFESOR: CDOR. LUCAS DALL’AGATA 85


UNIDAD II ESTADÍSTICA

(medidas de dispersión)

INICIO

DESEA MEDIR LA DISPERSIÓN


DENTRO DE LOS DATOS
SI SI

CALCULE RANGO O CALCULE DESVÍO


ALCANCE ESTÁNDARO

NO

DESEA MEDIR LA DESVIACIÓN


EN UNIDADES DE DESVÍO
SI
CALCULE EL
RESULTADO
ESTÁNDAR
NO

DESEA OBTENER UNA


MEDIDA LIBRE DE UNIDADES

CALCULE
COEFICIENTE DE
VARIACIÓN
NO

TERMINAR

PROFESOR: CDOR. LUCAS DALL’AGATA 86


UNIDAD II ESTADÍSTICA

Glosario

Alcance o Rango: valor que resulta de la diferencia entre los valores más bajo y más
alto de un conjunto de datos.

Cuartiles: valores de variable que dividen los datos en cuatro partes iguales.

Clase o intervalo de mediana: intervalo de una distribución de frecuencia que contiene


el valor mediano de un conjunto de datos.

Coeficiente de variación: medida relativa de la dispersión, comparable por medio de


distribuciones diferentes, que expresa la desviación, estándar como porcentaje de la
media.

Desviación estándar: raíz cuadrada positiva de la varianza; medida de dispersión con las
mismas unidades que los datos originales, mejor que en las unidades cuadrado en que
está la varianza.

Dispersión: La extensión o variabilidad de un conjunto de datos.

Distribución bimodal: distribución de puntos de datos en la que dos valores se presentan


con más frecuencia que los demás elementos del conjunto de datos.

Estadística: medidas numéricas que describen las características de una muestras y están
representadas por letras latinas.

Media aritmética: medida de tendencia central que representa el promedio aritmético de


un conjunto de observaciones.

Mediana: punto situado a la mitad del conjunto de datos, medida de localización que
divide al conjunto de datos en dos partes iguales.

Medida de dispersión: medida que describe como se dispersan o distribuyen las


observaciones de un conjunto de datos.

Medida de tendencia central: medida que indica el valor esperado de un punto de datos
típico o situado en el medio.

Moda o modo: el valor que más a menudo se repite en un conjunto de datos. Está
representado por el punto más alto de la curva de distribución de un conjunto de datos.

Parámetros: valores numéricos que describen las características de una población


completa, se les representa generalmente con letras griegas.

Resultado estándar: expresión de una observación en términos de unidades de


desviación estándar por encima o por debajo de la media; es decir, la transformación de
una observación al restarle la media y dividirla entre la desviación estándar.

PROFESOR: CDOR. LUCAS DALL’AGATA 87


UNIDAD II ESTADÍSTICA

Simétrica: característica de una distribución en la que cada mitad es la imagen especular


de la otra.

Teorema de Chebyshev: no importa que forma tenga la distribución:


al menos 68 % de los valores de la población cae dentro de una desviaciones estándar de
la media.
al menos 75 % de los valores de la población cae dentro de dos desviaciones estándar de
la media.
al menos 99 % de los valores de la población cae dentro de tres desviaciones estándar de
la media.

Varianza: medida de la distancia cuadrada promedio entre la media y cada uno de los
valores de la variable.

PROFESOR: CDOR. LUCAS DALL’AGATA 88


UNIDAD III ESTADÍSTICA

UNIDAD III:

PROFESOR: CDOR. LUCAS DALL’AGATA 89


UNIDAD III ESTADÍSTICA

PROFESOR: CDOR. LUCAS DALL’AGATA 90


UNIDAD III ESTADÍSTICA

UNIDAD III:
1- Covariación: distintos tipos. Técnicas para el estudio de la Covariación.
2- Análisis de regresión: Calculo del error estándar de estimación. Parámetros,
errores y límites de predicción.
3- Análisis de correla ción: coeficientes de correlación y determinación.
Interpretación. Números índices simples y complejos. Glosario. Diagrama de
flujo
4- Ejercitación.

PROFESOR: CDOR. LUCAS DALL’AGATA 91


UNIDAD III ESTADÍSTICA

1- COVARIACIÓN:

Significado del tér mino regres ión: Sir Francis Galton, un experto inglés en los
estudios de herencia, fue uno de los primeros investigadores que estudió relaciones
entre variables alrededor del año 1800. En un conocido ejemplo, Galton investigó la
relación existente entre la altura de los hijos con respecto a la altura de los padres.
En esta investigación observó que padres altos tenían hijos altos, pero no tan altos como
sus padres. De la misma manera, padres bajos tenían hijos bajos, peo no tan bajos como
ellos.
Las tendencias de las alturas de los hijos eran más hacia un cierto promedio de la
población que hacia las de sus respectivos padres.
De ahí que Galton dijera que las alturas regresaban a un promedio y de allí surge el
término regresión.
Francis Galton (1822-1911), científico británico famoso por su trabajo en los campos de
la antropología y la herencia, considerado el fundador de la ciencia de la eugenesia.
Nacido cerca de Birmingham, estudió en el King’s Collage de la Universidad de
Londres y en el Trinity Collage de Cambridge. Tras viajar por África tropical, (1853) y
El arte de viajar, (1855). Sus estudios sobre la meteorología le llevaron a escribir
Meteorographica (1863), el primer libro sobre los modernos métodos de cartografía
meteorológica.
Primo de Charles Darwin, se interesó por la herencia y la biometría. Recopiló
estadísticas sobre la estatura, dimensiones, fuerza y otras características de un gran
número de personas. Dedicó especial atención a un método de identificación por medio
de las huellas dactilares. También desarrolló técnicas fundamentales para las
mediciones estadísticas, especialmente respecto al cálculo de la correlación entre pares
de atributos. Galton fue nombrado Sir en 1909. Genio hereditario (1869),
Investigaciones en torno a las facultades humanas (1883), Herencia natural (1889), y
Huellas dactilares (1892), son algunas de sus obras.

En la actualidad, la palabra regresión se utiliza para definir la naturaleza de la relación,


entre dos o más variables x se genera una distribución de valores para la variable y, el
modelo de regresión estima una recta promedio que llamamos y*.
En primer lugar estudiaremos el modelo de regresión más simple, aquel que considera la
existencia de sólo dos variables y con la suposición que la ecuación que las relaciona es
la de una recta, es decir lineal. Una vez comprendido este modelo se puede generalizar
para más de dos variables, llamándose regresión múltiple. También el mismo
procedimiento se puede utilizar cuando la relación que liga las variables no es lineal y
se denomina regresión curvilínea.
Supongamos tener la siguiente información sobre el costo promedio mensual por
alumno (y) en miles de pesos y el número de alumnos inscriptos (x) correspondiente
a 20 universidades.
Generando la siguiente tabla:

PROFESOR: CDOR. LUCAS DALL’AGATA 92


UNIDAD III ESTADÍSTICA

UNIVERSIDAD CANT. DE EST. COSTO


X Y
1 1.149 0,18
1 1.564 0,11
2 2.102 0,36
3 2.475 0,22
4 2.660 0,17
5 2.754 0,29
6 2.841 0,49
7 3.790 0,56
8 4.045 0,25
9 4.348 0,54
10 5.105 0,31
11 5.340 0,69
12 7.128 0,93
13 8.028 1,03
14 9.578 1,21
15 11.383 1,56
16 12.421 1,58
17 13.489 1,58
18 13.744 1,51
19 16.545 1,92
TOTAL 130.489 15,49

Con los datos obtenidos de la tabla podemos realizar le grafico, ya que cada uno de los
pares de datos son pares ordenados y los podemos representar en un sistema de ejes
cartesianos para obtener el diagrama de dispersión.

DIAGRAMA DE DISPERSIÓN

2,5
COSTO PROM. MENSUAL POR

2
ALUMNO eje y

1,5

0,5

0
0 2.000 4.000 6.000 8.000 10.000 12.000 14.000 16.000 18.000
CANTIDAD DE ALUMNOS INSCRIPTOS eje x

El gráfico parece indicar que existe una relación positiva entre el costo y la cantidad de
alumnos, pues se observa que al aumentar el número de alumnos aumenta el costo
promedio por alumno.

PROFESOR: CDOR. LUCAS DALL’AGATA 93


UNIDAD III ESTADÍSTICA

Y si observamos podemos construir una recta que pase por la mayoría de los puntos
confirmando una relación lineal positiva.
Siempre se debe realizar el diagrama de dispersión ya que es la forma intuitiva de tener
una idea previa acerca de la posible relación existente entre las variables y además
detectar para poder excluir valores extremos o atípicos.
En algunos casos existen fenómenos que presentan un comportamiento más o menos
sincronizado ante sus variables, dicho comportamiento se llama Covariación.

• DISTINTOS TIPOS DE COVARIACIÓN:

o DEPENDENCIA CAUSAL UNIL ATERAL: Este tipo de covariación


se presenta cuando una variable x influye sobre la variable y, pero la y no
influye sobre la x.
o BILATEREAL O I NTERDEPENDENCIA: La variable x influye
sobre la y, y la variable y sobre la x. Ejemplo cantidad de bienes
ofrecidos y demandados y los precios.
o DEPENDENCIA INDIRECTA: En este caso una tercera variable tanto
sobre x como sobre y. Ejemplo: en períodos de gran inflación el precio
del azúcar (Y) y el precio del dólar (X) poseen un comportamiento
creciente – Podríamos decir que el precio del azúcar depende del precio
del dólar. Sin embargo esta dependencia puede estar ocasionada por una
tercera variable llamada inflación. Ejemplo: La cantidad de periódicos
vendidos en el país y la cantidad de locos poseen un comportamiento
creciente, aparentemente los periódicos vuelven loca a la gente, en
realidad la tercera variable que influye es el aumento de la población.
o CASUAL: Es el caso de dos variables que se comportan en forma
sincronizada por casualidad. Ejemplo: el precio de la lana en la Patagónia
aumenta de la misma forma que el precio de los diamantes en Europa.
Existen otros tipos de dependencia pero no se justifica considerarlas, ya
que no serán de utilidad para nuestros casos.

Anteriormente comentamos acerca de los distintos tipos de relación que podría existir
entre las variables y la forma más sencilla de obtener esa idea intuitiva es a través del
diagrama de dispersión. De acuerdo a la forma de los mismos podrán establecer la
relación existente.
A continuación algunos tipos de diagramas de dispersión:
Ejemplo 1 Ejemplo 2
x y x y
1.564 0,11 1.564 0,11
2.500 0,4 3.790 0,49
4.110 0,73 11.383 0,54
5.000 0,85 5.340 0,56
6.280 1 8.028 0,69
7.780 1,18 2.841 0,93
9.220 1,23 13.744 1,03
11.630 1,19 12.421 1,21
14.440 1,05 4.348 1,51
17.000 0,82 7.128 1,56
18.590 0,38 9.578 1,58

PROFESOR: CDOR. LUCAS DALL’AGATA 94


UNIDAD III ESTADÍSTICA

1,5 2
1 1,5
y

y
0,5
0,5
0 0
0 5.000 10.000 15.000 20.000 0 5.000 10.000 15.000
x x
Como podemos observar en el 1º ejemplo hay una relación de U invertida,
automáticamente diremos que la relación que vincula a estas variables no es lineal, es
curvilínea.
En el 2º ejemplo observamos que no hay una posible relación entre las variables ya que
los puntos se encuentran dispersos sin una forma en particular.

Ejemplo 3 Ejemplo 4
x y x y
13.744 0,49 1.564 0,11
12.421 0,54 2.841 0,49
11.383 0,56 7.128 0,54
9.578 0,69 4.348 0,54
8.028 0,93 3.790 0,56
7.128 1,03 5.340 0,69
5.340 1,21 8.028 1,03
4.348 1,51 9.578 1,21
3.790 1,56 13.744 1,51
2.841 1,58 11.383 1,56
1.564 1,65 12.421 1,58

1,8 1,8
1,6 1,6
1,4 1,4
1,2 1,2
1 1
y

0,8
y

0,8
0,6
0,6
0,4
0,4 0,2
0,2 0
0 0 5.000 x 10.000 15.000
0 5.000 x 10.000 15.000

En el 3º ejemplo se observa una relación lineal pero como la recta desciende podemos
decir que es una relación lineal negativa.
En el 4º ejemplo es el presentado en un primer momento y la relación es lineal positiva

PROFESOR: CDOR. LUCAS DALL’AGATA 95


UNIDAD III ESTADÍSTICA

x y
2
1.564 0,11
3.100 0,15
1,5
4.700 0,25
6.100 0,32 1

Y
7.500 0,49
8.800 0,7 0,5
10.600 0,9
11.700 1,21 0
12.450 1,4 0 5.000 10.000 15.000
12.860 1,6 X
14.110 1,9

En este último ejemplo la relación existente entre las variables es exponencial.

PROFESOR: CDOR. LUCAS DALL’AGATA 96


UNIDAD III ESTADÍSTICA

2- ANALISIS DE REGRESIÓN:

A través de este análisis tendremos que encontrar una FUNCIÓN MATEMÁTICA que
pase entre los puntos del DIAGRAMA DE DISPERSIÓN, por ejemplo:

2,5
COSTO PROM MENSUAL POR ALUMNO

1,5

0,5

0
0 2.000 4.000 6.000 8.000 10.000 12.000 14.000 16.000 18.000
CANTIDAD DE ALUMNOS INSCRIPTOS

En este ANÁLISIS DE REGRESIÓN trataremos de encontrar una relación:


Y=F(x)
Que pase por la mayoría de los puntos del diagrama de dispersión. En este caso como la
representación gráfica es prácticamente una recta por lo tanto la función será:
Y=F(x)
Y=a x+b
b, es la ordenada al origen
a, es la pendiente
x, es la variable independiente
Y, es la variable dependiente

• DETERMINACIÓN DE LOS PARÁMETROS DE REGRESIÓN

El objetivo es encontrar los valores de a y b ya que X e Y son las variables, para ello se
utiliza el METODO DE LOS MÍNIMOS CUADRADOS.

n • ΣX • Y − Σ X • Σ Y
a=
n • Σ X 2 − ( ΣX ) 2

PROFESOR: CDOR. LUCAS DALL’AGATA 97


UNIDAD III ESTADÍSTICA

ΣY ΣX
b= −a•
n n

Con dichos valores de a y b obtenemos la llamada RECTA DE REGRESIÓN.

Y*= a x + b

Para poder obtener estos valores de a y b, de acuerdo a las ecuaciones, necesitamos


agregar nuevas columnas al cuadro de datos original.

Para poder obtener estos valores de a y b, de acuerdo a las ecuaciones, necesitamos


agregar nuevas columnas al cuadrado de datos originales

Geométricamente se puede representar de la siguiente manera:

Y
Yi = a + b • X i

∆y
∆y
∆x b =
∆x

UNIV. CANT. DE EST. COSTO


X Y Y² X² X.Y
1 1.564,00 0,11 0,0121 2.446.096 172,04
2 3.790,00 0,56 0,3136 14.364.100 2.122,40
3 11.383,00 1,56 2,4336 129.572.689 17.757,48
4 5.340,00 0,69 0,4761 28.515.600 3.684,60
5 8.028,00 1,03 1,0609 64.448.784 8.268,84
6 2.841,00 0,49 0,2401 8.071.281 1.392,09
7 13.744,00 1,51 2,2801 188.897.536 20.753,44
8 12.421,00 1,58 2,4964 154.281.241 19.625,18
9 4.348,00 0,54 0,2916 18.905.104 2.347,92
10 7.128,00 0,93 0,8649 50.808.384 6.629,04
11 9.578,00 1,21 1,4641 91.738.084 11.589,38
12 13.489,00 1,58 2,4964 181.953.121 21.312,62
13 16.545,00 1,92 3,6864 273.737.025 31.766,40
14 1.149,00 0,18 0,0324 1.320.201 206,82
15 4.045,00 0,25 0,0625 16.362.025 1.011,25
16 5.105,00 0,31 0,0961 26.061.025 1.582,55
17 2.102,00 0,36 0,1296 4.418.404 756,72
18 2.660,00 0,17 0,0289 7.075.600 452,20
19 2.754,00 0,29 0,0841 7.584.516 798,66
20 2.475,00 0,22 0,0484 6.125.625 544,50
TOTAL 130.489,00 15,49 18,5983 1.276.686.441 152.774,13

PROFESOR: CDOR. LUCAS DALL’AGATA 98


UNIDAD III ESTADÍSTICA

Los valores resaltados en negrita corresponden a la sumatoria de cada una de las


columnas.
Reemplazando en las ecuaciones originales obtenemos los valores para a y b.

n • ΣX • Y − Σ X • Σ Y
a=
n • Σ X 2 − ( ΣX ) 2

20 • 152.774,13 − 130.489 • 15, 49


a= = 0, 0001216
20 • 1.276.686.441 − (130.489) 2

ΣY ΣX
b= −a•
n n

15, 49 130.489
b= − 0, 0001216 • = −0, 0185
20 20

A partir de este momento estamos en condiciones de establecer la reta de regresión.

Y* = 0.0001216 X – 0.0185

El asterisco (*) colocado sobre la variable Y indica la diferencia entre la recta de


regresión de la recta obtenida con los valores de la tabla.

IMPORTANTE

La función obtenida nos permite, por ejemplo, estimar cual será el costo promedio
mensual por alumno si la Universidad tiene 10.000 y obtenemos Y* = 1,1975 pesos por
alumnos promedio en el mes.

• ERROR ESTÁNDAR DE L A REGRESIÓN, ERROR E STÁNDAR DE L A


ESTIMACIÓN.

Como sabemos es desvío estándar es una medida bastante adecuada para acompañar la
media aritmética, también sabemos que si los valores de la variable X son todos iguales,
no hay error en la media aritmética, ya que todos son iguales, por lo tanto la desviación
sería igual a 0 y no habría error. Volvemos a nuestro caso especial, los puntos no están
todos sobre la recta, existen desviaciones por debajo y por sobre la misma, a tales
desviaciones las lla maremos RESIDUOS, ya que es un t érmino más amplio y más
apropiado que el de error.

Ejemplo: el rendimiento de las cosechas (Y) no solo depende de la cantidad de lluvias


(X), sino además de cantidad de fertilizantes, horas de sol, humedad en el ambiente,
vientos, etc. Estas causas no están consideradas en la reta de regresión Y*= a x + b, en
consecuencia aparecen dentro de los residuos, por supuesto que si los puntos
observados se encuentran todos sobre la recta no habría residuos, y si están más alejados
los residuos serían mayores.

PROFESOR: CDOR. LUCAS DALL’AGATA 99


UNIDAD III ESTADÍSTICA

IMPORTANTE:
Para medir la variabilidad de los puntos con respecto a la recta se utiliz a
una cantidad que tendrá un comportami ento análogo al desvío estándar.
Esta cantidad recibe de nombre de ERROR ESTÁNDAR DE REGRESIÓN
y se simboliza con S y/x, y la fórmula es la siguiente:

∑ (Y − Y *) 2

Sy / x =
n−2

Volvamos ahora a los datos de costo promedio mensual por alumno y cantidad de
alumno. Para calcular el error estándar de regresión debemos agregar algunas columnas
a la tabla anterior, como la diferencia entre ( Y- Y * ) ², pero antes debemos
determinar cada Y* para todos los valores de x.
Las diferencias entre los valores observados y los de la recta de regresión se
deben elevar al cuadrado para obtener todos números positivos y evitar la
compensación de positivos y negativos.
(Exactamente igual que el desvío estándar)

Es decir que estamos sumando las diferentas o errores que existen entre los
puntos reales, observados y representados, y la recta de regresión obtenida y*

UNIV. CANT. DE EST. COSTO


X Y Y² X² X.Y
1 1.564,00 0,11 0,0121 2.446.096 172,04
2 3.790,00 0,56 0,3136 14.364.100 2.122,40
3 11.383,00 1,56 2,4336 129.572.689 17.757,48
4 5.340,00 0,69 0,4761 28.515.600 3.684,60
5 8.028,00 1,03 1,0609 64.448.784 8.268,84
6 2.841,00 0,49 0,2401 8.071.281 1.392,09
7 13.744,00 1,51 2,2801 188.897.536 20.753,44
8 12.421,00 1,58 2,4964 154.281.241 19.625,18
9 4.348,00 0,54 0,2916 18.905.104 2.347,92
10 7.128,00 0,93 0,8649 50.808.384 6.629,04
11 9.578,00 1,21 1,4641 91.738.084 11.589,38
12 13.489,00 1,58 2,4964 181.953.121 21.312,62
13 16.545,00 1,92 3,6864 273.737.025 31.766,40
14 1.149,00 0,18 0,0324 1.320.201 206,82
15 4.045,00 0,25 0,0625 16.362.025 1.011,25
16 5.105,00 0,31 0,0961 26.061.025 1.582,55
17 2.102,00 0,36 0,1296 4.418.404 756,72
18 2.660,00 0,17 0,0289 7.075.600 452,20
19 2.754,00 0,29 0,0841 7.584.516 798,66
20 2.475,00 0,22 0,0484 6.125.625 544,50
TOTAL 130.489,00 15,49 18,5983 1.276.686.441 152.774,13

Reemplazando en la fórmula obtenemos:


0,314311
Sy / x = = 0,132142839 pesos costo promedio de los alumnos por mes.
18

PROFESOR: CDOR. LUCAS DALL’AGATA 100


UNIDAD III ESTADÍSTICA

Esta estimación se la denomina estimación puntual, para poder realizar la estimación


por intervalos debemos obtener el error estándar de la estimación que no lo
calcularemos en esta oportunidad.

LIMITES DE CONFIANZA DE LA PREDICCION

Teóricamente el error estándar de la estimación es una cantidad adecuada para


establecer los límites de confianza alrededor de la línea de regresión, siempre que los
puntos de diagrama de dispersión se repartan de acuerdo a una DISTRIBUION
NORMAL, así como anteriormente tratamos el desvío estándar junto con la media, en
este caso haremos lo mismo, para poder obtener un intervalo.

Y* + - Z . S y/x

Recordando lo referente a distribución normal para z = 1, 2, 3 respectivamente tenemos


comprendido el 68 %, 95 % y 99 % de los datos en el intervalo aproximadamente.

Volvamos al ejemplo anterior de los alumnos y el costo de las 20 universidades.


Para una cantidad de alumnos de 10.000 el costo promedio mensual por alumno será de
1,1975 pesos, en un intervalo del 95 % en este caso Z = 2 de confianza para la
estimación de cantidad de pesos sería.

Y * = 0,0001216 x – 0,0185

Y* = 1,1975 pesos por alumno promedio en el mes.

Reemplazando Z y S y / x en la siguiente ecuación obtenemos el intervalo:

Y* + Z . S y/x
Y* - Z . S y/x

1,1975 + 2 (0,132142839) = 1,46178568


1,1975 - 2 (0,132142839) = 0,93321432

Es decir en tre 1,46 y 0,93 pe sos es el costo por alumno promedio por mes en u n
intervalo de confianza de confianza del 95 % aproximadamente.

IMPORTANTE

De esa forma podemo s predecir con un error del 5 % o con una confianza
de 95 % que si una universidad tien e 10.000 alumnos el costo p romedio
mensual por alumnos será entre 1,46 y 0,93 pesos.

PROFESOR: CDOR. LUCAS DALL’AGATA 101


UNIDAD III ESTADÍSTICA

3- ANÁLISIS DE CORRELACIÓN:

El análisis de correlación, que es al segunda técnica, permite determinar una


cantidad que exprese el porcen taje de va riación de Y explica do y no
explicado por x.

La recta de regresión que hemos obtenido a través de los datos es apropiada para
determinar los valores de la variable independiente Y (costo promedio mensual por
alumno en pesos) en función de la variable independiente X (cantidad de alumnos).

El error estándar de regresión S y/x es una medida que da la representatividad de la


función (recta), si este error fuera 0 significa que todos los puntos del diagrama
pertenecen a la recta, es decir se encuentran sobre la misma.
Sin embargo, el error estándar de regresión no es fácil de interpretar, ni facilita las
comparaciones. En nuestro caso S y/x = 0,132142839 ¿es grande o pequeño?

El valor S y/x solamente rep resenta la variación en Y


(costo promedio mensual por alumno en pesos), NO
EXPLICADA POR LA VARIAB LE X, (cantidad de
alumnos)

A partir de esta necesidad de explicación de una variable con respecto a la otra


recurrimos al coeficiente de determinación simbolizado por: r ²
Este coeficiente nos permite obtener el porcentaje de la variación de Y (costo promedio
mensual por alumno en pesos), EXPLICADA POR LA VARIABLE x, (cantidad de
alumnos), multiplicamos por 100.
Y la cantidad 1-r ², multiplicada por 100, nos permite obtener el porcentaje de la
variación de Y (costo promedio mensual por alumno en pesos), NO EXPLI CADA
POR LA VARIABLE X, (cantidad de alumnos)
A esta diferencia se la llama coeficiente de indeterminación.
Además el cálculo de la raíz cuadrada del coeficiente de determinación recibe el nombre
de coeficiente de correlación lineal y para obtenerlo utilizamos la siguiente ecuación:

n • ΣX • Y − Σ X • Σ Y
r=
((n • Σx ) − (ΣX ) 2 ) • (n(ΣY 2 ) − (ΣY ) 2 ))
2

Para su cálculo es necesario agregar alguna columna al caso presentado al inicio de la


unidad

PROFESOR: CDOR. LUCAS DALL’AGATA 102


UNIDAD III ESTADÍSTICA

UNIV. CANT. DE EST. COSTO


X Y Y² X² X.Y
1 1.564,00 0,11 0,0121 2.446.096 172,04
2 3.790,00 0,56 0,3136 14.364.100 2.122,40
3 11.383,00 1,56 2,4336 129.572.689 17.757,48
4 5.340,00 0,69 0,4761 28.515.600 3.684,60
5 8.028,00 1,03 1,0609 64.448.784 8.268,84
6 2.841,00 0,49 0,2401 8.071.281 1.392,09
7 13.744,00 1,51 2,2801 188.897.536 20.753,44
8 12.421,00 1,58 2,4964 154.281.241 19.625,18
9 4.348,00 0,54 0,2916 18.905.104 2.347,92
10 7.128,00 0,93 0,8649 50.808.384 6.629,04
11 9.578,00 1,21 1,4641 91.738.084 11.589,38
12 13.489,00 1,58 2,4964 181.953.121 21.312,62
13 16.545,00 1,92 3,6864 273.737.025 31.766,40
14 1.149,00 0,18 0,0324 1.320.201 206,82
15 4.045,00 0,25 0,0625 16.362.025 1.011,25
16 5.105,00 0,31 0,0961 26.061.025 1.582,55
17 2.102,00 0,36 0,1296 4.418.404 756,72
18 2.660,00 0,17 0,0289 7.075.600 452,20
19 2.754,00 0,29 0,0841 7.584.516 798,66
20 2.475,00 0,22 0,0484 6.125.625 544,50
TOTAL 130.489,00 15,49 18,5983 1.276.686.441 152.774,13

Reemplazando en la formula de r, obtenemos: r = 0,97590311, es decir el 97,59 %

Este es el porcentaje dado por el coeficiente de determinación e


indica el % de variación de la variable Y explicada por la variable
X, y queda sin explicar 97,54 % - 100 % = 2,46 %

ADVERTENCIA IMPORTANTE

La existencia de un coeficiente de de terminación muy alto no significa que


debe existir una relación CAUS AL ent re las variables, si recordamos los
tipos de co variación v eremos qu e un coeficiente de determinació n alto
puede ser consecuencia de una relación CASUAL o INDIRECTA.

Ejemplo
1- Hallar y graficar la recta de regresión correspondiente a los datos de la tabla
presentada a continuación y estimar cual será el puntaje de un individuo de 4,5 años de
antigüedad-

PROFESOR: CDOR. LUCAS DALL’AGATA 103


UNIDAD III ESTADÍSTICA

AÑOS DE ANT. PJE.TEST


3 3
10 8
9 10
1 4
2 1
4 2
6 5
5 6
8 7
7 9

A – Efectuar una estimación del 99,7 % del puntaje del test de aptitud, para la persona
de 4,5 años de antigüedad elegido al azar.
B – Calcular el coeficiente de correlación, determinación y e de indeterminación.

SOLUCIONES

- Recta de regresión: Y* = 0,867 + 0,842 x


- Para un individuo de 4,5 años de antigüedad será:

Y * = 0,867 + 0,842 . (4,5)


Y * = 4,658 puntos
- Con un 99,7 % de confianza resulta entre -0,533 y 9,848 puntos, redondeando, entre 0
y 10 lo cual es muy razonable ya que la estimación está realizada con casi un 100 % de
confianza.

r = 0,842

r ² = 0,7096 → 70,96 %

1 - r ² = 0,2904 → 29,04 %

Decimos que el 71 % de las variaciones del test de aptitud están siendo explicadas por la
antigüedad. El 29 % restante responde a causas aleatorias.

PROFESOR: CDOR. LUCAS DALL’AGATA 104


UNIDAD III ESTADÍSTICA

4- EJERCITACIÓN

1- Supongamos que un ingeniero agrónomo tiene datos agrícolas de los últimos seis
años, donde x es la temperatura media en el mes de siembra de trigo; e y es el
rendimiento del trigo.

X Y
15 6,5
17 7
20 9
18 8,5
21 9
20 8,2

a- Construya el diagrama de dispersión y la recta de regresión.


b- Estime el rendimiento del trigo cuando la temperatura media del mes es de 21
grados. Interpreta
c- Calcular el coeficiente de correlación y determinación. Interpreta.

Rta.:
a-

RENDIMIENTO DEL TRIGO


10
y = 0,4235x + 0,198
9
RENDIMIENTO

8
7
6
5
14 16 18 20 22
TEMPERATURA

b- y = 9.0922
c- r ² = 0,83

2- Las materias primas que utiliza una fábrica en la producción de una fibra sintética
son almacenadas en un lugar donde no se tiene control de humedad.
Para analizar si la humedad del almacenamiento influye sobre la humedad de la materia
prima almacenada, se tomaron muestras de la materia prima durante doce días cada día
se tomo la humedad de la muestra y del lugar de almacenamiento

PROFESOR: CDOR. LUCAS DALL’AGATA 105


UNIDAD III ESTADÍSTICA

HUMEDAD HUMEDAD
DEL LUGAR (X) DE LA MUESTRA (Y)
42 12
35 8
50 14
43 9
48 11
62 16
31 7
36 9
44 12
39 10
55 13
48 11

a) Construya el diagrama de dispersión y la recta de regresión.


b) Estime la humedad de una muestra de materia prima cuando la humedad del
lugar de almacenamiento es de 40. Interpreta
c) Calcular el coeficiente de correlación y determinación. Interpreta

Rta.
a)
y = 0,269x - 0,9495
R2 = 0,8362
18

16
RENDIMIENTO

14

12
10

6
29 34 39 44 49 54 59 64
HUMEDAD

b) y* (40) = 9,81
c) r ² = 0,84

3- La empresa “El Tirolés” cuenta con dos restaurantes situados en la misma zona: el
restaurantes A se lo publicita por televisión, en tanto que el B no. La empresa desea
evaluar los efectos de la publicidad sobre el volumen de ventas, para ello se recogen los
datos del ingreso diario en pesos durante 2 días sucesivos.

PROFESOR: CDOR. LUCAS DALL’AGATA 106


UNIDAD III ESTADÍSTICA

RES. A RES. B
132 130
138 134
144 132
146 140
148 150
152 140
158 150
130 120
162 160
168 150
172 160
174 174
180 168
180 174
188 186
194 172
194 180
200 178
200 190
204 188
210 181
216 196
220 205
220 190
220 202

En base a los datos obtenidos divide el estudio del caso en 3 partes:

- diagnóstico
- estimación
- validez

- diagnóstico:
1 Construye el diagrama de dispersión con los ingresos de A en las ordenadas y con los
ingresos de B en el de las abscisas.
2 Observa el diagrama de dispersión y responde si existe una relación lineal entre las
variables.
3 conociendo el tipo de problema planteado responde que tipo de covariación existe:
unilateral, bilateral, indirecta o causal.
- estimación:
1 Determina la recta de regresión
2 Contesta que tipo de parámetro permite evaluar la incidencia de la publicidad en la
magnitud de las ventas.
3 Responde que porcentaje mínimo respecto de los ingresos debe invertir en publicidad.

- validez
1 Construye la recta de regresión.
2 Calcula el coeficiente de determinación y explica el significado del mismo.
3 Calcula el riesgo de la predicción.

PROFESOR: CDOR. LUCAS DALL’AGATA 107


UNIDAD III ESTADÍSTICA

Consultar las respuestas con tu profesor y con tus compañeros.

PROFESOR: CDOR. LUCAS DALL’AGATA 108


UNIDAD III ESTADÍSTICA

DIAGRAMA DE FLUJO

INICIAR

Para determinar la naturaleza


de la regresión entre dos
variables utilice la recta de
regresión

Organice los datos y construya


el diagrama de dispersión

Calcular a y b y predecir Quiere si Construya y usa


ecuación de estimación predecir la línea de
usando los mínimos cuadrados los valores regresión y *
de y

no

Quiere Quiere un
conocer el No intervalo de
grado de predicción
relación entre para y
las variables

si no si
Parar

Calcule el error estándar


Use análisis de correlación de estimación
y calcule r ²

PROFESOR: CDOR. LUCAS DALL’AGATA 109


UNIDAD III ESTADÍSTICA

Glosario

Análisis de correlación: Técnica para determinar el grado hasta la cual las variables
están relacionadas linealmente.

Coeficiente de correlación: Raíz cuadrada del coeficiente de determinación. Su signo


indica la dirección de la relación entre dos variables, directa o inversa.

Coeficiente de determinación: Medida de porción de variación en Y, la variable


dependiente, que es explicada por la línea de regresión, esto es, por la relación de Y con
la variable independiente.

Diagrama de dispersión: Gráfica de puntos en una red rectangular: las coordenadas X y


Y de cada punto corresponden alas dos mediciones hechas sobre un elemento particular
de muestra, y el patrón de puntos ilustra la relación entre las dos variables.

Ecuación de estimación: Fórmula matemática que relaciona la variable desconocida con


las variables conocidas en el análisis de regresión.

Error estándar de la estimación: Medida de la confiabilidad de la ecuación de


estimación, que indica la variabilidad de los puntos observados alrededor de la línea de
regresión, esto es, hasta que punto los valores observados difieren de sus valores
predichos sobre la línea de regresión.

Ordenada al origen: Constante para cualquier línea recta dada cuyo valor representa el
valor de la variable Y cuando la variable X tiene un valor de 0.

Línea de regresión: Una línea ajustada a un grupo de puntos para estimar la relación
entre dos variables.

Método de mínimos cuadrados: Técnicas para ajustar una línea recta a través de un
conjunto de puntos de tal manera que la suma de las distancias verticales cuadradas
desde los n puntos a la línea se minimiza.

Pendiente: Constante para cualquier línea recta dada cuyo valor representa qué tanto el
cambio de unidad de la variable independiente cambia la variable dependiente.

Regresión: Proceso general que consiste en predecir una variable a partir de otro
mediante medios estadísticos, utilizando datos anteriores.

Regresión múltiple: Proceso estadístico mediante el cual varias variables se utilizan para
predecir otra variable.

Relación curvilínea: Asociación entre dos variables que es descripta por una línea curva.

Relación directa: Relación entre dos variables en las que, al incrementarse el valor de la
variable independiente, decrece la variable dependiente.

PROFESOR: CDOR. LUCAS DALL’AGATA 110


UNIDAD III ESTADÍSTICA

Relación inversa: Relación entre dos variables en la que, al incrementarse la variable


independiente, decrece la variable dependiente.

Relación lineal: Tipo particular de asociación entre dos variables que pueden describirse
matemáticamente mediante una línea recta.

Variable dependiente: La variable que tratamos de predecir en el análisis de regresión.

Variables independientes: Variable/s conocida/s en el análisis de regresión.

PROFESOR: CDOR. LUCAS DALL’AGATA 111


ANEXO ESTADÍSTICA

ANEXO:

PROFESOR: CDOR. LUCAS DALL’AGATA i


ANEXO ESTADÍSTICA

El presente anex o tiene la finalidad, dar a conocer la s bondades de u na planilla de


calculo, que pe rmitirá agilizar los distintos c álculos estadísticos. Además de posibilitar
la presentación de los trabajos mediante planillas de calculo.

MEDIA ARITMÉTICA

Sintaxis
PROMEDIO(número1;número2;...)
Número1, número2, ... son entr e 1 y 30 argumentos numéricos cuyo promedio desea
obtener.

Observaciones
• Los ar gumentos deb en ser números o nombres, matrices o refer encias que
contengan números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.

A
1 Datos
2 10
3 7
4 9
5 27
6 2
Fórmula Descripción (Resultado)
= PROMEDIO(A2:A6) Promedio de los números anteriores (11)
=PROMEDIO(A2:A6;5) Promedio de los números anteriores y 5 (10)

MEDIANA

Devuelve l a m ediana de l os núm eros. L a m ediana es el núm ero que se encuentra en


medio de un conjunto d e números, es d ecir, la mitad de los númer os es ma yor qu e la
mediana y la otra mitad es menor.

Sintaxis
MEDIANA(número1;número2; ...)
Número1, número2, ... son entre 1 y 30 números cuya mediana desea obtener.

Observaciones

PROFESOR: CDOR. LUCAS DALL’AGATA ii


ANEXO ESTADÍSTICA

• Los ar gumentos deb en ser números o nombres, matrices o refer encias que
contengan números. Mi crosoft Ex cel examina todos los números en cada
argumento matricial o de referencia.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si la cantidad de números en el conjunt o es par, MEDIANA calcula el promedio
de los números centrales. Vea la segunda fórmula del ejemplo.

A
1 Datos
2 1
3 2
4 3
5 4
6 5
7 6
Fórmula Descripción (Resultado)
=MEDIANA(A2:A6) La mediana de los 5 primeros números de la lista anterior (3)
La mediana de todos los números anteriores, o el promedio de
=MEDIANA(A2:A7)
3 y 4 (3,5)

MODA

Devuelve el valor que se repite con m ás frecuencia en un a matriz o ran go de d atos. Al


igual que MEDIANA, MODA es una medida de posición.

Sintaxis
MODA(número1;número2; ...)
Número1, número2, ... son de 1 a 30 arg umentos cuya moda des ea calcular. También
puede utiliza r una ma triz únic a o una r eferencia ma tricial e n lug ar de a rgumentos
separados con punto y coma.

Observaciones
• Los argumentos d eben ser núme ros, nom bres, matrices o re ferencias que
contengan números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si el conjunto de dato s no contie ne puntos de datos duplicados, MODA
devuelve el valor de error #N/A.
• En un conjunto de val ores, la moda es el valor que se repite con ma yor
frecuencia; l a m ediana es el val or cent ral y l a m edia es el val or prom edio.

PROFESOR: CDOR. LUCAS DALL’AGATA iii


ANEXO ESTADÍSTICA

Ninguna d e estas medi das de la tendencia central tomada individualmente


proporciona una imagen completa de los datos. Supongamos que los datos están
agrupados en tres áreas, la mitad de las cuales es un valor bajo que se repite y la
otra mita d c onsiste e n dos va lores e levados. Ta nto PROMED IO como
MEDIANA devolverán un valor situado en una zona central relativamente vacía,
y MODA devolverá el valor bajo dominante.

A
1 Datos
2 5,6
3 4
4 4
5 3
6 2
7 4
Fórmula Descripción (Resultado)
=MODA(A2:A7) Moda, es decir, número que se repite con más frecuencia (4)

DESVIACIÓN ESTÁNDAR DE LA POBLACIÓN

Calcula la desviación estándar de la población total determinada por los argumentos. La


desviación estánd ar es l a medida de l a di spersión de los valores respecto a la media
(valor promedio).

Sintaxis
DESVESTP(número1; número2; ...)
Número1, número2, ... son de 1 a 30 argumentos numéricos cor respondientes a una
población. También pue de utilizar una matriz ún ica o una ref erencia matricial en lug ar
de argumentos separados con punto y coma.
Se pasan por alto los valores lógicos, como VERDADERO y FALSO, y de texto. Si los
valores lógicos y el texto no se deben pasar por alto, utilice la función de hoja de cálculo
DESVESTA.

Observaciones
• DESVESTP parte de la hipótesis de que los argumentos representan la población
total. Si sus datos repr esentan una muestra de la población, utilice DESV ESTP
para calcular la desviación estándar.
• Cuando el tamaño de la s muestras es importante, las funcion es DESVE ST y
DESVESTP devuelven aproximadamente el mismo valor.
• La desviación estándar se calcula utilizando los métodos "sesgado" o "n".
DESVESTP utiliza la fórmula siguiente:

PROFESOR: CDOR. LUCAS DALL’AGATA iv


ANEXO ESTADÍSTICA

∑(X − µ )2
σn =
n

Donde µ es la media de m uestra PROMED IO(número1,número2,…) y n es el tamaño


de la muestra.

A
1 Resistencia
2 1345
3 1301
4 1368
5 1322
6 1310
7 1370
8 1318
9 1350
10 1303
11 1299
Fórmula Descripción (Resultado)
Desviación estándar de la resistencia a la rotura, suponiendo
=DESVESTP(A2:A11)
que sólo se fabrican 10 herramientas (26,05455814)

DESVIACIÓN ESTÁNDAR DE LA MUESTRA

Calcula la desviación estándar en función de un ejemplo. L a desviación estándar es la


medida de la dispersión de los valores respecto a la media (valor promedio).

Sintaxis
DESVEST(número1; número2; ...)
Número1, número2, ... son de 1 a 30 argumentos numéricos cor respondientes a una
muestra de un a població n. También puede u tilizar una mat riz única o u na ref erencia
matricial en lugar de argumentos separados con punto y coma.

Observaciones
• DESVEST parte de la hipótesis de que los argumentos representan la muestra de
una población. Si sus d atos repres entan la pobla ción total, utilice DESV ESTP
para calcular la desviación estándar.
• La desviación estándar se calcula utilizando los métodos "no sesgada" o "n-1".

DESVEST utiliza la fórmula siguiente:

PROFESOR: CDOR. LUCAS DALL’AGATA v


ANEXO ESTADÍSTICA

∑(X − X )2
σ n −1 =
(n − 1)

Donde X es l a m edia de m uestra P ROMEDIO(número1,número2,…) y n es el tamaño


de la muestra.
Se pasan po r alto los v alores lógicos como VERDADERO y FALSO y el texto. Si los
valores lógicos y el texto no deben pasarse por alto, utilice la función de hoja de cálculo
DESVESTA.

A
1 Resistencia
2 1345
3 1301
4 1368
5 1322
6 1310
7 1370
8 1318
9 1350
10 1303
11 1299
Fórmula Descripción (Resultado)
Desviación estándar de l a resistencia a l a rot ura
=DESVEST(A2:A11)
(27,46391572)

PENDIENTE

Devuelve l a pendient e de una líne a de re gresión l ineal cr eada con l os dat os de l os


argumentos conocido_x y conocido_y. La pendiente es la distancia ve rtical dividida por
la distancia horizontal entre dos puntos cualesquiera de la recta, lo que cor responde a la
tasa de cambio a lo largo de la línea de regresión.

Sintaxis
PENDIENTE(conocido_y;conocido_x)
Conocido_y es un a matriz o rang o de celdas de puntos de dat os numéricos
dependientes.
Conocido_x es el conjunto de puntos de datos independientes.

Observaciones
• Los ar gumentos deb en ser números o nombres, matrices o refer encias que
contengan números.

PROFESOR: CDOR. LUCAS DALL’AGATA vi


ANEXO ESTADÍSTICA

• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas


vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si los argumentos conocido_y y conocido_x están vacíos o contienen un número
diferente de puntos de datos, PENDIENTE devuelve el valor de error #N/A.

A B
1 Valor de y conocido Valor de x conocido
2 2 6
3 3 5
4 9 11
5 1 7
6 8 5
7 7 4
8 5 4
Fórmula Descripción (Resultado)
Pendiente de la regresión lineal a través de los puntos
=PENDIENTE(A2:A8;B2:B8)
de datos anteriores (0,305556)

INTERSECCION EJE

Calcula el punto en el q ue una línea inters ecará el eje y utilizando los v alores X e Y
existentes. El punto de i ntersección se basa en el mejor ajuste de la línea de re gresión
trazado con los valores X y los valores Y. Utilice la función INTERSECCION.EJE para
determinar el valor d e la variable dependiente cuando la variable independiente es igual
a 0 (c ero). Por ejemplo, puede emplear la función INTERSECCION.EJE para predecir
la resistencia eléctrica d e un metal a 0 °C si los puntos de datos se h an tomado a
temperatura ambiente o superior.

Sintaxis
INTERSECCION.EJE(conocido_y;conocido_x)
Conocido_y es el conjunto de observaciones o datos dependientes.
Conocido_x es el conjunto de observaciones o datos independientes.

Observaciones
• Los ar gumentos deb en ser números o nombres, matrices o refer encias que
contengan números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si los arg umentos conoc ido_y y cono cido_x contienen un número dife rente de
puntos de datos o no c ontienen ning uno, INTERSECCION.EJE devuelve el
valor de error #N/A.

PROFESOR: CDOR. LUCAS DALL’AGATA vii


ANEXO ESTADÍSTICA

A B
1 Valor de y conocido Valor de x conocido
2 2 6
3 3 5
4 9 11
5 1 7
6 8 5
Fórmula Descripción (Resultado)
El punto en el que una lín ea intersecará el eje y
=INTERSECCION.EJE(A2:A6;B2:B6) utilizando los valores an teriores de x e y
(0,0483871)

TENDENCIA

Devuelve valores que resultan de una t endencia lineal. Ajusta una recta (calculada con
el método de mínimos cuadr ados) a los v alores de las matri ces de finidas por los
argumentos conocido_y y cono cido_x. Devuelve, a lo lar go de es a recta, los valores y
correspondientes a la matriz definida por el argumento nueva_matriz_x especificado.

Sintaxis
TENDENCIA(conocido_y;conocido_x;nueva_matriz_x;constante)
Conocido_y es el conjunto de valores de y que se conocen en la relación y = mx+b.
• Si la matriz definida por el argumento conocido_y ocupa una sola columna, cada
columna de conocido_x se interpreta como una variable separada.
• Si la matriz definida por el argumento conocido_y ocupa una sola fila, ca da fila
de conocido_x se interpreta como una variable separada.
Conocido_x es un conjunto opcional de valores x en la relación y = mx+b.
• La matriz conocido_x puede incluir uno o varios conjuntos de v ariables. Si se
usa una sola variable, conocido_y y conocido_x pueden ser rangos con cualquier
forma, si empre y cuando sus di mensiones sean iguales. Si se usa m ás d e una
variable, conocido_y tiene que ser un ve ctor (es decir, un rango compuesto por
una fila o por una columna).
• Si se omite conocido_x , se asume qu e ésta es la matriz {1;2;3;...} que tiene el
mismo tamaño que conocido_y.
Nueva_conocido_x son nuevos valores de x para los cuales s e desea q ue
TENDENCIA devuelva los valores de y correspondientes.
• El arg umento nueva_ma triz_x debe inclui r una columna (o una fila) par a cada
variable indep endiente, como ocurre con el ar gumento conocido_ x. Po r
consiguiente, si conoc ido_y ocupa una sol a columna, conocido_ x y
nueva_matriz_x deben tener el mismo número de columnas. Si conocido_ y
ocupa una sola fila, conocido_x y nueva_matriz_x deben tener el mismo número
de filas.
• Si se omite nueva_matriz_x, se asume que es la misma que conocido_x.

PROFESOR: CDOR. LUCAS DALL’AGATA viii


ANEXO ESTADÍSTICA

• Si se omite conocido_x y nueva_matriz_x, se asume que son la matriz {1;2;3;...}


que tiene el mismo tamaño que conocido_y.
Constante es un val or lógico qu e especifica si se ha de forz ar a la constante b a ser
igual a 0.
• Si el arg umento const ante es VER DADERO o se omite, b se cal cula
normalmente.
• Si el argumento constante es FALSO, b se establece como igual a 0 y los valores
m se ajustan de manera que y = mi.

Observaciones
• Para obt ener i nformación sobre cóm o Mi crosoft Ex cel aj usta una l ínea rect a a
sus datos, vea ESTIMACION.LINEAL.
• Puede utiliza r TENDENC IA par a a justar una c urva polinómic a c alculando la
regresión resp ecto a una m isma vari able el evada a pot encias di ferentes. P or
ejemplo, supong amos que la columna A contiene valores y y la c olumna B
contiene valores x. Podría escribir x^2 en l a columna C, x^3 en l a columna D y
así sucesivamente, y después calcular la regresión entre las columnas B y D en
contraposición a la columna A.
• Las fórmulas qu e de vuelven matric es deb en insertarse como fó rmulas
matriciales.
• Cuando introduz ca una constante matr icial para un ar gumento como
conocido_x, utilice punt o y coma para sep arar los valores de una misma fila y
barra inversa para separar las filas.

A B C
Fórmula (Cost o
1 Mes Costo
correspondiente)
2 1 $133,890 = TENDENCIA(B2:B13; A2:A13)
3 2 $135,000
4 3 $135,790
5 4 $137,300
6 5 $138,130
7 6 $139,100
8 7 $139,900
9 8 $141,120
10 9 $141,890
11 10 $143,230
12 11 $144,000
13 12 $145,290
14 Mes Fórmula (Costo pronosticado)
=TENDENCIA(B2:B13;
15 13
A2:A13;A15:A19)
16 14

PROFESOR: CDOR. LUCAS DALL’AGATA ix


ANEXO ESTADÍSTICA

17 15
18 16
19 17

Nota La fórmula del ejemplo debe escribirse como fórmula matricial. Una vez copiado
el ej emplo en una hoj a de cál culo en bl anco, se leccione el r ango C 2:C13 o B15: B19
comenzando por la celda de la fó rmula. Presione F 2 y, a continuación,
CTRL+MAYÚS+ENTRAR. Si la f órmula no s e intr oduce e n f ormato ma tricial, los
resultados sencillos son 133953,3333 y 146171,5152.

ERROR TIPICO XY

Devuelve e l er ror típic o de l va lor de y pr evisto pa ra c ada x de la r egresión. El e rror


típico es una medida de la cuantía de er ror en el p ronóstico del valor de y para un valor
individual de x.

Sintaxis
ERROR.TIPICO.XY(conocido_y;conocido_x)
Conocido_y es una matriz o un rango de puntos de datos dependientes.
Conocido_x es una matriz o un rango de puntos de datos independientes.

Observaciones
• Los ar gumentos deb en ser números o nombres, matrices o refer encias que
contengan números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si los argumentos conocido_y y conocido_x están vacíos o contienen un número
diferente d e puntos de datos, ERROR. TIPICO.XY devuelve el valor d e erro r
#N/A.

A B
1 Valor de y conocido Valor de x conocido
2 2 6
3 3 5
4 9 11
5 1 7
6 8 5
7 7 4
8 5 4
Fórmula Descripción (Resultado)
Error típico del valor de y previsto para cada x de la
=ERROR.TIPICO.XY(A2:A8;B2:B8)
regresión (3,305719)

PROFESOR: CDOR. LUCAS DALL’AGATA x


ANEXO ESTADÍSTICA

COEFICIENTE DE CORRELACION

Devuelve el coeficiente de correlación ent re do s ran gos d e celdas defi nidos por los
argumentos m atriz1 y matriz2. Use el coef iciente de correl ación par a determinar la
relación ent re dos propi edades. P or ej emplo, para ex aminar l a rel ación ent re l a
temperatura promedio de una localidad y el uso de aire acondicionado.

Sintaxis
COEF.DE.CORREL(matriz1;matriz2)
Matriz1 es un rango de celdas de valores.
Matriz2 es un segundo rango de celdas de valores.

Observaciones
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si los arg umentos matri z1 y mat riz2 tienen un número difer ente de pun tos de
datos, COEF.DE.CORREL devuelve el valor de error #N/A.
• Si el arg umento matriz 1 o matriz2 está vacío, o si s (la desviación estándar de
los val ores) es i gual a cero, C OEF.DE.CORREL d evuelve el valor de erro r
#¡DIV/0!

A B
1 Datos1 Datos2
2 3 9
3 2 7
4 4 12
5 5 15
6 6 17
Fórmula Descripción (Resultado)
Coeficiente d e correlación de los dos conjunto s de
=COEF.DE.CORREL(A2:A6;B2:B6)
datos anteriores (0,997054)

COEFICIENTE.R2

Devuelve el cu adrado del coeficiente de correlación de momento del producto Pearson


mediante los puntos de da tos de conocido_ y y cono cido_x. Para obtener más
información, consulte PEARSON. El valor R cuadrado puede interp retarse como la
proporción de la varianza de y que puede atribuirse a la varianza de x.

Sintaxis
COEFICIENTE.R2(conocido_y;conocido_x)
Conocido_y es una matriz o un rango de puntos de datos.
Conocido_x es una matriz o un rango de puntos de datos.

PROFESOR: CDOR. LUCAS DALL’AGATA xi


ANEXO ESTADÍSTICA

Observaciones
• Los ar gumentos deb en ser números o nombres, matrices o refer encias que
contengan números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si los argumentos conocido_y y conocido_x están vacíos o contienen un número
diferente de puntos d e datos, COEFI CIENTE.R2 devuelve el valo r de erro r
#N/A.

A B
1 Valor de y conocido Valor de x conocido
2 2 6
3 3 5
4 9 11
5 1 7
6 8 5
7 7 4
8 5 4
Fórmula Descripción (Resultado)
Cuadrado del coeficiente de correlación de mome nto del
=COEFICIENTE.R2(A2:A8;B2:B8) producto Pearson mediante los puntos de datos anteriores
(0,05795)

AGREGAR UNA LÍNEA DE TENDENCIA A UN GRÁFICO

1. Haga clic en la serie de datos en la que desea agregar la línea de tendencia o la


media móvil.
2. En el menú Gráfico, haga clic en la opción Agregar línea de tendencia.
3. En la ficha Tipo, haga clic en el tipo de línea d e tendencia de r egresión o en la
media móvil que desee.
o Si se sel ecciona Polinomial, introduz ca en el cuadro Orden el val or
potencial más alto de la variable independiente.
o Si se sel ecciona Media m óvil, introduz ca en el cuadro Período el
número de períodos que va a utilizarse para calcular la media móvil.
Notas
• El cuadro A partir de las series muestra todas las series de dat os en el gráfico
que permiten líneas de tendencia. Par a a gregar una lín ea de tenden cia a otra
serie, h aga clic en el n ombre co rrespondiente en el cuad ro y s eleccione las
opciones que desee.
• Si se ag rega una media móvil a un g ráfico XY ( Dispersión), la media móvil se
basará en el o rden d e l os val ores X t razados e n el gráfico. P ara obt ener el

PROFESOR: CDOR. LUCAS DALL’AGATA xii


ANEXO ESTADÍSTICA

resultado deseado, pued e ser neces ario or denar l os val ores X ant es de ag regar
una media móvil.

PROFESOR: CDOR. LUCAS DALL’AGATA xiii

You might also like