You are on page 1of 72

Aspectos generales de estadística

Importancia de la estadística: la estadística resulta fundamental para conocer el


comportamiento de ciertos eventos, por lo que ha adquirido un papel clave en la
investigación. Se usa como un valioso auxiliar y en los diferentes campos del
conocimiento y en las variadas ciencias. Es un lenguaje que permite comunicar
información basada en datos cuantitativos. Es tan importante que casi no existe
actividad humana en que no esté involucrada la Estadística. Las decisiones más
importantes de nuestra vida se toman con base en la aplicación de la Estadística.
Pongamos algunos ejemplos.
La estadística es de gran importancia en la investigación científica debido a
que:
a. Permite una descripción más exacta.
b. Nos obliga a ser claros y exactos en nuestros procedimientos y en nuestro
pensar.
c. Permite resumir los resultados de manera significativa y cómoda.
d. Nos permite deducir conclusiones generales.

La evolución de la estadística ha llegado al punto en que su proyección se


percibe en casi todas las áreas de trabajo. También abarca la recolección,
presentación y caracterización de información para ayudar tanto en el análisis e
interpretación de datos como en el proceso de la toma de decisiones. La estadística
es parte esencial de la forma profesional, es hasta cierto punto una parte necesaria
para toda profesión.

Evolución histórica de la estadística: el término estadística es ampliamente


escuchada y pronunciado a diario desde diversos sectores activos de la sociedad.
Sin embargo hay una gran diferencia entre el sentido del término cuando se utiliza
en el lenguaje corrientemente (generalmente al anteceder una citación de carácter
numérico) y lo que la estadística significa como ciencia la razón o razones que
motivaron al hombre en un momento de su desarrollo a tomar en cuenta datos con
propósitos estadísticos, tal vez la hallemos si tenemos en cuenta que es difícil
imaginar un organismo social, sea cual fuere la época, sin la necesidad, casi
instintiva, de recoger aquellas hechos que aparecen como actos esenciales de la
vida; y así, al situarnos en una etapa del desarrollo de la estadística podemos
pensar que se convirtió en una aritmética estatal para asistir al gobernante que
necesitaba conocer la riqueza y el número de los súbditos con el objeto de recaudar
impuestos o presupuestar la guerra Desde los comienzos de la civilización han
existido formas sencillas de estadística, pues ya se utilizaban representaciones
gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas
para contar el número de personas, animales o ciertas cosas. Según Federico
Engels en su obra 'El papel del trabajo en la transformación del mono en hombre";
el dominio de la humanidad de la utilización del fuego, transformo al hombre de
errante (cazador o recolector) en sedentario, lo que pronto lo obligó a delimitar su
coto de caza y lo transformo en la "propiedad privada" Como consecuencia de esto
apareció inmediatamente la necesidad imperiosa de saber cuál era la riqueza que
se poseía (contar); surgieron entonces las matemáticas y las estadísticas. Hacia el
año 3000 a.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar
datos tabulados sobre la producción agrícola y de los géneros vendidos o
cambiados mediante trueques.

Definición estadística:
 ¿Cuál su objetivo? La estadística es una ciencia que facilita la toma de
decisiones: mediante la presentación ordenada de los datos observados en
tablas y en gráficos estadísticos, red.

 ¿Cuál es el concepto de estadística?


 La estadística es una ciencia que estudia la recolección, análisis e
interpretación de datos, ya sea para ayudar en la resolución de la toma
de decisiones o para explicar condiciones regulares o irregulares de algún
fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o
condicional. Sin embargo estadística es más que eso, en otras palabras
es el vehículo que permite llevar a cabo el proceso relacionado con la
investigación científica. Es transversal a una amplia variedad de
disciplinas, desde la física hasta las ciencias sociales, desde las ciencias
de la salud hasta el control de calidad. Se usa para la toma de decisiones
en áreas de negocios o instituciones gubernamentales.

 "La estadística es una ciencia que comprende la recopilación, tabulación,


análisis e interpretación de los datos cuantitativos y cualitativos".
Kennedy-Neville.

 "La estadística constituye una disciplina con ilimitadas posibilidades de


aplicación en diversos campos de la actividad humana". H.B. Christensen.

 "Estadística es un grupo de técnicas o metodología que se desarrollaron


para la recopilación, presentación y análisis de los datos y para el uso de
tales datos." Neter-Waserman.

La estadística como ciencia y como método

Planteamiento general: el hombre busca constantemente una explicación racional


para los fenómenos que lo rodean. El método científico le ayuda a organizar
adecuadamente la observación de los fenómenos y a determinar las leyes que lo
rigen. En la gran mayoría de las situaciones reales la determinación de tales leyes
se complica por la multicasualidad del fenómeno estudiado.

Método científico: podemos distinguir las siguientes etapas:


a. Detección y enunciado del problema.
b. Formulación de una hipótesis.
c. Deducción de una consecuencia verificada.
d. Verificación de la consecuencia.
e. Conclusión.

Método estadístico: nos proporciona las técnicas necesarias para recolectar y


analizar la información requerida. Podríamos distinguir una fase de planificación y
otra de ejecución.

a. Planificación:
1. Definición de objetivos.
2. Definición del universo.
3. Diseño de la muestra.
4. Definición de las unidades de observación, escalas de clasificación
unidades.
5. Preparación del plan de tabulación y análisis.

b. Ejecución:
1. Recolección de la información.
2. Elaboración de la información.
3. Análisis de los resultados.

Relación de la estadística con otras ciencias

Es una ciencia de aplicación práctica casi universal en todos los campos


científicos:

a. En las Ciencias naturales, en la Mecánica estadística, en Física cuántica, en


mecánica de fluidos o en la teoría cinética de los gases, entre muchos otros
campos.

b. En las Ciencias Sociales y Económicas es un pilar básico en el desarrollo de


la demografía y la sociología aplicada.
c. En Economía suministra los valores que ayuda a descubrir las interrelaciones
entre múltiples parámetros macro y micro económicos.

d. En las Ciencias Médicas permite establecer pautas sobre la evolución de las


enfermedades y los enfermos, los índices de mortalidad asociados a
procesos morbosos, el grado de eficacia de un medicamento, etc.

Aspectos básicos

a. De conocimientos científicos: la estadística es una ciencia formal que


estudia la recolección, análisis e interpretación de datos de una muestra
representativa, ya sea para ayudar en la toma de decisiones o para explicar
condiciones regulares o irregulares de algún fenómeno o estudio aplicado,
de ocurrencia en forma aleatoria o condicional Sin embargo, la estadística es
más que eso, es decir, es la herramienta fundamental que permite llevar a
cabo el proceso relacionado con la investigación científica.

b. Prácticos (descriptivos): la estadística descriptiva es una gran parte de


la estadística que se dedica a recolectar, ordenar, analizar y representar un
conjunto de datos, con el fin de describir apropiadamente las características
de este. Este análisis es muy básico. Aunque hay tendencia a generalizar a
toda la población, las primeras conclusiones obtenidas tras un análisis
descriptivo, es un estudio calculando una serie de medidas de tendencia
central, para ver en qué medida los datos se agrupan o dispersan en torno a
un valor central. Esto es lo que podría ser un concepto aproximado.

Tipos de datos estadísticos: existen varios tipos de datos estadísticos, que se


agrupan en dos clasificaciones: datos de características cuantitativas y cualitativas.
Los datos de características cuantitativas: Son aquellos que se pueden
expresar numéricamente y se obtienen a través de mediciones y conteos. Un dato
cuantitativo se puede encontrar en cualquier disciplina; sicología, contabilidad,
economía, publicidad. Datos de características cualitativas: son aquellos que no se
pueden expresar numéricamente. Estos datos se deben convertir a valores
numéricos antes de que se trabaje con ellos. Los datos de características
cualitativas se clasifican en:

1. Datos nominales: comprenden categorías, como el sexo, carrera de


estudio, material de los pisos, calificaciones, etc. Las características
mencionadas no son numéricas por su naturaleza, pero cuando se aplican,
ya sea en una población o una muestra, es posible asignar a cada elemento
una categoría y contar él número que corresponde a cada elemento. De esta
manera estas características se convierten en numéricas.

2. Datos jerarquizados: es un tipo de datos de características cualitativas que


se refiere a las evaluaciones subjetivas cuando los conceptos se jerarquizan
según la preferencia o logro. Las posiciones de una competencia de atletismo
se jerarquizan en primer lugar, segundo lugar, tercer lugar, etc.

3. Existe otro tipo de datos que por su naturaleza especial pueden ser
clasificados según tu conveniencia, estos son los cronológicos, por ejemplo
los años de la historia 2005,2006, 2007 puedes usarlos como discretos (años
enteros), continuos (años con subdivisiones en decimales de año), nominales
(por el nombre) o jerarquizados (ordenados), depende del uso.

Variables:
1. Variables continúas: es cuando los datos estadísticos se generan a través
de un proceso de medición se dice que estos son datos continuos; son
aquellas que aceptan valores en cualquier punto fraccionario de un
determinado intervalo.
2. Variables discretas: se generan a través de un proceso de conteo. Son
aquellas que no aceptan valores en puntos fraccionarios dentro de un
determinado intervalo, o sea, son aquellas que no aceptan fraccionamiento
dentro de un determinado intervalo.
Una variable discreta es una variable que solo puede tomar valores
dentro de un conjunto numerable, es decir, no acepta cualquier valor sino
solo aquellos que pertenecen al conjunto. En estas variables se dan de modo
inherente separaciones entre valores observables sucesivos.

Métodos de investigación estadística

1. Censo: recolectar, compilar, evaluar, analizar y publicar o diseminar en


cualquier otra forma, los datos que pertenecen en un momento determinado,
a todas las personas de un país o de una parte bien delimitada del mismo.
Características: Un buen censo debe satisfacer cuatro requerimientos
básicos:

a. Enumeración individual: la idea básica que hay tras un censo es la de


enumerar separadamente a cada individuo con sus correspondientes
características que también deben ser anotadas en forma separada.

b. Universalidad: el censo debe cubrir todo el país o una parte bien


delimitada del mismo (región, departamento, municipio, etc.) si es que
sólo se desea una cobertura parcial. El censo de población debe incluir a
todas las personas que estén presentes o que residan en el territorio antes
delimitado.

c. Simultaneidad: cada persona debe ser enumerada, tan cerca como sea
posible, de un punto bien definido en el tiempo (por ejemplo la media
noche anterior al día del censo) con el fin de que el censo sea un reflejo
exacto, hasta donde sea posible, de la población en un momento
determinado.

2. Muestreo Estadístico: es la actividad por la cual se toman ciertas muestras


de una población de elementos de los cuales vamos a tomar ciertos criterios
de decisión, el muestreo es importante porque a través de él podemos hacer
análisis de situaciones de una empresa o de algún campo de la sociedad. En
estadística un muestreo es la técnica para la selección de una muestra a
partir de una población.
El muestreo: es una herramienta de la investigación científica. Su
función básica es determinar que parte de una realidad en estudio (población
o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha
población.

Métodos de recolección de datos

1. La entrevista: las entrevistas se utilizan para recabar información en forma


verbal, a través de preguntas que propone el analista. En otras palabras, la
entrevista es un intercambio de información que se efectúa cara a cara. Es
un canal de comunicación entre el analista y la organización.

a. Entrevista Personal: Es una conversión generalmente entre 2 personas.

b. Entrevista por Teléfono Presenta las mismas características que la


anterior con la variante de que se hace por medio de un aparato
telefónico.

c. Cuestionario Auto aplicados o por Correo: Consiste en enviar la


información con las preguntas necesarias por correo o algún otro medio.
d. Observación Directa Es usada cuando se requieren encuestas que no
requieren mediciones en las personas. Además no existe una
participación directa en el área en donde se encuentra la información.

e. Vía electrónica Modernamente se ha adoptado la facilidad de utilizar las


Tecnologías de la Información y Comunicación TIC a través del uso del
Internet para enviar encuestas y publicar cuestionarios que el entrevistado
deberá llenar y remitir por la misma vía.

Las fuentes de información directa o indirecta

¿Qué es una fuente? Una fuente de información es una persona u objeto que
provee datos.

Se distinguen dos tipos fundamentales de fuentes de información:

1. Fuentes primarias (o directas): son los datos obtenidos "de primera mano",
por el propio investigador o, en el caso de búsqueda bibliográfica, por
artículos científicos, monografías, tesis, libros o artículos de revistas
especializadas originales, no interpretados.
Una fuente primaria es aquella que provee un testimonio o evidencia
directa sobre el tema de investigación. Las fuentes primarias son escritas
durante el tiempo que se está estudiando o por la persona directamente
envuelta en el evento. Algunos tipos de fuentes primarias son:

 documentos originales ,
 trabajos creativos,
 artefactos,
 diarios,
 novelas prendas,
 instrumentos musicales,
 minutas,
 arte visual,
 ropa entrevistas,
 poesía,
 apuntes de investigación,
 noticias,
 fotografías,
 autobiografías,
 cartas,
 discursos, entre otras.

La recopilación de estos datos debe ser lo más estructurada posible con el


fin de alcanzar una máxima calidad de información que permita tomar decisiones
acertadas.

Planeación de la recopilación de datos primarios


Enfoques de Métodos de Plan de la Instrumentos de
investigación contacto muestra investigación

 Observación.  Correo.  Unidad de  Cuestionario.


muestreo.
 Encuesta.  Teléfono  Instrumentos
personal.  Tamaño de mecánicos.
 Experimento. muestra.

 Procedimiento
de muestreo.

Investigación por Encuesta. Es la más adecuada para procurar información


descriptiva. Preguntando directamente a los consumidores se pueden hallar datos
relativos a sus creencias, preferencias, opiniones, satisfacción, comportamientos,
etc. Las encuestas pueden ser directas, cuando se realizan preguntas directas
acerca del comportamiento, intereses o gustos del encuestado, por ejemplo ¿tomó
usted Pepsi durante la última semana?, o indirecta, por ejemplo ¿quiénes considera
usted que son habituales consumidores de Pepsi?

2. Fuentes secundarias: consisten en resúmenes, compilaciones o listados de


referencias, preparados en base a fuentes primarias. Es información ya
procesada. Una fuente secundaria interpreta y analiza fuentes primarias.
Algunos tipos de fuentes secundarias son:

 libros de texto,
 artículos de revistas,
 crítica literaria y comentarios enciclopedias,
 biografías.

Fuentes de datos EJEMPLOS


secundarios
La SAT Estados financieros de la firma,
Fuentes internas soportes contables como facturas, registros
de inventarios y otros informes de
investigación
EL INE Dependen de cada país, por lo
Publicaciones general hay departamentos especializados en
gubernamentales cada gobierno para llevar estadísticas de los
diferentes sectores de la actividad económica
Publicaciones También en cada país hay diferentes medios
periódicas y libros escritos o de otro tipo que revelan las
tendencias del mercado
Datos comerciales Son los que proveen firmas especializadas,
referencias comerciales.
Estos datos generalmente se consiguen con mayor facilidad, rapidez y a
menor costo que los primarios, pero presentan el inconveniente de no proporcionar
la totalidad de la información necesaria.

Confiabilidad de las fuentes: al realizar una investigación, hay que tener en cuenta
el valor y confiabilidad de las fuentes. El valor se refiere a la relevancia que pueda
tener una fuente de información. La confiabilidad se refiere a qué tanto podemos
creer en la información que nos brinda.

Principales pasos de una investigación estadística:


1. Formulación del problema: es la fase más importante y se debe de realizar
con elementos de la problemática que se investiga, definir un problema es
señalar todos los elementos, aspectos, características en forma entendible y
precisa, con el fin de que otras personas (lectores) puedan entender el
proceso de la investigación.

2. Selección y determinación de la población o muestra y las características


contenidas que se desean estudiar. En el caso de que se desee tomar una
muestra, es necesario determinar el tamaño de la misma y el tipo de
muestreo a realizar.

3. Desarrollo de un método para la obtención de los datos: una vez


obtenidos los indicadores de los elementos teóricos y definido el diseño de la
investigación, será necesario definir las técnicas de recolección de datos para
construir los instrumentos que nos permitan obtenerlos de la realidad. Un
instrumento de recolección de datos es cualquier recurso de que se vale el
investigador para acercarse a los fenómenos y extraer de ellos información.
4. Obtención de los datos: esta puede ser realizada mediante la observación
directa de los elementos, la aplicación de encuestas y entrevistas, y la
realización de experimentos.

5. Clasificación, tabulación y organización de los datos: la clasificación


incluye el tratamiento de los datos considerados anómalos que pueden en un
momento dado, falsear un análisis de los indicadores estadísticos. La
tabulación implica el resumen de los datos en tablas y gráficos estadísticos.
Análisis descriptivo de los datos. El análisis se complementa con la obtención
de indicadores estadísticos como las medidas: de tendencia central.

6. Elaboración de conclusiones: se construye el informe final

Etapas de la investigación estadística:


Presentación de la información: finalizada la recolección de datos, su
clasificación, tabulación, procesamiento y análisis. Estamos ante el dilema de
¿Cómo presentar la información?
El análisis de los datos se facilita si tiene una adecuada presentación Se
requiere compartir los datos con otras personas.

1. Textual: formas básicas de presentación de la información Son de uso


restringido y específico. Es útil cuando se tiene poca información Es muy
utilizado en las revistas o los periódicos .Consiste en introducir dentro del
texto los datos que se consideran importantes o sobre los que se quiera
llamar la atención del lector.

 Ventajas: se puede resaltar cifras individuales Se puede explicar


mejor ciertos aspectos.

 Desventajas: no se puede incluir mucha información Se requiere una


lectura total para entender lo que se quiere explicar.

2. Presentación semitabular: es útil cuando se tienen pocos datos clasificados


en forma simple. Consiste en introducir separado del texto aquellos datos
que se consideran importantes o sobre los que se quiera llamar la atención
del lector. Se hace una explicación o se introduce una idea y cuando el lector
está listo para comprenderla se le presentan los datos que la respaldan o
fortalecen y se vuelve a reafirmar el concepto o idea comentando los datos.

 Ventajas: se puede resaltar cifras individuales Se puede explicar mejor


ciertos aspectos Permite dar mayor importancia a las cifras.

 Desventajas: no se puede incluir mucha información Se requiere una


lectura total para entender lo que se quiere explicar El número de cifras
que pueden presentarse es menor que en el textual.
3. Presentación en cuadro (Tabular): esta es la más utilizada por los
investigadores para comunicar los datos o la información de los estudios
realizados y lo hacen mediante el uso de cuadros. Una ordenación
sistemática de datos en filas y columnas, de acuerdo al criterio o criterios de
clasificación que interesen y, en forma tal, que pueden ser interpretados
rápidamente, extraer conclusiones de ellos y hacer comparaciones. Son la
forma más completa y clara de presentar datos numéricos cuando se tiene
un conjunto grande de datos sirven para dar énfasis a ciertas cifras, hacer
comparaciones y facilitar el análisis de los datos. Requisitos de un cuadro
bien elaborado:

 Comunicar claramente la información.


 Explicarse solo sin necesitar texto adicional.
 Facilitar la interpretación de los datos.

Tipos de cuadro:
1. Generales o de referencia: se utilizan para presentar resultados de censos,
encuestas y otros con el mayor detalle. Son cuadros primarios Abarcan toda
la información disponible y se utilizan para análisis posteriores Usa mucho
el ordenamiento alfabético y usual para facilitar la consulta.

2. De resumen: son pequeños y hechos de forma que se resalten los datos


con la mayor intensidad posible. Son cuadros secundarios Su propósito es
facilitar el análisis de los datos.

Grafica de diversa índole:


1. En su gran mayoría los gráficos se inscriben en un sistema de ejes
coordenados, siendo el circular o de sectores una excepción. En uno de los
ejes se representan las frecuencias observadas o los valores calculados a
partir de los datos, mientras que en el otro se representa el criterio principal
de clasificación.

2. Componentes de un gráfico: Un gráfico, al igual que una tabla, está


compuesto de las partes siguientes:
a. Identificación del gráfico.
b. Título del gráfico.
c. Cuerpo del gráfico o gráfico propiamente dicho.
d. Pie del gráfico.

3. Diferentes tipos de gráficos:


a. Gráfico de barras simples: se usa fundamentalmente para representar
distribuciones de frecuencias de una variable cualitativa o cuantitativa
discreta y, ocasionalmente, en la representación de series cronológicas o
históricas .

b. Gráfico circular, de sectores o pastel: se usa, fundamentalmente, para


representar distribuciones de frecuencias relativas (%) de una variable
cualitativa o cuantitativa discreta.
c. Gráfico de barras múltiples: se usa para representar las frecuencias
observadas en clasificaciones dobles, es decir, cuando son dos los
criterios de clasificación, para variables cualitativas o cuantitativas
discretas.

d. Gráfico de barras compuestas: su objetivo es la representación de las


frecuencias relativas (%) observadas en clasificaciones dobles, es decir,
cuando son dos los criterios de clasificación, para variables cualitativas o
cuantitativas discretas.

e. Histograma: este gráfico se usa para representar una distribución de


frecuencias de una variable cuantitativa continua. Habitualmente se
representa la frecuencia observada en el eje Y, y en el eje X la variable.
La escala del eje correspondiente a la variable se rotula con los límites
inferiores de notación de las clases consideradas y se agrega al final el
que le correspondería a una clase subsiguiente inexistente. este tipo de
gráfico sólo es útil para presentar una distribución.
f. Polígono de frecuencias: se utiliza, al igual que el histograma, para
representar distribuciones de frecuencias de variables cuantitativas
continuas, pero como no se utilizan barras en su confección sino
segmentos de recta, de ahí el nombre de polígono. se usa cuando se
quiere mostrar en el mismo gráfico más de una distribución o una
clasificación cruzada de una variable cuantitativa continua con una
cualitativa o cuantitativa discreta, ya que por la forma de construcción del
histograma sólo se puede representar una distribución.

g. Gráfico de frecuencias acumuladas u ojiva: su objetivo, al igual que el


histograma y el polígono de frecuencias es representar distribuciones de
frecuencias de variables cuantitativas continuas, pero sólo para
frecuencias acumuladas. No se utilizan barras en su confección, sino
segmentos de recta, por ello no sólo es útil para representar una
distribución de frecuencias sino también cuando se quiere mostrar más
de una distribución o una clasificación cruzada.
La diferencia con el polígono de frecuencia es que la frecuencia
acumulada no se plotea sobre el punto medio de la clase, sino al final de
la misma, ya que representa el número de individuos acumulados hasta
esa clase.

h. Gráfico aritmético simple: este es uno de los más sencillos de


confeccionar. Su uso estadístico fundamental es en la representación de
series cronológicas, y en casos particulares, como el del Crecimiento y
Desarrollo Humanos, para representar los valores promedio o
posicionales (medias, medianas y percentiles, de muchas dimensiones:
peso para la edad, peso para la talla y talla para la edad, Uno de los ejes
( el horizontal) se usa para la unidad de tiempo estudiada: años, días, etc.
En el otro eje se representa la frecuencia o el indicador calculado a partir
de esos datos
Conclusiones:
1. Los gráficos se reciben con agrado por parte de los editores y lectores, pero
la apariencia es lo menos importante, el objetivo de la presentación gráfica
es mejorar la presentación del contenido científico.

2. Si el contenido de los resultados se puede hacer de forma textual, no se


recomienda la presentación gráfica, ya que eleva los costos de publicación.

3. El objetivo básico de un gráfico es transmitir la información de forma tal que


pueda ser captada rápidamente, de un golpe de vista, un gráfico debe ser
ante todo sencillo y claro, a pesar de su aspecto artístico, ya que se elabora
para ser incluido en un trabajo científico.

Media aritmética
En matemáticas y estadística, la media aritmética (también
llamada promedio o simplemente media) de un conjunto finito de números es el
valor característico de una serie de datos cuantitativos objeto de estudio que parte
del principio de la esperanza matemática o valor esperado, se obtiene a partir de la
suma de todos sus valores dividida entre el número de sumandos. Cuando el
conjunto es una muestra aleatoria recibe el nombre de media muestral siendo uno
de los principales estadísticos muestrales.

Expresada de forma más intuitiva, podemos decir que la media (aritmética)


es la cantidad total de la variable distribuida a partes iguales entre cada observación.

Por ejemplo, si en una habitación hay tres personas, la media de dinero que
tienen en sus bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo
a partes iguales entre cada uno de ellos. Es decir, la media es una forma de resumir
la información de una distribución (dinero en el bolsillo) suponiendo que cada
observación (persona) tuviera la misma cantidad de la variable.

También la media aritmética puede ser denominada como centro de


gravedad de una distribución, el cual no está necesariamente en la mitad.
Una de las limitaciones de la media aritmética es que se trata de una medida
muy sensible a los valores extremos; valores muy grandes tienden a aumentarla
mientras que valores muy pequeños tienden a reducirla, lo que implica que puede
dejar de ser representativa de la población.

Mediana: en el ámbito de la estadística, la mediana representa el valor de la


variable de posición central en un conjunto de datos ordenados.

Existen dos métodos para el cálculo de la mediana:

1. Considerando los datos en forma individual, sin agruparlos.


2. Utilizando los datos agrupados en intervalos de clase.

A continuación veamos cada una de ellas.


Datos sin agrupar: sean los datos de una muestra ordenada
en orden creciente y designando la mediana como , distinguimos dos casos:

1. Si n es impar, la mediana es el valor que ocupa la posición una


vez que los datos han sido ordenados (en orden creciente o decreciente),

porque éste es el valor central. Es decir: .


Por ejemplo, si tenemos 5 datos, que ordenados son:
, , , , => El valor central es el

tercero: . Este valor, que es la mediana de ese conjunto


de datos, deja dos datos por debajo ( , ) y otros dos por encima de él (
, ).

2. Si n es par, la mediana es la media aritmética de los dos valores centrales.


Cuando es par, los dos datos que están en el centro de la muestra ocupan

las posiciones y . Es decir: .


Por ejemplo, si tenemos 6 datos, que ordenados son:
, , , , , => Hay dos valores que
están por debajo del y otros dos que quedan por encima del

siguiente dato . Por tanto, la mediana de este grupo de


datos es la media aritmética de estos dos

datos: .

Moda: en estadística, la moda es el valor con una mayor frecuencia en una


distribución de datos.

Hablaremos de una distribución bimodal de los datos adquiridos en una


columna cuando encontremos dos modas, es decir, dos datos que tengan la misma
frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que
encontramos tres modas. Si todas las variables tienen la misma frecuencia diremos
que no hay moda.

El intervalo modal es el de mayor frecuencia absoluta. Cuando tratamos con


datos agrupados antes de definir la moda, se ha de definir el intervalo modal.

La moda, cuando los datos están agrupados, es un punto que divide al


intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo,
que verifiquen que:

Siendo la frecuencia absoluta del intervalo modal las frecuencias absolutas


de los intervalos anterior y posterior, respectivamente, al intervalo modal.

Media geométrica: en matemáticas y estadística, la media aritmética (también


llamada promedio o simplemente media) de un conjunto finito de números es el
valor característico de una serie de datos cuantitativos objeto de estudio que parte
del principio de la esperanza matemática o valor esperado, se obtiene a partir de la
suma de todos sus valores dividida entre el número de sumandos. Cuando el
conjunto es una muestra aleatoria recibe el nombre de media muestral siendo uno
de los principales estadísticos muestrales.

Expresada de forma más intuitiva, podemos decir que la media (aritmética)


es la cantidad total de la variable distribuida a partes iguales entre cada observación.

Por ejemplo, si en una habitación hay tres personas, la media de dinero que
tienen en sus bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo
a partes iguales entre cada uno de ellos. Es decir, la media es una forma de resumir
la información de una distribución (dinero en el bolsillo) suponiendo que cada
observación (persona) tuviera la misma cantidad de la variable.

Media armónica: la media armónica, denominada H, de una cantidad finita de


números es igual al recíproco, o inverso, de la media aritmética de los recíprocos
de dichos valores y es recomendada para promediar velocidades.

Así, dados n números x1, x2, ... , xn la media armónica será igual a:

La media armónica resulta poco influida por la existencia de determinados


valores mucho más grandes que el conjunto de los otros, siendo en cambio sensible
a valores mucho más pequeños que el conjunto.

La media armónica no está definida en el caso de que exista algún valor nulo.

Medidas de disposición o variabilidad: las medidas de dispersión, también


llamadas medidas de variabilidad, muestran la variabilidad de una distribución,
indicando por medio de un número, si las diferentes puntuaciones de una variable
están muy alejadas de la mediana media. Cuanto mayor sea ese valor, mayor será
la variabilidad, cuanto menor sea, más homogénea será a la mediana media. Así se
sabe si todos los casos son parecidos o varían mucho entre ellos.
Para calcular la variabilidad que una distribución tiene respecto de su media,
se calcula la media de las desviaciones de las puntuaciones respecto a la media
aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan
dos clases de estrategias para salvar este problema.

Rango: el rango o recorrido estadístico es la diferencia entre el valor máximo y el


valor mínimo en un grupo de números aleatorios. Se le suele simbolizar con R.

Requisitos del rango:

a. Ordenamos los números según su tamaño.


b. Restamos el valor mínimo del valor máximo

Ejemplo:

Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor


unitario inmediatamente posterior al dato mayor menos el dato menor). Sus
valores se encuentran en un rango de:

 Medio Rango: el medio rango o rango medio de un conjunto de valores


numéricos es la media del mayor y menor valor, o la tercera parte del camino
entre el dato de menor valor y el dato de mayor valor. En consecuencia,
el medio rango es:

Ejemplo:

Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y
el dato de mayor valor Max= 8. El medio rango resolviéndolo mediante la
correspondiente fórmula sería:
Desviación estándar: la desviación estándar (DS/DE), también llamada desviación
típica, es una medida de dispersión usada en estadística que nos dice cuánto
tienden a alejarse los valores concretos del promedio en una distribución. De hecho,
específicamente, el cuadrado de la desviación estándar es "el promedio del
cuadrado de la distancia de cada punto respecto del promedio". Se suele
representar por una S o con la letra sigma .

La desviación estándar de un conjunto de datos es una medida de cuánto se


desvían los datos de su media. Esta medida es más estable que el recorrido y toma
en consideración el valor de cada dato.

Distribución de probabilidad continua: es posible calcular la desviación estándar


de una variable aleatoria continua como la raíz cuadrada de la integral

Donde

Distribución de probabilidad discreta: la DS es la raíz cuadrada de la varianza


de la distribución de probabilidad discreta

Cuando los casos tomados son iguales al total de la población se aplica la


fórmula de desviación estándar poblacional.
Así la varianza es la media de los cuadrados de las diferencias entre cada
valor de la variable y la media aritmética de la distribución.

Aunque esta fórmula es correcta, en la práctica interesa realizar inferencias


poblacionales, por lo que en el denominador en vez de n, se usa n-1 (Corrección de
Bessel) Esta ocurre cuando la media de muestra se utiliza para centrar los datos,
en lugar de la media de la población. Puesto que la media de la muestra es una
combinación lineal de los datos, el residual a la muestra media se extiende más allá
del número de grados de libertad por el número de ecuaciones de restricción - en
este caso una. Dado esto a la muestra así obtenida de una muestra sin el total de
la población se le aplica esta corrección con la fórmula desviación estándar
muestral.

Ejemplo:

Aquí se muestra cómo calcular la desviación estándar de un conjunto de datos. Los


datos representan la edad de los miembros de un grupo de niños: { 4, 1, 11, 13, 2,
7}

1. Calcular el promedio o media aritmética .

En este caso, N = 6 porque hay seis datos:


i = número de datos para sacar desviación estándar

Sustituyendo N por 6

Este es el promedio.

2. Calcular la desviación estándar

Sustituyendo N por 6;

Sustituyendo por 6,33

Éste es el valor de la desviación estándar.


Desviación media: en estadística la desviación absoluta promedio o, sencillamente
desviación media o promedio de un conjunto de datos es la media de las
desviaciones absolutas y es un resumen de la dispersión estadística. Se expresa,
de acuerdo a esta fórmula:

La desviación absoluta respecto a la media, , la desviación absoluta


respecto a la mediana, , y la desviación típica, , de un mismo conjunto de
valores cumplen la desigualdad:

Siempre ocurre que

donde el Rango es igual a:

El valor:

Ocurre cuando los datos son exactamente iguales e iguales a la media aritmética.

Coeficiente de variación: en estadística, cuando se desea hacer referencia a la


relación entre el tamaño de la media y la variabilidad de la variable, se utiliza el
coeficiente de variación.

Su fórmula expresa la desviación estándar como porcentaje de la media


aritmética, mostrando una mejor interpretación porcentual del grado de variabilidad
que la desviación típica o estándar. Por otro lado presenta problemas ya que a
diferencia de la desviación típica este coeficiente es variable ante cambios de
origen. Por ello es importante que todos los valores sean positivos y su media dé,
por tanto, un valor positivo. A mayor valor del coeficiente de variación mayor
heterogeneidad de los valores de la variable; y a menor C.V., mayor homogeneidad
en los valores de la variable. Suele representarse por medio de las siglas C.V.

Exigimos que:

Se calcula:

Donde es la desviación típica. Se puede dar en tanto por ciento calculando:

Propiedades y aplicaciones:

 El coeficiente de variación no posee unidades.

 El coeficiente de variación es típicamente menor que uno. Sin embargo, en


ciertas distribuciones de probabilidad puede ser 1 o mayor que 1.

 Para su mejor interpretación se expresa como porcentaje.

 Depende de la desviación típica, también llamada "desviación estándar", y


en mayor medida de la media aritmética, dado que cuando ésta es 0 o muy
próxima a este valor el C.V. pierde significado, ya que puede dar valores muy
grandes, que no necesariamente implican dispersión de datos.

 El coeficiente de variación es común en varios campos de la probabilidad


aplicada, como teoría de renovación y teoría de colas. En estos campos la
distribución exponencial es a menudo más importante que la distribución
normal. La desviación típica de una distribución exponencial es igual a su
media, por lo que su coeficiente de variación es 1. La distribuciones con un
C.V. menor que uno, como la distribución de Erlang se consideran de "baja
varianza", mientras que aquellas con un C.V. mayor que uno, como la
distribución hiperexponencial se consideran de "alta varianza". Algunas
fórmulas en estos campos se expresan usando el cuadrado del coeficiente
de variación, abreviado como S.C.V. (por sus siglas en inglés).

Otras medidas de análisis

Curva de Lorenz: la curva de Lorenz es una representación gráfica utilizada


frecuentemente para plasmar la distribución relativa de una variable en un dominio
determinado. El dominio puede ser el conjunto de hogares o personas de una región
o país, por ejemplo. La variable cuya distribución se estudia puede ser el ingreso de
los hogares o las personas. Utilizando como ejemplo estas variables, la curva se
trazaría considerando en el eje horizontal el porcentaje acumulado de personas u
hogares del dominio en cuestión y en el eje vertical el porcentaje acumulado del
ingreso. Su autoría es de Max O. Lorenz en 1905.

Cada punto de la curva se lee como porcentaje acumulativo de los hogares


o las personas. La curva parte del origen (0,0) y termina en el punto (100,100). Si el
ingreso estuviera distribuido de manera perfectamente equitativa, la curva
coincidiría con la línea de 45 grados que pasa por el origen (por ejemplo el 30% de
los hogares o de la población percibe el 30% del ingreso). Si existiera desigualdad
perfecta, o sea, si un hogar o persona poseyera todo el ingreso, la curva coincidiría
con el eje horizontal hasta el punto (100,0) donde saltaría el punto (100,100). En
general la curva se encuentra en una situación intermedia entre estos dos extremos.

Si una curva de Lorenz se encuentra siempre por encima de otra (y, por lo
tanto, está más cerca de la línea de 45 grados que la otra), entonces podemos decir,
sin ambigüedad, que la primera exhibe menor desigualdad que la segunda. Esta
comparación gráfica entre distribuciones de distintos dominios geográficos o
temporales es el principal empleo de las curvas de Lorenz. El indicador gráfico de
bienestar más usado es la Curva de Lorenz Generalizada (CLG), que es una
derivación de la curva de Lorenz habitual. La CLG sólo se diferencia de la de Lorenz
en que en la escala vertical no se representan las cantidades relativas acumuladas
sino las cantidades acumuladas (no relativas) divididas por el número N de
elementos de la población. La lógica pretendida es representar qué cantidad
absoluta corresponde a cada porcentaje de individuos. Para clarificar este aspecto,
supóngase que la curva de Lorenz normal de una población nos dice que el 50% de
los menos ricos poseen el 25% de la riqueza total. Se puede comprender que es
muy diferente la situación de bienestar de este 50% de la población según si la
riqueza total es muy pequeña o muy grande. Es obvio que es peor poseer el 50%
de una cantidad pequeña que poseer el 25% de una cantidad mucho mayor. El
dividir las cantidades acumuladas por el total de elementos N es necesario para
poder comparar riquezas entre poblaciones distintas que tengan un número
diferente de elementos: no es lo mismo una riqueza total de 1.000.000€ en un
conjunto de 10 personas que esa misma riqueza total en un conjunto formado por
1.000 personas.

Coeficiente de Gini: el coeficiente de Gini es una medida de la desigualdad ideada


por el estadístico italiano Corrado Gini. Normalmente se utiliza para medir
la desigualdad en los ingresos, dentro de un país, pero puede utilizarse para medir
cualquier forma de distribución desigual. El coeficiente de Gini es un número entre
0 y 1, en donde 0 se corresponde con la perfecta igualdad (todos tienen los mismos
ingresos) y donde el valor 1 se corresponde con la perfecta desigualdad (una
persona tiene todos los ingresos y los demás ninguno).

El índice de Gini es el coeficiente de Gini expresado en porcentaje y es igual


al coeficiente de Gini multiplicado por 100.

Aunque el coeficiente de Gini se utiliza sobre todo para medir la desigualdad


en los ingresos, también puede utilizarse para medir la desigualdad en la riqueza.
Este uso requiere que nadie disponga de una riqueza neta negativa.
Coeficiente de asimetría o sesgo: las medidas de asimetría son indicadores que
permiten establecer el grado de simetría (o asimetría) que presenta una distribución
de probabilidad de una variable aleatoria sin tener que hacer su representación
gráfica.

Como eje de simetría consideramos una recta paralela al eje de ordenadas


que pasa por la media de la distribución. Si una distribución es simétrica, existe el
mismo número de valores a la derecha que a la izquierda de la media, por tanto, el
mismo número de desviaciones con signo positivo que con signo negativo. Decimos
que hay asimetría positiva (o a la derecha) si la "cola" a la derecha de la media es
más larga que la de la izquierda, es decir, si hay valores más separados de la media
a la derecha. Diremos que hay asimetría negativa (o a la izquierda) si la "cola" a la
izquierda de la media es más larga que la de la derecha, es decir, si hay valores
más separados de la media a la izquierda.

Coeficiente de asimetría de Fisher: en teoría de la probabilidad y estadística, la


medida de asimetría más utilizada parte del uso del tercer momento estándar. La
razón de esto es que nos interesa mantener el signo de las desviaciones con
respecto a la media, para obtener si son mayores las que ocurren a la derecha de
la media que las de la izquierda. Sin embargo, no es buena idea tomar el momento
estándar con respecto a la media de orden 1. Debido a que una simple suma de
todas las desviaciones siempre es cero. En efecto, si por ejemplo, los datos están
agrupados en clases, se tiene que:

en donde representa la marca de la clase -ésima y denota la


frecuencia relativa de dicha clase. Por ello, lo más sencillo es tomar las
desviaciones al cubo.

El coeficiente de asimetría de Fisher, representado por , se define como:


donde es el tercer momento en torno a la media y es la desviación
estándar.

Si , la distribución es asimétrica positiva o a la derecha.

Si , la distribución es asimétrica negativa o a la izquierda.

Si la distribución es simétrica, entonces sabemos que . El recíproco


no es cierto: es un error común asegurar que si entonces la
distribución es simétrica (lo cual es falso).

Curtosis: en teoría de la probabilidad y estadística, la curtosis es una medida de la


forma. Así, las medidas de curtosis tratan de estudiar la proporción de la varianza
que se explica por la combinación de datos extremos respecto a la media en
contraposición con datos poco alejados de la misma. Una mayor curtosis implica
una mayor concentración de datos muy cerca de la media de la distribución
coexistiendo al mismo tiempo con una relativamente elevada frecuencia de datos
muy alejados de la misma. Esto explica una forma de la distribución de frecuencias
con colas muy elevadas y un con un centro muy apuntado.

El coeficiente de apuntamiento: de uso más extendido es el basado en el cuarto


momento con respecto a la media y se define como:

donde es el 4º momento centrado o con respecto a la media y es


la desviación estándar.

En ocasiones se emplea esta otra definición del coeficiente de curtosis:


Donde al final se ha sustraído 3 (que es la curtosis de la Normal) con objeto
de generar un coeficiente que valga 0 para la Normal y tome a ésta como referencia
de apuntamiento:

Tomando, pues, la distribución normal como referencia, una distribución puede ser:

 más apuntada y con colas más anchas que la normal –leptocúrtica.


 menos apuntada y con colas menos anchas que la normal- platicúrtica.
 la distribución normal es mesocúrtica.

En la distribución normal se verifica que , donde es el momento


de orden 4 respecto a la media y la desviación típica.

Así tendremos que:

 Si la distribución es leptocúrtica y
 Si la distribución es platicúrtica y
 Si la distribución es mesocúrtica y

Otra forma de medir la curtosis se obtiene examinando la fórmula de la


curtosis de la suma de variables aleatorias. Si Y es la suma de n variables
aleatorias estadísticamente independientes, todas con igual distribución X,

entonces , complicándose la fórmula si la curtosis se

hubiese definido como .

Simetría: la simetría (del griego σύν "con" y μέτρον "medida") es un rasgo


característico de formas geométricas, sistemas, ecuaciones y otros objetos
materiales, o entidades abstractas, relacionada con su invariancia bajo ciertas
transformaciones, movimientos o intercambios.

En condiciones formales, un objeto es simétrico en lo que concierne a


una operación matemática dada si el resultado de aplicar esa operación o
transformación al objeto, el resultado es un objeto indistinguible en su aspecto del
objeto original. Dos objetos son simétricos uno al otro en lo que concierne a un grupo
dado de operaciones si uno es obtenido de otro por algunas operaciones (y
viceversa). En la geometría 2D las clases principales de simetría de interés son las
que conciernen a las isometrías de un espacio euclídeo:

 traslaciones,

 rotaciones,

 reflexiones y reflexiones que se deslizan.

La simetría también se encuentra en organismos vivos.

Cuando hablamos de objetos físicos o elementos geométricos el concepto de


simetría está asociado a transformaciones geométricas tales como las rotaciones,
las reflexiones o las traslaciones. Dos simetrías sencillas son la simetría axial y
la simetría central. Así se dice que un objeto presenta:

 Simetría esférica si existe simetría bajo algún grupo de rotaciones,


matemáticamente equivale a que el grupo de simetría de un objeto físico o
entidad matemática sea SO(3).

 Simetría cilíndrica o simetría axial si existe un eje tal que los giros alrededor
de él no conducen a cambios de posición en el espacio, matemáticamente
está asociado a un grupo de isometría SO(2).

 Simetría reflectiva o simetría especular que se caracteriza por la existencia


de un único plano, matemáticamente está asociado al grupo SO(1) o su
representación equivalente . En dos dimensiones tiene un eje de simetría
y en tres dimensiones tiene un plano. El eje de simetría de una figura
bidimensional es una línea, si se construye una perpendicular, cualquier
punto que reposee en esta perpendicular a la misma distancia del eje de
simetría son idénticos. Otra manera de verlo es que si la forma se doblara
por la mitad sobre el eje, las dos mitades serían iguales. Por ejemplo, un
cuadrado tiene cuatro ejes de simetría, ya que hay cuatro formas diferentes
de doblarlo haciendo que sus bordes coincidan. Un círculo tendría infinitos
ejes de simetría por la misma razón.

 Simetría traslacional se da cuando la transformación deja


invariable a un objeto bajo un grupo de traslaciones discretas o continuas. El
grupo es discreto si la invariancia sólo se da para un número numerable de
valores de a y continuo si la invariancia se presenta para un conjunto infinito
no numerable de valores de a en caso contrario.

Algunos tipos de simetría que combinan dos o más de los anteriores tipos
son:

 Simetría antitraslacional que implica una reflexión en una línea o plano


combinado con una traslación a lo largo de ese mismo eje. El grupo de
simetría es isomorfo a .

 Simetría de rotorreflexión o simetría de rotación impropia, implica rotación


alrededor de un eje combinado con reflexión en un eje perpendicular al de
rotación.

 Simetría helicoidal implica un movimiento de rotación en torno a un eje dado


con un movimiento de traslación a lo largo de ese mismo eje. Puede ser de
tres clases:

1. Simetría helicoidal infinita.


2. Simetría helicoidal de n-ejes.
3. Simetría helicoidal que no se repite.

Teoría de probabilidades: es la parte de las matemáticas que estudia


los fenómenos aleatorios estocásticos. Estos deben contraponerse a los fenómenos
determinísticos, los cuales son resultados únicos y/o previsibles de experimentos
realizados bajo las mismas condiciones determinadas, por ejemplo, si se calienta
agua a 100 grados Celsius a nivel del mar se obtendrá vapor. Los fenómenos
aleatorios, por el contrario, son aquellos que se obtienen como resultado de
experimentos realizados, otra vez, bajo las mismas condiciones determinadas pero
como resultado posible poseen un conjunto de alternativas, por ejemplo, el
lanzamiento de un dado o de una moneda. La teoría de probabilidades se ocupa de
asignar un cierto número a cada posible resultado que pueda ocurrir en un
experimento aleatorio, con el fin de cuantificar dichos resultados y saber si un
suceso es más probable que otro.

Muchos fenómenos naturales son aleatorios, pero existen algunos como el


lanzamiento de un dado, donde el fenómeno no se repite en las mismas
condiciones, debido a que la características del material hace que no exista una
simetría del mismo, así las repeticiones no garantizan una probabilidad definida. En
los procesos reales que se modelizan mediante distribuciones de
probabilidad corresponden a modelos complejos donde no se conocen a priori todos
los parámetros que intervienen; ésta es una de las razones por las cuales
la estadística, que busca determinar estos parámetros, no se reduce
inmediatamente a la teoría de la probabilidad en sí.

En 1933, el matemático soviético Andréi Kolmogórov propuso un sistema de


axiomas para la teoría de la probabilidad, basado en la teoría de conjuntos y en
la teoría de la medida, desarrollada pocos años antes
por Lebesgue, Borel y Frechet entre otros.

Esta aproximación axiomática que generaliza el marco clásico de la


probabilidad, la cual obedece a la regla de cálculo de casos favorables sobre casos
posibles, permitió la rigorización de muchos argumentos ya utilizados, así como el
estudio de problemas fuera de los marcos clásicos. Actualmente, la teoría de la
probabilidad encuentra aplicación en las más variadas ramas del conocimiento,
como puede ser la física (donde corresponde mencionar el desarrollo de las
difusiones y el movimiento Browniano), o las finanzas (donde destaca el modelo de
Black y Scholes para la valuación de acciones).
Enfoques de probabilidad:

 El enfoque clásico: Dice que si hay x posibles resultados favorables a la


ocurrencia de un evento A y z posibles resultados desfavorables a la
ocurrencia de A, y todos los resultados son igualmente posibles y
mutuamente excluyente (no pueden ocurrir los dos al mismo tiempo),
entonces la probabilidad de que ocurra A es:

P(A) = __x__ (x+z)

El enfoque clásico de la probabilidad se basa en la suposición de que


cada resultado sea igualmente posible. Este enfoque es llamado enfoque a
priori porque permite, (en caso de que pueda aplicarse) calcular el valor de
probabilidad antes de observar cualquier evento de muestra.

Ejemplo: Si tenemos en una caja 15 piedras verdes y 9 piedras rojas. La


probabilidad de sacar una piedra roja en un intento es:

P(A) = ____9____= 0.375 o 37.5%9+15

El enfoque de frecuencia relativa: También llamado Enfoque Empírico,


determina la probabilidad sobre la base de la proporción de veces que ocurre
un evento favorable en un número de observaciones. En este enfoque no ese
utiliza la suposición previa de aleatoriedad. Porque la determinación de los
valores de probabilidad se basa en la observación y recopilación de datos.

Ejemplo: Se ha observado que 9 de cada 50 vehículos que pasan por una


esquina no tienen cinturón de seguridad. Si un vigilante de transito se para
en esa misma esquina un ida cualquiera ¿Cuál será la probabilidad de que
detenga un vehículo sin cinturón de seguridad?

P(A) = ___9___ = 0.18 o 18%50


Tanto el enfoque clásico como el enfoque empírico conducen a valores
objetivos de probabilidad, en el sentido de que los valores de probabilidad
indican al largo plazo la tasa relativa de ocurrencia del evento.

 El enfoque subjetivo: Dice que la probabilidad de ocurrencia de un evento


es el grado de creencia por parte de un individuo de que un evento ocurra,
basado en toda la evidencia a su disposición. Bajo esta premisa se puede
decir que este enfoque es adecuado cuando solo hay una oportunidad de
ocurrencia del evento. Es decir, que el evento ocurrirá o no ocurrirá esa sola
vez. El valor de probabilidad bajo este enfoque es un juicio personal.

Eventos simples y compuestos: evento simple es un evento con un solo


resultado. Sacar un 1 sería un evento simple, porque existe sólo un resultado que
funciona: 1. Sacar más que 5 también sería un evento simple, porque el evento
incluye sólo al 6 como un resultado válido.

Evento compuesto: es un evento con más de un resultado. Por ejemplo, lanzar un


dado de 6 lados y sacar un número par: 2, 4, y 6.

Cuando lanzamos muchas veces un dado de 6 lados, no debemos esperar


que un resultado ocurra más frecuentemente que otro. Los resultados en esta
situación se dice que son igualmente probables. Es muy importante reconocer
cuándo los resultados son igualmente probables cuando calculamos probabilidades.
Como cada resultado en el experimento de lanzar los dados es igualmente probable,

esperaríamos obtener cada resultado de los lanzamientos. Eso es, esperaríamos

que salga 1 en de los lanzamientos, 2 en de los lanzamientos, 3 en de los


lanzamientos y así sucesivamente.
Eventos dependientes e independientes

 Eventos independientes: dos o más eventos son independientes cuando la


ocurrencia o no-ocurrencia de un evento no tiene efecto sobre la probabilidad
de ocurrencia del otro evento (o eventos). Un caso típico de eventos
independiente es el muestreo con reposición, es decir, una vez tomada la
muestra se regresa de nuevo a la población donde se obtuvo.
Dos eventos, A y B, son independientes si la ocurrencia de uno no
tiene que ver con la ocurrencia de otro.
Por definición, A es independiente de B si y sólo si: A y B, son
independientes si la ocurrencia de uno no tiene que ver con la ocurrencia de
otro.
Por definición, A es independiente de B si y sólo si: A es independiente
de B si y sólo si:

(PnA)=P(A)P(B)

 Eventos dependientes: dos o más eventos serán dependientes cuando la


ocurrencia o no-ocurrencia de uno de ellos afecta la probabilidad de
ocurrencia del otro (o otros). Cuando tenemos este caso, empleamos
entonces, el concepto de probabilidad condicional para denominar la
probabilidad del evento relacionado. La expresión P (A|B) indica la
probabilidad de ocurrencia del evento A sí el evento B ya ocurrió.

Se debe tener claro que A|B no es una fracción.

P (A|B) = P(A y B) / P (B) o P (B|A) = P(A y B) / P(A)

Probabilidad Condicional = P(A y B) / P (B) o P (B|A) = P(A y B) / P(A)


Probabilidad Condicional: si A y B son dos eventos en S, la probabilidad de
que ocurra A dado que ocurrió el evento B es la probabilidad condicional de
A dado B, y se denota:A y B son dos eventos en S, la probabilidad de que
ocurra A dado que ocurrió el evento B es la probabilidad condicional de A
dado B, y se denota: P(AlB).

Técnicas de contar y de medir

Combinación y permutación:

 Combinación: es todo arreglo de elementos en donde no nos interesa el


lugar o posición que ocupa cada uno de los elementos que constituyen dicho
arreglo.

 Permutación: es todo arreglo de elementos en donde nos interesa el lugar


o posición que ocupa cada uno de los elementos que constituyen dicho
arreglo.
Para ver de una manera objetiva la diferencia entre una combinación
y una permutación, plantearemos cierta situación.

Suponga que un salón de clase está constituido por 35 alumnos.

a. El maestro desea que tres de los alumnos lo ayuden en actividades


tales como mantener el aula limpia o entregar material a los alumnos
cuando así sea necesario.

b. El maestro desea que se nombre a los representantes del salón


(Presidente, Secretario y Tesorero).
Solución:

a. Suponga que por unanimidad se ha elegido a Daniel, Arturo y a Rafael para


limpiar el aula o entregar material, (aunque pudieron haberse seleccionado a
Rafael, Daniel y a Enrique, o pudo haberse formado cualquier grupo de tres
personas para realizar las actividades mencionadas anteriormente).
¿Es importante el orden como se selecciona a los elementos que forma el
grupo de tres personas?
Reflexionando al respecto nos damos cuenta de que el orden en este
caso no tiene importancia, ya que lo único que nos interesaría es el contenido
de cada grupo, dicho de otra forma, ¿quiénes están en el grupo? Por tanto,
este ejemplo es una combinación, quiere decir esto que las combinaciones
nos permiten formar grupos o muestras de elementos en donde lo único que
nos interesa es el contenido de los mismos.

b. Suponga que se han nombrado como representantes del salón a Daniel


como Presidente, a Arturo como secretario y a Rafael como tesorero, pero
resulta que a alguien se le ocurre hacer algunos cambios, los que se
muestran a continuación:

Cambios:
PRESIDENTE: Daniel Arturo Rafael Daniel
SECRETARIO: Arturo Daniel Daniel Rafael
TESORERO: Rafael Rafael Arturo Arturo

Distribuciones discretas de probabilidad:

a. Distribución binomial: es una distribución de probabilidad discreta que


mide el número de éxitos en una secuencia de n ensayos de Bernoulli
independientes entre sí, con una probabilidad fija p de ocurrencia del éxito
entre los ensayos. Un experimento de Bernoulli se caracteriza por ser
dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se
denomina éxito y tiene una probabilidad de ocurrencia p y al otro, fracaso,
con una probabilidad q = 1 - p. En la distribución binomial el anterior
experimento se repite n veces, de forma independiente, y se trata de calcular
la probabilidad de un determinado número de éxitos. Para n = 1, la binomial
se convierte, de hecho, en una distribución de Bernoulli.
Para representar que una variable aleatoria X sigue una distribución
binomial de parámetros n y p, se escribe:

La distribución binomial es la base del test binomial de


significación estadística.

b. Distribución de Poisson: en teoría de probabilidad y estadística, la


distribución de Poisson es una distribución de probabilidad discreta que
expresa, a partir de una frecuencia de ocurrencia media, la probabilidad que
ocurra un determinado número de eventos durante cierto periodo de tiempo.
Fue descubierta por Siméon-Denis Poisson, que la dio a conocer en
1838 en su trabajo Recherches sur la probabilité des jugements en matières
criminelles et matière civile (Investigación sobre la probabilidad de los juicios
en materias criminales y civiles).

c. Distribución hipergeométrica: es una distribución discreta relacionada con


muestreos aleatorios y sin reemplazo. Supóngase que se tiene una población
de N elementos de los cuales, d pertenecen a la categoría A y N-d a la B. La
distribución hipergeométrica mide la probabilidad de obtener x ( )
elementos de la categoría A en una muestra sin reemplazo de n elementos
de la población original.
Propiedades: la función de probabilidad de una variable aleatoria con
distribución hipergeométrica puede deducirse a través de razonamientos
combinatorios y es igual a
donde es el tamaño de población, es el tamaño de la muestra extraída,
es el número de elementos en la población original que pertenecen a la
categoría deseada y es el número de elementos en la muestra que

pertenecen a dicha categoría. La notación hace referencia al coeficiente


binomial, es decir, el número de combinaciones posibles al seleccionar
elementos de un total .
El valor esperado de una variable aleatoria X que sigue la distribución
hipergeométrica es

y su varianza,

En la fórmula anterior, definiendo

Y se obtiene

DISTRIBUCIONES CONTINUAS

Mientras que en una distribución de probabilidad


discreta un suceso con probabilidad cero es imposible, no se da el caso en una
variable aleatoria continua. Por ejemplo, si se mide la anchura de una hoja de roble,
el resultado 3,5 cm es posible, pero tiene probabilidad cero porque hay infinitos
valores posibles entre 3 cm y 4 cm. Cada uno de esos valores individuales tiene
probabilidad cero, aunque la probabilidad de ese intervalo no lo es. Esta
aparente paradoja se resuelve por el hecho de que la probabilidad de que X tome
algún valor en un conjunto infinito como un intervalo, no puede calcularse mediante
la adición simple de probabilidades de valores individuales. Formalmente, cada
valor tiene una probabilidad infinitesimal que estadísticamente equivale a cero.
Existe una definición alternativa más rigurosa en la que el término "distribución de
probabilidad continua" se reserva a distribuciones que tienen función de densidad
de probabilidad. Estas funciones se llaman, con más precisión, variables
aleatorias absolutamente continuas (véase el Teorema de Radon-Nikodym). Para
una variable aleatoria X absolutamente continua es equivalente decir que la
probabilidad P[X = a] = 0 para todo número real a, en virtud de que hay un
incontables conjuntos de medida de Lebesgue cero (por ejemplo, el conjunto de
Cantor).

Una variable aleatoria con la distribución de Cantor es continua de acuerdo con la


primera definición, pero según la segunda, no es absolutamente continua. Tampoco
es discreta, ni una media ponderada de variables discretas y absolutamente
continua.

En aplicaciones prácticas, las variables aleatorias a menudo ofrece una distribución


discreta o absolutamente continua, aunque también aparezcan de forma natural
mezclas de los dos tipos.

PRINCIPALES CARACTERÍSTICAS

Para una variable continua hay infinitos valores posibles de la variable y entre cada
dos de ellos se pueden definir infinitos valores más. En estas condiciones no es
posible deducir la probabilidad de un valor puntual de la variable; como se puede
hacer en el caso de variables discretas, pero es posible calcular la probabilidad
acumulada hasta un cierto valor (función de distribución de probabilidad), y se
puede analizar como cambia la probabilidad acumulada en cada punto (estos
cambios no son probabilidades sino otro concepto: la función de densidad.

En el caso de variable continua la distribución de probabilidad es la integral de la


función de densidad, por lo que tenemos entonces que:

Sea una variable continua, una distribución de probabilidad o función de

densidad de probabilidad (FDP) de es una función tal que, para


cualesquiera dos números y siendo .
La gráfica de se conoce a veces como curva de densidad, la

probabilidad de que tome un valor en el intervalo es el área bajo la


curva de la función de densidad; así, la función mide concentración de
probabilidad alrededor de los valores de una variable aleatoria continua.

área bajo la curva de entre y

Para que sea una FDP ( ) legítima, debe satisfacer


las siguientes dos condiciones:

1. 0 para toda .

2.

Ya que la probabilidad es siempre un número positivo, la FDP es


una función no decreciente que cumple:

1. . Es decir, la probabilidad de todo el espacio muestral es


1.

2. . Es decir, la probabilidad del suceso nulo es cero.


Algunas FDP están declaradas en rangos de a ,
como la de la distribución normal.

DISTRIBUCION NORMAL COMO APROXIMACION A LA BINOMINAL

1. APROXIMACIÓN DE LA NORMAL A LA BINOMIAL.

En este caso se estarán calculando probabilidades de experimentos Binomiales


de una forma muy aproximada con la distribución Normal, esto puede llevarse a
cabo si n y p = p(éxito) no es muy cercana a 0 y 1, o cuando n es pequeño y

p tiene un valor muy cercano a ½ ; esto es,

Donde:

x = variable de tipo discreto; solo toma valores enteros

 = np = media de la distribución Binomial

= = desviación estándar de la distribución Binomial

Cuando ocurren las condiciones anteriores, la gráfica de la distribución Binomial,


es muy parecida a la distribución Normal, por lo que es adecuado calcular
probabilidades con la Normal en lugar de con la Binomial y de una forma más rápida.

En resumen, se utiliza la aproximación Normal para evaluar probabilidades


Binomiales siempre que p no esté cercano a 0 o 1. La aproximación es excelente
cuando n es grande y bastante buena para valores pequeños de n si p está
razonablemente cercana a ½. Una posible guía para determinar cuando puede
utilizarse la aproximación Normal es tener en cuenta el cálculo de np y nq. Sí ambos,
np y nq son mayores o iguales a 5, la aproximación será buena.

Antes de empezar a resolver problemas con la aproximación Normal, es bueno


aclarar que se están evaluando probabilidades asociadas a una variable discreta x,
con una distribución que evalúa variables de tipo continuo como es la Normal,

DISTRIBUCION “t” DE STUDENT

es una distribución de probabilidad que surge del problema de estimar la media de


una población normalmente distribuida cuando el tamaño de la muestra es pequeño.

Aparece de manera natural al realizar la prueba t de Student para la determinación


de las diferencias entre dos medias muestrales y para la construcción del intervalo
de confianza para la diferencia entre las medias de dos poblaciones cuando se
desconoce la desviación típica de una población y ésta debe ser estimada a partir
de los datos de una muestra.

La distribución t de Student es la distribución de probabilidad del cociente

Donde

 Z tiene una distribución normal de media nula y varianza 1


 V tiene una distribución ji-cuadrado con grados de libertad
 Z y V son independientes

Si μ es una constante no nula, el cociente es una variable aleatoria que


sigue la distribución t de Student no central con parámetro de no-centralidad .

Aparición y especificaciones de la distribución t de Student


Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas
normalmente, con media μ y varianza σ2. Sea

La media muestral. Entonces

Sigue una distribución normal de media 0 y varianza 1.

Sin embargo, dado que la desviación estándar no siempre es conocida de


antemano, Gosset estudió un cociente relacionado,

Donde

Es la varianza muestral y demostró que la función de densidad de T es

Donde es igual a n − 1.

La distribución de T se llama ahora la distribución-t de Student.

El parámetro representa el número de grados de libertad. La distribución depende


de , pero no de o , lo cual es muy importante en la práctica.

Usada en teoría de probabilidad y estadística, la distribución F es una distribución


de probabilidad continua. También se le conoce como distribución F de Snedecor
(por George Snedecor) o como distribución F de Fisher-Snedecor.

Una variable aleatoria de distribución F se construye como el siguiente cociente:


donde
 U1 y U2 siguen una distribución chi-cuadrado con d1 y d2 grados de libertad
respectivamente, y

 U1 y U2 son estadísticamente independientes.

La distribución F aparece frecuentemente como la distribución nula de una prueba


estadística, especialmente en el análisis de varianza. Véase el test F.

La función de densidad de una F(d1, d2) viene dada por

Para todo número real x ≥ 0, donde d1 y d2 son enteros positivos, y B es la función


beta.

La función de distribución es

donde I es la función beta incompleta regularizada.

Distribuciones relacionadas

 es una distribución ji-cuadrada cuando para


.

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

El análisis de regresión consiste en emplear métodos que permitan determinar la


mejor
relación funcional entre dos o más variables concomitantes (o relacionadas). El
análisis
de correlación estudia el grado de asociación de dos o más variables.
Analisis de Regresion

Una relacion funcional matemáticamente hablando, está dada por:

Y = f(x1,...,xn; θ1,...,θm)

donde:

Y : Variable respuesta (o dependiente)


xi : La i-ésima variable independiente (i=1,..,n)
θj : El j-ésimo parámetro en la función (j=1,..,m)
f : La función

Para elegir una relación funcional particular como la representativa de la población


bajo
investigación, usualmente se procede:

1) Una consideración analítica del fenómeno que nos ocupa, y


2) Un examen de diagramas de dispersión.

Una vez decidido el tipo de función matemática que mejor se ajusta (o representa
nuestro
concepto de la relación exacta que existe entre las variables) se presenta el
problema de
elegir una expresión particular de esta familia de funciones; es decir, se ha
postulado una
cierta función como término del verdadero estado en la población y ahora es
necesario
estimar los parámetros de esta función (ajuste de curvas).
Como los valores de los parámetros no se pueden determinar sin errores por que
los
valores observados de la variable dependiente no concuerdan con los valores
esperados,
entonces la ecuación general replanteada, estadísticamente, sería:

Y = f(x1,...xn;θ1,...,θm) + ε

donde ε respresenta el error cometido en el intento de observar la característica en


estudio, en la cual muchos factores contribuyen al valor que asume ε.

REGRESION LINEAL SIMPLE

Cuando la relación funcional entre las variables dependiente (Y) e independiente


(X) es
una línea recta, se tiene una regresión lineal simple, dada por la ecuación

Y = ßo + ß1X + ε
donde:

ßo : El valor de la ordenada donde la línea de regresión se intersecta al eje Y.


ß1 : El coeficiente de regresión poblacional (pendiente de la línea recta)
ε : El error.

SUPOSICIONES DE LA REGRESIÓN LINEAL

1. Los valores de la variable independiente X son "fijos".


2. La variable X se mide sin error (se desprecia el error de medición en X)
3. Existe una subpoblacion de valores Y normalmente distribuido para cada valor de
X.
4. Las variancias de las subpoblaciones de Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la misma recta.
6. Los valores de Y están nomalmente distribuidos y son estadísticamente
independientes.
Los supuestos del 3 al 6 equivalen a decir que los errores son aleatorios, que se
distribuyen normalmente con media cero y variancia σ².

Terminologia:

Promedios

n
y
y∑i=;
n
x
∑ xi =

Sumas de cuadrados y productos de X e Y.

= ∑(y − y) i
SCY
2
; = ∑(x −x) i
SCX
2
; SPXY = ∑(x − x)(y − y) i
i

SCY tambien corresponde a la suma de cuadrados total = SC total


Estimación de parámetros

La función de regresión lineal simple es expresado como:

Y = ßo + ß1X + ε

la estimación de parámetros consiste en determinar los parámetros ßo y ß1 a partir


de los
datos muestrales observados; es decir, deben hallarse valores como bo y b1 de la
muestra,
que represente a ßo y ß1, respectivamente.

Empleando el método de los mínimos cuadrados, es decir minimizando la suma de


cuadrados de los errores, se determinan los valores de bo y b1, así:

= ∑e = ∑(y − − x) i
Qiββ01
22

bybxo1
=−
scx
spxy
b =1

b0 : es el valor que representa (estimador) a ß0 constituye el intercepto cuando X=0;


b1 : es el valor que representa (estimador) a ß1.

Sus desviaciones estandares respectivas son:


n SCX
CMresidual Sb X i
.
.
0
2∑=
SCX
CMresidual Sb1 =

Luego, la ecuación de regresión es: y = bo + b1X

El coeficiente de regresión (b1) .- pendiente de la recta de regresión, representa la


tasa de
cambio de la respuesta Y al cambio de una unidad en X.

Si b1=0, se dice que no existe relación lineal entre las dos variables.

Fuentes de variación en la regresión lineal

Los cálculos de regresión pueden ser vistos como un proceso de partición de la


suma total
de cuadrados; así, gráficamente se tiene:

(y ) (y ) (y y )
iiii
yy
))
−=−+−
F. de Mendiburu
5
Se observa que la desviación total para un Yi en particular es igual a la suma de las
desviaciones explicada e inexplicada, simbolicamente.

Luego:

∑(y − y) = ∑(y − y) + ∑(y − y )


iiii
2)2)2

SC total = SC regresion + SC residual

Suma de Cuadrados del Total (SCT), mide la dispersión (variación total) en los
valores
observados de Y. Este término se utiliza para el cálculo de la variancia de la
muestra.

Suma de Cuadrados explicada (Suma de Cuadrados debido a la Regresión, SCR)


mide la
variabilidad total en los valores observados de Y en consideración a la relación lineal
entre X e Y.
Suma de Cuadrados residual (inexplicada, Suma de Cuadrados del Error, SCE)
mide la
dispersión de los valores Y observados respecto a la recta de regresión Y (es la
cantidad
que se minimiza cuando se obtiene la recta de regresión).

Análisis de Variancia para la regresión lineal simple


Cuando cada partición se asocia a una porción correspondiente del total de grados
de
libertad, la técnica es conocida cono analisis de variancia (ANVA), que
generalmente se
presenta en un cuadro de la siguiente forma:

Cuadro del ANVA.


Fuentes Grados de
Libertad
Suma de Cuadrados
(SC)
Cuadrados Medios
(CM)
Fc
Regresion 1 b1.SPXY b1.SPXY CM(regresion)/
CM(residual)
Residual: Error n-2 Diferencia SC(residual) / (n-
2)

Total n-1 SC Y

La prueba estadística “F” evalua las hipótesis:

Hp: ß1 = 0. No existe una regresión lineal entre X e Y.


Ha: ß1 ≠ 0. Existe regresion lineal de Y en función de X.

F. de Mendiburu
6
Para el ejemplo del grafico (año base 1990 = 0)
Años (X) 0 1 2 3 4 5 6 7 8 9
Madera Aserrada (Y) 489.25 475.24 495.72 585.2 565.78 630.22 624.92 482.27
590.27 834.67

Gl SC CM F F0.05 Pr>F
Regression 1 49223 49223 6,9941 5,31 0,0295
Residual 8 56303 7037.8
Total 9 105526

Modelo de regresion estimado:

Total de Madera aserrada (miles de m3 ) = 467,42 + 24,42 X

X = El periodo.

R² = (49223 / 105526) *100% = 46%

Intercepto = 467,42
Tasa = 24,42

Significa que el crecimiento anual es de 24 mil metros cubicos.

Intervalos de Confianza

Intervalos de confianza para ß1 (tasa)

En muchos casos es de interés conocer entre que valores se encuentra el


coeficiente de
regresión de la población ß1 para un cierto grado de confianza fijada, este
procedimiento
permite hallar los valores llamados límites de confianza, así:

b1 - t0 Sb1 ≤ ß1 ≤ b1 + to Sb1

donde: t0 es el valor "t" tabular al nivel de significación α y n-2 grados de libertad (


t0 =
tα,n-2).

t 0.05, 8 = 2,30; SC X = 82.5; Sb1 = 9,23

Limite Inferior = 24,42 – 2,30 (9,23) = 3.12


Limite Superior = 24,42 + 2,30 (9,23) = 45,72

Con estos resultados se puede afirmar al 95% de confianza que la tasa de


crecimiento en
madera aserrada es positiva y por lo menos se tendra un crecimiento de 3 mil metros
cubicos por año.

F. de Mendiburu
7

En función del modelo se puede hacer estimaciones para los siguientes años:

2000 711.7
2001 736.12
2002 760.55

Estas proyecciones son puntuales, en base al modelo; para año 2000, X=10, resulta
una
producción de 711 mil m3 de madera aserrada.

Para obtener limites de confianza para estos valores predecidos, se debe


determinar sus
desviaciones estandar correspondiente; utilice la siguiente formula:

n SCX
S edicho CMresidual x x 0
1
_ Pr 1
2

Limites : Valor Predicho ± (t0.05,n-2 ) (S_predicho)

Para el 2002, los limites de confianza son:

Limite Inferior = 760,55 – 2,30 (111,98) = 502


Limite Superior = 760,55 + 2,30 (111,98) = 1018
Esta información significa que para el año 2002, se estima una produccion de
madera
aserrada entre 502 a 1018 miles de m3.

Prueba de Hipotesis

Se plantea los siguientes casos:

a) Cuando ß1 = 0; es decir, si la variable Y no esta relacionada linealmente con la


variable X. Esto equivale a plantear la hipótesis Hp: ß1=0, y vía una prueba F
comparar el valor de F calculado (Fc) con el valor F tabular (Fo), donde
Fc=CMR/CME y Fo=Fα(1,n-2)gl. Si Fc>Fo, se rechaza la hipóteis planteada,
esto supone un valor ß1 distinto de cero y se concluye que Y se puede expresar
en terminos de X linealmente.
b) Cuando ß1 tiene un valor específico distinto de cero ß10; es decir, Hp: ß1=ß10.
En este caso, para la prueba de esta hipótesis se usa el estadístico t de Student. El
valor t calculado es hallado mediante la expresión: tc = (b1-ß10)/Sb1

Si tc > tα se rechaza la hipótesis planteada, donde tα es el valor de la tabla al nivel


α y n-2 gl.

F. de Mendiburu
8
Para el ejemplo planteado, se rechaza la hipotesis planteada, esto significa que
existe una
relación lineal significativa del tiempo y la producción de madera aserrada total.

ANALISIS DE CORRELACION

El análisis de correlación emplea métodos para medir la significación del grado o


intensidad de asociación entre dos o más variables. El concepto de correlación está
estrechamente vinculado al concepto de regresión, pues, para que una ecuación de
regresión sea razonable los puntos muestrales deben estar ceñidos a la ecuación
de
regresión; además el coeficiente de correlación debe ser:

- grande cuando el grado de asociación es alto (cerca de +1 o -1, y pequeño cuando


es bajo, cerca de cero.
- independiente de las unidades en que se miden las variables.

Coeficiente de correlacion Lineal Simple ( r).


Es un número que indica el grado o intensidad de asociación entre las variables X
e Y. Su
valor varía entre -1 y +1; esto es:

-1 ≤ r ≤ 1.

Si r = -1, la asociación es perfecta pero inversa; es decir, a valores altos de una


variable le
corresponde valores bajos a la otra variable, y viceversa.

Si r=+1, también la asociación es perfecta pero directa.

Si r=0, no existe asociación entre las dos variables.

Luego puede verse que a medida que r se aproxime a -1 ó +1 la asociación es


mayor, y
cuando se aproxima a cero la asociación disminuye o desaparece.

El coeficiente de correlación está dada por:

SCX SCY
SPXY
r
.
=

Para los datos de la producción de madera aserrada total entre los años 1990 a
1999,
existe una asociación de 0.68.
( )( ) .0 68
105525,86 82 5,
2015,17
r==

Coeficiente de Determinacion (R²)

F. de Mendiburu
9
Mide el porcentaje de variación en la variable respuesta, explicada por la variable
independiente.

De la descomposición de la suma de cuadrados total, se obtuvo:

SCT = SCR + SCE

SCR = Suma de cuadrados de la regresión.


SCE = Suma de cuadrados residual (error).

dividiendo ambos miembros por la SCT, se tiene:

1 = SCR/SCT + SCE/SCT

de este resultado, se define el coeficiente de determinacion como:

R² = 1 - SCE/SCT = SCR/SCT
R² = SC regresion / SC total

Como SCR ≤ SCT, se deduce que 0 ≤ R² ≤ 1.

Interpretación de R²:
Se interpreta como una medida de ajuste de los datos observados y proporciona el
porcentaje de la variación total explicada por la regresión.

R² es un valor positivo, expresado en porcentaje es menor de 100.

Tambien, se puede obtener el R² ajustado que es la relacion entre cuadrados


medios, asi:

R² ajustado = 1 – CME / CM Total;

Este valor podria ser negativo en algunos casos.

Lo que se espera que ambos R², resulten similares, para dar una confianza al
coeficiente
de determinación.

Para el ejemplo, resulta:

R² ajustado = 1 – 70378 / (105526 / 9 ) = 0,39 y R² = 1 – 56302,7 / 105525,86 = 0,46


TEORÍA DE MUESTREO

5. MUESTREO:

Es un procedimiento por medio del cual se estudia una parte de la población llamada
muestra, con el objetivo de inferir con respecto a toda la población.

Es importante relacionar el muestreo con lo que es el censo, el cual se define como


la enumeración completa de todos los elementos de la población de interés.

VENTAJAS DEL MUESTREO:

a) Costos reducidos.

b) Mayor rapidez para obtener resultados.

c) Mayor exactitud o mejor calidad de la información:

debido a los siguientes factores

c.1 Volumen de trabajo reducido.

c.2 Puede existir mayor supervisión en el trabajo.

c.3 Se puede dar más entrenamiento al personal.

c.4 Menor probabilidad de cometer errores durante el procesamiento de la


información.
d) Factibilidad de hacer el estudio cuando la toma de datos implica técnicas
destructivas, por ejemplo:

- Pruebas de germinación.

- Análisis de sangre.

- Control de calidad.

TIPOS DE MUESTREO

5.3.1 MUESTREO NO PROBABILISTICO:

Los elementos de la muestra son seleccionados por procedimientos al azar ó con


probabilidades conocidas de selección. Por lo tanto es imposible determinar el grado
de representatividad de la muestra.

Dentro de los tipos de muestreo no Probabilístico, podemos mencionar los


siguientes:

Muestreo por Juicio, Selección Experta o Selección Intencional:

El investigador toma la muestra seleccionado los elementos que a él le parecen


representativos o típicos de la población, por lo que depende del criterio del
investigados.

Muestreo casual o fortuito:

Se usa en los casos en no es posible seleccionar los elementos, y deben sacarse


conclusiones con los elementos que esten disponibles. Por ejemplo: en el caso de
voluntarios para pruebas de medicamentos de enfermedades como el corazón,
cáncer, etc.

Muestreo de cuota:

Se utiliza en estudios de opinión de mercado. Los enumeradores, reciben


instrucciones de obtener cuotas específicas a partir de las cuales se constituye una
muestra relativamente proporcional a la población.

Muestreo de poblaciones móviles:

Este tipo de muestreo utiliza métodos de captura, marca y recaptura. Se utiliza


mucho en el estudio de migración de poblaciones de animales y otras
características.

MUESTREO PROBABILISTICO, ALEATORIO O ESTOCASTICO:

Los elementos de la muestra son seleccionados siguiendo un procedimiento que


brinde a cada uno de los elementos de la población una probabilidad conocida de
ser incluidos en la muestra.

DESVENTAJAS DEL MUESTREO

EJEMPLO• Un colegio tiene 120 alumnos de bachillerato. Se quiere extraer una


muestra de 30 alumnos Explica cómo se obtiene la muestra.• a) mediante muestreo
aleatorio simple• b) mediante muestreo aleatorio sistemático

DISEÑOS DE MUESTREO
Muestreo estratificado

El muestreo estratificado es un diseño de muestreo probabilístico en el que


dividimos a
la población en subgrupos o estratos. La estratificación puede basarse en una
amplia
variedad de atributos o características de la población como edad, género, nivel
socioeconómico, ocupación, etc.

En un diseño de muestreo estratificado, los pasos que daremos serán, en primer


lugar,
establecer en base a que atributo vamos a estratificar1
; en segundo lugar, definiremos
cuantas variables de ese atributo se dan en la población y, por tanto, en cuantos
estratos
dividimos a la población (la figura 1 nos muestra un diseño de muestreo estratificado
con
5 estratos, L = 5). Una vez determinados los subgrupos, el siguiente paso consistirá
en
conocer el total de población que pertenece a cada estrato ( N1, N2, N3, N4, N5) y,
por
último, tomaremos una muestra de forma aleatoria de cada uno de los estratos que
tenemos (n1, n2, n3, n4, n5). La suma de las submuestras constituirá nuestra
muestra
total (n1 + n2 + n3 + n4 + n5 = n).

DEFINICIÓN DE NÚMERO ÍNDICE


El número índice es una medida estadística diseñada para poner de relieve cambios
en una variable o en un grupo de variables relacionadas con respecto al tiempo,
situación geográfica, ingreso o cualquier otra característica.
Este tipo de número puede definirse también como un valor relativo con base igual
a 100% o un múltiplo de 100% tal como 10 y 100, que permite medir qué tanto una
variable ha cambiado con el tiempo.
Calculamos un número índice encontrando el cociente del valor actual entre un valor
base. Luego multiplicamos el número resultante por 100, para expresar el índice
como un porcentaje. Este valor final es el porcentaje relativo. El número índice para
el punto base en el tiempo siempre es 100.
1.1 Otras Definiciones
Se aplican otras definiciones para números índice tales como:
Un número índice es una medida estadística que tiene como finalidad comparar una
variable o magnitud económica con el tiempo.
Los números índices miden el tamaño o la magnitud de algún objeto en un punto
determinado en el tiempo, como el porcentaje de una base o referencia en el
pasado.

TIPOS DE NÚMEROS ÍNDICE

Por lo general, un índice mide el cambio en una variable durante un cierto período,
como en una serie temporal. Sin embargo, también se le puede utilizar para medir
diferencias en una variable dada en diferentes lugares. Esto se lleva a cabo
recolectando datos de manera simultánea en los diferentes lugares y luego
comparándolos.
Los números índices son importantes concernientes a las actividades de negocios
y económicos pueden clasificarse en tres tipos:
Índices de precios
Índices de cantidades
Índice de valores en algún punto anterior en el tiempo (periodo bases) y usualmente
el periodo actual.
Cuando solamente esta comprendido un solo producto o mercancía el índice se
llama índice simple en tanto que una corporación que comprende un grupo de
elementos recibe el nombre de número compuesto. Los números índices les ofrecen
una forma de medir tales cambios.
El índice de precios compara niveles de precios de un período a otro. El índice de
precios al consumidor (IPC) mide los cambios globales de precios de una variedad
de bienes de consumo y de servicios, y se le utiliza para definir el costo de vida.
El índice de cantidad mide qué tanto cambia el número o la cantidad de una variable
en el tiempo.
El índice de valor mide los cambios en el valor monetario total; es decir, mide los
cambios en el valor en pesos de una variable, combina los cambios en precio y
cantidad para presentar un índice con más información.

USO DE LOS NUMEROS INDICES

Los números índices son útiles cuando se quiere comparar variables o magnitudes
que están medidas en unidades distintas. Por ejemplo, con los números índices
podemos comparar los costes de alimentación o de otros servicios en una ciudad
durante un año con los del año anterior, o la producción de arroz en un año en una
zona del país con la otra zona.
Aunque se usa principalmente en Economía e Industria, los números índices son
aplicables en muchos campos. En Educación, por ejemplo, se pueden usar los
números índices para comparar la inteligencia relativa de estudiantes en sitios
diferentes o en años diferentes.
Muchos gobiernos se ocupan de elaborar números índice con el propósito de
predecir condiciones económicas o industriales, tales como: índices de precios, de
producción, salariales, del consumidor, poder adquisitivo, costo de vida, etc.
En la administración se utilizan como parte de un cálculo intermedio para entender
mejor otra información.

PROBLEMAS EN LA CONSTRUCCIÓN DE NÚMEROS ÍNDICE.


10.1 Problemas en la construcción
Existen varios problemas en la construcción de un número índice, de los cuales
podemos mencionar los siguientes:
Selección de un elemento para ser incluido en un compuesto
Casi todos los índices se construyen para responder a una cierta pregunta en
particular. Los elementos incluidos en el compuesto dependen de la pregunta en
cuestión.
Selección de los pesos apropiados
Los pesos seleccionados deberían representar la importancia relativa de los
diferentes elementos. Desafortunadamente, lo que resulta apropiado en un período
puede volverse inapropiado en un lapso muy corto.
Selección de un período base
El período base seleccionado debe ser un período normal, preferentemente un
período bastante reciente. Normal significa que el período no debe estar en un pico
o en una depresión de una fluctuación. Una técnica para evitar la elección de un
período irregular consiste en promediar los valores de varios períodos consecutivos.
10.2 Advertencia en la interpretación de un índice
En cuanto a las advertencias en la interpretación de un índice, podemos mencionar
las siguientes :
Generalización a partir de un índice específico
Generalización de los resultados.
Falta de conocimiento general con respecto a índices publicados
Es la falta de conocimiento de qué es lo que miden los diferentes índices.
Efecto del paso del tiempo en un índice
Los factores relacionados con un índice tienden a cambiar con el tiempo, en
particular, los pesos apropiados. A menos que se cambien los pesos de acuerdo a
las circunstancias, el índice se vuelve cada vez menos confiable.
Cambios de calidad
Los números índice no reflejan los cambios en la calidad de los productos que
miden. Si la calidad ha cambiado realmente, entonces el índice sobrestima o
subestima los cambios en los niveles de precios.

APLICACIONES DE LOS NÚMEROS ÍNDICES

Los números índices son muy versátiles, lo que los hace aplicable a cualquier
ciencia o campo de estudio. Esencialmente se usan para hacer comparaciones.
En educación se pueden usar los números índices para comparar la inteligencia
relativa de estudiantes en sitios diferentes o en años diferentes.
Los gerentes se valen de los números índices como parte de un cálculo intermedio
para entender mejor otra información.
Los índices estaciónales sirven para modificar o mejorar las estimaciones del futuro.
En el campo donde los números índices son de mayor utilidad es, en la economía,
ya que esta se vale de indicadores económicos, para estudiar las situaciones
presentes y tratar de predecir las futuras, dichos indicadores económicos en esencia
son números índices, ejemplo de ello son IPC, PNI, deflactor implícito del PNI, entre
muchos otros.

You might also like