Professional Documents
Culture Documents
1.
2.
3. Cuantiles
4. Cuartiles
5. Deciles
6. Centiles o percentiles
7. Ejemplo
8. Bibliografía
1. Las Medidas de Posición, también conocidas como Otras Medidas de Dispersión, son otras medidas
o métodos que resultan ser más prácticos para precisar ciertas situaciones en las que se busca
describir la variación o dispersión en un conjunto de datos.
2. INTRODUCCIÓN
3. CUANTILES
Los cuantiles son medidas de posición que se determinan mediante un método que determina la
ubicación de los valores que dividen un conjunto de observaciones en partes iguales.
Los cuantiles son los valores de la distribución que la dividen en partes iguales, es decir, en intervalos que
comprenden el mismo número de valores. Cuando la distribución contiene un número alto de intervalos o
de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en
cuatro, en diez o en cien partes.
Los más usados son los cuartiles, cuando dividen la distribución en cuatro partes; los deciles, cuando
dividen la distribución en diez partes y los centiles o percentiles, cuando dividen la distribución en cien
partes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensión de la mediana.
Para algunos valores u , se dan nombres particulares a los cuantiles, Q (u):
u Q(u)
0.5 Mediana
0.25, 0.75 Cuartiles
0.1, ... , 0.99 Deciles
0.01, ..., 0.99 Centiles
CUARTILES
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes
porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El
primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la
sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas
partes (75%) de los datos.
Datos Agrupados
Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y
tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia.
La fórmula para el cálculo de los cuartiles cuando se trata de datos agrupados es la siguiente:
k= 1,2,3
Donde:
Lk = Límite real inferior de la clase del cuartil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fk = Frecuencia de la clase del cuartil k
c = Longitud del intervalo de la clase del cuartil k
Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente:
El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel
valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones.
Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es
mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el
50% son menores.
Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel
valor de la variable que supera al 75% y es superado por el 25% de las observaciones.
Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase.
Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya
que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil.
Para Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:
- El primer cuartil:
Cuando n es par:
Cuando n es impar:
Cuando n es par:
Cuando n es impar:
DECILES
Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes
porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados en diez
partes iguales, son también un caso particular de los percentiles. Los deciles se denotan D1, D2,..., D9,
que se leen primer decil, segundo decil, etc.
Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento
académico.
Datos Agrupados
Para datos agrupados los deciles se calculan mediante la fórmula.
k= 1,2,3,... 9
Donde:
Lk = Límite real inferior de la clase del decil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
c = Longitud del intervalo de la clase del decil k
Otra fórmula para calcular los deciles:
El cuarto decil, es aquel valor de la variable que supera al 40%, de las observaciones y es superado por el
60% de las observaciones.
Cuando n es par:
Cuando n es impar:
Siendo A el número del decil.
CENTILES O PERCENTILES
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las
personas cuando atienden características tales como peso, estatura, etc.
Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes
porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos
ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99.
Datos Agrupados
Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la fórmula:
k= 1,2,3,... 99
Donde:
Lk = Límite real inferior de la clase del decil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
c = Longitud del intervalo de la clase del decil k
Otra forma para calcular los percentiles es:
Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa y nueve por
ciento restante.
El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es superado por el
40% de las observaciones.
Siendo,
El primer cuartil:
115.5 – 85 = 30.75
Li = 300, Ic = 100 , fi = 90
El 7 decil:
Posición:
324.1 – 295 = 29.1
Li = 500, fi = 70
El percentil 30
Posición:
138.9 – 85 = 53.9
fi = 90
Fórmula de Q3, para series de Datos agrupados:
Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase.
Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya
que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil.
Para Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:
- El primer cuartil:
Cuando n es par:
Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334; que bajo
541.57 gana el 57%de los empleados y sobre $359.88, gana el 70% de los empleados.
BIBLIOGRAFÍA
Texto Estadística para las Ciencias Administrativas.
Martinez, Ciro. Estadística y Muestreo. Ecoe Ediciones. Bogotá. 11ª. Edición.
Consulta en Internet
PRESENTADO POR:
ANA MILENA GARCIA PORTO
ESTUDIANTE DE FINANZAS Y NEGOCIOS INTERNACIONALES
CATEGORÍA: ESTADISTICA
UNIVERSIDAD TECNOLÒGICA DE BOLÌVAR
CARTAGENA, COLOMBIA
Mínimos cuadrados
El resultado del ajuste de un conjunto de datos a una función cuadrática.
Índice
[ocultar]
1Historia
2Formulación formal del problema bidimensional
3Solución del problema de los mínimos cuadrados
o 3.1Deducción analítica de la aproximación discreta mínimo cuadrática lineal
3.1.1Corolario
o 3.2Deducción geométrica de la aproximación discreta mínimo cuadrática lineal
4Mínimos cuadrados y análisis de regresión
5Referencias
6Véase también
7Enlaces externos
Historia[editar]
El día de Año Nuevo de 1801, el astrónomo italiano Giuseppe Piazzi descubrió el planeta
enano Ceres. Fue capaz de seguir su órbita durante 40 días. Durante el curso de ese año,
muchos científicos intentaron estimar su trayectoria con base en las observaciones de
Piazzi (resolver las ecuaciones no lineales de Kepler de movimiento es muy difícil). La
mayoría de las evaluaciones fueron inútiles; el único cálculo suficientemente preciso para
permitir a Franz Xaver von Zach, astrónomo alemán, reencontrar a Ceres al final del año
fue el de Carl Friedrich Gauss, por entonces un joven de 24 años (los fundamentos de su
enfoque ya los había planteado en 1795, cuando aún tenía 18 años). Sin embargo, su
método de mínimos cuadrados no se publicó sino hasta 1809, y apareció en el segundo
volumen de su trabajo sobre mecánica celeste, Theoria Motus Corporum Coelestium in
sectionibus conicis solem ambientium. El francés Adrien-Marie Legendredesarrolló el
mismo método de forma independiente en 1805.
En 1829, Gauss fue capaz de establecer la razón del éxito maravilloso de este
procedimiento: simplemente, el método de mínimos cuadrados es óptimo en muchos
aspectos. El argumento concreto se conoce como teorema de Gauss-Márkov.
Por tanto, se trata de hallar los m coeficientes que hagan que la función
aproximante dé la mejor aproximación para los puntos dados . El
criterio de "mejor aproximación" puede variar, pero en general se basa en aquél que
minimice una "acumulación" del error individual (en cada punto) sobre el conjunto total.
En primer lugar, el error (con signo positivo o negativo) de la función en un solo
punto, , se define como:
Error Máximo:
Error Medio:
.
Ello equivale por tanto a hallar los m
, para i=1,2,
. . .,m
, para i=1,2,
. . .,m
,
y para una función h(x) y vector cualquiera u, como:
El problema de aproximación
será hallar aquella combinación
lineal de columnas de la matriz A
lo más cercana posible al vector
b. Se comprueba que el conjunto
de las columnas de A generan
un espacio vectorial o Span
lineal:
, al
que el vector b no tiene porqué
pertenecer (si lo hiciera, el
sistema A.c=b tendría solución).
Entonces, de los infinitos
vectores
del q
ue son combinación lineal de los
vectores de la base, se tratará de
hallar el más cercano al vector b.
De entre todos ellos, el que
cumple esto con respecto a la
norma euclídea es la proyección
ortogonal de b
sobre
, y que por tanto hace que el
tamaño del vector r, que será el
vector que une los extremos de
los vectores b y proyección
ortogonal de b sobre el span, sea
mínimo, esto es, que minimiza su
norma euclídea.
Es inmediato ver que si el
residuo une b con su proyección
ortogonal, entonces es a su vez
ortogonal
al ,y
a cada uno de los vectores de la
base, esto es, ortogonal a cada
columna de A.
La condición de minimización del
residuo será:
Sustituyendo el
residuo por su
expresión:
Por tanto, la
mejor
aproximación
mínimo
cuadrada lineal
para un conjunto
de puntos
discretos, sean
cuales sean las
funciones base,
se obtiene al
resolver el
sistema
cuadrado:
.
A esta
ecuación se
le
llama ecuaci
ón normal
de Gauss, y
es válida
para
cualquier
conjunto de
funciones
base. Si
estas son la
unidad y la
función x,
entonces la
aproximació
n se
llama regresi
ón lineal.
Mínimo
s
cuadrad
os y
análisis
de
regresió
n[editar]
En
el análisis
de
regresión,
se sustituye
la relación
por
sien
do
el
térm
ino
de
pert
urba
ción
ε
una
vari
able
alea
toria
con
med
ia
cero
.
Obś
erve
se
que
esta
mos
asu
mie
ndo
que
los
valo
res
x so
n
exa
ctos
,y
que
todo
s los
erro
res
está
n en
los
valo
res
y.
De
nue
vo,
disti
ngui
mos
entr
e re
gres
ión
line
al,
en
cuy
o
cas
o la
func
ión f
es
line
al
para
los
pará
metr
os a
ser
dete
rmin
ado
s
(ej.,
f(x)
= ax
2 + b
x+
c),
y re
gres
ión
no
line
al.
Co
mo
ante
s, la
regr
esió
n
line
al
es
muc
ho
más
sen
cilla
que
la
no
line
al.
(Es
tent
ador
pen
sar
que
la
razó
n
del
nom
bre r
egre
sión
line
al e
s
que
la
gráfi
ca
de
la
func
ión f
(x)
= ax
+b
es
una
líne
a.
Ajus
tar
una
curv
a f(x
)
= ax
2
+b
x+
c,
esti
man
do a
,by
cp
or
míni
mos
cua
drad
os
es
un
eje
mpl
o de
regr
esió
n lin
ealp
orqu
e el
vect
or
de
esti
mad
ores
míni
mos
cua
dráti
cos
de a
,by
ce
s
una
tran
sfor
mac
ión
line
al d
el
vect
or
cuy
os
com
pon
ente
s
sonf
(xi)
+ εi).
Los
pará
metr
os
(a, b
yc
en
el
eje
mpl
o
ante
rior)
se
esti
man
con
frec
uen
cia
med
iant
e
míni
mos
cua
drad
os:
se
tom
an
aqu
ellos
valo
res
que
mini
mic
en
la
sum
a S.
El te
ore
ma
de
Gau
ss-
Már
kov
esta
blec
e
que
los
esti
mad
ores
míni
mos
cua
dráti
cos
son
ópti
mos
en
el
sent
ido
de
que
son
los
esti
mad
ores
line
ales
inse
sga
dos
de
men
or
vari
anz
a, y
por
tant
o de
men
or
erro
r
cua
dráti
co
med
io, si
tom
amo
sf(x)
= ax
+b
esta
ndo
ay
b po
r
dete
rmin
ar y
con
los
térm
inos
de
pert
urba
ción
ε
inde
pen
dien
tes
y
distr
ibui
dos
idén
tica
men
te
(véa
se
elart
ícul
o si
des
ea
una
expli
caci
ón
más
deta
llad
ay
con
con
dicio
nes
men
os
restr
ictiv
as
sobr
e
los
térm
inos
de
pert
urba
ción
).
La
esti
mac
ión
de
míni
mos
cua
drad
os
para
mod
elos
line
ales
es
noto
ria
por
su
falta
de
robu
stez
frent
ea
valo
res
atípi
cos
(outl
iers)
. Si
la
distr
ibuci
ón
de
los
atípi
cos
es
asi
métr
ica,
los
esti
mad
ores
pue
den
esta
r
ses
gad
os.
En
pres
enci
a de
cual
quie
r
valo
r
atípi
co,
los
esti
mad
ores
míni
mos
cua
dráti
cos
son
inefi
cien
tes
y
pue
den
serl
o en
extr
emo
. Si
apar
ece
n
valo
res
atípi
cos
en
los
dato
s,
son
más
apro
piad
os
los
mét
odo
s
de r
egre
sión
robu
sta.
Re
fer
en
cia
s[e
dita
r]