You are on page 1of 8

1 Andrés Santana Leitner (andres.santana@uam.es).

III. Describir variables de manera individual


Conviene empezar por lo más sencillo y acrecentar la complejidad progresivamente. Este capítulo
está dedicado a los análisis más sencillos, los que involucran una variable:
1. Análsis descriptivos.
1.1.Univariantes. Estudian la distribución de cada variable de forma aislada.
1.2.Multivariantes. Estudian la distribución conjunta de dos o más variables.
2. Análisis explicativos. Estudian relaciones de causa-efecto entre dos o más variables.
De manera trivial, los análisis univariantes se pueden hacer para una sola variable. También se
pueden hacer para más de una, siempre que resuman la distribución de cada una de forma aislada o
individual, sin relacionar a las variables entre sí. Por definición, los análisis univariantes son
siempre descriptivos, ya que no dan pie a preguntarse por la existencia de relaciones de causa-
efecto entre dos o más variables. Por eso, se los llama análisis descriptivos univariantes (ADU).
Para seguir los ejemplos de este capítulo, debes cerrar la base de datos sin guardar los cambios del
capítulo anterior, volverla a abrir, mantener solo las variables SEXO P3601 P3602 P41 P51 P7 P31
P35 EDAD P73, y crear P35r tal y como lo hiciste en el capítulo 2.
clear
use13 “cis3126.dta”
keep SEXO P3601 P3602 P41 P51 P7 P31 P35 EDAD P73
generate P35r = P35 if P35 < 98

1. Elegir una técnica para resumir variables cuantitativas


Aunque puedes hacer todo con una V, no todo lo que se te ocurra hacer será igual de interesante o
eficaz. Técnicamente, nada te impide sacar una tabla con el número y el porcentaje de individuos
de cada edad: para ello, usarías la instrucción ‘tabulate’:
tabulate EDAD
Stata es como un genio salido de una lámpara mágica que cumple tus peticiones, pero que no se
cuestiona si éstas son “adecuadas” o no. El resultado de tu instrucción sería una tabla con los casos
(frecuencias) y los porcentajes (más adelante veremos qué es la tercera columna), de los 79 valores
diferentes de la variable EDAD (suprimo 71 para ganar espacio):
Edad | Freq. Percent Cum.
------------+-----------------------------------
18 | 66 1.06 1.06
19 | 63 1.01 2.07
20 | 69 1.11 3.17
21 | 61 0.98 4.15
71 valores más tarde…
93 | 2 0.03 99.95
94 | 1 0.02 99.97
95 | 1 0.02 99.98
96 | 1 0.02 100.00
------------+-----------------------------------
2 Andrés Santana Leitner (andres.santana@uam.es).

Total | 6,242 100.00

Obviamente, una tabla así sería de escasa utilidad. La mejor manera de describir Vs (que suelen
tener muchos valores diferentes) es recurrir a estadísticos descriptivos univariables (EDU) que
resuman sus características principales sin detenerse en la frecuencia de cada valor. La orden más
usada para ello es ‘summarize’:
summarize EDAD
Con ‘summarize’, obtienes el número de casos (N), dos estadísticos de localización (el mínimo y el
máximo), el estadístico de tendencia central más empleado (la media, μ), y uno de los estadísticos
de dispersión más populares (la desviación estándar, σ):
Variable Obs Mean Std. Dev. Min Max
EDAD 6242 50.00705 17.66387 18 96

Aunque se trata de un resumen “básico”, te confiere una idea razonable de la edad de los
encuestados: el más joven tiene 18 años, el mayor, 96, y la edad media es de unos 50. La
desviación estándar es una medida de la dispersión de la variable: cuanto mayor σ, mayor es la
dispersión y, por consiguiente, menor es la capacidad de la media de representar el valor “típico”.
Visto el éxito, todo lo que tienes que hacer es pedir un ‘summarize’ de las otras Vs:
summarize P35 P35r P73
No tan rápido: es obvio que algo va mal. El valor máximo de P35 (la autoubicación ideológica,
medida en una escala de 1 a 10) no puede ser 99, y su media no puede ser 17.
Variable Obs Mean Std. Dev. Min Max
P35 6242 17.27571 32.06418 1 99
P35r 5400 4.636481 1.979961 1 10
P73 6242 22.80583 134.3084 0 999

El problema se debe a las categorías de no respuesta: si comparas P35 con P35r (la copia refinada
sin las categorías de no respuesta), observarás que el máximo y la media de P35r (10 y 4,6) sí
parecen razonables. P35r tiene 5.400 casos válidos (842 menos que P35).
Por cierto, ¿te has dado cuenta de que, aunque apenas has empezado a analizar datos, ya has
obtenido un resultado relevante? Has revelado que, en una escala de 1 (izquierda) a 10 (derecha),
la ideología media de los encuestados se sitúa en 4,6: este resultado es coherente con la idea de que
el electorado español está algo escorado a la izquierda.

2. Preparar las variables cuantitativas antes de resumirlas


Posiblemente, el máximo de libros leídos en un año tampoco sea 999 (ni la media sea 23). Para
obtener una descripción juiciosa de tus variables, deberás “limpiarlas” antes de las categorías de no
respuesta. Lo primero es saber con qué valores se recoge el ‘N.S.’ y el ‘N.C.’
label list P35 P41
Recordarás que habíamos hecho “trampa” y habíamos sacado una copia de P35 que desechaba los
valores no válidos, sin justificar por qué excluíamos los valores mayores que 97. El ‘label list’ te
muestra la razón: ‘N.S.’ está codificado com 98 y ‘N.C.’, como 99:
P35:
1 1 Izquierda
10 10 Derecha
98 N.S.
99 N.C.
3 Andrés Santana Leitner (andres.santana@uam.es).

En realidad, yo sabía que había que excluir el 98 y el 99 precisamente porque había sacado un
‘label list’. P3601 y P3602 (identificación ideológica atribuida al PP y al PSOE), comparten
etiqueta de valores con P35, con lo que también prescindirás de los valores mayores que 97. Algo
similar aplica a P41 (autoubicación nacionalista, de menos a más):
label list P73
En P73, ‘No recuerda’ vale 998 y ‘N.C.’, 999. Incidentalmente, fíjate en que los dos primeros
valores de P73 tienen etiquetas: ¿vale la pena aclarar que 0 = ‘ninguno’ y 1 es ‘1 libro’?
P73:
0 Ninguno
1 1 libro
998 No recuerda
999 N.C.

Ya tienes toda la información para “refinar” tus variables: válete de ‘generate’ y especifica que la
instrucción solo aplique para valores menores que 98 o, en el caso de P73, 998:
generate P3601r = P3601 if P3601 < 98
generate P3602r = P3602 if P3602 < 98
generate P41r = P41 if P41 < 98
generate P73r = P73 if P73 < 998
Como sabes, las “copias mejoradas” de las variables que así has creado no preservan las etiquetas
de valores: esto es deseable, ya que son Vs. Sin embargo, también has perdido las etiquetas de
variables. Para que sepas qué información contienen, créaselas con ‘label variable’ (puestos en
materia, aprovecha para darles etiquetas más breves):
label variable P35r “Ideología (1-10)”
label variable P3601r "ideopp (1-10)"
label variable P3602r "ideopsoe (1-10)"
label variable P41r "nacionalismo (1-10)"
label variable P73r “Libros leídos (N)”
Describe algunas de tus nuevas variables y compáralas con las originales:
describe P35 P35r P73 P73r
Todo está bien. Tus nuevas variables tienen una etiqueta de variable más sucinta y no tienen la
(potencialmente engañosa) etiqueta de valores.
var.name stor.type display.format value label var. label
---------------------------------------------------------------------------------------------------
P35 byte %16.0f P35 Escala de autoubicación ideológica (1-10)
P35r float %9.0g Ideología (1-10)
P73 int %16.0f P73 Número de libros leídos en los últimos 12 meses
P73r float %9.0g Libros leídos (N)

3. Resumir variables cuantitativas numéricamente


Si relanzas ‘summarize’ con las nuevas variables, el resultado tendrá todo el sentido del mundo:
summarize P35r EDAD P73r
4 Andrés Santana Leitner (andres.santana@uam.es).

Habías visto ya que P35r tenía una media y un máximo considerablemente menores (y más
razonables) que los de P35. P73r nos informa de que a media de los libros leídos en un año es 4,5
(lejos de los casi 23 que salían con la variable original P73) y su máximo, 401 (el de P73 era 999).
Variable Obs Mean Std. Dev. Min Max
P35r 5400 4.64 1.98 1 10
EDAD 6242 50.01 17.66 18 96
P73r 6127 4.50 13.59 0 401

Si añades la opción ‘detail’, obtienes considerable información adicional:


summarize EDAD, detail
En la primera columna, obtienes información de diversos percentiles (1%, 5%, 10%, 25%, 50%,
75%, 90%, 95%, 99%). Los percentiles son medidas “de localización”. El percentil 10% (P10) te
dice que, si los encuestados están ordenados de menor a mayor edad, el que está justo en el 10%
más joven tiene 26 años; el percentil 50% (P50) se conoce como “mediana” y te dice que el
encuestado “típico”, el que está en el centro mismo de la distribución, tiene 49 años; y P95 te sirve
para saber que un 5% de los encuestados tiene 80 años o más. La segunda columna muestra que los
cuatro encuestados más jóvenes tienen todos 18 años, mientras que los cuatro mayores tienen 96,
95, 94 y 93 años, respectivamente.
Edad de la persona entrevistada
-------------------------------------------------------------
Percentiles Smallest
1% 18 18
5% 22 18
10% 26 18 Obs 6242
25% 36 18 Sum of Wgt. 6242
50% 49 Mean 50.00705
Largest Std. Dev. 17.66387
75% 64 93
90% 75 94 Variance 312.0121
95% 80 95 Skewness .1759031
99% 87 96 Kurtosis 2.169703

La tercera columna aporta siete estadísticos: el número de casos, la suma de pesos, la media, la
desviación estándar, la varianza (esto es, el cuadrado de la desviación estándar), la simetría
(‘skewness’ = coeficiente de asimetría de Fisher = λ3) y la “curtosis” (coeficiente de curtosis = λ4).
La suma de pesos solo difiere de n si aplicas pesos, algo que no harás este curso. Una variable es
simétrica si su “lado izquierdo” y su “lado derecho” (el centro es la mediana) son iguales, y es
asimétrica positiva (negativa) si tiene una “cola” a la derecha (izquierda). La curtosis mide “la
dispersión de la dispersión”. Una curtosis de 3 es “normal”; si es mayor que 3, indica que la
variabilidad se debe a pocos cambios, pero de gran magnitud, y gráficamente se traduce en una
distribución “picuda” o “apuntada”.

4. Resumir variables cuantitativas gráficamente


Al tratarse de propiedades de forma, puede valer la pena dibujar un gráfico para apreciar mejor la
simetría y el apuntamiento. El más frecuente para este fin es un histograma:
histogram EDAD, discrete normal
5 Andrés Santana Leitner (andres.santana@uam.es).

He añadido dos opciones a la instrucción básica del histograma (‘discrete’, porque edad sólo puede
valer números enteros; y ‘normal’, para superponer la curva de la ‘distribución normal’, que,
muchas veces, sirve de referente o “base” para juzgar cómo es cualquier distribución empírica).
.025
.02
.015
Density

.01
.005

20 40 60 80 100
Edad de la persona entrevistada

Los gráficos también son ideales para ver si una variable tiene una moda (valor más frecuente) o
varias, lo cual importa en los modelos multidimensionales del voto y los estudios sobre la
agregación de preferencias individuales para hallar un “bien común”.
Saca gráficos de puntos para la ideología atribuida al PSOE y la autoubicación nacionalista:
dotplot P3602r
dotplot P41r
La variable ‘ideopsoe’ tiene un solo máximo, “pico” de frecuencias o moda: es “unimodal”.
Aunque ‘nacionalismo’ tiene un solo máximo global (‘0’), tiene varias modas locales (‘5’ y ‘10’;
de hecho, aunque por poco, ‘8’ también lo es).

Habrás notado que el gráfico que presento tiene algunas diferencias con los que tú has obtenido.
Ello es así porque he usado unas funciones algo más avanzadas para mejorar su aspecto.

5. Preparar las variables cualitativas antes de resumirlas


Excepto que tengas un interés substantivo por las categorías de no respuesta, te interesará
prescindir de ellas para describir tus Ws. Si echas mano de ‘label list’, sabrás que, en P7, ‘N.S.’
vale 8 y ‘N.C.’, 9; en P31, ‘N.C.’ vale 99; y, en P51, ‘N.C.’ vale 9:
label list P7 P31 P35 P51 P73
Para sacar sendas copias de estas variables sin las categorías de no respuesta, es preferible que
emplees ahora la instrucción ‘clonevar’: así, preservarás las etiquetas de valores (que resultan
útiles dado que las variables son Ws).
6 Andrés Santana Leitner (andres.santana@uam.es).

clonevar P7r = P7 if P7 < 8


clonevar P31r = P31 if P31 < 99
clonevar P51r = P51 if P51 < 9
Las etiquetas de las variables (que ‘clonevar’ también mantiene), son innecesariamente largas y
afearán el output. Basta con saber que P51 tiene información sobre el “Estado civil”, ya intuimos
que es el estado civil “de la persona entrevistada”, y no el de sus geranios o su perro pequinés. Para
cambiar una etiqueta de variable, usas la misma instrucción que para crear una etiqueta nueva:
label variable P7r “Valoración situación política”
label variable P31r “Recuerdo de voto”
label variable P51r “Estado civil”
label variable SEXO “Sexo”
label variable EDAD “Edad”
Si quieres, saca un ‘describe’ para ver todas tus variables. Elimina todas las variables “viejas”, para
que no se sobredimensione innecesariamente tu BD:
drop P7 P31 P35 P3601 P3602 P41 P51 P73

6. Resumir variables cualitativas con tablas univariadas de frecuencias


Veamos qué sucede si pides un ‘summarize’ de Ws:
summarize SEXO P51r
Sabemos que no tiene sentido decir que la media del sexo es 1,52 o que la del estado civil es 1,70:
¿simboliza ese 1,70 una persona que está un 30% casada y un 70% soltera?; ¿acaso tiene el anillo
de compromiso, pero aún le falta fijar la fecha de la boda y contratar el restaurante del banquete?
Variable Obs Mean Std. Dev. Min Max
SEXO 6242 1.516021 .4997833 1 2
P51r 6226 1.704947 1.008796 1 5

La mejor alternativa la ofrecen las tablas univariadas de frecuencias (TUF), o tablas de


distribución de frecuencias o, simplemente, tablas de frecuencias. Estas tablas muestran el número
de casos de cada valor de una variable y/o su porcentaje. Debido a que es fácil crearlas e
interpretarlas, son empleadas con mucha frecuencia. El comando principal para construir una TUF
es ‘tabulate’: Para crear una TUF con él, debes declarar una y sólo una variable.
tabulate P7r
Esta instrucción construye una tabla con los casos (frecuencias) de P7r en la primera columna, los
porcentajes en la segunda y los “porcentajes acumulados” en la tercera. Apenas 7 individuos (0,1%
del total) valoran la situación política como muy buena, 240 (3,9%) la consideran buena, etcétera.
La última fila muestra que 6.171 individuos responden a esta pregunta. La última columna se lee
así: un 4% valora la situación política como al menos buena (buena o muy buena), un 38,1% como
al menos regular (regular, buena o muy buena), etcétera.
Situación |
política(1-5) | Freq. Percent Cum.
---------------+-----------------------------------
Muy buena | 7 0.11 0.11
Buena | 240 3.89 4.00
7 Andrés Santana Leitner (andres.santana@uam.es).

Regular | 2,103 34.08 38.08


Mala | 2,395 38.81 76.89
Muy mala | 1,426 23.11 100.00
---------------+-----------------------------------
Total | 6,171 100.00

Presentar tablas no es solo una cuestión técnica, es casi un arte. Casi siempre, es necesario
editarlas. Por ejemplo, rescala las variables si su escala no es intuitiva: aquí, yo sugeriría que la
variable partiera de ‘muy mala’ y terminara en ‘muy buena’, para que sea verdaderamente
“valoración de la situación política” y no la “inversa de la valoración”.

7. Variables cualitativas ordinales y nominales


Saca una TUF de P51r:
tabulate P51r
Observarás que la información de la tercera columna no tiene sentido en este caso: ¿significa acaso
algo que un 85% son “al menos solteros”, o que un 93,4% son “al menos viudos?
Estado civil | Freq. Percent Cum.
-------------+-----------------------------------
Casado/a | 3,435 55.17 55.17
Soltero/a | 1,859 29.86 85.03
Viudo/a | 522 8.38 93.41
Separado/a | 154 2.47 95.89
Divorciado/a | 256 4.11 100.00
-------------+-----------------------------------
Total | 6,226 100.00

La razón por la que la tercera columna tiene sentido con P7r, pero no con P51r es que los valores
de P7r se pueden ordenar (‘muy buena’ es mejor que ‘buena’, que a su vez es mejor que ‘normal’,
y así, sucesivamente), mientras que lo mismo no es cierto para P51r (‘casado’ no es, en esencia, ni
mayor ni menor que ‘soltero/a’, ni ‘soltero/a’ es mayor o menor que ‘viudo/a’, etcétera).
En el argot de los económetras, decimos que una W es ordinal si sus categorías se pueden ordenar.
Es posible decir si crecen o decrecen (y establecer relaciones de igualdad, inferioridad o
superioridad), pero no cuánto (si fuera posible decirlo, serían Vs). Ejemplos son la clase social
(medida como baja, media o alta) y el nivel de estudios (primarios, secundarios, terciarios). Estas
variables son muy habituales en los cuestionarios sociales y políticos.
Decimos que una variable cualitativa es nominal si sus valores no se pueden ordenar. Por ejemplo,
el estado civil o el recuerdo de voto (PSOE, PP, IU, PODEMOS, CIUDADANOS). Algunas,
pueden tener muchas categorías: la profesión, la nacionalidad o la ciudad de residencia.
Un subtipo de las nominales son las de dos categorías. Solemos reservar el término ‘nominal’ para
las de tres o más categorías, y a las de dos las llamamos dicotómicas. Éstas son variables de
presencia-ausencia, posesión o no de un rasgo, realización o no de un acto: el sexo (mujer u
hombre) o el voto (voto o abstención).
A veces lleva a confusión que las Ws estén recogidas por números. Como sabes, en una nominal,
éstos no son números en sí mismos, sino que “representan” características o estados; son
puramente convencionales, y cualquer asignación alternativa es igual de “buena” (daría igual 1 =
casado, 2 = soltero, que 1 = soltero, 23 = divorciado). En las ordinales, los valores numéricos son
parcialmente arbitrarios (daría igual 1, 2, 3 que al revés o que 2, 5; 43, pero no 0, 2, 1).
8 Andrés Santana Leitner (andres.santana@uam.es).

8. Resumir variables cualitativas gráficamente


Los gráficos de Ws más populares son el de pastel, el de barras (o columnas) y el de puntos. Los
primeros, también llamados “circulares” o “de sectores”, se obtienen fácilmente con ‘graph pie’.
Atención: para sacar un gráfico de pastel de una W, no puedes indicar la variable directamente,
tienes que ponerla como argumento de la opción ‘over’:
graph pie, over(P51r)
El resultado de esta instrucción es un gráfico en el que el área de cada sector el círculo o “pastel”
es proporcional al número de casos de cada categoría:

Casado/a Soltero/a
Viudo/a Separado/a
Divorciado/a

Las instrucciones “canónicas” de Stata para obtener el resto de gráficos (‘graph hbar’, ‘graph bar’
y ‘graph dot’) requieren una sintaxis compleja. Para evitarla, lo ideal es recurrir a un “ado”. Saca
primero un listado de los “ados” que tienes instalados:
ado dir
Si no tienes ‘catplot’, instálalo:
ssc install “catplot”
Saca provecho de tu nueva instrucción, úsala para sacar un gráfico de barras de P7r:
catplot P7r
El resultado es un gráfico en el que las barras son proporcionales al número de casos. Suele valer la
pena editar el gráfico para que quede un poco mejor (como el de la derecha). Usa el “editor de
gráficos”, que puedes activar cuando tienes tu gráfico en la pantalla.

Casado/a Casado/a 3435

Soltero/a Soltero/a 1859


Estado civil
Estado civil

Viudo/a Viudo/a 522

Separado/a
Separado/a 154

Divorciado/a 256
Divorciado/a

0 1,000 2,000 3,000 4,000


0 1,000 2,000 3,000 4,000
frequency frequency

Si, en lugar de un gráfico de barras horizontales, quieres uno de columnas (verticales), añade la
opción ‘recast(bar)’. Si quieres un gráfico de puntos, añade en lugar la opción ‘recast(dot)’. En
cualquiera de ellos, puedes optar por mostrar porcentajes en lugar de casos, con la opción
‘percent’; o probabilidades, con la opción ‘fraction’.

You might also like