Professional Documents
Culture Documents
Obviamente, una tabla así sería de escasa utilidad. La mejor manera de describir Vs (que suelen
tener muchos valores diferentes) es recurrir a estadísticos descriptivos univariables (EDU) que
resuman sus características principales sin detenerse en la frecuencia de cada valor. La orden más
usada para ello es ‘summarize’:
summarize EDAD
Con ‘summarize’, obtienes el número de casos (N), dos estadísticos de localización (el mínimo y el
máximo), el estadístico de tendencia central más empleado (la media, μ), y uno de los estadísticos
de dispersión más populares (la desviación estándar, σ):
Variable Obs Mean Std. Dev. Min Max
EDAD 6242 50.00705 17.66387 18 96
Aunque se trata de un resumen “básico”, te confiere una idea razonable de la edad de los
encuestados: el más joven tiene 18 años, el mayor, 96, y la edad media es de unos 50. La
desviación estándar es una medida de la dispersión de la variable: cuanto mayor σ, mayor es la
dispersión y, por consiguiente, menor es la capacidad de la media de representar el valor “típico”.
Visto el éxito, todo lo que tienes que hacer es pedir un ‘summarize’ de las otras Vs:
summarize P35 P35r P73
No tan rápido: es obvio que algo va mal. El valor máximo de P35 (la autoubicación ideológica,
medida en una escala de 1 a 10) no puede ser 99, y su media no puede ser 17.
Variable Obs Mean Std. Dev. Min Max
P35 6242 17.27571 32.06418 1 99
P35r 5400 4.636481 1.979961 1 10
P73 6242 22.80583 134.3084 0 999
El problema se debe a las categorías de no respuesta: si comparas P35 con P35r (la copia refinada
sin las categorías de no respuesta), observarás que el máximo y la media de P35r (10 y 4,6) sí
parecen razonables. P35r tiene 5.400 casos válidos (842 menos que P35).
Por cierto, ¿te has dado cuenta de que, aunque apenas has empezado a analizar datos, ya has
obtenido un resultado relevante? Has revelado que, en una escala de 1 (izquierda) a 10 (derecha),
la ideología media de los encuestados se sitúa en 4,6: este resultado es coherente con la idea de que
el electorado español está algo escorado a la izquierda.
En realidad, yo sabía que había que excluir el 98 y el 99 precisamente porque había sacado un
‘label list’. P3601 y P3602 (identificación ideológica atribuida al PP y al PSOE), comparten
etiqueta de valores con P35, con lo que también prescindirás de los valores mayores que 97. Algo
similar aplica a P41 (autoubicación nacionalista, de menos a más):
label list P73
En P73, ‘No recuerda’ vale 998 y ‘N.C.’, 999. Incidentalmente, fíjate en que los dos primeros
valores de P73 tienen etiquetas: ¿vale la pena aclarar que 0 = ‘ninguno’ y 1 es ‘1 libro’?
P73:
0 Ninguno
1 1 libro
998 No recuerda
999 N.C.
Ya tienes toda la información para “refinar” tus variables: válete de ‘generate’ y especifica que la
instrucción solo aplique para valores menores que 98 o, en el caso de P73, 998:
generate P3601r = P3601 if P3601 < 98
generate P3602r = P3602 if P3602 < 98
generate P41r = P41 if P41 < 98
generate P73r = P73 if P73 < 998
Como sabes, las “copias mejoradas” de las variables que así has creado no preservan las etiquetas
de valores: esto es deseable, ya que son Vs. Sin embargo, también has perdido las etiquetas de
variables. Para que sepas qué información contienen, créaselas con ‘label variable’ (puestos en
materia, aprovecha para darles etiquetas más breves):
label variable P35r “Ideología (1-10)”
label variable P3601r "ideopp (1-10)"
label variable P3602r "ideopsoe (1-10)"
label variable P41r "nacionalismo (1-10)"
label variable P73r “Libros leídos (N)”
Describe algunas de tus nuevas variables y compáralas con las originales:
describe P35 P35r P73 P73r
Todo está bien. Tus nuevas variables tienen una etiqueta de variable más sucinta y no tienen la
(potencialmente engañosa) etiqueta de valores.
var.name stor.type display.format value label var. label
---------------------------------------------------------------------------------------------------
P35 byte %16.0f P35 Escala de autoubicación ideológica (1-10)
P35r float %9.0g Ideología (1-10)
P73 int %16.0f P73 Número de libros leídos en los últimos 12 meses
P73r float %9.0g Libros leídos (N)
Habías visto ya que P35r tenía una media y un máximo considerablemente menores (y más
razonables) que los de P35. P73r nos informa de que a media de los libros leídos en un año es 4,5
(lejos de los casi 23 que salían con la variable original P73) y su máximo, 401 (el de P73 era 999).
Variable Obs Mean Std. Dev. Min Max
P35r 5400 4.64 1.98 1 10
EDAD 6242 50.01 17.66 18 96
P73r 6127 4.50 13.59 0 401
La tercera columna aporta siete estadísticos: el número de casos, la suma de pesos, la media, la
desviación estándar, la varianza (esto es, el cuadrado de la desviación estándar), la simetría
(‘skewness’ = coeficiente de asimetría de Fisher = λ3) y la “curtosis” (coeficiente de curtosis = λ4).
La suma de pesos solo difiere de n si aplicas pesos, algo que no harás este curso. Una variable es
simétrica si su “lado izquierdo” y su “lado derecho” (el centro es la mediana) son iguales, y es
asimétrica positiva (negativa) si tiene una “cola” a la derecha (izquierda). La curtosis mide “la
dispersión de la dispersión”. Una curtosis de 3 es “normal”; si es mayor que 3, indica que la
variabilidad se debe a pocos cambios, pero de gran magnitud, y gráficamente se traduce en una
distribución “picuda” o “apuntada”.
He añadido dos opciones a la instrucción básica del histograma (‘discrete’, porque edad sólo puede
valer números enteros; y ‘normal’, para superponer la curva de la ‘distribución normal’, que,
muchas veces, sirve de referente o “base” para juzgar cómo es cualquier distribución empírica).
.025
.02
.015
Density
.01
.005
20 40 60 80 100
Edad de la persona entrevistada
Los gráficos también son ideales para ver si una variable tiene una moda (valor más frecuente) o
varias, lo cual importa en los modelos multidimensionales del voto y los estudios sobre la
agregación de preferencias individuales para hallar un “bien común”.
Saca gráficos de puntos para la ideología atribuida al PSOE y la autoubicación nacionalista:
dotplot P3602r
dotplot P41r
La variable ‘ideopsoe’ tiene un solo máximo, “pico” de frecuencias o moda: es “unimodal”.
Aunque ‘nacionalismo’ tiene un solo máximo global (‘0’), tiene varias modas locales (‘5’ y ‘10’;
de hecho, aunque por poco, ‘8’ también lo es).
Habrás notado que el gráfico que presento tiene algunas diferencias con los que tú has obtenido.
Ello es así porque he usado unas funciones algo más avanzadas para mejorar su aspecto.
Presentar tablas no es solo una cuestión técnica, es casi un arte. Casi siempre, es necesario
editarlas. Por ejemplo, rescala las variables si su escala no es intuitiva: aquí, yo sugeriría que la
variable partiera de ‘muy mala’ y terminara en ‘muy buena’, para que sea verdaderamente
“valoración de la situación política” y no la “inversa de la valoración”.
La razón por la que la tercera columna tiene sentido con P7r, pero no con P51r es que los valores
de P7r se pueden ordenar (‘muy buena’ es mejor que ‘buena’, que a su vez es mejor que ‘normal’,
y así, sucesivamente), mientras que lo mismo no es cierto para P51r (‘casado’ no es, en esencia, ni
mayor ni menor que ‘soltero/a’, ni ‘soltero/a’ es mayor o menor que ‘viudo/a’, etcétera).
En el argot de los económetras, decimos que una W es ordinal si sus categorías se pueden ordenar.
Es posible decir si crecen o decrecen (y establecer relaciones de igualdad, inferioridad o
superioridad), pero no cuánto (si fuera posible decirlo, serían Vs). Ejemplos son la clase social
(medida como baja, media o alta) y el nivel de estudios (primarios, secundarios, terciarios). Estas
variables son muy habituales en los cuestionarios sociales y políticos.
Decimos que una variable cualitativa es nominal si sus valores no se pueden ordenar. Por ejemplo,
el estado civil o el recuerdo de voto (PSOE, PP, IU, PODEMOS, CIUDADANOS). Algunas,
pueden tener muchas categorías: la profesión, la nacionalidad o la ciudad de residencia.
Un subtipo de las nominales son las de dos categorías. Solemos reservar el término ‘nominal’ para
las de tres o más categorías, y a las de dos las llamamos dicotómicas. Éstas son variables de
presencia-ausencia, posesión o no de un rasgo, realización o no de un acto: el sexo (mujer u
hombre) o el voto (voto o abstención).
A veces lleva a confusión que las Ws estén recogidas por números. Como sabes, en una nominal,
éstos no son números en sí mismos, sino que “representan” características o estados; son
puramente convencionales, y cualquer asignación alternativa es igual de “buena” (daría igual 1 =
casado, 2 = soltero, que 1 = soltero, 23 = divorciado). En las ordinales, los valores numéricos son
parcialmente arbitrarios (daría igual 1, 2, 3 que al revés o que 2, 5; 43, pero no 0, 2, 1).
8 Andrés Santana Leitner (andres.santana@uam.es).
Casado/a Soltero/a
Viudo/a Separado/a
Divorciado/a
Las instrucciones “canónicas” de Stata para obtener el resto de gráficos (‘graph hbar’, ‘graph bar’
y ‘graph dot’) requieren una sintaxis compleja. Para evitarla, lo ideal es recurrir a un “ado”. Saca
primero un listado de los “ados” que tienes instalados:
ado dir
Si no tienes ‘catplot’, instálalo:
ssc install “catplot”
Saca provecho de tu nueva instrucción, úsala para sacar un gráfico de barras de P7r:
catplot P7r
El resultado es un gráfico en el que las barras son proporcionales al número de casos. Suele valer la
pena editar el gráfico para que quede un poco mejor (como el de la derecha). Usa el “editor de
gráficos”, que puedes activar cuando tienes tu gráfico en la pantalla.
Separado/a
Separado/a 154
Divorciado/a 256
Divorciado/a
Si, en lugar de un gráfico de barras horizontales, quieres uno de columnas (verticales), añade la
opción ‘recast(bar)’. Si quieres un gráfico de puntos, añade en lugar la opción ‘recast(dot)’. En
cualquiera de ellos, puedes optar por mostrar porcentajes en lugar de casos, con la opción
‘percent’; o probabilidades, con la opción ‘fraction’.