Professional Documents
Culture Documents
La importancia de la estadstica
Lejos de ser abstracciones matemticas, la estadstica en realidad tiene que ver con datos que nos envuelven
permanentemente: la probabilidad de lluvias en el pronstico meteorolgico que vemos por TV, el ndice de
inflacin del que nos enteramos por los diarios, la cantidad de personas que sigui la transmisin televisiva
del superclsico entre River y Boca, etc.
La estadstica no slo nos informa y orienta acerca de la realidad, sino que adems nos ayuda a tomar
decisiones, tanto a las personas particulares (si debo salir con paraguas, cmo debo administrar mi
presupuesto familiar considerando el aumento de precios del mes pasado, etc.) como a instituciones y
empresas (saber, por ejemplo, si un determinado producto tiene una aceptacin tal que justifique invertir para
lanzarlo al mercado).
Murat propone que matematizar es descubrir en las relaciones empricamente observables nuevas
relaciones de un orden superior de abstraccin. Cuando en un conjunto de fenmenos observables se
comprueba que existe una cierta regularidad, es posible entonces intentar la formulacin de la
correspondiente teora matemtica (Murat, 1968: 17).
Regularidad estadstica
Es decir, en lugar de prever el valor o posicin exacta de cada observacin, es posible prever con un
margen de error cognoscible la proporcin ms probable de observaciones que, en un momento dado, se
hallarn en una categora determinada.
La regularidad observada empricamente (en los hechos) puede ser de tipo estadstico, y entonces el
modelo matemtico deber tener en cuenta lo esencial en ese tipo de regularidad, y si el modelo elegido logra
una confiabilidad suficientemente alta, puede ser utilizado para describir, analizar y en ocasiones prever el
fenmeno en cuestin. As como hay sistemas lgico-matemticos que describen el comportamiento de los
gases, de la luz o de la electricidad, as tambin es posible lograr sistemas lgicos o teoras matemticas
acerca del comportamiento humano, ms all de que ste puede presentar una complejidad probablemente
mayor que los fenmenos fsicos.
Por su parte, Blalock (1994) destaca que una medicin rigurosa permite, entre otras ventajas, refinar
el anlisis ms all del nivel del sentido comn, conocer mejor las condiciones que influyen en la relacin
entre dos variables, aclarar nuestro pensamiento terico y sugerirnos la consideracin de nuevas variables.
1
Concepto de estadstica
Se puede decir que la estadstica es una tcnica o mtodo que se utiliza para recopilar, organizar, presentar,
analizar e interpretar informacin numrica, con la finalidad de extraer conclusiones tiles y servir al anlisis
de un cierto conjunto a partir del conocimiento de una parte del mismo (Giuliodori, 1997: 9). O bien, que
es un conjunto de mtodos y tcnicas cuyo objetivo es el de recolectar, clasificar, ordenar, analizar y
describir datos, con el fin de obtener informacin a un costo mnimo y de realizar un uso ptimo de esa
informacin, para hacer inferencias con respecto a una poblacin a efectos de extraer conclusiones tiles
para la toma de decisiones (Carrizo Stauffer, 2000: 2)
A su vez, se pueden distinguir dentro de la estadstica dos grandes ramas: por un lado, la estadstica
descriptiva -conjunto de mtodos y tcnicas que se relacionan con el resumen y la descripcin de datos, a
travs de grficos, anlisis de clculos o medidas- y por otro la estadstica inferencial, como mtodos y
tcnicas que permiten, a partir de la informacin proporcionada por una parte (muestra) de un todo
(poblacin) ms amplio, tomar decisiones sobre el todo, recurriendo a conceptos de probabilidad.
A la estadstica inferencial tambin se la suele llamar inductiva (Blalock, 1996: 16). Basada en la
teora de la probabilidad, apunta a generalizar a partir de una informacin limitada.
Recopilacin: captacin de los datos estadsticos, que puede ser interna (extrados de la
misma empresa, institucin o ente que va a utilizarla) o externa (provenientes de afuera del
ente que va a hacer uso de ella, como es el caso de datos procedentes de censos, encuestas,
publicaciones, etc.)
Organizacin: sigue a la etapa anterior, y es donde se corrigen los datos (particularmente se
da en el caso de encuestas, cuando se eliminan o ajustan las inconsistencias de datos o se
completan otros) y se clasifican estableciendo cules sern los aspectos relevantes
considerados para la tabulacin y presentacin (criterios temporales como fechas, lapsos,
perodos; aspectos cuantitativos, como ingresos, consumos, edad; aspectos cualitativos como
nivel de instruccin, nacionalidad, sexo, religin).
Presentacin: tiene que ver con la exposicin de los datos de manera literal, o en tablas
estadsticas, o en grficos.
Anlisis: tiene que ver con el examen de la informacin obtenida para establecer relaciones
objetivas entre los datos, recurriendo a diversas herramientas estadsticas (regresin,
correlacin, asociacin, test de hiptesis, anlisis de varianza, etc.)
2
como la Cmara del Calzado, la Cmara de Inmobiliarias, o fundaciones, como la Fundacin
Mediterrnea, etc). como pblica.
Organismos estadsticos: los hay del orden nacional -como el Instituto Nacional de
Estadstica y Censos (INDEC), el Banco Central de la Repblica Argentina (BCRA), el
Consejo Federal de Inversiones (CFI), entre otros- y del orden provincial y municipal. A
nivel internacional, tambin existen organismos y publicaciones.
3
Censos y encuestas
Es oportuno distinguir entre dos tipos de relevamientos que producen estadsticas particulares: 1) los censos
y 2) las encuestas. Los primeros comprenden a todo el universo bajo estudio. Por ejemplo, los recuentos
decenales de la poblacin total del pas constituyen censos, pues abarcan a la totalidad de los habitantes.
Tambin lo son los Censos Nacionales Econmicos que comprenden a la totalidad de los establecimientos
comerciales, industriales y de servicios del pas (Giuliodori, 1997: 10).
En este sentido, un censo es un relevamiento exhaustivo sobre todos y cada uno de los individuos de
una poblacin dada. Por lo tanto, se trata de operativos muy complejos y onerosos, ya que involucran
muchsimo personal para el relevamiento y procesamiento de datos, entre otras tareas.
Por su parte, las encuestas son relevamientos que abarcan a una parte del universo bajo estudio, a la
que se llama muestra. Como idea reguladora, una muestra debe ser representativa de la poblacin, es decir
que sus datos no slo representen a los elementos de la poblacin que fueron seleccionados para integrar la
muestra, sino tambin aquellos que no lo fueron.
Existen encuestas oficiales, como la Encuesta Permanente de Hogares (EPH) del INDEC (Instituto
Nacional de Estadstica y Censos) y a su vez diversos organismos de investigacin pblica y consultoras
privadas que realizan encuestas, tema que retomaremos ms adelante.
4
UNIDAD II.
Existen datos estadsticos de tipo cualitativo, que arrojan respuestas categricas, como por ejemplo
sexo de los lectores del diario La Voz del Interior, nacionalidad de los jugadores de un mundial de ftbol,
preferencia de los varones mayores de 18 aos por uno u otro noticiero de TV por cable.
Asimismo, existen datos cuantitativos, que arrojan respuestas numricas, y que a su vez se clasifican
en datos cuantitativos discretos, que presentan solamente valores enteros, como por ejemplo cantidad de
jugadores expulsados en la primera fecha del Mundial, o cantidad de goles convertidos en la misma fecha.
Otro ejemplo clsico: una mujer puede tener 0, 1, 2 o inclusive 17 nios, pero no puede tener 2,3 nios.
Por otro lado, existen datos cuantitativos continuos, donde la variable puede asumir cualquier valor,
an infinitamente pequeo, dentro de un intervalo determinado. Por ejemplo, distancia en metros al arco de
los tiros libres ejecutados en el encuentro entre la Seleccin Argentina y su rival ocasional, edad de los
jugadores de esos equipos. En este caso, la respuesta numrica adems de surgir de un proceso de medicin,
puede corresponder con valores no enteros, admitiendo decimales.
Por ejemplo, la distancia en metros al arco de tiros libres puede arrojar valores como 25,05 metros.
En el caso de datos cuantitativos como la edad, si bien su naturaleza es continua, frecuentemente, por
convencin, se la trata como discreta (yo digo: tengo 35 aos, no tengo 35 aos, 6 meses, X das, etc).
Las mediciones se rigen por reglas y principios referidos a diversos niveles de complejidad de la
medicin y de los campos en que la misma puede ser aplicada. En ese sentido, las operaciones lgicamente
posibles con una determinada serie de valores o medidas dependen de las condiciones reales en que las
medidas fueron obtenidas; en ltima instancia, dependen de diversos tipos de escala (Murat, 1968: 27).
Las escalas de medicin ms comnmente empleadas en ciencias de la conducta son las siguientes:
Escala nominal
Una escala nominal o clasificatoria es el tipo ms simple de medicin, que consiste en reemplazar
por medio de una convencin- el nombre de una categora determinada de personas u objetos por una letra o
un nmero. Por ejemplo, los nmeros con que se clasifican los jugadores de ftbol son una forma de
clasificacin nominal; los zagueros derechos se indican convencionalmente con el nmero 3 (Murat, 1968:
28).
Esta clasificacin es convencional y arbitraria de hecho, se las llama nominales porque todo lo que
se hizo fue otorgar un nombre a la categora (Blalock, 1994: 45). En ella, una clase de personas u objetos se
subdivide en ms subclases que se excluyen mutuamente unas a otras y que por lo mismo establecen la
equivalencia entre s de los miembros de cualquiera de las subclases respecto a la propiedad sobre la que se
basa el proceso de clasificacin. Este tipo de escalas slo admite clculos estadsticos como la moda, la
frecuencia de cada clase y pruebas no paramtricas.
El requerimiento fundamental para construir una escala nominal es que se puedan distinguir dos o
ms categoras significativas y que se establezcan los criterios segn los cuales los individuos, grupos,
objetos o respuestas sern incluidos en una o en otra categora. Las categoras exhaustivas y mutuamente
excluyentes- no mantienen otra relacin entre s que la de ser distintas unas de otras (Baranger, 1992: 11).
En ciencias sociales, hay muchas variables o propiedades que se definen nominalmente, como es el
caso del sexo, estado civil, nacionalidad, religin, afiliacin o simpata partidaria. Nada impide asignar
5
nmeros a las diferentes categoras de cada variable (por ejemplo, en el caso del sexo, 1 para masculino y 2
para femenino) pero aqu los nmeros slo funcionan como rtulos o nombres, lo cual limita a posteriori las
operaciones estadsticas que pueden aplicarse sobre ellos (se limitan al nmero de casos, el clculo de
porcentajes, la moda, el clculo de algunos coeficientes de asociacin, tablas de contigencia y pruebas
bsicas como el chi cuadrado).
Escala ordinal
Una escala ordinal es aquella en la que las personas, propiedades u objetos incluidos en una
determinada subclase no slo difieren de los incluidos en otra subclase, sino que adems guardan
determinadas relaciones entre s, y es posible valorar la magnitud de la caracterstica que es comn a todos
los casos de tal modo de comprobar que algunos elementos son mayores que otros. Esto permite construir un
escalonamiento ordenado de los elementos clasificados.
En estas escalas hay un orden: no slo se distingue entre distintas categoras como suceda con las
nominales, sino que es adems posible afirmar si una unidad de anlisis posee en mayor, en igual o en
menor grado que otra la propiedad que se est midiendo. As, por ejemplo, en la escala de una jerarqua
militar no solamente podemos decir que un capitn, un teniente y un sargento son diferentes entre s, sino
que dichas categoras pueden ordenarse con respecto a la autoridad que reviste cada uno de esos grados:
Capitn > Teniente > Sargento (Baranger, 1992: 12).
As, una escala ordinal define la posicin relativa de objetos o individuos con respecto a una
caracterstica, sin implicacin alguna en cuanto a la distancia entre posiciones. En ciencias sociales hay
muchas variables medidas ordinalmente, entre ellas los ndices de nivel socioeconmico, el prestigio
ocupacional, el grado de radicalismo poltico o de nacionalismo y la religiosidad. Respecto a las variables
nominales, en las ordinales se amplan las medidas estadsticas utilizables, como la mediana, los cuartiles y
percentiles, los coeficientes de correlacin de rangos (Spearman, etc).
Ejemplos de escalas ordenadas por rangos se encuentran en el orden militar, eclesistico (cardenal,
arzobispo, obispo) o administrativo (secretario, subsecretario). Las operaciones aritmticas y las relaciones
que poseen un significado emprico en este caso son aquellas que nos dan la mediana y las que se expresan
por medio de un coeficiente de correlacin por rango (Spearman) o correlacin tau (Kendall).
Una escala intervalar agrega a la ordinal el hecho de conocer la distancia existente entre los valores
numricos atribuidos a las posiciones de los sujetos en la escala. Aqu, de manera arbitraria, se fija un punto
cero y se establece una unidad de medida comn. Tipos de atributos cuya medicin puede lograrse
recurriendo a una escala intervalar son la temperatura de un cuerpo (escala Celsius o Fahrenheit) y la
ubicacin en el tiempo (calendario) (Murat, 1968: 33). En las ciencias de la conducta, existen tests de
inteligencia que trabajan con escalas de tipo intervalar (coeficiente intelectual, IQ).
La escala intervalar trabaja con una unidad de medida contable. Si bien es ms tpica de las ciencias
fsicas y naturales (con unidades como el kilogramo, el metro, el segundo) en ciencias sociales tambin se
emplean con frecuencia algunas, por ejemplo las unidades monetarias (respecto a ingresos monetarios,
cuntos pesos gana A y cuntos gana B) y el tiempo (cuntos aos estudi A y cuntos B, durante cuntas
horas A mira noticieros por televisin y cuntas horas dedica B a lo mismo). Cuando la existencia de una
unidad estandarizada de esa ndole permite comparar las diferencias de puntaje, estamos ante una escala de
intervalos.
6
Se puede decir que una escala de intervalos iguales no slo permite diferenciar y ordenar unidades de
anlisis sino tambin especificar la distancia que separa a una de otras en una determinada propiedad. Este
nivel de medicin requiere que se establezca algn tipo de unidad de medida que pueda ser considerado por
todos como una norma comn y que sea repetible, esto es, que se pueda aplicar indefinidamente a los
mismos objetos produciendo los mismos resultados (Baranger, 1992: 12).
En este nivel se amplan sustancialmente los estadsticos aplicables, que incluyen ahora a la media
aritmtica, la varianza, diversos modelos de regresin y el coeficiente producto-momento de Pearson.
Si, adems, el punto cero se elige de una manera no arbitraria, se vuelve posible comparar la razn
de dos puntajes, y tenemos lo que se denomina una escala de razones (Blalock, 1994: 48). Por ejemplo, en
el caso de los ingresos medidos en pesos se pueden hacer afirmaciones significativas del tipo A tiene un
ingreso que duplica al de B, porque el punto cero no es arbitrario, sino que representa la ausencia de
ingresos o ingresos nulos.
Es interesante considerar que parte del progreso de la ciencia consiste en la mejora de las escalas
hacia niveles superiores. Como marca Stevens, cuando los hombres conocan la temperatura slo mediante
sensaciones, cuando las cosas eran slo ms calientes o ms fras que otras, la temperatura perteneca al
tipo ordinal de escalas. Se convirti en una escala de intervalo con el desarrollo de la termometra, y despus
que la Termodinmica utiliz la razn de expansin de gases para extrapolar a cero, se convirti en una
escala de razn. Anlogamente, la distincin entre los colores de los objetos que consideramos
corrientemente en un nivel nominal, desde la Fsica puede ser considerada como una escala de intervalos: se
trata de la reflexin de la luz en diferentes longitudes de onda (Baranger, 1992: 14).
Los distintos niveles de medicin se acumulan unos sobre otros: la escala ordinal posee todas las
propiedades de la escala nominal adems de la ordinal. A su vez, la escala de intervalo posee todas las
propiedades de las escalas nominal y ordinal y, adems, una unidad de medida, en tanto que la escala de
proporcin {de razn} presenta el nivel ms elevado, ya que posee no slo una unidad de medida, sino,
adems, un cero absoluto (Blalock, 1996: 28).
Definiciones clave
Algunas definiciones importantes que hay que manejar en estadstica son las siguientes (Christensen, 1999:
20):
Poblacin. Cualquier coleccin de unidades que puedan ser de inters en un estudio. Esta coleccin
debe estar bien definida, de tal forma que se pueden distinguir entre sus miembros aquellos que lo son y los
que no lo son. Por ejemplo, si queremos hacer un estudio sobre los lectores adultos del diario La Voz del
Interior en la ciudad de Crdoba, la poblacin se podra definir como todos los lectores (de cualquier sexo)
de esa publicacin, mayores de 18 aos, con residencia en la ciudad. Es decir, a travs de esos caracteres
definimos quines la integran y quines no (en el ejemplo, estamos excluyendo de la poblacin a los menores
de 18 aos, a quienes no tienen residencia en la ciudad en cuestin y a quienes no leen ese diario).
7
medicin cuantitativa, en tanto que el registro de su opinin respecto a los contenidos del diario sera objeto
de una medicin cualitativa.
Inferencia estadstica. Una inferencia estadstica es una conclusin obtenida acerca de una poblacin
completa, desde la informacin tomada de una muestra. Consiste en atribuir a la poblacin completa
caractersticas (consideradas significativas) que se obtuvieron de la muestra: por ejemplo, si identificamos en
una muestra que la frecuencia de compra del diario deportivo Ol es de dos das a la semana, la inferencia
estadstica nos permitira afirmar con mrgenes de error razonables- que la poblacin debera mostrar el
mismo comportamiento.
Parmetro. Nmero que describe algunas propiedades de la poblacin. Son parmetros los
resmenes de los resultados de una medicin que abarca a la poblacin total.
Estadstica. Nmero que describe algunas propiedades de una muestra. El resumen numrico de los
datos remite a una muestra de poblacin.
La estadstica calculada desde una muestra aleatoria rara vez, si es que alguna, concuerda
precisamente con el parmetro de la poblacin de donde fue tomada la muestra. Por otra parte, la estadstica
calculada desde una muestra de la poblacin por lo general no concuerda precisamente con la estadstica
calculada desde otra muestra de la misma poblacin. Esta diferencia se presenta porque un mecanismo
azaroso, empleado para seleccionar una muestra, puede hacerlo cada vez algo diferente en un conjunto de
unidades (Christensen, 1999: 43).
Es importante recalcar que, ms que asegurarse de que los parmetros y estadsticas coinciden con
precisin, los estadsticos usualmente lo que hacen es construir intervalos dentro de los cuales ellos esperan
que queden los parmetros.
Por ejemplo, no es lo mismo decir que la edad del lector tpico del diario deportivo Ol es de 30 aos
(estimacin de un solo punto) que decir que en un 95% estamos seguros de que es de entre 28 y 32 aos
(estimacin de intervalo, que nos dice qu tanto de ms o de menos puede ser el dato real). El intervalo de
confianza es el intervalo donde se espera que se encuentre el valor real del parmetro.
8
Estadstica descriptiva
La estadstica descriptiva apunta a describir un conjunto de datos en forma resumida. Uno de los conceptos
importantes aqu es el de frecuencia, que se refiere al nmero de veces que ocurre un valor o fenmeno en
particular. Usualmente las frecuencias se agrupan en tablas de distribucin de frecuencias, que resumen y
organizan los datos.
La siguiente es una tabla de frecuencias, aplicada al ejemplo de lectores del diario La Voz del
Interior:
Tabla 1
Ocupacin Frecuencia Porcentaje
Empleado 35 35%
Cuentapropista 20 20%
sin empleados a
cargo
Empresario con 10 10%
empleados a
cargo
Jubilado 10 10%
Desocupado 5 5%
Slo hace tareas 10 10%
hogareas
Estudiante 10 10%
Totales 100 100%
Los mismos datos pueden ser representados a travs de un grfico de barras como el siguiente:
Figura 1
35%
20%
5%
Empleado Cuentapropista sin Empresario con Jubilado Desocupado Slo hace tareas Estudiante
empleados a cargo empleados a cargo hogareas
En estadstica descriptiva se habla de distribuciones de distinto tipo. Por caso, estn las
distribuciones unidimensionales, que son aquellas donde se analiza una sola variable cada vez. Estas
distribuciones se presentan de distinta manera.
Una de las presentaciones es la llamada serie simple, donde el conjunto de datos o valores de la
variable en cuestin se presentan conforme van apareciendo, sin ningn criterio ordenador. Por ejemplo,
supongamos que tenemos la variable cantidad de cuadras que caminan 5 lectores del diario para adquirir su
ejemplar y que la variable arroja los siguientes valores: 1 cuadra, 5 cuadras, 2 cuadras, 4 cuadras, 10 cuadras.
Esa es una serie simple.
9
La variable en una serie simple se simboliza con la letra X, y cada uno de los valores que asume la
variable se lo simboliza con xi, donde cada subndice indica el orden en que se presentaron las
observaciones. En el ejemplo, sera X1: 1 cuadra, X2: 5 cuadras, X3: 2 cuadras, etc.
Otra presentacin se llama distribucin de frecuencias, en la que los datos son agrupados de manera
ordenada y clasificados de cuantitativamente. A diferencia de la serie simple (donde se listan todos los
valores que se presentaron) en las distribuciones de frecuencia slo se escriben los valores diferentes de la
variable, ya que la frecuencia es el nmero de veces que se repite un determinado valor de la variable.
As, en las distribuciones de frecuencia, la variable analizada se simboliza con la letra Y, y para
cada valor distinto de la variable se utiliza el smbolo yi, donde el subndice nos indica cada valor distinto
que presenta la variable en la serie.
La distribucin normal
Se llama distribucin normal a aquella en la que los datos se configuran en una distribucin probabilstica
para una variable aleatoria continua que tiene simetra perfecta, en forma de campana unimodal. En ella, la
media, la mediana y la moda de la distribucin son todas iguales y estn localizadas al centro de la
distribucin, en tanto que las medidas de la varianza, compactas o dispersas fuera de la distribucin, estn
alrededor de la media.
Algunos ejemplos tpicos de poblaciones cuyas medidas tienden a ser distribuidas normalmente son:
marcas [notas] sobre exmenes normalizados o controlados, estaturas, pesos (Christensen, 1999: 242).
Otro ejemplo clsico es el coeficiente intelectual (IQ)
10
Figura 2
En estadstica, a esto se le llama teorema del lmite central: la mayor parte de las medias muestrales
se agrupan cerca de la media de la poblacin y se van dispersando cuanto ms se alejan de la media de la
poblacin.: la distribucin de las medias muestrales tiende a ser normalmente distribuida (esto es, en
grandes muestras tiende a tomar la forma de una distribucin normal) (Christensen, 1999: 297). Qu tan
grande debe ser la medida de la muestra para eso? Un parmetro razonable es una medida igual o superior a
30 (n > 30), aunque en poblaciones justamente simtricas es decir-, si la variable se comporta de manera
similar a la curva en forma de campana- se puede obtener una buena aproximacin con una n tan pequea
como 10.
11
Frecuencias absolutas y frecuencia relativa
La frecuencia absoluta de un valor cualquiera es el nmero de veces casos, sujetos, etc- que en una muestra
o poblacin dada poseen ese valor. Por ejemplo, en un estudio de mercado sobre hbitos de lectura de
diarios, una distribucin de frecuencias relativa a la cantidad de veces por semana que una muestra de
personas ley un diario X nos puede decir que en dos casos (dos veces-2-) apareci el valor 6,
correspondiente a 6 lecturas en una semana, entonces la frecuencia absoluta de ese valor es dos (2).
En tanto, la frecuencia relativa ser la proporcin de veces que en la muestra o poblacin dada
apareci aquel valor. As, si la muestra se compone de 33 casos, la frecuencia relativa del valor 6 (que
aparece 2 veces) es 2/33 = 0,0606.
Frecuencia absoluta simple: es la cantidad de veces que se repite cada valor de la variable en
cuestin. Se la simboliza con ni. La suma de todas las ni es igual al total de observaciones que se simboliza
con n o N, segn estemos trabajando con los datos de una muestra o con los de una poblacin.
Frecuencia relativa simple: es la proporcin que en el total de las observaciones tiene cada
frecuencia absoluta simple que se present, y se obtiene dividiendo la frecuencia absoluta simple por el
nmero total de observaciones. Se la simboliza con hi. La suma de todas las frecuencias relativas simples
es 1 o 100%.
A su vez, la frecuencia absoluta acumulada es la que surge de sumar las frecuencias absolutas
simples hasta un determinado valor de la variable, y se la simboliza con Ni, con el subndice indicando
hasta qu valor inclusive de la variable se suman las frecuencias absolutas simples. La ltima de las
frecuencias acumuladas es siempre igual al total de las observaciones.
Anlogamente, la frecuencia relativa acumulada surge de sumar las frecuencias relativas simples
hasta un determinado valor de la variable, se la simboliza Hi, indicando el subndice hasta qu valor
inclusive de la variable se suman las frecuencias relativas simples, y siempre la ltima de las frecuencias
relativas acumuladas es igual a 1 o 100%.
Por ejemplo, supongamos que los siguientes datos representan al nmero de clases de las distintas
materias de la carrera de Periodismo a la que asistieron, en el ltimo cuatrimestre, un grupo de 25 alumnos
inscriptos en esa carrera. En una serie simple, los datos apareceran as:
7; 5; 4; 5; 6; 3; 2; 1; 7; 7; 3; 5; 4; 3; 3; 2; 4; 1; 5; 7; 3; 2; 6; 3; 1
12
En una tabla de distribucin de frecuencias, se veran as:
Tabla 2
-n3 = 6 significa que seis alumnos de un total de 25 asistieron a 3 clases en el cuatrimestre considerado
-h5 = 0.16 significa que el 16 por ciento de los 25 alumnos asistieron a 5 clases en el cuatrimestre
considerado
-N4 = 15 significa que 15 estudiantes de los 25 alumnos asistieron a 4 o menos clases en el cuatrimestre
considerado
-H6 = 0.84 significa que el 84 por ciento de los alumnos asistieron a 6 o menos clases, o bien asistieron entre
1 y 6 clases inclusive, en el cuatrimestre considerado
Este dato tambin puede ser graficado de distintas maneras. Una forma tpica es el llamado grfico
de bastones o columnas, para frecuencias absolutas simples o relativas simples (para frecuencias absolutas
acumuladas o frecuencias relativas acumuladas se utiliza el grfico escalonado o en escalera, pero su empleo
es escaso, por lo que lo obviaremos).
13
Figura 3
30
20
10
Percent
0
1.00 2.00 3.00 4.00 5.00 6.00 7.00
Asistencia a clases
Asimismo, existen grficos para presentar datos cualitativos, como los llamados grficos de partes
componentes, siendo los ms conocidos los grficos de barras y los circulares (o tortas). Supongamos que
estamos haciendo una investigacin en una institucin educativa y tenemos los datos de los elementos que
prefieren utilizar en clase los alumnos del instructorado en educacin fsica y que las respuestas se
representan de las siguientes maneras:
Figura 4
Cintas 15%
Tablas 15%
Colchonetas 25% Serie1
Aros 15%
Pelotas 30%
14
Figura 5
Cintas
15% Pelotas
30% Pelotas
Tablas Aros
15% Colchonetas
Tablas
Aros Cintas
Colchonetas
15%
25%
Figura 6
Por otro lado, los grficos de barras compuestas se utilizan cuando queremos comparar una variable respecto
a dos o ms categoras de otra variable. Supongamos que tenemos informacin sobre los alumnos del
instructorado en educacin fsica clasificada por sexo y estado civil. Una forma de presentar esos datos sera
la siguiente:
14 Casado
12 Soltero
10
8 Soltero Masculino
6 Casado Femenino
4
2
0
Soltero Casado
Si bien los anteriores son los principales tipos de grficos, de hecho la galera es ms amplia.
Programas de software como el SPSS para Windows o el Excel disponen de una gran variedad de opciones
en ese sentido. Las que acabamos de ver, por ejemplo, son salidas grficas bsicas desde SPSS (figura 3) y
Excel (figuras 4, 5 y 6), obtenidas de manera elemental, sin emplear ningn conocimiento especial de esos
paquetes de software, pero esos programas ofrecen muchsimas posibilidades de edicin en cuanto a formato
y esttica, cuando uno ya domina ms herramientas de los mismos.
Considerando que no cualquier grfico es apropiado para cualquier dato, de todos modos se puede
hacer la siguiente sntesis de las principales salidas grficas disponibles (Giuliodori, 1997:20):
Lineales:
a) de ordenadas o de bastones. Se utilizan para representar distribuciones con pocos valores de una
variable discreta. Se marcan los valores de la variable sobre el eje de la abcisa y se levanta una ordenada
para cada uno de ellos, que es proporcional a la frecuencia. Es muy til para presentar comparaciones
entre s de un nmero reducido de tems.
15
b) poligonal: se marcan los puntos que corresponden a las diferentes coordenadas y luego se unen dichos
puntos mediante trazos rectos, conformndose una trayectoria poligonal. Se los suele utilizar sobre todo
en casos en que la variable que se representa en el eje x es el tiempo o alguna otra magnitud continua. Es
muy til para mostrar la trayectoria tendencial y las oscilaciones que el fenmeno presenta cuando hay
una cantidad considerable de datos a presentar. Cuando se refiere a series temporales, en la jerga se suele
llamar a estos grficos evolutivos en lneas de fiebre.
c) ojiva: es de uso menos frecuente y representa generalmente acumulaciones de las frecuencias (de la
cantidad de observaciones).
De superficie:
a) Histograma: de uso no tan frecuente, utiliza rectngulos que se levantan con base en el eje de abcisa y
cuyas alturas son proporcionales a las magnitudes que tienen los valores de la variable que se representan
en las ordenadas (usualmente las frecuencias). Sirve para representar una cantidad reducida de categoras
o tems y mostrar las diferencias absolutas entre ellas.
b) De barras: de uso muy habitual, es similar al histograma pero emplea rectngulos o barras separadas
entre s y usualmente se emplea cuando la variable que se usa en el eje de las abcisas es cualitativa.
De partes componentes: suelen usar barras y poligonales, pero los ms empleados son los crculos, y
especficamente los radiados y de tortas, que muestran la composicin de un fenmeno o todo en sus partes
integrantes.
16
UNIDAD III.
Existen mltiples medidas estadsticas, pero las ms comunes se orientan a alguno de los siguientes
propsitos:
Medicin de tendencias centrales: sirven para resumir los datos en trminos de un caso tpico o
promedio
Estimacin de los parmetros de la poblacin: partiendo de una muestra, sirven para obtener
inferencias sobre caractersticas de la poblacin total.
Las tres herramientas estadsticas bsicas ms usadas para describir o caracterizar un comportamiento tpico
o un caso promedio son la media aritmtica, la mediana y la moda. Estas son llamadas tambin medidas de
posicin.
La media aritmtica es la suma de una serie dividida por el nmero de cifras en una serie. Esta
medida es til cuando los resultados son simtricos y tienen una distribucin normal, pero puede ser muy
engaosa como cifra estadstica de resumen si entre los resultados registrados hay casos extremos o la
distribucin es muy distinta a una distribucin normal.
Ejemplo de media:
Tenemos una muestra de lectores del diario La Voz del Interior, que lo compran con la siguiente
frecuencia semanal, respectivamente: 1, 1, 2, 3, 4, 4. El total suma 15. Dividido por las 6 mediciones, se
obtiene 2,5, que es la media aritmtica.
La mediana es el caso intermedio en una serie, es decir aquel que tiene la mitad de las observaciones
por encima y la otra mitad por debajo, o, en palabras de Murat, aquel valor en la escala de medicin que
divide la totalidad de los objetos que forman la muestra o la poblacin en dos partes iguales (Murat, 1968:
78). Es decir, es una medida de posicin que aparece en el centro o al medio- de una sucesin ordenada de
los valores que asume una variable. Tiene la ventaja de no verse afectada por los casos extremos (esto la
diferencia de la media aritmtica).
Cuando la cantidad de datos es impar, existe un solo valor de la variable que ocupa el centro, y se es
el valor de la mediana. Si la cantidad de datos es par, existen dos valores de la variable que ocupan el centro;
en ese caso, la mediana se obtiene promediando esos dos valores centrales.
Ejemplo de mediana:
Supongamos que medimos el gasto mensual de los lectores en la compra del diario La Voz del
Interior. Tenemos 5 mediciones de gastos en pesos: $1, 3, 4, 6 y 20. La mediana, en este caso, es 4: tiene dos
valores por debajo (1 y 3) y dos valores por arriba (6 y 20).
17
La moda es la observacin ms frecuente, la que ms se repite, la respuesta que ms aparece, es decir
el valor de la variable que tiene la mayor frecuencia absoluta simple.
Si ninguna respuesta aparece con ms frecuencia que otras, no hay moda. Si dos respuestas
diferentes ocurren con idntica frecuencia, entonces se dice que la distribucin es bimodal. Por lo general, si
se opera con muestras aleatorias obtenidas de una nica poblacin, las distribuciones de frecuencias son
unimodales (Murat, 1968: 83). Comparativamente, la moda es una medida que se usa menos.
Ejemplo:
Supongamos que tenemos mediciones relativas a la cantidad de personas con las que 10 lectores de
La Voz del Interior comparten la lectura del diario, por ejemplo en su hogar (o en su lugar de trabajo) y que
esas mediciones arrojan los siguientes datos: 1, 1, 2, 3, 4, 5, 2, 4, 2, 3. En este caso, la moda es 2, porque es
el valor que se repite con ms frecuencia que ningn otro.
Supongamos que estamos haciendo un estudio de mercado y tenemos una base de datos
correspondiente a mediciones de talles de zapatos vendidos; en ese caso, puede que la media no sea
representativa, si entre los registros tenemos clientes con pies muy grandes (por ejemplo, 45) o muy
pequeos (37), ya que los casos extremos distorsionan la media. Podra resultar entonces ms interesante
recurrir a la mediana como medida de posicin, o incluso a la moda (al gerente de la zapatera puede
interesarle saber cules son los tamaos o medidas ms vendidas).
18
Las siguientes imgenes ilustran variados tipos de distribuciones
Figuras 7 y 8
Otra medida existente son los cuartiles, medidas tiles de posicin no central, que sirven para resumir o
describir un conjunto de datos. Son valores que dividen a la serie de datos de una variable en cuatro partes
iguales, cada una de las cuales contiene la misma cantidad de observaciones.
Existen tres cuartiles: el primer cuartil se simboliza Q1 y es el valor de la variable que supera al 25
% de las observaciones y es superado por el 75 % restante. El segundo cuartil es el valor de la variable que
supera al 50% de las observaciones y es superado por el 50% restante, se simboliza Q2 y coincide con la
mediana. Finalmente, el tercer cuartil es el valor que supera al 75% de las observaciones y es superado por el
25% restante, y se simboliza Q3.
Si en lugar de dividir al conjunto de datos en cuatro partes iguales lo dividimos en cien partes
iguales, los valores de la variable se llaman percentiles y existirn 95 percentiles. Si dividimos el conjunto
de los datos en 10 partes iguales, los valores de la variable se llaman deciles y existirn 9 deciles. As, a
estas medidas que dividen los datos en series iguales se las denomina genricamente cuantiles.
Medidas de variabilidad
19
Una medida de variabilidad representa el desarrollo o valor de la dispersin de un conjunto de datos (por eso
se las llama tambin medidas de dispersin). Por grado de dispersin debe entenderse la medida en
que un conjunto de valores se concentran alrededor de un cierto ndice central. Dispersin, en este caso, es
sinnimo de hetereogeneidad o diversidad de los valores observados (Murat, 1968: 88).
Tabla 3
La varianza como medida requiere previamente saber cul es la desviacin de cualquier medida del
conjunto respecto a la media del mismo conjunto. Conceptualmente, se refiere a la distancia entre cada valor
que asume la variable y la media aritmtica. Operacionalmente, es igual al promedio de la suma de todos los
cuadrados de las desviaciones de la poblacin.
En el ejemplo anterior, si nos quedamos solamente con el rango como medida de variabilidad, no
tenemos un anlisis del todo completo, por la sencilla razn de que los conjuntos 3 y 4, aun teniendo el
mismo rango, son diferentes entre s, no tienen la misma variabilidad. Eso sucede porque el rango no nos da
informacin respecto a si las mediciones individuales estn agrupadas alrededor de la media o esparcidas de
modo ms o menos uniforme: solamente toma dos mediciones del conjunto, la ms grande y la ms pequea.
Para un anlisis ms fino, se requiere una medida de variabilidad que tome en cuenta todas las medidas: es la
varianza, que considera la distancia de cada medida con respecto a la media (distancia que se llama
desviacin).
En el ejemplo, los datos del grupo 4 son ms difusos respecto de la media que los del grupo 3, es
decir que el grupo 4 tiene mayor variabilidad alrededor de la media que el grupo 3.
Por su parte, la desviacin estndar es la raz cuadrada de la varianza. Su utilidad deviene de que la varianza
se calcula como elevaciones al cuadrado de las desviaciones para evitar la consecuencia de que la suma
numrica de las desviaciones sea cero (ver cuadro siguiente), pero una vez efectuada esa operacin es
conveniente extraer la raz cuadrada de la varianza, para que la variable vuelva a sus dimensiones originales
y en la misma unidad de medida que los datos de los que procede.
Tabla 4
20
68 70 -2 2x2= 4
69 70 -1 1x1= 1
70 70 0 0x0= 0
71 70 1 1x 1 = 1
72 70 2 2x2= 4
Suma: 350 0 10
La varianza se calcula as: suma de las desviaciones (10) divida por la cantidad de mediciones (5) es
decir 10/5 = 2.
Por consiguiente, la desviacin estndar es la raz cuadrada de la varianza, es decir la raz cuadrada
de 2 = 1,414.
Tabla 5
En el grupo 4 :
Tabla 6
Estas operaciones para clculos dentro de poblaciones son semejantes a las que se efectan para las
estadsticas de muestra, con la diferencia bsica de que mientras en el primer caso se toman las medidas de la
poblacin en el segundo se toman las medidas de la muestra (eso tambin hace que se diferencien en sus
smbolos bsicos, pero no entraremos en ese detalle: lo importante es tener conceptualmente claras las
medidas, no dominar la simbologa).
21
Otra manera de enfocar los datos son las llamadas medidas de forma, es decir a la forma horizontal
o vertical en que se despliega el conjunto de observaciones. Se habla de dos grandes tipos de medidas de
forma (Carrizo Stauffer, 2000: 36).
22
Muestreo
Usualmente la recopilacin de estadsticas implica hacer mediciones sobre una muestra, en lugar de
sobre toda la poblacin, porque en la generalidad de los casos es menos costoso y ms factible medir sobre
una muestra que sobre la poblacin completa. Estudiar una muestra de manera conveniente permite a
posteriori generalizar las conclusiones hacia toda la poblacin (en eso consiste la inferencia estadstica).
Ese proceso de inferencia estadstica se puede sintetizar en los siguientes pasos (Christensen, 1999:
14).
As como se puede decir que las estadsticas nos rodean, tambin se puede afirmar que la muestra es algo
familiar, aunque no nos demos cuenta inmediatamente. El siguiente ejemplo ilustra perfectamente esta idea:
todos creemos en el muestreo, sea que nos demos cuenta o no. Todo cocinero determina si la sopa tiene
suficiente sal tomando una cucharada (una muestra) y llegando a una opinin no hace falta servirse toda la
olla para saber. Nadie necesita beber todo un vaso de leche daada para poder decir que est mala -un trago
(una muestra) es suficiente (Pope, 2002: 273).
La muestra aleatoria permite hacer inferencias confiables respecto de una poblacin. Todas las
inferencias estadsticas presumen la aleatoriedad de los muestreos, puesto que solamente si se cumple con
esta condicin es posible calcular la magnitud del error que es implcito en nuestras estimaciones. En efecto,
no existen modelos matemticos para muestras no-aleatorias, y por ello a partir de stas no hay posibilidad
alguna de inferir, es decir de llegar a una conclusin generalizable a la poblacin o an solamente a ms
casos de los que se incluyeron en el grupo estudiado (Murat, 1968: 223).
A partir de la incorporacin de los modernos sistemas informticos, usualmente el procedimiento se
realiza generando nmeros aleatorios por medio de una computadora, pero existen otros procedimientos
alternativos (lanzar una moneda, sacar bolas numeradas, tomar nmeros aleatorios de una tabla, etc). Lo
23
importante es que el mecanismo aleatorio le proporciona a toda la unidad de una poblacin bien definida una
oportunidad de ser elegida (oportunidad que puede ser determinada) para integrar la muestra.
No son muestras aleatorias procedimientos a veces usados para algunos sondeos, como por ejemplo
entrevistas callejeras, o encuestas on line, o cuestionarios insertos en publicaciones.
Una muestra aleatoria simple es aqulla que se obtiene de la poblacin de modo tal que, en cada
etapa del muestreo, cada elemento que permanece en el arreglo de la poblacin tiene una oportunidad igual
de ser escogido (Christensen, 1999: 33). Ordenamiento, por su parte, es un concepto que se refiere a una
lista de todos los miembros o unidades de una poblacin.
Seleccionar una muestra aleatoria simple requiere construir un ordenamiento o lista de todas las
unidades de la poblacin, lo que con frecuencia no es sencillo de hacer; en el ejemplo de los lectores adultos
del diario deportivo Ol, por caso, eso no sera sencillo. Pero, si fuera posible, el procedimiento sera ms o
menos as: cada miembro de esa poblacin sera numerado, con lo que obtendramos N miembros (N designa
al total de miembros de la poblacin). Esos nmeros podran ser escritos para extraerlos de una urna donde
estuvieran bien mezclados o se los podra seleccionar con un programa de azar informtico, y obtendramos
una muestra aleatoria simple.
En cambio, si tuviramos la poblacin del ejemplo dividida en dos grupos de tamao distinto (por
ejemplo, 1000 hombres y 500 mujeres) y en cada uno de ellos hiciramos un muestreo por separado, no
obtendramos una muestra aleatoria simple sino una muestra aleatoria estratificada, porque la probabilidad de
seleccin de cada persona en el grupo ms pequeo es distinta a la que se da en el grupo ms grande. Se
emplea este tipo de muestra en casos en que la poblacin es subdividida en subcategoras, capas o estratos y
cuando se desea que cada uno de esos estratos est representado fielmente en la muestra.
Se llama inferencia estadstica a tomar una decisin sobre la poblacin entera con base en las caractersticas
de un subgrupo o muestra (Pope, 2002: 291). Es decir, se trata de generalizar resultados. Por ejemplo, en
una encuesta se presentan resultados como porcentajes de personas que conocen a un poltico determinado, o
que leen cierto diario: generalizar o extrapolar estos resultados a toda la poblacin requiere aplicar un lmite
o intervalo de confianza a ese resultado porcentual.
As, si los datos del estudio dicen que el 40 por ciento de los entrevistados en una muestra leen el
suplemento Vos del diario La Voz del Interior, es difcil que exactamente el 40 por ciento de la poblacin lea
ese diario, pero seguramente (si la muestra fue suficientemente representativa y estuvo bien tomada) el dato
de la poblacin debe oscilar alrededor de ese valor, cercano a l. Esa diferencia entre los resultados de la
muestra y la poblacin es lo que se llama error muestral, mientras que el intervalo que se anexa al resultado
de la encuesta para estimar o inferir la cifra de la poblacin se llama intervalo de confianza.
Muchas veces las investigaciones comparan resultados entre dos muestras o subgrupos, usualmente entre:
-dos o ms subgrupos dentro de una misma muestra: la lectura del suplemento de deportes del
diario La Voz del Interior presenta diferencias palpables entre hombres y mujeres? Entre diferentes edades?
-muestras tomadas en diferentes momentos: aument la lectura de la seccin deportes respecto a la
medicin anterior?
24
iguales entre hombres y mujeres, la lectura se mantiene idntica al registro precedente- la lectura no presenta
dificultad. En cambio, cuando los resultados son distintos, se plantea la pregunta relativa a si las diferencias
en los resultados son pequeas y atribuibles al azar, o si por el contrario es suficientemente considerable
como para que est expresando una verdadera diferencia entre subgrupos.
Para responder a esas preguntas existen pruebas estadsticas. Pero, antes de eso, el investigador o
quien analiza los datos cuenta con una hiptesis, una afirmacin que hay que probar como verdadera o falsa.
En estadstica, habitualmente se supone que dos poblaciones o subgrupos son iguales hasta que se pruebe lo
contrario; a esto se lo llama hiptesis nula.
Partiendo de la hiptesis nula, si la diferencia entre dos muestras es pequea como para ser atribuida
al azar, entonces se acepta la hiptesis nula, y el investigador o analista concluye que la diferencia entre las
dos muestras no es estadsticamente significativa (para un nivel definido de significacin, que usualmente
oscila alrededor del 95 por ciento). En cambio, si la diferencia en los resultados es suficientemente grande
como para descartar que sea fruto del azar, entonces se rechaza la hiptesis nula y se concluye que la
diferencia es estadsticamente significativa.
Otras pruebas estadsticas ms especializadas y de utilidad para evaluar resultados de investigacin
son la prueba de chi cuadrado, el anlisis de varianza y la prueba t de Student.
La prueba de chi cuadrado se emplea para comparar los resultados de una encuesta con frecuencias
tericas o esperadas en la poblacin (slo se puede aplicar cuando los resultados, respuestas o informantes
son pasibles de ser organizados en varias categoras).
El anlisis de varianza divide en partes la varianza encontrada entre los datos de una prueba,
asignando a cada parte a una fuente o factor. As, se pueden evaluar esas variaciones y observar si alguna es
mayor de lo que se esperara por azar.
Es importante recalcar que cuando se habla de diferencias significativas o no, lo que quiere decir es
estadsticamente significativas (o no). Por ejemplo, si los resultados nos dicen que un 40 por ciento de los
entrevistados lee el suplemento de deportes del diario La Voz del Interior y un 37 por ciento lee el diario
deportivo Ol, no decimos que la diferencia no sea significativa podra ser muy significativa en la prctica-
sino que, en trminos estadsticos no lo es (debido a que estamos trabajando con una muestra, y por ende
existe un error muestral y un intervalo de confianza).
Asimismo, interesa retener los conceptos de reglas estadsticas de decisin, que definen dos rangos
de valores, la regin de rechazo y la regin de aceptacin. El valor fronterizo que separa a una de otra se
llama valor crtico. Los datos recolectados se resumen en la llamada estadstica de prueba. Si la estadstica
de prueba cae dentro de la regin de rechazo, entonces la decisin del analista usualmente ser la de rechazar
cualquier hiptesis nula que haya formulado. Si la estadstica de prueba cae dentro de la regin de
aceptacin, la decisin normalmente ser la de aceptar la hiptesis nula. Sin embargo, la decisin de
aceptar la hiptesis nula realmente significa que no tenemos informacin suficiente para rechazarla; de
ninguna manera hemos probado que la hiptesis nula es verdadera (Christensen, 1999: 356).
25
UNIDAD IV
Como su nombre lo indica, en la encuesta por muestreo se selecciona una muestra representativa de
la poblacin objetivo a investigar (universo), de modo que los resultados pueden ser generalizables. La
representatividad muestral se basa en dos principios (Gaitn Moya y Piuel Raigada, 1998:146):
-el principio de regularidad estadstica: un subgrupo cualquiera extrado al azar de un grupo ms grande
tiende a presentar las mismas caractersticas que ste.
-principio de inercia (ley) de los grandes nmeros: los grandes grupos son ms estables y requieren
comparativamente muestras ms pequeas que los grupos ms pequeos.
Para la determinacin del tamao muestral se deben tener en cuenta los siguientes factores:
-margen de error
-el tipo de universo: infinito (desde 100.000 unidades) o finito (menos de 100.000 unidades)
-homogeneidad de la poblacin
-nmero de segmentacin de los datos o afijacin de la muestra (para lograr que cada uno de ellos sea
representativo)
Tipos de muestras: hay dos tipos principales de muestras, las probabilsticas y las no probabilsticas. Las
muestras probabilsticas son ms precisas, permiten calcular el error muestral y los coeficientes de confianza
para las estimaciones. Las muestras no probabilsticas son ms rpidas en tiempo y costes, y sirven para
estudios exploratorios donde no resulte imprescindible controlar el margen de error.
Usualmente y salvo casos de investigaciones especiales (por ejemplo, cuando no se puede estimar el
tamao del universo), las muestras empleadas por las consultoras de opinin pblica con fines de pronstico
electoral y con fines estratgicos son probabilsticas. Respecto al procedimiento de obtencin de muestras,
remitimos a la abundante bibliografa especializada sobre el tema.
Tambin en la investigacin de mercado se puede decir que la distincin fundamental entre categora
de muestras es probabilstica vs no probabilstica. Las muestras probabilsticas son tericamente las ms
slidas y las ms representativas; son tambin las ms caras. De hecho, para muchos estudios son
prohibitivamente caras (Pope, 2002: 275). Por esos motivos, ese autor insiste en la importancia que tiene
identificar cules son las situaciones en las que se requiere un muestreo probabilstico, y cules son los pasos
que permiten optimizar la calidad de una muestra no probabilstica cuando no es econmicamente factible
emplear una muestra probabilstica.
26
Dentro de las modalidades de muestreo probabilstico se destacan:
-muestreo simple al azar: es el tipo conceptualmente ms bsico pero el ms difcil de lograr en la prctica
ya que requiere un marco muestral perfecto, es decir disponer de una lista completa de todos los miembros
de un universo. Por ejemplo, equivaldra a tener la lista de todos los electores de un distrito o de todos los
consumidores de un producto o usuarios de un servicio, para asignarle un nmero a cada uno y sortearlos a
todos en igualdad de oportunidades de ser seleccionados.
-muestreo sistemtico con arranque aleatorio: en primer trmino se selecciona de manera aleatoria cul
ser el primer integrante de la muestra. Luego, se seleccionan los miembros sucesivos con intervalos iguales
hasta completar la muestra, calculando el intervalo como un cociente entre el tamao de la poblacin (marco
muestral) y el tamao de la muestra escogido. Por ejemplo, si la poblacin es de 10.000 personas y la
muestra definida es de 500 personas, el intervalo sera de 20. Suponiendo que el primer miembro obtenido
por sorteo al azar es el 5, seran seleccionados sucesivamente el 25, el 45, el 65, etc.. Para esto, es necesario
estar seguros de que no intervenga en la lista de miembros a seleccionar ningn tipo de periodicidad o
criterio que pueda introducir un sesgo en la seleccin.
-muestreo por conveniencia: la seleccin de los informantes corre por cuenta de los entrevistadores
priorizando la comodidad y rapidez del procedimiento de acuerdo a la disponibilidad de los informantes.
Por ejemplo, 100 mujeres pueden ser entrevistadas en un centro comercial, sin cuotas o criterios para
participar en el estudio (Pope, 2002: 282).
-muestreo por criterio: se seleccionan informantes que cumplen un determinado requisito que los hace
entrevistables. Con frecuencia, este es el procedimiento cuando se trabaja con bases de datos de mercado que
no llegan a constituir un marco muestral perfecto.
-muestreo por bola de nieve: a partir de los informantes que fueron seleccionados en primer lugar
(usualmente segn el criterio del investigador), los mismos sugieren datos para ampliar la muestra (por eso
se lo suele llamar tambin muestreo por recomendacin). Se emplea con frecuencia cuando no es posible
identificar a priori una base de datos exhaustiva de miembros informantes : Por ejemplo, si se desea realizar
un estudio a las personas aficionadas a coleccionar monedas de la antigedad, el primer contacto con un
aficionado abre las puertas para los siguientes que l conoce y as sucesivamente (Trespalacios Gutirrez,
2005: 110).
27
Por otro lado, las investigaciones de mercado tambin suelen recurrir al panel como medio de
recogida de informacin: consiste en entrevistar peridicamente a una muestra representativa de la
poblacin con la finalidad de obtener, adems de las caractersticas de los encuestados, informacin sobre su
comportamiento en momentos de tiempo sucesivos.
De esta manera, se puede conseguir un conocimiento sobre la evolucin temporal de las decisiones
del consumidor y, por tanto, facilitar una perspectiva dinmica de los fenmenos de mercado, frente a la
visin esttica de una encuesta (Trespalacios Gutirrez, 2005: 114). En ese sentido, prestan gran utilidad
para el anlisis longitudinal, ya que permiten monitorear la evolucin de las variables a travs del tiempo.
Frente a estas ventajas, debe considerarse no obstante que esta tcnica tiene el inconveniente de
poder provocar cansancio en los informantes a los que repetidas veces se les pide que contesten a las
preguntas de una investigacin sistemtica; por otro lado, el costo de este tipo de estudios tambin suele ser
elevado. Por ello, con frecuencia son las grandes consultoras internacionales las que ms recurren a este tipo
de tcnica, como es el caso de AC Nielsen.
El error muestral
Siempre que se aplica una encuesta a una muestra existe un margen de error estadstico variable (mayor o
menor segn determinados requisitos). No se trata de un defecto imputable a errores profesionales, sino que
es un concepto tcnico-estadstico ineludible que deviene del hecho de que no se ha relevado a toda la
poblacin sino que se ha tomado una muestra de la misma (aunque sea representativa).
El margen de error estadstico tambin proporciona informacin para estimar si una diferencia entre
dos porcentajes es estadsticamente significativa o no: si la diferencia se mueve dentro del margen de error,
entonces no es significativa.
Supongamos que se avecina una eleccin y hacemos una encuesta, digamos con un error de
+-3%, error que es bastante comn en estos estudios y se encuentro dentro de los parmetros
usualmente aceptables. De la encuesta resulta que el candidato X le lleva seis puntos de
ventaja al candidato Z (25% a 19%, por ejemplo) pero si tenemos en cuenta el error muestral
puede ser que X tenga tres puntos ms (28) o tres puntos menos (22) y otro tanto sucede con
z, que puede tener 16 o 22. Es decir que, admitiendo un margen de error muestral de +-3, la
eleccin podra estar empatada. Es importante tener en cuenta esto, que en estadstica se
llama covarianza, y que en trminos simples significa que cada punto de ms que le demos a
un candidato tambin es computable como un punto que le falta a otro, y viceversa. La
conclusin que se impone es que slo pueden considerarse significativas las diferencias
netamente mayores al error muestral.
Adems de esta cuestin, hay otras consideraciones que tienen que ver con el error muestral:
Casi siempre la ficha tcnica nos dir que el nivel de fiabilidad es del 95%. Esto significa que, si se
hiciera la misma encuesta una y otra vez, en el 95% de los casos los resultados estaran dentro del
margen de error. Pero el margen de error es vlido slo para la muestra total, no para los subgrupos.
Y lo ms frecuente es que se distribuyan los resultados segn el sexo, la filiacin poltica, el nivel de
estudios, la edad, etc. El lector desprevenido suele creer que las subdivisiones de la muestra tienen el
mismo grado de fiabilidad, pero no es as. Los subgrupos por ejemplo, hombres mayores de 41
aos, profesionales y de ideologa de derecha- resultan a veces muy pequeos para ser
representativos (Rey Lennon y Piscitelli Murphy, 2004: 36).
En rigor de verdad, ese es un dato que frecuentemente no se explicita cuando se reportan resultados.
Como parmetro para la interpretacin, uno tiene que tener en cuenta que, en general, para poder hacer
estimaciones fiables, un subgrupo no debe tener menos de 80 miembros (Hentschel, 2002: 123)
28
Medicin en la investigacin social: estudios de opinin pblica y de mercado
En el mbito de los estudios de opinin pblica, los mtodos cuantitativos captan los elementos ms
manifiestos- del comportamiento poltico-electoral de los encuestados, o, en otros trminos, se abocan a la
medicin de datos provenientes de la "superficie" (Martnez Pandiani, 2000: 78) de esa conducta.
Por su parte, en investigacin de mercados estos mtodos se emplean con la finalidad de generar
informacin relacionada con el marketing mediante tcnicas estructuradas: Los datos admiten algn tipo de
medida y su anlisis se realiza mediante procedimientos estadsticos, normalmente a partir de una muestra
extrada de la poblacin objetivo, pudindose extrapolar los resultados a todo el conjunto de personas o
empresas que constituyen la poblacin base del estudio (Trespalacios Gutirrez, 2005: 96).
A su turno, las encuestas de mercado permiten recoger tres tipos principales de informacin
(Trespalacios Gutirrez, 2005: 97):
2. Actitudes, predisposiciones ante una marca, servicio o empresa, y las motivaciones que
pueden ayudar a entenderlas
Contrastacin de resultados
En el caso de las muestras realizadas por las consultoras de opinin pblica, una oportunidad inestimable de
mostrar su vala es el da de las elecciones, que permite contrastar (dentro de lmites temporales y mrgenes
razonables de error) los resultados, el ajuste de las muestras y la validez de todos los instrumentos
empleados en la metodologa de trabajo (cuestionarios, tarjetas-reactivos, planillas y dems material de
campo).
Pero hay que tener en cuenta una cuestin fundamental: en los fenmenos sociales existe un
componente de indeterminacin ineludible, y si es factible pronosticar con algn grado de certeza
acontecimientos cercanos (sea una eleccin u otro evento social), es mucho ms difcil tratar de hacer lo
mismo respecto a acontecimientos ms alejados en el tiempo.
No conocemos los lmites de la indeterminacin de los fenmenos sociales. Hay una dimensin
temporal en esta incertidumbre () Esto va ms all del error muestral de la estimacin a partir de
una inferencia estadstica. Est en la naturaleza de los fenmenos sociales (Oliva, 2001: 50).
29
Universos y muestras
En general, los universos electorales sujetos a estudio estn constituidos por la poblacin mayor de 18 aos,
mientras que las investigaciones de mercado parten de una edad base de acuerdo al tipo de producto o
servicio en cuestin.
Un dato importante es que usualmente se trabaja con muestras autoponderadas, lo que quiere decir
que los elementos constituyentes de la muestra deben tener una representacin acorde con su relevancia en la
poblacin, es decir que aquellos con mayor representacin en la poblacin deben tener tambin un peso
mayor en la muestra (por ejemplo, si en la poblacin tenemos 51% de mujeres, en la muestra debemos
replicar ese peso).
30
Unidad de observacin y mtodos de captura
Para la seleccin de la unidad final (el entrevistado) puede realizarse utilizando el procedimiento de rutas
aleatorias o bien el de muestreo por cuotas. Este ltimo tiende a ser ms empleado, por una serie de razones.
Ambos operan con tablas de contingencia, estratos o cuotas a completar por los entrevistadores, pero
se distinguen en que mientras el primero emplea una serie de nmeros aleatorios como procedimiento de
seleccin del entrevistado (para asegurar objetividad) en el segundo el encuestador puede hasta cierto punto
seleccionar subjetivamente a las personas.
Siendo la estrategia ms empleada, el fundamento bsico del muestreo por cuotas es que los
distintos segmentos sociodemogrficos de la poblacin deben estar representados
proporcionalmente, para que la muestra replique los estratos reales de la estructura
poblacional del universo.
As, se realizan clculos sobre la muestra para que la composicin de la misma se equipare
con la configuracin del universo. Luego de esa operacin de clculo estadstico, el
entrevistador recibe del jefe de campo indicaciones tabuladas sobre las caractersticas
sociodemogrficas que deben tener los encuestados y se le asigna la tarea de buscar y
encontrar a las personas indicadas.
Por ubicarse al menos en el mismo nivel de confiabilidad, por razones prcticas y por los menores
montos de inversin es ms comn lograr la representatividad de un estudio por medio de las
entrevistas por cuota. Se desarroll ese mtodo en funcin de experimentos sociodemogrficos
estudiando la influencia de la pertenencia de la persona a un determinado segmento poblacional en el
espectro de opiniones. Se estudiaron por medio de anlisis estadsticos de factores el significado que
tienen las distintas caractersticas de personalidad en la formacin de juicios y prejuicio que
determinan sus opiniones y se reflejan en las respuestas de una encuesta (Henstchel, 2002: 119).
Otra razn por la que suele ser ms empleado el muestreo por cuotas es que es ms sencillo el acceso
a las unidades de anlisis; si se lo aplica de manera ortodoxa, el muestreo por rutas aleatorias no admite el
reemplazo de unidades (por ejemplo en caso de ausencia, aunque de hecho en la prctica se suele
proporcionar al entrevistador procedimientos de sustitucin, por la sencilla razn de que el investigador
responsable debe plantearse la investigacin en trminos realistas (Rojas Tejada y otros, 1998: 112).
31
Frente a este criterio con poca o ninguna justificacin metodolgica (pero con buen sustento
econmico y psicolgico, como remarca el autor recin citado) que implica de facto una licencia o una
flexibilizacin del muestreo por rutas aleatorias, otros investigadores eligen directamente el muestreo por
cuotas.
Por su parte, la encuesta telefnica permite ahorrar costos y relevar ms rpidamente, pero no
siempre son suficientemente representativas, ya que la cobertura del servicio telefnico no es total y grandes
segmentos de la poblacin an no disponen del mismo (este sesgo se puede morigerar recurriendo a mtodos
de ponderacin, pero no es sencillo hacerlo).
Con todo, la encuesta telefnica es una alternativa particularmente apta y conveniente cuando los
estudios en cuestin se aplican sobre todo a los segmentos medios y altos de la poblacin (donde la posesin
de telfono alcanza a una proporcin mayor de miembros).
Por su parte, la entrevista domiciliaria permite construir un mejor vnculo de cooperacin con el
entrevistado, ya que la situacin de encuesta se realiza en el hogar del encuestado. Por ese cmulo de
razones, es hasta el momento el recurso ms abarcativo para estudiar a la poblacin general, aunque es
mucho ms oneroso y lento que las alternativas telefnicas (siendo esos dos motivos los que fundamentan su
progresivo desplazamiento a manos de esas alternativas).
Del lado de las desventajas, como ya mencionamos la entrevista domiciliaria personal implica
mayores costos y un proceso de recoleccin de datos usualmente ms largo. Por esa y otras razones, la
investigacin de mercado recurre en forma creciente a formas alternativas de recoger la informacin, como
las entrevistas de tipo coincidental (por ejemplo, en un supermercado, shopping, etc.), o a entrevistas
telefnicas.
32
En cambio, en investigacin de mercado, si bien existen productos y servicios de carcter masivo
que abarcan universos amplios, se presentan con mucha frecuencia situaciones donde lo que se quiere
investigar son segmentos especficos, por lo que la necesidad de recurrir a la entrevista domiciliaria es
menor.
Aun as, es clara la tendencia a realizar cada vez ms estudios a travs del telfono, por lo que se
impone volver sobre algunas de sus principales ventajas y desventajas:
Principales ventajas
El uso de llamadas con dgitos marcados al azar es relativamente sencillo conformar una
muestra grande y geogrficamente dispersa con rapidez.
Permite volver a llamar con facilidad, mientras que en la entrevista domiciliaria hacer re-
visitas es ms complicado
Facilita la tarea de supervisin del trabajo de los encuestadores (incluso puede hacerse en
tiempo real, desde un call center, con el supervisor escuchando las llamadas mientras se
hacen).
Agilidad del proceso: es factible hacer una prueba de cuestionario por la maana, corregir y
comenzar a relevar por la tarde.
Principales desventajas
Limita el tipo de preguntas: por telfono no se pueden evaluar escalas muy largas
En general, en la investigacin de mercado las entrevistas telefnicas se utilizan sobre todo para
estudios de seguimiento sistemticos que implican muestras peridicas de evaluacin del nivel de
conocimiento, las actitudes, uso y nivel de satisfaccin respecto de un producto o servicio por parte de los
consumidores. Por otro lado, tambin se la emplea con frecuencia para contactar a informantes
seleccionados de una base de datos especfica.
33
Anexo: textos para lectura
Texto 1: Matemticas y periodismo
Matemticas Para Periodistas: Una herramienta en la lucha anticorrupcin
Sandra Crucianelli, septiembre de 2002 (nota extrada de Internet)
Pero de una u otra manera, hay convencimiento que la ignorancia periodstica es el peor de los males.
Piero Orstellini no se equivoc cuando en su diario italiano, al fundarlo, escribi que la libertad de un
periodista se mide por su sabidura.
Si un reportero descubre una verdad digna de ser divulgada, no hay censura interna ni externa que podr
con el poder de su informacin. En su medio o en otro, en su ciudad o en otra, en su pas o fuera de l,
en un tiempo u en otro, tal noticia terminar divulgndose porque ese es su destino.
Sabemos que en nuestros pases el principal flagelo que soportamos es el de la corrupcin y que cierto
periodismo est haciendo esfuerzos enormes para poner luz, all donde hay sombras.
Pero tambin nos consta a muchos, que decenas de papeles, documentos e informacin de toda ndole
suele pasar frente a los ojos de los periodistas sin que nos percatemos qu se esconde detrs de lo que
tenemos entre las manos. Falta anlisis, precisin e interpretacin. Los corruptos, encantados con el
escenario... Siga la fiesta. Pobres tontos... pensarn y hasta ms de una vez se habrn redo de nosotros
a plena carcajada.
Con la informacin que contiene nmeros ocurre algo muy especial. Pocos reporteros estn entrenados
para su manejo. Yo misma estoy revisando las crnicas que escriba hace diez aos y me pregunto cmo
pas por alto la interpretacin de ciertos datos que tena frente a mis ojos. La respuesta es muy sencilla:
no saba cmo hacerlo.
Hace dos aos comenc a trabajar en mi proyecto ms ambicioso. Despus de haber gastado las suelas
viajando por Amrica Latina para impartir cursos de periodismo de investigacin, llegu a la conclusin
de que necesitbamos otras herramientas y entonces volv a la carga con los libros y me puse a estudiar
matemticas.
Mis colegas me miraban de reojo... matemtica para periodistas?, preguntaban como mofndose de mis
intenciones.
No confi sino en mis instintos e ignor todas las crticas... En mi opinin, como reporteros, no estamos
entrenados para manejar nmeros y hoy da de ellos dependen nuestras economas, nuestras polticas y
por ende, nuestras vidas... Los nmeros estn presentes en los presupuestos, en las leyes, en las bases
de datos, en los censos, en las estadsticas, en los sondeos de opinin, en las encuestas... Si tomramos
un diario cualquiera y comenzamos a contar cuntas crnicas incluyen algn nmero como dato
notaramos que son la mayora.
Volv a la biblioteca de la universidad en la que haba estudiado y comenc a buscar libros, busqu en
otras, en la Internet y en cuanta librera pude. Para mi desgracia que no existe ningn libro escrito sobre
el tema, todos estaban referidos a las matemticas aplicadas a las ciencias sociales en su conjunto. Y lo
poco que se haba desarrollado en la materia estaba en ingls. De ese mal comienzo naci la que hoy
considero una suerte: estar escribiendo un libro de Matemtica para Periodistas, del que espero, alguna
editorial se apiade y considere interesante su publicacin y distribucin entre reporteros y salas de
redaccin. No pierdo la esperanza de que ocurra lo mismo en las facultades de periodismo.
34
Al trmino de un ao termin de escribir los contenidos del curso preliminar que por estos das, ando
dictando por varios pases de Amrica latina: ya lo hice en Panam, Mjico, El Salvador y Honduras y he
quedado maravillada con la respuesta que obtengo de mis colegas. Muchos se sorprenden de la cantidad
de conclusiones periodsticas a las que podemos llegar despus de hacer clculos con unos pocos datos
numricos.
El objetivo principal de los cursos y del libro es entregar al periodista las herramientas necesarias para
manejar e interpretar datos numricos y conceptos estadsticos.
Las escuelas de periodismo latinoamericanas no imparten esta enseanza y esto se refleja claramente en
el desempeo de los periodistas profesionales.
Dentro del curso, y con mayor profundidad en el libro, se dan las definiciones de porcentajes, promedios,
ndices, proporciones, media aritmtica, moda, las diferencias entre tantas veces como, tantas veces
mayor o tantas veces menor, dando ejemplos de las distintas vas que hay para llegar a un mismo
resultado Se aborda el tema de las variaciones porcentuales y se dan ejemplos de errores ms
frecuentes, casos compilados y de otros en los que los datos fueron aprovechados con conocimiento.
Una seccin est destinada a la Introduccin a la Estadstica. Que presenta una descripcin detallada de
conceptos estadsticos como la teora de probabilidad, desviacin estndar, muestras cientficas, y la
aplicacin prctica de cmo calcular el error de una muestra, desviaciones y promedios estadsticos que
se utilizan diariamente en el tratamiento de una noticia, adelantando qu aplicacin estos conceptos
pueden tener en la elaboracin de un reportaje.
Por ejemplo, en pocas de elecciones suelen circular por las salas de redaccin sondeos
electorales que pagan los partidos polticos con las intenciones que imaginamos y cuyas
tcnicas estn plagadas de errores, en un claro ejemplo de manipulacin de la informacin.
Pues entonces el reportero tiene que estar preparado para detectar esos errores.
El periodismo poltico, el que cubre las reas de gobierno, el econmico, el cientfico, el social, el
deportivo no escapan a la necesidad de manejar con pericia los nmeros dentro de la crnica.
En los Estados Unidos, el uso de las matemticas y estadsticas en periodismo fue introducido
como Periodismo de Precisin hace ms de 25 aos cuando Phillip Meyer public su primer libro,
Precision Journalism (1973) seguido por un segundo volumen, The New Precision Journalism (1991). La
misma corriente sigui Jos Luis Dader en Espaa, bajo el mismo nombre. En Amrica Latina,
la enseanza de estos conceptos de manera integral es una deuda pendiente.
Si queremos obtener resultados nunca antes logrados, debemos emplear mtodos nunca antes
utilizados. Bacon
Pese a los defensores del periodismo eterno, los periodistas necesitan nuevas herramientas para describir
un mundo complejo: el uso de las bases de datos, las hiptesis a verificar, la aplicacin de la metodologa
cientfica. Una creencia tradicional en la subcultura del periodismo estadounidense es que un buen
periodista es bueno en todas partes y que no se requiere ninguna preparacin o conocimiento especial.
Esta antiqusima concepcin fue recientemente expresada con especial perspicacia por Michael Lewis, de
The New Republic, cuando argument que "toda la pretenciosa ciencia del periodismo se limita a
distraernos de la tarea del periodista: observa-, cuestionar, leer y escribir sobre temas que no son el
propio periodismo".
35
La diatriba de Lewis iba dirigida contra la enseanza del periodismo en general y contra una Escuela de
periodismo en particular (la de Columbia). Su denuncia inclua una acusacin empricamente
comprobable: que a los directores de los medios informativos no les gusta contratar a titulados en
periodismo y que las empresas periodsticas mantienen "un slido menosprecio hacia la titulacin". Su
verificacin emprica? Una muestra de conveniencia de siete conocidos suyos, en su mayor parte de
Nueva York y Washington. Si Lewis hubiese tenido una preparacin sobre el uso de las estadsticas
sociales, podra haber descubierto que un 85 por ciento de las nuevas contrataciones en peridicos de
EEUU son titulados de las escuelas de periodismo. La observacin y el sentido comn son importantes
para los periodistas. Pero el mundo moderno tambin exige conocimientos tcnicos.
Ahora, cuando nos aproximamos al final del siglo, la utilidad de dicho modelo comienza a menguar.
El aumento explosivo de la informacin plantea al periodismo nuevas demandas que van mucho ms all
de la funcin de transporte. El cambio es tan profundo como el desplazamiento, en la economa de la
alimentacin, de la caza y la recoleccin a la agricultura.
Las sociedades cazadoras y recolectoras vivan en una economa de la escasez, y el problema era
simplemente transportar las fuentes vegetales y animales desde sus hbitats hasta las hogueras de sus
campamentos.
La introduccin de la agricultura cre una economa de la abundancia que daba por sentado el transporte
y creaba una demanda de procesamiento. La diversidad econmica depende ahora, en su mayor parte,
de los procesadores de alimentos, ms que de los productores o transportadores.
En la actualidad, las escuelas de agricultura ensean manufacturacin y agronoma. Algo similar ocurre
con el periodismo. La abundancia de informacin crea una demanda de sntesis y procesamiento. Esta
abundancia ha dado al traste con la naturaleza reguladora de las fuentes. Cuando USA Today inform
sobre los modelos de segregacin racial en Estados Unidos, se basaba en datos de la Oficina del Censo.
Pero los datos no podan encontrarse en ningn informe previamente sintetizado.
La Oficina del Censo publica ese tipo de informes, pero la demanda de sus datos es tan enorme que los
publica en bruto, mucho antes de tener la oportunidad de realizar su propio anlisis e interpretacin. La
fuente documental pblica del citado artculo era una cinta informtica de nueve pistas, y la
responsabilidad del periodista consista en aportar el marco terico y los conocimientos analticos e
informticos necesarios para elaborar un artculo informativo sobre esa base.
En lo relativo al contexto terico, el jefe de seccin de proyectos especiales, Shawn McIntosh, realiz en
primer lugar una bsqueda de documentacin, consult con especialistas universitarios y cre una
original contribucin metodolgica en forma de un ndice que resume la intensidad de la discriminacin
en una determinada zona geogrfica para cinco grupos raciales diferentes.
REDEFINIR LA OBJETIVIDAD
La intensidad del procesamiento, antao una excepcin, se est convirtiendo rpidamente en norma. Se
desarrolla en dos fases del proceso de recogida de noticias. Los proyectos analticos mediante
procesamiento informtico front-end analytic projects, en una escala similar al estudio de la
discriminacin racial de Mclntosh, son ms habituales a medida que los periodistas se van familiarizando
cada vez ms con los ordenadores y con el anlisis cuantitativo. En cuanto al tratamiento final de la
informacin, los peridicos de diseo ms visual, como el USA Today y el Boca Raton News, dan prioridad
al procesamiento sobre el transporte de informacin tambin en otra variante, al tratar de sacar el
mximo provecho del potencial del texto impreso como dispositivo de recuperacin de la informacin.
36
El diseo de un sistema de ayudas a la consulta por parte de los lectores reader navigation aids, y la
integracin de la informacin diaria en una red de referencias y seriales de aviso, proporcionan una
nueva intensidad cualitativa a la tarea del director del medio informativo.
Los medios no se preocuparon de verificar dichas acusaciones, porque su trabajo consista simplemente
en transportar las declaraciones sin valoraciones del senador. Slo cuando el tema fue abordado por
periodistas dispuestos a probar nuevos mtodos, sali a relucir la falta de integridad y la
irresponsabilidad del senador. Probablemente no es casualidad que el ejemplo ms recordado provenga
de una tecnologa entonces nueva, la televisin, cuando Edward R. Murrow utiliz una seleccin de
fragmentos filmados para elaborar un retrato ms crtico del senador y de sus mtodos.
La televisin, cuando no informa en tiempo real (por ejemplo, el canal de retransmisiones directas del
Congreso C-Span, acontecimientos deportivos, la guerra del Golfo) es un medio de procesamiento
intenso de la informacin. Algunos periodistas tradicionales argumentan que la complejidad de los
acontecimientos informativos de la era moderna y los mtodos para cubrirlos hacen que la objetividad
resulte imposible, y que, por lo tanto, habra que abandonar su bsqueda.
LA CIENCIA EN EL PERIODISMO
Un modelo til para la nueva objetividad requerida puede lograrse con la adaptacin, del mtodo
cientfico a la prctica periodstica. Dicha adaptacin es la razn de ser del periodismo de precisin.
La ciencia es idealmente objetiva y tambin va mucho ms all del mero transporte de informacin. Las
normas que su cultura ha desarrollado para descubrir y sacar a relucir la verdad pueden prestar un buen
servicio a las nuevas demandas del periodismo. Se me ocurren tres en particular:
1. Investigacin con una base terica. El informador que escribe a partir de un documento pblico se
beneficia del trabajo terico ya realizado por el autor de dicho documento, que tena en su cabeza una
finalidad, una historia y contexto. El informador que empieza a trabajar con una cinta de nueve pistas no
cuenta con esa ventaja inicial. Se requiere algn tipo de estructura terica para analizar los datos de la
cinta, para contar con un medio de seleccin entre la variedad casi infinita de formas posibles de
estudiarla.
Algunas aplicaciones periodsticas de las bases de datos son evidentes, como por ejemplo los cruces de
listados realizados por Elliot Jaspin entre los nombres de conductores detenidos por embriaguez y de
conductores de autobuses escolares. Pero en su mayor parte requieren una estructura terica ms
complicada. "Dime algo interesante" no es una pregunta apropiada para ser planteada a un ordenador.
2. Comprobacin de hiptesis. La tica de la objetividad crea en muchos periodistas una objecin visceral
a iniciar una investigacin con una hiptesis preconcebida. La mente periodstica debe estar abierta a
todas las posibilidades. Pero tambin debe estarlo la mente cientfica, y los cientficos han llegado a la
conclusin de que la disciplina consistente en elaborar una hiptesis susceptible de refutacin que,
posteriormente, es sometida a prueba; es, de hecho, una manera de preservar la objetividad.
Al efectuarse la prueba, la hiptesis se mantiene en pie o se viene abajo sobre la base de un criterio
objetivo. Por ejemplo, la demostracin de la existencia de prejuicios raciales en la concesin de
prstamos hipotecarios, realizada por el Atlanta Journal-Constitution y premiada con el Pulitzer, se
basaba en el empleo de un sistema de comprobacin objetiva. El nmero de prstamos concedidos era
mucho menor entre los propietarios negros que lo solicitaron que entre los propietarios blancos, incluso
37
con variables constantes en cuanto a antecedentes relativos a volumen de ingresos o solvencia
econmica.
3. Posibilidad de verificacin. La cultura del periodismo favorece un cierto nivel de secretismo. Los
informadores no divulgan sus fuentes y les molesta que sus notas sean vistas por terceros.
Las investigaciones basadas en sondeos, anlisis de bases de datos y otros mtodos de las ciencias
sociales se rigen por la necesidad de dejar un rastro documental verificable, y su metodologa debe ser
tan abierta y accesible que sus descubrimientos puedan ser nuevamente revisados en todos sus pasos.
La posibilidad de verificacin es la garanta ltima de fiabilidad.
Los periodistas estadounidenses van aceptando poco a poco el uso de las herramientas cientficas. Los
sondeos de opinin pblica fueron la cua inicial. Los sondeos sobre sectores especficos de poblacin
facilitaron la comprensin de la informacin sobre los movimientos de protesta de los aos 60 y 70
(negros, pacifistas, ecologistas, feministas) y los medios informativos comenzaron a realizar sus propios
estudios en lugar de confiarlos a servicios externos.
Otro cambio importante, bsicamente independiente de la nueva prctica de los sondeos, fue el uso de
los ordenadores para realizar investigaciones en bases de datos de la Administracin. La rpida bajada de
los precios de los ordenadores personales, iniciada en 1981, llev a algunos periodistas jvenes a
experimentar con sus aplicaciones en su propio tiempo libre y con su propio dinero.
Steve Doig, del Miami Herald, compr su primer ordenador, un Atari 800, en 1981. Poco despus empez
a utilizar el Visi-Calc, el precursor de todas las hojas de clculo actuales, en uno de los primeros
ordenadores de IBM. Elliot Jaspin, del Providence Bulletin, aprendi a utilizar el ordenador central de su
peridico para investigar en los archivos pblicos y finalmente opt por los ordenadores personales,
convencido de que los periodistas deben ser totalmente independientes de las operaciones comerciales
de su empresa y de sus expertos. Ms tarde dirigi el desarrollo del soporte lgico de lectura en
ordenadores personales de las cintas de nueve pistas, tpicas de los ordenadores centralizados, lo cual
haca posible dicha independencia.
En su mayor parte, las personas que utilizan dichos programas de acceso a cintas magnticas y los
realizadores de encuestas han actuado por separado, como si no fuesen conscientes de utilizar aspectos
diferentes del cuerpo comn de conocimientos que define el mtodo cientfico
Cada experiencia de aprendizaje tena un carcter pragmtico, con el objetivo de resolver un problema
inmediato, especfico y limitado. Algunas de las personas que queran acceder a los cdigos de las cintas
magnticas se tomaron la molestia de aprender el razonamiento cientfico. Otras se contentaron con
entrar en reas donde el sentido comn es suficiente.
No obstante, sin una cierta preparacin en relacin con la estadstica y el mtodo cientfico, no siempre
es posible saber cundo se han agotado las posibilidades del sentido comn. Un reciente estudio sobre
fallos en la inspeccin de emisiones contaminantes de los automviles, realizado por el Raleigh News &
Observer, mostraba que el automvil con mayor ndice de fallo era el Yugo, y que el que ofreca un ndice
ms bajo era el Jaguar.
38
El articulista no haba tenido en cuenta que tanto los Yugo como los Jaguar son muy escasos en Carolina
del Norte, y que las muestras pequeas suelen presentar mayores grados de varianza (desviacin).
Por otra parte, dado que el Yugo se dej de importar a EEUU en el perodo de realizacin del estudio, la
media correspondiente a los Jaguar sera ligeramente ms reciente que la de los Yugo.
En otro caso, un informador del St. Louis Dispatch utiliz una investigacin a travs de bases de datos
para identificar a 15 abogados que mantenan una situacin de conflicto de intereses en relacin con la
indemnizacin debida a un trabajador.
Dichos abogados representaban al mismo tiempo al Estado y a los trabajadores con demandas
pendientes con el Estado, y conseguan pagos mucho ms cuantiosos que los de los casos ganados por
abogados que no tenan esa doble funcin. El informador, con muy buen criterio, quiso saber con qu
frecuencia se produca dicha diferencia por azar.
Sin estar familiarizado con las pruebas de significacin, program su ordenador para realizar
instrucciones secuenciales repetidas a travs de 10.000 muestras de 15 de cada 1.000 abogados en la
base de datos, para comprobar cuntas combinaciones de 15 obtenan sumas tan elevadas. El resultado
fue del 6 por 1.000,o de 0,6 por 100, altamente significativo. La operacin del ordenador dur 20
minutos.
El autor no especificaba cunto tiempo se necesit para escribir el programa. Pero una prueba estadstica
denominada Test de la Thabria producido una respuesta mejor, al comparar su muestra de 1.000 con un
universo hipottico de todas las muestras posibles de 1.000. Y lo habra hecho en 10 segundos con una
lnea de cdigo.
Al igual que los ciegos cuando reconocen un elefante mediante el tacto, los periodistas que aplican bits y
elementos del mtodo cientfico a su trabajo necesitan un concepto unificador. Knight-Ridder, la segunda
gran empresa de prensa de Estados Unidos, reconoci dicha necesidad al convocar recientemente a dos
docenas de sus informadores informticos en Miami, para compartir sus conocimientos y tratar de
englobarlos en un marco comn. Los escpticos pueden considerar tales esfuerzos como una pretensin
absurda.
Michael Lewis critic el uso de la tecnologa y de los conceptos cientficos en las escuelas de periodismo
como "inventos de dignificar un comercio aadindole la idea del profesionalismo y cubrindolo con una
capa de dudosa teora". Pero el mundo ha seguido avanzando y ese tipo de lamentaciones suenan cada
vez ms atvicas.
Para describir un mundo complejo, los periodistas necesitan herramientas complejas. El periodismo de
precisin es el concepto organizador de la gestin y el desarrollo de dichas herramientas, y las
Universidades deben actuar con mayor prontitud en el desarrollo y la enseanza de dicho concepto.
Traduccin: Antonio Fernndez Lera Michael Lewis "J-Scool Confidential", The New Republic, 19 de abril
de 1991, pginas 20-27. Magaret L. Usdansky y otros, "Segregation Walls Between us", USA Today, 11-
13 de noviembre de 1992. George Landau, Adventures in sampling: using brute force to compensate for
your ignorance about statistics, Uplink, Universiy of Missouri, marzo de 1993.
39