You are on page 1of 55

ANLISISDERESPUESTASABIERTAS

ENENCUESTAS
MnicaBcueBertaut
UniversitatPolitcnicadeCatalunya

1. EL CUESTIONAMIENTO ABIERTO

1.1 La especificidad de las preguntas abiertas


Lasrespuestasapreguntasabiertasconstituyenunmaterialparticularmenteidneoparael
tratamientoestadstico,enparticularcuandodichomaterialseenriquececonlainformacin
complementariaobtenidaconlasrespuestasalcuestionariocerrado.
Comomuestrannumerososestudiosdereferencia(verLebart,SalemyBcue2000),nose
puede sustituir una pregunta abierta por una pregunta cerrada ya que estos dos tipos de
cuestiones aportan informacin de naturaleza muy distinta y, por tanto, difcilmente
comparable.
El cuestionamiento abierto condiciona menos al entrevistado, evita las respuestas
convencionales y deja traslucir mejor las opiniones reales. Adems, proporciona un
conocimientosobrelosusosdellenguajeylossignossocialesqueconllevan.
Cundoutilizarpreguntasabiertas?
Existenalmenoscuatrosituacionestipoparalascualeslautilizacindeunapreguntaabierta
seimpone:
a)Parareducirladuracindelaentrevista:laspreguntasabiertassonmseconmicasen
cuantoatiempodeentrevistaygeneranmenoscansancioytensin.Cuandolalistadetems
esextensa,laduracindelaentrevistasepuedereducirnotablemente.
b)Pararecogerunainformacinespontnea:loscuestionariosdeencuestasdemarketing
abundan en preguntas que requieren una respuesta de este tipo. Por ejemplo: Qu
recuerdadeesteanunciopublicitario?oQupiensadeestecoche?.
c)Paraexplorardominiosmalconocidos,paraloscualeslostemsderespuestanosepueden
determinarapriori.
d)Paraexplicitaryentenderlarespuestaaunapreguntacerrada: setratadelaclsica
preguntacomplementariaPorqu?.Enefecto,lasexplicacionesrelativasaunarespuesta
ya dada deben expresarse de manera espontnea. Una batera de tems podra proponer
nuevosargumentosyviciarlaautenticidadolasinceridaddelaexplicacinpedida.
Las respuestas a preguntas abiertas se utilizan en encuestas realizadas en economa,
sociologa,politologa,epidemiologa,mercadotecnia,etc.Estasrespuestasconstituyenuna
prolongacinindispensabledeloscuestionarioscuandolasencuestasvanmsalldeuna
simple bsqueda de sufragios, cuando se trata de explorar y profundizar sobre un tema
complejoomalconocido.

1.2 El enfoque estadstico


Poscodificacinmanualdelasrespuestasabiertas
Latcnicamshabitualparaeltratamientodelasrespuestasabiertas(denominadastambin
respuestas libres) consiste en construir una batera de tems a partir de una muestra de
respuestas(engeneralentre100y200)para,despus,codificarelconjuntodelasrespuestas
demaneraquesesustituyalapreguntaabierta porunaovarias preguntas cerradas.Este
procedimientopresentaunagranventaja:losresultadossonfcilmenteexplotables.
Mencionemos,noobstante,algunosdefectosdeestetipodetratamiento:
Mediacindelcodificador.Alamediacindelencuestadorseaadeladelcodificadorque
debedecidireinterpretar,locualintroducenecesariamenteunaecuacinpersonalyaqueel
codificador debe, en efecto, tomar decisiones a veces difciles y para el especialista
discutibles.
Destruccindelaforma. Laformadelainformacin semutilay,amenudo,inclusosu
contenidoseempobrece:lacalidaddelaexpresin,elregistrodelvocabularioylatonalidad
generaldelaentrevistasepierdenenelmomentodelaposcodificacin.
Empobrecimiento del contenido. Cuando la pregunta permite respuestas de una gran
diversidad compuestas, complejas, contradictorias o vagas, la informacin est
literalmentelaminadaporlaposcodificacin;yprecisamenteesenestecasocuandoelvalor
heursticodelasrespuestasabiertasesmayor. Conmsfrecuenciadeloquesepodrapensar,
lasrespuestasdebenconservarsuforma,texturaytonalidad paraqueelinvestigadorlas
entienda.Lasrespuestascomplejas,inclusocuandovienenformadasporlayuxtaposicinde
elementosfcilesdecodificar,son,detodasformas,muydifcilesdetratar.
Lasrespuestaspocofrecuentesseeliminanapriori. Lasrespuestasraras,originales,poco
clarasenunaprimeralecturasonasignadasa temsresidualesqueson,portanto,muy
heterogneosypierdenporestehechotodovaloroperatorio.
Esta crtica de la operacin de poscodificacin se debe a su carcter preliminar. La
poscodificacinintervienealprincipio,antesdeefectuarlosanlisis;estohacequemltiples
decisionesdeasignacinydereagrupamientosetomensinunanlisisglobaldelconjuntodel
materialrecogido,quetengaencuentatodasucomplejidadyriqueza.
Unretoparalosestadsticos
Eltratamientodelasrespuestaslibres(esdecir,respuestasapreguntasabiertas)constituyeun
retotantoparalosestadsticoscomoparalosespecialistasdelosestudiostextuales.Enun
corpus de respuestas libres, las frecuencias lxicas observadas, en su gran mayora, son
artificiales porque se hace la misma pregunta a centenares o a millares de personas. La
yuxtaposicindelasrespuestasconstituyeuntextoredundanteporconstruccin,dondelos
estereotipossonfrecuentes.
Acontinuacin,secomentarnlasventajaseinconvenientes deestetipodeinformacin,
aunqueseprestarlamayoratencinalproblemadesutratamientoestadstico.

Lasfrecuenciaslxicasenrespuestaslibres
MilrespuestasalapreguntaVeUd.latelevisincadada?constituyenuntextoenelcual
lasformassynosonpredominantes,ylasfrecuenciasrelativasdeestasformastienenuna
sencillainterpretacin,muyfamiliaralosespecialistasdelasencuestasporsondeo.
LasrespuestasalapreguntaauxiliarPorqu?formuladainmediatamentedespusdela
precedentetienenunestatutointermedio.Suscitadaspormilestmulosidnticos,puedenser
estereotipadas,perotambincomportarcontenidosyformulacionesoriginalesoinesperadas.
Limitarseasencillosrecuentosesnotoriamenteinsuficiente,inclusoteniendoencuentalas
diferencias entre las formas de las respuestas,. En cambio, reagrupar las respuestas por
categoras(edad,sexooprofesin,porejemplo)permitircontrastarlosperfileslxicosde
dichascategoras.

Encuestas por muestreo


(Frecuencia de una muestra estadstica)
Preguntas cerradas
Preguntas abiertas

Textos
(Frecuencia lexicomtrica)

Figura1.1Estatutodelafrecuenciaenelcasodelaspreguntasabiertas

1.3 Construccin de textos artificiales : reagrupacin de las respuestas


abiertas
Eltipodetratamientopropuestoparaponerremedioalosdefectosdelaposcodificacinno
buscaunareduccinaprioridelainformacinbrutasino,alcontrario,unavalorizacinde
dicha informacin mediante la utilizacin de toda la informacin disponible sobre los
entrevistadosqueesconsiderableenelcasodeunaencuestaylasposibilidadesdegestin
dedatosylapotenciadeclculodelosordenadores.

Lasrespuestaslibressegrabanensuformaoriginalsobresoportemagntico,conservandoel
apareamientoconlascaractersticasbsicasylasrespuestasalaspreguntascerradasdelas
personasinterrogadas.Apartirdeah,puedensufrir,sinseralteradas,unasoperacionesde
tratamientotantilescomoelementales:asignacionesoreagrupamientos.
Sepuede,porejemplo,reagruparlasrespuestasporcategorassocioprofesionales.Aslas
respuestasdelosagricultores,delosempresarios,delasamasdecasa,delosobrerosydelos
directivossepuedenexaminaraparte.Puedetratarsedecategorasodecombinacionesde
categoras relacionadas con la pregunta abierta analizada. Al reagrupar las respuestas
correspondientes a cada una de las categoras se obtienen discursos artificiales cuya
significacinestantomsclaracuantomscuidadosahasidolaeleccindelascategoras.
As,lalecturaylainterpretacinquedanconsiderablementefacilitadas;enefectoaparecen,
paracadacategora,repeticionesyasociacionesdepalabrassignificativas.Noobstante,esta
reorganizacindelainformacinbrutasepuedehacerdenumerosasmaneras.
Por tanto, los problemas que quedan son: primero, decidir cmo reagrupar de manera
pertinentelasrespuestasy,segundo,cmofacilitarlainterpretacindelosreagrupamientos
asrealizados.
Cmoreagruparlasrespuestas?
Evidentemente,laimportanciadelmododereagrupamientoesconsiderable.Existendistintas
estrategiasposiblesparaencontrarunaovariasparticionespertinentes.Dichasestrategiasson
complementariasysuutilizacinsimultneaesdegranprovecho.
Primero,sepuedenutilizarloscriteriosconsideradosmsdiscriminantes,enfuncindelos
conocimientos yaestablecidos enrelacin altema estudiado.Sisetrata,porejemplo,de
preguntasqueconciernenalaevolucindelafamilia,ysesospechaqueexisteunefectoedad
o generacional, aumentado por un efecto sociocultural, se podr utilizar una variable
compuestacruzandolaedadyelniveldeeducacindelaspersonasentrevistadas.
Sepuede,buscartambinunaparticinquesealomsuniversalposibleteniendoencuentael
tamao de la muestra: es el principio que rige la elaboracin de las situacionestipo (o
ncleos factualesque veremos ms adelante. Las principales caractersticas consideradas
relevantesfuncindelobjetivo(porejemplo:edad,categorasocioprofesional,sexo,nivelde
instruccin,regin)sesintetizanenunaparticinnicamedianteunatcnicadeclasificacin
automtica;estoequivaleasustituirunoovariosmillaresdeindividuosporunatreintenao
cincuentenadegruposlomshomogneosposiblesencuantoaloscriteriosprecitados.
Sepuedeporelcontrario,obtenerunatipologadirecta,sinreagrupamientoprevio,delas
respuestas a partir de sus perfiles lxicos (lo cual tiene sentido nicamente cuando las
respuestas no se reducen a 2 3 formas), para despus seleccionar las categoras que
presentanunmayorgradodeasociacincondichatipologayutilizarestascategoraspara
reagruparlasrespuestas.Estasdiferentesestrategiassediscutirnenelapartado3.
Losanlisisde respuestasreagrupadas son,dehecho,bastantesimilaresalosanlisisde
textosliterarios,polticosehistricos,mientrasquelosanlisisde respuestasindividuales
presentanunaciertasimilitudconlostratamientosefectuadosenlabsquedadocumental.La
originalidaddelaaproximacinprovienedelgrannmerodereagrupamientosdistintosy,por
tanto,delgrannmerodelecturasposibles.
Laoperacinelementaldeagregacindelasrespuestasfacilitamucholalecturadeltexto
original.Noobstante,lalecturadecentenaresodemillaresderespuestasparacadaparticin
5

de los entrevistados no deja de ser una tarea costosa, sobre todo cuando se trata de un
tratamientousualynodeunainvestigacinenprofundidad.Estilportantodisponerdeuna
ayudaparalacomparacindelostextosobtenidosporreagrupamiento.Elanalistadesea,
muyprobablemente,determinarlaspalabrascaractersticasdetalocualcategoraydesea
sabertambinqugruposseexpresandemanerasimilar.
Paraello,elmaterialtextualsedebeprepararysegmentardemaneraquesepuedandefinir
nuevasunidadessusceptiblesdeserreconocidasytratadasporlosprogramasdeordenador.

2. UNIDADES LXICAS Y SEGMENTACIN DEL CORPUS

Elmtodoestadsticosebasaenmedidasyrecuentosrealizadossobrelosobjetosquesehan
decomparar.Laoperacinqueconsisteenrompereltextoenunidadesmnimas(esdecir,en
unidadesquenopuedensersubdivididasdenuevo)sedenominalasegmentacindeltexto.A
esta fase, suceder una fase de identificacin, es decir, la reagrupacin de las unidades
idnticas.

2.1Lacomplejidaddellxico
Enestadsticatextual,laprimeraetapaeselrecuentodelasunidadeslxicas,loqueentraa
unadificultadligadaalacomplejidaddellxico.Sucomportamientoesmscomplejoqueel
delosotroscomponentesdelhabla:ellxicosecomponedeunconjuntodeunidadesquese
puedeconsiderarabierto.Adems,ellxicovaraentrelocutores,perotambin,enunmismo
locutorvaradeunasituacinaotra.
Loslingistasencuentrangrandesdificultadesparadefinirelelementodebasedellxico.La
unidadlxica(queusualmentedenominamospalabra)sloencuentraunadefinicinrigurosa
en su manifestacin tipogrfica; la palabra es una secuencia de letras, delimitada a la
izquierdayaladerechaporunblancoosignodepuntuacin.Lapalabraasdefinidasesuele
denominarformagrfica.
Desgraciadamente, esta definicin no proporciona una unidad lingstica claramente
determinada.Poreso,esusualidentificarellema(esdecir,laentradadeldiccionario)alcual
correspondecadaformagrfica.Lareagrupacindelasdistintasformasquecorrespondena
unmismolemarequierediferenciarlasformashomgrafasysepararlaspalabrasformadas
medianteprocedimientos aglomerativos.As,antes dereagruparlasformas como,comes,
come, comemos, etc. del verbo comer, se deben diferenciar las formas homgrafas (por
ejemplo, como, forma del verbo comer, y como conjuncin) y separar los pronombres
enclticosylaformaverbal(porejemplo,separarcmeteloencometelo).
Para lematizar el vocabulario de untexto escrito en castellano se deben, principalmente,
convertir:

lasformasverbalesalinfinitivo,
lossustantivosalsingular,
losadjetivosalmasculinosingular

Otroproblemasurgedelaexistenciadeunidadeslxicascomplejas,compuestasdedosoms
unidades:palabrascompuestas,locucionesyexpresionesestereotipadas.
Laautomatizacindelaoperacindelematizacinnecesitaunanalizadormorfosintcticode
altacalidad.Inclusoas,puedensubsistirambigedadesqueslounaoperacinmanualpuede
solventar.

Ms all de estas consideraciones, los mtodos de la estadstica textual se aplican sin


adaptacinparticularalosrecuentosrealizadossegnlanormadefinida,cualquieraquesea
sta.Noobstante,elinvestigadordebetenerpresentedichanorma,ascomolasrazonesque
hanregidosudefinicin,durantelassiguientesfasesdelanlisis.
Segmentacin automtica del corpus
En la prctica, se est discutiendo la necesidad de establecer un conjunto de normas de
grabacin de los textos que permita comparar los resultados obtenidos por diversos
investigadores.Dichasnormasdebenserlomssencillasposiblesyfacilitareltratamientode
unmismotextopordiversosmtodosysoftware.Nosepuedeolvidarquelosescnersponen
alalcancedelosinvestigadoresunacantidadimportantedetextos,sincomparacinconla
disponiblehacesolamenteveinteaos.
Todoelloabogapordisponerdeunasherramientasmetodolgicasrelativamentesimplesque
permitan comparar, analizar y extraer informacin de corpus textuales cada vez ms
numerosos.

2.2PresentacindelcorpusSalud
Elcorpus Saludnosservirparailustrarlapresentacindelosmtodos.Enelmarcodela
investigacin La salud en las ciudades, se realiz en 1989 una encuesta mediante
cuestionarioaloshabitantesdelaciudaddeElche(Pasvalenciano,Espaa).Unodelos
objetivos era conocer mejor los hbitos y opiniones de los no especialistas sobre temas
asociados conlasalud.Mediante lapreguntaabierta "Quesparaustedlasalud?",se
querasabercmoelconceptode"salud"venapercibidoenlasdistintascategorasdela
poblacinestudiada.
Seescogiunamuestrade513personas,entrelos126000habitantesmayoresde14aosde
dichaciudad.Seentrevistaron dichas personascaraacara; las respuestas abiertas fueron
grabadas y transcritas posteriormente.El corpus as constituido servir de soporte a la
presentacindelosmtodos.Latabla2.1muestraejemplosderespuestasadichapregunta.

Tabla2.1:EjemplosderespuestasenelcorpusSalud
Identif.
-A007
A009
A010
A011
A013
A014
A015
A018
A020
A026
A029

Respuestas
estarbien,quenoteduelanadayestarsana
estarbien
notenerqueiralmdiconinada,yesnofumando,nibeber
estarfsicamentebienynotenerdolordecabeza,nidepiernas,estarenforma
algoconlocualseguimosadelante,algoquenecesitanuestrocuerpo,conel
quepodermantenernosenforma,vivir
bienestarpsquicoyfsico
lomsgrandequetieneunapersona,queestsbuena
llevarunavidasaludableyseguirunadietaequilibradayhacerdeporte
cuandotesientesbien,noteduelenadayestscontento
la salud repercute tanto en la parte fsica como mental de la persona,
encontrarsebien,aceptartucuerpoytumente,sentirtebiencontigomismo.
algoquecuandosetienenoseaprecia,ycuandonosetieneentoncessesabe
loquees:estadofsicoenelcualnosetieneningunaenfermedad.

2.3 Preparacin y normalizacin del corpus


Cadacarcterdeltextodebetenerunestatusnico;porejemplo,lospuntosdefindefrasese
deben diferenciar de los puntos empleados en ciertas abreviaturas como U.N.E.S.C.O o
I.B.M.,etc.
Lascaractersticaspropiasdelcorpusestudiadoascomolafinalidaddelestudioconducirna
determinarreglasdenormalizacin:porejemplo,enelanlisisdeuncorpusjurdicoenel
cualserefiereaartculos deleyes conlaindicacin desunmeroy,tambin, aparecen
numerosasfechas,sedeberoptarporunanotacindelascorrespondientescifrasquepermita
evitarconfusiones.

2.4Segmentacindelcorpusenunidadeslxicas
Segmentacinenformasgrficas
Pararealizarunasegmentacinautomticadeltextoenocurrenciasdeformasgrficasse
debedefinirqucaracterestendrnelestatusde caracteresdelimitadores (todoslosotros
caracteres existentes en la pliza tendrn el estatus de caracteres no delimitadores). Una
sucesin de caracteres no delimitadores acotada por caracteres delimitadores es una
ocurrencia.Dossucesionesidnticasdenodelimitadoresconstituyendosocurrenciasdela
mismaformagrfica(opalabra,trminoqueenadelanteseemplearconestesignificado).
Elconjuntodelaspalabrasdeuntextoconstituyesuvocabulario.Condichasegmentacinse
puede considerar el texto como una sucesin de ocurrencias separadas por uno o varios
caracteresdelimitadores.Elnmerototaldeocurrenciascontenidaseneltextoessutamaoo
longitud.
Segmentacinenlemas
Sisedeseaadoptarunenfoquelexicogrfico, sepuedenlematizar las palabras obtenidas
mediante la segmentacin automtica. Esto implica definir procesos automticos que
permitan aplicar las reglas de identificacin de tal manera que se puedan reagrupar las
distintasformasquecorrespondanaunmismolema.
Seproduceambigedadcuandounamismapalabrapuedecorresponderaflexionesdelemas
distintos(porejemplo: como,delverbo comer,y como conjuncin).Enalgunoscasos,se
tratadederivacionesdeunamismafuenteetimolgicaquehaadquiridodistintasacepciones
(por ejemplo, los diferentes significados del sustantivo estado). En otros casos, se debe
resolver la ambigedad relativa a la funcin sintctica de la palabra, lo que requiere un
anlisisgramaticaldelafrasequelacontiene.Ciertasambigedadesdenaturalezasemntica
sepuedenresolvermedianteelexamendelcontextoprximo,otrasexigenelexamende
varios prrafos, incluso del conjunto del texto. A veces, la ambigedad proviene de los
diferentessignificadosdeunapalabra;dichaambigedadpuedeserintencionadayobligara
hacerunaeleccinarbitraria.
Elrepasodelosproblemasligadosalalematizacinmuestraquenopuedeexistir,alavez,
unmtodoqueseafiableyenteramenteautomatizablequepermitareducirallemacadauna
delasunidadesobtenidasdelasegmentacindeuntextoenpalabras.

Losresultadosproporcionadosporlosanalizadoresmorfosintcticosactualmentedisponibles
requierenunarevisinmanual:enefecto,aunqueelporcentajedeerroressearelativamente
bajo(5%esunporcentajeusualmenteanunciadoporsusconceptores),dichoserroressuelen
sersistemticosy,portanto,introducendistorsionesmuysensiblesenlosresultadosdelos
anlisisestadsticos.
Comparacindelosprincipalesrasgoscuantitativos
Esinteresantecompararlosrecuentosrealizadossobrepalabrasylemasparauncorpusdado.
La comparacin sirve para medir el efecto de la lematizacin sobre los recuentos
lexicomtricos.

Tabla2.2:CorpusSalud:principalesrasgoslxicos
obtenidosapartirdelrecuentodelaspalabrasydeloslemas
formasgrficaslemas
nmero de ocurrencias
nmerodepalabras

9540
1199

9326
879

Como se puede ver en la tabla 2.2, el nmero de ocurrencias es menor en el corpus


lematizado. Estehechopuedevariar debidoaquelematizacin haceentrar enjuegodos
grandesclasesdeoperaciones,deefectoscontrarios:
Lareduccinaunnicolemadevariaspalabras(porqu)tiendeareducirelnmero
deocurrenciasdeuntextolematizado.
A la inversa, la fragmentacin en varias unidades distintas de las numerosas
ocurrenciasdepalabrascontractas (al=a+el) tiendeaincrementarelnmerode
ocurrenciasdeltextolematizadoencomparacinconeltextoinicial.
En este caso, el analizador morfosintctico utilizado privilegia el reconocimiento de
locuciones,abundantesenestecorpusderespuestasabiertas.Sinofueraelcaso,elsegundo
fenmenopodratenermayorinfluenciaqueelprimero.
Laextensindelvocabulario(nmerototaldevocablos)esclaramenteinferiorenelcorpus
lematizado conrelacin alcorpusoriginal. Aqutambin intervienen dosfenmenos con
efectosopuestos:
El reagrupamiento de diversas palabras que corresponden al mismo lema (formas
verbalesflexionadas,singularypluraldeunmismosubstantivo,etc.)reduceelnmero
devocablosdelcorpuslematizado.
-

La desambiguacin mediante la identificacin de la categora gramatical de cada


ocurrencia (como delverbo comer y como conjuncin)tiende aincrementar dicho
nmero.

2.5 El segmento repetido y el cuasisegmento repetido

10

Lasdefinicionesdelsegmentorepetido(Salem,1987)ydelcuasisegmentorepetido(Bcuey
Peir,1993;BcueyHaeusler,1995)buscanunprocedimientofcilmenteautomatizabley
totalmente independiente de la lengua y del investigador. En efecto, dichas definiciones
dependennicamentedecriteriosgrficos.
Todasucesinidnticamenterepetidadepalabrasnoseparadasporunsignodepuntuacin
llamadofuerte(esdecir,delimitadordesecuencia)constituyeunsegmentorepetidoenel
corpus.Latabla2.3muestraalgunosdelossegmentosrepetidosdelcorpusSalud.
Un cuasisegmento est compuesto de varias formas prximas, pero no obligatoriamente
contiguas. La tabla 2.4 muestra todas las secuencias del corpus Salud que contienen el
cuasisegmentohacer(...)deporterepetido11vecesentodoelcorpus.
El objetivo consiste en tener en cuenta las expresiones estereotipadas para las cuales el
criterio deinseparabilidad antes mencionado noes aplicable, aunqueel significadodela
expresinseaglobal.

Tabla2.3:Ejemplosdesegmentosrepetidos
SegmentosdelcorpusSaludqueempiezanporno(umbraldefrecuencia:5)
Frecuencia
5
28
6
14
5
5
19
5
5
23
86
5
11
11
26
20
7
8
18
25
9

Segmentorepetido
no dolerte nada
no estar
no estar enferma
no estar enfermo
no le duela
no padecer de
no se
no se puede
no se tiene
no te
no tener
no tener dolores
no tener enfermedades
no tener nada
no tener ninguna
no tener ninguna enfermedad
no tener ninguna enfermedad y
no tener ningn
no tiene
no tienes
no tienes salud

Tabla2.4:SecuenciasdelcorpusSalud
quecontienenelcuasisegmentohacer(...)deporte
Frecuencia Secuencia del corpus
6
2
2
1

hacerdeporte
haceralgodedeporte
hacerunpocodedeporte
hacerdevezencuandodeporte

Debequedarclaroquelasegmentacindelcorpusenformasolemasylasegmentacinen
segmentosrepetidosocuasisegmentosrepetidosnotienenelmismoestatus.Eltextoinicialse
11

puedevercomolaconcatenacindeocurrenciasdelasformasidentificadas,nosiendoas
cuandosetrabajaconlossegmentos.Enconcreto,lasegmentacindelcorpusensegmentos
repetidosproduceunidadeslxicasquesesolapan(porejemplo,lossegmentosnotener,no
tenerninguna,ynotenerningunaenfermedad).

2.6Elcorpusetiquetado
Lalematizacinautomticadelcorpuscomportaunafasedeetiquetadoautomticodelas
ocurrenciasdelcorpus:estafaseproporcionalacategoragramaticalcorrespondienteacada
unadelasocurrencias,ademsdesulema.Latabla2.5muestraunejemplodecategorizacin
gramaticaldetresrespuestasdelcorpusSalud.

Tabla2.5:EjemploderespuestasdelcorpusSalud
conuncdigodecategoragramaticalparacadaocurrencia
Identif.

Respuestas

- A014

bienestar psquico y fsico


NCM AQ CC AQ
lo ms grande que tiene una persona, que ests buena
NCM RG AQ PR VMI TIF NF PR VMI AQ
encontrarse bien
VMN RG

- A015
- A016

Anteriormentehemosvistoeltextocomounasecuenciadeocurrenciasdeformasgrficaso
de lemas. Podemos tambin verlo como una secuencia de ocurrencias de categoras
gramaticales. Los anlisis se pueden efectuar a partir del recuento de dichas categoras;
pondrnderelieveotrosrasgosdelostextosestudiadosylosresultadosenriquecernlos
obtenidosapartirdelasformasodeloslemas.
Lasexperienciasrealizadasapartirdetextosendistintaslenguasmuestranque,lamayorade
lasveces,lascaractersticas morfosintcticas decadalenguanoconstituyenunobstculo
insalvableparaelanlisisdelostextosmediantemtodosdeestadsticatextual.Comosever
acontinuacin,lastipologasrealizadasapartirderecuentostextualesserevelanrobustas
frente a las variaciones en la eleccin de la unidad de segmentacin. La palabra,
recordmoslo,noconstituyeunaunidadnaturalparaanalizarlostextossinoquepresentala
ventajadefacilitarlaautomatizacindelosrecuentos.

12

3. ANLISIS DE CORRESPONDENCIAS APLICADO A


UN CORPUS DE RESPUESTAS ABIERTAS

Enelcasodelasrespuestasabiertas,elenfoquepropuestoenelprrafo3.1presuponequelas
respuestassehanreagrupadoentextosartificiales(segnlaclasedeedad,laprofesin,el
niveldeinstruccinuotrocriteriopertinenteenrelacinconelfenmenoestudiado).
Confrecuencia,loscriteriosdereagrupamientomsadecuadossuelenserdesconocidosa
priori.Portanto,seproponenenlosprrafos3.2y3.3dosestrategiasaconsejablescuandono
seimponedemaneraclaraningncriteriodereagrupamiento:
a)

Lautilizacin deunaparticin desntesis.Unatcnica declasificacin automtica


permiteresumirenunanicaparticindesntesislasdiferentescaractersticasdelas
personas entrevistadas. Se presenta esta tcnica, llamada particin en situaciones
tipo,enelprrafo3.2.

b) Un anlisis directo de las respuestas no reagrupadas. Si las respuestas son


suficientementericascomoparasertratadasaisladamente,sepuederealizarunanlisis
directodela tablalxicaentera, cruzandopalabrasyrespuestas.Unanlisisdeeste
tipoproporcionaunatipologadelasrespuestas,engeneralbastanteelemental,y,de
forma dual, una tipologa de las palabras. Las caractersticas de los entrevistados,
conocidas mediante las respuestas cerradas, pueden considerarse variables
suplementariasoilustrativas.Seobtieneasunailustracindelosplanosfactorialesy
unacaracterizacindelasclasesdeindividuosqueenriquecenconsiderablementelos
anlisis.
Losproblemasyelementosdesolucinrelativosaestaaproximacindirectaseabordan
enelprrafo3.3titulado:Anlisisdirectodelasrespuestasodocumentos.
Estosanlisissepresentanmedianteejemplos .queprovienendelcorpusSaludyapresentado
enelapartado2.

3.1Anlisisdecorrespondenciasdeunatablalxica
Las tablas lxicas de base
Dostiposdetabla:

Latablalxica,otabladecontingenciaIndividuosPalabras

Latablalxicaagregada,otabladecontingenciaGruposdeindividuosPalabras

13

Umbral de frecuencia para las palabras


Compararperfileslxicosslotienesentido,desdeelpuntodevistaestadstico,cuandolas
formas aparecen con una frecuencia mnima: los hapax, y tambin las palabras poco
frecuentes,sedescartanenlafasedecomparacindefrecuencias.
Variable de reagrupamiento
Despusdeplantearlapreguntayacitada,elcuestionarioabordabatemascomoloshbitos
de vida, la dieta, los posibles problemas de salud y, obviamente, comportaba un cierto
nmerodepreguntassobrelascaractersticassociodemogrficasdelosentrevistados.Enlo
quesigue,nosvamosainteresar,sobretodo,enlaparticindelamuestraenochogrupos
obtenidaalcruzarelsexoconlaedad(encuatrocategoras).
Segmentacindelcorpusenpalabras
Delos513individuosentrevistados,396respondieronalapreguntaabierta.Elconjuntodelas
396respuestasexpresadasformauncorpusdelongitud9540ocurrencias,con1199palabras
distintas.Cuandoseseleccionanlaspalabras empleadasalmenos10veces,seconservan
7.488ocurrenciasy146palabrasdistintas.
La tabla 3.1 muestra estas 146 palabras ordenadas alfabticamente. Es posible listar las
palabrasporordendefrecuencia.
Sepuedesubrayarlaaltafrecuenciadelapalabra no,repetida416veces.Lalecturadelos
contextosenloscualeslapalabra no seutiliza,permitecomprobarqueladefinicindela
saludsehaceconmuchafrecuenciamedianteformulacionesnegativas:noestarenfermo,no
tener dolores, no tener enfermedad, etc. El mtodo denominado concordancias ofrece
justamenteellistadontegrodetodosloscontextosdelaspalabrasseleccionadas.
Laspalabrasgramaticales,comoesusual,sondeempleofrecuente.Enparticular,lapalabra
msrepetidaesque,utilizada432vecesenelconjuntodelas396respuestasexpresadas.
Palabras distintas pueden corresponder a un mismo lema (a una nica entrada en el
diccionario delalengua).Porejemplo, seencuentran las palabras tenemos,tener,tenga,
tengo,teniendo,tieneytienesquecorrespondenallematener.

14

Tabla3.1:VocabulariodelapreguntaSalud(Ordenalfabtico)
PalabraFrecuencia
a
93
ahora
12
al
21
algo
23
alimentacin
24
as
15
beber
13
bien
235
bienestar
21
buen
13
buena
33
bueno
28
cada
11
comer
16
como
50
con
63
cosa
35
cosas
32
creo
21
cualquier
14
cuando
24
cuerpo
49
cuidarse
13
de
298
del
33
deporte
17
dinero
23
dolor
13
dolores
10
duela
21
ejercicio
12
el
116
en
165
encontrar
14
encontrarse
64
enfermedad
47
enfermedades
19
enfermo
26
es
278
eso
52
estado
27
estar
181
estoy
13
est
51
ests
22
est
17
feliz
13
forma
20
fumar
18

PalabraFrecuencia
fsica
28
fsicamente
35
fsico
36
ganas
21
general
13
gusto
13
hace
11
hacer
45
hay
54
he
10
importante
53
ir
17
la
269
las
37
le
17
llevar
176
lo
52
los
11
luego
17
mal
13
malo
28
me
41
mejor
10
menos
16
mental
10
mentalmente
10
mente
10
mismo
15
muchas
11
mucho
16
muy
39
ms
86
m
22
nada
117
ni
82
ninguna
56
ningn
36
no
416
norma
10
o
46
otra
12
para
104
pero
24
persona
78
poco
22
poder
24
por
41
porque
52
principal
29

15

PalabraFrecuencia
problema
16
problemas
21
psquicamente
15
psquico
13
pueda
13
puede
23
puedes
12
pues
35
que
432
salud
190
sana
55
sano
45
se
104
s
14
sea
17
sentirse
19
ser
15
si
78
s
11
siempre
14
siente
11
sin
33
sino
10
su
13
tambin
29
tanto
19
te
64
tenemos
12
tener
168
tenga
17
tengo
12
teniendo
12
tiene
42
tienes
51
tipo
14
todo
88
todos
23
trabajar
28
trabajo
36
tu
29
un
80
una
148
uno
66
vida
52
vivir
36
y
358
ya
20
yo
40

Tabla3.2:Extractodelglosariodesegmentos

(Umbralgeneral:5,paralossegmentosdelongitud2:15,paralossegmentosdelongitud3:5)

Nmero Frecuencia

Longitud Textodelsegmento

la
58
15
2
lapersona
59
97
2
lasalud
60
42
3
lasaludes
61
5
4
lasaludesestar
62
9
4
lasaludeslo
63
7
3
lasaludno
64
18
2
la vida
---------------------------------------------llevar
65
9
3
llevar una vida
---------------------------------------------lo
66
30
2
lomejor
67
13
3
lomejorque
68
8
4
lomejorquehay
69
42
2
loms
70
30
3
lomsimportante
71
26
2
loprincipal
72
33
2
lo que
---------------------------------------------ms
73
31
2
ms importante
---------------------------------------------mejor
74
16
2
mejorque
---------------------------------------------ninguna
75
31
2
ninguna enfermedad
76
8
3
ninguna enfermedad y
---------------------------------------------ningn
77
5
3
ningn tipo de
---------------------------------------------no
78
5
2
nodolertenada
79
28
3
noestar
80
6
3
noestarenferma
81
14
3
noestarenfermo
82
5
3
noleduela
83
5
3
nopadecerde
84
19
2
nose
85
5
3
nosepuede
86
5
3
nosetiene
87
23
2
note
88
86
2
notener
89
5
3
notenerdolores
90
11
3
notenerenfermedades
91
11
3
notenernada
92
8
3
notenerningn
93
26
3
notenerninguna
94
20
4
notenerningunaenfermedad
95
7
5
notenerningunaenfermedady
96
18
2
notiene
97
25
2
notienes
98
9
3
no tienes salud

16

Construccin de la tabla lxica agregada y de la tabla segmental


Laprimeraetapadeltratamientoconsisteenidentificar las palabras distintas ycontarsu
frecuencia.Seobtieneasunatabladedobleentrada T con tantasfilascomonmero n de
entrevistados(n=513enelejemplo)ytantascolumnascomopalabrasdistintasseemplean
entodoelcorpus,esdecir,Vcolumnas(V=146).Lacasilla(i,j)delatablaT(situadaenla
interseccindelafila i ydelacolumna j )contieneelnmerodevecesqueelindividuo i
utiliza lapalabra j ensurespuesta.Latabla T es la tabla decontingencia Individuos
Palabras.
Enmuchasaplicaciones,lasrespuestasindividualessondemasiadopobresparapoderser
objetodeuntratamientoestadsticodirecto.Porestarazn,puedesernecesariotrabajarcon
respuestasreagrupadasenfuncindeunavariablecategricaobservadasobrelosindividuos.
SeagreganlaskfilasdeTenmcategorasderespuestasyseobtienelatabladecontingencia
Ccategoraspalabras.
LatablaCpermitelacomparacindelosperfileslxicosdelascategoras.Comosecoment
antes, para que estas comparaciones tengan sentido, las palabras poco frecuentes no se
conservan.Deestamanerasesuelereducirnotablementeeltamaodelvocabulario.

Tabla3.3:Extractodelatablalxicaagregadacruzandolas146palabrasconlas
8categorasdeedadsexo
a
ahora
al
algo
alimentacin
as
beber
bien
bienestar
buen
buena
bueno
cada
comer
como
con
cosa
cosas
creo
cualquier
cuando
cuerpo
cuidarse
de
del
deporte
dinero
dolor
dolores
duela
ejercicio

H20
4
0
3
9
1
2
3
9
0
0
3
1
0
1
4
5
1
3
2
2
4
5
1
9
1
2
0
0
0
1
1

H35
19
0
2
4
3
2
1
28
3
3
4
1
4
2
17
12
7
6
3
3
3
9
4
56
6
7
0
1
0
1
4

H50
11
2
2
1
4
2
1
18
3
1
5
0
1
1
6
1
3
3
0
2
6
1
1
27
0
4
3
0
1
3
0

H+50 M20
8
6
0
1
1
2
0
2
1
3
2
2
3
1
22
37
2
2
1
1
2
4
7
5
3
0
3
0
6
6
3
8
4
3
7
2
0
2
0
0
3
3
4
12
3
2
47
22
8
4
0
0
4
2
0
0
0
0
2
1
3
0
17

M35 M50 M+50


20
11
14
6
1
2
6
4
1
4
0
3
11
1
0
2
9
3
2
1
1
69
21
31
4
5
2
3
0
4
5
3
7
4
4
6
0
3
0
4
0
5
7
1
3
15
8
11
8
4
5
7
3
1
7
2
5
6
0
1
1
0
4
9
4
5
2
0
0
61
27
48
5
3
6
4
0
0
7
2
5
6
2
4
3
2
4
5
2
6
4
0
0

Escogerentreelanlisisdelatabla T oelanlisisdelatabla C,esdecir,escogerentreel


anlisisdirectodelasrespuestasoelanlisisdelasrespuestasreagrupadasesunproblema
importantequesevolveracomentar.
Engeneral, seempieza portratar de encontrar criterios dereagrupamiento apropiados al
fenmenoestudiado.Sediscutirmsadelantecmodeterminarlos;noobstante,sepuede
mencionarahoraquedichoscriteriospodrnresultardelanlisisdirectodelasrespuestas,lo
queconstituirunodelosobjetivosdedichoanlisis.
cada

ir
uno
malo

Eje 2 pueda
(19 %)

ya
tenemos

menos

sea
cuidarse
mentalmente
general

problema
H+50

principal trabajo

normal
ejercicio
hacer beber
cosas
como
tiene
ser

puede
salud
poder

mejor
est
ni

poco

hay

ninguna
pues

H-35
cuando

todos
forma
tanto
H-20

M-50
mismo
deporte
bueno
fumar
H-50
tener
. Eje1
hace
algo
yo
enfermo
come eso
nada
fsica (30 %)
porqueestar
tengo
mal
r
cuerpo encuentra
M+50
teniendo
estoy
trabaja
buena feliz vidasiente
enfermedad tu
tienes
para
sentirse
r
fsicamente
M-20
enfermedades
te
fsico
buen
sano
me
sana estado
s
duela
M-35
importante
bien
mental
mucha
dinero
cualquier
s muy
llevar
su
psquico
m
tambin
creo
he

pero

dolores

puedes
ganas dolor

alimentacin

encontrarse
psquicamente

ahora

Figura3.1:Anlisisdecorrespondenciasdelatabla34
(noserepresentantodaslaspalabras)

En el ejemplo, las respuestas individuales se han reagrupado en ocho categoras. Esta


particindelosindividuosseobtienealcruzardosparticiones:laparticinsegnlaedad
(cuatrocategorasdeedad:de14a20aos,de21a35aos,de36a50aos,mayorde50
18

aos),ylaparticinsegnelsexo.LainicialHidentificalascategorasmasculinas,laM,las
categorasfemeninas.Enloreferentealascategorasdeedad,stasvienenindicadaspor20,
35,50y+50quesignifican,respectivamente,de14a20aos,de21a35aos,de36a50
aosymayorde50aos.
Para analizar la informacin contenida en la tabla de contingencia as obtenida, cuyas
primerasfilasvienenpresentadasenlatabla3.3,secalculanlastablasdeperfilesfilayde
perfilescolumna.Apartirdeestastablas,lasdistanciasentrepalabras,porunaparte,ylas
distanciasentrecategoras,porotra,secalculanysevisualizan.Elobjetivodelanlisisde
correspondenciases,justamente,proporcionarestadescripcindual.
Anlisis e interpretacin de una tabla lxica
La figura 3.1 muestra el primer plano factorial, es decir, el plano generado por los dos
primeros ejes factoriales del anlisis decorrespondencia de latabla C.Las 146palabras
activasnoestntodasrepresentadasenelgrfico.
Losdosprimerosvalorespropiosvalen,respectivamente,0.0695y0.0445ycorrespondenal
30%y19%delavarianzatotal(oinerciatotal),cuyovaloresigualalatrazadelamatriz
diagonalizada.
Laconfiguracindelospuntoscolumnaesmuyregular:apartirdeunainformacinlxica
(contenida enlosperfilescolumna,quesonlasdistintas distribuciones delasocurrencias
entre las palabras segn la categora de edad sexo), se vuelve a encontrar el carcter
compuestodelaparticindelosindividuosen8categoras.
Paracadasexo,lascategorasdeedadvienenordenadasalolargodelprimereje,desdelos
msjvenesaladerechadeleje,hastalosmayoresalaizquierda(convienerecordarquela
orientacindelosejesnotieneningnsignificado;encontrarlamismaconfiguracinen
espejoconduciraalamismainterpretacin).
Laconfiguracinobservadasugierelaexistenciadeunaevolucinprogresivadelvocabulario
conlaedad.Existe unimportante desfaseentrelos sexos:lacategora femenina deuna
determinadaclasedeedadseencuentra,sobreelprimereje,aproximadamentealamisma
alturaquelacategoramasculinadelaclasedeedadinmediatamentesuperior.Sepuededecir
quelaevolucindelvocabularioesdistintasegnelsexo;latransicinhaciaelempleode
determinadaspalabrassehaceaedadesdistintas,aunaedadmstempranaparalamujer.
Puedeapreciarse,tambin,quelasdostrayectorias,ladelasmujeresyladeloshombres,de
clasesdeedadsonparalelasperoopuestassobreelsegundoeje:lascategorasmasculinasse
sitanenlapartesuperiordelgrfico,lascategorasfemeninassesitan exceptolaque
correspondealasmujeresentre35y50aosenlaparteinferiordelgrfico.Estefenmeno
refleja la existencia de palabras de uso mayoritariamente masculino y de otras de uso
mayoritariamentefemeninoqueseoponensobreestesegundoeje.
Elestudiodelaspalabrasrepresentadasenelgrficoaportainformacinsobrelanaturaleza
delaevolucinporedadydelaoposicinporsexolimitada,enestemomentodelanlisis,
por la ausencia del contexto en el cual se emplean. Adems, no se debe olvidar que la
representacin simultnea se apoya en las relaciones de transicin, lo que no permite
interpretarlaproximidadentreunapalabrayunacategora,sinosolamentelaposicindeuna
palabraconrelacinatodaslascategoras,olaposicindeunacategoraconrelacinatodas
laspalabras.Porejemplo,algo,general,deporte,fumar,cualquier,problema,fsico,fsica,
fsicamente, forma, encuentra se sitan, claramente, en el extremo del primer eje, que
19

correspondealosjvenes.Laposicindeprincipal,mejor,tengo,estoy,heydolorespermite
verquesonutilizadas,sobretodo,porpersonasmayores.

Interpretacin
Sepuedenhacerahoraalgunoscomentarios:
a) La indexacin automtica de las palabras y los clculos de frecuencia as permitidos
ignoran de manera deliberada numerosas informaciones de tipo semntico o sintctico,
conocidos de cualquier lector. La sinonimia no se tiene en cuenta, al igual que la
homonimia. No obstante, la prctica de este tipo de anlisis aplicado a muestras
importantes ensea que, a pesar de la prdida de este tipo de informacin, el anlisis de
los discursos artificiales construidos mediante la yuxtaposicin de repuestas, permite
poner de relieve repeticiones significativas y rasgos estructurales.
En el contexto estadstico, la segmentacin en palabras puede revelarse tan interesante
como la segmentacin en lemas. Se puede ver que, por ejemplo, sano y sana ocupan
posiciones prximas sobre la figura 18 (en el cuadrante inferior derecho), lo que muestra
que conservar estas dos formas del adjetivo sano como distintas no crea ningn
problema. Por el contrario, estar y estoy se encuentran muy distantes : la primera se
encuentra muy prxima al centro de gravedad, ligeramente por debajo y a la izquierda ;
la segunda en el extremo izquierdo del primer eje, ligeramente por debajo del eje. Esta
oposicin indica que estas dos palabras se utilizan en contextos muy distintos, lo cual es
interesante e informativo : estar tiene un uso poco diferenciado segn la categora de
edad (para poder hacer esta afirmacin, adems de la posicin central de la palabra, tiene
que observarse una buena calidad de representacin, como es el caso), mientras que la
posicin de estoy indica que su uso en las respuestas de las personas mayores. Se puede
constatar, mediante un retorno al texto, que estar es empleado sobre todo en
definiciones de la salud tal como no estar malo, mientras que el uso de estoy
corresponde a comentarios sobre el propio estado de salud (estoy bien malo, yo no estoy
bien, etc.), mucho ms frecuentes en las respuestas de los mayores.
En este ejemplo y en otros, se puede apreciar que las posiciones de varias flexiones de
un mismo verbo y las de los sinnimos pueden ayudar a confirmar la interpretacin de
ciertas zonas del plano factorial. En particular, la proximidad entre palabras distintas,
pero con afinidades semnticas, constituye un criterio de validacin de los resultados
empricos obtenidos.
b) La conservacin de las palabras gramaticales (como de, los, para, que, etc.) no perturba
el anlisis. Su distribucin no suele ser aleatoria entre las diferentes categoras de
entrevistados. Por lo tanto, sus perfiles se pueden apartar del perfil medio (que
corresponde al origen de los ejes), con lo cual se situarn en posiciones significativas en
los grficos factoriales.
c) El orden de las palabras en las respuestas no se tiene en cuenta : cada discurso se ve
como un saco de palabras y, en realidad, slo se explota el perfil de frecuencias. Se
pierde aqu una parte importante de la informacin, aunque un perfil de frecuencias se
revela mucho ms rico en informacin que lo que cabe imaginar a priori : evidentemente,
un perfil lxico, es decir, en este ejemplo, una serie de 146 subfrecuencias, no tiene
mucha significacin por s slo, pero la comparacin de varios perfiles lxicos aporta,
una informacin abundante. Siguiendo la misma ptica frecuencial, la bsqueda de los
segmentos repetidos permite tener en cuenta las ocurrencias de las unidades ms ricas
desde el punto de vista semntico, lo cual no ocurre si consideramos solamente las
palabras aisladas. La seleccin de las respuestas modales, presentada en el prximo
captulo, permite conocer todava mejor el contexto de uso de las palabras lo cual aclara,
frecuentemente, su significado.

20

Ilustracin de los grficos mediante los segmentos repetidos


Los grficos factoriales se pueden completar con filas y/o columnas suplementarias o
ilustrativas.Losperfileslxicosysegmentalessepuedenrepresentarcomopuntosdelmismo
espaciodedimensinp.LatablalxicaC,conVfilasypcolumnas(lascategoras),ylatabla
lxicaCs,consfilas(lossegmentos)ypcolumnas(lascategoras),sealmacenanjuntas.Se
puedeentoncesproyectar losperfilessegmentales sobrelosgrficos factoriales obtenidos
anteriormenteconlaspalabrasconsideradascomoelementosactivos.
Lafigura3.2muestraunaseleccindelossegmentosproyectadossobreelplanorepresentado
en la figura 3.1. Ahora, algunas de las palabras aparecen en su contexto y el contenido
semntico de las respuestas empieza a emerger, resultado de un proceso totalmente
automticoyciego.
Eje 2
(19 %)
es la salud
ni nada
H+50

una persona que


la salud es
la persona

no hay

lo mejor que

H-35

lo principal

H-20

es lo mejor

M-50
H-50

Eje1
ninguna enfermedad (30 %)
estar sano
el cuerpo

M+50
no estar
no tener nada lo ms importante
no tener enfermedades

bien en
M-20

M-35

yo creo que es

si no tienes
que no te duela
no tener ninguna enfermedad

encontrarse bien

Figura3.2:Algunossegmentoscomoelementosilustrativos

21

Estabilidad frente a la lematizacin


Lanotaa)delainterpretacinplantealapreguntadelaestabilidaddelosresultadosencaso
desupresindesubstitucinsistemticadelaspalabrasporloslemasquelascorresponden.
Porestarazn,selematizelcorpusSaludparacompararlosresultadosobtenidosdespus
delalematizacinconloscomentadosenlosprrafosanteriores.
Antesdelematizar,elanalizadorefectaelreconocimientodelaslocucionesyagrupalas
palabrasqueformanunalocucinenunanicaunidadqueconservasuformainicial.Se
puedencitarcomoejemploslasexpresiones agusto, ninada,o devezencuando queson
reconocidas como ocurrencias de las locuciones a_gusto, ni_nada y de_vez_en_cuando,
respectivamente.
Elanlisis delcorpuslematizado tienecomoobjetivoverificar silaconfiguracin delos
puntoscategoraobservada(sepuedehablartambindepatrnoestructuradelospuntos
categora)enlosgrficosfactorialesprovieneprincipalmentedelvocabularioescogido:en
estecaso,losdosanlisisproporcionaranresultadosrelativamentesimilaresenloquese
refierealaestructuradelascategoras.
Estclaroquelalematizacininfluyesobrelaseleccindelaspalabrasconservadas.En
particular,losverbos,cuyasflexionessonnumerosasy,portanto,muchomsdispersasque
lasdelossustantivosyadjetivos,serneliminadosenmenorcantidadporlaoperacinde
filtradomedianteumbral:enefecto,unavezreunidaslasdiferentesflexionesdeunmismo
verbobajosulema(formainfinitivadelverbo),aumentalaposibilidaddequelafrecuencia
globalsupereelumbralescogido.
Enelejemplo,laoperacindelematizacinhacequedisminuyaelvocabulariototalde1199
palabras a 879 lemas y locuciones. La longitud del corpus pasa de 9540 ocurrencias de
palabrasa9326ocurrenciasdelemasolocuciones;lareduccindelasdiferentesunidades
palabras que componen una locucin a una nica unidadlocucin es, evidentemente, la
responsabledeladisminucindelalongitud.
Conunumbraliguala10,seconservan123lemas,locualsepuedecompararconlas146
palabrasconservadasconestemismoumbral.Sepuedenotarqueseconservaunamayor
proporcindelcorpus:conelumbral10,seconservael78.5%delcorpussinoselematizay
el 83% despus de la lematizacin. En particular, la lematizacin permite conservar
determinadosverbos(dar,deber,funcionar,mantener,padecer,quereryver),deloscuales
ningunaformaflexionadaalcanzabaelumbralrequerido.Adems,alreunirselasdistintas
formasdelosverbosenunnicolema,numerososverbosaparecenahoraentrelaspalabras
msfrecuentes:enconcreto,tener,ser,estar,encontrar,poderyhacerfiguranentrelasdiez
palabrasllenasmsfrecuentes.
Apartirdelos123lemasconservados,seconstruyeunatablalxicaagregada.Elanlisisde
correspondenciasdedichatablaproporcionaunaconfiguracindelospuntoscategoramuy
similar a la de la figura 3.1. As, el anlisis de la tabla lematizada permite asegurar la
estabilidaddelosresultadosobtenidos.
El lema suele ocupar una posicin ms prxima al centro de gravedad que las formas
flexionadascorrespondientes.Determinadosmaticessepierdencomo,porejemplo,elusode
losverbosenprimerapersona,propiodelaspersonasmayores.Encambio,lainterpretacin
delusodiferenciadodedeterminadosverbosporlasdistintascategorassepuedeconsiderar
msrobustoalapoyarseenfrecuenciasobservadasmsaltas.
22

Enlosdosanlisis,lasposicionesdelospuntoscategorasobreelprimerejerespetanel
ordenindicadoporlaedad:estefenmenonoconstituyeunaprueba,peroserefuerzaasla
conjeturaqueexisteunaconexinentrelaedadyelvocabularioempleado,quesemanifiesta
medianteunarenovacinprogresivadelvocabularioconlaedad.
padecer
uno
ya

Eje 2
(20 %)

deber
malo

dar

dolencia

comer
principal

H+50

mantener

poco
cuidarse

cuando
ejercicio

si

beber

salud

persona

como algo
H-20 cuidar
fumar
forma

deporte
H-35
poder
mdico
pues hacer
mismo
fsico
problema
ser cosa ningn
estado
tener
normal sentir
Eje1
tu
cuerpo
tanto
(32%)
H-50
M+50
mental
estar
mal
ni trabajar
M-20
saber
M-50 para
sentir
haber
vivir
creer
psquico
enfermedad vida
yo
bienestar
feliz
fsicamente
sano
bien
tambin
cualquier
hijo
enfermo
M-35
su
ver
importante
llevar
doler
encontrar
dinero
muy

mejor

trabajo

mi
gana dolor

psquicamente
ahora pero funcionar
alimentaci
n

mi

Figura3.3:Anlisisdecorrespondenciasdelatabladecontingencia
LemasCategoras

3.2Particinensituacionestipo
Comosehavisto,puedesernecesarioreagruparlasrespuestasantesdeefectuarunanlisis
estadstico.Losperfileslxicosdelosgruposderespuestaspresentanunamayorregularidad
yseinterpretanmsfcilmentequelosperfilesfiladelasrespuestasaisladas.

23

Elejemploanteriormostrcomounreagrupamientoaprioripodarealizarseenfuncinde
unahiptesisinicial.Noobstante,laseleccindelavariabledereagrupamientoimplicaun
slido conocimiento del fenmeno estudiado, lo que no suele verificarse en los estudios
llamadosexploratorios.
La tcnica llamada particin en situacionestipo aportar elementos de solucin a dicho
problema.Dadaunalistadedescriptoresdelosindividuos,seplanteaelproblemaderepartir
dichos individuos en grupos lo ms homogneos posibles respecto a las caractersticas
seleccionadas,sinprivilegiarningunaapriori.Setratadeaproximarsealasituacinceteris
paribusenelinteriordecadagrupo,situacinparticularmentedifcildealcanzarenciencias
sociales.Esjustamenteloqueunalgoritmodeclasificacinpermiteobtener,enlamedidade
loposible.
Unejemplo
Alanalizarlasrespuestasabiertas,unodelosobjetivosesobtenerunavisinglobaldelas
respuestas.Noobstante, ladiversidad de temas abordados enla encuesta, yportanto la
variedad previsibledel contenidodelas respuestas,haceimposible conocerdeantemano
cualessernloscriteriosdereagrupamientomspertinentes.
Apartirdeunabaterade10descriptores,listadosacontinuacin,sereagrupanalos513
individuosentrevistadosen10clases.
La figura 3.4 representa el corte del rbol jerrquico correspondiente a las 10 clases
finalmenteconservadasyproporcionaunadescripcinsumariadelacomposicindecada
unadedichasclases.
Lafigura3.5muestraelplanoprincipalobtenidoalsometeralanlisisdecorrespondenciasla
tabla lxica cruzando las 146 palabras ms frecuentes, en filas, con las 10 clases, en
columnas.Sloseconservaronalgunaspalabrasendichafigura.

Tabla3.3Listadelosdescriptoresutilizadosparaconstruirlaparticintipo
Listadedescriptores(variablesactivasenlaclasificacin)

Nmerodemodalidades
Estadomatrimonial
Posicinenlafamilia
Niveldeestudiosdelentrevistado
Niveldeestudiosdelcabezadefamilia
Situacinlaboraldelentrevistado
Situacinlaboraldelcabezadefamilia
Ingresosdelhogar(enclases)
Titulacinporedad
Sexoporedad
Lugardeorigen

6
4
6
7
10
10
6
10
9
4

La particin pone en evidencia particularidades y oposiciones que podran haber pasado


desapercibidasconreagrupamientosmselementales.

24

11.7%, <30 aos, Elem, S


17.6%, <30 aos, BU, S

1
2
Jovenes solteros

13.7% 31-50 aos, Elem, M, C

8.2% 31-50 aos, Sin, M, C

4
30-50 Mujer

6.6% > 50 aos, Elem, H&M, C 5

H&M >50
Hombres 30-50

9.9% 20-50 aos, Elem, H, C

7.6% >30 aos, Sin., H, C

7.4%, >30 aos, BU, H&M, C

Casados y viudos

Bac o Universidad

Mayores sin estudios


9.9% >50 aos, Sin., M, C

7.4% >50 aos, Sin, H&M, V

10

Leyenda
H: Hombre
M: Mujer
C: casado
V: Viudo

Sin.: sin est. o primaria incompleta


Elem: estudios primarios, EGB, FP
BU: segundaria o universidad

Figura3.4:Particinen10situacionestipo
Los grandes rasgos de la descripcin proporcionada por este anlisis se habran, quiz,
detectados mediante reagrupamientos sucesivos operados descriptor a descriptor. As, las
personasconunciertoniveldeeducacintienenunconceptomsglobaldelasalud,las
personas mayores tienden a evocar problemas que las conciernen personalmente (sus
problemasdesalud),etc.
Noobstante,algunosmaticesmsdifcilesdecaptarpuedenaparecer.Enparticular,eneste
estudioparecequelaedadjuegaunpapeldistintosegnelniveldetitulacin.Elprimereje
separalosjvenesalaizquierda(grupos1y2)delosmayoresde30aosaladerecha;no
obstante,elgrupo8,compuestodelaspersonasmayoresde30aosconunnivelaltode
estudios(relativamentealconjunto),escapaalatendenciageneralysesitaenlapartedel
ejequecorrespondealosjvenes.Losdosgruposdemujeresde30a50aos,losgrupos3
(conestudioselementales)y4(sinestudios),ocupanposicionesprximasyseapartandelos
grupos6y7quecontienenloshombresdeestamismaedad:paralosentrevistadosdeesta
categora de edad, el sexo parece tener una influencia importante sobre la eleccin del
vocabulario. Adems, se puede notar que el grupo 6, que contiene el mayor nmero de
hombresdeestacategoradeedad,noestbienrepresentado .enesteplano,loqueconfirmala
particularidaddelvocabulariodeloshombresentre30y50aos,yapuestaenevidenciaenel
estudio efectuado en el prrafo 3.1. Los grupos de mayores de 50 aos se encuentran
agrupados,hombresymujeres,sinestudiosoconestudioselementales(los9entrevistados
mayoresde50aosconestudiossuperioresseencuentranrepartidosentrelosgrupos8y
10):paralosmayores,elfactormsimportante,enloreferentealaeleccindelvocabulario
paracontestaralapreguntasobrelasalud,eslaedad.

25

siente

problema algo
vida
alimentacin
llevar
forma
Eje 2 (14%)
normal
deporte
vivir
enfermedad
puedes
importante
2

mentalmente

cuerpo
feliz
sentirse
estado

a gusto
dolor
1

fsico

mismo
como

dolores

dinero

tienes

todo
Eje 1 (26%)

persona

psquico

enfermo
ganas

hacer

salud

pues

yo

mejor
trabajar
comer

Mental
8
10

tengo

malo
bienestar

poder
estoy

principal

Figura3.5:Proximidadesentrelas10situacionestipoyalgunaspalabras
seleccionadas
Estasconstatacionesindicanquelosfactoresqueinfluencianlaeleccindelvocabulariono
sonlosmismosenlasdistintasedades.Adems,losresultadoshacenpensarqueelnivelde
educacin,noestudiadoenelanlisisanterior,merecesindudaunaatencinparticular.
Relativamenteaestamismapreguntaabierta,latcnicadelasrespuestasmodales,presentada
enelsiguienteapartadopermitirresituarensucontextolaspalabrasrepresentadasenesta
figura,yasenriquecerconsiderablementelainterpretacindelasclases.

3.3Anlisisdirectodelasrespuestasodocumentos
Hastaahorasehananalizadolosperfilesdefrecuenciasdelaspartesdeuncorpus,cuando
dichas partes constituyen textos relativamente importantes desde el punto de vista de la
longitud. Para obtener tales textos a partir de un fichero de respuestas libres, se debi
procederareagrupamientosaprioridedichasrespuestas,segnuncriterioescogidotambin
apriori.
Noobstante,elanlisisdecorrespondenciassepuedeaplicaravecesconprovechoalas
respuestasindividuales.Estetratamientodirectodelosdatosindividualesserecomiendaen
losdoscasossiguientes:

26

a)

Cuandolasrespuestassonsuficientementericasdesdeelpuntodevistalxicopara
quesepuedancompararconprovecholosperfiles defrecuencias.Eselcasode
entrevistasenprofundidadenelmbitopsicolgicoomdico,obienenelestudiode
textos sociopolticos como discursos gubernamentales, programas de partido,
artculosextensosdeprensa,etc.

b)

Cuando se quiere proceder a un trabajo preliminar de descripcin, para buscar


criteriosparalacreacindegruposoparaprocederalaorganizacindelcorpus.

Estclaroqueelprimercasosesitaenelmarcodelosmtodospreconizadosenlosprrafos
precedentes:unadescripcindirectadelasrespuestasesahoraposible.Nocierralapuerta
definitivamente a ulteriores reagrupamientos, si esto puede ayudar a la interpretacin o
permiteponerapruebaciertashiptesis.
Elsegundoessensiblementedistinto:lanocindeperfilnotieneentonceselmismosentido.
En trminos estadsticos, la varianza interindividuos no tiene el mismo estatus que la
varianzaintercategoras.Lasrespuestassedistinguenmsporlapresenciaoausenciade
formasqueporverdaderasvariacionesentreperfilesdefrecuencia.
Cmo interpretar las distancias?
Se empezar por tomar un ejemplo simple de respuestas libres a una pregunta sobre la
seguridadencarretera,cuyoredactadoeselsiguiente:
Despus de la pregunta cerrada preliminar: En vuestra opinin, es posible disminuir
fuertementeelnmerodemuertosyheridosenlosaccidentesdetrfico?(respuestas:s/no),
sepreguntaalosquehancontestados(alrededordel80%delosencuestados):Qusedebe
hacerparaesto?
Sepuedeentoncesencontrarrespuestasdeltipo:
Desarrollarelusodetransportespblicos
obien:
Incitaralagenteautilizarlomsquepuedalostrenes,losautobuses
quesondosrespuestasteniendorespectivamente6y13ocurrencias,sinningunapalabra
comn,ycuyoscontenidossonbastantevecinos.
Alainversa,lasdosrespuestassiguientesalamismapregunta:
respetarloslmitesdevelocidad
hacerrespetarloslmitesdevelocidad
nosedistinguensinoporunasolapalabraytienen,noobstante,contenidossensiblemente
distintos.
Este ejemplo corresponde a una situacin real, pero relativamente excepcional. En el
tratamiento de tablas lxicas agregadas, las respuestas de este tipo son, en general,
sumergidas en clases cuyo perfil lxico medio presenta una cierta regularidad. De todos
modos,estosejemplosmuestranquelasdistanciasentrerespuestasindividualesnopodrnser
interpretadasfcilmente.
Nuestrapreocupacinnoes,sinembargo,procederaunadecodificacinexhaustivadela
informacin,sinoutilizarlasredundanciasyrepeticiones,cuandoexistan,parasimplificarla.
Estclaroqueunanlisisdirecto,endichascondiciones,permitir,almenos,reagruparlas
respuestasidnticasosimilares,dejandoenunprimertiemponoclasificadaslasrespuestas
quesedistinguenporlaoriginalidaddesuforma.
27

Anlisis de la tabla dispersa T


Elanlisisdirectodelasrespuestasequivaleasometeraunanlisisdescriptivolatabla T
definida ms arriba (prrafo 3.1), cuyas n filas son las respuestas y las V columnas
correspondenaunconjuntodepalabras.
Esto requiere varias observaciones:
a) La proximidad entre dos palabras, es decir entre dos columnas de la tabla T ser tanto
mayor cuanto ms frecuente sea la aparicin de dichas palabras en las mismas respuestas
(y no slo en los mismos textos o agregados de respuestas), lo que permitir captar
mejor las proximidades sintagmticas. El anlisis directo proporcionar una mejor
aproximacin a los contextos.
b) Las frmulas de transicin clsicas entre las coordenadas de un punto-fila y las
coordenadas de todos los puntos-columna (y vice-versa) permiten dar a las
representaciones factoriales de la tabla T una interpretacin bastante simple : los n
individuos estarn aproximadamente situados en los centros de gravedad de las palabras
que ellos emplean (se dice aproximadamente para as recordar la presencia de un
coeficiente dilatador para cada eje que desplaza la posicin de los centros de
gravedad).
c) Las n filas de la tabla T representan las respuestas o los individuos interrogados. Las
respuestas a las preguntas cerradas del cuestionario pueden constituir las columnas de
una tabla T+ y, por lo tanto, posicionarse como elementos ilustrativos (o suplementarios)
sobre los planos factoriales resultantes del anlisis de correspondencias de T, lo cual
puede sugerir criterios para reagrupar las respuestas.
Lasmodalidadesprcticasdeestetipodeenfoqueexploratoriosernexpuestasapartirdel
ejemploSalud.
Ejemplo de aplicacin
La tabla T comporta en este caso n=513 filas-individuos y 123 columnas-lemas. A partir de las
caractersticas de los individuos conocidas a travs de sus respuestas cerradas, se construye la
tabla disyuntiva completa T+, con tantas filas como individuos, y tantas columnas como
modalidades consideradas. Una columna-modalidad contiene un 1 si el individuo presenta la
caracterstica correspondiente y un 0 si no la presenta. Estas columnas ilustrarn el anlisis de
correspondencias de la tabla T.
Porquutilizarlatablalematizada?
El anlisis directo de las respuestas individuales suele funcionar mejor a partir del corpus
lematizado. El reagrupamiento de las palabras en lemas reduce el nmero de unidades y, en
consecuencia, aumenta su frecuencia. Por esta razn, el nmero de unidades compartidas por
dos respuestas o documentos aumenta tambin, lo que permite dar mayor sentido a las
distancias calculadas entre ellos.
Elgrficodelaspalabras
La figura 3.6 representa el primer plano factorial obtenido con el anlisis de correspondencias
de la tabla T. Slo figura una parte de los 123 lemas.
Los quinientos trece puntos-fila (513 individuos annimos) no figuran sobre dicho grfico.
Pero las coordenadas de los individuos-fila se utilizan para calcular las posiciones de las
variables categricas suplementarias, que se representan en la figura 3.4. Solamente las
respuestas de longitud superior a dos ocurrencias se conservaron para este anlisis.
28

De hecho, en el anlisis de una tabla dispersa como la tabla T, los primeros ejes factoriales no
contienen ms que una parte muy pequeadelavarianzaglobal(losvalorespropiosson1=
0.24 y 2=0.23, y los porcentajes correspondientes son 1=3.6% y 2=3.4%). El
decrecimiento de los valores propios es muy dbil, los porcentajes de varianza
correspondientes tambin. Los diez primeros ejes no restituyen sino un 25% de la varianza
total. Estos porcentajes, altamente significativos respecto a la hiptesis de independencia
entrepalabrasyrespuestas,nosedebeninterpretarcomoporcentajesdeinformacin.
Eje
bienestar estado
2
(3.4%)
parte
cuerpo
mente
tipo
sentir

persona
forma en

psquicamente

funcionar
deber

fsicamente
problema
dolencia
feliz

encontrar

ningn

creer

algo

dolor

Eje 1

enfermedad

bien

padecer

sano

cuidar

normal

(3.6 %)

ejercicio alimentacin

tener

vida
estar ni
no

gana

lleva
r

hacer
importante
comer

nada
doler
enferm
o

quere
dinero
r
principal
ni_nada

deporte

mejor

fumar
beber

Figura3.6:Anlisisdirectodelatabla"Respuestas*Formas"
Asociacionesentreformasgrficasenlasrespuestas

Se trata de un resultado general de este tipo de codificacin. No obstante, se debe evitar


interpretar con pesimismo las dbiles tasas de varianza obtenidas sobre los primeros ejes
porque la varianza total, en este caso, no constituye la nica informacin de referencia.
Contiene un ruido incompresible (en el sentido que tiene en teora de la seal) imputable al
carcter disperso de la tabla.
Est claro, no obstante, que los reagrupamientos entre las palabras visualizadas en el grfico
3.6 estn muy lejos de ser efectuados al azar.
En la parte izquierda del primer eje, aparecen las palabras dolencia, ningn, dolor, enfermedad
y padecer. Las proximidades entre las palabras provienen de dos fenmenos relevantes: las
29

palabras prximas aparecen con frecuencia en las mismas respuestas (por ejemplo, ningn
dolor) o, aunque no se empleen en las mismas respuestas, tienen contextos muy parecidos y,
de hecho, mantienen con frecuencia relaciones de sinonimia (por ejemplo, dolor o dolencia
empleadas respectivamente en no tener dolor y no tener dolencia). Por estas razones, se
pueden reconstituir, de manera grosera, ciertos elementos de frases sobre el grfico: no
padecer ningn dolor/ ninguna dolencia/ ninguna enfermedad, y no tener ningn dolor/
ninguna dolencia/ ninguna enfermedad aunque las palabras no y tener ocupen posiciones ms
centrales porque aparecen tambin en otros contextos.
Al otro extremo de este primer eje, se encuentran deporte, fumar, beber, alimentacin, cuidar,
etc. Evidentemente, no son los mismos individuos los que emplean estas palabras y las del
grupo anterior.
No se obtiene, en este caso, una sntesis visual, como ocurre con las tablas lxicas agregadas
(figuras 3.1 y 3.3) sino una extraccin progresiva de la informacin, obtenida pelando trozo
a trozo los resultados ofrecidos por los primeros planos factoriales.

Validacinexterna:variablessuplementariasyvalorestest
Los individuos entrevistados (o los documentos estudiados) no son interesantes de por s. No
obstante, sus caractersticas (es decir, las caractersticas sociodemogrficas en el caso de las
encuestas, los ttulos de los peridicos, los campos de investigacin en caso de la recuperacin
automtica de informacin) son conocidas.
En el ejemplo, las variables categricas correspondientes a estas caractersticas constituyen los
bloques de la matriz T+, descrita anteriormente.
Se pueden valorar las coordenadas de estas variables suplementarias mediante el clculo de
"valores-test" que proporcionan una medida de su significacin estadstica.
Supongamos que una categora suplementaria j contiene nj individuos (personas entrevistadas
o documentos). La hiptesis nula es que los nj individuos son escogidos al azar (sin reposicin)
entre los n individuos estudiados. En estas circunstancias, para un eje dado, la abscisa j
de una categora suplementaria con nj individuos es una variable aleatoria, de media 0 y
varianza v(j,nj). Entonces, t(j)=j /v(j,nj) es una variable aleatoria estandarizada (de media 0,
y varianza 1). Adems, t(j) es asintticamente normal . Por tanto, un valor test t(j) mayor
que 2 menor que -2 (para utilizar una aproximacin usual, y no los valores exactos 1.96 y
-1.96) indica una posicin significativa de la categora j sobre el eje (con un nivel de 0.05).
1

La tabla 3.4 presenta las coordenadas y los valores-test de 29 categoras suplementarias. Se


puede ver que, por ejemplo, se asocian a las modalidades de la variable sexo valores-test muy
significativos sobre los dos primeros ejes: estos valores-test son iguales a 11.2 y 6.9 para los
hombres sobre el primer y el segundo eje, respectivamente.

1La varianza es la misma cualquiera que sea el eje considerado (ver L. Lebart y otros : Multivariate

Descriptive...,).Vienedadaporlaformula:v(j,nj) =

n 1 1
.
n nj nj

30

Tabla3.4:Posicionamientodelasmodalidadesilustrativas
sobreelplanodelanlisisdirectodelasrespuestas
(lascategoras"nocontesta"noseindican)

MODALIDADES
sexo
hombre
mujer
Nivel de estudios
ni leer ni escribir
sin pero sabe leer
estudios primarios
EGB, bac elem
bac superior, FP
universidad
edad en 4 clases
menor de 21 aos
de 21 a 35 aos
de 36 a 50 aos
mayor de 50 aos
sexo edad
hombre <21 aos
hombre 21-35 aos
hombre 36-50 aos
hombre >50 aos
mujer <21 aos
mujer 21-35 aos
mujer 36-50 aos
mujer >50 aos
edad titulacin
<30 aos-sin est.
<30 aos-element.
<30 aos-bac y ms
30-50 aos-sin est.
30-50.aos-element.
30-50 aos-bac y ms
>50 aos-sin
>50 aos-elem
>50 aos-bac y ms

EFF.

DISTO

COORDONEDADAS
1
2

VALORES-TEST
1
2

205
308

1.25
.80

.14
-.11

.09
-.07

11.2
-11.2

6.9
-6.9

40
133
150
90
71
29

16.05
2.97
2.44
5.21
4.40
18.10

-.19
-.01
.00
-.09
-.14
-.01

-.55
-.41
-.10
.12
.49
1.06

-4.3
-0.4
0.2
-3.4
5.9
0.2

92
165
108
147

5.32
1.67
4.50
2.53

-.05
.08
-.05
-.04

.41
.15
-.09
-.37

-2.0 15.7
5.2 10.3
-2.2 -3.6
-2.4 -20.4

40
63
41
61
52
102
67
86

15.12
5.13
10.54
6.59
9.38
3.72
9.52
5.60

.11
.27
.00
.09
-.16
-.07
-.10
-.16

.49
.28
.09
-.34
.36
.06
-.25
-.40

2.5 11.1
10.6 10.7
.1
2.4
3.0 -11.5
-4.5 10.3
-3.3
2.6
-3.0 -7.1
-5.9 -14.8

11
118
65
59
86
26
103
35
9

39.40
3.37
5.14
10.13
5.48
17.29
4.10
12.80
49.36

.86
-.03
.17
-.25
-.08
.05
-.06
.06
-.21

-.07
.16
.48
-.43
-.20
1.13
-.49
-.23
.31

12.1
-.9
-1.3
7.8
6.6 18.6
-6.8 -11.9
-3.1 -7.4
1.1 23.9
-2.8 -21.1
1.5 -5.5
-2.6
3.9

-12.1
-20.9
-5.8
4.7
20.4
22.0

La mayora de las categoras suplementarias aqu escogidas ocupan posiciones significativas


sobre los dos primeros ejes.
Estos clculos permiten una validacin externa de la significacin del primer plano factorial.
Puede, incluso, constituir un mtodo para determinar el nmero de ejes significativos. Est
claro que si una configuracin observada sobre une eje no es ms que un mero artefacto del
mtodo, las posiciones de las categoras suplementarias sobre este eje no sern significativas.
La figura 3.7 presenta un ejemplo de proyeccin de categoras suplementarias.
Las dos categoras de la variable sexo se oponen sobre el eje horizontal: las categoras hombre
y mujer, con valores-test iguales a 11.2 y -11.2 ocupan posiciones muy significativas sobre este
eje. No obstante, no se puede concluir que las palabras que se sitan en la parte izquierda de
este eje en la figura 23 son, todas ellas, palabras pronunciadas de forma mayoritaria por
mujeres. Por ejemplo, la palabra padecer es una palabra de uso ms masculino que femenino,

31

como se poda ver sobre la figura 3.3 (primer plano factorial del anlisis de correspondencias
de la tabla lxica lematizada agregada por edad y sexo), y como lo confirma la comparacin de
las frecuencias relativas de dicha palabra en las dos partes correspondientes a las dos
categoras de sexo (11 ocurrencias de padecer y una frecuencia relativa igual a 0.26 para los
hombres, 5 ocurrencias y una frecuencia relativa igual a 0.10 para las mujeres). Lo que ocurre
es que dicha palabra est asociada con frecuencia a otras palabras de uso mayoritariamente
femenino (como dolor, palabra muy caracterstica de las mujeres que la emplean en 21 de sus
23 ocurrencias).
30-50 Bac-Univ
UNIVERSIDAD

BACHILLER

Eje 2
Menor de 21 aos

<30 Bac-Univ

Hombre < 21

Mujer < 21
Hombre 21-35

>50 Bac-Univ
<30 Elementales
De 21 a 35 aos

EGB
0.1

Hombre 36-50

HOMBRE

Mujer 21-35
0.1
MUJER

Eje 1
<30 sin estudios

De 36 a 50 aos
PRIMARIOS
30-50 Elementales
Mujer 36-50

>50 Elementales

Mayor de 50 aos
30-50 sin estudios

Mujer > 50

Hombre > 50

SIN ESTUDIOS, PERO LEE

>50 sin estudios


SIN ESTUDIOS

Figura3.7:Posicindealgunascategorassociodemgraficas
enelplanofactorialrepresentadoenlafigura3.6
Como puede observarse, las asociaciones entre palabras son complejas. Las frmulas de
transicin (captulo 5) permiten ver que una categora suplementaria se sita, salvo producto
por una constante, en el centro de gravedad de las palabras que los individuos de dicha
categora emplean. Se debe recordar que no se puede interpretar, directamente, la proximidad
entre una categora y una palabra. Los valores-test altos asociados a las modalidades de la
variable sexo sobre el primer eje (y sobre los dos ejes siguientes) indican que existe una fuerte
asociacin entre el vocabulario y el sexo sin que, en este momento, se puedan indicar las
palabras implicadas en esta asociacin.
Se puede apreciar que tanto la edad como la titulacin parecen jugar un papel importante a lo
largo del eje vertical. Las categoras de edad se encuentran ordenadas sobre este eje, y las
modalidades menor de 21 aos, en un extremo del eje, y mayor de 50 aos, en el otro, tienen
valores-test iguales a 15.7 y -20.4. Es interesante notar que la evolucin segn la edad es
32

similar en los dos sexos: las trayectorias de las distintas clases de edad son
aproximadamente paralelas.
Lascategorasdetitulacinseencuentran,tambin,totalmenteordenadassobreesteeje ,ylas
cuatrocategorasextremasmuestranvalorestestmuyelevados.Existe,evidentemente,una
alta correlacin entre el nivel de titulacin y la edad: los jvenes son claramente ms
tituladosquelosmayores.
2

Pero debe advertirse que las modalidades de la variable edad titulacin ocupan posiciones
que rompen con el patrn de las trayectorias de las modalidades de edad (que sea la
trayectoria global o las trayectorias diferenciadas por sexo) y de la trayectoria de las categoras
de titulacin. As la modalidad mayor de 50 aos con titulacin secundaria o universitaria se
proyecta, sobre el segundo eje, en el extremo del eje que corresponde a los entrevistados
jvenes y, tambin, a los titulados superiores: la posicin de esta modalidad parece depender
ms de la titulacin que de la edad (aunque el reducido efectivo de individuos que presentan
esta modalidad limita el alcance de esta constatacin). La modalidad menores de 30 aos sin
titulacin se sita, sobre este mismo eje, en la parte central, es decir, en una posicin
intermedia entre lo que dejaba prever la edad (parte superior del eje) y lo que dejaba prever el
nivel de estudios (parte inferior del eje). Se podran representar las tres trayectorias de las
edades para un nivel de titulacin fijo, y las tres trayectorias de los niveles de titulacin para
una categora de edad fija, pero hemos preferido no cargar ms el grfico, ya suficientemente
complejo (en un estudio real, se suelen utilizar varios grficos). Estos resultados hacen pensar
que la influencia del nivel de estudios sobre las seleccin de palabras es relevante y que la edad
juega un papel distinto segn el nivel de titulacin. Se haban obtenido resultados de este tipo
en el prrafo 3.2, en el anlisis de correspondencias de la tabla situaciones-tipo palabras. No
obstante, para llegar a conclusiones ms slidas, se debera proceder al anlisis de la tabla
lxica agregada edad _nivel de titulacin palabras.
La ventaja del anlisis directo consiste en poner de relieve la influencia que tienen numerosas
caractersticas individuales sobre la eleccin del vocabulario. Dicha influencia mltiple puede
quedar enmascarada cuando se efectan reagrupamientos a priori, que no informan de la
heterogeneidad de los grupos.
El anlisis directo proporciona ndices sobre las asociaciones entre palabras y sobre las
caractersticas que intervienen en la eleccin del vocabulario y que otros anlisis, tal como el
anlisis de tablas lxicas agregadas, permitirn confirmar y estudiar.

2Lacategora Universidad tiene,sobreelsegundoeje,unacoordenadamayorquelarepresentadasobrela

grfica:enefecto,lasdimensionesdelagrficaseescogendetalformaqueserepresentendemaneraexacta
lospuntoscuyadistanciaalorigen,reducida,nosupere2.3desviacionestipo(ladesviacintipodetodaslas
distanciasalorigensobreelejebajoconsideracin).Losotrospuntos(outlierssobreesteeje)serepresentanen
loslmitesdelagrfica.

33

4. PALABRAS CARACTERSTICAS

Elanlisisdecorrespondenciasponeenevidenciaoposicionesglobales,enlascualesentran
enjuegoelconjuntodelaspalabrasydelosgrupos.Sequierecompletarlarepresentacin
espacial as obtenida por la seleccin de las palabras "anormalmente" frecuentes en las
respuestasdeungrupodeindividuos,encomparacinconlatotalidad,utilizandountest
clsicoparaemitirestejuiciocomparativo.

4.1 Clculo de los elementos caractersticos


Se denotan las siguientes cantidades, calculadas a partir de las ocurrencias de palabras
simples,seanstasformasgrficasolemas:
kij
ki.
k.j
k..

subfrecuenciadelapalabraienlapartejdelcorpus;
frecuenciadelapalabraienlatotalidaddelcorpus;
tamao(nmerodeocurrencias)delapartejdelcorpus;
tamao(nmerodeocurrencias)delcorpus(o,simplemente,k).

El modelo probabilista
Seempiezaporimaginaruna poblacin de k.. objetos.Sesuponeque,entretodosellos, ki.
objetos vienen marcados con algn distintivo que los diferencia de los otros: color
particularo,paravolveralcasodelostextos,ocurrenciasdeunamismapalabradefrecuencia
totalki..Losobjetosrestantesseconfundenenunmismosubconjuntoyseconsiderancomo
nomarcados.Elnmerodeobjetosnomarcadoses,portanto,igualakki.
Ahora,medianteunprocedimientodeextraccinaleatoriasinreposicin,seseleccionauna
muestradek.jobjetos.Despus,secomputaelnmerokijdeobjetosmarcadosquecontienela
muestra.
Losnmerosk,ki.,k.jqueseacabandedefinirconstituyenlosparmetrosdelmodelo.Para
poderemitirunjuiciosobreelvalorkij,esnecesariocompararloconlosvaloresobtenidosen
los recuentos similares efectuados sobre el conjunto de todas las muestras posibles,
compuestasdek.jobjetos,quesepuedenextraerdelapoblacindepartida.
Paracadamuestradetamao k.j,elnmero kij deobjetosmarcadospuedetomarunvalor
enteroentre0yki.,nmerototaldeobjetosmarcados.Paracadaenteron,comprendidoentre
0 y ki.,esposibleefectuarelrecuentodelnmero N(n) demuestrasdetamao k.j paralas
cualeskijesexactamenteigualan.

34

PALABRAS

PARTESDELCORPUS

kij

ki.

k.j

k..

k..

tamao del c orpus

ki.

frec uenc ia de la palabra en el c orpus

kij

frec uenc ia de la palabra en la parte

k.j

tamao de la parte

Figura4.1:Loscuatroparmetrosdelclculodeloselementoscaractersticos
SisedividecadanmeroN(n)porelnmerototaldemuestrasdetamaok.j,seobtieneuna
distribucindeprobabilidad(deparmetrosk,ki.,k.j)sobrelosnmeroscomprendidosentre0
y ki.. La ley de probabilidad para una extraccin sin reposicin bajo la hiptesis de
independenciaeslaleyhipergeomtrica.Dichaleyseaproximaalaleybinomialcuandoel
tamaodelamuestraespequeoconrelacinaltamaodelapoblacin(sepuedenentonces
asimilarextraccinconysinreposicin).
Sedenota:Prob(k,ki.,k.j,n)
la probabilidad as calculada de obtener exactamente n objetos marcados al efectuar la
extraccinsinreposicindeunamuestradetamaok.japartirdeunapoblacindeefectivo
totalk,sabiendoquedichapoblacincomportaki.objetosmarcados .
3

Lafigura4.2visualizalaleyhipergeomtricaconparmetros:
k
k.j
ki.

= 160.000
= 20.000
=
36

tamaodelcorpus
tamaodelapartej
frecuenciadelapalabrai

Como se puede observar, la moda de esta distribucin (valor ms probable) vale 4. Las
probabilidadesdecrecenrpidamenteamedidaquelafrecuenciasealejadedichovalor.

3Lafrmulaclsicadelaleyhipergeomtricaes:

(
)(
)
Prob(k , k , k , n)
()
k ki .
k. j n

ki .
n

i.

.j

k
k. j

35

0,2
Probabilidad

0,1

0,0
0

10

20

30
n = Frecuencia absoluta

Figura4.2:Distribucindeprobabilidadhipergeomtrica
conparmetrosk=160.000,k.j=20.000,ki.=36

Podemosahorautilizarladistribucindeprobabilidadasconstruidaparaemitirunjuicio
sobrelafrecuenciaabsolutakijobservadaenunamuestra.Paraesto,seempiezaporsituarkij
conrelacinalamodadeladistribucin.Sielvalorobservadokijseencuentramuyprximo
alamoda,nosepuededecirnadasobreelresultadoobservado.Sidichovaloresclaramente
superior a la moda, nos interesaremos por la probabilidad Psup(kij) de observar, bajo las
anterioreshiptesis,unnmerodeobjetosmarcadosigualosuperiorakij entrelosk.jobjetos
seleccionados al azar. Si, al contrario, dicho valor es claramente inferior a la moda,
calcularemoslaprobabilidad Pinf(kij) deobservarunnmerodeobjetosmarcadosigualo
inferiorakij.
Laprobabilidad Psup(kij) esigualalasumadetodaslasprobabilidadescorrespondientesa
valoresdenigualesosuperioresakij.Portanto,eslasumadelasprobabilidadesProb(k,ki.,
k.j,n)paralosvaloresdencomprendidosentrekij yki..Demaneraanloga,laprobabilidad
Pinf(kij) esigualalasumadelasprobabilidades Prob(k,ki.,k.j,n) paralosvalores de n
comprendidosentre0ykij.
Si,paraunamuestradada,laprobabilidad Psup(kij)esmuypequea,seconcluyequedicha
muestra comporta, con relacin a todas las muestras del mismo tipo, un nmero
anormalmenteelevadodeobjetosmarcados.Inversamente,silaprobabilidad Pinf(kij) es
muy pequea, se dice que dicha muestra comporta un nmero anormalmente bajo de
objetosmarcados.

Clculo prctico de las unidades lxicas caractersticas


Lascasillasdelatablalxicaagregadacontienenlassubfrecuencias kij decadaunadelas
palabrasienlasdistintaspartesj.Paracadacasilla,sevaloralasubfrecuenciaquecontiene
respectoalosnmerosk,ki.,k.j,medianteelmodelodescritoantes.

36

Paraseleccionarlasprobabilidadesconsideradaspequeas,quesealanlaspalabrasdeuso
diferenciadoentrelaspartes,sefijademaneraarbitrariaalprincipiodelaexperienciaun
umbraldeprobabilidad .
4

Unidades lxicas caractersticas negativas y positivas. Unidades banales.


Tabla4.1Palabrascaractersticasde4grupos
Palabra

Porcentaje
interno

Subcorpus"Hombrede20a30aos"
1
sea
1.07
2
poco
.96
3
otra
.64
4
problemas
.86
5
deporte
.75
6
menos
.54
7
mismo
.64
8
o
1.28
9
general
.54
10
como
1.28
Subcorpus"Hombremayorde50aos"
1
salud
4.46
2
uno
1.72
3
no
7.29
4
trabajo
1.01
5
lo
3.34
6
pueda
.51
Subcorpus"Mujerde20a30aos"
1
llevar
.82
2
dolor
.51
Subcorpus"Mujermayorde50aos"
1
mejor
1.39
2
principal
1.13
3
he
.61
4
nada
2.78
5
lo
3.48
6
trabajar
.87
7
su
.52
8
ganas
.70

Frecuencia

Valor

Proba.

global

interna

global

Test

.23
.29
.16
.28
.23
13
.20
.63
.17
.67

10
9
6
8
7
5
6
12
5
12

17
22
12
21
17
10
15
47
13
50

4.334
3.170
2.921
2.798
2.764
2.622
2.468
2.301
2.140
2.108

0.000
0.001
0.002
0.003
0.003
0.004
0.007
0.011
0.016
0.018

2.54
.88
5.63
.48
2.32
.17

44
17
72
10
33
5

190
66
422
36
174
13

3.726
2.630
2.296
2.166
2.093
2.048

0.000
0.004
0.011
0.015
0.018
0.020

.33
.16

8
5

25
12

2.269
2.208

0.012
0.014

.53
.39
.13
1.53
2.32
.37
.17
.28

16
13
7
32
40
10
6
8

40
29
10
115
174
28
13
21

3.633
3.613
3.607
3.348
2.597
2.482
2.391
2.346

0.000
0.000
0.000
0.000
0.005
0.007
0.008
0.009

Si Pinf (kij) es inferior al umbral, se concluye que la subfrecuencia kij observada es


relativamente baja, es decir, que la palabra i est infrarepresentada en la parte j
comparativamentealoqueelmodelohipergeomtricoesdecir,elazardejabaprever.En
estecaso,sedicequelapalabra i esuna palabracaractersticanegativa o especificidad
negativaparalapartej.
4Seescogeparaelumbralunodelosvaloreshabitualmenteutilizadosenlostestsestadsticos:0.05,0.01,

0.001,etc.

37

Si, porel contrario, Psup (kij) es inferior al umbral, seconcluye que la subfrecuencia kij
observadaesrelativamentealta,esdecir,quelapalabraiestsobrerepresentadaenlapartej.
Sedicequelapalabraiesunapalabracaractersticapositivaoespecificidadpositivaparala
partej.
Cuando ninguna de las dos probabilidades Pinf (kij) y Psup(kij) es inferior al umbral, se
consideraquelapalabraiesbanalparalapartej.Siunapalabranocaracterizaningunaparte
(esdecir,esbanalparatodaslaspartes),dichapalabraperteneceal vocabulariobsico del
corpus.
Parafacilitarlalecturadelosresultadosdeltest,setraducelaprobabilidadasociadaala
comparacin en un valortest estandarizado de tal forma que se pueda leer como una
realizacin de la variable de LaplaceGauss centrada y reducida. Por lo tanto, se puede
considerar como caractersticas las palabras cuyo valortest es superior a 1.96 (palabra
anormalmentefrecuente)oinferiora1.96(palabraanormalmentepocofrecuente).
Latabla4.1muestralaspalabrassobrerrepresentadasenlosdosgruposdehombresydos
gruposdemujeresmsextremos(siseexceptanlosdemenosde20aos,gruposmuypoco
concernidosporeltema,conrespuestasmuycortas).

4.2 Frases o respuestas caractersticas o modales


Alextraerlaspalabrascaractersticasdecadaparteogrupo,seignoratotalmenteelcontexto
delaspalabras,quesonelementosfundamentalesdeldiscurso.Pararemediaresteproblema,
sebuscaseleccionarlasrespuestas(ofrases)caractersticasdecadagrupo.
Unatcnica sencilla permitir situarlas palabras ensucontexto inmediato yremediar el
carcterfragmentarioydesarticuladodetodoestudiolimitadoalaspalabrasaisladas.Esta
tcnicaconsisteenlaseleccinautomticadelasrespuestasmodales(quepodrnserfrases
caractersticasodocumentosmodalesenotrostiposdeaplicaciones).Lasrespuestasmodales
no son respuestas artificiales que dan un resumen de las respuestas de cada grupo, sino
respuestasautnticas,seleccionadasenrazndesucarcterrepresentativoparaunacategora
dadadeindividuos.
Seofrecenaqudosmanerasdeseleccionardichasrespuestasmodales:unaprimeramanera
partedelaspalabrascaractersticas,lasegundaseapoyaenelclculodedistanciassegn
criteriosgeomtricossimples(distanciadechi2).
Seleccindelasrespuestasmodalesutilizandoloselementoscaractersticos
Una primera manera de seleccionar las respuestas caractersticas consiste en buscar las
respuestasquecontienen,enlamedidadeloposible,laspalabrasmscaractersticasdel
grupo.Paradichaseleccin,seutilizanlosvalorestestt(i,j)asociadosacadapalabraipara
cadapartej.

38

Tabla4.2:Listadelasrespuestasmodalesdelascuatrocategorasextremas
delaparticinedadxsexo
(Criterio1:palabrascaractersticas)

Respuestasmodales(4porcategora)
(valortestmedio)

Criterio1

Categora1
Hombremenorde21aos
1.591 esalgonecesarioentodoslosaspectos
1.482 comosecreequesesiente,comosecreequetieneelcuerpo,todoel
cuerpoengeneral
1.423 sentirtebienentodoslossentidos
1.104 algoquecuandosetienenoseaprecia,ycuandonosetieneentonces
se sabe lo que es, estado fsico en el cual no se tiene ninguna
enfermedad
Categora2
Hombremayorde50aos
1.301 estarbueno,nopadecerdenada
1.282 tenersaludyyonolatengo.estoybienenfermodetodo,ynotengo
salud.
1.283 estarbueno,tenersalud,noestarmalo
1.254 loprincipal,siestoybueno,tengoquedecirqueestoybueno,eslo
principal.
Categora5
Mujermenorde21aos
1.501 sentirsebienfsicamente
1.392 encuantounapersonaestsana,sesientebien
1.323 no padecer ninguna dolencia, encontrarse bien, en buenas
condiciones.
1.084 comoseencuentraunapersona,fsicaeinteriormenteentodoslos
conceptos.nos,enmentalidad,encuerpo,envitalidad,entodo.site
encuentrasbienentodoslossentidos,paramesoesunasaludbuena,
sino,nada.
Categora8
2.731
1.562
1.553
1.544

Mujermayorde50aos
loprincipal,loprincipal,msquenada
estarbien,queesloprincipal
lomejorquehay,estarbienynotenernada
loprincipal,estarelcuerpobuenoytienesganasdetrabajarydevivir
queesloprincipal

Seleccindelasrespuestascaractersticasutilizandoladistanciadechi2
Elsegundocriterioesesquemticamenteelsiguiente:latablalxicaenterarepresentalas
respuestasabiertas;setratadeunatablarectangularTconkfilasrespuestasyVcolumnas,
siendo V elnmerodepalabrasseleccionadasconelumbraldefrecuenciaescogido(enel
ejemplodelcorpusSalud,conunumbraliguala10,seconservanV=146palabrasempleadas
almenos10vecesentodoelcorpus).Unarespuestaesunafiladedichatablao,demanera

39

equivalente,unvectorcon146componentes.Siunarespuestacontiene25palabrasdistintas,
nicamente25componentesserndistintosde0.
Unaparteogrupoderespuestas(undiscursoartificial)esunconjuntodevectoresfila,yel
perfillxicomediodedichogruposeobtienecalculandolamediadelosvectoresfiladeeste
conjunto.Sielreagrupamientoseefectasegnlasmodalidadesdeunapreguntacerrada,
cuyasrespuestasvienencodificadasenunatabla Z,latablalxicaagregada C secalcula
mediantelafrmula:
C=T'Z
Portanto,sepuedencalcularunasdistanciasentrerespuestasogruposderespuestas.Las
respuestas(filasdeT)ylosgruposderespuestas(columnasdeC,ofilasdeC',transpuestade
C)vienenrepresentadosmediantevectoresenelespacioreferenciadoporlaspalabras,de
dimensinV.
Dichasdistanciasexpresanladesviacinentreelperfildeunarespuestayelperfilmediodel
grupoalcualpertenece.Seescogecomodistanciaentreperfilesladistanciadechi2,en
razndesuspropiedadesdistribucionalessubrayadasenelcaptulo35.
LadistanciaentreunpuntofilaideTyunpuntofilamdeC'vienedadaporlafrmula:
V

d (i,m)
2

j 1

t .. t ij c jm

t .j t i. c .m

conlasnotacionesusuales:
t..

designalasumaglobaldeloselementosdelatabla T igualalnmerototalde
ocurrenciasenelcorpus.

t.j

designalasumadeloselementosdelacolumna j de T,esdecir,elnmerode
ocurrenciasdelapalabraj.

t.j

designalasumadeloselementosdelafilaideTolongituddelarespuestai.

c.m designalasumadeloselementosdelafilamdeC'queeslalongituddelsubcorpus
correspondientealgrupom.
Paracadaparte,sepuedeordenarlasdistanciasdemaneracreciente,yasseleccionarlas
respuestas ms representativas enfuncindesusperfiles lxicos,es decir,las respuestas
correspondientesalasdistanciasmspequeas.

40

Tabla4.3Listadelasrespuestasmodalesdelascuatrocategorasextremas
delaparticinedadxsexo

(Criterio2:distanciadechi2())

Criterio2

Respuestasmodales(2porcategora)

(Distanciadechi2)

Categora1

Hombremenorde21aos

.6841

esalgoparaelserhumano,engeneral,paraqueunapersonaseencuentre
bien en todos los sentidos, fsicamente e interiormente. tambin es
importanteparaqueunopuedaseguirviviendo,yyocreoqueesunade
lascosasqueelserhumanolasconsideraprincipalesensuvida.

.7562

algoquecuandosetienenoseaprecia,ycuandonosetieneentoncesse
sabeloquees,estadofsicoenelcualnosetieneningunaenfermedad

Categora4

Hombremayorde50aos

.6861

loesencialparaelfuncionamientodelcuerpo,parapoderdesarrollarel
trabajo y otras actividades. si no tiene salud, no puede rendir como
normalmentedebederendirunapersona.yenqucosascreequeconsiste
lasalud?lasaludespodertrabajar,rendir,hacerotrascosasenque
bueno, lo principal para mantener una buena salud es tener un buen
puesto de trabajo y no tenerlas preocupaciones trasmiten las
enfermedades. y poder desarrollar ese trabajo sin calentamiento de
cabeza,ymantenerunafamilia,porejemplolamasonsietehijos.

.7082

lasaludestdeunaformaunpocoatrsenelsentidoquesivamosa
analizar pues tenemos cuarenta mil complicaciones. sidecimos quela
seguridadsocialmarchabien,esincierto.lasalud,laveoquecadada
est peor en todos los aspectos. de la salud, no se preocupan ni el
gobierno,nilosalcaldes,ninadie.hombre,silasporquerasquehayen
lascallesessuficiente,silossulfatosdelatierrasdelasplantas,queno
comemosningunacosanatural,hoynielpanvale,nilafrutavale,nilas
verduras valen. hastainclusoel aguanosepuedebeber,tenemos que
comprarla.

Categora5

Mujermenorde21aos

.7601

como se encuentra una persona, fsica e interiormente en todos los


aspectos. nos,enmentalidad, encuerpo, envitalidad, entodo. site
encuentrasbienentodoslossentidos,paramesoesunasaludbuena,
sinonada.

.7992

todolorelacionadoconlapersona,conelcuerpohumanoyanoslolo
queammetoca,sinotambinelexterior,sirespirocosasmalas,mi
cuerpotambinlotienemalo,lasaludesestarbienyencontrarsebien.

41

Tabla4.3:(continuacin)
Categora8

Mujermayorde50aos

.6901

eselmejortesoroquetieneelmundo,eslomejor,msqueeldinero,ms
quetodo.yonuncahebebido,nifumado,nisalgoporahymesiento
muyfelizymuyagusto.deberanellosconsiderarunpoquitosusalud
msquelamiran,porquenolamirannada.luego,lleganatener30aos,
quecreoqueesdemasiado,yyaestnenfermos,yesoschicosyano
tienenfuerzasparatrabajar,niparanada.sumenteesttonta,porqueest
alcoholizada,yestdestruidayestyoparam,notieneninteligencia
ninguna esos muchachos. deberan ser ellos ms formales y ms
responsablesasupersona.creoqueesdemasiadoyyaestnenfermosy
yanoson

.7352

yoconsideroquelasaludprimeroquetodoeslaausenciadedolor.y
despus,tambinmeheencontradoconundesanimocuandoheestado
enferma,elnotenerdoloresparameslomsimportanteylaclave,y
luegonoencontrarmedeprimida,notenerganasdehacernada.

42

5. CLASIFICACIN DE RESPUESTAS, PALABRAS O


TEXTOS

En ciertos casos, ser interesante construir tipologas de los individuos, a partir de sus
coordenadassobrelosejesfactoriales,eilustrardichastipologasbuscandoloquetienenen
comnlosindividuosdeunamismaclase,apartedesulenguaje.Lainformacinconocida
mediantelasrespuestascerradasjugarunapapelilustrativomuyimportante.
Delamismamanera,sepuedeobtenertipologasdepalabras.Latabla6ofrecealgunasde
las20clasesobtenidas,mediantelaclasificacindelaspalabrasapartirdesuscoordenadas
sobrelosprimeros25ejes.Elmtododeclasificacinempleadoesunmtodojerrquico
seguido,despusdecortarelrbol,poralgunasiteracionesdecentrosmviles.Unaspalabras
pueden encontrarse prximas por tres razones: aparecer frecuentemente en una misma
expresin,esdecir,porunaconstriccinfijadaporlalengua(Sesiente);corresponderauna
asociacin temtica propia del corpus (por ejemplo: Beber, Comer, Fumar); finalmente
sustituirseunasaotras(porejemplo,DeporteyEjercicio,olasexpresionesEstarsano,No
estarmalo,Noestarenfermocomoloindicalaclase20).

Tabla5.1:Algunasclasesdepalabras
Clase3
CuandoEncuentraLeSeSienteTiene
Clase8
EstoyPrincipalTengo
Clase12
BeberComerDeporteEjercicioFumarHacer
Poco

Clase13
BienestarFsicoPsquico
Clase20
Enfermedades Enfermo Estar Malo No Sano
Tener

43

6. ANALYSE FACTORIELLE MULTIPLE INTRA-TABLAS.


APPLICATION A LANALYSE SIMULTANEE DE
PLUSIEURS QUESTIONS OUVERTES .
5

6.1 Introduction
Unaspectoimportanteeneltratamientodedatosdeencuestaeselanlisissimultneode
variaspreguntas.ElACMAnlisisdeCorrespondenciasMltiplesofreceestaposibilidad
paralaspreguntascerradas.ElAFMAnlisisFactorialMltiple(EscofieryPags,1988)
permite adems tratar grupos de variables, cualitativas o cuantitativas, lo que facilita la
explotacinconjuntadevariostiposdevariables.
ElAFMCTAnlisisFactorialMltipleparaTablasdeContingencia(BcueyPags,2000)
extiendeestetipodeanlisisalastablasdecontingencia.Lasaplicacionessonmltiples:
anlisissimultneodevariaspreguntasabiertasodepreguntasabiertasypreguntascerradas.
Estemtodoaplicadoatablaslxicasreagrupadasfacilitaelestudioderespuestasabiertas
efectuadasenvariospasesendistintaslenguas.

6.2 Ejemplo
Elejemploprovienedeunaencuestasobrelas CondicionesdeVidayAspicacionesdelos
Franceses(Lebart,1987).Encadapasacin,unamuestrade2000francesesmayoresdeedad
esinterrogada.Seutilizaaqularealizacinde1988ytrespreguntasabiertas.
Lasdosprimeraspreguntasseformulabanas:
1. LenombrededivorcesaugmenteactuellementenFrance,votreavispourquoi?
2. Quellessontlasraisonsquipeuventfairehsiteruncoupleouunefemmeaumoment
davoirunenfant?
Latercerapreguntaseguaunapreguntacerradasobreloscambiosque,ensuopinin,podan
afectar sus condiciones de vida en los cincos prximos aos; para dicha pregunta, se
consideraban cinco niveles de respuesta: desde mejorarn mucho hastaempeorarn
mucho,Despusdeestapreguntascerrada,vena
3. Porqu?
Para obtener una explicacin de la eleccin
SedesignanestastrespreguntasmedianteporDivorcio,NiosyPorvenir

5EstecaptulocorrespondeauntrabajoefectuadoencolaboracinconJrmePags(INSA/ENSFA,Rennes)

ypublicadoenActesdesJournesInternationalesdAnalyseStatistiquedeDonnesTextuelles(Rajman,ed.).
EPFL.Lausanne.

44

Las respuestassereagrupansegnlas9modalidades delavariable Edad Titulacin (3


nivelesdeedad:menorde30aos,de30a50aos,msde50aos;3nivelesdetitulacin:
estudioselementales, estudiossecundarios, estudiossuperiores).Seconservanlaspalabras
pronunciadas al menos 15 veces (para cada pregunta): 159 palabras para Divorcio, 126
palabras para Nios y 154 palabras para la pregunta Porvenir. Las tablas categoras
palabras seconstruyenyyuxtaponen;seformaaslatablamltiplequesedebeanalizar.
(Figure6.1).
Tabla Divorcio:
159 palabras

Tabla Nios
126 palabras

Tabla Porvenir:
154 palabras

9 categoras
<30
Est. Elem 30-50
t.
>50
Est. Sec.
t.
Est. Sup.
t.

<30
30-50
>50
<30
30-50
>50

fij1, frecuencia de la
j-esima palabra en
las respuestas de la iesima categora a la
pregunta Divorcio

Figure6.1.Yuxtaposicindelastrestablaslxicasagregadascorrespondientesa
lastrespreguntas

6.3 Breve presentacin del Anlisis Factorial Multiple AFM


El Anlisis Factorial Mltiple (AFM) analiza datos en los cuales un nico conjunto de
individuos est descrito por T grupos de variables, cualitativas o cuantitativas. Este mtodo
fue propuesto por Escofier & Pags (Escofier & Pags 1988, 1994, 1998).
El principio del AFM es un anlisis factorial aplicado al conjunto de los T grupos de variables
(anlisis global) pero de tal manera que los distintos grupos contribuyan de manera equilibrada
a la construccin del primer eje.
Para obtener este resultado, la mayor inercia axial de cada grupo de variables se normaliza a 1
dividiendo por 1t el peso de las columnas que pertenecen al grupo t, t=1.,,,T, (1t es el primer
valor propio que se obtiene al realizar el anlisis factorial separado el grupo t). Esta
reponderacin presenta varias propiedades. Por ejemplo:

Laestructurainternadelastablasnosemodifica

Unatabladegrandimensininfluenciamsejesdelanlisisglobalqueunatabladebaja
dimensin

Exceptocasosmuyparticulares,elprimerejedelanlisisglobalnopuedesergenerado
porunanicatabla

45

Elprimervalorpropiodelanlisisglobaltieneunvalorcomprendido1yT:esiguala1si
todoslosparesdevariablespertenecientesadiferentesgrupossonnocorrelacionadas,es
igualTsitodoslosgrupostienenelmismoprimerfactor.

El AFM proporciona los resultados clsicos de un ACP: coordenadas, contribuciones y


cosenos cuadrados de los individuos, coeficientes de correlacin entre los factores y las
variables continuas. Pero, adems del anlisis global, el AFM ofrece varias herramientas para
comparar los grupos de variables. En particular:

El AFM es un anlisis multicannico particular: pone de manifiesto los ejes de dispersin


comunes a todos los grupos y los especficos a algunos de elles;

Propociona una representacin superpuesta de las T nubes de individuos, denominados


nubes parciales, correspondientes a los anlisis separados.

Dichas herramientas, as como las ayudas a la interpretacin que el AFM proporciona, hace de
este mtodo una herramienta pertinenete para comparar varios grupos de variables, analizar
sus relaciones y, tambin, visualizar las diferentes descripciones obtenidas mediante el anlisis
global y mediante los anlisis separados.

6.4 Anlisis Factorial Mltiple para Tablas de Contingencia AFMCT


Unametodologaparaelanlisissimultneodeunconjuntodetablasdecontingenciafue
propuestaporBcueyPags(1999).IntegralosprincipiosdelanlisisIntratablas(Escofiery
Drouet1983),yaseliminalasdiferenciasentreslosmrgenesfila,yelAFM(Escofiery
Pags 1998), lo que equilibra la influencia de las diferentes tablas y proporciona
representacionesgrficascomplemmentarias.
Notaciones.fijt:frecuenciaasociadaalafilaiylacolumnajdelatablat;unndicesustituido
porunpuntoindicalasomacinsobreestendice.
1

margen

Jt

margen

fijt

fi..

f ijt

fi.t

I
margen

f .jt

f .jt

f ..t

Figura6.2.Latabladecontingenciamltipleysusmargenes.Notaciones
Primeraetapa:anlisisseparados.AFCdecadatablaparaobtenerunaprimeravisindelos
datosyexplorarlaexistenciadeestructurascomunesalasdiferentestablas.
Segundaetapa:anlisis pseudoseparadas.Consisten el elAFCdecada tabla, perocon
margenesfilaimpuestos{fi..,i=1,,I}ylosmargenescolumna,{f.jt,j=1,J}.Elprimervalor
propio de cada anlisis, denotado 1t se utiliza en la tercera etapa para reponderar las
columnas.
DichaAFCdelatablatesequivalentealACPdelatabladetrminogeneral:
46

f
f ijt i.t f . jt
f ..t
f i.. f . jt

(1)

conlospesos(fi..) paralasfilasylospesos(f.jt) paralascolumnas.Lasfilastienenasel


mismoperoentodoslosanlisis,elpesomediocalculadosobreelconjuntodelastablas.
Tereceraetapa:anlisisglobal.ConsisteenunAFMadaptadoalastablasdecontingencia.
SerealizaunACPnoestandarizadodelastablasyuxtapuestas,detrminogeneraldadopor
(1),dandoelpesofi..alafilaiyelpesof.jt/1talacolumna(j,t).Estaetapaofreceresultados:
AnlogosalosdelAFCaplicadoatablasyuxtapuestas(principalmenteunarepresentacin
globaldelasfilascategoraydelascolumnaspalabra);
Especficasdelastablasmltiples(principalmenteunarepresentacinsuperpuestadelas
estructuras inducidas por cada una de las preguntas estructuras parciales y la
representacindelosfactoresdelosanlisispseudoseparados).
Lalecturadelosresultadosvienefacilitadaporlasnumerosasayudasalainterpretacindel
AFM.

6.5 Rsultats
Anlisispseudoseparados
Para efectuar los anlisis pseudoseparados, se artribuey a cada categora el peso medio
calculado sobre el conjunto de las preguntas (proporcional a la longitud del subcorpus
formadoparalasrespuestasdelacategora,juntadolasdiversaspreguntas)
Enesteejemplo,lospoesosdelascatgegorasparacadapreguntaylospesosmeidossonmuy
cercanos.Ladeformacindelaestructuradelasfilasintroducidaporlamodificacindelos
pesosesdedspreciable.
Losvalorespropiosobtenidosparalastrespreguntasson:
11=0.0365;12=0.0429;13=0.0836.
La tercer tabla (pregunta Porvenir) presenta una estructura ms fuerte que las otras; en
ausencia de reponderacin de las columnas, dicha tabla habra tenido una influencia
predominantesobreladeterminacindelosejes.
Losfactoresdelanlisisglobal
EL AFMCT proporciona dos valores propios dominantes: 1= 2.59 y 2=1.69
(respectivamente,28.13%y18.40%delainerciatotal).Latabla6.3.amuestraquecadauno
delostresgruposdepalabrascolumna,correspondientesalastrespreguntas,proporciona
unaaportacinimportanteyequilibradaalainerciadelprimerfactor.
LaspalabrascolumnaDivorcioyNioscontribuyenclaramentemsalainerciadelsegundo
facrorquelaspalabrascolumnaPorvenir.
Lascorrelacionesentreelprimerfactorglobalylasproyeccionesdelastresnubescategora,
definidasporcadapreguntas,sonelevadas(tabla6.3.b).relativamentealsegundofactor,la

47

correlacinesfuerteconlasproyeccionesdelasdosprimerasnubesparciales(Divorcio y
Nios),menorperonoobstanteelevadaconlaterceranubeparcial(Porvenir).
Sepuedeconcluirquelosdosprimerosfactoressoncomunesalastresnubespregunta.
Elprimerfactordelanlisisglobaly,enmenormedida,elsegundo,constituyendirecciones
importantesdeinerciaparacadaunadelaspreguntas,particularmenteparalapreguntaNios,
noobstantenoconfundidaconlasprincipalesdireccionesdedispersindelastresnubes.
LaaportacinmenordelapreguntaPorvenirprovienedelamenordimensionalidaddedicha
tablaquepresentaunsolovalorpropiodominante.

Tabla6.3Losfactoresdelanlisisglobal,direccionesdedispersindelasnubes
parciales

Inertietotale

F1
2.59

F2
1.70

Divorcio
Nios
Porvenir

0.86
0.92
0.81

0.64
0.61
0.45

Tabla6.3.a
Descomposicindelainerciadelosdos
primeros factores del AFM segn las
trespreguntas

F1

F2

Divorcio

0.97

0.95

Nios

0.98

0.97

Porvenir

0.93

0.81

Tabla.6.3.b
Correlacionesentrelaproyeccindela
nubeglobalyladecadaunadelas
nubesparciales,asociadasacadauna
delaspreguntas

Tomadasencuentademanerasimultanea,lastrespreguntasconfierenalascategorasuna
estructura regular (figura 6.3.e), compromiso entre las representaciones de las AFC
separadas.
ElclculodelascorrelacionesentrelostresprimerosfactoresnormalizadosdelostresAFC
pseudoseparadosylosdosprimerosfactoresdelAFMCTpermiteestudiarlasrelaciones
entrelosfactoresdeestoscuatroanlisis.Losplanosgeneradosporlosdosprimerosfactores
delapreguntaDivorcio,parlosdosprimerosfactoresdelapreguntaNiosyporlosprimero
ytercerfactoresdelapreguntaPorvenirsonmuyprximosdelplanogeneradoporlosdos
primerosfactoresdelAFM.SepuedetambinnotarqueelsegundofactordelAFCdela
preguntaPorveniresmuycorrelacionadoconeltercerfactordelanlisisglobal.
Lacalidadderepresentacindelastresnubesdepalabrascolumnasobreelplanoprincipal
delAFMesmuyprximaalacalidadderepresentacindeestasmismasnubessobrelos
planosprincipalesseparados:43.4%ede4lugarde5.4%paraDivorcio,44.9%enlugarde
46.6% para Nios y 53.6% en lugar de 57.6% para Porvenir. En este ltimo caso, es
interesantenotarquelaperdidaencalidadderepresentacinsobreelprimerejeesimportante
(34.6%enlugarde42.7%)peroquedichaperdidavienecompensadaporunagananciassobre
elsecundoeje(19%enlugarde14.86%).

48

D-Sec<30

2=0.0212
16.84% D-Elem<30

2=0.0243
16.75%

Je
D-Elem 30-50

D-Sup 30-50
D-Sup<30

E-Sup<30

E-Sec<30

E-Elem<30

E-Elem 30-50

1=0.0439
30.24%

E-Sec 30-50

1=0.0360
28.69%

E-Elem>50
D-Elem>50

E-Sup 30-50

Jeunes

D-Sec 30-50
E-Sec>50
D-Sup>50

Jeunes

6.3.a Plano (1,2) del


2=0.0298
14.95%

lAFC de
Divorcio

6.3.b Plano (1,2) del AFC de

A-Sec 30-50

A-Sup>50
A-Elem>50

A-Elem 30-50

1=0.0833
41.81%

A-Sup 30-50

A-Elem>50

A-Elem<30

A-Sup<30
A-Sec 30-50
A-Sec>50
A-Sup 30-50

A-Sup<30

6.3.c Plano (1,2) del AFC de Porvenir

6. 3.d Plano (1,3) del AFC de Porvenir

Elem<30

LEYENDA:
D: Divorcio
E: Nios
A: Porvenir

D-Je
Elem 30-50
Sec<30
Elem>50

1=0.0833
41.81%

Je

Je

E-Jeunes
D-Jeunes

A-Sec<30

A-Sup>50

A-Sec<30

2=1.695
18.40%

Nios

A-Elem<30

3=0.0245
12.31%

A-Elem 30-50

A-Sec>50

Je

E-Sup>50

D-Sec>50

Sec 30-50

1=2.591
28.13%

Elem: Estudios elementales


Sec: Est. secundarios
Sup: Estudios superiores

A-Je
Sup<30
Sup 30-50

Sec>50

E-Je

Sup>50

6.3.e AFMCT de las 3 tablas

yuxtapuestas

Figura6.3Anlisisglobalyanlisisseparadosdelastrespreguntas

49

Representacinsuperpuestadelasnubesparciales
Afindecompararlasestructurasdelascategorasobservadassegnlastrespreguntas,se
proyectansucesivamente,comofilassuplementarias,elconjuntodelasfilasdelastablasYt,
completadasporceros.Seobtieneasunarepresentacinquesuperponeladescripcinglobal
delascategorasylasinducidasporcadaYt(sehablaentoncesdecategorasparciales).La
figura6.4reproduceunextractodeestarepresentacin:sepuedenobservarlastrayectoriasde
lascategorasestudioselementalesyestudiossuperiorestalcomoestndescritasatravssus
respuestasalaspreguntasDivorcioyPorvenir.
D Elem <30

Etudes lmentaires

A- Elem <30
Jeunes

D Elem 30-50
A- Elem 30-50

A- Sup <30

D Elem >50

A- Sup 30-50
A- Elem >50

LEYENDA
D: Divorcio
E: Nios
A: Porrvenir

Ags
A- Sup >50
D Sup <30
D Sup 30-50
D Sup >50

Etudes suprieures

Figure6.4.Extractodelarepresentacinsuperpuestadelasnubesparciales
Trayectorias de las categoras de edad correspondientes a los estudios
elementales y superiores segn las preguntas Porvenir (A) y Divorcio (D).
Enestarepresentacin,sevuelvenaencontrarlosgrandesrasgosdelasrepresentaciones
proporcionadasporlosAFCseparados.As:

Enlosmsde50aos,lostituladoselementalesysuperioressediferencianpocosegn
susrespuestasalapreguntaPorvenir;dichodeotramanera,lostituladossuperioresde
msde50aosempleanunvocabulariomenosintelectualquesuniveldeestudiosdeja
presagiarcuandocontestanalapreguntaPorvenir.

Entrelos tituladossuperiores,los menores

de30aos ylos 3050aos sediferencian


pococuandocontestanalapreguntaDivorcio;estasdoscategorastienenunvocabulario
muymarcadoporelniveldeestudioscuandocontestanalapreguntaDivorcioy,paralos
3050aos,msjovenqueloquelescorresponde.

Msgeneralmente,estarepresentacinponedemanifiestounmayorefectodelaedad
sobrelasrespuestasalapregunta Porvenir yunmayorefectodelatitulacinparala
preguntaDivorcio.

50

Representacinsuperpuestadelaspalabrasydelascategoras
La representacin de las palabras permite estudiar las proximidades entre las palabras
utilizadas para contestar a una misma preguntas o a pregutnas distintas. Se puede superponer
la representacin de las palabras y las de las categoras : existe en efecto entre estas dos
representaciones reglas de transicin (Bcue y Pags, 1999).
Enparticular,esinteresanteestudiarcmolasmismaspalabrassononoescogidasparlas
mismascategorassegnlapregunta.
As, Jeunes es empleado en las preguntas Divorcio y Nios por las mismas categoras
(mayoresde30aos,deformacinelementalosecundaria)mientrasqueelempleode Je
presenta una utilizacin diferente segn la pregunta: corresponde a las categoras poco
tituladasparacontestaralapreguntaDivorcio(frecuentementeparaindicarunaausenciade
opinincon jenesaispas);esutilizadoporlosentrevistados mayoresde50aosenla
preguntaNios(demaneradominanteparaexpresarjenesaispas);finalmente,esempleado
portodaslascategorasperoligeramentemsporlosentrevistadosmenoresde30aosde
niveldeestudiossecundarioosuperior,paradaruntonomspersonalalarespuestaala
preguntaPorvenir(jenemattendspasvoirmonsalaireaugment,jevaispeuttrequitter
montravail,parcequejesuisambitieux,jesuisvieux,etc.).

6. 6 Anlisis simultneo de preguntas abiertas y cerradas


Se pueden introducir tablas de contingencia y tablas de variables indicadoras
(correspondientesalasdistintasmodalidadesdevariablesnominales)enunmismoanlisis:
sedebeconsiderarlastablasdecontingenciacomoenelanlisisintratablas(esdecir,el
trminogeneraldelatablaeslindicadoen(1))ylastablasdevariablesindicadorascomoen
anlisisdecorrespondenciasmltiple.SeutilizalarependeracinusualenelAFM:lainercia
mxima de cada tabla se estandariza a 1 dividiendo por 1tel peso de las columnas
pertenecientesalatablat(siendo1telprimervalorpropiodelanlisisfactorialAFCoACM
aplicadoalatablat).
Ejemplo:encuestasobrelosniosylalectura
Paraestudiarlasprcticasdelecturadelosnios,seefectuunestudioenunaciudaddelas
afuerasdeBarcelona(Rajadell,1990).895escolaresdequintogrado(alrededorde1011
aos)contestaronauncuestionariocerradosobresusactitudeshacialalecturay,adems,
complementaronlasdossiguientesaserciones:
Paramleeres
Creoqueleeresimportanteporque
Laactitudhacialalectura(grupo1)ylasdospreguntasabiertas(grupos2y3)sonlostres
grupos activos analizados mediante AFMCT. Informacin adicional se utiliza como
informacinsuplementaria(rendimientoescolar,informacinsobrelospadres,etc.)
Cuandoseanalizanlostresgruposporseparados,losvalorespropiosson,respectivamente,
0.22(grupodepreguntascerradas),0.51(grupodelaprimerapreguntaabierta)y0.49(grupo
delasecundapreguntaabierta);estosvaloresilustranlanecesidaddeequilibrarlainfluencia
delostresgrupos.

51

Lafigura6.5muestraunextractodelarepresentacindelascolumnassobreelprimeroplano
factorial..Elprimereje,alcuallostresgruposcontribuyencon,respectivamente46%,31%
y23%delainerciaesunejedeniveldelectura:alaizquierdasobreelprimereje,las
palabras ms extremas (las palabras subrayadas corresponden a la segunda pregunta)
muestranlaatraccinhacialalecturadiviertes,fantasa,etc.Lascategorasdelaspreguntas
cerradasseencuentranenunasposicionesmscentralesquelaspalabras,porquelosnios
concaractersticasparecidasutilizanunvocabulariodistinto.Elsecundoeje,principalmente
construidoporlasecundapreguntaabierta,oponeunavisinescolardelalecturaalplacerde
lalectura.
Lascorrelacionesentrelosprimerosejesfactorialesdelosanlisisseparadossonpequeas:
dichos anlisiss no son facilmente comparables. Pero la contribucin relativamente
equilibradadecadagrupoalprimerejedelAFMCTmuestraqueesteejecorrespondeauna
direccindedispersincomunaalostresgrupos(yestadireccinnosepodraencontrar
mediantelosanlisisseparados).

entretenido

Visin escolar:
Me gusta, sobre
todo aprendo

2=1.2 F2 importantes
1.7%
aprende
interesante aprendo
divertirme divertido entretenimiento

La lectura es un
rollo

rollo

aburrido

PADRE UNIVERSITARIO

. aprendo
CALIFICACIN GLOBAL EXCELENTE.

Leo mucho ME GUSTA LA ESCUELA

Me gusta leer: es unadiviertes


..Leo bastante
.
aventura, llena de
fantasia Leo muy facilmente Leo facilmente
fantasa, imaginacin
imaginacin
aventuras
La lectura es
saber
importante porque
imaginacin
aventura
me gusta
ensea mundo
divertida
entrar

Leo muy poco


Tengo grandes dificultades
para leer
aburrimiento

sino

F1
1=1.4
2.0%

Figura 6.5 : Primer plano del AFMCT: extracto de la proyeccin de las columnas
El AFM representa tambin cada individuo, o categora de individuos, descrito porcada
grupo.Porejemplo(figura6.6),losestudiantesconunacalificacinexcelentesongrandes
lectoressislolaspreguntascerradassetienenencuenta,mientrasseencuentranenuna
posicinmscentraldesdeelpuntodevistadelasrespuestasabiertas:dichosestudiantesson
heterogneos segn este enfoque: entusiastas o no. La categora Padre universitario se
encuentra en una posicin extrema sobre el secundo eje cuando vienen descritos por la
secundapreguntaabierta(grupo3):lamayorpartedelosniosdeestecategoraestde
acuerdoconlaimportanciadelalecturacomomedioparaaprender.
Enesteejemplo,senotaunatendenciaadeclararunarespuestascorrecta(adeclararsegran
lector),posiblementeacausadelmarcoescolardelestudio.Noobstante,enlasrespuestas
abiertas,esmsdifcilescondersetrasexpresionesconvencionales.

52

Leyenda
PADRE
UNIVERSITARIO
NOTA GLOBAL
EXCELENTE

1= preguntas cerradas
2=para m, leer es...
3=leer es importante
porque...

3
1

Categora global
Categora parcial

ME GUSTA LA ESCUELA

Figura 6.6 : Global and partial representation of some categories

6.7 Tratamiento de preguntas abiertas en distintas lenguas


ElAFMCTpermitetambinanalizarpreguntasabiertasefectuadasadiferentesmuestrasen
distintas lenguas. Tiene que existir, porsupuesto, categoras comparables enlas distintas
muestras,porejemplo,lasmodalidadesdelavariableEdadSexo.

53

REFERENCIAS

ABDESSEMED, L. ESCOFIER, B. (1996). Analyse factorielle multiple de tablas de


frquences;comparaisonaveclanalysecanoniquedescorrespondances,Journaldela
SocitdeStatistiquedeParis,137,n2,318.
ALVAREZ R., BECUE M., LANERO J.J., (2000). Le vocabulaire gouvernemental espagnol
(1979-1996), Mots, 62, pp. 31-47.
BECUE M. (1997). Visualization of Open Questions: A French Study of PupilsAttitudes to
Mathematics in: Visualization of Categorical Data, Greenacre and Blasius (Eds.),
Academic Press, San Diego, USA, pp. 151-158.
BECUE M. (1997). Etude comparative de rponses ouvertes diffrentes questions in:
NGUS-1997, Analyses Multidimensionnelles des Donnes, Fernndez Aguirre K.,
Morineau A. (Eds.), Cisia, Pars, pp. 65-72.
BECUE M. (1998). Three-way textual data analysis. in: Advances in Data Science and
Classification, Springer Series of Studies in Classification, Data Analysis and
Knowledge Organization, Rizzi A., Vichi M., Bock H.H. (Eds), Springer Verlag, BerlinHeidelberg, pp. 457-464.
BECUE M. (1999). Anlisis estadstico de textos in: Filologa e informtica: nuevas
tecnologas en los estudios filolgicos, J.M. Blecua, G. Claveria, C. Sanchez, J.
Torruella (Eds.), Edicions Milenio, Lleida. Espaa.
BECUE M., LEBART L. (2000). Analyse statistique des rponses ouvertes. Application des
enqutes auprs de lycens in: Analyse des correspondances y techniques connexes,
Springer Verlag, Collection de Mathmatiques Appliques, J. Moreau, P.A. Doudin, P.
Cazes (Eds), pp. 59-83. ISBN 3-540-66346-0.
BECUE M., LEBART L., N. RAJADELL N. (1992). El anlisis estadstico de datos textuales.
La lectura segn los escolares de enseanza primaria, Anuario de psicologa, n55, pp.
7-22.
BCUE,M.,PAGSJ.(1999):IntraSetsMultipleFactorAnalysis.Applicationtotextual
data,in:J.Jansenetal.(Eds):Proc.ofthe9thInternationalSymposiumonApplied
StochasticModelsandDataAnalysis,UniversidadedeLisboa,5160.
BCUE, M., PAGS J. (2001): Comparison of openended and closed questions using
MultipleFactorialAnalysisforContingencyTables,in:G.Govaert,J.JansenandN.
Limnios (Eds): Proc. of the Xth International Symposium on Applied Stochastic
ModelsandDataAnalysis,UniversitdeTechnologiedeCompigne,
BENZCRI, J.P. (1983). Analyse de linertie intraclasse par lanalyse dun tabla de
contingence.LasCahiersdelAnalysedesDonnes,VIII,3,351358.
BOLASCO S. (1992), Sur diffrentes stratgies dans une analyse des formes textuelles : Une
exprimentation partir de donnes d'enqute, in Actes de las Jornades Internacionals

54

d'Anlisi de Dades Textuals, M. Bcue, N. Rajadell y L. Lebart (Eds), Servei de


Publicacions de la UPC, Barcelona.
ESCOFIER, B., DROUET, D. (1983). Analyse des diffrences entre plusieurs tablas de
frquence,LasCahiersdelAnalysedesDonnes,VIII,4491499.
ESCOFIER,B.,PAGS,J.(19881998).Analysesfactoriellessimplesymultiples;objectifs,
mthodesyinterprtation,Dunod,Paris.
ESCOFIER, B., PAGS, J. (1994). Multiple Factor Analysis: AFMULT package,
Computationalstatistics&dataanalysis,18,121140.
LEBART L., MORINEAU A., PIRON
Multidimensionnelle, Dunod, Pars.

M.

(1995).

Statistique

Exploratoire

LEBART L., SALEM A., BECUE M. (2000). Anlisis estadstico de textos. Milenio, Lrida,
Espaa, con prlogo de Daniel Pea.
LEBART,L.,SALEM,A.,BERRY,E.(1998).Exploringtextualdata,Kluwer,Dorfrecht.

55

You might also like