You are on page 1of 4

PESQUISA NA WEB PROFUNDA

Cmo buscar informacin en la web profunda



Por Sandra Crucianelli
www.facebook.com/sandracrucianelli
www.facebook.com/periodismodedatos
@spcrucianelli
En tiempos en los que el periodismo de datos contribuye a mejorar la calidad de los
contenidos periodsticos, la captura de informacin es el primer eslabn de una sucesin
de pasos entre los que se incluyen el procesamiento, la depuracin, la contextualizacin y
la visualizacin.
No solamente es suficiente ver datos a travs de una pantalla, sino tener la capacidad
para capturarlos, lo cual se convierte en pieza clave de esta estrategia.
Hay muchas formas de obtener datos: el rastreo de la web, conocido como searching, es
una de ellas y probablemente la ms utilizada.
Sin embargo, hay una importante cantidad de informacin que puede ser recuperada por
los mecanismos comunes de bsqueda.
El espacio de la Red donde se alojan esos contenidos es conocido como web
profunda o deep web, que es donde se incluye informacin que no es indexada por los
motores de bsqueda como Google, Bing, etc. Por el contrario, en la web superficial es
donde podemos encontrar los resultados ms comunes que devuelven los buscadores,
como pginas de sitios comerciales o aquellos con alto trfico.
Vale mencionar que tambin existe otra zona definida por algunos autores como
la Internet oscura, impenetrable por su naturaleza, como los servidores protegidos por
diferentes razones (seguridad nacional o militar), cuyo contenido queda aislado de nuestro
campo de bsqueda.
Sin embargo, la web profunda es ms accesible de lo que imaginamos.
En ella podemos encontrar documentos que no han sido almacenados bajo estructura
HTML, como archivos para abrir o descargar en diferentes formatos: PDF, Excel, PPT
(Power Point), incluso Flash y las extensiones que utiliza Google Earth.
Pero para esto se requiere paciencia y un elemento clave: sistematicidad.
Un ejemplo de cmo el rastreo sistemtico profundo de la web puede ayudar a reportar
hechos desconocidos al pblico puede leerse en este artculo publicado en el sitio de
noticiasSolo Local relacionado con el estudio del impacto ambiental del dragado martimo,
necesario para la instalacin de una planta regasificadora en cercanas a la ciudad de
Baha Blanca, Argentina.
La publicacin permiti reportar el acceso a los documentos que los ciudadanos venan
exigiendo durante semanas y demostr que la municipalidad de esa ciudad demor 34
das en subir esos contenidos a su sitio web, hasta entonces desconocidos.
Una bsqueda simple del tipo: "estudio de impacto ambiental + dragado + YPF" no
arrojaba ningn resultado.
Pero otra estrategia s dio en el blanco: para probar lo que se afirma en el artculo, hubo
que apelar a capturas de pantalla, previa bsqueda avanzada de Google, restringiendo el
formato (en ese caso PDF), acotando la fecha a los ltimos siete das y buscando slo
dentro del dominio con la extensin .gov.ar.
Tips para periodistas:
o Si deseas explorar un sitio web comienza con un mtodo sencillo: explora el mapa
del sitio, una prctica no comn que ser como una brjula capaz de orientar la
bsqueda.
o Es recomendable aprender a usar la bsqueda avanzada de todos los buscadores
como la de Google: http://www.google.com/advanced_search.
1. Para ello: utiliza el posicionamiento geogrfico para obtener informacin
desconocida de ltimo momento. Ingresa el nombre de la ciudad en la que vives o
sobre la que deseas obtener informacin en cualquiera de los dos primeros
cuadros de texto. Si se trata de la ciudad de Bogot, por ejemplo, debers usar el
primer casillero; si se trata de Buenos Aires, usars el segundo, ya que por tratarse
de un nombre compuesto es necesario que los resultados incluyan la frase exacta.
2. Utiliza Herramientas de Bsqueda: Limita los resultados a la lnea temporal ms
reciente: por ejemplo, ltima semana o ltimas 24 horas. Del mismo modo,
conforme el tipo de informacin que deses encontrar, debes decidir el formato,
por ejemplo, Excel, donde tendrs mayor posibilidad de encontrar tablas con
estadsticas o evolucin de gastos.
3. Utiliza la restriccin de dominios para encontrar informacin en sitios
gubernamentales, aadiendo el nombre del sitio, sin las tres "W" o apelando
solamente a la extensin del dominio, por ejemplo .gov.ar para sitios de
Argentina.
4. Aunque puedes hacerlo desde la bsqueda avanzada, tambin es posible usar la
herramienta tiempo en la columna izquierda de Google, para buscar enlaces de
ltimo momento, por ejemplo, los publicados en la ltima hora.
5. Debes conocer la ubicacin del acceso a las bsquedas avanzadas de otros
buscadores, como Bing.
Extraccin de Datos
Saber encontrar datos se est convirtiendo en una habilidad cada vez ms valiosa en el
periodismo.
Ya mencionamos cmo buscar informacin en la web profunda a travs de bsquedas
avanzadas. Ahora explicar algunas tcnicas y herramientas para la bsqueda y
extraccin de datos.
Extraccin de datos
El ejemplo ms sencillo de la extraccin de datos es el de obtener el contenido de una
tabla alojada en un PDF, cuando lo que se requiere para procesar los datos es disponerlos
en una hoja de clculo de Excel. Para lograr ese objetivo, existen recursos sofisticados y
software de descarga pagos, pero tambin hay una larga lista de herramientas online y sin
costo alguno.
1. A veces copiar y pegar funciona, pero otras veces no y hay que recurrir a
conversores como Zamzar.com, que es gratuito y no requiere suscripcin.
2. No olvides que las tablas y los grficos pueden estar subidos a la web en formato
de imagen, por lo que siempre conviene buscar en plataformas como Flickr o
Google Imgenes. En estos casos se recurre a programas de reconocimiento
ptico. Uno sencillo y sin necesidad de descarga es Free Ocr.
Otros servicios de Google:
1. Explora Google Public Data.
2. Del mismo modo, Google Books y Google Blogs podran contener informacin de
inters, ya que permite filtrar los resultados por fecha. Un ejemplo es esta crnica
publicada en Solo Local basada en una bsqueda en Google Books, teniendo en
cuenta el posicionamiento geogrfico y la seleccin de la lnea temporal: en 2009
se buscaron libros publicados en los ltimos tres aos.
Puedes probar recursos de la web semntica, como Wolfram|Alpha.
Puedes buscar en repositorios acadmicos, como Scholar, Scirus o Scielo.
Usa la versin gratis de Copernic. Es una potente herramienta de bsqueda que permite
definir bsquedas por categoras tales como documentos del gobierno estadounidense
(Advertencia: funciona slo para Windows).
Busca datos de tu pas fuera de tu pas. Por ejemplo, la base de datos de importaciones
del censo de Estados Unidos contiene el detalle actualizado de las importaciones a
EE.UU. (o lo que es equivalente a las exportaciones de cada pas a EE.UU.). Como la ruta
para llegar a la lista de pases no es sencilla de localizar a simple vista, les comparto el
enlace de acceso. Lo bueno de este caso es que por cada pas aparece una serie
completa, del 2002 al 2011, lo cual permite estudiar las variables a lo largo del tiempo e
incluso comparar el comportamiento de algunas de ellas con el que han tenido en otros
pases de la regin.
Rescata datos que pudieron haber sido eliminados de la web pero quedaron en la versin
cach o como capturas de pantalla. Usa Internet Archive a travs de su mquina del
tiempo (the "Wayback Machine).
Recorta dominios para llegar al index o al directorio madre de un sitio, cuando esto sea
posible: Por ejemplo este
link:http://www.justiciachaco.gov.ar/listas/C_A_Civ_y_Com_Sala_II_Pro/Cam_Civ_Sala_II_
Pro_2009-11-13.Txt puede convertirse en este otro: http://www.justiciachaco.gov.ar/listas/.
Solo se elimin desde la derecha hacia la izquierda la porcin del URL entre las dos
ltimas barras invertidas.
Localiza bases de datos de inters usando Incywincy, un metabuscador que devuelve
resultados de la Deep web. Puedes ver un ejemplo de lista de bases de datos aqu.
Monitorea las redes sociales (documentos compartidos, comentarios) usando
herramientas como SocialMention, 48ers o buscadores en tiempo real de Twitter
como Twitterfall donde puedes seleccionar una bsqueda geo-referenciada o bien buscar
por nombre propio (estas dos opciones son ms especficas) o por tema (menos
especfica). Los mensajes suelen contener links con informacin que no siempre es
indexada por los motores de bsqueda.
Una perla en el fondo del mar
Lo ms fascinante del tema que nos ocupa es que, pese a las estimaciones, nadie conoce
con exactitud la dimensin real de la web profunda. Sera imposible cuantificarla porque se
trata de un espacio dinmico, en variacin permanente. Esto nos abre un terreno
inexplorado, una tierra virgen, al que con paciencia y perseverancia podemos llegar como
conquistadores de nuevos mundos.

You might also like