Por Sandra Crucianelli www.facebook.com/sandracrucianelli www.facebook.com/periodismodedatos @spcrucianelli En tiempos en los que el periodismo de datos contribuye a mejorar la calidad de los contenidos periodsticos, la captura de informacin es el primer eslabn de una sucesin de pasos entre los que se incluyen el procesamiento, la depuracin, la contextualizacin y la visualizacin. No solamente es suficiente ver datos a travs de una pantalla, sino tener la capacidad para capturarlos, lo cual se convierte en pieza clave de esta estrategia. Hay muchas formas de obtener datos: el rastreo de la web, conocido como searching, es una de ellas y probablemente la ms utilizada. Sin embargo, hay una importante cantidad de informacin que puede ser recuperada por los mecanismos comunes de bsqueda. El espacio de la Red donde se alojan esos contenidos es conocido como web profunda o deep web, que es donde se incluye informacin que no es indexada por los motores de bsqueda como Google, Bing, etc. Por el contrario, en la web superficial es donde podemos encontrar los resultados ms comunes que devuelven los buscadores, como pginas de sitios comerciales o aquellos con alto trfico. Vale mencionar que tambin existe otra zona definida por algunos autores como la Internet oscura, impenetrable por su naturaleza, como los servidores protegidos por diferentes razones (seguridad nacional o militar), cuyo contenido queda aislado de nuestro campo de bsqueda. Sin embargo, la web profunda es ms accesible de lo que imaginamos. En ella podemos encontrar documentos que no han sido almacenados bajo estructura HTML, como archivos para abrir o descargar en diferentes formatos: PDF, Excel, PPT (Power Point), incluso Flash y las extensiones que utiliza Google Earth. Pero para esto se requiere paciencia y un elemento clave: sistematicidad. Un ejemplo de cmo el rastreo sistemtico profundo de la web puede ayudar a reportar hechos desconocidos al pblico puede leerse en este artculo publicado en el sitio de noticiasSolo Local relacionado con el estudio del impacto ambiental del dragado martimo, necesario para la instalacin de una planta regasificadora en cercanas a la ciudad de Baha Blanca, Argentina. La publicacin permiti reportar el acceso a los documentos que los ciudadanos venan exigiendo durante semanas y demostr que la municipalidad de esa ciudad demor 34 das en subir esos contenidos a su sitio web, hasta entonces desconocidos. Una bsqueda simple del tipo: "estudio de impacto ambiental + dragado + YPF" no arrojaba ningn resultado. Pero otra estrategia s dio en el blanco: para probar lo que se afirma en el artculo, hubo que apelar a capturas de pantalla, previa bsqueda avanzada de Google, restringiendo el formato (en ese caso PDF), acotando la fecha a los ltimos siete das y buscando slo dentro del dominio con la extensin .gov.ar. Tips para periodistas: o Si deseas explorar un sitio web comienza con un mtodo sencillo: explora el mapa del sitio, una prctica no comn que ser como una brjula capaz de orientar la bsqueda. o Es recomendable aprender a usar la bsqueda avanzada de todos los buscadores como la de Google: http://www.google.com/advanced_search. 1. Para ello: utiliza el posicionamiento geogrfico para obtener informacin desconocida de ltimo momento. Ingresa el nombre de la ciudad en la que vives o sobre la que deseas obtener informacin en cualquiera de los dos primeros cuadros de texto. Si se trata de la ciudad de Bogot, por ejemplo, debers usar el primer casillero; si se trata de Buenos Aires, usars el segundo, ya que por tratarse de un nombre compuesto es necesario que los resultados incluyan la frase exacta. 2. Utiliza Herramientas de Bsqueda: Limita los resultados a la lnea temporal ms reciente: por ejemplo, ltima semana o ltimas 24 horas. Del mismo modo, conforme el tipo de informacin que deses encontrar, debes decidir el formato, por ejemplo, Excel, donde tendrs mayor posibilidad de encontrar tablas con estadsticas o evolucin de gastos. 3. Utiliza la restriccin de dominios para encontrar informacin en sitios gubernamentales, aadiendo el nombre del sitio, sin las tres "W" o apelando solamente a la extensin del dominio, por ejemplo .gov.ar para sitios de Argentina. 4. Aunque puedes hacerlo desde la bsqueda avanzada, tambin es posible usar la herramienta tiempo en la columna izquierda de Google, para buscar enlaces de ltimo momento, por ejemplo, los publicados en la ltima hora. 5. Debes conocer la ubicacin del acceso a las bsquedas avanzadas de otros buscadores, como Bing. Extraccin de Datos Saber encontrar datos se est convirtiendo en una habilidad cada vez ms valiosa en el periodismo. Ya mencionamos cmo buscar informacin en la web profunda a travs de bsquedas avanzadas. Ahora explicar algunas tcnicas y herramientas para la bsqueda y extraccin de datos. Extraccin de datos El ejemplo ms sencillo de la extraccin de datos es el de obtener el contenido de una tabla alojada en un PDF, cuando lo que se requiere para procesar los datos es disponerlos en una hoja de clculo de Excel. Para lograr ese objetivo, existen recursos sofisticados y software de descarga pagos, pero tambin hay una larga lista de herramientas online y sin costo alguno. 1. A veces copiar y pegar funciona, pero otras veces no y hay que recurrir a conversores como Zamzar.com, que es gratuito y no requiere suscripcin. 2. No olvides que las tablas y los grficos pueden estar subidos a la web en formato de imagen, por lo que siempre conviene buscar en plataformas como Flickr o Google Imgenes. En estos casos se recurre a programas de reconocimiento ptico. Uno sencillo y sin necesidad de descarga es Free Ocr. Otros servicios de Google: 1. Explora Google Public Data. 2. Del mismo modo, Google Books y Google Blogs podran contener informacin de inters, ya que permite filtrar los resultados por fecha. Un ejemplo es esta crnica publicada en Solo Local basada en una bsqueda en Google Books, teniendo en cuenta el posicionamiento geogrfico y la seleccin de la lnea temporal: en 2009 se buscaron libros publicados en los ltimos tres aos. Puedes probar recursos de la web semntica, como Wolfram|Alpha. Puedes buscar en repositorios acadmicos, como Scholar, Scirus o Scielo. Usa la versin gratis de Copernic. Es una potente herramienta de bsqueda que permite definir bsquedas por categoras tales como documentos del gobierno estadounidense (Advertencia: funciona slo para Windows). Busca datos de tu pas fuera de tu pas. Por ejemplo, la base de datos de importaciones del censo de Estados Unidos contiene el detalle actualizado de las importaciones a EE.UU. (o lo que es equivalente a las exportaciones de cada pas a EE.UU.). Como la ruta para llegar a la lista de pases no es sencilla de localizar a simple vista, les comparto el enlace de acceso. Lo bueno de este caso es que por cada pas aparece una serie completa, del 2002 al 2011, lo cual permite estudiar las variables a lo largo del tiempo e incluso comparar el comportamiento de algunas de ellas con el que han tenido en otros pases de la regin. Rescata datos que pudieron haber sido eliminados de la web pero quedaron en la versin cach o como capturas de pantalla. Usa Internet Archive a travs de su mquina del tiempo (the "Wayback Machine). Recorta dominios para llegar al index o al directorio madre de un sitio, cuando esto sea posible: Por ejemplo este link:http://www.justiciachaco.gov.ar/listas/C_A_Civ_y_Com_Sala_II_Pro/Cam_Civ_Sala_II_ Pro_2009-11-13.Txt puede convertirse en este otro: http://www.justiciachaco.gov.ar/listas/. Solo se elimin desde la derecha hacia la izquierda la porcin del URL entre las dos ltimas barras invertidas. Localiza bases de datos de inters usando Incywincy, un metabuscador que devuelve resultados de la Deep web. Puedes ver un ejemplo de lista de bases de datos aqu. Monitorea las redes sociales (documentos compartidos, comentarios) usando herramientas como SocialMention, 48ers o buscadores en tiempo real de Twitter como Twitterfall donde puedes seleccionar una bsqueda geo-referenciada o bien buscar por nombre propio (estas dos opciones son ms especficas) o por tema (menos especfica). Los mensajes suelen contener links con informacin que no siempre es indexada por los motores de bsqueda. Una perla en el fondo del mar Lo ms fascinante del tema que nos ocupa es que, pese a las estimaciones, nadie conoce con exactitud la dimensin real de la web profunda. Sera imposible cuantificarla porque se trata de un espacio dinmico, en variacin permanente. Esto nos abre un terreno inexplorado, una tierra virgen, al que con paciencia y perseverancia podemos llegar como conquistadores de nuevos mundos.