Mining Big Data: Current Status, and Forecast to the
Future
Juan David Mendez Campuzano
Universidad Jorge Tadeo Lozano
Bogotá D.C 04 agosto de 2018 La minería de Big Data: Estado actual, y las previsiones para el Futuro Resumen La minería de Big Data es concebida desde el año 1998 para decirnos que el futuro de la tecnología iba tener un rotundo cambio en torno a la cantidad de información que el mundo iba a mover diariamente siendo en un principio un tema futurista pero que ya hoy en día vemos como una realidad en la que Google cada día tiene mas de mil millones de consultas por día, Twitter tiene más de 250 millones de tweets por día y Facebook tiene mas de 800 millones de actualizaciones diarias. Con todos estos datos una estimación de crecimiento del 40% en información cada año. Las grandes compañías de tecnología como Google hacen investigación acerca de patrones de uso para mejorar la experiencia en los usuarios y hacer nuevos algoritmos y herramientas que hagan frente a la inminente cantidad de datos que cada día va en aumento. Existen 5 V pertinentes a la gestión de grandes volúmenes de datos: Volumen, variedad, velocidad, variabilidad y valor del negocio, que son usadas para hacer mejores análisis sobre los datos y hacer mejores clasificaciones. Pulso mundial: Pulso global es una iniciativa de las naciones unidas que desde el 2009 hace de laboratorio innovador para la minería de datos en países en desarrollo con múltiples estrategias: - La investigación de métodos y técnicas para analizar datos digitales en tiempo real. - Montaje de herramientas de tecnología libre y de código abierto para el análisis de datos en tiempo real - Establece una red integrada global de laboratorios de pulso para poner a prueba el enfoque de cada país, describiendo de esta forma las oportunidades de big data para cada sector en el que trabaja Los artículos analizados contribuyen en: - Escalamiento Infraestructura Minería de datos grandes: la experiencia Twitter por Jimmy, muestra que, debido al estado actual de las herramientas de minería de datos, no es fácil realizar análisis. La mayoría del tiempo se consume en el trabajo preparatorio para la aplicación de métodos de minería de datos, y convertir los modelos preliminares en fuertes soluciones. - Minería de información heterogéneas Redes: un enfoque de análisis estructural por Yizhou Sun (Universidad del Noreste) y Jiawei Han (Universidad de Illinois en Urbana-Champaign), En esta investigación muestra que la minería de las redes de información heterogéneos es una nueva y prometedora frontera de la investigación. Controversia acerca de grandes volúmenes de datos:
- No hay necesidad de diferenciar el análisis de grandes volúmenes de datos de
análisis de datos. - Big data puede ser usado para vender sistemas informáticos basados en Hadoop, pero no siempre es la mejor plataforma de programación para empresas medianas. - En los análisis de tiempo real por el hecho de que los datos pueden ir cambiando es conveniente analizar los datos más recientes. - Grandes cantidades de datos no son siempre mejores datos, dependiendo de si son representativos a lo que se trabaja. Herramientas: Hablar de Big data también es hablar de que existe relación con la revolución de software de código abierto. Las grandes empresas contribuyen a trabajar en proyectos de código abierto para así mismo beneficiarse de los avances que se hacen en comunidad. Pronostico a Fututo: - Para tratar con datos históricos y con datos en tiempo real al mismo tiempo se propone usar la arquitectura lambda de Nathan Marz, la cual por descomposición de del problema en tres capas, capa de carga, capa de la porción y la capa de la velocidad siendo robusto y tolerante a fallos. - Significación estadística es importante para lograr resultados significantes donde es fácil equivocarse con grandes conjuntos de datos y miles de preguntas a contestar a la vez. - El tiempo de evolución de datos, los datos podrían evolucionar con el tiempo por lo tanto es importante que las técnicas de minería de big data deban ser capaces de adaptarse. - Compresión, al tratar con grandes volúmenes de datos, la cantidad de espacio es muy importante y hay dos enfoques principales en el cual compresión en la que no se descarta nada o la del muestreo donde se elige lo que es más representativo, añadido a esto el uso de la compresión puede tomas mas tiempo y menos espacio; podemos tomar esto como una transformación de tiempo en espacio de memoria. Conclusiones: El Big Data es muy importante en el ahora y el futuro de cualquier compañía o investigación científica que requiera recolectar, clasificar y procesar grandes volúmenes de información, suponiendo retos a futuro para desarrollar nuevas técnicas y herramientas para facilitar la tarea de los científicos de la información, a medida que siga creciendo la necesidad de almacenar mas datos se va requerir de bodegas de datos mas robustas y formas de hacer que los datos puedan ser comprimidos y reclasificados de manera más óptima.