Professional Documents
Culture Documents
INTRODUCCION
En la actualidad ha surgido un concepto que para muchas personas ha
tenido gran importancia, ya que se ha eliminado una limitacin a la
tecnologa actual. Dicho trmino se denomina Big Data y para
innumerables tecnlogos ha nacido para marcar el siguiente gran paso que
va a dar el mundo de las Tics.
El trmino Big Data, actualmente sigue generando confusin, es una
palabra a la cual se le atribuyen muchos usos de entre ellas pueden
destacar: anlisis de redes sociales, anlisis de datos en tiempo real, anlisis
de grandes repositorios de datos, NoSQL Pero realmente Qu es Big
Data? Es todo esto y mucho ms.
Para pensar en Big Data, se tiene que saber que actualmente se vive en la
era de la informacin, con un telfono mvil en cada bolsillo, un ordenador
porttil en cada mochila y grandes sistemas de tecnologa funcionando
diariamente mandando datos y datos cada segundo, se ve claramente que el
mundo tiene ms datos que nunca, pero esto no es todo, ya que da a da
crece an ms. Un ejemplo claro de esto es el del telescopio Sloan Digital
Sky Survey construido en el ao 2000 en Nuevo Mxico.
Durante las primeras semanas este telescopio recopil ms informacin de
los que se haban acumulado en toda la historia de la astronoma, pero esto
no es ms que un pequeo ejemplo de la gran avalancha que sufrimos en la
actualidad. Gracias a esto Big Data se est revolucionando el mundo,
organizaciones, personas y tecnologa.
Antecedentes.
Uno de los primeros trminos clave que nos encontramos en el campo del
anlisis de datos de negocio es el de Business Intelligence, cuya primera
referencia se remonta a 1958 a cargo de Hans Peter Luhn , investigador de
IBM.
Business Intelligence: Anlisis descriptivo de datos, en el que se consultan
y visualizan de manera agregada datos provenientes de diferentes
indicadores de negocio para obtener una visin de lo que ha pasado y lo
que est pasando.
A finales de los 80 surge la expresin Data Mining (minera de datos). El
origen del trmino proviene de la analoga con las tcnicas de minera en
las que se extrae un material valioso (en este caso, conocimiento) a partir
de yacimientos (bancos de datos)
Data Mining (minera de datos): Extraccin de conocimiento (patrones,
tendencias, modelos) en bancos de datos, enfocado a un anlisis de tipo
predictivo. El concepto de Knowledge Discovery in Databases (KDD)
comprende un rea similar. En muchas ocasiones se usan indistintamente,
aunque tambin se usa el trmino Data Mining para referirse
especficamente a la etapa analtica dentro del KDD.
El desarrollo de proyectos de Data Mining para la bsqueda y explotacin
de patrones en bancos de datos, empleando tcnicas de Machine Learning
Machine Learning (aprendizaje automtico): rea de la Informtica
enfocada al estudio y creacin de algoritmos capaces de tomar decisiones
(hacer predicciones) basadas en la experiencia acumulada en una batera de
casos (bancos de datos) resueltos con xito. Sus fundamentos se derivan de
la inteligencia artificial, la estadstica y la optimizacin matemtica. El uso
de algoritmos de Machine Learning representa una parte destacada dentro
de las tcnicas de Data Mining.
Este tipo de aplicaciones de Data Mining nos permite explicar el origen del
concepto de Data Science (ciencia de datos)
Data Science: Conjunto de principios y fundamentos, tanto cientficos
como aplicados, que guan la extraccin de conocimiento de los datos, y en
los que se basan las herramientas, tcnicas y procedimientos de Data
Mining.
Qu es Big Data.
(Manyika, J y otros, 2011) definen Big Data como el conjunto de datos
cuyo tamao va ms all de la capacidad de captura, almacenado, gestin y
anlisis de las herramientas de base de datos.
Una de las aproximaciones ms completas de Big Data es la facilitada por
Gartner (2012): Son activos de informacin caracterizados por su alto
volumen, velocidad y variedad, que demandan soluciones innovadoras y
eficientes de procesado para la mejora del conocimiento y toma de
decisiones en las organizaciones.
Segn Wikipedia Big Data es trmino aplicado a: Un conjuntos de datos
que superan la capacidad del software habitual para ser capturados,
gestionados y procesados en un tiempo razonable.
temperatura, humedad y hasta los cambios qumicos que sufre el aire, de tal
forma que las aplicaciones que analizan estos datos requieren que la
velocidad de respuesta sea lo suficientemente rpida para lograr obtener la
informacin correcta en el momento preciso.
Para hacerse una idea de lo abrumadora que es la cantidad de datos que se
generan pongo el ejemplo de la empresa Domo , la cual hizo un anlisis en
el ao 2012 de la cantidad de informacin que los internautas dan de uso a
la red cada minuto: Cada minuto que pasa, los 2.700 millones de personas
con acceso a Internet que se calcula que hay actualmente en el mundo,
envan ms de 200 millones de correos electrnicos, realizan 2 millones de
consultas a Google, suben 48 horas de vdeo a YouTube, escriben ms de
100.000 mensajes en Twitter, publican casi 30.000 nuevos artculos en
sitios como Tumblr o WordPress, suben ms de 6.000 fotografas a
Instagram y Flickr, se descargan 47000 aplicaciones del sistema operativo
IOS
A continuacin se muestra un dibujo explicativo (Figura 4).
llegando a los 500 millones a finales del 2012. Adems asegura ostentar
una tasa de usuarios activos del 47%. Con este dato se despejan algunas de
las dudas sobre la supervivencia de esta red social, que en su primer ao
solo alcanzaba un 14% de usuarios activos, unos 9 millones. Otra de las
redes que ha duplicado su nmero de usuarios en el ltimo ao es
LinkedIn, llegando a los 225 millones.
Datos de redes sociales en Espaa:
Para concluir con este apartado vamos a comentar las funciones basadas en
el conocimiento, formadas por los sistemas de toma de decisiones ya que
son estos sistemas sobre los que se basa la tecnologa Data Warehouse.
Las funciones como "planificacin de marketing", "planeamiento de
ingeniera" y "anlisis financiero", requieren de sistemas de informacin
que las soporten.
Estos sistemas estn relacionados con el anlisis de los datos y la toma de
decisiones, Estos sistemas tienen un alcance bastante grande al almacenar
una cantidad casi incontable de datos.
Los datos para el soporte de decisiones, con frecuencia, toman un nmero
de reas diferentes y necesita cantidades grandes de datos operacionales
relacionadas, de ah que se empleen, cada vez con mayor grado de
importancia, los ya mencionados y aclarados almacenes de datos
denominados Data Warehouse.
Data Mining o Minera de Datos
La minera de datos es una herramienta que permite extraer conocimiento
de los datos que tenemos almacenados para tratarlos y convertirlos en
informacin til y objetiva que ayudar al empresario tomar las decisiones
ms adecuadas.
La definicin de la minera de datos dada por (Fayad y otros 1996): es un
proceso no trivial de identificacin vlida, novedosa, potencialmente til y
entendible de patrones comprensibles que se encuentran ocultos en los
datos
Segn el portal Daedalus la Minera de Datos se define como la extraccin
no ligera de informacin implcita, previamente desconocida y
potencialmente til, a partir de datos. En la actual sociedad de la
informacin, la minera de datos es una herramienta fundamental para
analizarlos y explotarlos de forma eficaz para los objetivos de cualquier
organizacin.
Caractersticas de la minera de datos:
Explorar los datos se encuentran en las profundidades de las bases de
datos, como los almacenes de datos, que algunas veces contienen
informacin almacenada durante varios aos.
El entorno de la minera de datos suele tener una arquitectura clienteservidor.