You are on page 1of 3

CIENTIFICO DE DATOS

Plan de estudios
El plan de estudios est constituido por 10 materias y un seminario que deben cursarse en dos
semestres; durante el periodo de verano se deber realizar una estancia que puede ser industrial o
acadmica.
El grado se otorga al trmino satisfactorio de los cursos y la estancia, mediante la elaboracin del
reporte escrito sobre el trabajo realizado durante la estancia de verano y una defensa oral del mismo.
El diseo del posgrado considera un nmero pequeo pero muy representativo de reas en las que
hay un enorme inters cientfico y tecnolgico.
La eleccin y definicin de las Lneas de Generacin y/o Aplicacin del Conocimiento (LGACs)
tambin tiene repercusiones importantes en los estudiantes que piensan realizar estudios de
Doctorado
en
el
extranjero.
Es crucial que un estudiante de doctorado tenga un campo frtil para hacer investigacin en reas en
las que existen suficientes oportunidades para hacer contribuciones cientficas y tecnolgicas
relevantes.

Lneas de Generacin y/o Aplicacin del Conocimiento


Minera de Datos
El rea tiene dos componentes fundamentales. En primer lugar est la identificacin de patrones de
comportamiento mediante diferentes tcnicas escalables que puedan resolver efectiva y eficientemente
problemas de en el orden de los terabytes. Las ms slidas y reconocidas tienen componentes matemticas
sofisticadas como la descomposicin en valores singulares asistida por mtodos que reducen efectivamente el
problema de la dimensionalidad, v.gr. productos de Kronecker
Por otra parte, estn los mtodos estadsticos basados en muestreo.
Aprendizaje de Mquina
El rea comprende la elaboracin de modelos estadsticos y matemticos capaces de predecir valores en
casos desconocidos, a partir de una muestra de entrenamiento. Entre las tcnicas ms utilizadas estn las
mquinas de soporte vectorial, las redes neuronales y la regresin logstica. Sin embargo una dificultad
fundamental es la escalabilidad de los mtodos para abordar eficientemente problemas volmenes muy
grandes de datos. Mientras algunos algoritmos estn diseados para funcionar en lnea, otros los hacen en
modo batch, utilizando muestras de los datos originales.
Algoritmos Numricos y Computacionales.
En general, los problemas relacionados con la construccin de modelos matemticos y estadsticos a partir de
grandes volmenes de datos comprenden dos fases bsicas:
a) Minera

b) construir un modelo predictivo.


URIEL MIRALRIO PINEDA

CIENTIFICO DE DATOS

Los modelos requieren de calcular un conjunto de parmetros empricos que minimizan alguna medida
estadstica,
v.gr.
devianza, verosimilitud. El clculo requiere de tcnicas numricas sofisticadas y computacionalmente
eficientes. La mayora de los problemas derivados de obtener los parmetros se formulan como problemas de
optimizacin regularizada en la norma $\ell_1$. El efecto de usar la norma $\ell_1$ como regularizador tiene
un efecto directo en la seleccin de variables.
Modelos Estadsticos y Computacionales.
Construir modelos estadsticos predictivos en el terreno de los grandes volmenes de datos impone muchos
retos desde un punto de vista de rigor estadstico. Es crucial poder disear medidas prcticas,
computacionalmente viables y numricamente confiables, que garanticen la validez del modelo y la calidad de
las predicciones.

Los tres mosqueteros de la Ciencia de Datos

Un insustituible

SQL: El 68% de los cientficos de datos usan SQL y si incluyramos a todas las bases de
datos, completaramos casi el 100 por 100 de los encuestados. Es algo necesario no slo por la

URIEL MIRALRIO PINEDA

CIENTIFICO DE DATOS

inmensa cantidad de datos de los que hablamos sino porque la mayor parte de los datos que usa
un cientfico de datos profesional provienen de internet.
La gran divisin

R: En torno a un 52% de los dateros usan R para su trabajo usual. Tiene a su favor que ha
sido el lenguaje estadstico por excelencia durante muchos aos y podemos encontrar cdigos y
paquetes para casi cualquier cosa que se nos ocurra. Tiene en su contra que su sintaxis es ms
antigua, compleja y fea que otros lenguajes ms modernos que empujan fuertes. Es el lenguaje
de los que se acercan desde un background cientfico.

Python: El 51% por ciento de los dateros usan Python de forma habitual. Es la nmesis de R
en este caso: tiene una sintaxis muy buena y moderna pero an queda mucho por trabajo por
hacer desarrollando su ecosistema. No obstante, para ser justos, Python cada vez es ms
competitivo e iniciativas como SciPyestn ponindole las cosas muy difciles a R. Es el lenguaje
de los que se acercan desde un background informtico.

Aunque el sentido comn nos dice que cada uno de los lenguajes es mejor para determinadas
cosas, en la prctica hay cierta rivalidad. Personalmente, uso R pero suelo recomendar Python. No
slo porque es ms bonito, sino porque es multipropsito y eso siempre es una ventaja.

El pequeo D'Artagnan

Julia: Julia es la esperanza blanca de la ciencia de datos. Un lenguaje diseado para


conservar la potencia de lenguajes como fortran o C combinado con las facilidades de sintaxis de
los nuevos lenguajes. Si tuviera que apostar, a da de hoy, no lo hara por Julia. Le queda mucho
trabajo si quiere ser algo ms que el refugio de los fortraneros ms abiertos al cambio.

Bibliografas
http://mcienciadatos.itam.mx/
http://www.xataka.com/otros/de-profesion-cientifico-de-datos

URIEL MIRALRIO PINEDA

You might also like