Professional Documents
Culture Documents
Plan de estudios
El plan de estudios est constituido por 10 materias y un seminario que deben cursarse en dos
semestres; durante el periodo de verano se deber realizar una estancia que puede ser industrial o
acadmica.
El grado se otorga al trmino satisfactorio de los cursos y la estancia, mediante la elaboracin del
reporte escrito sobre el trabajo realizado durante la estancia de verano y una defensa oral del mismo.
El diseo del posgrado considera un nmero pequeo pero muy representativo de reas en las que
hay un enorme inters cientfico y tecnolgico.
La eleccin y definicin de las Lneas de Generacin y/o Aplicacin del Conocimiento (LGACs)
tambin tiene repercusiones importantes en los estudiantes que piensan realizar estudios de
Doctorado
en
el
extranjero.
Es crucial que un estudiante de doctorado tenga un campo frtil para hacer investigacin en reas en
las que existen suficientes oportunidades para hacer contribuciones cientficas y tecnolgicas
relevantes.
CIENTIFICO DE DATOS
Los modelos requieren de calcular un conjunto de parmetros empricos que minimizan alguna medida
estadstica,
v.gr.
devianza, verosimilitud. El clculo requiere de tcnicas numricas sofisticadas y computacionalmente
eficientes. La mayora de los problemas derivados de obtener los parmetros se formulan como problemas de
optimizacin regularizada en la norma $\ell_1$. El efecto de usar la norma $\ell_1$ como regularizador tiene
un efecto directo en la seleccin de variables.
Modelos Estadsticos y Computacionales.
Construir modelos estadsticos predictivos en el terreno de los grandes volmenes de datos impone muchos
retos desde un punto de vista de rigor estadstico. Es crucial poder disear medidas prcticas,
computacionalmente viables y numricamente confiables, que garanticen la validez del modelo y la calidad de
las predicciones.
Un insustituible
SQL: El 68% de los cientficos de datos usan SQL y si incluyramos a todas las bases de
datos, completaramos casi el 100 por 100 de los encuestados. Es algo necesario no slo por la
CIENTIFICO DE DATOS
inmensa cantidad de datos de los que hablamos sino porque la mayor parte de los datos que usa
un cientfico de datos profesional provienen de internet.
La gran divisin
R: En torno a un 52% de los dateros usan R para su trabajo usual. Tiene a su favor que ha
sido el lenguaje estadstico por excelencia durante muchos aos y podemos encontrar cdigos y
paquetes para casi cualquier cosa que se nos ocurra. Tiene en su contra que su sintaxis es ms
antigua, compleja y fea que otros lenguajes ms modernos que empujan fuertes. Es el lenguaje
de los que se acercan desde un background cientfico.
Python: El 51% por ciento de los dateros usan Python de forma habitual. Es la nmesis de R
en este caso: tiene una sintaxis muy buena y moderna pero an queda mucho por trabajo por
hacer desarrollando su ecosistema. No obstante, para ser justos, Python cada vez es ms
competitivo e iniciativas como SciPyestn ponindole las cosas muy difciles a R. Es el lenguaje
de los que se acercan desde un background informtico.
Aunque el sentido comn nos dice que cada uno de los lenguajes es mejor para determinadas
cosas, en la prctica hay cierta rivalidad. Personalmente, uso R pero suelo recomendar Python. No
slo porque es ms bonito, sino porque es multipropsito y eso siempre es una ventaja.
El pequeo D'Artagnan
Bibliografas
http://mcienciadatos.itam.mx/
http://www.xataka.com/otros/de-profesion-cientifico-de-datos