Professional Documents
Culture Documents
Caleb Terrel
Temario
1. Introducción a R (8 horas) – Preparación de los datos
– Uso de R con XEmacs+ESS – Tipos de datos
– Objetos en R – Poblamiento y manejo de datos
– Importación/Exportación de datos ausentes
– Gráficos en R 3. Análisis exploratorio de datos (3
– Programación en R horas)
2. Minería de Datos (3 horas) – Estadísticas
– Relaciones entre Data Mining, – Gráficas
Visualización, Business Intelligence, – Líneas XY, diagramas de
Analítica dispersión, diagramas de caja
– Tipos de problemas en minería: – Coordenadas paralelas, matrices
minería supervisada, minería no de dispersión
supervisada, predicción – Selección de atributos
– Estructura de datos para análisis – Reducción de atributos: PCA
(Tidy Data)
Temario
4. El problema de clasificación (15 – Métodos de ensamble
horas) • Bosques aleatorios
– Objetivo de los modelos • Ada-boosting
– Matrices de confusión – Validación y selección de modelos
– Métodos elementales de clasificación
• 1R • Validación cruzada
• Naive bayes • Curvas Lift y ROC
• K-vecinos más cercanos – Métodos de agrupamiento
(Clustering)
– Métodos básicos
• K-Means
• Regresión logística
• DBSCAN
• Arboles de clasificación
• Agrupamiento jerárquico
• Maquinas de soporte vectorial
• Agrupamiento difuso
– Métodos avanzados
• Reglas de asociación
• Redes neuronales
• Deep learning
Temario
5. Otros temas de minería (3 horas)
– Sistemas de recomendación
– Minería de texto
– Web mining
1. INTRODUCCIÓN A R
R es un lenguaje y entorno para computación (cálculos) estadística y gráficos.
https://www.r-project.org/about.html
https://cran.r-project.org/web/packages/
RStudio desarrolla código abierto y software profesional “preparado para la
empresa” para el entorno estadístico computacional R. Nuestros productos
simplifican el análisis de datos con R y proporcionan potentes herramientas para
publicar y compartir.
https://www.rstudio.com/products/
data=read.csv(file="D:\\Caleb\\OTROS\\Cursos\\Curso Analisis de Datos con R\\data regresion.csv", header=T)
RL=lm(rl$salario~rl$edad)
summary(RL)
1. Introducción a R
ESTRUCTURAS DE DATOS
Estructuras de datos en R
1. Introducción a R
MANIPULACIÓN DE DATOS:
NÚMEROS Y VECTORES
1. Introducción a R
ARRAYS Y MATRICES
1. Introducción a R
IMPORTACIÓN Y EXPORTACIÓN DE
DATOS
Importación de Datos en R
• Mejores prácticas en la preparación
de archivos de datos para importar
en R
• Lectura de datos desde archivos txt |
csv: funciones base R
• Lectura rápida de datos de archivos
txt | csv en R: paquete readr
• Lectura de datos de archivos de
Excel (xls | xlsx) en R
http://www.sthda.com/english/wiki/import-and-export-data-using-r
Importación de
Datos en R
• Mejores prácticas en la preparación de
archivos de datos para importar en R
– Preparar tu archivo
– Convenciones de nomenclatura
– Archivo final
Importación de Datos en R
Lectura de datos desde archivos
txt | csv: funciones base R
• read.csv (): para leer archivos "valores separados por comas" (".csv").
• read.csv2 (): variante utilizada en países que usan una coma "," como punto
decimal y punto y coma ";" como separadores de campo.
• read.delim (): para leer archivos "valores separados por tabulaciones" (".txt").
Por defecto, el punto (".") Se usa como puntos decimales.
• read.delim2 (): para leer archivos "valores separados por tabuladores" (".txt").
Por defecto, la coma (",") se usa como puntos decimales.
• Si sus datos contienen una columna con texto, R puede suponer que las
columnas son factores o variables de agrupamiento (por ejemplo, "bueno",
"bueno", "malo", "malo", "malo"). Si no desea que sus datos de texto se
conviertan como factores, agregue stringsAsFactor = FALSE en las funciones
read.delim (), read.csv () y read.table (). En este caso, las columnas del
marco de datos correspondientes a la cadena en su archivo de texto serán
caracteres.
my_data <- read.delim(file.choose(), stringsAsFactor = FALSE)
# xlsx files
my_data <- read_excel("my_file.xlsx")
my_data <- read_excel(file.choose())
library("readr")
# Writing mtcars data to a tsv file
write_tsv(mtcars, path = "mtcars.txt")
– Guarde múltiples objetos en un archivo: save (data1, data2, file), load (file)
# Save multiple objects
save(data1, data2, file = "data.RData")
GRÁFICOS EN R
Tipos de gráficos
• Histogramas
• Gráficos de cajas
Tipos de gráficos
• Dispersión
• Barras
Tipos de gráficos
• Lineas
• Pie
Library ggplot2- Paleta de colores
• The available color palettes in the
RColorBrewer package are :
# Box plot
bp + scale_fill_manual(breaks = c("2", "1",
"0.5"), values=c("red", "blue", "green"))
# Scatter plot
sp + scale_color_manual(breaks = c("8", "6",
"4"), values=c("red", "blue", "green")
# Box plot
bp + scale_fill_brewer(palette="Dark2")
# Scatter plot
sp + scale_color_brewer(palette="Dark2")
Library wesanderson - Paleta de colores
# Install
install.packages("wesanderson")
library(wesanderson)
# Box plot
bp+scale_fill_manual(values=wes_palette(n=3,
name="GrandBudapest"))
# Scatter plot
sp+scale_color_manual(values=wes_palette(n=3
, name="GrandBudapest"))
2. MINERÍA DE DATOS
Minería de Datos
• Descubrimiento de información
valiosa/rentable para una
organización/empresa, que se
encuentra oculta dentro de las bases
de datos.
• Utiliza los métodos/algoritmos de
estadística, aprendizaje automático e
inteligencia artificial.
Minería de Datos
Cross Industry
Standard Process
for Data Mining
(CRISP-DM)
Aplicaciones de Minería de Datos:
Procesamiento de Solicitudes de Préstamo
Aplicaciones de Minería de Datos:
Detección de Mareas Negras (imágenes satelitales)
Aplicaciones de Minería de Datos:
Pronóstico de Electricidad
Aplicaciones de Minería de Datos:
Análisis de Cesta de Compra
Business Analytics
• Business Analytics (BA) es la
práctica de la exploración iterativa
y metódica de datos de una
organización con énfasis en el
análisis estadístico y minería de
datos.
• BA es utilizado por las empresas
comprometidas con la toma de
decisiones basadas en datos.
http://searchbusinessanalytics.techtarget.com/definition/business-analytics-BA
Análisis vs Analytics
Análisis Analytics
Se refiere al proceso de separar un Es una variedad de métodos,
problema completo en sus partes para tecnologías y herramientas asociadas
que las partes puedan ser examinadas para crear nuevos conocimientos /
críticamente a nivel granular. ideas para resolver problemas
complejos y tomar decisiones mejores
y más rápidas.
Proceso de descomponer un objeto Ciencia del análisis mediante la cual las
complejo en sus formas más simples estadísticas, la extracción de datos, la
tecnología informática, etc. se utilizan
para hacer análisis
High-level
Architecture of
Business
Analytics
Business Analytics
Tipos de Business Analytics
Business Analytics depende de…
• Compromiso organizacional
con la toma de decisiones
basada en datos.
Aplicaciones de Business Analytics
¿Qué es Big Data?
• “Se refiere al hecho de que ahora
podemos recopilar y analizar datos de
una manera que era simplemente
imposible incluso hace unos años. Hay
dos cosas que están impulsando este
movimiento de Big Data: el hecho de
que tenemos más datos sobre cualquier
cosa y nuestra capacidad mejorada
para almacenar y analizar cualquier
dato.”
¿Qué es Big Data?
• “Big data es un término que describe el
gran volumen de datos, tanto
estructurados como no estructurados, que
inundan un negocio día a día. Pero no es
la cantidad de datos lo que es importante.
Lo que importa es lo que hacen las
organizaciones con los datos. Los datos
grandes se pueden analizar en busca de
ideas que conducen a mejores decisiones
y movimientos comerciales estratégicos.”
¿Qué es Big Data?
• “Big Data Analytics es el uso de técnicas
analíticas avanzadas (análisis de texto,
aprendizaje automático, análisis
predictivo, minería de datos, estadísticas)
contra conjuntos de datos muy grandes y
diversos que incluyen datos
estructurados, semiestructurados y no
estructurados, de diferentes fuentes y en
diferentes tamaños, desde terabytes
hasta zettabytes…para obtener nuevas
ideas que les permitan tomar decisiones
mejores y más rápidas.”
¿Qué es Big Data?
• “Big Data son activos de gran volumen,
alta velocidad y / o alta variedad de
información que requieren nuevas
formas de procesamiento para permitir Gartner, Inc. (NYSE: IT) es la
compañía de investigación y
asesoría líder en el mundo.
una mejor toma de decisiones,
descubrimiento de información y
optimización de procesos”
5 V’s del Big Data
Arquitectura de Big Data Analytics
http://beyondcorner.com/bigdata/big-data-use-cases/
http://mattturck.com/wp-content/uploads/2016/02/matt_turck_big_data_landscape_v11r.png
3. ANÁLISIS EXPLORATORIO DE
DATOS
Mapeo del Análisis
Exploratorio de Datos
(EDA)
3. Análisis exploratorio de datos
TIPOS DE VARIABLES
Tipos de Variables
Estadistica aplicada a los negocios y la economía 15 ed. D. Lind, S. Wathen, W. Marcha. 2012
Niveles de medición de las
variables
Datos agrupados Datos no agrupados
Estadistica aplicada a los negocios y la economía 15 ed. D. Lind, S. Wathen, W. Marcha. 2012
3. Análisis exploratorio de datos
INDICADORES ESTADÍSTICOS
Indicadores de Tendencia Central
Se refieren al valor central que representa a los datos de una
determinada variable.
• Media Aritmética o Promedio: es la suma de dichos valores
dividida entre el número de valores.
– Características de la Media Aritmética:
– Todo conjunto de datos medido en escala de intervalo o razón
tiene media.
– El valor de la media es sensible a los valores extremos (mínimo y
máximo), por lo que la presencia de valores inusuales la
distorsionan.
– El cálculo de la media es sencillo y fácil de entender e
interpretar.
Indicadores de Tendencia Central
• Cálculos de la Media Aritmética
– Media Aritmética de datos no agrupados
• Factor de variación
• Tasa de variación
REDUCCIÓN DE ATRIBUTOS:
ANÁLISIS DE COMPONENTES PRINCIPALES
(PCA)
Terminología: Atributos y patrones
• Atributo (o Variable o Característica o Descriptor)
• Es cualquier aspecto distintivo, cualidad o característica. Los
atributos pueden ser:
– nominales (por ej., color: blanco, rojo, amarillo, verde,
– numéricos (por ej., altura –medida en metros-).
• Patrones (o Casos o Instancias)
– Colección (posiblemente ordenada y estructurada) de
descriptores(características) que representan un objeto.
Terminología: Atributos y patrones
• Cada patrón está representado por un conjunto de atributos
• un vector columna de d dimensiones llamado vector de atributos
• El espacio de atributos es el espacio de d dimensiones definido por este
vector
• Los patrones se representan como puntos del espacio de atributos
El problema de la dimensionalidad
• En la práctica, el problema de la dimensionalidad implica que, dado un número de
ejemplos fijo, hay un número máximo de atributos a partir del cual la eficiencia de
nuestro clasificador se degrada en vez de aumentar
• En muchos casos, la mayor calidad del clasificador con menos atributos compensa
la información que perdemos descartando atributos.
Reducción de la dimensionalidad
• Selección vs Extracción de características:
– Selección: se selecciona un subconjunto de características a partir del
conjunto original
• Métodos de filtrado (filter methods):
– Seleccionan el mejor conjunto de características en función de un
criterio razonable.
– El criterio es independiente del algoritmo de aprendizaje.
– Ej: Información mutua con la clase, test múltiple hipótesis
• Métodos envolventes (wrapper methods):
– Selecciona el mejor conjunto de características de acuerdo al
algoritmo de aprendizaje.
– Ej: SVM-RFE (Guyon et al., 2000)
– Extracción: las nuevas características proceden de una transformación de
las originales.
• Ej: transformación lineal y= WT x , este es el caso de LDA, PCA, ICA
Análisis de Componentes Principales (PCA)