You are on page 1of 17

Clustering.

KNN y KMeans
PYTHON PARA MACHINE LEARNING
DA 2.
ESTEBAN A. VACA C.

Clustering
Cluster: analiza y agrupa objetos de datos basados
nicamente en la informacin encontrada en los
datos que describe los objetos y sus relaciones.
Objetivo del Clustering: Los objetos de un grupo
sean similares entre s y diferentes de los objetos de
otros grupos.

Descripcin del algoritmo


Tipos de clsteres: de Particin y la agrupacin
jerrquica
La agrupacin jerrquica - Un conjunto de grupos
anidados organizado en forma de rbol jerrquico
La particin Clustering g - Una divisin de datos de
objetos en subconjuntos no superpuestos (agrupaciones)
de tal manera que cada objeto de datos es exactamente
en un subconjunto

KNN - Definicin
KNN es un algoritmo simple que almacena todos los
casos disponibles y clasifica los nuevos casos sobre
la base de una medida de similitud.
KNN es conceptualmente simple, pero capaz de
resolver problemas complejos
Puede trabajar con relativamente poca
informacin

KNN - Definicin
El aprendizaje es sencillo (hay aprendizaje en
absoluto!)
La memoria y el costo de la CPU)
problema de la seleccin de caractersticas
Sensible a la representacin

Clasificacin KNN

Clasificacin KNN-Distancia

Clasificacin KNN-Distancia Standar

KNN Numbero de Vecinos


Si K = 1, seleccione el vecino ms cercano
Si K> 1, - Para la clasificacin seleccionar el vecino
ms frecuente. - Para la regresin calcular el
promedio de los vecinos k.

KNN - Aplicaciones
Clasificacin e Interpretacin - legal, mdica,
noticias, banca
La resolucin de problemas - la planificacin, la
pronunciacin
Funcin de aprendizaje - control dinmico
Ensear y ayudar - helpdesk, formacin de usuarios

Qu es K-means?
1. Aproximacin de clustering particional
2. Cada grupo est asociado con un centroide
(punto central)
3. Cada punto se asigna a la agrupacin con el
centroide ms cercano
4.

Nmero de grupos K deben especificarse

Algoritmo bsico de K-means

Detalles de K-means
1.
2.

3.
4.
5.
6.

Centroides iniciales se eligen al azar. -Grupos producidos varan


de una ejecucin a otra
El centroide es (normalmente) la media de los puntos en el
cluster.
La proximidad se mide por la distancia euclidiana, la similitud
del coseno, correlacin, etc.
K-means converge para medidas de similitud comunes
mencionados anteriormente.
La mayor parte de la convergencia ocurre en las primeras
iteraciones.
A menudo, la condicin de parada es 'Hasta que relativamente
pocos puntos cambian de clusters

Distancia euclidiana

Actualizacin de centroide
Nosotros utilizamos la siguiente ecuacin para calcular el n
dimensiones se utiliza la siguiente ecuacin para calcular el punto
centroide dimensiones n medio de k puntos de n-dimensionales

Ejemplo: Encontrar el centroide de 3 puntos 2D, (2,4), (5,2) y (8,9)

Ejemplo de K-means
Seleccione tres centroides iniciales

Ejemplo de K-means
La asignacin de los puntos a grupos K. cercanos y volver a calcular los centroides

You might also like