You are on page 1of 10

CLUSTER POSTGRESQL

Stalin Camino
Santiago Morales

Junio de 2015

GENERALIDADES
En sentido genrico, un clster es un conjunto de mquinas funcionando como unidad y
trabajando juntas para tratar una nica tarea, ahora bien, un Clster se refiere a un grupo
de mquinas trabajando juntas usando el motor de almacenamiento NDB (Network
Database) para implementar almacenamiento de datos, recuperacin y administracin
distribuida entre varias mquinas, lo que nos permite soportar una base de datos
distribuida en una arquitectura de comparticin nula usando almacenamiento en memoria.
Como mnimo se necesitan tres mquinas para la ejecucin de un clster, sin embargo, el
nmero mnimo recomendado en Clster es cuatro: una para el nodo de administracin y
otra para el de SQL, y dos para servir como nodos de almacenamiento. El propsito de
los dos nodos de datos es proporcionar redundancia; el nodo de administracin debe
ejecutarse en una mquina separada para garantizar servicio de arbitracin continuo en
caso que un nodo de datos falle.
Para que un clster funcione como tal, no basta solo con conectar entre s los
ordenadores, sino que es necesario proveer un sistema de manejo del clster, el cual se
encargue de interactuar con el usuario y los procesos que corren en l para optimizar el
funcionamiento.

BENEFICIOS

Transfiere los bloques de datos (la unidad de transferencia ms pequea en la


base de datos) usando la red de interconexin de alta velocidad de la

infraestructura.
Antes de la fusin de cache, el disco se usa como un medio de transferencia de

datos y que tiene desventajas evidentes.


Permite a varias computadoras acceder a una base de datos individual, puede ser

usado para dirigir varias reas de gestin de base de datos.


Estas reas incluyen: Alta disponibilidad, Escalabilidad, Crecimiento Incremental, y

Consolidacin de Base de datos.


Mejora la disponibilidad de la base de datos de produccin durante las

actualizaciones.
Ejecuta todas las cargas de trabajo de la base de datos.
La ms alta disponibilidad de la base de datos.
Administracin flexible de cargas de trabajo.

Clustering
Tambin conocido como agrupamiento, es una de las tcnicas de minera de datos, el
proceso consiste en la divisin de los datos en grupos de objetos similares. Cuando se
representan la informacin obtenida a travs de clsters se pierden algunos detalles de
los datos, pero a la vez se simplifica dicha informacin.
Tcnica en la que el aprendizaje realizado es no supervisado. Desde un punto de vista
prctico. El clustering juega un papel muy importante en aplicaciones de minera de datos,
tales como exploracin de datos cientficos, recuperacin de la informacin y minera de
texto, aplicaciones sobre bases de datos espaciales (tales como GIS o datos procedentes
de astronoma), aplicaciones Web, marketing, diagnstico mdico, anlisis de ADN en
biologa computacional y muchas otras.
Algoritmos de Clustering
Simple K-Means
Este algoritmo debe definir el nmero de clsters que se desean obtener, as se convierte
en un algoritmo voraz para particionar. Los pasos bsicos para aplicar el algoritmo son
muy simples. Una vez encontrados los primeros centroides el algoritmo har los tres
pasos siguientes:
Determina las coordenadas del centroide.
Determina la distancia de cada objeto a los centroides.
Agrupa los objetos basados en la menor distancia.
Finalmente quedarn agrupados por clsters, los grupos de simulaciones segn la
cantidad de clsters que el investigador defini en el momento de ejecutar el
algoritmo
X-Means
Este algoritmo es una variante mejorada del K-Means. Su ventaja fundamental est en
haber solucionado una de las mayores deficiencias presentadas en K-Means, el hecho de
tener que seleccionar a priori el nmero de clsters que se deseen obtener, a X-Means se
le define un lmite inferior K-min (nmero mnimo de clsters) y un lmite superior K-Max
(nmero mximo de clsters) y este algoritmo es capaz de obtener en ese rango el
nmero ptimo de clsters, dando de esta manera ms flexibilidad al usuario.
Cobweb
Pertenece a la familia de algoritmos jerrquicos. Se caracteriza por la utilizacin de
aprendizaje incremental, esto quiere decir, que realiza las agrupaciones instancia a

instancia. Durante la ejecucin del algoritmo se forma un rbol (rbol de clasificacin)


donde las hojas representan los segmentos y el nodo raz engloba por completo el
conjunto de datos. Al principio, el rbol consiste en un nico nodo raz. Las instancias se
van aadiendo una a una y el rbol se va actualizando en cada paso. La clave para saber
cmo y dnde se debe actualizar el rbol la proporciona una medida denominada utilidad
de categora, que mide la calidad general de una particin de instancias en un segmento.
Pertenece a los mtodos de aprendizaje conceptual o basado en modelos. Esto significa
que cada cluster se considera como un modelo que puede describirse intrnsecamente,
ms que un ente formado por una coleccin de puntos.
Adems en el algoritmo tambin hay que tener en cuenta dos parmetros muy
importantes:
Acuity: es un parmetro muy necesario, pues la utilidad de categora est basada en la
estimacin de la media y la desviacin estndar del valor de un atributo para un nodo en
particular, el resultado es 0 si dicho nodo solo tiene una instancia; por lo que se puede
decir que el valor que toma este parmetro es la medida del error de un nodo con una
sola instancia (establece la varianza mnima de un atributo).
Cut-off: este parmetro es usado para evitar el crecimiento descontrolado de la cantidad
de segmentos. Indica el grado de mejor a que se debe producir en la utilidad de categora
para que la instancia se pueda tener en cuenta de manera individual. Resumiendo,
cuando se va a aadir un nuevo nodo y no es suficiente el crecimiento de la utilidad de
categora, pues ese nodo se poda y la instancia pasa a otro nodo ya existente.

EM
Este algoritmo pertenece a una familia de modelos que se conocen como Finite Mixture
Models, los cuales se pueden utilizar para segmentar conjuntos de datos. Est clasificado
como un mtodo de particionado y recolocacin, o sea, Clustering Probabilstico. Se trata
de obtener la FDP (Funcin de Densidad de Probabilidad) desconocida a la que
pertenecen el conjunto completo de datos. El algoritmo EM, procede en dos pasos que se
repiten de forma iterativa:
Expectation: Utiliza los valores de los parmetros, iniciales o proporcionados por
el paso Maximization, obteniendo diferentes formas de la FDP buscada.

Maximization: Obtiene nuevos valores de los parmetros a partir de los datos


proporcionados por el paso anterior.

Finalmente se obtendr un conjunto de clusters que agrupan el conjunto de proyectos


original. Cada uno de estos cluster estar definido por los parmetros de una distribucin.

Aplicaciones
Las tcnicas de agrupamiento encuentran aplicacin en diversos mbitos.
En biologa para clasificar animales y plantas.
En medicina para identificar enfermedades.
En marketing para identificar personas con hbitos de compras similares.
En teora de la seal pueden servir para eliminar ruidos.
En biometra para identificacin del locutor o de caras.

Fragmentacin
El problema de fragmentacin se refiere al particionamiento de la informacin para
distribuir cada parte a los diferentes sitios de la red
Objetivos de la fragmentacin
El objetivo de la fragmentacin consiste en dividir la relacin en un conjunto de relaciones
ms pequeas tal que algunas de las aplicaciones de usuario slo hagan uso de un
fragmento.
Sobre este marco, una fragmentacin ptima es aquella que produce un esquema de
divisin que minimiza el tiempo de ejecucin de las aplicaciones que emplean esos
fragmentos.
La unidad de fragmentacin ideal no es la tabla sino una subdivisin de sta.
Esto es debido:

Las aplicaciones usan vistas definidas sobre varias relaciones, es decir, se forman
a partir de "trozos" de varias tablas. Si conseguimos que cada una de las vistas
est definida sobre subtablas locales (o en su defecto lo ms "cerca" posible) a

cada aplicacin, es de esperar un incremento en el rendimiento.


Si mltiples vistas de diferentes aplicaciones estn definidas sobre una tabla no

fragmentada, se tiene.
Si la tabla no est replicada entonces se produce generacin de trfico por
accesos remotos.

Si la tabla est replicada en todos o algunos de los sitios donde residen cada una
de las aplicaciones entonces la generacin de trfico innecesario es producida por
la necesidad de la actualizacin de las copias.

Tipos de fragmentacin de datos


Existen tres tipos de fragmentacin:

Fragmentacin horizontal.
Fragmentacin vertical.
Fragmentacin hbrida.

Fragmentacin horizontal
La fragmentacin horizontal de una relacin R produce una serie de fragmentos R1,
R2,..., Rr, cada uno de los cuales contiene un subconjunto de las tuplas de R que cumplen
determinadas propiedades (predicados).
Fragmentacin horizontal primaria y derivada
La Fragmentacin Horizontal Primaria (FHP) de una relacin se obtiene usando
predicados que estn definidos en esa relacin.
La Fragmentacin Horizontal Derivada (FHD) por otra parte, es el particionamiento de una
relacin como resultado de predicados que se definen en otra relacin.
Fragmentacin vertical
La fragmentacin vertical de una relacin R produce una serie de fragmentos R1, R2, ...,
Rr cada uno de los cuales contiene un subconjunto de los atributos de R as como la clave
primaria de R.
Complejidad de la fragmentacin Vertical
La fragmentacin vertical resulta ms complicada que la horizontal. En el caso vertical, si
una relacin tiene m atributos clave no primarios, el nmero de posibles fragmentos es
igual a B (m), es decir el m-simo nmero de Bell [3]. Para valores grandes de m, B (m)
(mm; por ejemplo, para m = 10, B (m) (115.000, para m = 15, B (m) (109, para m = 30, B
(m) = 1023.

Estos valores indican que la obtencin de una solucin ptima de la fragmentacin vertical
resultar una tarea imposible, sino nos apoyamos en el uso de heursticas.

Diseo e Implementacin Clustering


\\inicio
initdb -D C:\Cluster
\\asignacion d cluster
pg-ctl start -D C:\Cluster

Bibliografa
CADAVID, J. I. (22 de 07 de 2012). BASE DE DATOS. Obtenido de
https://carlosjacobo.wordpress.com/
ECURED. (12 de 06 de 2012). ECURED. Obtenido de
http://www.ecured.cu/index.php/Clustering
Galeon. (13 de 06 de 2014). TIPOS DE FRAGMENTACIN. Obtenido de
http://bdjulian.galeon.com/aficiones1783659.html
ORACLE. (12 de 12 de 2014). ORACLE. Obtenido de
http://www.oracle.com/lad/products/database/options/real-applicationclusters/overview/index.html
RI: CLUSTERING. (2012). Obtenido de http://clustering.jpmonge.com/

You might also like