You are on page 1of 33

Universidad Jurez Autnoma de Tabasco

Divisin Acadmica Informtica y Sistemas

Nombre del Alumno:


Jimnez Oln Carlos
Matricula:
102h7097
Grupo:
A
Nombre completo de la materia.
Tratamiento de informacin para la toma de decisiones
Nombre completo del docente asesor de la materia.
Martha Ofelia Jimnez Velzquez
Nmero y tema de la actividad.
act07

Aplicacin de la minera de datos en el desarrollo de modelos de inteligencia


de negocios
Ciudad y fecha.
Cunduacn, Tab., a 09 de Diciembre 2014

Introduccin
Hoy en da el anlisis inteligente de datos es un rea de la informtica que trata de
generar o adquirir conocimiento. El conocimiento consiste en la extraccin de la
informacin que ha sido colectada, clasificada, organizada, integrada, y a la que se aadi
valor. Sin duda alguna el conocimiento est a un nivel de abstraccin ms alto que los
datos y las informaciones sobre los que se basa. Adems, el conocimiento se puede usar
para deducir nuevas informaciones u otros conocimientos nuevos.
La adquisicin de conocimiento, del cual forma parte el anlisis inteligente de datos, es el
proceso de anlisis, transformacin, clasificacin, organizacin e integracin de la
informacin y el hecho de representar el conocimiento en una forma apropiada para que
un sistema informtico lo use.
Es por ello que en esta ocasin abordaremos el tema de anlisis inteligente de datos en
donde se darn a conocer las faces que lo integran as como el uso que cada una de las
distintas fases.

Aplicacin de la minera de datos en el desarrollo de modelos de


inteligencia de negocios
Elementos de la Inteligencia de Negocios.
Qu es la Inteligencia de Negocios?
Es una arquitectura y coleccin de herramientas que buscan mejorar a las
organizaciones, proporcionando vistas de aspectos de negocio a todos los empleados
(estratgico, tctico, operacional) para que tomen mejores y ms relevantes decisiones en
menos tiempo y con la mayor informacin posible.
Brindando:

Informacin correcta

Tiempo oportuno

Personas Correctas

Constituye una arquitectura y coleccin de aplicaciones operacionales y de soporte de


decisiones con bases de datos que proporcionan a los usuarios de la organizacin fcil
acceso a la data del negocio.
La Inteligencia de Negocios se direcciona principalmente en Aplicaciones y Base de Datos
de Soporte a la Toma de Decisiones Personas correctas

Componentes y Solucin Integral de Inteligencia de Negocios

Sistemas Fuentes:
Son los sistemas transaccionales que han sido diseados fundamentalmente para el
soporte de las operaciones del negocio como: Compras, Ventas, Almacenes,
Contabilidad, etc. Estos sistemas deben cumplir un requisito fundamental: ya deben de
estar consolidados en cuanto al registro de informacin de las operaciones. No sera
limitante si le carece de reportes para toma de decisiones, ya que es ah el vaco que
cubrir la Inteligencia de Negocios adicionando mdulos de gestin para las decisiones
operacionales.

Base de Datos Operacionales: OLTP


Los sistemas transaccionales registran o graban las operaciones dentro de las base de
datos operacionales (On Line TransactionalProcess: OLTP). Estas datos permitirn
generar informacin para la toma de decisiones a nivel operacional. Estas bases de datos
lo que persiguen fundamentalmente son el registro de transacciones y la consistencia de
los datos.

Requerimientos Estratgicos (Plan Estratgico)


Es altamente recomendable tener definido el Plan Estratgico de la Organizacin. En
caso extremo no se obtenga, a partir de las entrevistas se pueden buscar: objetivos,
estrategias, indicadores de estrategias que permitan orientar el producto a disear. Son
bastante tiles adems del plan y las entrevistas los reportes de gestin que los
tomadores de decisiones poseen para medir su gestin.
Estos requerimientos estratgicos debern contrastarse con la Base de Datos
Operacional, ya que muchos de ellos se obtendrn de esta fuente. En caso no puedan ser
obtenidos se recomienda re-estructurar la Base de datos y las aplicaciones, a fin de
satisfacer estos requerimientos estratgicos.

ETL (Extraer, Transformar y Cargar Poblar)


Es el componente que permitir 2 cosas fundamentalmente
Integrar Datos cuando se tengan distintas fuentes (Diferentes manejadores de Base de
Datos)
Llevar informacin de las base de datos operacionales a las base de datos
dimensionales

Data WareHouse (DWH)

Es el gran almacn de datos que est estructurado para analizar la informacin, a


diferente nivel de detalle, de todos los procesos de negocios que tiene la organizacin. Es
la Base de Datos llamada estratgica o multidimensional. Una vez diseadas mediante el
ETL es poblada o llenada a partir de las Bases de Datos operacionales. El diseo va
orientado a encontrar medidas (Por ejemplo: montos vendidos, montos cobrados, horas
hombre utilizadas, etc) y dimensiones (Clientes, Productos, Tiempo, Organizacin,
Servicios, etc).

Data Marts
Constituyen una parte de un DWH. Si un DWH est formado por todos los procesos de la
organizacin, un Data Mart constituye un determinado proceso. Por ejemplo podramos
tener un Data Mart para Finanzas, otro para Logstica. Pueden ser preparados a partir de
un DWH o ser elaborados independientemente.

Tecnologias OLAP (On Line Analytical Process)


Es la tecnologa que permite aprovechar como est estructurada la informacin de un
DataMart o un Data WareHouse. Fundamentalmente es una tecnologa que permitir
analizar informacin dinmicamente a los niveles tctico y estratgico basados en Cubos
que contienen las medidas y las Dimensiones.

Minera de Datos
Constituyen algoritmos avanzados (estadsticas, inteligencia artificial) que intenta
descubrir cosas ocultas en los datos capturados a lo largo de las operaciones del negocio.
Es el llamado el descubrimiento del conocimiento y va direccionado al nivel estratgico
directamente.

Aplicaciones para Soporte de Decisiones


Van diseadas para cubrir las decisiones tcticas y estratgicas. En el mercado existen
una serie de herramientas que permiten construir estas aplicaciones, que se montan
sobre una solucin OLAP o Bases de Datos transaccionales.

Sistemas de Informacin para Ejecutivos


Son sistemas diseados para la alta direccin y que estn basados en alertas o
semforos que indican el estado de un determinado indicador de negocio. Este indicador
se le llama KPI (Key Performance Indicator). Estos estados estn reflejados en smbolos
como un semforo (rojo, verde, mbar) entre otros. Generalmente son obtenidos a partir
de un Balance ScoredCard)

Mtodo generales empelado en la inteligencia de negocios


La inteligencia de negocios es bsicamente un proceso de tratamiento e
integracin de los datos para convertirlos en informacin relevante que involucra
conceptos, mtodos de trabajo y herramientas.
A continuacin se muestran algunas herramientas empleadas en la inteligencia de
negocios:
1. Deteccin de anomalas (valores atpicos / cambio / deteccin de la desviacin).
La identificacin de los registros de datos inusuales, que pueden ser interesantes
o errores de datos y requieren una mayor investigacin.
Detectar fraudes
Detectar falencias en un campo especfico
Detectar sobrecarga de procesos
Asociacin (Affinity Grouping):
Detectar eventos que ocurren de manera simultnea.

Asociar conjuntos de compra de un tipo de cliente. Es decir si un cliente compra el


producto A tambin compra el producto B. Asociar gustos de un tipo de persona.
Si la persona escucha la cancin del artista A2.
2. Segmentacin (Clustering): Es la tarea de descubrir grupos y estructuras en los
datos que son de alguna manera u otra "similar", sin necesidad de utilizar las
estructuras conocidas en los datos.
Segmentar clientes por tipo de compra
Segmentar trabajadores
Las herramientas de inteligencia de negocios son un tipo de software de
aplicaciones diseado para colaborar con la inteligencia de negocios (BI) en
los procesos de las organizaciones. Especficamente se trata de
herramientas que asisten el anlisis y la presentacin de los datos. Pese a
que algunas herramientas de Inteligencia de Negocios incluyen la
funcionalidad ETL (Extraccin, Transformacin y Carga por sus siglas en
ingls), las herramientas ETL no son consideradas generalmente como
herramientas de Inteligencia de Negocios.
Tipos de Herramientas:
Cuadro de mando integral tambin llamados Dashboard.
Digital Dashboards o paneles de Control Digital - Tambin conocidos como
Business

Intelligence

Dashboards,

Dashboards

Ejecutivos,

Son

resmenes visuales de informacin del negocio, que muestran de una


mirada la comprensin del global de las condiciones del negocio mediante
mtricas e Indicadores Clave de Desempeo (KPIs).
Las principales actividades consideradas dentro de un proyecto de Inteligencia de
Negocio son:
Apertura Administrativa
Diseo de Modelos
Diseo de ETL

Diseo de Informes
Construccin de Modelos
Carga de Datos Histricos
Construccin de ETL
Documentacin y Programacin ETL
Revisin de Datos

Certificacin
Cierre Administrativo
La inteligencia de negocios en las organizaciones
Las organizaciones actuales tienen la posibilidad de recopilar y almacenar volmenes
nunca imaginables de datos operativos e informacin de clientes, el reto es cmo emplear
toda esta informacin para tomar mejores decisiones. La inteligencia de negocios ofrece a
las organizaciones un marco para analizar la gran cantidad diaria de datos a fin de extraer
valoraciones que puedan proporcionar una ventaja decisiva en la competitiva economa
actual.
Al llevar a la prctica estos conocimientos, segn Pea (2006), las compaas pueden
obtener importantes beneficios en forma de mayores ganancias, una mejor capacidad de
reaccionar ante los cambios en la demanda del mercado. Los conocimientos y la
infraestructura especial que se precisan para crear, mantener y utilizar sistemas de
inteligencia de negocios ha supuesto que nicamente las compaas ms grandes hayan
podido disponer de los recursos necesarios para implementar soluciones de inteligencia
de negocios.

Perfil de la inteligencia de negocios


El aumento en el volumen de informacin accesible y en su velocidad de circulacin,
plantea retos importantes a la gestin diaria en cualquier tipo de empresa. En la
actualidad, el flujo de informacin viene a representar el papel de la circulacin sangunea
de una organizacin. Por tanto, el perfil de la inteligencia del negocio, segn Pea (2006),
se centra en el seguimiento y el anlisis estratgico de los avances tecnolgicos, de forma

sistemtica para la captura, el anlisis, la difusin y la explotacin de las informaciones


tcnicas.
Esto implica el conocimiento del entorno externo e interno de la organizacin, para que los
ejecutivos cuenten con la informacin estratgica oportuna y tomen acciones efectivas
antes de que los eventos ocurran abordando cuatro conceptos bsicos: administracin del
conocimiento, el ciclo de la inteligencia de negocios, el entorno de trabajo, la creacin de
aplicaciones y se identifican los aspectos necesarios para formular modelos de solucin.

Administracin del conocimiento


La administracin del conocimiento es una disciplina que articula personas, procesos,
contenido y tecnologa, se origina y reside en el cerebro de las personas, por lo que la
generacin, transferencia y aplicacin del conocimiento debe ser fomentada y
recompensada, dado que la administracin del conocimiento es ms un reto cultural y
organizacional que un asunto de tecnologa.
En ese sentido, es el proceso mediante el cual el aprendizaje individual y la experiencia
pueden ser representados, compartidos y utilizados para fomentar el mejoramiento del
conocimiento individual y el valor organizacional explica Pea (2006). Por otro lado, en
ciencias de la informacin se define al conocimiento como al conjunto de datos e
informacin destinados a resolver un determinado problema. Ver figura 1.

En ese sentido, Benavides (2003) seala que cualquier empresa se enfrenta a diferentes
retos a la hora de almacenar los datos que dificultan alcanzar una inteligencia de negocios
a nivel de empresa. La informacin normalmente se encuentra en lo que se podran
denominar silos de informacin, que pueden ser utilizados por distintas unidades de
negocio e incluso se pueden encontrar en plataformas dispares.

Ciclo de la inteligencia de negocios


Para Pea (2006) la Inteligencia de Negocios es mucho ms que una actitud empresarial
o una tecnologa a disposicin de las organizaciones; es un marco de referencia para la
gestin del rendimiento empresarial, un ciclo continuo por el cual las compaas definen

sus objetivos, analizan sus progresos, adquieren conocimiento, toman decisiones, miden
sus xitos y comienzan el ciclo nuevamente. En tal sentido, ayuda a los gerentes a tomar
mejores decisiones ms rpidamente en los niveles estratgico y operativo.
El ciclo se compone de cuatro fases o etapas a saber: anlisis, reflexin, accin y
medicin. Para lo cual el anlisis comienza por determinar los datos a recopilar, la
seleccin se basa en un entendimiento bsico y en supuestos de cmo opera la
organizacin, considerando aquello que es relevante a los clientes, proveedores,
empleados, los factores que afectan los insumos, entre otros.

Entorno de trabajo
Pea (2006) explica que las empresas pueden tener muchas razones diferentes para
abordar el entorno de trabajo, a travs de la planeacin y control de sus procesos en
apoyo de sus objetivos estratgicos, modernizacin, innovacin y expansin, y adems
pretendern hacerlo a la vista de la ampliacin hacia nuevos mercados desatendidos o el
desarrollo de su gama de productos, para aumentar sus cuotas de mercado.

Modelos de la solucin
Los modelos de solucin de la Inteligencia de Negocios procuran aprovechar las
bondades de la tecnologa de cmputo para resolver un problema de administracin de
conocimiento.
Al respecto las aplicaciones de la inteligencia de negocios tienden a crear sistemas
especializados en una funcin especfica de la empresa, que contribuya a la eficiencia en
el diagnstico de una situacin y tomar la decisin adecuada para la solucin mediante la
sistematizacin de los datos, refinamiento de la informacin y representacin del
conocimiento (Mndez, 2006).

Unidades de negocio

Las tcnicas de inteligencia de negocios son universalmente aplicadas a cualquier rea


de negocios y los procesos departamentales inservibles pueden ser significativamente
mejorados o mejor gestionados con la rpida informacin que proporciona la inteligencia
de negocios. Segn Vitt, Luckevich y Misner (2003) es una estructura organizacional, en
la cual un conjunto coherente de actividades funcionales se ejecutan dentro de una lnea
de negocios.

Toma de decisiones
Para Pea (2006) es el proceso mediante el cual se realiza una eleccin entre las
alternativas o formas para resolver diferentes situaciones de la vida, ya que se pueden
presentar en diferentes contextos: a nivel laboral, familiar, sentimental o empresarial. Por
otra parte, Mndez (2006) explica seis criterios para tomar una decisin eficaz:

Concentrarse en lo que realmente importa.

Realizar el proceso de forma lgica y coherente.

Considerar tanto los elementos objetivos como los subjetivos y utilizar una estructura de
pensamiento analtica e intuitiva.

Recoger la informacin necesaria para optar o elegir.

Recopilar las informaciones, opiniones, que se han formado en torno a la eleccin.

Ser directos y flexibles antes, durante y despus del proceso.

Estructura jerrquica de la toma de decisiones en las organizaciones


El rol que ocupa el personal de las empresas se agrupa en alguno de los tres niveles
jerrquicos de autoridad y responsabilidad, otorgndole atribuciones especficas dentro
del

marco

de

competencias

del

proceso

administrativo.

Segn

Pea

(2006)

tradicionalmente los niveles jerrquicos se representan como una pirmide divida en tres
partes, para destacar el orden ascendente de autoridad, el impacto de las decisiones y
competencias de las funciones que cada rango realiza.

Disciplinas de toma de decisiones

Segn Pea (2006) las disciplinas que apoyan la toma de decisiones son la
Administracin, la informtica se basa en la ingeniera de sistemas y los sistemas de
soporte a decisiones, que contribuyen al proceso de toma decisiones, como pilares
fundamentales en la inteligencia de negocios.
La tercera disciplina de la toma de decisiones se refiere a los sistemas de
almacenamiento de datos, su mantenimiento y depuracin hace que las bases de datos
resguarden datos confiables e ntegros que apoyen la toma de decisiones y Ingeniera
Artificial la principal aplicacin de esta ciencia es la creacin de mquinas para la
automatizacin de tareas que requieran un comportamiento inteligente.

Anlisis de los resultados


Dentro de un proceso de investigacin, la presentacin y el anlisis de los resultados
representa la fase integrativa del proceso diagnstico, metodolgico y terico que ha
realizado la investigadora dentro su desarrollo. Es precisamente dentro de esta etapa, que
se tiene la oportunidad de demostrar la sistematicidad de la investigacin, la coherencia
interna del estudio, as como el nivel de logro.
Los resultados evidencian que el perfil de la inteligencia de negocios y las reas
funcionales estn presentes, adems la evolucin de stas en el mbito tecnolgico han
sido radicales tanto en software como en los soportes fsicos, con una mayor velocidad y
capacidad de procesamiento y almacenamiento de la informacin que posibilitan la
digitalizacin de cualquier tipo de informacin, sonidos, imgenes, entre otros.
Por consiguiente la inteligencia su aplicacin y usos estn presentes en las empresas,
afirmaciones estas abaladas por Pea (2006). Sin embargo, algunos empleados
consideran que raras veces los gerentes conociendo las condiciones dentro de una
organizacin contribuyen a tomar mejores decisiones, de igual manera rara veces
aprovechan los recursos tecnolgicos para beneficiar al usuario a la utilizacin de
informacin relevante.

Los resultados evidencian que tanto la estructura jerrquica como las disciplinas de toma
decisiones estn presentes para destacar el orden ascendente de autoridad, el impacto
de las decisiones y competencias de las funciones que cada rango realiza,
particularmente en la toma de decisiones, empleo de recursos, ejecucin del trabajo y
supervisin de resultados.
En este orden de ideas, Pea (2006) afirma que para cada uno de los niveles jerrquicos
se define su alcance e impacto, motivando el desarrollo de reas de estudios
especializadas responsables en campos como la planeacin estratgica a cargo de los
mandos superiores, la direccin tctica correspondiente a los gerentes y el control
operativo por parte de los supervisores.
Finalmente, se totalizaron los puntajes obtenidos para cada variable y se procedi a
realizar las operaciones matemticas y estadsticas necesarias, adems de calcular el
coeficiente de relacin mediante el mtodo de Pearson. El resultado de r describe, en
primer lugar, la confiabilidad temtica descrita en las bases tericas y en segundo lugar, la
interioridad del contenido por parte de los sujetos; estos criterios en palabras de Pardinas
(1998), le confieren las caractersticas para ser consideradas como variables predictivas.
Al respecto, Vitt, Luckevich y Misner (2003) expresa su posicin en indicar que la
inteligencia de negocios es mucho ms que una actitud empresarial o una tecnologa a
disposicin de las organizaciones; de hecho, es un marco referencial para la gestin del
rendimiento empresarial, un ciclo continuo por el cual las compaas definen sus
objetivos, analizan sus progresos, adquieren conocimiento, toman decisiones, miden sus
xitos y comienzan el ciclo nuevamente.
En este sentido, Pea (2006) indica que la inteligencia de negocios ayuda a los gerentes
a tomar mejores decisiones ms rpidamente en los niveles estratgico y tctico, ya que
normalmente en los bancos se analizan datos provenientes de muchas fuentes, la
inteligencia de negocios negocia con el comportamiento de los clientes, proveedores,
competidores, empleados y otras entidades en la spera e informal conducta del negocio
del da a da, con la finalidad de tomar decisiones para cumplir con los objetivos
organizacionales.

Los resultados aqu expuestos coinciden con los de Fernndez (2006), quin elabor un
trabajo sobre la Toma de decisiones y autonoma de gestin directiva en las escuelas
bsicas, con el propsito de determinar la relacin entre la toma de decisiones y la
autonoma de gestin directiva en las escuelas bsicas de la Parroquia Concepcin,
Municipio La Caada de Urdaneta.
Para el anlisis de los datos se utiliz la estadstica descriptiva (media aritmtica) para los
indicadores y dimensiones de las variables, utilizando el paquete estadstico SPSS. Luego
se determin el coeficiente de correlacin de Pearson r= 0.40 para el grado de relacin
entre las variables.

Consideraciones finales
Se determin que los directores logran atender en forma medianamente adecuada la
toma de decisiones dentro de su autonoma de gestin calificada como media; asimismo,
la correlacin result positiva considerable. Se recomend organizar un proceso de
capacitacin para los directores de las escuelas bsicas, centrado en la toma de
decisiones y la autonoma de gestin, orientado desde una perspectiva terico-prctica,
que facilite la reflexin a partir de la realidad vivida en cada espacio escolar.
De acuerdo con los resultados derivados de la presente investigacin, se pudo comprobar
que segn los gerentes de la banca universal existe una relacin positiva muy fuerte entre
las variables inteligencia de negocios y toma de decisiones en la banca universal en
Venezuela, por cuanto a mayor nivel de inteligencia de negocios apliquen mayor ser la
efectividad en la toma de decisiones de los gerentes en la banca universal, mientras que
para los empleados la correlacin es positiva de intensidad moderada, pues consideran
que los gerentes aplican medianamente en su gestin la inteligencia de negocios en la
toma de decisiones.
En consecuencia, se recomienda incentivar programas de inteligencia de negocios a nivel
tctico donde los empleados (Coordinadores y Supervisores) puedan formarse como
futuros gerentes que apoyen la toma de decisiones en todos los niveles de la organizacin
para incrementar el valor y competitividad de la Banca Universal.
Se sugiere divulgar y promover la inteligencia de negocios en la estructura organizativa
como modelo de variabilidad organizacional para apoyar la toma de decisiones

empresariales en todos los niveles de la organizacin de una manera ms rpida y mejor


fundamentada para la obtencin de mayor rentabilidad de las inversiones en la banca
universal
Redes Neuronales.
Las redes neuronales son sistemas ideados como abstracciones de las estructuras
neurobiolgicas (cerebros) encontradas en la naturaleza y tienen la caracterstica de ser
sistemas desordenados capaces de guardar informacin.
En una red neuronal tendramos mltiples nodos que constituyen puntos de entrada de
los datos. Esos datos son agrupados y sometidos a un tratamiento mediante un algoritmo
que da lugar a que se obtengan unos resultados.

De las redes neuronales suele decirse que son cajas negras, porque el proceso de
tratamiento de los datos hasta obtener el resultado no siempre sigue unas pautas lgicas
o comprensibles por el ser humano. Sin embargo, su inters radicara en que son
herramientas tiles para realizar predicciones, por lo que son usadas en numerosas
aplicaciones.

rboles de Decisin.
rboles de Decisin. Tcnica que permite analizar decisiones secuenciales basada enel
uso de resultados y probabilidades asociadas.Los rboles de decisin se pueden usar
para generar sistemas expertos, bsquedasbinarias y rboles de juegos, los cuales sern
explicados posteriormente.

La induccin con rboles de decisin es uno de los mtodos ms sencillos y con


ms xitopara construir algoritmos de aprendizaje. Sirve como una buena
introduccin al rea deaprendizaje inductivo, y es muy sencillo de implementar.
Primero, se describen los rboles dedecisin como herramienta de desarrollo, y
luego se muestra cmo aprenderlos. Mientrastanto, se introducen ideas que
aparecen en todas las reas de aprendizaje inductivo.
Arboles de decisin como herramienta de desarrollo
Un rbol de decisin toma como entrada un objeto o una situacin descrita a
travs de unconjunto de atributos y devuelve una decisin: el valor previsto de
la salida dada la entrada.
Los atributos de entrada pueden ser discretos o continuos. A partir de ahora,
asumiremosentradas discretas. El valor de la salida puede ser a su vez discreto o
continuo; aprender unafuncin de valores discretos se denomina clasificacin;
aprender una funcin continua sedenomina regresin. Nos concentraremos en
clasificaciones booleanas, en las cuales cada ejemplo se clasifica como verdadero
(positivo) o falso (negativo).
Un rbol de decisin desarrolla una secuencia de test para poder alcanzar una
decisin. Cadanodo interno del rbol corresponde con un test sobre el valor de
una de las propiedades, y las ramas que salen del nodo estn etiquetadas con los
posibles valores de dicha propiedad. Cada nodo hoja del rbol representa el valor
que ha de ser devuelto si dicho nodo hoja es alcanzado.

La representacin en forma de rboles de decisin es muy natural para los


humanos; enrealidad muchos manuales que explican cmo hacer determinadas
tareas (por ejemplo,reparar un coche) estn escritos en su totalidad como un nico
rbol de decisin abarcando cientos de pginas
Reglas de Asociacin.
El objetivo de las reglas de asociacin es encontrar asociaciones o correlaciones entre los
elementos u objetos de bases de datos transaccionales, relacionales o datawarehouses.
Las reglas de asociacin tienen diversas aplicaciones como:

Soporte para la toma de decisiones

Diagnstico y prediccin de alarmas en telecomunicaciones

Anlisis de informacin de ventas

Diseo de catlogos

Distribucin de mercancas en tiendas

Segmentacin de clientes en base a patrones de compra

Las reglas de asociacin son parecidas a las reglas de clasificacin.


Se encuentran tambin usando un procedimiento de covering. Sin embargo, en el lado
derecho de las reglas, puede aparecer cualquier par o pares atributo-valor.
Para encontrar ese tipo de reglas se debe de considerar cada posible combinacin de
pares atributo-valor del lado derecho.
Para posteriormente podarlas usando cobertura (nmero de instancias predichas
correctamente) y precisin (proporcin de nmero de instancias a las cuales aplica la
regla).

Anlisis de Resultados
Dentro de un proceso de investigacin, la presentacin y el anlisis de los resultados
representa la fase integrativa del proceso diagnstico, metodolgico y terico que ha
realizado la investigadora dentro su desarrollo. Es precisamente dentro de esta etapa, que
se tiene la oportunidad de demostrar la sistematicidad de la investigacin, la coherencia
interna del estudio, as como el nivel de logro.

El anlisis de la informacin documental, debe estar orientada a probar la hiptesis. En


cambio, la interpretacin como proceso mentas-sensorial da un significado ms general a
los referentes empricos investigados, relacionndolos con los conocimientos consideraos
en el planteamiento del problema y en el marco terico y conceptual de referencia.
Durante este proceso, se descomponen los elementos que forman las estructuras del
problema. La descomposicin se realiza de los indicadores de cada variable cuyos
valores son susceptibles de aumento, disminucin o modificacin, luego se realiza
considerando pautas como las que se muestran a continuacin:
Conocer la estructura de la hiptesis de trabajo, si estas son muchas, cada una es
considerada como punto de referencia para el anlisis e interpretacin de los
resultados.
Orientar el anlisis y la interpretacin a facilitar el cruzamiento de los datos y
contribuir al logro de los objetivos generales y especficos de la investigacin.
Tener presente los lineamientos generales del marco terico y conceptual de
referencia, es decir, el anlisis y la interpretacin de los datos, deben realizarse
con enfoques, esquemas y conceptos empleados en el planteamiento del
problema.
Separar los datos de acuerdo a las tcnicas utilizadas para su obtencin, luego se
realizara la sntesis de los resultados, que permitir el fenmeno objeto de la
investigacin.
Seleccionar el tipo de anlisis e interpretacin que debe aplicarse, a fin de que la
probacin de la hiptesis se reduzca al menor nmero de dificultades.
los datos serna representados en tablas o cuadros estadsticos, segn el tipo de
anlisis, el tamao de la muestra y la naturaleza de la informacin, haciendo uso
de las tcnicas estadsticas, tales como: medidas de tendencia central y
dispersin, de asociacin. De esta manera se puede llegar hasta un anlisis de
resultados favorable.

SEGMENTACIN DE CLIENTES
La segmentacin de clientes consiste en segmentar y subdividir a sus clientes en funcin
de su comportamiento y necesidades para planificar y ejecutar una estrategia precisa e
individualizada por subgrupo, es esencial para lograr una ventaja competitiva que le
permita rentabilizar al mximo su relacin con cada uno de ellos, contactar con el mayor
nmero de clientes, y si es posible, canibalizar a los de su competencia, solapando su
rea de influencia y mermando su cuota de mercado. Los Sistemas de Informacin como
herramienta de apoyo en la segmentacin, incluyen los componentes junto con el resto de
informacin disponible para poder obtener los grupos de la forma ms diferenciada
posible y as dirigir la fuerza de ventas de la manera ms precisa y potente.
Aunque no existen dos clientes iguales, es posible diferenciar perfiles de clientes muy
similares entre s. La zona donde vive el usuario, su comportamiento, su educacin, su
empleo, sus gustos todo ello proporciona informacin valiosa que, cruzada y analizada,
permite distinguir grupos perfectamente distinguibles ms all de grandes clster
genricos de escaso valor para la orientacin especfica de un producto o servicio.
Obteniendo informacin valiosa de la empresa con respecto ha su:
Informacin. Toda la informacin transaccional y comportamental que una empresa tiene
sobre sus propios clientes
Fuentes Externas. Combinndola con bases de datos con informacin pblica sobre
aspectos

demogrficos,

geogrficos,

psicogrficos

comportamentales

de

los

consumidores
Investigacin de Clientes. Junto con investigacin sobre actitudes, gustos, percepciones y
aspiraciones
Como resultado, podemos distinguir con precisin los distintos grupos de valor, e incluso
ir ms all y detectar nuevos nichos de mercado que representan oportunidades
emergentes y tendencias de negocio.

Tipos de segmentacin habitualmente utilizadas


Segmentaciones Descriptivas y Clasificativas:

Por rea geogrfica (por regin: urbana o rural, ciudad, pas, clima, etc.)

Demogrficas (Edad, gnero, estado civil, etc.)

Por nivel socioeconmico (ingreso, clase social y ocupacin)

Por cultura (estilo de vida y cultura)

Comportamentales (se refiere al comportamiento relacionado con el producto,


utiliza variables como los beneficios deseados de un producto y la tasa a la que el
consumidor utiliza el producto.)

Actitudinales

Psicogrficas (Consiste en examinar atributos relacionados con pensamientos,


sentimientos

conductas

de

una

persona.

Utilizando

dimensiones

de

personalidad, caractersticas del estilo de vida y valores.)

Valor de Cliente(criterios de conducta del comprador)

La segmentacin estratgica.
Segmentaciones Orientadas a Acciones:

Riesgo de Abandono (Es clave conocer el valor de vida o valor futuro previsto del
cliente, para dimensionar la oferta de recuperacin)

Propensiones de Compra

Fidelidad

Cross Selling Venta Cruzada (Es definitivo el anlisis de potencial de demanda


por divisin, en sectores de retail los anlisis de asociacin permiten generar
cestas de la compra y patrones secuenciales de compra.)

VENTAS CRUZADAS
Es una solucin que le brinda a su empresa la posibilidad de aumentar sus ventas a
travs de la deteccin de oportunidades en venta cruzada de productos y servicios.
Ahora usted puede ampliar la oferta a sus clientes a travs de una aplicacin tecnolgica
que le permitir conocer profundamente qu es lo que necesitan, cundo lo precisan y
qu canales son los ms eficientes para atender sus necesidades.
Beneficios clave:
Incrementar la rentabilidad mediante el aumento de ventas,
Fidelizar la cartera de clientes,
Lograr mayores tasas de satisfaccin del cliente y de retencin.
La venta cruzada es un elemento importante en la estrategia del Nuevo Marketing.
Significa simplemente lograr que el cliente adquiera varios productos de una familia de
marcas. La venta cruzada es una estrategia para incrementar las ventas, promoviendo
productos o servicios complementarios para aumentar la transaccin promedio. El
ejemplo ms comn es el de las comidas rpidas, donde despus de haber ordenado un
combo de hamburguesa la persona le ofrece si lo desea con papas y gaseosa
agrandadas (esto sera up-selling porque est incrementando el valor del producto
existente: papas y gaseosa), o si desea complementar su orden con un helado de postre
(este sera cross-selling porque le est ofreciendo un producto complementario a lo que
ya compr).
Estimular la venta cruzada es una forma simple de incrementar las ventas.
La venta cruzada se enfoca en venderles a los clientes actuales, aquellos que ya lo
conocen y confan en su negocio, algo mucho ms probable que pretender venderle a
alguien algo por primera vez.
Y extrapolando el ejemplo de las comidas rpidas, usted podra implementar en su propio
negocio una sencilla estrategia de venta cruzada para aumentar los ingresos, pues existe
unan alta probabilidad de que la mayora de sus clientes no conozcan todo lo que tiene
para ofrecerles

PREDICCIN DE VENTAS
El pronstico de ventas es una estimacin de la ventas fututas (ya sea en trminos fsicos
omonetarios) de uno o varios productos (generalmente todos) para un periodo de tiempo
determinado. Realizar el pronstico de ventas nos permite elaborar el presupuesto de
ventas y, a partir de ste, elaborar los dems presupuestos, tales como el de produccin,
el de compra de insumos o mercadera, el de requerimiento de personal, el de flujo de
efectivo, etc.
En una tarea de prediccin, la nica manera de comprobar la exactitud de la clasificacin
es esperar los resultados y evaluarlos. La razn principal para el tratamiento de la
prediccin como una actividad separada de la clasificacin y la estimacin es que en el
modelado predictivo hay otras cuestiones relativas a la relacin temporal de las variables
de entrada o predictores de la variable objetivo.
Cualquiera de las tcnicas utilizadas para la clasificacin y la estimacin puede ser
adaptada para su uso en la prediccin mediante el uso de ejemplos de entrenamiento
donde el valor de la variable que se predijo que ya es conocido, junto con los datos
histricos de esos ejemplos. Los datos histricos se utilizan para construir un modelo que
explica el comportamiento observado en los datos.
Cuando este modelo se aplica a nuevas entradas de datos, el resultado es una prediccin
del comportamiento futuro de los mismos.
Algunos ejemplos de las tareas de prediccin tanto en el mbito empresarial como en la
investigacin son:

Predecir qu clientes se retirarn dentro de los prximos seis meses.

Predecir qu suscriptores de telefona ordenarn un servicio de valor


agregado.

Predecir el porcentaje de aumento en las muertes de trfico el prximo ao

si se aumenta el lmite de velocidad.

Predecir si una molcula particular, en el descubrimiento de frmacos dar


lugar a un nuevo medicamento rentable para una empresa farmacutica.

La mayora de las tcnicas de Minera de Datos son adecuadas para usar la


prediccin a partir de datos histricos como tambin de datos de entrenamiento de forma

adecuada. La eleccin de la tcnica depende de la naturaleza de los datos de entrada, el


tipo de valor que se predice, y la importancia concedida a la explicabilidad de la
prediccin.

DETECCIN DE FRAUDE.

El problema de la deteccin de fraude, radica en el anlisis de perfiles de usuario que


permitan describir el comportamiento de un cliente con el fin de detectar anomalas. Es
por ello que muchos del software CRM (Customer Resource Management) incluyen
algoritmos de MD con ese fin.
El uso de la MD para la deteccin de anomalas con el fin de detectar fraudes puede ser
muy variado, encontrndose distintos tipos de aplicaciones en la literatura actual. Es as
como se realiza una investigacin exhaustiva de uso de la MD para la deteccin de
fraudes, definiendo los tipos y subtipos, mtodos y tcnicas para la deteccin de fraudes,
as como las limitaciones de stos.
Es destacable que Clementine contiene mltiples algoritmos para la deteccin de fraudes,
entre los cuales se encuentran los de Clusterizacin y de Deteccin de Anomalas
(Outlier). El software analiza los resultados obtenidos con el set de datos introducidos y
busca la mejor alternativa con el menor error posible al aplicar cada uno de los algoritmos.

Deteccin automtica de fraude


La deteccin automtica de fraude es el proceso de descubrir fraude utilizando mquinas,
comnmente computadoras con software diseado especficamente para esto. Es uno de
los medios ms utilizados para la deteccin de fraude en la actualidad, debido a que los
volmenes de informacin a ser analizados por los analistas de las compaas
encargados de detectar posibles estafas son demasiado grandes, hacindose
indispensable la asistencia de software capaz de efectuar minera de datos y extraccin
de conocimiento para obtener informacin relevante.

Impacto del fraude


Anualmente las empresas, gobiernos y personas en general experimentan prdidas
millonarias a nivel mundial como producto del fraude. Solo en los Estados Unidos en el

2004 se estimaron prdidas de 264 000 millones de dlares por causa del fraude, de
todos los sectores el que ms prdidas present fue el de las telecomunicaciones 150 000
millones, seguido por las aseguradoras con 67 000 millones y despus estn las prdidas
causadas por el lavado de dinero que fueron de 40 000 millones.1 Los tipos de fraude son
muy diversos, puesto que abarca prcticamente cualquier tipo de engao o estafa,
algunos de los ms comunes son:

El fraude de identidad que es cuando un usuario deshonesto que ha cometido algn


abuso en la utilizacin de un servicio, lo solicita nuevamente bajo una identidad falsa,
ejemplo son los servicios de telefona donde en el contrato del servicio se entrega un
nombre y una direccin falsa por lo que nunca se paga la factura y cuando se le cancela
el servicio, abre otro contrato con otra identidad, esto tambin es un ejemplo del fraude de
suscripcin.2
El fraude contra las aseguradoras es aquel en el cual se le hace creer a las compaas
aseguradoras que los daos recibidos por el objeto del seguro fueron mayores que los
reales, entre otros.
En subastas online los estafadores suelen crear una cuenta con la que se va a realizar la
falsa venta y varias cuentas cmplices para que lo califiquen como un vendedor confiable
y cuando el cliente ha pagado entonces nunca le envan su compra.3

Tcnicas para la deteccin automtica de fraude


La primera industria en utilizar tcnicas para la prevencin del fraude fueron las
compaas telefnicas, las compaas de seguro y los bancos. Uno de los primeros
ejemplos de aplicacin exitosa de tcnicas para el anlisis de los datos en la industria
bancaria fue el sistema para el asesoramiento contra el fraude Falcon, el cual est basado
en una red neuronal.
El fraude en las transacciones comerciales en internet, ha surgido recientemente como
una gran preocupacin puesto que el fraude en ellas es 12 veces mayor que en las
realizadas en las tiendas. Las estafas que implican telfonos mviles, plizas de seguro,
declaraciones de impuestos, transacciones de tarjetas de crdito, etc. representan un
gran problema para los negocios y los gobiernos, pero detectarlos y prevenirlos no es

tarea fcil en la actualidad, puesto que el fraude es un crimen adaptativo, por lo tanto
necesita mtodos de deteccin especialmente inteligentes para detectarlo. Estos mtodos
se encuentran fundamentalmente en las reas de la extraccin de conocimientos en
bases de datos (KDD), la minera de datos, el aprendizaje automtico y la estadstica.
Ellos ofrecen soluciones aplicables y exitosas en la lucha contra el fraude en distintas
reas.

Tcnicas estadsticas
Ejemplos de tcnicas estadsticas de anlisis de datos son:
Tcnicas de procesamiento de datos para la deteccin, validacin, correccin de errores y
completamiento de datos perdidos o incorrectos.
Clculo de varios parmetros estadsticos como promedios, percentiles, mtricas de
rendimiento, distribuciones probabilsticas, y otras. Por ejemplo los promedios pueden
incluir la duracin promedio de llamadas telefnicas, el promedio de la cantidad de
llamadas por mes y el de los retrasos al pagar las facturas.
Modelos y distribuciones de probabilidad de varias actividades de negocios, ambos en
funcin de varios parmetros o distribuciones probabilsticas.

Perfiles computarizados de los usuarios.


Anlisis de series de datos contra tiempo cuando este resulta relevante para los mismos.
Clasificacin y agrupamiento de los datos para encontrar patrones y asociaciones entre
los grupos.
Algoritmos de emparejamiento para detectar anomalas en el comportamiento de las
transacciones o los usuarios al compararlos con los perfiles previamente creados.
Tambin son necesarias tcnicas para eliminar falsas alarmas, estimar los riesgos y
predecir el comportamiento futuro de las transacciones y usuarios actuales.

Tcnicas de inteligencia artificial

El manejo del fraude es una actividad que requiere un uso intensivo del conocimiento. Las
principales tcnicas de Inteligencia artificial utilizadas para ello son:

Minera de datos para clasificar, agrupar y segmentar los datos y de modo automtico
encontrar asociaciones y regularidades en los datos que puedan representar patrones
interesantes, incluidos aquellos relacionados con el fraude.
Sistemas expertos que expresan la experiencia en la deteccin de fraude en forma de
reglas.
Reconocimiento de patrones para detectar de forma aproximada clases, grupos o
patrones con comportamiento sospechosos, esto puede hacerlo de forma completamente
automtica (utilizando aprendizaje no supervisado) o comparando con un conjunto
entrenante inicial (aprendizaje supervisado).

Utilizacin de las caractersticas sociales del fraude


El fraude es, en muchos casos, un fenmeno social y por lo tanto la deteccin del mismo
se puede beneficiar grandemente de analizar las relaciones de los usuarios, detectando
patrones en las interacciones que se repitan de un usuario fraudulento al otro, este
anlisis es de especial utilidad en escenarios donde los estafadores utilizan cmplices
para sus estafas y es muy importante para la deteccin del fraude de identidad. Para este
anlisis se suele representar a los usuarios y sus relaciones mediante grafos. Las
tcnicas ms utilizadas para detectar a los usuarios fraudulentos en estos modelos son
las Redes Bayesianas y los Modelos Ocultos de Markov, debido a su capacidad de
manejar incertidumbre y ofrecer una probabilidad de que se haya detectado fraude o no.

Aplicaciones
La deteccin automtica de fraude est integrada en muchas reas de la vida cotidiana,
se utilizan sistemas de este tipo para evitar:

El fraude telefnico, basndose en la duracin de las llamadas, el costo de las mismas,


los nmeros a los que se llama y la comparacin de los perfiles con los de conocidos
usuarios fraudulentos.
Estafas en ventas online, utiliza sobre todo informacin de las relaciones con otros
usuarios pues muchas veces los estafadores crean cuentas falsas que utilizan como
cmplices para aumentar su confiabilidad como vendedor en esa red, pero despus de
cometer una estafa y abandonar una identidad suelen reutilizar las cuentas cmplices
para la siguiente, por lo tanto esto se usa para su deteccin.
El fraude contra las compaas aseguradores dada su naturaleza variada obliga a la
combinacin de mltiples mtodos de deteccin, los cuales van desde sistemas basados
en reglas, anlisis de relaciones de los implicados en la investigacin hasta
reconocimiento de patrones en el texto de documentos.

Muchos otros tipos de fraude


Es importante sealar que la deteccin automtica de fraude no pretende eliminar el
trabajo de los analistas humanos, sino eliminar la informacin superflua y resaltar los
datos que podran ser de utilidad, as como los casos donde es ms probable que se haya
cometido fraude, pero en la mayora de los casos la decisin es tomada en ltima
instancia por los analistas humanos.

CLASIFICADOR DE BAYER
Un clasificador NaveBayes es un clasificador probabilstico simple basado en aplicando el
teorema de Bayes con fuertes supuestos de independencia. Un trmino ms descriptivo
para el modelo de probabilidad subyacente sera "modelo de produccin independiente".
Una visin general de los clasificadores estadsticos se da en el artculo sobre el
reconocimiento de patrones.
En trminos simples, un clasificador de Bayes ingenuo asume que la presencia o
ausencia de una caracterstica particular, no est relacionada con la presencia o ausencia
de cualquier otra caracterstica, teniendo en cuenta la variable de clase. Por ejemplo, una
fruta puede ser considerada como una manzana si es rojo, redondo, y alrededor de 3 "de
dimetro. Un clasificador de Bayes ingenuo considera cada una de estas funciones para

contribuir de manera independiente a la probabilidad de que esta fruta es una manzana,


independientemente de la presencia o ausencia de las otras caractersticas.
Para algunos tipos de modelos de probabilidad, clasificadores de Bayes ingenuo se puede
entrenar de manera muy eficiente en un entorno de aprendizaje supervisado. En muchas
aplicaciones prcticas, la estimacin de parmetros para los modelos Bayesnaive utiliza el
mtodo de mxima verosimilitud, es decir, se puede trabajar con el modelo Bayesnaive
sin creer en la probabilidad bayesiana o el uso de cualquiera de los mtodos bayesianos.
A pesar de su diseo ingenuo y supuestos parecer simplistas, clasificadores de Bayes
ingenuo han funcionado bastante bien en muchas situaciones del mundo real complejos.
En 2004, un anlisis del problema de clasificacin Bayesiano mostr que existen razones
tericas slidas para la eficacia aparentemente inverosmil de clasificadores de Bayes
ingenuo. Sin embargo, una comparacin exhaustiva con otros algoritmos de clasificacin
en 2006 mostr que la clasificacin de Bayes es superado por otros enfoques, como los
rboles o bosques impulsado al azar.
Una ventaja de Bayesnaive es que slo se requiere una pequea cantidad de datos de
entrenamiento para estimar los parmetros necesarios para la clasificacin. Porque se
supone que las variables independientes, slo las varianzas de las variables para cada
clase tienen que ser determinados y no a toda la matriz de covarianza.
Modelo probabilstico
Abstracto, el modelo de probabilidad para un clasificador es un modelo condicional.
Ms de una variable de clase depende de un pequeo nmero de resultados o clases,
condicionadas a la funcin a travs de varias variables. El problema es que si el nmero
de caractersticas es grande o cuando una caracterstica puede tomar en un gran nmero
de valores, a continuacin, basndose en un modelo de tales tablas de probabilidad no es
factible. Por lo tanto, reformular el modelo para que sea ms manejable.
Usando el teorema de Bayes, esto puede escribirse
En la llanura Ingls la ecuacin anterior se puede escribir como
En la prctica, existe un inters slo en el En numerador de la fraccin, debido a que el
denominador no depende de y se dan los valores de los elementos, de modo que el
denominador es efectivamente constante. El numerador es equivalente al modelo de
probabilidad conjunta
que se puede escribir de la siguiente manera, utilizando la regla de la cadena para
aplicaciones repetidas de la definicin de probabilidad condicionada:

Ahora los "ingenuos" hiptesis de independencia condicional entran en juego: se supone


que cada funcin es condicionalmente independiente de cualquier otra caracterstica de la
categora dada. Esto significa que
,,, Y as sucesivamente,
para, y por lo que el modelo de articulacin puede ser expresado como
Esto significa que bajo las hiptesis de independencia arriba, la distribucin condicional
sobre la variable de clase es:
donde es un factor de escala slo depende de, es decir, una constante si se conocen los
valores de las variables de caractersticas.
Los modelos de esta forma es mucho ms manejable, ya que tener en cuenta en una de
las llamadas distribuciones de probabilidad a priori e independiente de la clase. Si hay
clases y si un modelo para cada uno se pueden expresar en trminos de parmetros,
entonces el modelo de Bayes ingenuo correspondiente tiene parmetros nrk. En la
prctica, a menudo y son comunes, por lo que el nmero total de parmetros del modelo
de Bayes ingenuo es, dnde est el nmero de elementos binarios utilizados para la
clasificacin.
Modelos de eventos de estimacin de parmetros y
Todos los parmetros del modelo se pueden aproximar con frecuencias relativas del
conjunto de entrenamiento. Estas son las estimaciones de mxima verosimilitud de las
probabilidades. Una clase 'antes se puede calcular suponiendo clases equiprobables, o
calculando una estimacin de la probabilidad de clase del conjunto de entrenamiento.
Para estimar los parmetros para la distribucin de una caracterstica, uno debe suponer
una distribucin o generar modelos no paramtricos para las caractersticas del conjunto
de entrenamiento.
Las hiptesis sobre la distribucin de funciones se llaman el modelo de eventos del
Clasificador bayesiano. Por caractersticas discretas como las encontradas en la
clasificacin de documentos, las distribuciones multinomiales y Bernoulli son populares.
Estos supuestos conducen a dos modelos distintos, que a menudo se confunden. Cuando
se trata de los datos continuos, un supuesto tpico es que los valores continuos asociados
con cada clase se distribuyen segn una distribucin de Gauss.
Por ejemplo, supongamos que el banco de datos contienen un atributo continuo. En
primer lugar, segmentar los datos por la clase y, a continuacin, calcular la media y la
varianza de cada clase. Sea la media de los valores en asociados a la clase C, y dejar

que ser la varianza de los valores en asociados a la clase c. Entonces, la probabilidad de


un valor dado una clase, se puede calcular mediante la conexin en la ecuacin de una
distribucin normal con parmetros por y. Es decir,
Otra tcnica comn para la manipulacin de valores continuos es usar binning para
discretizar los valores de caractersticas, para obtener un nuevo conjunto de
caractersticas de Bernoulli-distribuidos. En general, el mtodo de distribucin es una
mejor opcin si hay una pequea cantidad de datos de entrenamiento, o si se conoce la
distribucin precisa de los datos. El mtodo de discretizacin tiende a hacer mejor si hay
una gran cantidad de datos de entrenamiento, ya que va a aprender para adaptarse a la
distribucin de los datos. Desde Bayes ingenuo se utiliza tpicamente cuando una gran
cantidad de datos est disponible, se prefiere generalmente el mtodo de discretizacin
sobre el mtodo de distribucin.
Correccin de muestra
Si una clase dada y el valor de caracterstica nunca ocurren juntos en los datos de
entrenamiento, entonces la estimacin de probabilidad basada en frecuencia ser cero.
Esto es problemtico, ya que acabar con toda la informacin de las otras probabilidades
cuando se multiplican. Por lo tanto, a menudo es deseable incorporar una correccin
pequea de ejemplo, denominado pseudocount, con toda probabilidad, las estimaciones
de tal manera que no hay probabilidad alguna vez se ajusta para que sea exactamente
cero.
La construccin de un clasificador desde el modelo de probabilidad
Hasta ahora la discusin ha derivado del modelo de caractersticas independientes, es
decir, el modelo de probabilidad de Bayes ingenuo. El clasificador NaveBayes combina
este modelo con una regla de decisin. Una regla comn es para recoger la hiptesis de
que es ms probable, esto se conoce como el mximo de una regla de decisin a
posteriori o MAPA. El clasificador correspondiente, un clasificador de Bayes, es la funcin
definida de la siguiente manera:
Discusin
A pesar del hecho de que los supuestos independencia de largo alcance son a menudo
inexactos, el clasificador de Bayes ingenuo tiene varias propiedades que lo hacen

sorprendentemente til en la prctica. En particular, el desacoplamiento de la clase de


entidad distribuciones condicionales significa que cada distribucin se puede estimar de
forma independiente como una distribucin dimensional. Esto ayuda a aliviar los
problemas derivados de la maldicin de la dimensionalidad, como la necesidad de que los
conjuntos de datos que la escala exponencialmente con el nmero de caractersticas.
Mientras Bayes ingenuo a menudo falla para producir una buena estimacin de las
probabilidades de clase correctas, esto no puede ser un requisito para muchas
aplicaciones. Por ejemplo, el clasificador NaveBayes har que el MAP decisin de
clasificacin regla correcta, siempre y cuando la clase correcta es ms probable que
cualquier otra clase. Esto es cierto independientemente de si la estimacin de la
probabilidad es ligeramente, o incluso groseramente inexactos. De esta manera, el
clasificador general puede ser lo suficientemente robusta como para ignorar deficiencias
graves en su modelo de probabilidad ingenua subyacente. Otras razones para el xito
observado del Clasificador bayesiano se discuten en las obras citadas a continuacin.
Ejemplos
Clasificacin Sexo
Problema: clasificar si una determinada persona es un hombre o una mujer en base a las
caractersticas medidas. Las caractersticas incluyen la altura, el peso y tamao del pie.
Capacitacin
Capacitacin ejemplo dado a continuacin.
El clasificador creado a partir del conjunto de entrenamiento usando un supuesto de
distribucin gaussiana sera:
Digamos que tenemos clases equiprobables para P = P = 0,5 - Esta distribucin de
probabilidad a priori se podra basar en el conocimiento de las frecuencias en la poblacin
en general, o de la frecuencia en el conjunto de entrenamiento.
Pruebas
A continuacin una muestra para ser clasificado como un hombre o mujer.
Deseamos para determinar qu posterior es mayor, hombre o mujer. Para la clasificacin
masculina el posterior viene dada por
Para la calificacin de la mujer posterior viene dada por
La evidencia se puede calcular ya que la suma de las probabilidades a posteriori debe ser
igual a uno.

La evidencia puede ser ignorada ya que es una constante positiva. Ahora determinamos
la distribucin de probabilidad para el sexo de la muestra.
,
donde y son los parmetros de distribucin normal que se han determinado previamente
desde el conjunto de entrenamiento. Tenga en cuenta que un valor mayor que 1 est bien
aqu - es una densidad de probabilidad en lugar de una probabilidad, ya que la estatura es
una variable continua.
Desde numerador posterior es mayor en el caso femenino, predecimos la muestra es de
sexo femenino.
Clasificacin del documento
Aqu es un ejemplo prctico de la clasificacin bayesiano ingenuo el problema de
clasificacin de documentos. Considere el problema de la clasificacin de los documentos
por su contenido, por ejemplo en la no-correos electrnicos no deseados y spam.
Imagnese que los documentos se extraen de una serie de clases de documentos que se
pueden modelar como conjuntos de palabras, donde la probabilidad de que la i-sima
palabra de un documento dado se produce en un documento de la clase C se puede
escribir como
A continuacin, la probabilidad de que un documento dado D contiene todas las palabras,
dada una clase C, es
La pregunta que queremos responder es: "cul es la probabilidad de que un documento
de D dado pertenece a una determinada clase C?" En otras palabras, cul es?
Ahora, por definiciny
El teorema de Bayes manipula estos en un comunicado de la probabilidad en trminos de
probabilidad.
Supongamos por un momento que slo hay dos clases mutuamente excluyentes, S y S,
de manera que cada elemento est en una u otra;y utilizando el resultado bayesiano
anteriormente, podemos escribir:
Dividiendo una por la otra da:
Lo que puede ser re-factorizar como:
Por lo tanto, la relacin de probabilidad p/p se puede expresar en trminos de una serie
de coeficientes de probabilidad. La probabilidad p real puede ser fcilmente calculada a
partir de registro/p) basado en la observacin de que p p = 1.

Bibliografa
(http://centrodeartigo.com/articulos-educativos/article_4294.html)
(http://publicaciones.urbe.edu/index.php/cicag/article/viewArticle/1068/2833)
(http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/apriori.pdf)
http://repositorio.utp.edu.co/dspace/bitstream/11059/1339/1/006312G216.pdf
(http://www.jecas.org/ponencias/jueves/tarde/desarrollosII/businessintelligenceLaRioja.pdf
(http://edinsonbi.blogspot.mx/2010/05/segmentacion-de-clientes.html)
http://www.hexalab.com.uy/soluciones/inteligencia-de-negocios-analitica/
http://inteligencia-exitosa.blogspot.mx/2009/09/la-venta-cruzada.html

You might also like