You are on page 1of 5

Puntos importantes artculos revisados.

Nota: Considerar los trabajos mencionados por Choi donde se busca realizar un
estudio de varias medidas de similitud.

Interestingness measures for data mining: A survey.


Considera medidas de la capacidad de inters en minera de datos donde
estas seleccionan y posicionan patrones de acuerdo con su inters
potencial para los usuarios. Clasifica estas medidas desde varias
perspectivas, compara sus propiedades e identifica sus roles en los
procesos de minera. Diversifica estas medidas en 9 categoras en las
cuales el nivel de inters enfatiza. Adems de lo anterior establece tres
grupos basndose en estos 9 grupos definiendo as una clasificacin como
medidas: objetivas, subjetivas y basadas en semntica. Las medidas
mencionadas como objetivas estn basadas en probabilidad considerando
una tabla de contingencia Tabla III considerando registros. Considerar
que medidas estn en la forma probabilstica y hacer mencin de ellas
(pg. 9). Las propiedades consideras en este trabajo son las propuestas
por Piatetsky-Shapiro [1991]: independencia estadstica, funciones
montonas crecientes y funciones montonas decrecientes (pg. 11).
Propone tambin propiedades a cumplirse basndose en la tabla de
contingencia tales como: funciones simtricas bajo la perpetuacin de
variables, la funcin es la misma aunque se escale una fila o columna por
un factor positivo, la funcin cambia si las filas o columna son permutadas
lo que provoca que el signo cambie, la funcin sigue siendo la misma si
ambas filas y columnas son permutadas, entre otras que consideran su
comportamiento geomtrico (pg. 12). Considerar la tabla de propiedades
que cumplen las medidas basadas en probabilidad, punto de vista similar
al nuestro (pg. 13). Verificar que medidas de similitud estn asociadas a
las medidas de diversidad (pg. 26).

Interestingness measures for association rules: Combination between lattice and


hash tables.
Considerar las medidas de nivel de inters, sobre todo la forma de Jaccard
para este caso y la forma de calcular la medida. Considerar los trminos
de soporte y confianza.
A note on similarity-based definitions of possibility and probability.
Define conceptos bsicos de posibilidad y probabilidad los cuales en
cuestin estn basados en lgica difusa y ms especficamente en
trminos de similitud, una similitud basada en posibilidad y
probabilidad. Por un lado la posibilidad de un elemento q k es el grado
de similitud dentro de un mximo hacia un objeto con un atributo ak .
Menciona que la definicin tradicional de probabilidad es un caso especial
de una definicin basada en similitud cuyo grado perfecto es igual a 1.
Dados dos objetos (vectores) teniendo un factor de importancia w j para
cada atributo en el intervalo [0, 1] y sumando hacia la unidad, suponer un

grado de similitud s j , entonces el grado de similitud entre los dos


objetos anteriores est dado por la formula (pg. 3).
Nota: Mostrar las diferentes formas encontradas para las medidas de similitud del
artculo (probabilsticas, binarias, etc.). Enfatizar en que las medidas de similitud son
binarias. Mencionar que se estn tomando en cuenta como factor de agrupamiento las
propiedades matemticas propuestas por el Dr. Ildar en sus artculos adems de la
perspectiva particular nuestra de teora de conjuntos. Establecer esos cambios de la
OTU que se muestra en Choi hacia la tabla de contingencia de los conjuntos A y B
respectivamente.
Mencionar la definicin general de medida de similitud, el contexto sobre del cual se
propone tal agrupamiento de estas medidas de similitud, porque agruparlas
(seleccionar la medida de similitud apropiada segn el trabajo a realizarce). Definir las
propiedades que una medida de similitud debe cumplir para el caso de una t-norma
(Batyrshin). Formalizar y demostrar las operaciones realizadas para de las propiedades
propuestas.

Similarity measures for binary and numerical data: a survey.


Analiza a las medidas de similitud tomando en cuenta sus propiedades
matemticas y derivabilidad, as como sus relaciones considerando
comparaciones globales y locales, basadas en su orden y valor de
comparacin, toma en cuenta tambin datos binarios y numricos.
(Lerman, 1970; Gower and Legendre, 1986) consideran que las medidas
de similitud para datos binarios pueden ser expresados como funciones
de cuatro cantidades tales Nota: no muestra la definicin que
mostramos nosotros:
Numero de atributos en comn por los dos objetos interseccin
a.
Nmero de atributos en x y no en y x menos y b.
Nmero de atributos en y pero no en x y menos x c.
Nmero de atributos que no se encuentran en ninguno de los dos x
o y interseccin del complemento x, complemento de y.
Considera 8 y 5 medidas de similitud (verificar con las de Choi), considera
el tipo de medidas de similitud llamadas de Tversky, las medidas de similitud
considera que estn diferenciadas por el tamao del universo de influencias de
la similitud, dependiendo de la medida, dos objetos pueden ser ms similares en
un universo pequeo que en uno grande. Menciona la indeterminacin de
algunas de las primeras 8 medidas para el caso de las tripletas (a , b , c) .
Menciona la derivacin de las 5 medidas posteriores de un tipo de disimilitud de
Baulieus (caso de dualidad para nuestro trabajo hacia algunas frmulas de
distancia) considerar mostrar dicha frmula. Mencionar las medidas que se
vuelven indeterminadas y por qu.
Toma en cuenta la equivalencia entre medias de similitud dada la
definicin 3 basndose en eso genera diferentes clases, para trabajo posterior,
considerar su representacin grfica propuesta. Considera tambin un
agrupamiento para medidas numricas de distancia, 4 medidas en la tabla 3,
adems de considerar la normalizacin de estas medidas utilizando la formula

(3) en (pg. 16), considera tambin la derivacin de las frmulas de distancia


desde las medidas de similitud para el caso de S(x, y) = 1 D(x, y)
Nota: mencionar que las medidas de similitud por lo general son divididas por la forma
en la que tratan con la presencia o ausencia de los atributos de los objetos a ser
analizados.

A Study on Interestingness Measures for Associative Classifiers


Considera que el soporte y el nivel de confianza no son medidas ideales
que puedan ser bien utilizadas. Considera una recopilacin de 53 medidas
as como un estudio basndose en agrupamiento jerrquico considerando
sus propiedades. Mencionar las frmulas que aqu se mencionan para ser
integradas en el trabajo actual. Definir soporte global y local.

Script: las medias de similitud son relevantes dependiendo del rea de aplicacin,
algunas son utilizadas en clasificacin de datos la cual se basa en la minera de reglas
mediante el descubrimiento de asociaciones, donde para este caso el soporte 1 y
confianza2 son los parmetros por default que miden el nivel de inters sobre los
datos.
... El conjunto de unidades pueden objetos, OTU (Unidades Operaciones Taxonmicas),
casos, individuos, etc. Matemticamente es posible describir la similitud (asociacin,
semejanza) entre unidades a travs de una funcin: r :(X , Y ) R donde cada par
(X , Y ) en el conjunto de unidades es un nmero real que puede estar generalmente
en los intervalos [0, 1] [-1, 1].
... Generalmente se busca realizar una comparativa entre estas medidas basndose en
diferentes casos tales como sus relaciones y propiedades, inclusive considerando la
estructura de la misma frmula propuesta en base en su numerador y denominador
respectivamente.

Comparing Resemblance Measures


Se muestran algunos tipos de equivalencias sobre la semejanza entre
medidas basndose en ordenamiento parciales inducidos, mencionar las
propiedades que se encuentran en (pg. 2) y describir como Batyrshin las
agrupa y organiza. Mencionar las propiedades que deben de cumplir las
medidas de disimilitud mostradas en (pg. 4), Considerar el problema de
la indeterminacin en las formulas. Decir que este llama aquellas medidas
de semejanza complementarias hacia s mismas y definir lo mencionado
en (pg. 9),

1 El soporte de X con respecto de T es la proporcin de transacciones que


contienen o donde ocurre el conjunto-elemento base en una regla de asociacin.
2El valor de confianza de una regla X Y con respecto de un conjunto T es la
proporcin de estas que contienen a X y tambin a Y .

Script: puede ser que la idea de equivalencia entre las diferentes medidas pueda
ayudar a generar una mejor comprensin y organizacin entre medidas dados los
diferentes enfoques de estudio con que se les trata.
... para la bsqueda de mtodos basados en estas medidas y definir una gua hacia
sus correctas aplicaciones.
Nota: mencionar lo escrito en Introduction to Data Mining en su captulo 6 con
respecto por qu usar el soporte y confianza. Colocar todas las pginas web que se
han consultado y tomado para lectura (Firefox/Chrome). Usar la notacin de P1,..., PN
para las propiedades que fueron revisadas. Dialogar con Ildar acerca de lo mencionado
en New Developments in Generalized Information meausures (pg. 37) qu
implicaciones tiene esta informacin hacia nuestra investigacin? Cul es la
importancia de considerar dichos datos?

Some new approaches to constructing similarity measures


Mencionar las propiedades que las medidas deben cumplir para realizar la
cuantificacin de que tan cercanos dos conjuntos estn, propiedades
naturales. (pg. 1)

Nota: el formato de las referencias es: Nombre autores (Inicial, Apellido), nombre del
documento (artculo, libro, web), donde fue presentado o editorial, ao, pginas.

Selecting the Right Interestingness Measure for Association Patterns


Dependiendo de la medida utilizada, los ejemplos son posicionados ya sea
en orden ascendente o descendente de acuerdo con el orden de su
magnitud, lo cual dice que diferentes medidas pueden llevar a
ordenamientos sustancialmente diferentes en sus correspondientes tablas
de contingencia, lo cual genera un problema de organizacin en relacin a
las propiedades intrnsecas de cada medida. Considerar sus conclusiones
como parte de las nuestras.

Script: ... existen diferentes propiedades (mencionar las revisadas en la lectura de los
artculos) que necesitan ser analizadas cuando se analiza una medida, algunas son
conocidas y otra no tanto, sin embargo es necesario su anlisis y merecen ms
atencin.
... una propiedades que tendra que ser de suma importancia es (la propiedad que el
Dr. Ildar en la fotografa de su pizarrn) de tal manera que aquellas medidas que
cumplan con ella determinaran as una buena relacin dentro del anlisis de sus
atributos. Veamos de qu manera esto puede ser establecido (comprobacin
matemtica)

A Brief Tutorial on the Development of Measures for Use in Survey


Questionnaires
Otro campo de aplicacin del uso de las medidas de similitud es el
proceso de creacin de cuestionarios donde estas son una escala de

medicin de los resultados obtenidos. Considerar este artculo para la


parte que correspondera a la proposicin de una nueva medida de
similitud.
Script: Si alguien determina que una medida no puede medir un fenmeno en
particular y decide desarrollar una nueva medida, alguna directriz en ese sentido
deber de ser probada.

Taxonomy of Nominal Type Histogram Distance Measures


Categoriza y enumera medidas de distancia (disimilitud) comparando
histogramas de tipo nominal, considerando relaciones en dos tipos
aspectos generales: medidas sintcticas y semnticas

Script: ... por ejemplo aquellas medidas que se conocen como sintcticas dentro del
campo del estudio del lenguaje natural intentan cuantificar la madurez de los
individuos en los documentos analizados
... inclusive tambin es posible observar su correlacin con ndices globales (dar
definicin de la tercera opcin en la bsqueda: global rate math).

On measuring the distance between histograms.


Medicin de distancias entre histogramas, considerar las medidas
mencionadas en sus conclusiones.

Comprehensive Survey on Distance/Similarity Measures between Probability


Density Functions.

You might also like