You are on page 1of 18

GENERACION DE UN MODELO NEURO-DIFUSO PARA LA

DETECCION DE MASTITIS EN VACAS LECHERAS EN LA


HACIENDA LA COLLPA
1. AUTORES
Cabrera Garca Anddy
Jambo Saucedo Elar
Urcia Diaz Sheyla Diana
Villanueva Luna Rosmery

2. RESUMEN

El presente informe corresponde al Trabajo Final de la carrera de Ingeniera de


Sistemas de la Universidad Nacional de Cajamarca. El objetivo del trabajo era facilitar
la deteccin de mastitis en vacas lecheras de la Hacienda la Colpa, utilizando
herramientas de software, ms especficamente redes neuronales artificiales.
La presencia de mastitis en vacas lecheras es uno de los eventos sanitarios con mayor
incidencia en las haciendas. La enfermedad tiene como principal caracterstica, luego
de un perodo de tiempo, la disminucin en los volmenes de produccin, causando
prdidas econmicas.
El trabajo incluye una descripcin y justificacin del problema abordado, desarrollo del
marco terico, marco metodolgico y las distintas fases que permitieron construir y
entrenar diversos modelos de redes neuronales.
En la etapa final se realiz dicho entrenamiento con distintas redes del tipo Perceptrn
Multicapa, alcanzando diversos resultados. El mejor rendimiento se obtuvo a partir de
la seleccin de aquellos animales que se encontraban en su primer tercio de lactancia,
utilizando 25 neuronas en la capa oculta y una segmentacin de los conjuntos de
estimacin, validacin y prueba de 80%, 10% y 10% respectivamente.

3. FORMULACION Y DELIMITACION DEL PROBLEMA DE INVESTIGACION

3.1. PLANTEAMIENTO DEL PROBLEMA

La produccin lechera de la hacienda la colpa es una de las ms importantes


economas que mueve la ciudad de Cajamarca, debido que sus productos lcteos
son muy aceptados en el Per y el extranjero.
Hoy en da son miles de turistas que visitan esta encantadora hacienda y degustan
de los deliciosos dulces preparados a base de leche, como es el tradicional manjar
blanco. El promedio de produccin lechera por vaca en la hacienda est en
aumento; al trabajar en calidad de la leche se optimiza la produccin, permitiendo
garantizar la compra de leche o derivados por parte de las industrias o turistas; de
esta manera se pretende disminuir la pobreza rural de la zona y fortalecer la
seguridad alimentaria. En la hacienda la colpa, una de las principales actividades
econmicas es la ganadera; contando con una gran cantidad de vacas lecheras,
teniendo a un enemigo de la produccin y la calidad de la leche a la mastitis como
la enfermedad ms frecuente dentro de las explotaciones lecheras. Para enfrentar
este problema sanitario con repercusin econmica por disminucin en la calidad
bacteriolgica y composicional, disminucin del volumen de leche, y por el descarte
de leche no apta para el consumo, se determin la prevalencia de mastitis, sus
agentes causales y frmacos a los 6 que los microorganismos son susceptibles,
adems de capacitar al productor y personal encargado del ordeo porque
consideramos es indispensable como apoyo para el control de la enfermedad. En la
zona, no se han elaborado trabajos de esta naturaleza y fue importante ejecutarlo
para crear una cultura sanitaria en el manejo del ordeo, lo que permite un beneficio
al productor, empresa y consumidor, con el propsito de mejorar la calidad de la
leche y garantizar la compra. Al realizar este trabajo como estudiantes, hemos
adquirido experiencia sobre esta enfermedad lo que nos servir para afrontarlo y
lograr una solucin con redes neuronales

3.2. JUSTIFICACION DEL PROBLEMA


La presencia de mastitis en vacas lecheras tiene como consecuencia la disminucin
de los volmenes de produccin obtenidos sobre el animal afectado. En la Fig. 1 se
introduce un grfico que contiene la representacin de la lactacin de una misma
vaca para dos perodos distintos, uno donde contrajo mastitis clnica a los 60 das
(serie de color verde) y otro donde no lo hizo (serie de color rojo).

Fig. 1. Grfico de lactaciones obtenido del aplicativo ALPRO Windows


Como se puede apreciar, existe una divergencia notoria en la produccin de leche
de uno y otro caso. De acuerdo a lo expresado en un artculo del peridico MOTIVAR
en su edicin +de julio de 2013, bajo el nombre de Un tambo promedio pierde 35
das de produccin a causa de mastitis, se nombran estadsticas obtenidas sobre
esta temtica en la Argentina, como por ejemplo, la prdida anual de produccin en
el pas es equivalente a lo consumido por 1.300.000 argentinos a causa de esta
enfermedad. A su vez, tal como menciona el nombre del artculo, se seala que un
tambo argentino promedio pierde un mes de facturacin al ao (35 das) por la
presencia de mastitis. Estos datos introducen la idea de que la incidencia y el
impacto de esta enfermedad en el pas no debieran ser, al menos desde el punto de
vista econmico, pasados por alto.
3.3. OBJETIVOS:
3.3.1. OBJETIVO GENERAL
El principal objetivo de este artculo es mejorar la deteccin de mastitis
clnica recurriendo a la evaluacin de diversas tcnicas, dentro de las
cuales se pueden mencionar la utilizacin de lgica difusa, redes
neuronales artificiales.
3.2.2. OBJETIVOS ESPECIFICOS
3.2.2.1. Conocer el origen de la mastitis en el ganado vacuno lechero.
3.2.2.2. Conocer los factores que son determinantes para la
prolongacin de la mastitis.
3.2.2.3. Conocer los volmenes de produccin de leche del vacuno
obtenidos cuando el animal est o no afectado.

3.3. HIPOTESIS
La mastitis es una enfermedad multifactorial, ya que es el resultado de diversas
interacciones, epidemiolgicamente tenemos tres factores causantes: ubre del
animal, patgenos, medio ambiente.

4. MARCO TEORICO
4.1. CICLO DE LACTANCIA
Se entiende al ciclo de lactancia como la produccin de leche que se obtiene de
una vaca en el perodo de lactancia en un ao y est determinado por el intervalo
entre partos. (Castro Ramrez, 2002)
La figura 1 muestra el ciclo de lactancia, ste comienza con un parto de la vaca, la
cual durante los primeros cinco o seis das da leche con calostro, motivo por el cul
esta leche no es utilizada para la produccin lechera diaria; durante este perodo no
se le realiza control al animal (si es que coincide con la visita del inspector), siendo
el primer control el inmediato posterior. Luego de finalizado el calostro se le hacen
controles mensuales hasta su secado, luego de once meses de produccin
aproximadamente. Por "secado" se entiende cuando el personal del tambo
considera que ya no es conveniente ordear al animal, sea porque no est dando la
cantidad apreciable de leche o para prepararla para el nuevo parto. Los tiempos que
se presentan en el ciclo de lactancia graficado son los tiempos ptimos
determinados segn estudios de profesionales en la materia, los cuales tambin son
referencias y objetivos para la mejor productividad de las vacas, pero no implica que
en todos los casos stos se cumplan, ya que, por ejemplo, si una vaca al cabo de
los once meses de lactancia sigue produciendo una considerable cantidad de leche
puede ocurrir que se decida secarla un mes despus. La vaca es secada a los once
meses despus del parto, considerando que si todo se cumpli segn lo planeado
a los dos meses va a tener un nuevo parto y va a comenzar un nuevo ciclo de
lactancia, de esta manera tiene 60 das para descansar y recuperarse la ubre de la
lactancia anterior.
Luego del parto y antes de los 110 - 120 das se debe prear nuevamente al animal,
esto se debe hacer despus de los primeros 45 das del parto, en razn de esto
quedan 65 a 75 das en los cuales hay que prear a la vaca, la cual tiene celo cada
21 das, por lo tanto, hay tres oportunidades para hacerlo, pero para esto se debe
reconocer el celo en el animal, lo cual no siempre se cumple con xito.
El volumen de leche que da una vaca durante los meses de lactancia se grafica con
la curva de lactancia, la cual tpicamente es como se muestra en la fig. 2. (Cervantes,
2006)

4.2. CICLO DE LACTANCIA

4.3. CURVA DE LACTANCIA

4.4. Inteligencia artificial


Se define como inteligencia artificial a la automatizacin de actividades que
asociamos con el pensamiento humano, tales como toma de decisin, resolucin de
problemas o aprendizaje. (Bellman, 1978)
La inteligencia artificial es la disciplina que se encarga de construir procesos que al
ser ejecutados sobre una arquitectura fsica producen acciones o resultados que
maximizan una medida de rendimiento, el hombre llega a tener la idea de un ser
superior y se preguntara cmo funcionara su pensamiento. Esto provoca que el
hombre cada da que pasa invente mquinas con inteligencia artificial capaces de
realizar lo que el hombre no tendra las capacidades suficientes o corre riesgo al
realizarlo. Cuando dos voces la de un humano y la de una mquina no se puedan
distinguir se abra conseguido la gran inteligencia artificial. (Copeland, 1966)
4.5. Sistema Experto (Feigenbaum, 1977)
Un sistema experto es un programa de ordenador inteligente que usa conocimiento
y procedimientos de inferencia para resolver problemas que son lo
Suficientemente difciles como para requerir la intervencin de un experto humano
para su resolucin.
Los sistemas expertos son programas de ordenador que capturan el conocimiento
de un experto, e imitan sus procesos de razonamiento cuando resuelve los
problemas de un determinado dominio. El grupo especialista de la Sociedad
Britnica de ordenadores en Sistemas Expertos los define Como:
La incorporacin dentro de un sistema de ordenador de un componente bsico
en el conocimiento, correspondiente a una habilidad experta, de tal forma que el
sistema pueda ofrecer asesoramiento inteligente o tomar una decisin inteligente
sobre una funcin del proceso. Una caracterstica adicional deseable, que muchos
consideran fundamental, es la capacidad del sistema, si se le solicita, de justificar
su propia lnea de razonamiento de un modo directamente inteligente para el
interrogador. El estilo adoptado para alcanzar estas caractersticas es la
programacin basada en reglas
Los S.E. tambin pueden ser definidos en funcin de sus caractersticas. Y
podemos identificar las siguientes caractersticas funcionales:
Pueden resolver problemas muy difciles tan bien o mejor que los seres
humanos.
Razonan heursticamente, usando lo que los expertos consideran reglas
empricas efectivas, e interactan con los humanos de forma adecuada,
incluyendo el lenguaje natural.
Manipulan y razonan sobre descripciones simblicas.
Pueden funcionar con datos que contienes errores usando reglas de
enjuiciamiento inciertas.
Pueden contemplar mltiples hiptesis en competicin simultneamente.
Pueden explicar por qu estn formulando una pregunta.
Pueden justificar sus conclusiones.
En la medida en que los sistemas expertos actan como ayudantes inteligentes de
los expertos humanos y como consultores cuando no se tiene otra posibilidad de
acceder a la experiencia y al conocimiento, podramos decir que el objetivo final de
todo sistema experto es sustituir al experto humano en la resolucin de problemas
y, por supuesto, mejorarle. Pero adems de este objetivo, podramos citar los
siguientes objetivos.
Mejorar la calidad del conocimiento de los expertos humanos.
Conseguir la supervivencia del conocimiento y que no muera con la muerte
fsica del experto humano.
Multiplicar el nmero de expertos y, por tanto, hacer ms accesible el
conocimiento existente.
Disminuir el coste del conocimiento.
4.6. Mastitis
Se da conocimiento de este trmino a una enfermedad infecto-contagiosa de la
glndula mamaria, en la cual la inflamacin se produce como respuesta a la
invasin, a travs del canal del pezn, de diferentes tipos de bacterias, mico
plasmas, hongos, levaduras y hasta algunos virus. (..) Clsicamente se la ha
definido como una enfermedad poli factorial, porque el riesgo de infeccin depende
de la habilidad de la vaca para rechazarla, del tipo, nmero y patogenicidad de las
bacterias presentes en un rodeo y, fundamentalmente, de las condiciones de medio
ambiente y del manejo del ordeo en particular que se estn desarrollando en un
establecimiento. (N. Corbellini., 2012)
4.7. Red neuronal
Se entiende como red neuronal a todo procesador masivo, distribuido y paralelo
formado de unidades simples de procesamiento, que posee una natural propensin
de almacenar conocimiento experimental y disponerlo para su uso. (Haykin, 1999)
A pesar de su nombre, las redes neuronales no tienen un concepto demasiado
complicado detrs de ellas. El nombre, como podis imaginar, viene de la idea de
imitar el funcionamiento de las redes neuronales de los organismos vivos: un
conjunto de neuronas conectadas entre s y que trabajan en conjunto, sin que haya
una tarea concreta para cada una. Con la experiencia, las neuronas van creando y
reforzando ciertas conexiones para "aprender" algo que se queda fijo en el tejido.
Ahora bien, por bonito que suene esto, el enfoque biolgico no ha sido
especialmente til: las redes neuronales han ido movindose para tener un foco en
matemticas y estadstica. Se basan en una idea sencilla: dados unos parmetros
hay una forma de combinarlos para predecir un cierto resultado. Por ejemplo,
sabiendo los pxeles de una imagen habr una forma de saber qu nmero hay
escrito, o conociendo la carga de servidores de un Centro de Procesamiento de
Datos (CPD), su temperatura y dems existir una manera de saber cunto van a
consumir, como haca Google. El problema, claro est, es que no sabemos cmo
combinarlos.
Las redes neuronales permiten buscar la combinacin de parmetros que mejor se
ajusta a un determinado problema. Las redes neuronales son un modelo para
encontrar esa combinacin de parmetros y aplicarla al mismo tiempo. En el
lenguaje propio, encontrar la combinacin que mejor se ajusta es "entrenar" la red
neuronal. Una red ya entrenada se puede usar luego para hacer predicciones o
clasificaciones, es decir, para "aplicar" la combinacin. (Guillermo, 2014)

5. MARCO METODOLOGICO
5.1. TIPO DE INVESTIGACION
Para la realizacin de este trabajo se utiliz un tipo de investigacin de campo ya
que se desarroll con nimos de interpretar y solucionar un problema en un
momento determinado. Los datos utilizados fueron proporcionados por la Estacin
Experimental Agropecuaria Rafaela del Instituto Nacional de Tecnologa
Agropecuaria. Dicho vnculo se estableci mediante el convenio que dicha
institucin y la Universidad Catlica de Santiago del Estero poseen, en pos de
fomentar los trabajos con caractersticas similares al presente. Por otra parte,
acorde a los objetivos intrnsecos o el nivel de conocimiento, la investigacin ha
iniciado como de tipo descriptiva. Esto se fundamenta en que la motivacin
primordial radic en describir algunas caractersticas fundamentales de conjuntos
homogneos de fenmenos. Asimismo, este tipo de investigaciones utilizan criterios
sistemticos que permiten poner de manifiesto la estructura o el comportamiento de
dichos fenmenos, como ejemplifican los modelos matemticos de curvas de
lactancia ya desarrollados, modelo de Wood por ejemplo. De acuerdo a los objetivos
extrnsecos o externos, se puede clasificar a la investigacin como aplicada, ya que
ha perseguido objetivos de aplicacin prctica en un futuro relativamente cercano.
A su vez, y como ltimo criterio de clasificacin para el tipo de investigacin, se
puede catalogar a la misma como cuantitativa (se utilizaron procedimientos y
tcnicas estadsticas al utilizar redes neuronales artificiales, ha sido orientada al
resultado y, bajo un conjunto de caractersticas, generalizable) y longitudinal (se
realiz un seguimiento de un determinado conjunto de variables de los mismos
animales a travs del tiempo).

5.2. ANALISIS Y DETERMINACION DE VARIABLES DE INTERES


Dado que la red neuronal debe nutrirse de un conjunto de datos determinado, ha
sido necesario realizar una seleccin de aquellas variables que sean representativas
sobre el objeto de estudio, y permitan alcanzar las metas planteadas. Para justificar
la seleccin de estas variables es necesario aclarar que la enfermedad con la que
se ha tratado es considera multifactorial, y desde el punto de vista epidemiolgico
se tienen en cuenta tres elementos que componen lo que se conoce como tringulo
epidemiolgico de la mastitis. Dichos elementos son la ubre del animal, los
patgenos y el medio ambiente. Esta relacin se presenta debido a que la
enfermedad es el resultado de diversas interacciones de manejo y del medio
ambiente, las cuales determinan un aumento en la exposicin a organismos
causales y, como consecuencia, que se favorezca el paso de estos agentes por el
canal del pezn. En adicin a esto, Calvinho menciona que las incidencias por
patgenos ambientales constituyen un problema significativo en pases donde las
vacas son mantenidas el 100% del tiempo en condiciones de pastoreo. Debido a
esto sern considerados, adems de los datos de produccin e incidencias
sanitarias, los registros provenientes de meteorologa, a fin de contemplar las
condiciones del medio ambiente que podran favorecer la aparicin de la
enfermedad. A continuacin se detallarn cada una de las variables que han sido
seleccionadas para constituir las entradas al modelo.
Litros de leche: Se conoce que altos volmenes de produccin disminuyen
la resistencia de la vaca a la enfermedad.
Porcentaje de variacin de hoy con respecto al da previo: La presencia
de mastitis presupone un descenso en la produccin.
Porcentaje de variacin de hoy con respecto al promedio de los ltimos
3 das: Esta variable amplia la base histrica (perodo de mastitis sub-clnica)
teniendo presente lo nombrado en la descripcin de la variable previa.
Porcentaje de variacin de hoy con respecto al promedio del rodeo:
Esta variable persigue incluir aquellas variaciones que afectan a la totalidad
del rodeo y que no necesariamente determinan la aparicin de la
enfermedad en un animal puntualmente.
Nmero de lactacin: La produccin aumenta progresivamente de un parto
con respecto a otro hasta la 5ta lactacin, donde comienza a decrecer o se
mantiene constante hasta el ao 11. Tambin se considera que la mayor
cantidad de casos de mastitis sub-clnicas se encuentran en animales con
un avanzado nmero de lactancias, mientras que los casos clnicos se hacen
presente mayoritariamente en vacas con un menor nmero de lactancias.
Das en lactacin: Se conoce que la mxima produccin se encuentra entre
los 40 y 65 das posparto (periodo con mayor incidencia de infecciones
intramamaria), donde luego comienza a decrecer levemente hasta los 305
das aproximadamente.
Estacin de parto: De acuerdo a lo expresado por Cuatrin la produccin es
mayor en los partos de primavera respecto a los de otoo, aunque la
persistencia de los de otoo sea ms elevada.
Incidencias de mastitis en los ltimos 365 das: Aquellos casos donde la
enfermedad se ha presentado de forma recurrente en el ltimo ao para un
mismo animal podra significar un caso de mastitis crnica, aumentando
considerablemente la posibilidad de ser infectada nuevamente.
Precipitaciones: Las precipitaciones generan en algunos casos situaciones
que son desfavorables para la produccin de leche debido a que, por
ejemplo, el animal no dispone de su alimento en las mismas condiciones que
un da seco.
Estrs calrico: Mediante esta variable se contemplan las condiciones de
temperatura y humedad presentadas en el contexto del animal. El clculo de
la misma se presenta en la seccin Apndice 1: Clculo de estrs calrico.
Promedio de estrs calrico en los ltimos 10 das: Debido a lo
nombrado en la descripcin de la variable precedente se desea analizar lo
acontecido en los das previos al anlisis, de modo que pueda contemplarse
el aumento en las probabilidades de aparicin de la enfermedad al cabo de
unos das de presentada dicha situacin de estrs calrico en el animal, as
como tambin relacionar un posible descenso en la produccin en base a
esto.

5.3. SELECCIN DE LA MUESTRA


Acorde a la problemtica que ha motivado la investigacin, la poblacin estuvo
determinada por el ganado de la Haciendo la Colpa en produccin de leche, as
como tambin registros de incidencias sanitarias y datos meteorolgicos para cada
fecha en cuestin. De dicha poblacin se obtuvo una muestra representativa e
intencional, con el objetivo de que los resultados obtenidos puedan ser
generalizables a la totalidad de los mismos y a su vez se trabaje con una proporcin
suficiente de informacin de animales afectados por la enfermedad al momento de
realizar la investigacin.

5.4. ELECCION DEL MODELO DE RED NURONAL A UTILIZAR


El modelo seleccionado para utilizar en este problema ha sido una red Perceptrn
Multicapa (MLP), con una capa oculta y una nica neurona de salida. Esta eleccin
se basa en que estos modelos son ampliamente utilizados en generalizaciones, es
decir, situaciones que requieren relacionar entradas con salidas similares entre s,
de acuerdo a lo desarrollado por Haykin. Es necesario aclarar, a su vez, que este
modelo ha sido ampliamente utilizado en problemas similares al que se presenta en
este caso, de acuerdo a lo obtenido en el proceso de revisin del estado del arte,
obteniendo resultados positivos prcticamente en la totalidad de los mismos.
En lo que respecta al nmero de neuronas utilizado en la capa oculta, se ha
realizado un conjunto de pruebas determinado con cantidades diversas y crecientes,
comenzando desde 5, a modo de decretar qu configuracin ofreca el mejor
rendimiento y, a su vez, permita una correcta generalizacin en lugar de meramente
memorizar los datos proporcionados. Debido a que cada neurona de la red utiliza
una funcin de activacin no lineal, diferenciable en cada punto pero que a su vez
presenta gran fluidez, la funcin que ha sido testeada es la sigmoidea o logstica.
Por ltimo, la salida de la red estar representada por un nico valor indicando la
presencia (valores cercanos a 1) o ausencia (valores cercanos a 0) de la
enfermedad en un animal para una fecha determinada, de acuerdo al conjunto de
datos ingresado. Dicho conjunto se compone de un nico registro por cada una de
las variables que se describen en la siguiente seccin.

6. RECOLECCION DE DATOS
Resulta pertinente aclarar que la tcnica de recoleccin de informacin fue la
utilizacin de datos secundarios. Dicha clasificacin se basa en que los datos han
sido previamente recogidos por otros investigadores y/o alumnos de nuestra
Universidad Nacional de Cajamarca en la Escuela Acadmico Profesional de
Medicina Veterinaria, los cuales son lo suficientemente vlidos, pertinentes y
confiables como para ser utilizados en este estudio, no siendo necesario de esta
forma repetir los procedimientos ya efectuados. A su vez, los datos
correspondientes a incidencias sanitarias fueron obtenidos desde los registros
existentes en el cuaderno de trabajo de los antes mencionados. Por ltimo, la
informacin meteorolgica fue proporcionada por el personal de la entidad, la cual
se dispone en almacenamientos internos de la misma. Al igual que los datos
sanitarios.
6.1. TRATAMIENTO DE DATOS
Luego de obtener la informacin se prosigui con el desarrollo de un modelo de
datos que permiti almacenarla seleccionando nicamente los datos de inters y
adicionando aquellos que admitan representar las variables elegidas. En relacin a
los datos que presentaban valores irrisorios o nulos, los mismos fueron filtrados a
modo de quitar el ruido que podran insertar en el anlisis.
6.2. SELECCIN DE CONJUNTOS DE APRENDIZAJE Y TEST
En lo que refiere al propio entrenamiento de la red, se dividi el cmulo de los datos
en conjuntos de estimacin, validacin y prueba. El primero de estos conjuntos fue
utilizado como entrenamiento, mientras que el segundo de ellos se estipul como
validacin cruzada de dicho entrenamiento. El set de datos remanente cumpli la
funcin de estimar el comportamiento de la red. Vale la pena aclarar que en todos
los casos los conjuntos estuvieron compuestos por la misma cantidad de casos
positivos que negativos. Los porcentajes de asignacin para cada uno de los
conjuntos nombrados iteraron entre diferentes valores, a fin de encontrar el mejor
rendimiento posible para la red.
7. ANALISIS DE DATOS

7.1. PREPROCESAMIENTO
En esta etapa el objetivo perseguido fue maximizar la eficiencia durante el
entrenamiento en relacin al conjunto de datos utilizado. Con respecto a esta ltima
actividad, el algoritmo seleccionado que se aplic fue Back-Propagation (BP),
siendo ste el algoritmo estndar a utilizar en redes neuronales del tipo MLP de
acuerdo a lo expresado por Haykin. Una vez seleccionado el modo de
entrenamiento a llevar a cabo resulta pertinente utilizar heursticas sugeridas por
dicho autor para mejorar el rendimiento del algoritmo, como por ejemplo, la
normalizacin de las entradas con el objetivo de que cada variable tenga una media
igual a 0 y una varianza igual a 1, o dicho de otro modo, que cada una de ellas tenga
la misma importancia (similar variabilidad y espectro de valores). Para llevar esto a
cabo las variables con valores discretos fueron binarizadas, mientras que las
restantes han sido normalizadas en base a la Ecuacin 1.

A su vez, el rango para estas ltimas variables se estipul entre los valores -1 y 1,
de acuerdo a la Ecuacin 2.

Por otro lado, la maximizacin del contenido que los datos ofrecen es esencial en el
desempeo de esta etapa. Para esto se especifican dos actividades fundamentales:
Utilizar un dato de ejemplo que arroje el mayor error posible de
entrenamiento.
Cada ejemplo utilizado debe ser radicalmente diferente a todos los
proporcionados anteriormente en ese conjunto.
Esto ha sido afrontado utilizando un algoritmo que seleccione de forma aleatoria los
valores de entrada para cada iteracin. A su vez, dado que la cantidad de registros
que indican la presencia de mastitis es significativamente menor a aquellos casos
en los que se trata de una vaca sana, se repiti la fase de entrenamiento la cantidad
de veces necesaria hasta que todos los datos sean contemplados por igual,
tomando en cada caso la misma cantidad de positivos y negativos.

7.2. ENTRENAMIENTO
La automatizacin de este proceso cont con las siguientes caractersticas:
Se utiliz MATLAB como entorno interactivo y lenguaje de alto nivel para la
construccin y ejecucin de un script que permita disear, entrenar y
visualizar distintos modelos de redes neuronales. Esta herramienta admite
de forma nativa trabajar con el reconocimiento de patrones, introduciendo
tcnicas como el aprendizaje por el gradiente del error, generacin de curvas
ROC y grficos de confusin, entre otras.
Debido a la dificultad de conocer de forma anticipada la cantidad de
neuronas en la capa oculta que maximiza los resultados obtenidos, fueron
contemplados distintos valores arbitrarios para este parmetro. El conjunto
de datos utilizado en base a esto es el siguiente:
NCP = {5; 8; 9; 10; 11; 12; 13; 14; 15; 20; 25; 40; 70; 100; 120}
La funcin de activacin en la capa oculta tenida en cuenta para este anlisis
fue la sigmoidea o logstica.
El algoritmo utilizado para esta etapa es presentado y explicado en la seccin
Apndice 2: Algoritmo de entrenamiento.
Por otra parte, ha existido un inters por identificar los rendimientos obtenidos al
aplicar distintas restricciones en el conjunto de datos inicial. Para esto, la etapa de
entrenamiento fue dividida en dos grandes partes: en una primera instancia se
trabaj con los registros de animales que se encontraban dentro de su primer tercio
de lactancia (menos de 65 das en lactacin, perodo en que la curva de produccin
presenta una pendiente ascendente y donde se presupona la identificacin de la
presencia del suceso sera factible de realizar ms fcilmente), para luego hacerlo
con el conjunto completo. A su vez, en relacin a la ventana de tiempo utilizada para
clasificar a los datos como positivos, en cada etapa se ha realizado una ejecucin
independiente del proceso por cada una de las alternativas presentadas a
continuacin:
Da en que se registr la presencia de mastitis clnica en el animal
Da en que se registr la presencia de mastitis clnica en el animal y da
previo
Da en que se registr la presencia de mastitis clnica en el animal y sus dos
das previos
Da previo al que se registr la presencia de mastitis clnica en el animal
Dos das previos al que se registr la presencia de mastitis clnica en el
animal
Da en que se registr la presencia de mastitis clnica en el animal, sus dos
das previos y sus dos das subsiguientes
Da anterior al da previo en que se registr la presencia de mastitis clnica
en el animal
Resulta pertinente aclarar que la ventana de tiempo ha sido ampliada en un mximo
de dos das previos desde el momento en el cul se efectu el diagnstico debido a
que ese perodo es el mnimo presentado para los distintos agentes desde que la
enfermedad es contrada hasta su manifestacin como mastitis clnica, fecha
indicada en los registros existentes como aparicin de la enfermedad. A su vez, el
concepto de ventana de tiempo utilizado puede ser comprendido como el perodo
de tiempo que fue analizado para clasificar los datos, teniendo como referencia el
momento en que la enfermedad ha sido detectada como mastitis clnica. Por otra
parte, fue expresado como parmetro de comparacin entre una y otra red el
coeficiente medio de confusin. Este valor se obtiene a partir de la Ecuacin 3,
donde ric se refiere al nmero de registros clasificados incorrectamente y rc al total
de registros clasificados.
Por ltimo, el tipo de entrenamiento utilizado fue de tipo batch, donde todos los
valores que componen el conjunto de entrada son pasados a la red antes de que se
produzca la actualizacin en los pesos sinpticos de la misma. El algoritmo de
entrenamiento aplicado es el Mtodo del Gradiente Conjugado [16]. Estas
caractersticas fueron seleccionadas debido a que presentan generalmente el mejor
rendimiento en los problemas de clasificacin de patrones, de acuerdo a lo
expresado por el fabricante de la herramienta utilizada. A su vez, el entrenamiento
tambin estuvo regido por el mtodo Early Stopping, el cul detiene este proceso
cuando el error de validacin aumenta en 6 iteraciones consecutivas.

8. RESULTADOS
8.1. Lgica Difusa
Nuestro grupo tuvo a bien elegir tres variables para el planteamiento del modelo de
lgica difusa, los cuales estn con mayores posibilidades de aparecer o de atacar
la enfermedad. Las variables utilizadas por nuestro grupo han sido: Da de lactancia,
cantidad de lluvia y riesgo de enfermedad.
Se puede decir que en el modelo planteado se muestra que en el sector bobino
lechero el riesgo de contraer mastitis se da con mayor porcentaje en el primer tercio
de haber empezado la lactancia de la vaca. Por lo cual los responsables de los
ejemplares deben tener el mayor cuidado durante dicha etapa para evitar posibles
consecuencias como se podra decir, prdida de leche.
8.2. Red Neuronal
De acuerdo a lo expresado anteriormente un total de 14 pruebas fueron realizadas
iterando los conjuntos de datos y la configuracin utilizada (cantidad de neuronas
en la capa oculta, ventana de tiempo, entre otras).
A partir de esto y a fin de obtener un porcentaje de clasificacin de vacas con
mastitis clnica con el menor error posible en el da en el que dicha patologa se hace
visible, resulta conveniente utilizar la red obtenida en la prueba nmero 1 (en caso
de utilizar datos de animales con menos de 65 das en lactacin) o nmero 8 (en
caso de utilizar la totalidad de los registros). En dichos ensayos los resultados de
las mismas ofrecen un coeficiente de confusin promedio (Coeficiente de
confusin.) igual a 0,0640 y 0,0687, respectivamente. En trminos de sensibilidad
(probabilidad de clasificar un evento de inters como mastitis clnica cuando
realmente lo es) y especificidad (probabilidad de que cuando el evento de inters no
ocurra se lo clasifique como normal o no infectada), los valores arrojados son 98,8%
y 88,4%, para la prueba nmero 1, mientras que para la prueba nmero 8 fueron
97,7% y 88,6%. Estas variables han sido obtenidas correspondientemente a partir
de las ecuaciones presentadas en los clculos de especificidad y sensibilidad.

9. CONCLUSIONES Y RECOMENDACIONES
9.1. CONCLUSIONES
Si bien esto no soluciona la problemtica actual, dado que el momento en el
que se realiza la deteccin de la enfermedad se mantendra constante, permite
contar con una herramienta de apoyo al personal de la Hacienda la Colpa de
modo que las pruebas diarias que se realizan en los animales para llevar a cabo
dicho diagnstico sea eliminado o reducido parcialmente a un conjunto de
animales ms acotado.
Sobre la aplicacin de redes neuronales artificiales en esta temtica observando
los resultados a los que se ha llegado, se puede concluir que son ampliamente
utilizables en el contexto trabajado. La implementacin de redes Perceptrn
Multicapa podra constituir una ayuda para monitorizar la presencia de mastitis
en los animales del establecimiento estudiado. Por otra parte, este estudio
constituye un aporte en la interseccin entre dos reas del conocimiento, la cual
no ha sido ampliamente abordada en la regin hasta el da de la fecha.

9.2. RECOMENDACIONES
Este Proyecto necesita una investigacin de campo y ya que esta se trata de un
proyecto universitario ser limitada a la informacin proporcionada por diferentes
fuentes de informacin, omitiendo la parte de observacin directa, etc.
Se recomienda disponer de un buen capital para su realizacin.

10. BIBLIOGRAFIA

11. APENDICES Y ANEXOS


11.1. APENDICE 1: Calculo de estrs calorico
La temperatura ambiente adecuada de la vaca lechera se encuentra
aproximadamente entre los 5 y 21 C, siempre que no existan otros factores
limitantes que pudiesen afectar este umbral. A su vez, condiciones ambientales con
temperaturas elevadas pueden afectar de forma adversa a la salud y bienestar del
animal [19]. Esta variable ser representada mediante lo que se conoce como el
ndice de Temperatura y Humedad (ITH) desarrollado por Thom. Este valor se
obtiene a partir de la Ecuacin 4, donde Ta representa la temperatura del aire (C)
y HR la humedad (%).

Del resultado alcanzado en el clculo de este ndice ser interpretada como


situacin de estrs aquellos casos donde se supere el valor crtico de 72,
determinado por Jonhson et al.
11.2. APENDICE 2: Algoritmo de entrenamiento
A continuacin se introduce el script generado para realizar el entrenamiento con la
herramienta MATLAB.

% Create a Pattern Recognition Network


maxPerformance = 500000;

for index3=1:3

%Se utilizan distintos ratios para crear diversos conjuntos


if index3==1
divideRatio = 80;
divideRatioRemaining =10;
elseif index3==2
divideRatio = 70;
divideRatioRemaining =15;
else
divideRatio = 60;
divideRatioRemaining =20;
end

%Se utilizan distintas cantidades de neuronas en la capa oculta


for index15=1:15
if index15==1
hiddenLayerSize = 5;
elseif index15==2
hiddenLayerSize = 8;
elseif index15==3
hiddenLayerSize = 9;
elseif index15==4
hiddenLayerSize = 10;
elseif index15==5
hiddenLayerSize = 11;
elseif index15==6
hiddenLayerSize = 12;
elseif index15==7
hiddenLayerSize = 13;
elseif index15==8
hiddenLayerSize = 14;
elseif index15==9
hiddenLayerSize = 15;
elseif index15==10
hiddenLayerSize = 20;
elseif index15==11
hiddenLayerSize = 25;
elseif index15==12
hiddenLayerSize = 40;
elseif index15==13
hiddenLayerSize = 70;
elseif index15==14
hiddenLayerSize = 100;
elseif index15==15
hiddenLayerSize = 120;
end

clear net
2 % se obtienen datos negativos de forma aleatoria.
negativeData = datasample(negValues,length(posValues(:,1)));
allData = cat(2, negativeData',posValues');
allData = datasample(allData',length(posValues(:,1)) * 2)';
inputs = allData([1,2,3,4,5,6,7,8,9,10,11,12],:);
targets = allData(13,:);
net = patternnet(hiddenLayerSize);

% Choose Input and Output Pre/Post-Processing Functions


net.inputs{1}.processFcns = {'removeconstantrows','mapminmax'};
net.outputs{2}.processFcns = {'removeconstantrows','mapminmax'};

% Setup Division of Data for Training, Validation, Testing


net.divideFcn = 'dividerand'; % Divide data randomly
net.divideMode = 'sample'; % Divide up every sample
net.divideParam.trainRatio = divideRatio/100;
net.divideParam.valRatio = divideRatioRemaining/100;
net.divideParam.testRatio = divideRatioRemaining/100;

net.layers{2}.transferFcn = 'tansig';
net.trainFcn = 'trainscg'; % Scaled conjugate gradient

% Choose a Performance Function


net.performFcn = 'mse'; % Mean squared error

% Choose Plot Functions


net.plotFcns = {'plotperform','plottrainstate','ploterrhist', ...
'plotregression', 'plotfit'};

% Train the Network


net.trainParam.epochs = 300;

for index5=1:5
%Re-entrenar la red y evaluar nuevamente
[net,tr] = train(net,inputs,targets);

%Evaluar la red
outputs = net(inputs);
errors = gsubtract(targets,outputs);
performance = perform(net,targets,outputs);

cNetSum = 0;
sensibility = 0;
specificity = 0;
%IterationsNumber depende de la relacin entre los valores positives y
negativos
iterationsNumber = round(length(negValues(:,1))/length(posValues(:,1)));

for indexIN=1:iterationsNumber
% Se obtienen datos negativos de forma aleatoria.
negativeData = datasample(negValues,length(posValues(:,1)));

allData = cat(2, negativeData',posValues');


allData = datasample(allData',length(posValues(:,1)) * 2)';

inputs = allData([1,2,3,4,5,6,7,8,9,10,11,12],:);
targets = allData(13,:);

netOutputs = sim(net, inputs);

[c,cm,nd,per] = confusion(targets,netOutputs);
cNetSum = cNetSum + c;
sensibility = sensibility + (cm(2,2) / (cm(2,2) + cm(2,1)));
specificity = specificity + (cm(1,1) / (cm(1,1) + cm(1,2)));
end

%Guardar mejor performance obtenida


if (maxPerformance > (cNetSum/iterationsNumber))
maxPerformance = cNetSum/iterationsNumber;
maxDivideRatio = divideRatio;
maxHiddenLayerSize = hiddenLayerSize;
maxNet = net;
maxSensibility = sensibility/iterationsNumber * 100;
maxSpecificity = specificity/iterationsNumber * 100;
end
end
end
end
% View the Network
view(maxNet)
Dicho cdigo puede ser explicado de la siguiente forma:

En un primer momento se disponen distintos ciclos que permiten ir alternando las


diferentes caractersticas de la red a entrenar y la forma en la que esa actividad es
llevada a cabo (cantidad de neuronas en la oculta y tamaos de los distintos
conjuntos de datos). Luego, se conforma el set de datos que se utiliza tomando la
totalidad de los registros que indican la presencia de la enfermedad (valores
positivos) y una cantidad igual a esta de valores negativos (tomados de forma
aleatoria sobre los datos de este tipo). Existe un ciclo de repeticiones especificado
que permite en distintas iteraciones tomar todos los datos disponibles, repitindose
en cada caso los valores positivos e intercambiando los negativos. Por cada
configuracin lograda a lo largo del cdigo (cantidad de neuronas en la capa oculta,
as como tambin los porcentajes de los conjuntos de datos) se realiza un
entrenamiento para una nueva red, el cual se repite un nmero de veces a fin de
aproximar los pesos sinpticos correctos. A su vez, por cada seleccin de datos
conformada se simulan los resultados obtenidos para esa red en particular. Dichos
resultados se comparan red a red, obteniendo finalmente aquella que obtuvo los
mejores valores en cuanto al porcentaje de clasificacin incorrecta.

11.3. Apndice 3: Resultados obtenidos del proceso de entrenamiento


La Tabla 1 exhibe para cada uno de los distintos ensayos los parmetros utilizados
(*) y los resultados obtenidos (**).
De acuerdo a lo definido anteriormente, se puede observar la forma en que se han
alternado los parmetros utilizados para las distintas pruebas, variando el conjunto
de datos y la longitud de la ventana de tiempo utilizada. En relacin a esto, se
observan en las columnas restantes las configuraciones de las redes que mejores
resultados entregaron para cada alternativa.
11.4. Apndice 4: Clculos de especificidad y sensibilidad
A travs de la Ecuacin 5. Clculo de sensibilidad. Y la Ecuacin 6. Clculo de
especificidad. Se obtienen los valores de especificidad y sensibilidad, los cules han
sido fundamentales para otorgar una magnitud a los resultados de las distintas
pruebas.

You might also like