Professional Documents
Culture Documents
AGENDA
http://www.ifork.com.ar
Primera Parte
Definiciones y ejemplos
- Definicin de Data Mining - Qu son las Redes Neuronales? - Qu es la Estadstica Bayesiana? - Sistemas de Deteccin de Intrusos (IDS) - Open Source software para Data Mining, Redes Neuronales y Bayesianas
Segunda Parte
Aplicaciones a la Seguridad Informtica
- Redes Neuronales y Bayesianas para sistemas de IDS - Algoritmos de Clasificacin para sistemas de antispam y antivirus - Data Mining para peritajes informticos y estudios criminalsticos on-line - Inteligencia Artificial para mejorar el rendimiento de redes y servidores
http://www.ifork.com.ar
Se llama Minera de Datos a un conjunto de herramientas y algoritmos provenientes de la Inteligencia Artificial cuya finalidad es la de encontrar patrones ocultos y no triviales en grandes bases de datos, los cuales resultan imposible de detectar mediantes otras tcnicas estadsticas y matemticas tradicionales. Entre los mencionados algoritmos se encuentran: -Redes Neuronales -Redes Bayesianas -rboles de Decisin -Algoritmos Genticos Mediante el procesamiento y anlisis de las mencionadas bases de datos, se pretende generar CONOCIMENTO que resulte de fundamental importancia a la hora de toma de decisiones. Que puede ir, desde realizar una inversin, otorgar un crdito hasta crear una nueva regla de firewall o subir el umbral en un sistema anti-spam.
REDES NEURONALES Sistema Artificial que emula el funcionamiento del cerebro humano.
http://www.ifork.com.ar
-Son capaces de aprender mediante diferentes algoritmos de entrenamiento y poseen diferentes arquitecturas, dependiento del problema a resolver.
- Son flexibles y resistentes a errores. - Pueden procesar en tiempo real. - Sus principales usos se dan en el reconocimiento de patrones y en los modelos de prediccin. - Son aplicables por ejemplo en el Mercado Burstil, en los sistemas OCR, en la Segmentacin de Clientes, en predicciones de Demanda y especialmente en Deteccin de Fraudes y Riesgos.
http://www.ifork.com.ar
En Seguridad Informtica Se utilizan los modelos SUPERVISADOS. Se entrenan en base a que el maestro determine si una conexin o evento de red, fue una intrusin o no.
REDES BAYESIANAS Son redes basadas en probabilidades, especficamente condicionales. Obtienen su nombre del Teorema de Bayes. Constan de grficos acclicos y dirigidos, donde cada nodo representa una variable aleatoria del sistema. Ejemplos
http://www.ifork.com.ar
En medicina, un conjunto de variables representan diferentes sntomas, y en base a ello se calcula la probabilidad de padecer determinada enfermedad. En informtica, los clasificadores bayesianos se utilizan en los sistemas de deteccin de intrusos, asignndole en base a una serie de variables la probabilidad de que un evento sea una intrusin. Tambin en los sistemas anti-spam, asignndole a un mail la probabilidad de que sea un spam. El popular spamassassin es una potente red bayesiana basada en puntajes, que a su vez estos puntajes estn basados en probabilidades.
-Se crea un archivo de mails vlidos en $HOME/Mail/ham - Se crea un archivo de spam que Spamassassin no detecto en $HOME/Mail/mspam - A medida que crecen las bases, se corre el comando sa-learn que es el agoritmo de entrenamiento bayesiano que asigna a cada mail en dichos archivos un score.
http://www.ifork.com.ar
Clasificador: Es aquel algoritmo encargado de segmentar y aglomerar instancias de variables que poseen caractersticas en comn mediante el reconocimiento de patrones. Redes Neuronales y Bayesianas son ejemplos de ellos.
Nubes de Comportamiento Normales y Outliers: Una tcnica de reconocimiento de patrones e identificacin de anomalas es la creacin de nubes de comportamiento tpico y estudiar los puntos que no encuadran en dichos aglomerados. Con estas tcnicas se detectan FRAUDES y en seguridad informtica se estudian posibles Intrusiones, ya que el atacante no forma parte de la nube de comportamiento tpico en una red.
Dataset: Coleccin de datos presentados en diferentes formatos, generalmente compatibles con bases de datos. Por ejemplo CSV. Cada columna representa una variable, y cada fila es un caso. Los diferentes algoritmos de Data Mining van a correr contra una tabla de base de datos o un Dataset. Aqu entra en juego las herramientas OLAP.
SISTEMAS DE DETECCIN DE INTRUSOS (IDS) Definicin desde el punto de vista de un IDS Clsico, ejemplo SNORT .
http://www.ifork.com.ar
Un IDS o Sistema de Deteccin de Intrusiones es una herramienta de seguridad que intenta detectar o monitorizar los eventos ocurridos en un determinado sistema informtico o red informtica en busca de intentos de comprometer la seguridad de dicho sistema.
Basados en SIGNATURES
Diferencia ms significativa con los IDS Inteligentes
Ejemplo SNORT
Reconocen nuevas intrusiones o anomalas
Proyecto que trabaja en conjunto con SNORT y Redes Neuronales: http://jeiks.net/index.php?p=1_5 (en portugus)
http://www.ifork.com.ar
Clasificacin de IDS
Se podra decir, que en los IDS basados en Misuse Detection el comportamiento anormal se define previamente, mientras que en los basados en aproximaciones estadsticas se define previamente el comportamiento normal.
Ventajas de los IDS basados en SIGNATURES Detectan vulnerabilidades y ataques conocidos al instante
Ventajas de los IDS basados en COMPORTAMIENTO ANORMAL Detectan vulnerabilidades y ataques que no eran conocidos previamente Se puede adaptar a entornos particulares y personalizados Desventajas de los IDS basados en COMPORTAMIENTO ANORMAL Pueden producir un alto volumen de falsas alarmas El proceso de entrenamiento de una Red Neuronal puede ser arduo.
http://www.ifork.com.ar
A cada instancia del dataset se le asigna un puntaje o score en base al entrenamiento de la Red Neuronal
Se determina que tan anmalo es ese puntaje Se crea un sistema de alertas en base al punto anterior Es necesario tener un servidor dedicado que recolecte los datos y realice el procesamiento.
http://www.ifork.com.ar
De la misma manera que la Minera de Datos explora grandes bases de datos, existen disciplinas que se especializan en reas particulares.
Text Mining: Tcnicas especficas para explorar, analizar y descubrir patrones en diferentes
formatos de texto.
Log Mining: Extrae informacin de diferentes logs de servidores, no solo detectan anomalas,
sino tambin ayudan ampliamente en los sistemas de reportes y optimizacin de rendimiento.
http://www.ifork.com.ar
Software y Proyectos
http://www.ifork.com.ar
Weka
Open Source suite para Data Mining Contiene potentes algoritmos de Redes Neuronales, Redes Bayesianas, rboles de Decisin, etc.
OpenBayes.Org
Librera que implementa Redes Bayesianas en Pyton
GATE
Open Source Toolkit para Text Mining
Neuroph
Framework en Java para desarrollar y entrenar redes neuronales
Desafos
http://www.ifork.com.ar
Desarrollo de un sistema de deteccin de intrusos basado en redes bayesianas, posiblemente a integrarse como parte de SNORT.
reas necesarias a cubrir: -Especialista en Estadstica -Especialista en Seguridad Informtica y Redes -Programador Lenguajes recomendados: -Python -Java -Perl La etapa de implementacin tambin debe ser multidisciplinaria. Ya que en cada entorno el entrenamiento de la red puede variar drsticamente.
http://www.ifork.com.ar
Jornadas de Software Libre & Seguridad Informtica 4 y 5 de Diciembre de 2009 Santa Rosa La Pampa
juan.brana@ifork.com.ar