You are on page 1of 15

Inteligencia Artificial y Seguridad Informtica en plataformas Open Source

Jornadas de Software Libre y Seguridad Informtica


Santa Rosa La Pampa 4 y 5 de Diciembre de 2009

AGENDA

http://www.ifork.com.ar

Primera Parte
Definiciones y ejemplos
- Definicin de Data Mining - Qu son las Redes Neuronales? - Qu es la Estadstica Bayesiana? - Sistemas de Deteccin de Intrusos (IDS) - Open Source software para Data Mining, Redes Neuronales y Bayesianas

Segunda Parte
Aplicaciones a la Seguridad Informtica
- Redes Neuronales y Bayesianas para sistemas de IDS - Algoritmos de Clasificacin para sistemas de antispam y antivirus - Data Mining para peritajes informticos y estudios criminalsticos on-line - Inteligencia Artificial para mejorar el rendimiento de redes y servidores

DATA MINING Definicin

http://www.ifork.com.ar

Se llama Minera de Datos a un conjunto de herramientas y algoritmos provenientes de la Inteligencia Artificial cuya finalidad es la de encontrar patrones ocultos y no triviales en grandes bases de datos, los cuales resultan imposible de detectar mediantes otras tcnicas estadsticas y matemticas tradicionales. Entre los mencionados algoritmos se encuentran: -Redes Neuronales -Redes Bayesianas -rboles de Decisin -Algoritmos Genticos Mediante el procesamiento y anlisis de las mencionadas bases de datos, se pretende generar CONOCIMENTO que resulte de fundamental importancia a la hora de toma de decisiones. Que puede ir, desde realizar una inversin, otorgar un crdito hasta crear una nueva regla de firewall o subir el umbral en un sistema anti-spam.

REDES NEURONALES Sistema Artificial que emula el funcionamiento del cerebro humano.

http://www.ifork.com.ar

-Son capaces de aprender mediante diferentes algoritmos de entrenamiento y poseen diferentes arquitecturas, dependiento del problema a resolver.

- Son flexibles y resistentes a errores. - Pueden procesar en tiempo real. - Sus principales usos se dan en el reconocimiento de patrones y en los modelos de prediccin. - Son aplicables por ejemplo en el Mercado Burstil, en los sistemas OCR, en la Segmentacin de Clientes, en predicciones de Demanda y especialmente en Deteccin de Fraudes y Riesgos.

REDES NEURONALES Modelos Supervisados Entrenados en base al conocimiento previo

http://www.ifork.com.ar

Modelos NO Supervisados Entrenados en base a aproximaciones estadsticas matemticas. Se autoorganizan.

En Seguridad Informtica Se utilizan los modelos SUPERVISADOS. Se entrenan en base a que el maestro determine si una conexin o evento de red, fue una intrusin o no.

REDES BAYESIANAS Son redes basadas en probabilidades, especficamente condicionales. Obtienen su nombre del Teorema de Bayes. Constan de grficos acclicos y dirigidos, donde cada nodo representa una variable aleatoria del sistema. Ejemplos

http://www.ifork.com.ar

En medicina, un conjunto de variables representan diferentes sntomas, y en base a ello se calcula la probabilidad de padecer determinada enfermedad. En informtica, los clasificadores bayesianos se utilizan en los sistemas de deteccin de intrusos, asignndole en base a una serie de variables la probabilidad de que un evento sea una intrusin. Tambin en los sistemas anti-spam, asignndole a un mail la probabilidad de que sea un spam. El popular spamassassin es una potente red bayesiana basada en puntajes, que a su vez estos puntajes estn basados en probabilidades.
-Se crea un archivo de mails vlidos en $HOME/Mail/ham - Se crea un archivo de spam que Spamassassin no detecto en $HOME/Mail/mspam - A medida que crecen las bases, se corre el comando sa-learn que es el agoritmo de entrenamiento bayesiano que asigna a cada mail en dichos archivos un score.

CONCEPTOS IMPORTANTES DE DATA MINING

http://www.ifork.com.ar

Clasificador: Es aquel algoritmo encargado de segmentar y aglomerar instancias de variables que poseen caractersticas en comn mediante el reconocimiento de patrones. Redes Neuronales y Bayesianas son ejemplos de ellos.

Nubes de Comportamiento Normales y Outliers: Una tcnica de reconocimiento de patrones e identificacin de anomalas es la creacin de nubes de comportamiento tpico y estudiar los puntos que no encuadran en dichos aglomerados. Con estas tcnicas se detectan FRAUDES y en seguridad informtica se estudian posibles Intrusiones, ya que el atacante no forma parte de la nube de comportamiento tpico en una red.

Dataset: Coleccin de datos presentados en diferentes formatos, generalmente compatibles con bases de datos. Por ejemplo CSV. Cada columna representa una variable, y cada fila es un caso. Los diferentes algoritmos de Data Mining van a correr contra una tabla de base de datos o un Dataset. Aqu entra en juego las herramientas OLAP.

SISTEMAS DE DETECCIN DE INTRUSOS (IDS) Definicin desde el punto de vista de un IDS Clsico, ejemplo SNORT .

http://www.ifork.com.ar

Un IDS o Sistema de Deteccin de Intrusiones es una herramienta de seguridad que intenta detectar o monitorizar los eventos ocurridos en un determinado sistema informtico o red informtica en busca de intentos de comprometer la seguridad de dicho sistema.

Basados en SIGNATURES
Diferencia ms significativa con los IDS Inteligentes

Ejemplo SNORT
Reconocen nuevas intrusiones o anomalas

Proyecto que trabaja en conjunto con SNORT y Redes Neuronales: http://jeiks.net/index.php?p=1_5 (en portugus)

SISTEMAS DE DETECCIN DE INTRUSOS (IDS)

http://www.ifork.com.ar

Sistemas de Alarmas ante posibles intrusiones y comportamiento anmalo

Propsito de los IDS

En algunos casos REACTIVOS. Crean reglas de firewall. SNORT 2.3

Misuse Detection. Basados en SIGNATURES

Clasificacin de IDS

Abnormality Detection. Basados en aproximaciones estadsticas.

Se podra decir, que en los IDS basados en Misuse Detection el comportamiento anormal se define previamente, mientras que en los basados en aproximaciones estadsticas se define previamente el comportamiento normal.

Ventajas de los IDS basados en SIGNATURES Detectan vulnerabilidades y ataques conocidos al instante
Ventajas de los IDS basados en COMPORTAMIENTO ANORMAL Detectan vulnerabilidades y ataques que no eran conocidos previamente Se puede adaptar a entornos particulares y personalizados Desventajas de los IDS basados en COMPORTAMIENTO ANORMAL Pueden producir un alto volumen de falsas alarmas El proceso de entrenamiento de una Red Neuronal puede ser arduo.

IDS basados en Redes Neuronales

http://www.ifork.com.ar

Dinmica de Captura - Procesamiento - Anlisis - Alertas


Todos los anlisis a correr, ya sean redes neuronales, rboles de decisin, etc, se ejecutan sobre un dataset El dataset est compuesto por cada conexin de red existente El INPUT del dataset puede ser el TCPDUMP o NETFLOW Se determinan las variables ms relevantes: - IP origen - IP destino - Puerto - Protocolo - Cantidad de Paquetes - Tamao en bytes - Cantidad de paquetes - Tiempo Se hace un proceso de limpieza de dicha informacin Se ordena la info en una base de datos, por ej MySQL o en texto plano CSV

A cada instancia del dataset se le asigna un puntaje o score en base al entrenamiento de la Red Neuronal
Se determina que tan anmalo es ese puntaje Se crea un sistema de alertas en base al punto anterior Es necesario tener un servidor dedicado que recolecte los datos y realice el procesamiento.

Text Mining Web Mining Log Mining & Security

http://www.ifork.com.ar

De la misma manera que la Minera de Datos explora grandes bases de datos, existen disciplinas que se especializan en reas particulares.

Text Mining: Tcnicas especficas para explorar, analizar y descubrir patrones en diferentes
formatos de texto.

Web Mining: Extrae informacin en: contenido de pginas web


estructura de links registros de navegacin

Log Mining: Extrae informacin de diferentes logs de servidores, no solo detectan anomalas,
sino tambin ayudan ampliamente en los sistemas de reportes y optimizacin de rendimiento.

Text Mining Web Mining Log Mining & Security

http://www.ifork.com.ar

Desde el punto de vista de la Seguridad


-Organismos gubernamentales y agencias de seguridad utilizan ampliamente estas tcnicas para rastrear conductas delictivas realizando Text Mining y Web Mining sobre: Sitios Web Foros de discusin Redes Sociales Canales de chat Mails A menudo se entrecruza esta informacin con escuchas telefnicas y celulares. -Un software comercial que tiene como base el Text Mining es el OASIS
(Overall Analysis System for Intelligence Support)

Desde el punto de vista del Cracking


-Se emplean este tipo de tcnicas para recolectar informacin personal lo que deriva en el robo de identidades

Software y Proyectos

http://www.ifork.com.ar

Weka
Open Source suite para Data Mining Contiene potentes algoritmos de Redes Neuronales, Redes Bayesianas, rboles de Decisin, etc.

OpenBayes.Org
Librera que implementa Redes Bayesianas en Pyton

GATE
Open Source Toolkit para Text Mining

Neuroph
Framework en Java para desarrollar y entrenar redes neuronales

Desafos

http://www.ifork.com.ar

Desarrollo de un sistema de deteccin de intrusos basado en redes bayesianas, posiblemente a integrarse como parte de SNORT.
reas necesarias a cubrir: -Especialista en Estadstica -Especialista en Seguridad Informtica y Redes -Programador Lenguajes recomendados: -Python -Java -Perl La etapa de implementacin tambin debe ser multidisciplinaria. Ya que en cada entorno el entrenamiento de la red puede variar drsticamente.

Jornadas de Software Libre y Seguridad La Pampa

http://www.ifork.com.ar

Jornadas de Software Libre & Seguridad Informtica 4 y 5 de Diciembre de 2009 Santa Rosa La Pampa

Juan Pablo Braa

juan.brana@ifork.com.ar

You might also like