Professional Documents
Culture Documents
Watson Un sistema
Diseado para Respuestas
El futuro del diseo de sistemas optimizados de cargas de trabajo
2 Watson Un sistema diseado para Respuestas
Resumen Ejecutivo
Durante el ltimo siglo, IBM ha logrado varios descubrimientos
cientficos gracias a su compromiso y su tradicin de Grandes
Desafos. Estos Grandes Desafos (como ser Deep Blue,
el cual fue diseado para enfrentar al campen mundial en
ajedrez, Gary Kasparov) hacen que la ciencia avance en formas
que se consideraban imposibles anteriormente. Watson es el
ltimo Gran Desafo de IBM Research, diseado para lograr
descubrimientos en la ciencia del procesamiento de lenguaje
natural por medio de los avances en cuestin y la tecnologa de
respuestas.
incorrectas. En esta competencia de tres personas, la confianza, Watson compiti contra dos de los campeones ms conocidos
precisin y velocidad de respuesta son de fundamental y exitosos de Jeopardy! (Ken Jennings y Brad Rutter) en
importancia, ya que los participantes generalmente dan sus una competencia de dos partidas emitidas en tres noches
respuestas en los pocos segundos que le lleva al presentador consecutivas comenzando el 14 de febrero de 2011.
leer una pista. Para competir en este juego a niveles de
campeones humanos, un sistema de computacin debera IBM DeepQA
responder aproximadamente un 70 porciento de las preguntas DeepQA es una arquitectura basada en evidencia probabilstica
formuladas con una precisin mayor al 80 porciento en tres masivamente paralela. Para el Desafo de Jeopardy!, se utilizan
segundos o menos. ms de 100 tcnicas diferentes para analizar el lenguaje natural,
identificar fuentes, encontrar y generar hiptesis, buscar y
Watson representa un impresionante avance en el diseo y la marcar evidencia, y unir y clasificar hiptesis. Mucho ms
analtica de sistemas. Ejecuta la tecnologa DeepQA de IBM, importante que cualquier otra tcnica en particular es la forma
un nuevo tipo de capacidad analtica que puede realizar miles en que se combinan todas estas tcnicas en DeepQA, de forma
de tareas simultneas en segundos para brindar respuestas que los enfoques superpuestos puedan aportar sus cualidades y
precisas a las preguntas. contribuir a mejoras en precisin, confianza o velocidad.
Watson funciona con tecnologa del procesador IBM
POWER7, y es un ejemplo de las complejas cargas de trabajo
analticas que son cada vez ms comunes y fundamentales para
el xito y la competitividad empresariales en el entorno de
muchos datos de hoy en da.
4 Watson Un sistema diseado para Respuestas
DeepQA es una arquitectura que viene junto con una de Apache UIMA, permite la escalabilidad horizontal de
metodologa, aunque no es especfica para el Desafo aplicaciones UIMA utilizando mensajera asncrona. Watson
Jeopardy! IBM comenz a adaptarla a diferentes aplicaciones utiliza UIMA-AS para obtener una escalabilidad horizontal
empresariales y problemas de desafos de exploracin, incluida en 2.800 ncleos POWER7 en un clster de 90 servidores
la medicina, la investigacin empresarial y el juego. IBM Power 750. UIMA_AS gestiona toda su comunicacin
entre procesos, utilizando el estndar JMS abierto. La
Los principios globales en DeepQA son: implementacin de UIMA-AS en POWER7 le permiti a
Watson proporcionar respuestas de uno a seis segundos.
1. Paralelismo masivo: aproveche un paralelismo masivo en
la consideracin de interpretaciones e hiptesis mltiples. Watson tiene aproximadamente 200 millones de pginas con
2. Muchos expertos: facilite la integracin, aplicacin y contenido de lenguaje natural (equivalente a la lectura de 1
evaluacin contextual de una amplia variedad de analticas milln de libros). Watson utiliza el marco Apache Hadoop
de preguntas y contenidos probabilsticos vagamente para facilitar el preprocesamiento de grandes volmenes de
asociados. datos para crear conjuntos de datos en la memoria utilizados
3. Valoracin de confianza dominante: ningn durante el tiempo de ejecucin. Los anotadores DeepQA
componente nico se compromete a una respuesta; UIMA de Watson fueron implementados como asignadores en
todos los componentes producen funciones y confianzas la infraestructura map-reduce de Hadoop, la cual los distribuy
relacionadas, marcando diferentes interpretaciones en todos los procesadores del clster. Hadoop contribuye
de preguntas y contenidos. Un sustrato subyacente de a un ptimo uso del CPU y tambin brinda herramientas
procesamiento de confidencias aprende a acumular y convenientes para implementar, gestionar y monitorear el
combinar los puntajes. proceso de anlisis de datos.
4. Integracin de conocimiento superficial y profundo:
equilibre el uso de semntica estricta y semntica Aprovechar el POWER7
superficial, aprovechando ontologas vagamente formadas. Watson aprovecha el desempeo de procesamiento paralelo
masivo de sus procesadores POWER7 para ejecutar sus
miles de tareas de DeepQA simultneamente en ncleos de
Velocidad y Escalabilidad Horizontal procesadores individuales. Cada uno de los 90 servidores
DeepQA se desarrolla utilizando Apache UIMA, una
IBM Power 750 basados en clsteres cuenta con 32 ncleos
implementacin de marco de la Arquitectura de Gestin
POWER7 ejecutndose a 3.55 GHz. Los servidores ejecutan el
de Informacin No Estructurada. UIMA fue diseado para
sistema operativo Linux, y se ubican en 10 bastidores junto
soportar la interoperabilidad y escalabilidad horizontal de
con los nodos I/O y los hubs de comunicacin relacionados.
aplicaciones de anlisis multimodal y de texto. Todos los
El sistema cuenta con un total combinado de 16 Terabytes
componentes en DeepQA se implementan como anotadores
de memoria y puede funcionar a 80 Teraflops (trillones de
UIMA. stos son los componentes que analizan texto y
operaciones por segundo).
producen anotaciones o afirmaciones acerca del texto. Con el
tiempo, Watson evolucion, por lo que ahora el sistema cuenta
Con su diseo innovador con procesador de 8 ncleos,
con cientos de componentes. UIMA facilit una integracin,
POWER7 es ideal para un procesamiento masivamente paralelo
prueba y evaluacin rpidas de componentes.
de algoritmos analticos de Watson. POWER7 tambin cuenta
con 500 gigabytes con un ancho de banda de comunicaciones
Las primeras implementaciones de Watson se ejecutaron en un
en chip, lo cual contribuye a una eficiencia excepcional de
solo procesador, el cual necesit de dos horas para responder
utilizacin tanto de la memoria como del procesador. Y debido
a una sola pregunta. No obstante, la computacin de DeepQA
a que cada servidor cuenta con 32 ncleos POWER7 de alto
es muy paralela, por lo que puede dividirse en una cantidad de
rendimiento con hasta 512 GB de memoria, el Power 750
partes independientes, cada una de las cuales puede ejecutarse
es una plataforma ideal para el procesador de Watson y los
por un procesador por separado. UIMA-AS, el cual es parte
procesos Java que necesitan de mucha memoria.
Sistemas y Tecnologa de IBM 5
Recicle
POW03061-USEN-00