You are on page 1of 6

Sistemas y Tecnologa de IBM Febrero de 2011

Un White Paper de IBM

Watson Un sistema
Diseado para Respuestas
El futuro del diseo de sistemas optimizados de cargas de trabajo
2 Watson Un sistema diseado para Respuestas

Resumen Ejecutivo
Durante el ltimo siglo, IBM ha logrado varios descubrimientos
cientficos gracias a su compromiso y su tradicin de Grandes
Desafos. Estos Grandes Desafos (como ser Deep Blue,
el cual fue diseado para enfrentar al campen mundial en
ajedrez, Gary Kasparov) hacen que la ciencia avance en formas
que se consideraban imposibles anteriormente. Watson es el
ltimo Gran Desafo de IBM Research, diseado para lograr
descubrimientos en la ciencia del procesamiento de lenguaje
natural por medio de los avances en cuestin y la tecnologa de
respuestas.

Watson es un sistema optimizado de cargas de trabajo basado


en arquitectura IBM DeepQA la cual se ejecuta en un clster
de servidores basados en el procesador IBM POWER7.
Despus de cuatro aos de investigacin y desarrollo intensos
por un equipo de investigadores de IBM, Watson compiti en Hoy en da, las compaas estn capturando cada vez ms
Jeopardy! en febrero de 2011, rindiendo al nivel de expertos informacin fundamental de negocios en documentacin
humanos en trminos de precisin, confianza y velocidad contra en lenguaje natural, por lo que hay un creciente inters en
dos de los Campeones de Jeopardy! ms conocidos y exitosos, sistemas optimizados de cargas de trabajo que analizan a fondo
Ken Jennings y Brad Rutter. Este white paper explica el diseo el contenido de preguntas en lenguaje natural para responder
del sistema optimizado de cargas de trabajo de Watson, por qu esas preguntas con precisin. Los avances en la tecnologa
es un emblema del futuro del diseo de sistemas, y por qu esto de respuesta a preguntas (QA) ayudarn cada vez ms a los
representa un nuevo paradigma en computacin. profesionales a tomar decisiones fundamentales y oportunas en
reas como la asistencia mdica, la inteligencia empresarial, el
Jeopardy! El desafo de IBM descubrimiento de conocimientos, la gestin de conocimientos
En 1997, Deep Blue, el sistema de juego de ajedrez empresariales y la asistencia al cliente.
computarizado desarrollado por IBM Research, capt la atencin
mundial al competir con xito contra el campen en ajedrez Gary
Kasparov. Fue la culminacin de un gran desafo para lograr Con QA en mente, IBM se propuso un desafo para construir
avances en la ciencia de la computacin en una forma que capt un sistema computacional denominado Watson (en honor a
mucho inters popular. Thomas J. Watson, fundador de IBM), el cual pudo competir
al nivel de campeones humanos en tiempo real en el programa
de preguntas de la TV Americana Jeopardy! El programa, el
cual se transmite en los Estados Unidos desde hace ms de 25
aos, enfrenta a tres concursantes humanos entre s para que
respondan preguntas en un lenguaje natural rico con respecto
a una amplia gama de tpicos, con penalidades por respuestas
Sistemas y Tecnologa de IBM 3

incorrectas. En esta competencia de tres personas, la confianza, Watson compiti contra dos de los campeones ms conocidos
precisin y velocidad de respuesta son de fundamental y exitosos de Jeopardy! (Ken Jennings y Brad Rutter) en
importancia, ya que los participantes generalmente dan sus una competencia de dos partidas emitidas en tres noches
respuestas en los pocos segundos que le lleva al presentador consecutivas comenzando el 14 de febrero de 2011.
leer una pista. Para competir en este juego a niveles de
campeones humanos, un sistema de computacin debera IBM DeepQA
responder aproximadamente un 70 porciento de las preguntas DeepQA es una arquitectura basada en evidencia probabilstica
formuladas con una precisin mayor al 80 porciento en tres masivamente paralela. Para el Desafo de Jeopardy!, se utilizan
segundos o menos. ms de 100 tcnicas diferentes para analizar el lenguaje natural,
identificar fuentes, encontrar y generar hiptesis, buscar y
Watson representa un impresionante avance en el diseo y la marcar evidencia, y unir y clasificar hiptesis. Mucho ms
analtica de sistemas. Ejecuta la tecnologa DeepQA de IBM, importante que cualquier otra tcnica en particular es la forma
un nuevo tipo de capacidad analtica que puede realizar miles en que se combinan todas estas tcnicas en DeepQA, de forma
de tareas simultneas en segundos para brindar respuestas que los enfoques superpuestos puedan aportar sus cualidades y
precisas a las preguntas. contribuir a mejoras en precisin, confianza o velocidad.
Watson funciona con tecnologa del procesador IBM
POWER7, y es un ejemplo de las complejas cargas de trabajo
analticas que son cada vez ms comunes y fundamentales para
el xito y la competitividad empresariales en el entorno de
muchos datos de hoy en da.
4 Watson Un sistema diseado para Respuestas

DeepQA es una arquitectura que viene junto con una de Apache UIMA, permite la escalabilidad horizontal de
metodologa, aunque no es especfica para el Desafo aplicaciones UIMA utilizando mensajera asncrona. Watson
Jeopardy! IBM comenz a adaptarla a diferentes aplicaciones utiliza UIMA-AS para obtener una escalabilidad horizontal
empresariales y problemas de desafos de exploracin, incluida en 2.800 ncleos POWER7 en un clster de 90 servidores
la medicina, la investigacin empresarial y el juego. IBM Power 750. UIMA_AS gestiona toda su comunicacin
entre procesos, utilizando el estndar JMS abierto. La
Los principios globales en DeepQA son: implementacin de UIMA-AS en POWER7 le permiti a
Watson proporcionar respuestas de uno a seis segundos.
1. Paralelismo masivo: aproveche un paralelismo masivo en
la consideracin de interpretaciones e hiptesis mltiples. Watson tiene aproximadamente 200 millones de pginas con
2. Muchos expertos: facilite la integracin, aplicacin y contenido de lenguaje natural (equivalente a la lectura de 1
evaluacin contextual de una amplia variedad de analticas milln de libros). Watson utiliza el marco Apache Hadoop
de preguntas y contenidos probabilsticos vagamente para facilitar el preprocesamiento de grandes volmenes de
asociados. datos para crear conjuntos de datos en la memoria utilizados
3. Valoracin de confianza dominante: ningn durante el tiempo de ejecucin. Los anotadores DeepQA
componente nico se compromete a una respuesta; UIMA de Watson fueron implementados como asignadores en
todos los componentes producen funciones y confianzas la infraestructura map-reduce de Hadoop, la cual los distribuy
relacionadas, marcando diferentes interpretaciones en todos los procesadores del clster. Hadoop contribuye
de preguntas y contenidos. Un sustrato subyacente de a un ptimo uso del CPU y tambin brinda herramientas
procesamiento de confidencias aprende a acumular y convenientes para implementar, gestionar y monitorear el
combinar los puntajes. proceso de anlisis de datos.
4. Integracin de conocimiento superficial y profundo:
equilibre el uso de semntica estricta y semntica Aprovechar el POWER7
superficial, aprovechando ontologas vagamente formadas. Watson aprovecha el desempeo de procesamiento paralelo
masivo de sus procesadores POWER7 para ejecutar sus
miles de tareas de DeepQA simultneamente en ncleos de
Velocidad y Escalabilidad Horizontal procesadores individuales. Cada uno de los 90 servidores
DeepQA se desarrolla utilizando Apache UIMA, una
IBM Power 750 basados en clsteres cuenta con 32 ncleos
implementacin de marco de la Arquitectura de Gestin
POWER7 ejecutndose a 3.55 GHz. Los servidores ejecutan el
de Informacin No Estructurada. UIMA fue diseado para
sistema operativo Linux, y se ubican en 10 bastidores junto
soportar la interoperabilidad y escalabilidad horizontal de
con los nodos I/O y los hubs de comunicacin relacionados.
aplicaciones de anlisis multimodal y de texto. Todos los
El sistema cuenta con un total combinado de 16 Terabytes
componentes en DeepQA se implementan como anotadores
de memoria y puede funcionar a 80 Teraflops (trillones de
UIMA. stos son los componentes que analizan texto y
operaciones por segundo).
producen anotaciones o afirmaciones acerca del texto. Con el
tiempo, Watson evolucion, por lo que ahora el sistema cuenta
Con su diseo innovador con procesador de 8 ncleos,
con cientos de componentes. UIMA facilit una integracin,
POWER7 es ideal para un procesamiento masivamente paralelo
prueba y evaluacin rpidas de componentes.
de algoritmos analticos de Watson. POWER7 tambin cuenta
con 500 gigabytes con un ancho de banda de comunicaciones
Las primeras implementaciones de Watson se ejecutaron en un
en chip, lo cual contribuye a una eficiencia excepcional de
solo procesador, el cual necesit de dos horas para responder
utilizacin tanto de la memoria como del procesador. Y debido
a una sola pregunta. No obstante, la computacin de DeepQA
a que cada servidor cuenta con 32 ncleos POWER7 de alto
es muy paralela, por lo que puede dividirse en una cantidad de
rendimiento con hasta 512 GB de memoria, el Power 750
partes independientes, cada una de las cuales puede ejecutarse
es una plataforma ideal para el procesador de Watson y los
por un procesador por separado. UIMA-AS, el cual es parte
procesos Java que necesitan de mucha memoria.
Sistemas y Tecnologa de IBM 5

Disear a Watson en servidores Power 750 disponibles


comercialmente fue una opcin intencional para asegurarnos
una adopcin ms rpida de sistemas optimizados en industrias
como la asistencia mdica y los servicios financieros. Esa meta
fue una diferencia fundamental entre Watson y Deep Blue,
la cual era una supercomputadora muy personalizada. Deep
Blue se basaba en una generacin anterior de tecnologa de
procesadores Power, la cual contaba con un nico procesador
POWER2 de 120 MHz. Pero adems de los procesadores
POWER2 normales, el desempeo de Deep Blue estaba
incrementado con 480 chips especficos de ajedrez.

El mismo servidor Power 750 utilizado por Watson ya se


implementa en la actualidad por miles de organizaciones en
sistemas optimizados que brindan tanto analticas complejas
como procesamiento de transacciones. La Universidad Rice de
Houston, Texas, por ejemplo, utiliza los sistemas IBM Power
750 para acelerar la comprensin de la base molecular del
cncer por medio de la aplicacin de tecnologas de anlisis avanz en los campos de analtica de datos no estructurados,
de genomas. Los sistemas POWER7 le han dado a Rice ms procesamiento de lenguaje natural, y el diseo de sistemas
flexibilidad y eficiencia, permitindoles buscar una mayor optimizados de cargas de trabajo. Adems de Jeopardy!, la
variedad de desafos de investigacin en un solo sistema tecnologa con la que cuenta Watson se puede adaptar para
que antes era posible. Y GHY International, una sociedad resolver problemas comerciales y sociales (por ejemplo,
de corretaje de aduana en Canad, pas a un nuevo Power diagnstico de enfermedades, gestin en lnea de preguntas
750 que ejecuta Power AIX, Power i y Power Linux para de soporte tcnico y anlisis gramatical de vastos extractos
soportar mejor el mayor compromiso de sus clientes con el de documentos legales) y para impulsar el progreso entre
comercio internacional. Con la virtualizacin PowerVM, industrias.
GHY ahora puede implementar nuevas capacidades en tan solo
cinco minutos para soportar las necesidades cambiantes de sus La capacidad de Watson de comprender el significado y
clientes. contexto del lenguaje humano, y de procesar informacin
rpidamente para encontrar respuestas precisas a preguntas
Un sistema diseado para respuestas complejas, representa un enorme potencial para transformar la
Despus de cuatro aos de investigacin intensa y desarrollo forma en que las computadoras pueden ayudar a las personas a
por un equipo de investigadores de IBM, Watson demostr cumplir tareas en los negocios y sus vidas personales.
su habilidad para competir en Jeopardy! contra jugadores
campeones, con un desempeo al nivel de expertos humanos,
en trminos de precisin, confianza y velocidad. El proyecto
Para ms informacin
Para obtener ms informacin acerca de Watson, POWER7 y
los sistemas optimizados de cargas de trabajo, entre en contacto
con su representante de marketing de IBM o su IBM Business
Partner, o visite los siguientes sitios web:
ibm.com/systems/power/advantages/watson Copyright IBM Corporation 2011
ibm.com/systems/power IBM Systems and Technology Group
Route 100
Somers, NY 10589

Producido en los Estados Unidos de Amrica


Febrero de 2011
Todos los Derechos Reservados

IBM, el logotipo de IBM, ibm.com, Power, POWER7 y DEEP BLUE


son marcas comerciales de International Business Machines Corporation
en los Estados Unidos, otros pases o ambos. Si stos u otros trminos
registrados de IBM se marcan en su primera ocurrencia en esta informacin
con un smbolo de marca registrada ( o ), estos smbolos indican marcas
comerciales registradas o de derecho consuetudinario de EE.UU., las cuales
son propiedad de IBM en el momento en que se public esta informacin.
Dichas marcas comerciales tambin pueden ser registradas o de derecho
consuetudinario en otros pases. Podr encontrar una lista de marcas
comerciales de IBM en la pgina Informacin de Derechos de Autor y
Marcas Comerciales en ibm.com/legal/copytrade.shtml

Otros nombres de compaas, productos o servicios pueden ser marcas


comerciales o de servicios de otros.

Recicle

POW03061-USEN-00

You might also like