Um Informe da IBM
Watson Um Sistema
Projetado para Respostas
O futuro do design de sistemas otimizados para
carga de trabalho
2 Watson Um Sistema Projetado para Respostas
Resumo
No ltimo sculo, a IBM realizou vrias inovaes cientcas
graas ao seu compromisso com a pesquisa e sua tradio de
Grandes Desaos. Esses Grandes Desaos como o Deep
Blue, projetado para rivalizar com o campeo mundial de xadrez
Gary Kasparov so um esforo para impulsionar a cincia de
maneiras que antes no eram consideradas possveis. O Watson
o mais novo Grande Desao de Pesquisa da IBM, projetado para
desenvolver a cincia do processamento de linguagens naturais
atravs de avanos na tecnologia de perguntas e respostas.
competio de trs pessoas, conana, preciso e velocidade de Watson competiu contra dois dos mais conhecidos e
resposta so de suma importncia, pois os concorrentes bem-sucedidos campees de Jeopardy! Ken Jennings e Brad
geralmente pensam na resposta nos poucos segundos que o Rutter em uma competio de duas partidas, transmitida em
apresentador demora para ler uma pista. Para competir no jogo trs noites consecutivas a partir de 14 de fevereiro de 2011.
no mesmo nvel dos campees humanos, um sistema de
computador teria de responder cerca de 70 por cento das IBM DeepQA
perguntas com preciso maior que 80 por cento, em trs DeepQA uma arquitetura probabilstica paralela macia
segundos ou menos. baseada em evidncias. Para o desao Jeopardy!, mais de
100 tcnicas diferentes so usadas para analisar a linguagem
O Watson representa um avano impressionante no design e natural, identicar fontes, encontrar e gerar hipteses, encontrar
anlise de sistemas. Ele executa a tecnologia DeepQA da IBM, e pontuar evidncias, e mesclar e classicar hipteses. Muito
um novo tipo de capacidade analtica que pode executar milhares mais importante do que qualquer tcnica em particular a
de tarefas simultneas em segundos para fornecer respostas maneira em que todas essas tcnicas so combinadas no
precisas a perguntas. Ativado pela tecnologia dos processadores DeepQA, de forma que abordagens sobrepostas podem unir
IBM POWER7, o Watson um exemplo das cargas de trabalho foras e contribuir para melhorias na preciso, conana ou
de anlise complexa que esto se tornando cada vez mais comuns velocidade.
e essenciais para o sucesso e a competitividade dos negcios no
ambiente atual de grande uxo de dados.
4 Watson Um Sistema Projetado para Respostas
A DeepQA uma arquitetura com uma metodologia As implementaes iniciais do Watson eram executadas em um
complementar, mas no especca para o Desao Jeopardy! A nico processador, que exigia duas horas para responder a
IBM comeou a adapt-la para diferentes aplicaes comerciais e uma nica pergunta. Mas a computao da DeepQA
outros problemas desaantes a serem explorados, inclusive nas embaraosamente paralela; portanto, ela pode ser dividida em
reas de medicina, pesquisa corporativa e jogos. vrias partes independentes, cada uma das quais podendo ser
executada por um processador separado. A UIMA-AS, parte da
Os princpios predominantes da DeepQA so: Apache UIMA, permite a escala horizontal de aplicativos UIMA
usando mensagens assncronas. O Watson utiliza a UIMA-AS
1. Paralelismo macio: o paralelismo macio explorado na para se escalar em 2.880 processadores POWER7 em um cluster
considerao de vrias interpretaes e hipteses. de 90 servidores IBM Power 750. A UIMA-AS gerencia toda a
2. Muitos especialistas: facilitam a integrao, aplicao e comunicao entre processos, usando o padro aberto JMS.
avaliao contextual de uma ampla gama de anlises A implantao da UIMA-AS para POWER7 permitiu ao
probabilsticas de perguntas e contedos fracamente Watson fornecer respostas em um a seis segundos.
acopladas.
3. Estimativa universal de conana: no h um nico O Watson tem cerca de 200 milhes de pginas de contedo em
componente que se compromete com uma resposta; todos os linguagem natural (equivalente leitura de 1 milho de livros).
componentes produzem caractersticas e conanas associadas, O Watson utiliza a estrutura Apache Hadoop para facilitar o
pontuando interpretaes diferentes de perguntas e contedos. pr-processamento em grandes volumes de dados para criar
Um substrato subjacente de processamento de conana conjuntos de dados internos memria, usados em tempo de
aprende a empilhar e combinar as pontuaes. execuo. Os anotadores UIMA DeepQA do Watson foram
4. Integrao de conhecimento supercial e profundo: implementados como mapeadores na estrutura de reduo de
equilibra o uso de semntica restrita e semntica supercial, mapa da Hadoop, que os distribuiu pelos processadores no
aproveitando-se de muitas ontologias formadas livremente. cluster. A Hadoop contribui para a utilizao otimizada das
CPUs e tambm fornece ferramentas convenientes para
Velocidade e escala horizontal implantar, gerenciar e monitorar o processo de anlise de dados.
O DeepQA desenvolvido usando a Apache UIMA, uma
implementao de estrutura da Unstructured Information Aproveitando-se do POWER7
Management Architecture (Arquitetura de Gerenciamento de O Watson se aproveita do desempenho de processamento
Informaes No-Estruturada). A UIMA foi projetada para dar paralelo macio dos seus processadores POWER7 para executar
suporte interoperabilidade e escala horizontal de aplicativos de suas milhares de tarefas da DeepQA simultaneamente em
anlise textual e multimodal. Todos os componentes da DeepQA ncleos de processadores individuais. Cada um dos 90 servidores
so implementados como anotadores UIMA. Esses componentes IBM Power 750 em cluster do Watson conta com 32 ncleos
analisam o texto e produzem anotaes ou asseres sobre ele. POWER7, executados a 3.55 GHz. Executando o sistema
Com o tempo, Watson evoluiu de forma que o sistema agora operacional Linux, os servidores so abrigados em 10 racks,
tem centenas de componentes. A UIMA facilitou a integrao, juntamente com os ns de E/S e hubs de comunicao
teste e avaliao rpida dos componentes. associados. O sistema tem um total combinado de 16 terabytes
de memria e pode operar a mais de 80 teraops (trilhes de
operaes por segundo).
Um Informe da IBM 5
POW03061-BRPT-00