Anda di halaman 1dari 6

IBM Systems and Technology Fevereiro de 2011

Um Informe da IBM

Watson Um Sistema
Projetado para Respostas
O futuro do design de sistemas otimizados para
carga de trabalho
2 Watson Um Sistema Projetado para Respostas

Resumo
No ltimo sculo, a IBM realizou vrias inovaes cientcas
graas ao seu compromisso com a pesquisa e sua tradio de
Grandes Desaos. Esses Grandes Desaos como o Deep
Blue, projetado para rivalizar com o campeo mundial de xadrez
Gary Kasparov so um esforo para impulsionar a cincia de
maneiras que antes no eram consideradas possveis. O Watson
o mais novo Grande Desao de Pesquisa da IBM, projetado para
desenvolver a cincia do processamento de linguagens naturais
atravs de avanos na tecnologia de perguntas e respostas.

O Watson um sistema otimizado para carga de trabalho,


baseado na arquitetura IBM DeepQA e executado em um cluster
de servidores baseados em processadores IBM POWER7.
Depois de quatro anos de pesquisa e desenvolvimento intensos
por parte de uma equipe de pesquisadores da IBM, o Watson Hoje em dia, com as empresas cada vez mais captando
competiu no programa de TV Jeopardy! em fevereiro de 2011, informaes essenciais aos negcios em documentao de
competindo no mesmo nvel de especialistas humanos em termos linguagem natural, h um interesse crescente em sistemas
de preciso, conana e velocidade contra dois dos mais otimizados para carga de trabalho que analisam profundamente o
conhecidos e bem-sucedidos campees de Jeopardy!, Ken contedo de perguntas em linguagem natural para responder a
Jennings e Brad Rutter. Este informe explica o design de sistema elas com preciso. Avanos na tecnologia de respostas a
otimizado para carga de trabalho do Watson, como ele um perguntas (QA, question answering) vo ajudar cada vez mais
marco no futuro do design de sistemas e por que ele representa prossionais na tomada de decises crticas e pontuais em reas
um novo paradigma computacional. como atendimento mdico, business intelligence, descoberta de
conhecimento, gerenciamento de conhecimento corporativo e
Jeopardy! O desao da IBM atendimento ao cliente.
Em 1997, Deep Blue, o sistema computacional para jogos de
xadrez desenvolvido pela IBM Research, chamou ateno no Tendo a QA em mente, a IBM se imps o desao de desenvolver
mundo todo ao competir com sucesso contra o campeo mundial um sistema computacional chamado Watson (em homenagem
de xadrez Gary Kasparov. Foi o auge de um grande desao para a Thomas J. Watson, fundador da IBM), que pudesse competir
avanar a cincia da computao de uma maneira que criasse ao nvel de campees humanos em tempo real no programa de
grande interesse popular. perguntas e respostas da TV dos EUA Jeopardy! O programa,
transmitido nos EUA h mais de 25 anos, coloca trs
concorrentes humanos para competir entre si, respondendo a
perguntas de linguagem natural rica em uma ampla gama de
tpicos, com penalidades para respostas erradas. Nessa
Um Informe da IBM 3

competio de trs pessoas, conana, preciso e velocidade de Watson competiu contra dois dos mais conhecidos e
resposta so de suma importncia, pois os concorrentes bem-sucedidos campees de Jeopardy! Ken Jennings e Brad
geralmente pensam na resposta nos poucos segundos que o Rutter em uma competio de duas partidas, transmitida em
apresentador demora para ler uma pista. Para competir no jogo trs noites consecutivas a partir de 14 de fevereiro de 2011.
no mesmo nvel dos campees humanos, um sistema de
computador teria de responder cerca de 70 por cento das IBM DeepQA
perguntas com preciso maior que 80 por cento, em trs DeepQA uma arquitetura probabilstica paralela macia
segundos ou menos. baseada em evidncias. Para o desao Jeopardy!, mais de
100 tcnicas diferentes so usadas para analisar a linguagem
O Watson representa um avano impressionante no design e natural, identicar fontes, encontrar e gerar hipteses, encontrar
anlise de sistemas. Ele executa a tecnologia DeepQA da IBM, e pontuar evidncias, e mesclar e classicar hipteses. Muito
um novo tipo de capacidade analtica que pode executar milhares mais importante do que qualquer tcnica em particular a
de tarefas simultneas em segundos para fornecer respostas maneira em que todas essas tcnicas so combinadas no
precisas a perguntas. Ativado pela tecnologia dos processadores DeepQA, de forma que abordagens sobrepostas podem unir
IBM POWER7, o Watson um exemplo das cargas de trabalho foras e contribuir para melhorias na preciso, conana ou
de anlise complexa que esto se tornando cada vez mais comuns velocidade.
e essenciais para o sucesso e a competitividade dos negcios no
ambiente atual de grande uxo de dados.
4 Watson Um Sistema Projetado para Respostas

A DeepQA uma arquitetura com uma metodologia As implementaes iniciais do Watson eram executadas em um
complementar, mas no especca para o Desao Jeopardy! A nico processador, que exigia duas horas para responder a
IBM comeou a adapt-la para diferentes aplicaes comerciais e uma nica pergunta. Mas a computao da DeepQA
outros problemas desaantes a serem explorados, inclusive nas embaraosamente paralela; portanto, ela pode ser dividida em
reas de medicina, pesquisa corporativa e jogos. vrias partes independentes, cada uma das quais podendo ser
executada por um processador separado. A UIMA-AS, parte da
Os princpios predominantes da DeepQA so: Apache UIMA, permite a escala horizontal de aplicativos UIMA
usando mensagens assncronas. O Watson utiliza a UIMA-AS
1. Paralelismo macio: o paralelismo macio explorado na para se escalar em 2.880 processadores POWER7 em um cluster
considerao de vrias interpretaes e hipteses. de 90 servidores IBM Power 750. A UIMA-AS gerencia toda a
2. Muitos especialistas: facilitam a integrao, aplicao e comunicao entre processos, usando o padro aberto JMS.
avaliao contextual de uma ampla gama de anlises A implantao da UIMA-AS para POWER7 permitiu ao
probabilsticas de perguntas e contedos fracamente Watson fornecer respostas em um a seis segundos.
acopladas.
3. Estimativa universal de conana: no h um nico O Watson tem cerca de 200 milhes de pginas de contedo em
componente que se compromete com uma resposta; todos os linguagem natural (equivalente leitura de 1 milho de livros).
componentes produzem caractersticas e conanas associadas, O Watson utiliza a estrutura Apache Hadoop para facilitar o
pontuando interpretaes diferentes de perguntas e contedos. pr-processamento em grandes volumes de dados para criar
Um substrato subjacente de processamento de conana conjuntos de dados internos memria, usados em tempo de
aprende a empilhar e combinar as pontuaes. execuo. Os anotadores UIMA DeepQA do Watson foram
4. Integrao de conhecimento supercial e profundo: implementados como mapeadores na estrutura de reduo de
equilibra o uso de semntica restrita e semntica supercial, mapa da Hadoop, que os distribuiu pelos processadores no
aproveitando-se de muitas ontologias formadas livremente. cluster. A Hadoop contribui para a utilizao otimizada das
CPUs e tambm fornece ferramentas convenientes para
Velocidade e escala horizontal implantar, gerenciar e monitorar o processo de anlise de dados.
O DeepQA desenvolvido usando a Apache UIMA, uma
implementao de estrutura da Unstructured Information Aproveitando-se do POWER7
Management Architecture (Arquitetura de Gerenciamento de O Watson se aproveita do desempenho de processamento
Informaes No-Estruturada). A UIMA foi projetada para dar paralelo macio dos seus processadores POWER7 para executar
suporte interoperabilidade e escala horizontal de aplicativos de suas milhares de tarefas da DeepQA simultaneamente em
anlise textual e multimodal. Todos os componentes da DeepQA ncleos de processadores individuais. Cada um dos 90 servidores
so implementados como anotadores UIMA. Esses componentes IBM Power 750 em cluster do Watson conta com 32 ncleos
analisam o texto e produzem anotaes ou asseres sobre ele. POWER7, executados a 3.55 GHz. Executando o sistema
Com o tempo, Watson evoluiu de forma que o sistema agora operacional Linux, os servidores so abrigados em 10 racks,
tem centenas de componentes. A UIMA facilitou a integrao, juntamente com os ns de E/S e hubs de comunicao
teste e avaliao rpida dos componentes. associados. O sistema tem um total combinado de 16 terabytes
de memria e pode operar a mais de 80 teraops (trilhes de
operaes por segundo).
Um Informe da IBM 5

Com seu design inovador de oito ncleos, o POWER7 ideal


para o processamento paralelo macio dos algoritmos analticos
do Watson. O POWER7 tambm conta com 500 gigabytes de
largura de banda de comunicao interna, contribuindo para
uma ecincia excepcional na utilizao tanto da memria
quanto do processador. E como cada servidor conta com
32 ncleos POWER7 de alto desempenho com at 512 GB de
memria, o Power 750 a plataforma ideal para os processos
Java do Watson, que utilizam muitos recursos de processador e
de memria.

Projetar o Watson em servidores Power 750, que esto


disponveis comercialmente, foi uma escolha deliberada para
garantir uma adoo mais rpida de sistemas otimizados em
setores como os de servios de sade e nanceiros. Esse objetivo
uma diferena fundamental entre o Watson e o Deep Blue, que
era um computador altamente personalizado. O Deep Blue era Um sistema projetado para respostas
baseado em uma gerao anterior da tecnologia de processadores Depois de quatro anos de pesquisa e desenvolvimento intensos
Power, contando com um sistema RS/6000 SP de 30 ns, cada por parte de uma equipe de pesquisadores da IBM, o Watson
um deles contendo um nico processador POWER2 de demonstrou suas habilidades de competir no Jeopardy! contra
120 MHz. Mas alm dos processadores POWER2 normais, o campees humanos, com desempenho em nvel de especialistas
desempenho do Deep Blue era aprimorado com humanos em termos de preciso, conana e velocidade.
480 processadores especialistas em xadrez. O projeto promoveu os campos da anlise de dados
no-estruturados, do processamento de linguagem natural e do
O mesmo servidor Power 750 usado pelo Watson j design de sistemas otimizados para cargas de trabalho. Alm do
implantado hoje por milhares de empresas em sistemas Jeopardy!, a tecnologia por trs do Watson pode ser adaptadas
otimizados que oferecem processamento complexo de anlises e para resolver problemas comerciais e sociais por exemplo,
transaes. A Rice University em Houston, Texas, por exemplo, diagnosticando doenas lidando com perguntas de suporte
utiliza sistemas IBM Power 750 para acelerar o entendimento da tcnico on-line e analisando grandes quantidades de documentos
base molecular do cncer atravs da aplicao de tecnologias de jurdicos e para promover o progresso em vrios setores.
anlise de genoma. Os sistemas POWER7 deram Rice mais
exibilidade e ecincia, permitindo a eles enfrentarem com um A capacidade do Watson para entender o signicado e o
nico sistema uma gama mais ampla de desaos de pesquisa do contexto da linguagem humana e para processar rapidamente
que era possvel antes. E a GHY International, uma rma de informaes para encontrar respostas precisas para perguntas
corretagem alfandegria no Canad, migrou para um Power complexas guarda um potencial enorme para transformar a
750 novo, executando AIX, Power i e Power Linux, para dar forma na qual os computadores podem ajudar as pessoas a
mais suporte s crescentes transaes de comrcio internacional realizar tarefas nos negcios e nas suas vidas pessoais.
dos seus clientes. Com a virtualizao PowerVM, agora a
GHY capaz de implantar capacidades novas no tempo de cinco
minutos para dar suporte s necessidades em mudana dos
seus clientes.
Para obter mais informaes
Para saber mais sobre o Watson, o POWER7 e sistemas
otimizados para carga de trabalho, entre em contato com o seu
representante de marketing ou o Parceiro de Negcios IBM, ou
visite os seguintes sites:
Copyright IBM Corporation 2011
ibm.com/systems/power/advantages/watson
ibm.com/systems/power IBM Systems and Technology Group
Route 100
Somers, NY 10589

Produzido nos Estados Unidos da Amrica


Fevereiro de 2011
Todos os direitos reservados

IBM, o logotipo IBM, ibm.com Power, POWER7 e DEEP BLUE so


marcas registradas da International Business Machines Corporation nos
Estados Unidos e/ou em outros pases. Se estes e outros termos com marca
IBM aparecerem em sua primeira ocorrncia nestas informaes com um
smbolo de marca comercial ou registrada ( ou ), esses smbolos indicaro
marcas comerciais comuns ou registradas nos EUA de propriedade da
IBM no momento da publicao destas informaes. Essas marcas comerciais
tambm podem ser marcas registradas ou de leis comuns em outros pases.
Uma lista atualizada das marcas registradas IBM encontra-se disponvel na
Web em Copyright and trademark information (Informaes de
copyright e marca registrada), em ibm.com/legal/copytrade.shtml

Outros nomes de empresas, produtos e servios podem ser marcas comerciais


ou marcas de servio de terceiros.

POW03061-BRPT-00

Anda mungkin juga menyukai