Anda di halaman 1dari 20

Análise jurisprudencial com técnica de aprendizado de

máquina
Trabalho de Conclusão do Curso de
Tecnologia em Sistemas para Internet

Rhuan Paulo Lopes Barros


Orientador: André Peres
1
Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Sul (IFRS)
Campus Porto Alegre
Av Cel Vicente, 281, Porto Alegre – RS – Brasil
rhuanbarros@gmail.com

Resumo. Este trabalho apresenta o desenvolvimento de processo de descoberta


de conhecimento em base de dados de decisões judiciais com o objetivo des-
vendar qual a tendência de opinião de Tribunal do Trabalho brasileiro em
relação à parte favorecida sendo empregados ou empregadores. Foram apli-
cadas técnicas de aprendizado de máquina supervisionado para a classificação
dos documentos. Tal modelo preditivo alcançou escores superiores a 90% de
acurácia para classificação de decisões, resultando em informações contun-
dentes sobre a tendência de julgamento do Tribunal. Desse modo, o projeto
proposto contribui com o desenvolvimento de aplicação que permite aos ope-
radores do direito a obtenção de informações de maneira visual e exploratória
rapidamente, o que lhes permitirá focar mais esforços em estratégias jurı́dicas
do que em pesquisa jurisprudencial.

1. Introdução
A Justiça brasileira atua resolvendo conflitos entre cidadãos brasileiros. Ela é composta
de diversos ramos especilizados, como, por exemplo, a Justiça do trabalho, que resolve
especialmente causas entre empregados e empregadores. Desse modo, os operadores do
Direito, juı́zes, advogados e servidores públicos, trabalham para prestar a jurisprudencia
ao povo brasileiro.
Por lidar diariamente com decisões judiciais, com o passar tempo, advogados e
servidores públicos obtêm conhecimento sobre a tendência de opinião de diversos juı́zes.
Por exemplo, é possı́vel observar que determinados julgadores tendem mais para empresas
ou para empregados em determinadas causas. Entretanto, esse conhecimento é obtido
apenas após anos de trabalho no ramo. Por outro lado, uma questão intriga: seria possı́vel
obter conhecimento similar por meio da utilização de sistemas computacionais?
A utilização de métodos quantitativos para solução de problemas ocorre em
diversas áreas de pesquisa, como na Economia que aplica a econometria para ava-
liar seus modelos teóricos; já a Biologia utiliza a bioestatı́stica para trabalhar com
grandes volumes de dados e a tratar incertezas caracterı́sticas ao estudo dos seres vi-
vos. No ramo do Direito, [Loevinger 1948] cunhou o termo ‘jurimetrics’, o qual re-
presenta a união de teoria jurı́dica, métodos computacionais e estatı́stica, com o ob-
jetivo de explorar a jurisprudência e produzir análises descritivas e estudos preditivos
[Jaeger Zabala and Silveira 2014].
Simultaneamente, a Jurimetria vem se tornando foco de crescente interesse
por parte de pesquisadores em estudos no Direito brasileiro. A pesquisa de
[Salama et al. 2011] analisou manualmente 1044 acórdãos em busca de dados concre-
tos em relação à segurança jurı́dica no estabelecimento de valores de danos morais pelo
Poder Judiciário. Além disso, houve grande dificuldade para acessar a imensa quantidade
de decisões que tratam do cálculo de danos morais.
Enfim, é possı́vel compreender que os juristas se deparam no seu dia-a-dia com
um grande problema que é a extração de informações valiosas de maneira eficaz do corpus
de decisões judiciais brasileiro. Em parte, isso ocorre em virtude de que esses sistemas
foram desenvolvidos ainda nos anos 90 sob uma perspectiva de infraestrutura anterior ao
desenvolvimento de conceitos de “Big Data” e “Cloud Computing”. De fato, as necessi-
dades há época eram diferentes e não exigiam grande capacidade de armazenamento, tão
pouco de processamento, em vista de que a maior parte dos documentos judiciais ainda
eram redigidos em papel.
Nesse ı́nterim, novas soluções tecnológicas estão sendo implementadas com in-
tuito de aumentar a eficiência judiciária brasileira. Assim, em 2011 o Conselho Nacional
de Justiça (CNJ) iniciou a implantação do Processo Judicial Eletrônico (PJe), o qual per-
mite a tramitação do processo de maneira digital em sistema computacional [CNJ 2017].
Atualmente, mais de 8 milhões de processos estão em tramitação nesse sistema, e mais
de 100 milhões de processos estão em andamento na justiça [CNJ 2017], de maneira par-
cialmente digital. É possı́vel observar como o corpus de documentos digitais mantidos já
demanda grande quantidade de armazenamento à proporção de ”terabytes”, sem contar
todos os novos documentos e decisões judiciais publicadas diariamente.
Entretanto, pouco foi investido em novas ferramentas para a exploração,
visualização e análise desse corpus acessı́veis ao público. Na verdade, as ferramentas
continuam as mesmas, sofrendo apenas manutenção dos sistemas legados. Tais sistemas
computacionais, desenvolvidos por cada Tribunal para pesquisa somente em sua base de
acórdãos, apresentam diversos campos de pesquisa para a digitação de palavras-chave e
seleção de órgão julgador, após apresentam os resultados em uma lista com milhares de
resultados em diversas páginas. Nesses softwares, o usuário precisa repetir sua consulta
inúmeras vezes, realizando pequenas alterações nos critérios de consulta e vasculhando
as respostas à busca de novos itens de interesse [Constâncio 2017]. Mesmo com essas
soluções ainda existe a dificuldade de visualização, pois cada resultado é apresentado em
um bloco de texto de aproximadamente 6 linhas contendo a ementa da decisão. Isso exige
que o operador do direito leia uma grande quantidade de resultados para poder encontrar
os itens relevantes em meio a uma grande quantidade de resultados totalmente inúteis.
Nesse contexto o problema de negócio em questão que pressiona os operadores do
direito é como saber com confiança qual a tendência de opinião da turma de julgamento
que vai julgar o processo. Não seria interessante tomar uma decisão desse patamar ba-
seado somente em uma opinião subjetiva fundamentada na experiência de trabalho. Por-
tanto, nessa situação, o diretor jurı́dico procura se cercar do máximo de evidências para
fundamentar sua decisão em aceitar ou não um acordo de milhões de reais, por exemplo.
Desse modo, para realizar essa pesquisa por evidências, advogados gastam horas rea-
lizando pesquisas jurisprudenciais para fundamentar suas petições, utilizando o Google
ou ferramentas de busca fornecidas pelos próprios tribunais, as quais são desatualizadas,
desorganizadas, confusas e superficiais.
Assim, foi o aplicado processo de descoberta de conhecimento em bases de dados
para processamento de milhares de decisões judiciais do Tribunal Regional do Trabalho
da 3a Região, localizado no Estado de Minas Gerais, utilizando técnicas de mineração
de texto para extração e processamento dos documentos, bem como, processamento
de linguagem natural de forma a construir modelo representativo para classificação au-
tomática dos documentos. Em vista disso, tal modelo representativo foi desenvolvido
com técnicas de treinamento de inteligência artificial por aprendizagem supervisionada
com a utilização de decisões judiciais rotuladas para inferir as “features” mais importan-
tes para a classificação dos documentos. Esse classificador apresentou mais de 90% de
acurácia para classificação dos documentos.
A aplicação visa contribuir com o desenvolvimento de tecnologia que proporcione
aos operadores do Direito a obtenção de informações de maneira mais eficaz em menos
tempo. Isso lhes permitirá focar esforços em tarefas de maior demanda intelectual, como,
por exemplo, avaliar estrategicamente a melhor forma de se levar a pretensão ao órgão
judicial.
Este artigo está organizado conforme o seguinte: Fundamentação Teórica, Traba-
lhos Relacionados, Metodologia, Sistemas de Busca Jurisprudenciais Brasileiros, Desen-
volvimento do Modelo Proposto, Resultados e Conclusão.

2. Fundamentação Teórica
Nesta seção será desenvolvida uma breve explicação dos conceitos fundamentais que dão
base a esse trabalho, detalhando os conceitos, as ferramentas e os métodos que são nor-
malmente utilizados no contexto.

2.1. “Big Data”


“Big Data” é um termo utilizado para descrever grandes volumes de conteúdo — usual-
mente em quantidades medidas em ”terabytes”ou ”petabytes”— que as empresas querem
controlar e analisar [Akerkar 2013]. Os dados não estruturados são o maior componente
desse conjunto que estão somente parcialmente arquivados [Gandomi and Haider 2015].
De acordo com [Erl et al. 2016], os aspectos de “Big Data” são comumente referenciados
com 5 atributos: volume, velocidade, variedade, veracidade e valor.
Volume: grande quantidade de dados impõe demandas de processamento e arma-
zenamento distintas. No caso da Justiça brasileira, apenas os documentos com as decisões
podem alcançar a casa de ”petabytes”.
Velocidade: diariamente, são produzidos milhares de sentenças judiciais no Bra-
sil, de modo que, um software que fosse agregar todos esses documentos originários de
diversos tribunais precisaria de infraestrutura desenhada altamente elástica e disponı́vel
para pré-processar os dados e armazená-los [Erl et al. 2016].
Variedade: “Big Data” pode ser composto por diversos tipos de dados estruturados
e não estruturados [Pierson 2015]. Além disso, os dados podem ser recebidos em diversos
formatos de arquivos, como, por exemplo, .xml, .pdf e arquivos de texto.
Veracidade: refere-se a qualidade e fidelidade dos dados. Dados adquiridos em
ambiente controlado geralmente contém alta veracidade [Erl et al. 2016].
Valor: o valor é definido pela utilidade que os dados apresentam para a solução
de problema de negócio [Erl et al. 2016]. A análise de “Big Data” procura apresentar os
dados de maneira que gerem valor e também procura encontrar informações valiosas na
massa de dados.

2.2. Processo de descoberta de conhecimento em bases de dados

Descoberta de conhecimento em bancos de dados é um campo da Informática que estuda


como extrair conhecimento útil de grandes coleções de dados. Em 1996, representan-
tes de um grupo de empresas reuniram-se para a formação do CRISP-DM, acrônimo
para ”CRoss-Industry Standard Process for Data Mining”, o qual tinha como objetivo
desenvolver documentação e workshops de modo a propor padronização ao processo de
busca de conhecimento em bases de dados. Há época, não havia ferramentas, soluções ou
processos documentados que orientavam as empresas e pesquisadores sobre as melhores
práticas. Enfim, em 1999 foi lançado o CRISP-DM Guide 1.0 [Chapman et al. 2000].
O Guia CRISP-DM apresenta um processo iterativo composto de diversas fases,
que compõe desde a compreensão e as necessidades de negócio até a modelagem dos
dados e sua aplicação [Becker 2017]. A Figura 1 apresenta o ciclo do processo proposto
pelo grupo. As fases do processo compreendem as seguintes:
Compreensão do negócio: consiste em compreender o valor do conhecimento a
ser gerado pela perspectiva do negócio, de modo a alinhar o projeto com os objetivos
estratégicos da organização.
Compreensão dos dados: inicia com a coleta dos dados e com a exploração inicial,
o que permite a identificação de problemas de qualidade e também a aferição de conhe-
cimentos estatı́sticos sobre a massa de dados. Essa fase pode identificar se realmente os
dados podem responder às perguntas do negócio e também identificar as variáveis signi-
ficativas.
Preparação dos dados: o objetivo é o pré-processamento dos dados para torná-los
relevantes e consistentes com respeito à tarefa de busca de conhecimento. Essa fase é
extremamente necessária, pois os dados muitas vezes podem estar incompletos, inconsis-
tentes ou podem, até mesmo, conter erros.
Modelagem: consiste na tarefa de escolha de métodos e parametrização para a
extração de padrões, classificação, segmentação, regressão ou associação de itens, os
quais gerarão novos conhecimentos sobre a importância de cada uma das variáveis em
função do resultado final esperado.
Avaliação: fase em que os padrões reconhecidos, regras de associação e todo co-
nhecimento gerado é analisado para verificação da sua real utilidade. Podem ser utilizadas
medidas estatı́sticas, como também visualizações, para ajudar a perceber a utilidade dos
dados.
Aplicação: consiste na consolidação de todo processo na forma de relatório e
publicação do conhecimento ou na incorporação da modelagem a um sistema computaci-
onal.
Figura 1. Diagrama do processo de descoberta de conhecimento em bases de
dados CRISP [Chapman et al. 2000]

2.3. Recuperação de informações

A recuperação de informações em sistemas de busca baseia-se na correspondência en-


tre as palavras-chaves e os termos nos documentos. Um documento que menciona um
termo de busca com mais frequência, geralmente tem maior relação com a pesquisa
[Christopher et al. 2008].
Para realizar a ordenação de resultados, é necessário assinalar um peso para
cada termo nos documentos da coleção. A proposta mais simples é considerar a quan-
tidade de ocorrências do termo em cada documento como “Term Frequency” (TF)
[Christopher et al. 2008].
Entretanto, nem todas as palavras nos documentos são importantes. Há palavras
como preposições que não precisam ser indexadas. Além disso, há palavras, como, por
exemplo, “auto” em uma coleção da indústria automobilı́stica, que praticamente vai ter
essa palavra em todos os seus documentos. Para atenuar esse efeito, é importante reduzir
o peso dessas palavras conforme sua frequência aumenta na coleção. Consequentemente,
a proposta é definir uma variável chamada “Document Frequency” (DF), constituı́da pela
quantidade de documentos que contém o termo. Assim, a variável é introduzida como
“Inverse Document Frequency” (IDF) de modo que o IDF de um termo raro é alto e de
um termo frequente é baixo [Christopher et al. 2008].
A combinação é dada por TFIDFt,d = T Ft,d × IDFt
Esse ı́ndice assinala um peso que é alto, quando o termo ocorre muitas vezes em
um pequeno número de documentos; baixo, quando o termo possui poucas ocorrências
em um documento, ou ocorre em muitos documentos; baixo, quando o termo ocorre em
praticamente todos os documentos.
2.4. Aprendizado de máquina
Algoritmos de Aprendizado de Máquina identificam padrões em dados, resumem os
padrões em um modelo e usam esses modelos para fazer previsões, identificando os
mesmos padrões em novos dados. Assim, um modelo é uma estrutura que resume os
padrões de formato estatı́stico ou lógico, de modo que ele possa ser aplicado a novos
dados [Pierson 2015].

2.5. Aprendizado de máquina e suas limitações


O desenvolvimento de pesquisa quantitativa em grande volume de decisões judiciais sem
o auxı́lio de sistema computacional exigiria o esforço concentrado de uma grande equipe
de analistas, não apenas para realizar a análise inicial, mas também para executar a
manutenção dos resultados com o passar do tempo. Para superar esta barreira, técnica
de Aprendizagem de Máquina pode ser usada para programar um software, para que
ele possa executar tarefas de classificação de decisões judiciais em um curto perı́odo de
tempo.
Para realizar esse treinamento, é necessário alimentar o algoritmo com uma base
de decisões judiciais anotadas por especialistas. Esse processo compreende a leitura de
cada decisão judicial por um ser humano e a inserção de um rótulo. No caso desta pes-
quisa, o rótulo contém a informação sobre quem ganhou o caso. Empregado ou em-
pregador. Depois, esse banco de dados é processado por um algoritmo de Aprendizado
de Máquina, que gera um modelo. Esse modelo, por meio de processamento de amos-
tras aleatórias, transformações matemáticas e análise estatı́stica de palavras que estão em
cada decisão judicial, identifica padrões e os resume em um modelo matemático geral,
que é usado para realizar previsões e identificar esses mesmos padrões em novas decisões
judiciais [Ashley 2017].
No entanto, as técnicas de Aprendizado de Máquinas são sujeitas a certos li-
mites, como, por exemplo, o ”viés”ou a tendência inserida pelo algoritmo de aprendi-
zado da máquina, que, para desenvolver um modelo, precisa realizar alguns suposições,
generalizações e reduzir a pesquisa e tamanho do espaço. Além disso, a precisão do mo-
delo diminuirá consideravelmente, se a quantidade de documentos rotulados para uma das
duas categorias for muito maior que para o outro [Kubat 2015].

2.6. Jurisprudência e conceitos relacionados ao Direito


Jurisprudência é o conjunto das decisões dos tribunais no exercı́cio da aplicação da lei.
Representa a visão do tribunal, em determinado momento, sobre as questões legais le-
vadas a julgamento [TSE 2017]. Em vista disso, um processo judicial trabalhista inicia
em 1o Grau sendo sentenciado por um juiz singular. As partes inconformadas com a de-
cisão podem apresentar recurso e recorrer aos tribunais, também chamados de 2o Grau de
jurisdição.
Os Tribunais Regionais do Trabalho são compostos por diversos juı́zes, chama-
dos desembargadores, os quais são organizados em Turmas Recursais com 3 julgadores.
Assim, quando o recurso é encaminhado ao Tribunal, ele é distribuı́do aleatoriamente
para uma das Turmas Recusais para ser realizado um julgamento colegiado, chamado de
“acórdão”. O Tribunal Regional do Trabalho da 3a Região, por exemplo, é composto por
10 Turmas Recursais.
Além disso, um acórdão é constituı́do pelo voto dos Desembargadores componen-
tes da turma que recebeu o processo para ser julgado e pelo acórdão que contém a decisão
colegiada. Também é constituı́do da ementa, que é um resumo do acórdão [STF 2017].
Assim, a ementa é composta de palavras-chave para facilitar a pesquisa jurisprudencial,
além de ser composta de termos constantes do tesauro jurı́dico.

3. Trabalhos relacionados
O estudo realizado por [Borden and Baron 2014] apresenta o estado da arte até o mo-
mento. Os autores transcorrem apresentando como a busca por informações legais era
realizada de maneira manual, antes do advento da informática e como o processo sofreu
automatizações. Além disso, ressaltam a importância da aplicação futura de ferramentas
de ”Big Data”.
Diversos estudos concordam que a busca por palavras-chave tem diversos contra-
pontos, pois falham em extrair e indexar a semântica das palavras, além de não atenderem
a era da explosão digital de documentos jurı́dicos [Zhang et al. 2015], [Constâncio 2017],
[Borden and Baron 2014], [Ashley 2017]. Outro aspecto analisado é a grande quantidade
de estudos em relação ao uso de ontologias jurı́dicas aplicadas a recuperação de docu-
mentos [Zhang et al. 2015], [Jo and Kim 2015], [Constâncio 2017].
Outra área de estudo com foco crescente é a de resposta a perguntas jurı́dicas
[Adebayo et al. 2016], [Ross 2017]. Nessa área, o objetivo é treinar um robô de busca
incorporado a um sistema conversacional e a uma base de dados jurı́dica, de modo que o
software responda em linguagem natural a questões formuladas em linguagem natural.
No contexto brasileiro, [Weber 1999] Apud [Constâncio 2017] apresentou uma
proposta de indexação de documentos jurisprudenciais por meio da técnica de IA chamada
”Case-based Reasoning”(CBR). Em sua tese de doutorado, a autora cunhou a expressão
”Intelligent Jurisprudence Research”(IJR) para denominar seu processo de recuperação
de jurisprudências. A autora descreveu os resultados como superiores aos métodos tradi-
cionais.
Além disso, o artigo de [Ferauche 2011] Apud [Constâncio 2017] apresenta os re-
sultados de técnicas de Mineração de Texto na construção de classificadores automáticos.
O objetivo desse estudo era comparar a qualidade de classificação automática frente à
classificação manual, já em execução, a partir de uma ontologia existente. Entretanto o
autor informa que não houve taxas de acerto expressivas.
Em seu artigo, [Chen et al. 2013] Apud [Constâncio 2017] descreveram um pro-
cesso para utilização de Mineração de Texto para dar suporte a consultas jurisprudenciais
da Justiça de Taiwan utilizando termos populares no lugar de termos jurı́dicos.

4. Metodologia
Foi realizada pesquisa de Ciência de Dados com objetivo de extrair conhecimento oculto
de acórdãos judiciais. Assim, foi definido o objetivo de mineração de dados que é identi-
ficar e classificar as decisões em relação à parte favorecida.
Desse modo, os dados utilizados como matéria prima nessa pesquisa são docu-
mentos HTML que contém cada uma das decisões. Tal base de dados foi extraı́da do site
governamental LexML.gov.br por meio de técnica de ”scrapping”.
Além disso, os dados foram processados utilizando ferramentas de Ciência de
Dados na plataforma ”Python”e ”Jupyter Notebook”. Assim, por meio de técnicas de
processamento de texto e limpeza de dados, as decisões foram preparadas para o proces-
samento por meio de algoritmo de Aprendizado de Máquina.
Para o processamento de Aprendizado de Máquina, foi utilizada a biblioteca
”Python Scikit Learning”. Essa biblioteca apresenta diversos algoritmos para proces-
samento e extração de ”features”, para os algoritmos de Inteligência Artificial. Por isso,
diversos métodos foram testados em busca do que melhor se adaptasse a pesquisa.
Por fim, os resultados da pesquisa foram compilados em planilha do Microsoft
Excel e criados gráficos para melhor visualização do conhecimento. Assim, toda fase de
extração dos dados e processamento foi realizada na nuvem da IBM, e a parte final em
computador local para visualização dos dados.

5. Sistemas de busca jurisprudenciais brasileiros

Atualmente, a busca jurisprudencial é realizada pelos operadores do Direito por meio de


busca no Google e também nos sites de cada tribunal. Além disso, nos últimos anos
surgiram outros sites que agregam decisões judiciais e as fornecem em suas ferramentas
de pesquisa.
Todos os sites especializados fornecem pesquisa por palavras-chave, permitem o
uso de operadores lógicos, seleção de órgãos julgadores e ordenação por relevância e por
data. Em relação à ordenação dos resultados, poucas informações são apresentadas sobre
o algoritmo, ou seja, qual o critério utilizado para realizar a apresentação dos documentos.
Além disso, nenhum deles apresenta os dados por meio de gráficos e visualizações, tam-
pouco oferece recursos visuais para facilitar o entendimento dos documentos ou recursos
para exploração dos dados.
As ferramentas de busca disponibilizadas pelos órgãos públicos são desatualiza-
das tecnologicamente, pois suas interfaces não foram atualizadas para o acesso por meio
de dispositivos móveis. Além disso, apresentam resultados desorganizados e confusos
visto que consultas realizadas com palavras-chave idênticas oriundas de computadores
diferentes produzem resultados diferentes.
Na Tabela 1 é apresentada comparação das soluções atuais.

Tabela 1. Comparação entre sistemas de busca jurisprudenciais brasileiros


Apresentação Proteção contra
Palavra- Raiz Operadores Exploração
Website Ontologia da parte robôs de busca
chave semântica lógicos visual
vencedora (Captcha)
Google Sim Parcial Sim Não Não Não Não detectado
Digesto Sim Sim Parcial Não Não Não Não detectado
JusBrasil Sim Sim Não Não Não Não Não detectado
TRT da Sim, após
Sim Não Sim Não Não Não
3a Região algumas tentativas
TRT da Sim, após
Sim Não Sim Não Não Não
4a Região algumas tentativas
6. Desenvolvimento do modelo proposto
Este projeto busca atender ao problema de negócio determinado que é como saber com
confiança qual a tendência de opinião da Turma de Julgamento que vai julgar o processo.
Para isso, foi definido o objetivo de mineração de dados que é identificar e classificar as
decisões em relação à parte favorecida.

6.1. Extração de documentos


A base de dados utilizada é a fornecida pelo site governamental lexml.gov.br, o qual
disponibiliza milhões de decisões judiciais para indexação por meio de robô de busca. Por
conseguinte, o processo de indexação inicia acessando diversos arquivos “sitemap.xml”,
os quais apresentam URIs para cada um dos documentos disponibilizados em sua base
de dados, de modo que a extração das decisões pode ser realizada por meio da técnica de
“Web Scraping”.
Após, foi desenvolvido script para copiar todas as URIs contidas nos arquivos si-
temap.xml e filtrar apenas as que correspondem aos documentos do Tribunal Regional do
Trabalho da 3a Região. Com esses resultados, foi possı́vel iniciar efetivamente o processo
de ”Web Scraping”das páginas HTML que contém os documentos das decisões.

6.2. Compreensão dos dados


Foi observado que cada Turma Recursal apresenta estilo linguı́stico diverso, como, por
exemplo, palavras diferentes para indicar a parte vencedora, além de haver ementas em
que simplesmente não há informação sobre o beneficiário da decisão. Assim, foi ne-
cessário executar também a extração do inteiro teor dos julgamentos, o qual contém todas
as informações necessárias.
Assim, as decisões foram agrupadas por cada Turma Recursal, pois, decisões
da mesma Turma mantém estilo de escrita de suas decisões relativamente uniformes.
Também foram extraı́dos documentos publicados apenas em 2017, para evitar variações
de estilo de escrita que se alterem com o passar dos anos.

6.3. Anotação dos documentos


Inicialmente, o objetivo era ler o inteiro teor das decisões e anotar a parte vencedora.
Entretanto, foi observado que não há necessidade de leitura do documento inteiro, mas
apenas da parte final, em vista de que foi observado que todos os documentos contêm um
pequeno resumo do julgamento, indicando a parte que foi beneficiada.
Portanto, foi realizado processamento nos documentos para extrair apenas a parte
final das decisões, que contém as informações necessárias para se compreender a parte
favorecida. Como resultado, foi gerada planilha, Tabela 2, com essa pequena parte das
decisões, URL para o inteiro teor para consulta, campo para que o especialista possa
anotar a parte beneficiada e o tipo de parte recorrente, empresa ou empregado, ou ambos.
Durante esse processo, documentos em que não era possı́vel determinar qual a
parte vencedora foram excluı́dos do conjunto de dados. Também foram excluı́dos docu-
mentos que não dizem respeito a julgamentos de fatos de direito.
Por outro lado, os documentos extraı́dos contêm a decisão e seus fundamentos,
como também os nomes das partes recorrentes e recorridas. Entretanto, o classificador
Tabela 2. Exemplo de documentos anotados
FINAL DA SENTENÇA RECORRENTE CONCEDIDO PARTE
... em sessão hoje realizada, à unanimidade,
conheceu dos embargos de declaração; Empresa LTDA 0 2
no mérito, sem divergência, negou-lhes provimento...
... em sessão hoje realizada, à unanimidade, rejeitou
a preliminar de não admissibilidade do apelo suscitada pelo reclamante,
João 1 1
conheceu do recurso ordinário da reclamada e,
no mérito, sem divergência, negou-lhe provimento...

proposto deve apresentar a informação sobre a parte vencedora em relação a empresa ou


ao empregado, e não em relação a recorrente, pois esse pode ser empregado e empre-
gador. Assim, o resultado de mineração deve apresentar se o recorrente é empresa ou
empregado e se seu recurso foi deferido ou não. Entretanto, há certos documentos que
ambos o empregado e a empresa recorreram, os quais precisam ser removidos do processo
de aprendizagem e de classificação, pois não apresentariam resultados conclusivos, além
de diminuı́rem a acurácia do modelo. Portanto, foi realizada a anotação manual de 600
documentos de três Turmas Recursais diferentes em relação ao tipo de parte recorrente e
também em relação ao deferimento do julgado ao recorrente.

6.4. Modelos de aprendizado de máquina


Primeiramente foi desenvolvido modelo preditivo para detectar os casos em que ambos
o empregado e a empresa recorreram, para removê-los da base de dados. Tal tarefa foi
realizada com o cálculo do tamanho das ”strings”, pois as ”strings”que ambos recorreram
apresentam em média mais que o dobro da quantidade de caracteres.
Assim, foi desenvolvido modelo de predição com base no algoritmo “K-Nearest
Neighbors” (k-NN), o qual apresentou 84% de acurácia. Após os resultados em que
ambos recorreram, aproximadamente 1/3, foram retirados do ”dataset”. Em segundo lu-
gar, foi realizado o treinamento com a base de dados resultante para classificação entre
empregado e empregador, com a extração de ”features”por meio de ı́ndice TF-IDF e Re-
des Bayesianas. Desse modo, esse modelo alcançou 92% de acurácia. Nessa fase, foi
realizado o pré-processamento do ”dataset”com a retirada de “stop-words” da lı́ngua por-
tuguesa e todos os treinamentos foram realizados considerando 1/3 da base de dados para
testes.
Finalmente, as decisões foram processadas com a extração de ”features”por meio
de ı́ndice TF-IDF e Redes Bayesianas para identificação da concessão da decisão ao re-
corrente. Esse modelo alcançou 90% de acurácia. Além disso, tal modelo foi treinado
individualmente em cada Turma Recursal e em conjunto com as outras para ser possı́vel
averiguar possı́vel ”overtraining”, o qual não foi identificado, pois, os testes cruzados
entre Turmas apresentaram praticamente os mesmos resultados com variação de aproxi-
madamente 3%.

7. Resultados
Foi realizada a extração de mais de 10 mil acórdãos judiciais publicados em 2017 das
dez Turmas Recursais que compõem o Tribunal Regional do Trabalho da 3a Região e
processados com os modelos de aprendizado de máquina propostos, o quais classificaram
o tipo de recorrente como empresa ou empregado, e o deferimento do recurso ou não para
cada decisão. Assim, com essa base de dados, foi possı́vel determinar a visão do tribunal
sobre as questões legais levadas a seu julgamento. Essa visão apresenta a proporção de
pedidos deferidos em relação à quantidade de recursos impetrados por cada parte.
Com o objetivo de medir o possı́vel erro cometido e estabelecer limites que expres-
sem o nı́vel de precisão, foram determinados limites de confiança para os totais obtidos
nas classificações realizadas pelos modelos de aprendizado de máquina. Foi determinado
um intervalo de confiança de 90% para o percentual de julgamentos classificados como
deferidos. Esse percentual foi definido para padronizar com o nı́vel de acurácia já estabe-
lecido do modelo de classificação desenvolvido de 90%.
Como mostrado na Figura 2, foi verificado que, do total de recursos impetrados
pelos reclamantes, 61% foram deferidos total ou parcialmente. Já, do total de recursos
impetrados pelas reclamadas, 58% foram deferidos total ou parcialmente. A margem de
erro ficou em 0,8% para mais e para menos como ilustra o gráfico da Figura 2. Assim,
é possı́vel observar que o Tribunal de modo geral apreciou as causas de ambas as partes
aproximadamente da mesma maneira, indo de encontro ao conhecimento popular de que
“A Justiça do Trabalho sempre pendeu mais para o lado do trabalhador” [CSJT 2017] e
[ConJur 2012].
Por outro lado, é possı́vel notar que a tendência de julgamento de algumas Turmas
Recursais individualmente é diferente do que a média geral do Tribunal. Por exemplo, a
9a Turma Recursal deferiu 31% a mais de recursos para empregados do que para empre-
sas, já a 1a Turma Recursal deferiu 18% a mais de recursos para empresas do que para
empregados, como é possı́vel observar na Figura 3.

8. Conclusão
Foi desenvolvido projeto de análise jurisprudencial com técnica de aprendizado de
máquina para a apresentação de informações relevantes quanto aos vencedores das causas
sem a necessidade de leitura manual dos documentos inteiros. Por meio de aprendizado
supervisionado, foi possı́vel obter altos escores de acurácia na classificação dos documen-
tos. Por outro lado, considerando que atualmente em muitos casos o trabalho de análise
da tendência de julgamento de juı́zes e desembargadores é realizado sem a utilização de
métodos quantitivo, ou com uma pequena amostragem, é possı́vel considerar os nı́veis de
acurácia alcançados, em torno de 90%, satisfatórios.
Enfim, é possı́vel concluir que realmente há diferenças de entendimento entre Tur-
mas Recursais, algumas pendendo mais para empregados do que para empresas e vice-
versa. Entretanto, essas diferenças são normalizadas no contexto geral do Tribunal, o qual
apresenta visão uniforme independente da parte garantindo a jurisprudência para toda a
sociedade que recorre ao egrégio para dirimir suas questões.
Além disso, o projeto proporciona conhecimento suficiente para atender ao obje-
tivo de negócio que é como saber com confiança qual a tendência de opinião da turma
de julgamento que vai julgar o processo. Assim, os operadores do direito podem avaliar
estratégias diferentes de acordo com a Turma Recursal que seu processo foi distribuı́do
ou até mesmo trabalhar a concretização de um acordo antes do julgamento final.
Por outro lado, todo modelo de Aprendizado de Máquina está sujeito ao viés ou
tendência inserido pelo algoritmo. No entanto, o projeto foi projetado para minimizar a
Figura 2. Comparação entre o total de julgamentos classificados como conce-
dido para empresas e para empregados no Tribunal Regional do Trabalho da 3a
Região

Figura 3. Comparação entre o total de julgamentos classificados como conce-


dido para empresas e para empregados na 9a e na 1a Turma Recursal do TRT da
3a Região
inserção de elementos que poderiam diminuir a precisão ou causar “excesso de treina-
mento”.
Como trabalhos futuros, seria interessante realizar o processamento dos documen-
tos para identificação das matérias de direito que cada órgão julgador deferiu ou não de
modo a poder construir modelo probabilı́stico de sucesso de causas judiciais.

Referências
Adebayo, K. J., Di Caro, L., Boella, G., and Bartolini, C. (2016). An approach to infor-
mation retrieval and question answering in the legal domain. Proceedings of the 10th
International Workshop on Juris-informatics (JURISIN 2016).
Akerkar, R. (2013). Big data computing. Crc Press.
Ashley, K. D. (2017). Artificial intelligence and legal analytics: new tools for law practice
in the digital age. Cambridge University Press.
Becker, K. (2017). Slides de aula processo de kdd.
Borden, B. B. and Baron, J. R. (2014). Finding the signal in the noise: information
governance, analytics, and the future of legal practice. Richmond Journal of Law &
Technology, 20(2):7.
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., and Wirth,
R. (2000). Crisp-dm 1.0 step-by-step data mining guide. CRISP-DM 1.0 Step-by-step
data mining guide.
Chen, Y.-L., Liu, Y.-H., and Ho, W.-L. (2013). A text mining approach to assist the
general public in the retrieval of legal documents. Journal of the American Society for
Information Science and Technology, 64(2):280–290.
Christopher, D. M., Prabhakar, R., and Hinrich, S. (2008). Introduction to information
retrieval. An Introduction To Information Retrieval, 151(177):5.
CNJ, C. N. d. J. (2017). Pje atinge a marca de 7,4 mi de processos judiciais.
ConJur (2012). Conjur - justica do trabalho deixa de privilegiar empregado em acoões
trabalhistas. 2012.
Constâncio, A. S. (2017). Ontologia para um motor de busca semântica para recuperação
jurisprudencial no brasil.
CSJT, D. d. C. d. C. (2017). Divisao de comunicacao do csjt.
Erl, T., Khattak, W., Buhler, P., et al. (2016). Big Data Fundamentals. Prentice Hall:
Upper Saddle River, NJ, USA.
Ferauche, Thiago e de Almeida, M. A. (2011). Aprendizado de classificadores das emen-
tas da jurisprudência do tribunal regional do trabalho da 2a . região-sp. In VI WorkShop
de Pesquisa do Centro Estadual de Eucação Tecnológica Paula Souza–SP–Brasil.
Gandomi, A. and Haider, M. (2015). Beyond the hype: Big data concepts, methods, and
analytics. International Journal of Information Management, 35(2):137–144.
Jaeger Zabala, F. and Silveira, F. F. (2014). Jurimetria: Estatı́stica aplicada ao di-
reito/jurimetrics: Statistics applied in the law. Revista Direito e Liberdade, 16(1):87–
103.
Jo, D. W. and Kim, M. H. (2015). A framework for legal information retrieval based on
ontology.
Kubat, M. (2015). An introduction to machine learning, volume 681. Springer.
Loevinger, L. (1948). Jurimetrics–the next step forward. Minn. L. Rev., 33:455.
Pierson, L. (2015). Data science for dummies. John Wiley & Sons.
Ross, I. (2017). Ross.
Salama, B. M., Püschel, F., Hirata, A., Corrêa, A. R., and Rodriguez, J. R. (2011). Dano
moral no brasil. Serie Pensando o Direito.
STF, S. T. F. (2017). Stf - glossário.
TSE, T. S. E. (2017). Tse - glossário.
Weber, R. (1999). Intelligent jurisprudence research: a new concept. In Proceedings
of the 7th international conference on Artificial intelligence and law, pages 164–172.
ACM.
Zhang, N., Pu, Y.-F., and Wang, P. (2015). An ontology-based approach for chinese legal
information retrieval.
A. Apêndice

Figura 4. Comparação entre o total de julgamentos classificados como conce-


dido para empresas e para empregados no Tribunal Regional do Trabalho da 3a
Região

Figura 5. Comparação entre o total de julgamentos classificados como conce-


dido para empresas e para empregados na 1a Turma Recursal do Tribunal Regi-
onal do Trabalho da 3a Região
Figura 6. Comparação entre o total de julgamentos classificados como conce-
dido para empresas e para empregados na 2a Turma Recursal do Tribunal Regi-
onal do Trabalho da 3a Região

Figura 7. Comparação entre o total de julgamentos classificados como conce-


dido para empresas e para empregados na 3a Turma Recursal do Tribunal Regi-
onal do Trabalho da 3a Região
Figura 8. Comparação entre o total de julgamentos classificados como conce-
dido para empresas e para empregados na 4a Turma Recursal do Tribunal Regi-
onal do Trabalho da 3a Região

Figura 9. Comparação entre o total de julgamentos classificados como conce-


dido para empresas e para empregados na 5a Turma Recursal do Tribunal Regi-
onal do Trabalho da 3a Região
Figura 10. Comparação entre o total de julgamentos classificados como conce-
dido para empresas e para empregados na 6a Turma Recursal do Tribunal Regi-
onal do Trabalho da 3a Região

Figura 11. Comparação entre o total de julgamentos classificados como conce-


dido para empresas e para empregados na 7a Turma Recursal do Tribunal Regi-
onal do Trabalho da 3a Região
Figura 12. Comparação entre o total de julgamentos classificados como conce-
dido para empresas e para empregados na 8a Turma Recursal do Tribunal Regi-
onal do Trabalho da 3a Região

Figura 13. Comparação entre o total de julgamentos classificados como conce-


dido para empresas e para empregados na 9a Turma Recursal do Tribunal Regi-
onal do Trabalho da 3a Região
Figura 14. Comparação entre o total de julgamentos classificados como con-
cedido para empresas e para empregados na 10a Turma Recursal do Tribunal
Regional do Trabalho da 3a Região