presente em mensagens do
StackOverflow
Trabalho elaborado por:
Ângelo Coelho (a73194)
ORIENTADORES:
Carlos Araújo (a71142) PEDRO HENRIQUES
RENATO AZEVEDO
ESPECIFICAÇÃO
• Identificar código fonte em posts do StackOverflow
Python
Unix
Gaming
Android...
Conteúdo de cada conjunto de dados
Users.xml Votes.xml Posts.xml PostsLinks.xml
8
Ficheiro
Ficheiros
Zip
XML
Tags.xml PostsHistory.xml Badges.xml Comments.xml
Informações sobre os
comentários às Conquistas dos
publicações utilizadores
Posts.xml
Funcionalidades:
Escrever Chamar
Extração Escrever em
Call Make Body em Make
Body Posts.xml
ficheiro Parsing
POST BODY
• Comentário à lá C
• "/*"([^*]|\*+[^*/])*\*+"/"
• Método/Função à lá C
• [A-Za-z_0-9.]+"("[^)]*")"[;]{0,1}
• Ciclo à lá C
• Função Python
Expressão regular:
• "</code>"["\n" {};|()$&]*"<code "[^>]*">”
Exemplo demonstrativo
Input:
Output:
POST PRE-PROCESSED POST BODY