Um Parser para o download de notícias

AUTOR(ES)
FONTE

DELTA

DATA DE PUBLICAÇÃO

2018-03

RESUMO

RESUMO Este artigo apresenta o Download Parser, uma ferramenta para gerenciar downloads de texto de grandes bancos de dados online. Muitas universidades têm acesso a bases de dados com textos completos que permitem ao usuário pesquisar e, em seguida, visualizar e, idealmente, baixar o texto completo de artigos relevantes. Todavia há problemas importantes na prática do gerenciamento de tais downloads, por causa de fatores como duplicação, falta de padrão de formatação e falta de documentação. A ferramenta em discussão foi concebida para analisar downloads, limpá-los e padronizá-los, identificar títulos e inserir cabeçalhos adequadamente etiquetados para análise de corpus.

ASSUNTO(S)

corpus de notícias tratamento de corpus textos duplicados construção de sub-corpora

Documentos Relacionados