Um Parser para o download de notícias
AUTOR(ES)
SCOTT, Mike
FONTE
DELTA
DATA DE PUBLICAÇÃO
2018-03
RESUMO
RESUMO Este artigo apresenta o Download Parser, uma ferramenta para gerenciar downloads de texto de grandes bancos de dados online. Muitas universidades têm acesso a bases de dados com textos completos que permitem ao usuário pesquisar e, em seguida, visualizar e, idealmente, baixar o texto completo de artigos relevantes. Todavia há problemas importantes na prática do gerenciamento de tais downloads, por causa de fatores como duplicação, falta de padrão de formatação e falta de documentação. A ferramenta em discussão foi concebida para analisar downloads, limpá-los e padronizá-los, identificar títulos e inserir cabeçalhos adequadamente etiquetados para análise de corpus.
ASSUNTO(S)
corpus de notícias tratamento de corpus textos duplicados construção de sub-corpora
Documentos Relacionados
- Os fatores que influenciaram o download gratuito de música na Internet
- Placebo, um mal-estar para a medicina: notícias recentes
- Microdatasus: pacote para download e pré-processamento de microdados do Departamento de Informática do SUS (DATASUS)
- A comunicação de más notícias durante o pré-natal: um desafio a ser enfrentado
- Aprimoramento das habilidades de residentes em perinatologia para comunicar más notícias: um estudo de intervenção randomizado