Extração automática de conceitos a partir de textos em língua portuguesa
AUTOR(ES)
Lucelene Lopes
FONTE
IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia
DATA DE PUBLICAÇÃO
26/01/2012
RESUMO
Essa tese descreve um processo para extrair conceitos de textos em língua portuguesa. O processo proposto inicia com corpora de domínio linguisticamente anotados, e gera listas de conceitos dos domínios de cada corpus. Utiliza-se uma abordagem linguística, que baseia-se na identificação de sintagmas nominais e um conjunto de heurísticas que melhoram a qualidade da extração de candidatos a conceitos. Essa melhora é expressa por incrementos aproximadamente de 10% para mais de 60% nos valores de precisão e abrangência das listas de termos extraídas. Propõe-se um novo índice (tf-dcf) baseado na comparação com corpora contrastantes, para ordenar os termos candidatos a conceito extraídos de acordo com suas relevâncias para o corpus de domínio. Os resultados obtidos com esse novo índice são superiores aos resultados obtidos com índices propostos em trabalhos similares. Aplicam-se pontos de corte para identificar, dentre os termos candidatos classificados segundo sua relevância, quais serão considerados conceitos. O uso de uma abordagem híbrida para escolha de pontos de corte fornece valores adequados de medida F, trazendo qualidade ao processo de identificação de conceitos. Adicionalmente. propõem-se quatro aplicações para facilitar a compreensão, manipulação e visualização dos termos e conceitos extraídos. Essas aplicações tornam as contribuições dessa tese acessíveis a um maior número de pesquisadores e usuários da área de Processamento de Linguagem Natural. Todo o processo proposto é descrito em detalhe, e experimentos avaliam empiricamente cada passo. Além das contribuições científicas feitas com a proposta do processo, essa tese também apresenta listas de conceitos extraídos para cinco diferentes corpora de domínio, e o protótipo de numa ferramenta de software (EXATOLP) que implementa todos os passos propostos.
ASSUNTO(S)
informÁtica ontologia processamento da linguagem natural recuperaÇÃo da informaÇÃo ciencia da computacao
ACESSO AO ARTIGO
http://tede.pucrs.br/tde_busca/arquivo.php?codArquivo=4235Documentos Relacionados
- OntoLP: construção semi-automática de ontologias a partir de textos da lingua portuguesa
- Uma abordagem semi-automática para identificação de estruturas ontológicas a partir de textos na língua portuguesa do Brasil
- Uma abordagem computacional para construção de mapas conceituais a partir de textos em língua portuguesa do Brasil
- Extração automatica de palavras-chave na lingua portuguesa aplicada a dissertações e teses da area das engenharias
- Elementos básicos para a análise de textos argumentativos em língua portuguesa