Um sistema para extraÃÃo de informaÃÃo em referÃncias bibliogrÃficas baseado em aprendizagem de mÃquina

AUTOR(ES)
DATA DE PUBLICAÇÃO

2004

RESUMO

Existe atualmente uma gigantesca quantidade de informaÃÃes disponibilizada em formato de texto na Internet e nas redes das grandes corporaÃÃes. Essas informaÃÃes encontram-se em um formato nÃo estruturado, dificilmente manipulÃvel por programas de computador. A ExtraÃÃo de InformaÃÃo (EI) tem como objetivo transformar documentos textuais em um formato estruturado, mapeando a informaÃÃo contida em um documento em uma estrutura tabular. Tal estrutura à mais facilmente tratÃvel por programas de computador, possibilitando assim a sua utilizaÃÃo por variadas aplicaÃÃes âinteligentesâ. Dentro da InteligÃncia Artificial, vemos duas abordagens para tratar o problema da EI: os sistemas baseados em conhecimento e a aprendizagem automÃtica. O trabalho apresentado tem como objetivo a construÃÃo de um sistema para extrair informaÃÃes a partir de textos contendo citaÃÃes cientÃficas (ou referÃncias bibliogrÃficas) atravÃs de uma abordagem baseada em aprendizagem automÃtica. Dentre as diversas tÃcnicas existentes, escolhemos tratar o problema atravÃs de uma abordagem hÃbrida, que combina o uso de tÃcnicas de classificaÃÃo de textos com os Modelos de Markov Escondidos (HMM). Esta combinaÃÃo mostrou resultados superiores aos obtidos usando exclusivamente as tÃcnicas de classificaÃÃo e sua idÃia bÃsica à gerar com o uso das tÃcnicas de classificaÃÃo de textos para EI uma saÃda inicial para o sistema e refinÃ-la depois por meio de um HMM. Experimentos realizados com um conjunto de teste contendo 3000 referÃncias resultaram em uma precisÃo de 87,48%

ASSUNTO(S)

wrappers hidden markov models (hmm) aprendizagem de mÃquina modelos de markov escondidos (hmm) wrappers extraÃÃo de informaÃÃo artificial intelligence classificaÃÃo de textos text classification inteligÃncia artificial ciencia da computacao information extraction machine learning

Documentos Relacionados