ExtraÃÃo de informaÃÃo usando integraÃÃo de componentes de PLN atravÃs do framework GATE

AUTOR(ES)
DATA DE PUBLICAÇÃO

2009

RESUMO

A ExtraÃÃo de InformaÃÃo (EI) à o ramo da Ãrea de recuperaÃÃo de informaÃÃo que utiliza tÃcnicas e algoritmos para identificar e coletar informaÃÃes desejadas a partir de documentos, sejam estes estruturados ou nÃo, armazenando-as em um formato apropriado para consultas futuras. Dentre estas tecnologias, o uso de Processamento de Linguagem Natural (PLN) revela-se benÃfico ao processo de extraÃÃo, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrÃo definido. Existe uma suÃte que reÃne dezenas de plugins que podem ajudar na tarefa de EI baseada em PLN, conhecida como GATE (General Architecture for Text Engineering). Neste trabalho propÃe-se o mÃdulo RELPIE, contendo alguns destes plugins para a extraÃÃo a partir de texto livre. O mÃdulo RELPIE à original, e emprega plugins GATE baseados em padrÃes de expressÃes regulares (ER) e regras de produÃÃo. Estas regras ficam totalmente separadas do sistema, visando modularidade na extraÃÃo de informaÃÃo a partir de documentos estruturados ou nÃo. Os resultados obtidos nos experimentos demonstram que o mÃdulo RELPIE apresenta bons nÃveis de extraÃÃo com corpus compreendido por documentos textuais sem qualquer estrutura, alcanÃando um reconhecimento acima de 80% em mÃdia. Efetuando uma comparaÃÃo com o sistema ANNIE (A Nearly-New Information Extraction System), resultados mostram que esse sistema à mais preciso em relaÃÃo ao nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure. Um dos experimentos revelou outra descoberta interessante: corpora jà processados denotam melhores resultados nas execuÃÃes posteriores, em mÃdia 6% na precisÃo, o que sugere que corpora nÃo anotados devem ser processados duas vezes em seqÃÃncia para a obtenÃÃo de melhor performance na tarefa de extraÃÃo, especialmente quando envolve entidades nomeadas e quando se usam ontologias para extraÃ-las.

ASSUNTO(S)

ciencia da computacao

Documentos Relacionados