ExtraÃÃo de informaÃÃo usando integraÃÃo de componentes de PLN atravÃs do framework GATE
AUTOR(ES)
Luciano de Souza Cabral
DATA DE PUBLICAÇÃO
2009
RESUMO
A ExtraÃÃo de InformaÃÃo (EI) à o ramo da Ãrea de recuperaÃÃo de informaÃÃo que utiliza tÃcnicas e algoritmos para identificar e coletar informaÃÃes desejadas a partir de documentos, sejam estes estruturados ou nÃo, armazenando-as em um formato apropriado para consultas futuras. Dentre estas tecnologias, o uso de Processamento de Linguagem Natural (PLN) revela-se benÃfico ao processo de extraÃÃo, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrÃo definido. Existe uma suÃte que reÃne dezenas de plugins que podem ajudar na tarefa de EI baseada em PLN, conhecida como GATE (General Architecture for Text Engineering). Neste trabalho propÃe-se o mÃdulo RELPIE, contendo alguns destes plugins para a extraÃÃo a partir de texto livre. O mÃdulo RELPIE à original, e emprega plugins GATE baseados em padrÃes de expressÃes regulares (ER) e regras de produÃÃo. Estas regras ficam totalmente separadas do sistema, visando modularidade na extraÃÃo de informaÃÃo a partir de documentos estruturados ou nÃo. Os resultados obtidos nos experimentos demonstram que o mÃdulo RELPIE apresenta bons nÃveis de extraÃÃo com corpus compreendido por documentos textuais sem qualquer estrutura, alcanÃando um reconhecimento acima de 80% em mÃdia. Efetuando uma comparaÃÃo com o sistema ANNIE (A Nearly-New Information Extraction System), resultados mostram que esse sistema à mais preciso em relaÃÃo ao nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure. Um dos experimentos revelou outra descoberta interessante: corpora jà processados denotam melhores resultados nas execuÃÃes posteriores, em mÃdia 6% na precisÃo, o que sugere que corpora nÃo anotados devem ser processados duas vezes em seqÃÃncia para a obtenÃÃo de melhor performance na tarefa de extraÃÃo, especialmente quando envolve entidades nomeadas e quando se usam ontologias para extraÃ-las.
ASSUNTO(S)
Documentos Relacionados
- Um sistema de recuperaÃÃo e extraÃÃo de informaÃÃo utilizando conceitos da web semÃntica
- OtimizaÃÃo de acesso em um sistema de integraÃÃo de dados atravÃs do uso de caching e materializaÃÃo de dados
- Um sistema para extraÃÃo de informaÃÃo em referÃncias bibliogrÃficas baseado em aprendizagem de mÃquina
- Um Framework para extraÃÃo de informaÃÃes: uma abordagem baseada em XML
- Buscando compreender a prÃtica de enfermagem atravÃs da grounded theory â uma contribuiÃÃo para o desenvolvimento de um sistema de informaÃÃo