ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia.
AUTOR(ES)
Patrick Pedreira Silva
DATA DE PUBLICAÇÃO
2006
RESUMO
Esta dissertação propõe um sumarizador de documentos Web baseado em etiquetas HTML e conhecimento ontológico, derivado de outras duas abordagens independentes: uma que contempla somente etiquetas HTML e outra, somente conhecimento ontológico. As três abordagens foram implementadas e avaliadas, indicando que a composição desses dois tipos de conhecimento tem um bom potencial descritivo de documentos Web. O protótipo resultante é denominado ExtraWeb. O ExtraWeb explora a estrutura de marcação de documentos em português e informações de nível semântico usando a ontologia do Yahoo em português, enriquecida com vocabulário extraído de um thesaurus, Diadorim, e da Wikipédia. Em uma tarefa simulada por internautas, de busca de documentos, o ExtraWeb obteve um grau de utilidade próximo ao do Google, evidenciando seu potencial para indicar, por meio de extratos, a relevância de documentos recuperados na Web. Esse foco é de grande interesse atualmente, pois os extratos podem ser particularmente úteis como substitutos das descrições atuais das ferramentas de busca ou, mesmo, como substitutos dos documentos correspondentes completos. No primeiro caso, as descrições nem sempre contemplam as informações mais relevantes dos documentos; no segundo, sua leitura implica um esforço considerável por parte do internauta. Em ambos os casos, extratos podem otimizar essa tarefa, se comprovada sua utilidade para a indicação da relevância dos documentos. Assim, o ExtraWeb tem potencial para ser um acessório das ferramentas de busca, para melhorar a forma como os resultados são apresentados, muito embora sua escalabilidade e implantação em um ambiente real ainda não tenham sido exploradas.
ASSUNTO(S)
ciencia da computacao inteligência artificial processamento da linguagem natural sumarização automática
ACESSO AO ARTIGO
http://www.bdtd.ufscar.br/htdocs/tedeSimplificado//tde_busca/arquivo.php?codArquivo=1170Documentos Relacionados
- Um framework para transformaÃÃo automÃtica de documentos e extraÃÃo de informaÃÃes baseado em XML
- Autoria de documentos para a Web Semântica: um ambiente de produção de conhecimento baseado em ontologias
- OntoSmart: um modelo de recuperação de informação baseado em ontologia
- Um modelo para recuperação e busca de informação baseado em ontologia e no círculo hermenêutico
- Um sistema inteligente baseado em ontologia para apoio ao esclarecimento de dúvida