Uma abordagem semântica para seleção de atributos no processo de KDD

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

27/08/2010

RESUMO

Atualmente, dois temas de grande importância para a computação, estão sendo utilizados conjuntamente de uma forma cada vez mais aparente: a Descoberta de Conhecimento em Bancos de Dados (Knowledge Discovery in Databases KDD) e as Ontologias. Com o aperfeiçoamento das formas com que os dados são armazenados, a quantidade de informação disponível para análise aumentou exponencialmente, tornando necessário técnicas para analisar esses dados e obter conhecimento para os mais diversos propósitos. Nesse contexto, o processo de KDD introduz etapas que possibilitam a descoberta de conhecimentos úteis, novos e com características que geralmente não podiam ser vistas apenas visualizando os dados de forma bruta. Em um campo complementar, a Descoberta de Conhecimento em Banco de Dados pode ser beneficiada com Ontologias. Essas, de certa forma, apresentam a capacidade para armazenar o conhecimento, segundo um modelo de alta expressividade semântica, sobre determinados domínios. As ontologias permitem que o conhecimento seja recuperado através de inferências nas classes, descrições, propriedades e restrições. Nas fases existentes no processo de descoberta do conhecimento, a Seleção de Atributos permite que o espaço de análise para os algoritmos de Mineração de Dados possa ser melhorado com atributos mais relevantes para o problema analisado. Porém, algumas vezes esses métodos de seleção não eliminam de forma satisfatória os atributos irrelevantes, pois não permitem uma análise prévia sobre o domínio tratado. Para tratar esse problema, esse trabalho propõe um sistema que utiliza ontologias para armazenar o conhecimento prévio sobre um domínio específico, possibilitando uma análise semântica antes não viável pelas metodologias convencionais. Foi elaborada uma ontologia, com reuso de diversos repositórios de ontologias disponíveis na Web, específica para o domínio médico e com possíveis especificações comuns nas principais áreas da medicina. Para introduzir semântica no processo de seleção de atributos primeiro é realizado o mapeamento entre os atributos do banco de dados e as classes da ontologia. Feito esse mapeamento, o usuário agora pode selecionar atributos através de categorias semânticas, reduzir a dimensionalidade dos dados e ainda visualizar redundâncias existentes entre atributos correlacionados semanticamente.

ASSUNTO(S)

seleção de atributos ontologias descoberta de conhecimento em banco de dados ciencia da computacao knowledge discovery in databases ontologies attributes selection

Documentos Relacionados