Seleção de atributos via agrupamento / Clustering-based feature selection

AUTOR(ES)
DATA DE PUBLICAÇÃO

2010

RESUMO

O avanço tecnológico teve como consequência a geração e o armazenamento de quantidades abundantes de dados. Para conseguir extrair o máximo de informação possível dos dados tornou-se necessária a formulação de novas ferramentas de análise de dados. Foi então introduzido o Processo de Descoberta de Conhecimento em Bancos de Dados, que tem como objetivo a identificação de padrôes válidos, novos, potencialmente úteis e compreensíveis em grandes bancos de dados. Nesse processo, a etapa responsável por encontrar padrões nos dados é denominada de Mineração de Dados. A acurácia e eficiência de algoritmos de mineração de dados dependem diretamente da quantidade e da qualidade dos dados que serão analisados. Nesse sentido, atributos redundantes e/ou não-informativos podem tornar o processo de mineração de dados ineficiente. Métodos de Seleção de Atributos podem remover tais atributos. Nesse trabalho é proposto um algoritmo para seleção de atributos e algumas de suas variantes. Tais algoritmos procuram identificar redundância por meio do agrupamento de atributos. A identificação de atributos redundantes pode auxiliar não apenas no processo de identificação de padrões, mas também pode favorecer a compreensibilidade do modelo obtido. O algoritmo proposto e suas variantes são comparados com dois algoritmos do mesmo gênero descritos na literatura. Tais algoritmos foram avaliados em problemas típicos de mineração de dados: classificação e agrupamento de dados. Os resultados das avaliações mostram que o algoritmo proposto, e suas variantes, fornecem bons resultados tanto do ponto de vista de acurácia como de eficiência computacional, sem a necessidade de definição de parâmetros críticos pelo usuário

ASSUNTO(S)

feature seletion clustering classification classificação agrupamento seleção de atributos

Documentos Relacionados