MÃtodos de agrupamento de dados simbÃlicos baseados em funÃÃes de proximidade

AUTOR(ES)
DATA DE PUBLICAÇÃO

2008

RESUMO

Com a crescente quantidade de informaÃÃes produzidas pelas diversas atividades humanas, tem se tornado cada vez mais importante agregar, tratar e manipular grandes massas de dados de modo a definir conceitos e extrair conhecimento destes dados. Esses conceitos podem ser descritos por dados mais complexos, chamados dados simbÃlicos. Nesse contexto, surge a necessidade de estender mÃtodos exploratÃrios, estatÃsticos e representa aÃÃes grÃficas para lidar com esse tipo de dados, em que cada variÃvel pode assumir como valor um conjunto de categorias, intervalos ou distribuiÃÃes de probabilidades. A anÃlise de dados simbÃlicos _e definida como a extensÃo dos mÃtodos de anÃlise de dados clÃssicos para tal tipo de dados. Com o intuito de estender mÃtodos estatÃsticos e tÃcnicas de aprendizado de mÃquina a esse tipo de dados, à necessÃrio definir medidas de distÃncia apropriadas. Diversas medidas de distÃncia tÃm sido propostas na literatura. No entanto, ainda existe na literatura uma carÃncia de anÃlises comparativas dos desempenhos de medidas de distÃncia para dados simbÃlicos. A principal contribuiÃÃo desta DissertaÃÃo à prover uma avaliaÃÃo empÃrica de funÃÃes de dissimilaridade para dados simbÃlicos no contexto de analise de agrupamento. AlÃm disso, foram propostas novas medidas de dissimilaridade para dados simbÃlicos. Com o intuito de atingir esses objetivos, foi desenvolvido um framework para agrupamento de dados simbÃlicos. Esse framework utiliza funÃÃes de dissimilaridade baseadas em volume e algoritmos de agrupamento de dados relacionais. Os experimentos foram executados com bases de dados de benchmark e duas bases de dados artificiais com diferentes graus de dificuldade de agrupamento. Os resultados obtidos foram avaliados atravÃs do Ãndice de rand corrigido. Em seguida, foram construÃdos os intervalos de confianÃa para comparar os desempenhos dos algoritmos de agrupamento e das medidas de dissimilaridade

ASSUNTO(S)

anÃlise de dados simbÃolicos, anÃlise de agrupamento, medidas de dissimilaridade inteligÃncia artificial symbolic data analysis ciencia da computacao dissimilarity measures clustering analysis

Documentos Relacionados