Métodos para o pré-processamento e mineração de grandes volumes de dados multidimensionais e redes complexas / Methods to pre-processing and mining large volumes of multidimensional data and complex networks

AUTOR(ES)
DATA DE PUBLICAÇÃO

2010

RESUMO

A mineração de dados é um processo computacionalmente caro, que se apoia no pré-processamento dos dados para aumentar a sua eficiência. As técnicas de redução de elementos do conjunto de dados, principalmente a amostragem de dados se destacam no pré-processamento. Os dados reais são caracterizados pela não uniformidade da distribuição, grande quantidade de atributos e presença de elementos considerados ruídos. Para esse tipo de dado, a amostragem uniforme, na qual cada elemento tem a mesma probabilidade de ser escolhido, é inefiiente. Os dados nos últimos anos, vem passando por transformações. Assim, não só o seu volume tem aumentado significantemente, mas também a maneira de como eles são representados. Os dados usualmente são divididos apenas em dados tradicionais (número e pequenas cadeias de caracteres) e dados complexos (imagens, cadeias de DNA, vídeos, etc). Entretanto, uma representação mais rica, na qual não só os elementos do conjunto são representados mas também a suas ligações, vem sendo amplamente utilizada. Esse novo tipo de dado, chamado rede complexa, fez surgir uma nova área de pesquisa chamada mineração de redes complexas ou de grafos, já que estes são utilizados na representação das redes complexas. Para esta nova área é necessário o desenvolvimento de técnicas que permitam a mineração de grandes redes complexas, isto é, redes com centenas de milhares de elementos(nós) e ligações(arestas). Esta tese teve como objetivo explorar a redução de elementos em conjuntos de dados chamados desbalanceados, isto é, que possuem agrupamentos ou classes de tamanhos bastantes distintos, e que também possuam alta quantidade de atributos e presença de ruídos. Além disso, esta tese também explora a mineração de redes complexas com a extração de padrões e propriedades e o desenvolvimento de algoritmos eficientes para a classificação das redes em reais e sintéticas. Também é proposto a mineração de redes complexas utilizando gerenciadores de base de dados para a mineração de cliques de tamanho 4 e 5 e a apresentação da extensão do coeficiente de clusterização

ASSUNTO(S)

amostragem balanceada biased sampling database graph mining banco de dados mineração de grafos

Documentos Relacionados