Relações entre Aprendizagem Dentro e Fora de Equilíbrio Termodinâmico

AUTOR(ES)
DATA DE PUBLICAÇÃO

2000

RESUMO

A aplicação da Mecânica Estatística no estudo de Redes Neurais é baseada no fato que a extração de informação de dados (exemplos) pode ser modelada por um processo de minimização de uma função energia. Técnicas originadas no estudo de sistemas desordenados, tais como o Método de Réplicas; o Método da Cavidade; Equações de TAP; bem como técnicas de Monte Carlo tem sido exaustivamente estudadas, levando a vários resultados dentro do que temos conhecido como aprendizagem off-line, onde o sistema é posto em equilíbrio termodinâmico. A possibilidade do tempo de relaxação ser muito grande implica alto custo computacional, o que tem estimulado a busca por algoritmos de aprendizagem fora do equilíbrio, onde surge uma interessante classe de métodos conhecidos por aprendizagem on-line, na qual cada informação (exemplo) é apresentada ao sistema apenas uma vez, trazendo um baixo custo computacional junto a um bom desempenho. Nessa dissertação nós trabalhamos em cima do trabalho de Opper, que relacionou a aprendizagem on-line ótima à aprendizagem off-line Bayesiana por meio de uma aproximação Gaussiana da distribuição posterior. Isso porém, pode ser visto como apenas o primeiro passo numa expansão generalizada de Gram-Charlier (G-Ch) da densidade posterior, a qual pode trazer novos caminhos para o entendimento da relação on-line/off-line. A expansão também pode ser estendida à aprendizagem por potencial, onde a distribuição de probabilidades é Gibbsiana utilizando-se de todos os termos da série, ou seja, na aprendizagem off-line.Assim a G-Ch nos permite estudar extensões não Gaussianas da aprendizagem fora do equilíbrio (on-line) para uma aprendizagem em equilíbrio (off-line), dando uma interpretação do uso das famílias dos hiperparâmetros, construídos a partir dos cumulantes da distribuição posterior, como uma incorporação de informações sobre a forma geométrica do espaço de Versões. Apresentamos duas aplicações para os algoritmos obtidos por tais caminhos: um Perceptron unidimensional e um N-dimensional. Na primeira observamos a aprendizagem Bayesiana na presença de ruído e quando a regra a ser aprendida muda no tempo, onde construímos um diagrama de robustez para a análise da adaptabilidade do algoritmo frente a estimação incorreta do nível de ruído. Na segunda aplicação apresentamos resultados preliminares para o Perceptron em N dimensões. Estudamos aprendizagem usando o potencial ótimo que leva à saturação do limite de Bayes para a generalização no limite termodinâmico.

ASSUNTO(S)

inferência bayesiana. redes neurais dinâmica de aprendizagem

Documentos Relacionados