Navegar

8 de agosto de 2018, 19:13h

Montanari fala sobre análise de dados de alta dimensão

Analisar dados de alta dimensão, com grande quantidade de variáveis, implica problemas importantes de capacidade computacional. O estatístico Andrea Montanari, professor de Stanford, tomou emprestados métodos da física para tornar mais possível essa tarefa. 

A principal maneira utilizada pelos cientistas de dados para reduzir as dimensões de grandes massas de informação, como matrizes de relações entre palavras de um vocabulário extenso, é a análise de componentes principais (PCA). 

Leia também: Veterano em ICMs tenta romper “fobia” de Matemática
‘Teríamos outra Matemática se víssemos além das 3 dimensões’
Aula de Ricardo Martins mostra inovações matemáticas

Segundo Montanari, porém, existem estimadores mais assertivos para elas, como Bayes Optimized Estimation (estimativa otimizada bayesiana). Ela utiliza a teoria das probabilidades condicionais, que ajusta a previsão de acordo com o que o modelo aprendeu antes. O ganho de assertividade é maior do que com o uso de PCA, mas aplicar o estimador bayesiano depende de muita capacidade de processamento.

A saída apontada por Montanari é o uso de técnicas de programação semidefinida (SDP). Segundo disse, elas são quase tão assertivas quanto as bayesianas, dependendo de muito menos processamento. Essa ideia vem da aplicação de ideias matemáticas da teoria do campo médio de sistemas desordenados, um problema de mecânica estatística. 

Um artigo recente sobre o assunto, com coautoria de Montanari, está publicado no arXiv.