06/09/2019

A Matemática da Inteligência Artificial

Imagem: Freepik

Reprodução do blog do IMPA Ciência & Matemática, de O Globo, coordenado por Claudio Landim

André Carlos Ponce de Leon Ferreira de Carvalho – Vice-Diretor do Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC-USP)

Não se passa um dia sem que veículos de mídia nos tragam novidades sobre mais uma aplicação da Inteligência Artificial (IA) que afeta o nosso dia-a-dia. Várias dessas novidades nos trazem surpresas, esperanças e receios. Em geral, os benefícios e riscos são apresentados com clareza. O que não está claro é que por trás das grandes aplicações da IA, tem sempre um bocado de Matemática. Adaptando a frase atribuída a Isac Newton “If I have seen further it is by standing on the shoulders of Giants.”, traduzido para “Eu só vi mais longe por estar apoiado no ombro de gigantes”, A IA só chegou onde está por que se apoia em várias sub-áreas da Matemática.

Neste texto, vou me ater a uma aplicação em que a IA tem sido bem sucedida, a Ciência de Dados, hoje focando na sua parte matemática. Acompanhando a demanda crescente por profissionais nesta área, como tem acontecido em situações semelhantes em áreas diferentes, cresce o número de profissionais, vindo das mais diversas áreas de conhecimento, que buscam trabalhar como Cientistas de Dados.

Processo semelhante ocorreu na área de Computação, quando a demanda superou a oferta, e não havia cursos de formação com vagas suficientes para atender a necessidade do mercado. Em várias sub-áreas da Computação, essa demanda não exigia uma base de matemática. Na Ciência de Dados, a situação é diferente.

Nela, a formação necessária é diferente, é preciso conhecer bem a matemática. Embora vários desses profissionais venham de áreas que proporcionam uma boa formação matemática, a matemática aprendida pode ser diferente da necessária para atuar em Ciência de Dados.

Isso porque muitas das técnicas utilizadas em Ciências de Dados possuem uma forte fundamentação matemática. Para utilizá-las de forma correta e eficiente, é importante saber como funcionam internamente. Sem entender porque e como funcionam essas técnicas, a escolha e o uso delas acaba ocorrendo por simples intuição ou baseado em experiência anterior. Nesses casos, a chance de dar errado é muito grande. “Dar errado” não se restringe a não funcionar como esperado: dependendo da área de aplicação, pode trazer danos econômicos e sociais. Como exemplo, imagine uma ferramenta de computação que prediz de diagnóstico médico baseada em Ciência de Dados. Um diagnóstico incorreto pode acarretar graves problemas de saúde, inclusive o óbito. Em alguns países, modelos de diagnóstico médico baseados em Ciência de Dados já são legalmente permitidos. Para minimizar danos, exige-se que esses os modelos gerados para tomada de decisão sejam facilmente interpretáveis.

Técnicas de Ciência de Dados são geralmente aplicadas a conjuntos de dados representados por matrizes. Cada linha dessas matrizes corresponde a um objeto do conjunto. No exemplo anterior, um conjunto de dados pode ser um conjunto de prontuários de pacientes de uma clínica médica. Na matriz que representa esse conjunto, cada linha tem os dados clínicos de um paciente. Quando o número de colunas na matriz é muito grande em relação ao número de linhas, podemos ter problemas para modelar os dados. Isso é conhecido como “maldição da dimensionalidade”. Isso pode ser minimizado pela Geometria Analítica, que oferece várias ferramentas matemáticas para analisar e reduzir a dimens dos dados.

Uma etapa essencial da Ciência de Dados é a exploração dos dados, que identifica problemas nos dados e propriedades que podem ser úteis nas etapas seguintes. Grande parte das propriedades relevantes são obtidas por meio de aplicação de técnicas estatísticas. A Estatística também é importante para planejar uma forma válida e eficaz de coletar os dados, e a correta sequência de passos para extrair informações relevantes dos dados. Além disso, os dados em geral são produzidos de acordo com uma distribuição de probabilidades. Técnicas estatísticas permitem ainda estimar a distribuição de probabilidade que gerou os dados, importante para várias técnicas de análise, e definir quão estatisticamente significantes são os resultados de um experimento. Muitos dos modelos gerados devem indicar a probabilidade de algo ocorrer. Um bom conhecimento de Probabilidades é essencial para quem quer trabalhar não apenas em Ciência de Dados, mas também em IA.

Para ler o texto na íntegra acesse o site do jornal