Ciência de Dados Aplicada

Essa disciplina começará por introduzir técnicas de manipulação e limpeza de dados, assim como as abstrações e estruturas de dados fundamentais para análise de dados. Em seguida, serão apresentadas formas avançadas de visualização de dados. O aprendizado de máquina aplicado será discutido conforme suas técnicas e métodos, e será explicado o motivo pelo qual ele é diferente da estatística descritiva. Dimensão de dados, agrupamento de dados e avaliação de agrupamentos também serão temas discutidos nessa disciplina. Exemplos sobre métodos de modelagem preditiva serão apresentados para entender os problemas relacionados à generalização de dados (ex: cross-validation e overfitting). Técnicas avançadas sobre conjuntos de construções e limitações práticas de modelos preditivos também serão temas nessa disciplina. Os fundamentos da mineração de texto, incluindo manipulação de expressões regulares, limpeza de texto e preparação de texto para utilização em processos de aprendizado de máquina, assim como métodos de processamento de linguagem natural e classificação de texto, também, serão temas discutidos através de exercícios e exemplos nessa disciplina. Por fim, serão apresentadas técnicas de análise de redes, o conceito de conectividade versus robustez, centralidade e entrelaçamento.

Referência:
VANDERPLAS, J. – Python Data Science Handbook: Essential Tools for Working with Data (1st ed.). O’Reilly Media, Inc., 2016.

Obs: Esta disciplina é oferecida como disciplina de mestrado. No doutorado, ela possui exigências adicionais.