Bem vindos à 1ª Escola de Ciência de Dados - UFRJ
O que é
Esta escola versará sobre temas recentes na área de Ciência de Dados, a qual vem se desenvolvendo aceleradamente nas últimas décadas. Temas relacionados a Computação, Estatística e Matemática Aplicada serão abordados na forma de cursos de curta duração.
Ciência de Dados pode ser vista como uma combinação de Estatística e Ciência da Computação. A origem do termo advém do "The future of Data Analysis", John Tukey, 1962, em que aspectos de análise exploratória e confirmatória de dados foram caracterizados. Segundo alguns autores, ciência de dados é um espaço a mais para motivar novos desenvolvimentos estatísticos: metodológicos e aplicados. ("Data Science: an action plan for expanding the technical areas of the fields of statistics”, William S. Cleveland, 2001). As dimensões da análise exploratória e confirmatória correspondem às duas culturas da estatística no afã de extrair conclusões a partir dos dados: uma de natureza algorítmica e outra, baseada em modelos estocásticos. (Leo Breiman, 2001,”Statistical modelling: the two cultures”). As competências de Cientista de Dados permitem entender um problema “científico”, levantar e extrair dados manuseando grandes bancos de dados, processá-los, transformá-los em informação, visualizá-los e comunicar, com clareza, os resultados obtidos, eventualmente, para não especialistas
(ver Hal Varian, entrevista ao MacKinsey Quarterly, 2009, ao se expressar sobre a relevância de um profissional de Estatística na década seguinte).
Detalhes do Workshop
Bradesco Seguros
Otimização de processos utilizando modelos preditivos
Atualmente, a companhia utiliza modelos logísticos para renovação de seguros. O desafio é encontrar modelos preditivos alternativos , com desempenho superior aos processos já estabelecidos, preservando as características desejáveis dos métodos atuais.
Suavização espacial
A companhia pretende minimizar as diferenças de prêmios ofertados nos casos em que o cliente altera sua região tarifária, já que, em alguns casos, com pequenas distâncias entre essas regiões, os prêmios sofrem variação significativa.
O processo atual de formação dos clusters de região para a formação das regiões tarifárias é dividido em duas etapas. Na primeira etapa, as regiões são agrupadas de acordo com a expertise da área de subscrição. Na segunda etapa, é realizado um novo processo de agrupamento, através de método estatístico baseado nos sinistros das regiões.
O desafio é encontrar metodologias para suavização dessas distorções.
Energisa
Previsão do consumo de energia elétrica desagregado por classes
O consumo total de energia elétrica é composto pela soma do consumo das seguintes classes: residencial, industrial, comercial, rural, poder público, iluminação pública, serviço público e próprio. O Grupo Energisa realiza a previsão de consumo para cada uma dessas classes e obtém a previsão do consumo total a partir da soma das previsões médias categóricas. Desta forma, não é possível capturar a incerteza associada à previsão do consumo do mercado total, impactando a compra de energia realizada pela empresa.
O objetivo é discutir propostas de métodos estatísticos que permitam a projeção do consumo de energia elétrica desagregada nas diferentes classes, descrevendo a incerteza associada às previsões desagregadas e à previsão do consumo total.
Michelin
Definir número mínimo de veículos necessários para teste de combustível no uso real do cliente
A Michelin vem desenvolvendo novas gamas de pneus para caminhão e ônibus com coeficientes de resistência ao rolamento que permitem economias em consumo de combustível e consequentemente reduções na emissão de CO2. Existem diversas formas de se avaliar o impacto da resistência ao rolamento no consumo de combustível: por simulações computacionais, testes analíticos e testes no contexto real do cliente. Existe um interesse em performar testes no contexto real de uso do cliente, pois este tipo de teste possui grande aceitação do mercado consumidor. O principal desafio neste tipo de teste é definir o tamanho de amostra (número de veículos necessários para o teste) que reduz ao máximo os riscos envolvidos. Amostras grandes podem tornar o custo do teste proibitivo enquanto amostras pequenas podem tornar a variância em consumo tão grande que mascare ganhos em consumo de combustível advindos do pneu. O objetivo é definir a melhor estratégia para escolha da frota ideal com a menor variância em consumo de combustível, a fim de viabilizar o teste e reduzir os riscos associados.
Cronograma
O Cronograma pode ser encontrado aqui.
Material dos Cursos
Introdução à linguagem Python
Aula 1
Modelos Dinâmicos de previsão
Tópicos de Aprendizado de Máquina
Cronograma
Cronograma da 1ª Escola de Ciência de Dados
O Cronograma ATUALIZADO da 1ª Escola de Ciência de Dados pode ser encontrado AQUI.
Inscritos
Lista de alunos inscritos nos cursos AQUI.
Observação 1: para acompanhamento de todos os cursos oferecidos na 1ª Escola de Ciência de Dados, é sugerido que cada participante leve seu próprio computador. Nas salas onde ocorrerão os cursos, haverá tomadas para carregar os laptops.
Observação 2: para o curso "Introdução a linguagem Python" sugere-se que os participantes realizem previamente o download e a instalação do prorgama Anaconda a partir do link.
Observação 3: para os cursos "Tópicos de Aprendizado de Máquina" e "Modelos Dinâmicos de Previsão" sugere-se que os participantes realizem previamente o download e a instalação do software R no link e do editor RStudio no link.
Como Chegar
Transporte
616 - Metrô Shopping Nova América - Fundão (integração com o metrô)
913 - Metrô Shopping Nova América - Fundão (integração com o metrô)
663 - Méier - Fundão
696 - Méier - Fundão
485 - General Osório - Fundão
486 - General Osório - Fundão
945 - Pavuna - Fundão
760D - Charitas
410T - Alvorada - Fundão
A universidade também pode ser acessada através do BRT. Para saber as linhas que dão acesso ao Fundão,
veja o link.
Chegando ao Fundão, é necessário utilizar o transporte de ônibus interno (totalmente gratuito). Para instruções detalhadas de como chegar ao Parque Tecnológico (local do evento), acesse: http://www.parque.ufrj.br/localizacao/.
Hospedagem
Sugerimos para hospedagem, utilizando critério de facilidade de transporte para universidade, o hotel Ibis
localizado junto ao Shopping Nova América, onde há as saídas das linhas de ônibus 616 e 913, que ligam o serviço
de metrô à Ilha do Fundão.
Não possuímos qualquer tipo de convênio ou parceria com o estabelecimento.
Mais informações sobre o hotel podem ser encontradas aqui.
Informações para Alunos
Certificação
Ao final do curso, serão disponibilizados certificados informando a carga horária de cada participante.
Pré-requisitos
Boas noções de programação, inferência e modelagem são um diferencial.
Cursos Oferecidos
Introdução à linguagem Python: Conceitos básicos, pacotes importantes: pandas, numpy, matplotlib, seaborn e scikit-learn; Regressão linear com Python e Classificação com o k-nearest neighbors.
Tópicos de Aprendizado de Máquina: Seleção de modelos em Modelos Lineares Generalizados. Seleção de modelos por contração - Lasso e Ridge. Estimação para grandes bases de dados. Métodos de otimização: Gradiente descendente e gradiente descendente estocástico. Validação cruzada. Métodos de classificação baseados em regressão e árvores de regressão. Florestas aleatórias. Métodos de clusterização.
Modelos dinâmicos de previsão: Introdução à inferência Bayesiana: distribuições a priori, posteriori e preditiva. Modelos dinâmicos lineares normais, modelos de: tendência, sazonalidade e regressão. Monitoramento e Análise de intervenção.
Horário dos Cursos
De 9:00 a 12:00: Introdução à linguagem Python
Modelos Dinâmicos de Previsão (Turma 1)
de 13:30 a 17:00: Tópicos de Aprendizado de Máquina
Modelos Dinâmicos de Previsão (Turma 2)
1º Workshop de Estatística e Matemática em Inovação
Este evento consistirá no estudo de casos reais propostos por indústrias ou órgãos governamentais interessados no uso de métodos quantitativos (matemática aplicada, estatística e métodos computacionais) na solução de seus problemas. Em particular, destacamos temas como: otimização, análise estatística de dados, modelos estocásticos de previsão.
O evento terá a duração de quatro dias e abordará, no mínimo, dois projetos e, no máximo, quatro, esboçando soluções as mais completas possíveis. Servirá para consolidar temas desenvolvidos na 1ª Escola de Ciência de Dados, permitindo aos participantes a oportunidade de, eventualmente, lidar com grandes bancos de dados, filtrar os dados selecionados, ilustrar e explorá-los, modelá-los estocasticamente etc.
Contribuiremos para a formação abrangente de um Cientista de Dados, a qual exige competências para entender um problema, levantar os dados necessários para resolvê-lo e transformá-los em informações que levem à solução do problema em tela e, ainda, capacidade para trabalhar em equipes multidisciplinares para lidar com diferentes aspectos da solução de um problema científico.
Workshop
Professores
Mariane Branco (coordenadora)
Possui graduação em Estatística pela Universidade Federal do Rio de Janeiro, mestrado em Engenharia de Produção pela Universidade Federal do Rio de Janeiro e doutorado em Estatística pela Universidade Federal do Rio de Janeiro. Atualmente é professora adjunta da Universidade Federal do Rio de Janeiro é membro do Programa de Pós-Graduação em Estatística do IM/UFRJ.ature in more detail.
Hélio Migon
Graduou-se em Estatística pela Escola Nacional de Ciências Estatísticas (1970), obteve o mestrado em Estatística pela Universidade de São Paulo (1974) e doutorado em Estatística pela University of Warwick, UK (1984). Atualmente, é professor Emérito da Universidade Federal do Rio de Janeiro.
Heudson Mirandola
É Bacharel em Matemática pela Universidade Federal do Espírito Santo, mestre em Matemática pelo Instituto Nacional de Matemática Pura e Aplicada - IMPA e doutor em Geometria Diferencial também pelo Instituto Nacional de Matemática Pura e Aplicada
Thais Fonseca
Possui graduação em Bacharelado em Estatística pela Universidade Federal do Rio de Janeiro (2004), mestrado em Estatística pela Universidade Federal do Rio de Janeiro (2004) e doutorado em Estatística pela University of Warwick (2010).
Tutores
Comissão organizadora:
Hélio dos Santos Migon
Heudson Tosta Mirandola
Mariane Branco Alves
Rafael Santos Erbisti
Thaís Cristina Oliveira da Fonseca
Apoio técnico:
Andreia Lima
Dimas Soares Lima
Giselle Nascimento