Informações

Bem vindo ao Programa Tutorial em R (DataLab) do Professor Jhames Sampaio. Todas as informações importantes do curso, materiais, laboratórios, arquivos, dentre outras informações estarão disponíveis nos subcampos desta página. Você pode acessá-las arrastando o seu cursor sob o título da página. Sinta-se livre para explorar!


Ementa da disciplina

Os laboratórios do projeto DataLab fornecem ferramentas computacionais, em ambiente R, que abordam os principais conteúdos de probabilidade e estatística: estatística descritiva, análise de observações, modelo matemático, experimentos aleatórios, espaço amostral, axiomas e teoremas básicos, variáveis aleatórias, distribuições e suas características, distribuição conjunta, covariância e correlação, principais modelos discretos e contínuos, noções de amostragem e estimação, regressão linear simples, testes de hipóteses, regressão linear múltipla e aplicações. Além dos laboratórios, cada aluno irá trabalhar em um projeto final com o objetivo de consolidar os assuntos estudados nos laboratórios e trabalhar com um conjunto de dados reais. Este é um projeto que visa difundir e disponibilizar aos alunos da universidade e comunidade em geral o uso da linguagem R para a análise de dados.


Programa

O programa detalhado, referente à ementa da disciplina, segue abaixo visando esclarecer, ponto a ponto, cada tema que será trabalhado nos laboratórios. Este programa e suas unidades também servem como guia para o acompanhamento semanal aproximado pelos alunos e como referência dos pré requisitos da área de probabilidade e estatística que serão necessários no decorrer do semestre.

Laboratório 0 - Apresentação

  • Boas vindas.
  • Informações relativas ao curso.
  • Como baixar e instalar o R e RStudio.
  • Links importantes para acompanhamento dos laboratórios subsequentes.

Laboratório 1 - Introdução ao R e RStudio

  • Importação de dados.
  • Como criar um relatório reprodutível por meio da ferramenta R Markdown.
  • Explorando dados.
  • Introdução aos pacotes dyplr e ggplot2.
  • Análise de dados reais e exercícios aplicados ao laboratório.

Laboratório 2 - Introdução à Análise de Dados

  • Resumo de dados.
  • Construção de gráficos de distribuição.
  • Análise descritiva de dados.
  • Tabelas resumo.
  • Visualizando relações entre duas variáveis.
  • Filtros e subconjuntos.
  • Análise de dados reais e exercícios aplicados ao laboratório.

Laboratório 3 - Probabilidade no R

  • Como simular distribuições probabilísticas no software estatístico R.
  • Análise comparativa entre uma situação simulada versus uma situação real para testar o conceito de independência.
  • Exercícios aplicados ao laboratório.

Laboratório 4 - Distribuições Amostrais

  • Estudar a distribuição amostral de variáveis aleatórias a partir de dados reais.
  • Exercícios aplicados ao laboratório.

Laboratório 5 - Regressão Linear Simples

  • O modelo linear e sua estimação por mínimos quadrados.
  • Predição e Erro de Predição.
  • Aplicação a dados reais e diagnóstico do modelo estimado.
  • Exercícios aplicados ao laboratório.

Laboratório 6 - Intervalos de Confiança

  • Níveis de confiança
  • Cálculo do intervalo de confiança para dados reais.
  • Exercícios aplicados ao laboratório.

Laboratório 7 - Inferência para Dados Numéricos

  • Análise exploratória de dados numéricos.
  • Testes de hipóteses para dados reais.
  • Exercícios aplicados ao laboratório.

Laboratório 8 - Inferência para Dados Numéricos 2

  • Análise exploratória de dados numéricos.
  • Testes de hipóteses para dados reais.
  • Variáveis de confusão.
  • Conversão de variáveis.
  • Exercícios aplicados ao laboratório.

Laboratório 9 - Inferência para Dados Categorizados

  • Inferência para proporções.
  • Margem de erro para proporções.
  • Condição de sucesso e fracasso.
  • Exercícios aplicados ao laboratório.

Laboratório 10 - Regressão Linear Múltipla

  • Da regressão linear simples para a regressão linear múltipla.
  • A procura pelo melhor modelo.
  • Exercícios aplicados ao laboratório.

Projeto Final

  • Consolidação do conteúdo ministrado nos laboratórios.
  • Pesquisa em temas relacionados a bancos de dados reais para análise dos alunos.

Comunicação

É de interesse e total responsabilidade do aluno se manter informado sobre possíveis atualizações do curso, por exemplo: mudança de data e/ou horário de avaliações, cancelamento/adiamento de aulas, dentre outros. Todas as informações importantes neste sentido serão passadas aos alunos na sala de aula e por meio dos canais de comunicação aqui indicados.

Uma das formas de comunicação mais rápidas e dinâmicas da atualidade são as redes sociais. Além disso elas servem para integração e possibilita a discussão num ambiente fácil e apropriado para textos e informações. Nesse sentido, a disciplina conta com um grupo no Facebook cujo link para acesso está indicado no botão abaixo.


Critério de Avaliação

A disciplina é pensada em dois módulos onde cada um será avaliado independentemente do outro e com pesos distintos. O primeiro módulo é referente à realização dos indicados no programa da disciplina e lições da plataforma datacamp cujo peso será de 40% para computo da nota final. O segundo módulo é referente ao projeto final indicado no programa da disciplina e terá peso de 60% para computo da nota final. Será aprovado o aluno que obtiver média igual ou superior a cinco. O aluno deve se manter informado nos canais de comunicação indicados sobre possíveis mudanças em datas e/ou horários dos laboratórios e avaliações.


Atendimento

O atendimento será realizado pelos monitores e pelo professor. O horário dos monitores será divulgado segundo o calendário do semestre letivo após a seleção dos candidatos pelo Departamento de Estatística, enquanto o professor atenderá em sala de aula e via agendamento em horários oportunos.


Referências Bibliográficas

Básica

  • Peng, R.D., Exploratory Data Analysis with R, leanpub.com, 2015.

  • Peng, R.D., R Programming for Data Science, leanpub.com, 2016.

  • Peng, R.D., Report Writing for Data Science in R, leanpub.com, 2016.

Complementar

  • Wickham, H., ggplot2: Elegant Graphics for Data Analysis, Springer, 2009
  • Caffo, B., Statistical inference for data science, leanpub.com, 2015.

  • Caffo, B., Regression Models for Data Sciense in R, leanpub.com, 2015.

  • Ross, S.W., Probability and Statistics for Engineers and Scientists, 4th ed., Academic Press, 2009.
  • Bussab, W.O. e Morettin, P.A., Estatística Básica, 7ª edição, Editora Saraiva, 2011.