Seu relatório: Antes de começarmos, lembre-se de abrir seu documento R Markdown: lab7. Não se esqueça, também, que você deve incluir todos os códigos, gráficos e respostas às perguntas em seu relatório.

download.file("https://passeioaleatorio.com/datalab/labs/rmd/lab7.Rmd", destfile = "lab7.Rmd")

Nascimentos na Carolina do Norte

Em 2004, o estado da Carolina do Norte, Estado Unidos, disponibilizou um grande conjunto de dados contendo informações sobre os nascimentos registrados no estado. Esse conjunto de dados é útil para pesquisadores que estudam a relação entre hábitos e práticas de gestantes e o nascimento de seus filhos. Nós trabalharemos com uma amostra aleatória das observações deste conjunto de dados.

Análise Exploratória

Carregue o conjunto de dados nc em seu espaço de trabalho.

load(url("https://passeioaleatorio.com/datalab/dados/nc.RData"))

Temos dados de 13 variáveis diferentes, algumas qualitativas e outras quantitativas. Cada variável representa uma das seguintes informações:

variável descrição
idade_pai idade do pai em anos.
idade_mae idade da mãe em anos.
maioridade status de maioridade da mãe.
semanas duração da gestação em semanas.
prem se o nascimento foi classificado como prematuro ou a termo.
visitas número de visitas hospitalares durante a gravidez.
est_civil se a mãe estava casada ou solteira no momento do nascimento.
peso_ganho peso ganho pela mãe durante a gravidez, em libras.
peso_bebe peso do bebê no nascimento, em libras.
peso_abaixo se o bebê foi classificado como tendo baixo peso ao nascer ou não.
genero gênero do bebê, feminino ou masculino.
habito status da mãe como fumante ou não fumante.
cor_mae se a mãe é branca ou não branca.
  1. Quais são os casos neste conjunto de dados? Há quantos casos em nossa amostra?

Lembre-se que você pode responder esta questão vendo os dados à partir do comando abaixo:

str(nc)

Enquanto você confere o sumário das variáveis, considere quais delas são qualitativas e quais são quantitativas. Para as variáveis quantitativas, há algum caso atípico, um outlier? Se você não tem certeza ou quer dar uma olhada mais aprofundada nos dados, crie um gráfico.

Considere a possibilidade de uma relação entre o hábito de fumar da mãe e o peso de seu bebê. Criar um gráfico com os dados é uma etapa útil porque nos ajuda a visualizar tendências rapidamente, identificar associações fortes, e elaborar questões de pesquisa.

  1. Crie uma sequência de boxplots das variáveis habito e peso_bebe. O que o gráfico revela sobre a relação entre essas duas variáveis?

Os boxplots permitem comparar as medianas das distribuições, mas podemos também comparar as médias das distribuições ao subdividir a variável peso_bebe entre os grupos definidos pela variável habito, e então calcular a média de cada um por meio da função mean. Para tal, basta usar o comando abaixo:

nc %>%
  group_by(habito) %>%
  summarise(media_peso_bebe = mean(peso_bebe))

Há uma diferença evidente, mas essa diferença é estatisticamente significante? Para responder a essa questão, vamos realizar um teste de hipótese.

Inferência

  1. Todas as condições necessárias para realizar a inferência são atendidas? Comente cada uma delas. Você pode calcular o tamanho dos grupos utilizando o mesmo comando by utilizado acima, mas substituindo a função mean pela função n().

  2. Escreva as hipóteses adequadas para testar se a média dos pesos dos bebês que nasceram de mães fumantes é diferente daqueles que nasceram de mães não fumantes.

Em seguida, utilizaremos uma nova função, inference, que será utilizada para realizar os testes de hipóteses e para construir os intervalos de confiança.

Primeiramente, carregue a função:

load(url("https://passeioaleatorio.com/datalab/dados/inference.RData"))

Agora, execute o comando abaixo:

inference(y = peso_bebe, x = habito, data = nc, statistic = "mean", type = "ht", null = 0, 
          alternative = "twosided", method = "theoretical")

Vamos fazer uma pequena pausa para analisar cada argumento desta função personalizada. O primeiro argumento é y, que é a variável resposta na qual estamos interessados: peso_bebe. O segundo argumento é a variável explicativa, x, que é a variável que divide os dados em dois grupos, fumantes e não fumantes: habito. O terceiro argumento, statistic, é o parâmetro no qual estamos interessados: neste laboratório usamos o comando referente à média, mean, mas em laboratórios futuros iremos trabalhar também com a mediana, median, e a proporção, proportion. Em seguida decidimos sobre o tipo (type) de inferência que queremos: um teste de hipótese ("ht") ou um intervalo de confiança ("ci"). Quando realizamos um teste de hipótese, também precisamos informar o valor nulo null, que neste caso é 0, já que a hipótese nula supõe que as duas médias populacionais são iguais uma a outra. A hipótese alternativa alternative pode ser "less" (menor), "greater" (maior), ou "twosided" (bilateral). Por fim, o método (method) de inferência pode ser "theoretical" (teórico) ou "simulation" (baseado em simulações).

  1. Mude o argumento type para "ci" de modo a construir e registrar um intervalo de confiança para a diferença entre os pesos dos bebês que nasceram de mães fumantes e não fumantes, e interprete este intervalo no contexto dos dados. Por padrão você irá obter um intervalo de confiança de 95%. Se você tiver interesse em mudar o nível de confiança, adicione o novo argumento (conf_level) que recebe um valor entre 0 e 1. Observe também que ao criar um intervalo de confiança, argumentos como null e alternative são inúteis, portanto não se esqueça de removê-los.

Por padrão, a função utilizada informa um intervalo para a diferença (\(\mu_{n\tilde{a}o \ fumante} - \mu_{fumante}\)). Podemos mudar facilmente essa ordem utilizando o argumento order (ordem):

inference(y = peso_bebe, x = habito, data = nc, statistic = "mean", type = "ci", 
          method = "theoretical", order = c("fumante","não fumante"))

Por sua conta

  • Calcule um intervalo de confiança de 95% para a duração média das gravidezes (semanas) e o interprete no contexto do conjunto de dados. Perceba que, uma vez que você está realizando uma inferência sobre um único parâmetro populacional, não há nenhuma variável explanatória, e portanto você pode omitir a variável x da função.

  • Calcule um novo intervalo de confiança para o mesmo parâmetro com nível de confiança de 90%. Você pode mudar o nível de confiança adicionando um novo argumento à função: conf_level = 0.90. Comente sobre a amplitude deste intervalo em relação ao obtido no exercício anterior.

  • Realize um teste de hipóteses para avaliar se a média do peso ganho pelas mães jovens é diferente da média do peso ganho pelas mães maduras.

  • Agora, uma tarefa não-inferencial: determine o ponto de corte da idade das mães jovens e maduras. Utilize um método da sua escolha, e explique como seu método funciona.

  • Escolha um par de variáveis, sendo uma quantitativa e outra qualitativa, e desenvolva uma pergunta de pesquisa para avaliar a relação entre essas variáveis. Formule a questão de maneira que ela possa ser respondida utilizando um teste de hipótese e/ou um intervalo de confiança. Responda a sua questão utilizando a função inference, informe os resultados estatísticos, e também elabore uma explicação em linguagem simples. Não se esqueça de checar todas as hipóteses, estabelecer seu nível de confiança, e concluir dentro do contexto.

Este é um produto da OpenIntro que é liberado sob uma Creative Commons Attribution-ShareAlike 3.0 Unported. Este laboratório foi adaptado para a OpenIntro por Mine Çetinkaya-Rundel de um laboratório escrito pela faculdade de estatística da UCLA e seus TA’s, e readaptado por Jhames Sampaio ao curso de Probabilidade e Estatística da Universidade de Brasília à partir de uma primeira tradução de Erikson Kaszubowski da Universidade Federal de Santa Catarina