Seu relatório: Antes de começarmos, lembre-se de abrir seu documento R Markdown: lab8. Não se esqueça, também, que você deve incluir todos os códigos, gráficos e respostas às perguntas em seu relatório.

download.file("https://passeioaleatorio.com/datalab/labs/rmd/lab8.Rmd", destfile = "lab8.Rmd")

Salários americanos

Neste laboratório, nós iremos trabalhar com com uma amostra aleatória de 2000 observações do ACS (American Community Survey, ou Pesquisa da Comnidade Americana) 2012. Este conjunto de dados contém informações sobre a força de trabalho e os salários americanos. Você deve carregar esse banco de dados à partir do comando abaixo.

load(url("https://passeioaleatorio.com/datalab/dados/acs.RData"))

Temos dados de 13 variáveis diferentes, algumas qualitativas e outras quantitativas. Cada variável representa uma das seguintes informações:

variável descrição
renda renda anual (salários e vencimentos).
trab regime de trabalho: empregado, desempregado ou fora da força de trabalho (fora).
horas_trab horas semanais trabalhadas.
raca raça do entrevistado: branco, negro, asiático ou outro.
idade idade do entrevistado.
genero gênero do entrevistado: masculino ou feminino.
cidadao se o entrevistado é um cidadão dos EUA ou não.
tempo_trab tempo de viagem para chegar ao trabalho.
idioma língua falada em casa: inglês ou outro.
est_civil se o entrevistado é casado ou não.
edu nível de escolaridade: médio ou inferior (médio ou menos), graduação ou pós graduação.
nec_esp se o entrevistado tem ou não necessidades especiais.
nasc_qtr quarto do ano em que o entrevistado nasceu: janeiro a março, abril a junho, julho a setembro, ou outubro a dezembro.

Note que este conjunto de dados contém algumas pessoas que não estão na força de trabalho ou estão desempregadas. Primeiramente, vamos filtrar os entrevistados que estão empregados. Vamos chamar este banco de dados como acs_emp.

acs_emp <- acs %>%
  filter(trab == "empregado")
  1. Qual o percentual de empregados na amostra original (acs)?

Agora, vamos dar um olhada na distribuição da renda de acordo com o gênero. O primeiro passo é criar uma visualização:

qplot(y = renda, x = genero, data = acs_emp, geom = "boxplot")

Podemos também obter algumas estatísticas descritivas como a média, desvio padrão e tamanho das amostras.

acs_emp %>%
  group_by(genero) %>%
  summarise(media = mean(renda), dp = sd(renda), n = n())
  1. À primeira vista, como os rendimentos médios de homens e mulheres se comparam? Certifique-se de incluir a visualização e as estatísticas descritivas em sua resposta, e discuta/interprete-os.

Antes de prosseguir, certifique-se de carregar a função inference.

load(url("https://passeioaleatorio.com/datalab/dados/inference.RData"))
  1. Construa um intervalo de confiança de 95% para a diferença entre os rendimentos médios dos homens e mulheres usando a função inference, e interprete este intervalo.

  2. Com base neste intervalo, há uma diferença estatisticamente significativa entre os rendimentos médios de homens e mulheres? Justifique sua resposta.

  3. Qual é o nível de significância para o teste de hipóteses equivalente ao intervalo de confiança construído que avalia se existe uma diferença significativa entre os rendimentos médios de homens e mulheres?

  4. Realize este teste de hipóteses utilizando a função inference, e interprete seus resultados no contexto dos dados e da questão de pesquisa. Seus resultados do intervalo de confiança e do teste de hipóteses concordam?

Variáveis de confusão

Há uma clara diferença entre os salários médios dos homens e das mulheres, mas poderia alguma, ou a totalidade, desta diferença ser atribuída a alguma outra variável que não seja o gênero? Nós chamamos tais variáveis como variáveis de confusão. Vamos avaliar se a variável horas_trab confunde a relação entre gênero e renda. Mas antes de fazermos isso, vamos primeiro converter a variável horas_trab a uma variável qualitativa (com níveis de "integral" e "parcial") para que possamos usar os métodos que aprendemos até agora na execução da análise.

Convertendo variáveis

Queremos criar uma nova variável, digamos emp_tipo, com níveis de "integral" ou "parcial" relacionados ao fato do empregado trabalhar 40 horas ou mais por semana ou menos do que 40 horas, respectivamente. Lembre-se que nós podemos adicionar uma nova variável ao conjunto de dados por meio da função mutate.

acs_emp <- acs_emp %>%
  mutate(emp_tipo = ifelse(horas_trab >= 40, "integral", "parcial"))

A função ifelse () tem três argumentos: um teste lógico, retorna valores TRUE para os elementos verdadeiros do teste, e valores FALSE para elementos falsos do teste. Neste caso, emp_tipo será codificado como "integral" para observações onde horas_trab é maior ou igual a 40, e "parcial" para o caso contrário.

Para descobrir a proporção de cada caso, nós retornamos às estatísticas descritivas:

acs_emp %>%
  group_by(emp_tipo) %>%
  summarise(prop_tempo = n()/nrow(acs_emp))

Aqui, primeiramente, nós agrupamos os dados pela nova variável emp_tipo, e então calculamos as proporções de trabalhadores a tempo integral e parcial ao contar quantos elementos existem em cada grupo (n()), e em seguida dividir esse número pelo número total de linhas do conjunto de dados.

  1. Contrua um gráfico de barras da distribuição da variável emp_tipo, e também inclua as estatísticas descritivas que você calculou acima em sua resposta. Qual o percentual da amostra representa os trabalhadores em tempo integral e tempo parcial?

  2. As mulheres são mais fortemente representadas entre os trabalhadores a tempo integral ou a tempo parcial? Responda a esta pergunta usando estatísticas descritivas (código fornecido abaixo) e uma visualização.

acs_emp %>%
  group_by(emp_tipo, genero) %>%
  summarise(n())

Por sua conta

  • Crie dois subconjuntos do conjunto de dados acs_emp: um para trabalhadores a tempo integral e um outro para os trabalhadores a tempo parcial. Nenhuma interpretação é necessária para esta questão, apenas o código é suficiente.

  • Use um teste de hipóteses para avaliar se existe diferença na renda média dos trabalhados masculinos e femininos que trabalham em tempo integral. Se a diferença for significativa, inclua um intervalo de confiança (equivalente ao nível de significância do teste) estimando a magnitude da diferença na renda média.

  • Use um teste de hipóteses para avaliar se existe diferença na renda média dos trabalhados masculinos e femininos que trabalham em tempo parical. Se a diferença for significativa, inclua um intervalo de confiança (equivalente ao nível de significância do teste) estimando a magnitude da diferença na renda média.

  • O que os resultados do seu teste de hipóteses sugerem sobre as horas trabalhadas (em tempo integral ou parcial) constituirem ou não uma variável de confusão na relação entre gênero e renda?

  • Que tipo de teste deveríamos utilizar para compararmos os salários médios em torno dos vários grupos de raça/etnia neste conjunto de dados? Explique seu raciocínio.

  • Realize este teste de hipóteses utilizando a função inference. Note que a variável resposta é a renda e a variável explicativa é raca. Você terá que descobrir os argumentos restantes para a função. Use uma abordagem de tentativa e erro, e deixe que os erros o informe sobre o que mais precisa ser especificado, e como. (Nota: Utilize o conjunto de dados que contém os registros de todos os funcionários participantes: nomeie acs_map) Escreva suas hipóteses, e interprete a sua conclusão no contexto dos dados e da questão de pesquisa. Note que a função inference, por padrão, usa um nível de significância de 0,05 para a ANOVA, serão executados pares de testes t e p-valores serão reportados para eles, se a ANOVA for significativa. (Note também que você pode mudar o nível de significância definindo sig_level igual a algum outro valor.)

  • Escolha outra variável numérica à partir do conjunto de dados para ser a variável resposta, e também escolha uma variável explicativa qualitativa (pode ser uma que usamos antes). Realize o teste de hipóteses apropriado, utilizando a função inference, para comparar as médias da variável resposta entre os diferentes casos da variável explicativa. Certifique-se de indicar a sua questão de pesquisa, e interpretar a sua conclusão no contexto do conjunto de dados. Note que você pode usar o banco de dados completo acs, ou qualquer outro subconjunto que você selecionar.

Este é um produto da OpenIntro que é liberado sob uma Creative Commons Attribution-ShareAlike 3.0 Unported. Este laboratório foi traduzido por Jhames Sampaio e adaptado ao curso de Probabilidade e Estatística da Universidade de Brasília à partir de um laboratório escrito por Mine Çetinkaya-Rundel da Duke University para a OpenIntro.