Seu relatório: Antes de começarmos, lembre-se de abrir seu documento R Markdown: lab10
. Não se esqueça, também, que você deve incluir todos os códigos, gráficos e respostas às perguntas em seu relatório.
download.file("https://passeioaleatorio.com/datalab/labs/rmd/lab10.Rmd", destfile = "lab10.Rmd")
Muitos cursos universitários finalizam suas atividades dando aos alunos a oportunidade de avaliar o curso e o instrutor anonimamente. No entanto, a utilização destas avaliações dos estudantes como um indicador da qualidade do curso e da eficácia do ensino é frequentemente criticada porque essas medidas podem refletir a influência de características não relacionadas ao ensino, tais como a aparência física do instrutor. O artigo intitulado “Beauty in the classroom: instructors’ pulchritude and putative pedagogical productivity” (Hamermesh and Parker 2005) descobriu que os instrutores que são vistos como possuidores de uma melhor aparência recebem maiores classificações de instrução.
Neste laboratório, vamos analisar os dados deste estudo, a fim de saber o que se passa em uma avaliação positiva de um professor.
Os dados foram coletados a partir das avaliações de fim de semestre pelos alunos da Universidade do Texas em Austin para uma grande amostra de professores. Além disso, seis estudantes avaliaram a aparência física dos professores. (Esta é uma versão ligeiramente modificada do conjunto de dados original que foi lançado como parte da replicação de dados para Data Analysis Using Regression and Multilevel/Hierarchical Models (Gelman and Hill 2007)). O resultado é um conjunto de dados, onde cada linha contém um curso diferente e as colunas representam variáveis sobre os cursos e professores.
Vamos carregar os dados:
load(url("https://passeioaleatorio.com/datalab/dados/aval.RData"))
variável | descrição |
---|---|
score |
pontuação média da avaliação do professor: (1) muito insatisfatória - (5) excelente. |
rank |
posição do professor: teaching (dedicado ao ensino), tenure track (em estágio probatório), tenured (já aprovado no estágio probatório). |
etnia |
etnia of professor: minoria, não minoria. |
genero |
gênero do professor: feminino, masculino. |
lingua |
língua da escola onde o professor recebeu sua formação: inglês ou outra. |
idade |
idade do professor. |
cls_perc_aval |
percentual dos estudantes da classe que completaram a avaliação. |
cls_num_aval |
número de estudantes da classe que completaram a avaliação. |
cls_estud |
número total de estudantes na classe. |
cls_nivel |
nível de classe: inferior, superior. |
cls_profs |
número de disciplinas em andamento do professor na amostra: uma, mais de uma. |
cls_creditos |
número de créditos da classe: um (um crédito), multi (mais de um crédito). |
blz_f1inf |
classificação da beleza do professor por uma aluna do nível inferior: (1) mais baixo - (10) mais alto. |
blz_f1sup |
classificação da beleza do professor por uma aluna do nível superior: (1) mais baixo - (10) mais alto. |
blz_f2sup |
classificação da beleza do professor por uma segunda aluna do nível superior: (1) mais baixo - (10) mais alto. |
blz_m1inf |
classificação da beleza do professor por um aluno do nível inferior: (1) mais baixo - (10) mais alto. |
blz_m1sup |
classificação da beleza do professor por um aluno do nível superior: (1) mais baixo - (10) mais alto. |
blz_m2sup |
classificação da beleza do professor por um segundo aluno do nível superior: (1) mais baixo - (10) mais alto. |
blz_med |
classificação média da beleza do professor. |
foto_roupa |
roupa do professor na foto: formal, não formal. |
foto_cor |
cor da foto do professor: colorida, preto e branco. |
Este é um estudo observacional ou um experimento? A questão original da pesquisa é se a beleza afeta diretamente diferenças nas avaliações do curso. Dado o arcabouço do estudo, é possível responder a esta questão da maneira como foi formulada? Se não, reformule a pergunta.
Descreva a distribuição da variável score
. Esta distribuição é assimétrica? O que isso lhe diz sobre como os alunos classificam os cursos? É isso que você espera observar? Por que, ou por que não?
Excluindo a variável score
, selecione outras duas variáveis e descreva a relação de uma com a outra utilizando uma visualização apropriada.
O fenômeno fundamental sugerido pelo estudo é que professores com melhor aparência são avaliados de forma mais favorável. Vamos criar um gráfico de dispersão para ver se isso parece ser o caso:
qplot(data = aval, x = blz_med, y = score)
Antes de tirar conclusões sobre a tendência, compare o número de observações no conjunto de dados com o número aproximado de pontos no gráfico de dispersão. Há algo estranho?
geom = "jitter"
. Qual foi o equívoco em relação ao primeiro gráfico?qplot(data = aval, x = blz_med, y = score, geom = "jitter")
m_blz
para prever a pontuação média do professor em função da classificação média de sua beleza. Escreva a equação para o modelo linear e interprete a inclinação. A classificação média da beleza do professor é um preditor estatisticamente significativo? Ela aparenta ser um preditor significativo prático?Adicione a reta do modelo o seu gráfico por meio da seguinte linha de comando:
qplot(data = aval, x = blz_med, y = score, geom = "jitter") +
geom_smooth(method = "lm")
A linha azul representa o modelo. A área cinzenta sombreada em torno da linha nos diz sobre a variabilidade que poderíamos esperar em nossas previsões. Para retirar a área sombrada, basta utilizar se = FALSE
.
qplot(data = aval, x = blz_med, y = score, geom = "jitter") +
geom_smooth(method = "lm", se = FALSE)
O conjunto de dados contém diversas variáveis sobre a pontuação da beleza do professor: avaliações individuais de cada um dos seis estudantes que foram convidados a avaliar a aparência física dos professores e a média destas seis pontuações. Vamos dar uma olhada na relação entre uma destas pontuações e a média da pontuação de beleza.
qplot(data = aval, x = blz_f1inf, y = blz_med)
aval %>%
summarise(cor(blz_med, blz_f1inf))
Como esperado, a relação é bastante forte - afinal, a pontuação média é calculada utilizando as notas individuais. Nós podemos inclusive dar uma olhada nas relações entre todas as variáveis da beleza (colunas 13 a 19) usando o seguinte comando:
ggpairs(aval, columns = 13:19)
Estas variáveis são colineares (correlacionadas), e a adição de mais do que uma dessas variáveis ao modelo não acrescentaria muito valor para o modelo. Nessa aplicação, e com estes preditores altamente correlacionados, é razoável utilizar a pontuação média da beleza como o único representante dentre essas variáveis.
A fim de observar se a beleza ainda é um preditor significativo da pontuação de um professor levando em consideração o sexo do professor, podemos adicionar a variável sexo ao modelo.
m_blz_gen <- lm(score ~ blz_med + genero, data = aval)
summary(m_blz_gen)
p-valores e estimativas dos parâmetros só devem ser confiáveis se as condições para a regressão forem razoáveis. Verifique se as condições para este modelo são razoáveis usando gráficos de diagnóstico.
A variável blz_med
permanece um preditor significativo da variável score
? A adição da variável genero
ao modelo mudou a estimativa de parâmetro para blz_med
?
Note que a estimativa para genero
agora é chamada de generomasculino
. Você verá essa mudança de nome sempre sempre que introduzir uma variável categórica. A razão para isso é que o software R recodifica a variável genero
, que antes possuia as categorias feminino
e masculino
, para uma variável indicadora chamada generomasculino
que atribui o valor \(0\) para mulheres e o valor de \(1\) para os homens. (Tais variáveis são muitas vezes referidas como “fictícias” ou, no inglês, “dummy”.)
Como resultado, para o sexo feminino, a estimativa do parâmetro é multiplicada por zero, deixando o intercepto e a inclinação familiares aos de uma regressão simples.
\[ \begin{aligned} \widehat{score} &= \hat{\beta}_0 + \hat{\beta}_1 \times blz\_med + \hat{\beta}_2 \times (0) \\ &= \hat{\beta}_0 + \hat{\beta}_1 \times blz\_med\end{aligned} \]
A decisão de nomear a variável indicadora como generomasculino
ao invés de generofeminino
não possui um significado mais profundo. O software R simplesmente recodifica a categoria que vem em primeiro lugar alfabeticamente como um \(0\). (Você pode mudar o nível de referência de uma variácel categórica, que é o nível que está codificado como um 0, usando a função relevel
. (Use ?relevel
para saber mais.)
m_blz_rank
removendo a variável genero
e adicionando a variável rank
. Como o R parece lidar com variáveis categóricas que possuem mais de dois níveis? Note que a variável rank
possui três níveis: teaching
, tenure track
e tenured
.A interpretação dos coeficientes em regressão múltipla é ligeiramente diferente que o caso de uma regressão simples. A estimativa para blz_med
reflete o acréscimo esperado na pontuação de um grupo de professores se eles obtiveram um ponto a mais na sua classificação de beleza mantendo todas as outras variáveis constantes. Neste caso, considera-se apenas os professores na mesma categoria da variável rank
com classificação blz_med
que estão um ponto distantes.
Vamos começar com um modelo completo que prevê a pontuação do professor com base na posição, etnia, genero, língua da escola onde o professor recebeu sua formação, idade, proporção de alunos que preencheram as avaliações, o tamanho da classe, nível do curso, número de professores, número de créditos, classificação média da beleza, roupa e cor da fotografia.
Vamos executar o modelo …
m_comp <- lm(score ~ rank + etnia + genero + lingua + idade + cls_perc_aval
+ cls_estud + cls_nivel + cls_profs + cls_creditos + blz_med
+ foto_roupa + foto_cor, data = aval)
summary(m_comp)
Verifique as suas suspeitas em relação ao exercício anterior. Inclua a saída do modelo na sua resposta.
Interprete o coeficiente associado à variável etnia.
Elimine a variável com maior p-valor e reajuste o modelo. Os coeficientes e significâncias das outras variáveis explicativas mudaram? (Uma das coisas que torna a regressão múltipla interessante é que as estimativas dos coeficientes do modelo dependem das outras variáveis que estão incluídas no modelo.) Se não, o que isso diz sobre o fato da variável eliminada ser ou não colinear com as outras variáveis explicativas?
Usando retro-seleção e os p-valores como o critério de seleção, determine o melhor modelo. Você não precisa mostrar todos os passos na sua resposta, apenas a saída para o modelo final. Além disso, escreva o modelo linear para a predição da pontuação baseado no modelo final que você escolheu.
Verifique se as condições para este modelo são razoáveis usando gráficos diagnóstico.
O artigo original descreve como esses dados foram obtidos tomando uma amostra de professores da Universidade do Texas em Austin e incluindo todos os cursos por eles ministrados. Considerando que cada linha representa um curso, esta nova informação poderia causar impacto em qualquer uma das condições da regressão linear?
Com base no seu modelo final, descreva as características de um professor e curso da Universidade do Texas em Austin que estariam associadas com uma alta pontuação.
Você se sente confortável em generalizar suas conclusões a professores em geral (em qualquer universidade)? Por que ou por que não?
Este é um produto da OpenIntro que é liberado sob uma Creative Commons Attribution-ShareAlike 3.0 Unported. Este laboratório foi traduzido por Jhames Sampaio e adaptado ao curso de Probabilidade e Estatística da Universidade de Brasília a partir de um laboratório escrito por Andrew Bray e Mine Çetinkaya-Rundel da Duke University para a OpenIntro.
Gelman, Andrew, and Jennifer Hill. 2007. Data Analysis Using Regression and Multilevel/Hierarchical Models. 1st ed. Cambridge University Press.
Hamermesh, Daniel S., and Amy Parker. 2005. “Beauty in the Classroom - Instructors’ Pulchritude and Putative Pedagogical Productivity” 24 (4). Economics of Education Review: 369–76. doi:10.1016/j.econedurev.2004.07.013.