Revisar os conceitos de análise bi-variada aprendidas na última aula.
Praticar a utilização de base de dados para extrair informações e conhecer melhor os dados.
Gerar gráficos para duas variáveis quantitativas.
2. Inspiração + dados
Usaremos o banco de dados no formato excel turma_ensino_medio.xls sobre a nota na última prova de alunos(as) do Ensino Médio.
3. Pacotes necessários
Nessas atividades, vamos usar três pacotes do R: ggplot2 e corrplot para visualização de dados e readr para carregar a base de dados para o
library(ggplot2)library(corrplot)library(readr)
4. Carregar os dados
Esses são os dados da turma_ensino_medio.xls e estão armazenados no repositório de bases de dados do curso de estatística. Você pode usar esse código se quiser ler o arquivo local.
Os professores João e José estão debatendo o aprendizado dos alunos.
O prof. João acredita que acredita que o aluno bom em português é ruim em matemática. Também acredita que o aluno bom em mátemática é péssimo em Português.
Já o professor José acredita que um bom aluno recebe boas notas independente da matéria. Se ele for bom em mátemática, provavelmente será bom em português também.
Os dois professores montarm juntaram um banco de dados para fazer uma verificação empírica das suas hipóteses e pediram a sua ajuda. O seu desafio é responder quem está certo João ou José.
7. Conheça os seus dados
Tente responder a todas essas perguntas.
Qual é a nota média em matemática e em português?
Qual é o desvio padrão em matemática? qual é o desvio padrão em português? O que isso significa?
O banco de dados tem algum outlier nessas duas variáveis?
Qual ferramenta estatística (fórmula) você deve utilizar para responder o impasse entre o João e o José? Por que você está usando essa ferramenta?
8. Análises descritivas dos dados
Quem está certo? qual a correlação de pearson entre as notas?
Faça um diagrama de dispersão entre as duas notas. interprete-o.
Existe algum impacto do número de faltas na nota em matemática ou na nota em português?
9. Se você quiser mais:
Muitos acreditam que os homens têm uma afinidade maior com a matemática e as mulheres com o português. Você pode confirmar, a partir dos dados, se essa crença é verdadeira ou não?
Como poderíamos mensurar a correlação entre as duas notas controlando o efeito da variável “número de faltas”?
10. Um último desafio: fazer uma nova visualização de dados :
Vamos tentar criar uma nova visualização de dados. Um diagrama de dispersão com duas variáveis quantitativas e uma qualitativa.
Agora vamos criar uma outra visualização de dados: uma matriz de correlação colorida.
M <-cor(turma[,c("Idade","Nota_Port","Nota_Mat","Num_Faltas")])corrplot(M, method="circle")
corrplot.mixed(M)
O que podemos dizer a partir das visualizações acima?
Você poderia construir uma outra visualização de dados (além dessas três)? Qual outro gráfico você sugere?
Se você fosse fazer um Pitch (apresentação de 03 a 05 minutos) com recomendações para o João e José a partir dos dados. Qual ideia que você defenderia ? Quero um posicionamento!