Os dados surgiram do workshop STATS “Statistical Thinking And Teaching Statistics”
Foi analisado por Dawson (1995), Simonoff (1997), e por outros.
3. Pacotes necessários
Vamos usar três pacotes do R: forcats,ggpubr, e ggplot2.
library(forcats)library(ggplot2)library(ggpubr)
4. Carregar os dados
Esses são os dados de um periódico de educação estatística. Eles já estão prontos para análise estatística. Todavia, posso dizer por experiência que os dados precisam ser verificados todas as vezes que não sair de um livro didático.
O banco de dados se chama Titanic.RData e está armazenado no repositório de bases de dados do curso de estatística. Você pode usar esse código se quiser ler o arquivo RData local.
load("C:/SEU DIRETÓRIO ATÉ O ARQUIVO/Titanic.RData")
5. Variáveis
Classe (tripulação, primeira, segunda, terceira)
Idade (adulto, criança)
Sexo (masculino, feminino)
Sobreviveu (sim, não)
6. Conheça os seus dados
Tente responder a todas essas perguntas.
Quantas pessoas tinha no Titanic? Quantas informações (variáveis) existem no banco de dados?
Quantas pessoas sobreviveram ao Titanic?
Qual é a proporção de pessoas que sobreviveram ao Titanic?
7 Análises descritivas dos dados
Quantas mulheres sobreviveram?
Quantas crianças sobreviveram?
Quantas pessoas da terceira classe sobreviveram?
Qual o percentual de mulheres que sobreviveu?
Qual o percentual de crianças que sobreviveu?
Qual o percentual da terceira classe que sobreviveu?
8 Se você quiser mais:
Que tipo de gráfico você pode utilizar nesse tipo de dado? Por quê?
Você poderia construir um gráfico para a variável “sobreviveu”?
Você poderia construir um gráfico da variável “sobreviveu” por “sexo”?
9. Um último desafio: fazer uma nova visualização de dados :
Vamos tentar criar uma nova visualização de dados. Para isso, vamos gerar dois gráficos: 1 - o balloonplot e o 2 - mosaicplot.
tabela<-table(Titanic$Classe,Titanic$Sobreviveu)tabela<-data.frame(tabela)ggballoonplot(tabela, fill ="value")+ggtitle("Sobreviventes do Titanic")
Esse primeiro gráfico é chamado de balloonplot. Agora vamos fazer o mosaicplot.
mosaicplot(table(Titanic$Classe,Titanic$Sobreviveu), main ="Sobreviventes do Titanic", color =c("red","blue"))
Você poderia construir uma outra visualização de dados (além dessas duas)? Qual gráfico você sugere?
Você consegue interpretar esses dois gráficos? o que eles estão dizendo?
Se você fosse fazer um Pitch (apresentação de 03 a 05 minutos) com recomendações sobre o Titanic a partir dos dados. Qual ideia você passaria? Quero um posicionamento!
Referências
Dawson, Robert J. MacG. “The “unusual episode” data revisited." Journal of Statistics Education 3.3 (1995).
Simonoff, Jeffrey S. “The “Unusual Episode” and a second statistics course." Journal of Statistics Education 5.1 (1997).