Dados categóricos Titanic Tabelas com duas variáveis



Titanic

1. Objetivos pedagógicos dessas atividades

2. Inspiração + dados

Usaremos o banco de dados do Titanic.

3. Pacotes necessários

Vamos usar três pacotes do R: forcats,ggpubr, e ggplot2.

library(forcats)
library(ggplot2)
library(ggpubr)

4. Carregar os dados

Esses são os dados de um periódico de educação estatística. Eles já estão prontos para análise estatística. Todavia, posso dizer por experiência que os dados precisam ser verificados todas as vezes que não sair de um livro didático.

Use este pedaço de código para ler o banco de dados disponível em https://github.com/DATAUNIRIO/Base_de_dados

load(url("https://github.com/DATAUNIRIO/Base_de_dados/raw/master/Titanic.RData"))
ls()
[1] "Titanic"

O banco de dados se chama Titanic.RData e está armazenado no repositório de bases de dados do curso de estatística. Você pode usar esse código se quiser ler o arquivo RData local.

load("C:/SEU DIRETÓRIO ATÉ O ARQUIVO/Titanic.RData")



5. Variáveis

6. Conheça os seus dados

Tente responder a todas essas perguntas.

  1. Quantas pessoas tinha no Titanic? Quantas informações (variáveis) existem no banco de dados?
  2. Quantas pessoas sobreviveram ao Titanic?
  3. Qual é a proporção de pessoas que sobreviveram ao Titanic?


7 Análises descritivas dos dados

  1. Quantas mulheres sobreviveram?
  2. Quantas crianças sobreviveram?
  3. Quantas pessoas da terceira classe sobreviveram?
  4. Qual o percentual de mulheres que sobreviveu?
  5. Qual o percentual de crianças que sobreviveu?
  6. Qual o percentual da terceira classe que sobreviveu?

8 Se você quiser mais:

  1. Que tipo de gráfico você pode utilizar nesse tipo de dado? Por quê?
  2. Você poderia construir um gráfico para a variável “sobreviveu”?
  3. Você poderia construir um gráfico da variável “sobreviveu” por “sexo”?

9. Um último desafio: fazer uma nova visualização de dados :

Vamos tentar criar uma nova visualização de dados. Para isso, vamos gerar dois gráficos: 1 - o balloonplot e o 2 - mosaicplot.

tabela<-table(Titanic$Classe,Titanic$Sobreviveu)
tabela<-data.frame(tabela)
ggballoonplot(tabela, fill = "value")+
ggtitle("Sobreviventes do Titanic") 

Esse primeiro gráfico é chamado de balloonplot. Agora vamos fazer o mosaicplot.

mosaicplot(table(Titanic$Classe,Titanic$Sobreviveu), main = "Sobreviventes do Titanic", color = c("red","blue"))

  1. Você poderia construir uma outra visualização de dados (além dessas duas)? Qual gráfico você sugere?
  2. Você consegue interpretar esses dois gráficos? o que eles estão dizendo?
  3. Se você fosse fazer um Pitch (apresentação de 03 a 05 minutos) com recomendações sobre o Titanic a partir dos dados. Qual ideia você passaria? Quero um posicionamento!

Referências