Conheça os seus dados
Usaremos o banco de dados do Museu de Arte Moderna (MoMA).
Vamos usar quatro pacotes do R: readr,dplyr, ggplot2, e ggthemes.
library(dplyr)
library(ggplot2)
Esses não são os dados originais. A Alison Hill fez um pré-processamento e limpeza de dados. O banco abaixo contém apenas pinturas e desenhos da coleção MoMA.
Use este pedaço de código para ler o banco de dados disponível em https://github.com/DATAUNIRIO/Base_de_dados
library(readr)
Banco_Moma <- read_delim("https://raw.githubusercontent.com/DATAUNIRIO/Base_de_dados/master/arte_MOMA.csv", delim = ";")
O banco de dados se chama arte_MOMA.csv e está armazenado no repositório de bases de dados do curso de estatística. Você pode usar esse código se quiser ler o arquivo CSV local.
library(readr)
Banco_Moma <- read_delim("SEU DIRETÓRIO ATÉ O ARQUIVO/arte_MOMA.csv", delim = ";")
Tente responder a todas essas perguntas. (opcional: tente responder todas perguntas usando somente o pacote dplyr).
Quantas pinturas existem no MoMA? Quantas variáveis existem no banco de dados?
Qual é a pintura mais antiga da coleção? Qual ano? Qual artista? Qual título?
Vamos tentar recriar o diagrama de dispersão do fivethirtyeight chamado MoMA Paintings, Tall and Wide?
Para recriar, algumas coisas a considerar:
moma_dim <- Banco_Moma %>%
filter(height_cm < 600, width_cm < 760) %>%
mutate(hw_ratio = height_cm / width_cm,
hw_cat = case_when(
hw_ratio > 1 ~ "mais alto que largo",
hw_ratio < 1 ~ "mais largo que alto",
hw_ratio == 1 ~ "quadrado perfeito"
))
library(ggthemes)
ggplot(moma_dim, aes(x = width_cm, y = height_cm, colour = hw_cat)) +
geom_point(alpha = .5) +
ggtitle("Pinturas do MoMA, altas e largas") +
scale_colour_manual(name = "",
values = c("gray50", "#FF9900", "#B14CF0")) +
theme_fivethirtyeight() +
theme(axis.title = element_text()) +
labs(x = "Largura", y = "Altura")