Conheça os seus dados



MoMA

1. Objetivos pedagógicos dessas atividades

2. Inspiração + dados

Usaremos o banco de dados do Museu de Arte Moderna (MoMA).

3. Pacotes necessários

Vamos usar quatro pacotes do R: readr,dplyr, ggplot2, e ggthemes.

library(dplyr)
library(ggplot2)

4. Carregar os dados

Esses não são os dados originais. A Alison Hill fez um pré-processamento e limpeza de dados. O banco abaixo contém apenas pinturas e desenhos da coleção MoMA.

Use este pedaço de código para ler o banco de dados disponível em https://github.com/DATAUNIRIO/Base_de_dados

library(readr)
Banco_Moma <- read_delim("https://raw.githubusercontent.com/DATAUNIRIO/Base_de_dados/master/arte_MOMA.csv", delim = ";")

O banco de dados se chama arte_MOMA.csv e está armazenado no repositório de bases de dados do curso de estatística. Você pode usar esse código se quiser ler o arquivo CSV local.

library(readr)
Banco_Moma <- read_delim("SEU DIRETÓRIO ATÉ O ARQUIVO/arte_MOMA.csv", delim = ";")



5. Conheça os seus dados

Tente responder a todas essas perguntas. (opcional: tente responder todas perguntas usando somente o pacote dplyr).

  1. Quantas pinturas existem no MoMA? Quantas variáveis existem no banco de dados?

  2. Qual é a primeira pintura adquirida pelo MoMA? Qual ano? Qual artista? Qual título?
  3. Qual é a pintura mais antiga da coleção? Qual ano? Qual artista? Qual título?


6 Análises descritivas dos dados

  1. Quantos artistas distintos existem?
  2. Qual artista tem mais pinturas na coleção?
  3. Quantas pinturas existem por este artista?
  4. Quantas pinturas de artistas masculinos e femininos?

7 Se você quiser mais:

  1. Quantos artistas de cada gênero existem?
  2. Em que ano foram adquiridas mais pinturas?
  3. Em que ano foram Criada mais pinturas?
  4. Em que ano foi adquirida a primeira pintura de uma artista feminina (solo)? Quando essa pintura foi criada? Qual artista? Qual título?

8. Mais um desafio:

  1. Qual o artista ficou mais tempo vivo?
  2. Qual a idade média de um artista?
  3. Artistas homens vivem mais do que as mulheres?

9. Um último desafio: recriar o gráfico do fivethirtyeight :

Vamos tentar recriar o diagrama de dispersão do fivethirtyeight chamado MoMA Paintings, Tall and Wide?

Para recriar, algumas coisas a considerar:

moma_dim <- Banco_Moma %>% 
  filter(height_cm < 600, width_cm < 760) %>% 
  mutate(hw_ratio = height_cm / width_cm,
         hw_cat = case_when(
           hw_ratio > 1 ~ "mais alto que largo",
           hw_ratio < 1 ~ "mais largo que alto",
           hw_ratio == 1 ~ "quadrado perfeito"
         ))
library(ggthemes)
ggplot(moma_dim, aes(x = width_cm, y = height_cm, colour = hw_cat)) +
  geom_point(alpha = .5) +
  ggtitle("Pinturas do MoMA, altas e largas") +
  scale_colour_manual(name = "",
                      values = c("gray50", "#FF9900", "#B14CF0")) +
  theme_fivethirtyeight() +
  theme(axis.title = element_text()) +
  labs(x = "Largura", y = "Altura")