Conheça os seus dados
Em uma grande empresa foi executada uma pesquisa para estudar os salários do pessoal trabalhando na área de computação. O objetivo da pesquisa era identificar e quantificar os fatores que determinam os diferenciais de salário.
Usaremos o banco de dados da Gujarati empresa de tecnologia. O significado de cada variável é detalhado a seguir:
Variável | Detalhamento |
Exp | Experiência (em anos) |
Educ | Educação com os níveis 1= ensino médio completo, 2 = graduação completa, e 3 = algum título de pós-graduação. |
Posg | Pós Graduação: vale 1 (um) se tem algum título de pós-graduação e 0 (zero caso contrário) |
Adm | É codificada como sendo 1 (um) para as pessoas exercendo cargos administrativos e 0 (zero) caso contrário |
Salario | Salário mensal |
Vamos usar quatro pacotes do R: readxl, dplyr, ggplot2, e ggthemes.
library(dplyr)
library(ggplot2)
Use esse código para ler o banco de dados disponível em https://github.com/DATAUNIRIO/Base_de_dados
O banco de dados se chama gujarati_empresa_tecnologia.xlsx e está armazenado no repositório de bases de dados do curso de estatística. Você pode usar esse código se quiser ler o arquivo xlsx local.
library(readxl)
<- read_excel("SEU DIRETÓRIO ATÉ O ARQUIVO/gujarati_empresa_tecnologia.xlsx")
gujarati as variáveis consideradas foram
Tente responder a todas essas perguntas. (opcional: tente responder todas perguntas usando somente o pacote dplyr).
Nova classificação:
UNIV = “ensino médio” (se Educ=1)
UNIV = “ensino superior” (se Educ=2 ou Educ=3)
Não é obrigatório, mas para fazer a análise para responder a pergunta acima, será necessário criar uma nova variável. Essa variável deverá ser a combinação da EDUC com ADM (exemplo: qual o salário médio de uma pessoa com ensino superior e cargo administrativo?).
Quantas pessoas estão em cada categoria dessa nova variável faixas de experiência ?
Qual o salário médio, mediano e o desvio-padrão de cada categoria dessa nova variável faixas de experiência?
Existe algum efeito no salário da interação da (faixa de) experiência com a educação?
Existe alguma forma de avaliar o impacto simultâneo das variáveis experiência, educação e cargo administrativo no salário?
Você conseguria refazer e interpretar um dos gráficos abaixo?
DICA: o primeiro gráfico foi feito com a função plot() do R básico.
DICA 2: o segundo foi feito com a função xyplot do pacote lattice.
DICA 3: Esse gráfico tambe poderia ser feito com a função geom_point do pacote ggplot2