Data Frames

Data frames são as estruturas de dados mais importantes do R e uma das principais razões do uso crescente da linguagem R. Superficialmente um data frame é como uma planilha do Excel, com colunas e linhas.

Cada coluna de um data frame é uma variável, ou melhor, um vetor.

Cada linha de um data frame é uma observação.

Por exemplo, numa pesquisa com 50 pacientes, na qual são coletados dados de nome, idade, sexo, estado civil, profissão e diagnóstico, nosso data frame consistiria de 50 linhas (cada linha para um paciente) e 6 colunas (nome, idade, sexo, estado civil, profissão e diagnóstico).

Um modo de criar um data frame é com a função data.frame(), como a seguir:

1 > nome   <- c("Henrique", "Antônio", "Fabiano")
2 > idade  <- c(45, 40, 48)
3 > mydata <- data.frame(nome, idade)

A última linha acima criou o data frame, com as colunas nome e idade e com 3 linhas, uma para cada paciente.

O Operador $

O operador $ é usado para acessarmos as colunas de um data frame. Para acessarmos a coluna com as idades basta usarmos mydata$idade, como abaixo:

1 > mydata$idade
2 [1] 45 40 48

Para calcular a média das idades dos pacientes no data frame acima basta usar a função mean, colocando mydata$idade como argumento da função, como abaixo:

1 > mean(mydata$idade)
2 [1] 44.33333

Datasets do R

O R possui vários datasets (conjuntos de dados) para facilitar o aprendizado. Para saber mais sobre os datasets inclusos no R digite no console o comando abaixo:

1 > data( )

Podemos carregar os datasets já inclusos no R com a função mesma função data( ), mas incluindo como argumento o nome do dataset desejado. No exemplo a seguir iremos carregar o dataset USArrests. Este dataset contém estatísticas das prisões por 100.000 habitantes por assalto, assassinato e estupro em cada um dos 50 estados dos EUA em 1973, como também a porcentagem da população urbana.

1 > data("USArrests")

Como esse dataset carregado podemos agora visualizar os dados simplesmente digitando o nome do dataset no console

1 > USArrests

Experimente também usar a função str(), que mostra a estrutura dos dados de um objeto, para verificar a estrutura e o tipo de objeto é esse dataset:

1 > str(USArrests) 

Você deverá obter como resultado que o dataset USArrests é um data frame com 50 observações (50 linhas) e 4 variáveis (Murder, Assalt, UrbanPop e Rape), como mostrado abaixo:

1 'data.frame': 50 obs. of 4 variables:
2 $ Murder : num 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ... 
3 $ Assault : int 236 263 294 190 276 204 110 238 335 211 ...
4 $ UrbanPop: int 58 48 80 50 91 78 77 72 80 60 ... 
5 $ Rape : num 21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...

Observe que antes de cada variável se encontra o operador $, que é o modo de acessar cada uma dessas variáveis. Experimente digitar o comando abaixo para acessar a variável Murder:

1 > USArrests$Murder

Datasets externos

Os datasets inclusos no R servem apenas para treinamento do uso. O mais importante numa análise estatística é poder usar seu próprio conjunto de dados, proveniente de sua pesquisa. Para isso é necessário ler um arquivo externo e carregar esse arquivo na sessão do R. O RStudio possui uma função para importação de arquivos dentro da aba File -> Import Dataset. Entretanto, devemos SEMPRE EVITAR importar arquivos por esse meio. O método mais indicado para importar um arquivo é fazer isso dentro do próprio Script, usando as funções de leitura de dados como mostrado no próximo capítulo.