Lendo Dados

Para podermos efetivamente usar o R, uma etapa inicial é justamente carregarmos os dados a serem analisados. Existem diversos formatos de arquivos para armazenar dados, cada um apropriado para ser lido por determinados aplicativos. Vejamos:

formato Tipo de dados software para ler os dados
.txt texto Qualquer leitor de texto
.doc texto Word (microsoft)
.docx texto Word (microsoft)
.xls planilha Excel (microsoft)
.ppt slides PowerPoint (microsoft)
.pdf documento portátil Qualquer leitor de PDF (ex: Acrobat)
.pages texto Pages (Apple)
.numbers planilha Numbers (Apple)
.key slides Keynote (Apple)
.csv dados Qualquer leitor de texto

Alguns formatos de arquivos dependem de um software específico para sua leitura. Outros formatos são menos expecíficos, podendo ser lidos por um grande número de softwares, como é o caso dos arquivos .txte dos arquivos .pdf. Esses formatos são mais universais, sendo padrões comuns para comunicação de informações textuais.

Quando essa troca de dados se refere não um texto propriamente dito, mas um conjunto de dados, tais como tabelas com dados, um dos formatos mais universais é o .csv (comma separated values = valores separados por virgulas).

A estrutura desse arquivo é bastante simples: existem várias linhas, cada linha com vários dados, separados por vírgulas. Existem, entretanto variações nesse formato, por exemplo, no Brasil as casas decimais são separadas por vírgulas, nesse caso o delimitador dos valores não poderia ser a vírgula e é usado então o ponto e vírgula. Ao ler dados no formato .csv é sempre importante informar se os dados são separados por , ou ; e se o separador do decimal é a virgula , ou o ponto final .. Caso contrário a leitura dos dados poderá ser corrompida.

Para ler dados no R o ideal é que os dados estejam, de preferência, no formato separado por vírgulas, chamado de “comma separated values” ou, simplesmente de csv. A extensão .csv no final do nome de um arquivo indica que esse é um arquivo de dados no formato separado por vírgulas. Todo software de planilhas, tal como o Excel ou Numbers (do Mac) são capazes de salvar os dados nesse formato.

O R tem uma função especial para ler esses tipos de dados: read.csv( ).

Os argumentos dessa função já foram mostrados no capítulo sobre as funções:

argumentos valor default valor que necessita ser ajustado
file = não possui “nome do arquivo a ser lido.csv”
na.strings NA trocar para o que estiver sendo usado no arquivo
header FALSE trocar para TRUE se houver cabeçalho no arquivo
sep espaço trocar para "," ou ";" conforme o usado no arquivo
dec ”.” usar o default ou trocar por "," se for o caso

O código de exemplo abaixo lê um arquivo de dados chamado pesquisa.csv, no formato .csv, no qual há há um cabeçalho (header= TRUE) , cujos valores estão separadads por vírgula (sep = ",") e o separador decimal é o ponto final (dec = ".")

1 read.csv(file = "pesquisa.csv",
2          header = TRUE, 
3          sep = ",", 
4          dec = ".")

Argumentos default

Caso o arquivo esteja no formato .csv com as especificações acima, podemos usar essa mesma função informando apenas o nome do arquivo, pois a função read.csv() assume como valores default essas especificações, bastando indicar o nome do arquivo: a função read.csv().

1 read.csv(file = "pesquisa.csv")

Ou seja, com os dados no formato padrão, a leitura dos dados é extremamente fácil com o comando acima. Esse comando lê o arquivo chamado pesquisa.csv. Mas falta ainda um detalhe: é preciso colocar os dados lidos numa variável. O comando correto deve ser parecido com a linha abaixo. É lógico que você pode mudar o nome da variável que vai receber os dados. No caso abaixo a variável, ou melhor, o objeto, que vai receber os dados foi chamado de mydata e os dados estão sendo lidos de um arquivo chamado pesquisa.csv.

1 mydata <- read.csv(file = "pesquisa.csv")

Agora sim, os dados são lidos e colocados na variável mydata. Você verá que, ao ler um arquivo de dados dessa forma, o objeto mydata será um data frame, com linhas representado cada paciente (observação) e colunas representando as variáveis da pesquisa.