Lendo Dados

Para podermos efetivamente usar o R, uma etapa inicial é justamente carregarmos os dados a serem analisados. Existem diversos formatos de arquivos para armazenar dados, cada um apropriado para ser lido por determinados aplicativos. Vejamos:

formato	Tipo de dados	software para ler os dados
.txt	texto	Qualquer leitor de texto
.doc	texto	Word (microsoft)
.docx	texto	Word (microsoft)
.xls	planilha	Excel (microsoft)
.ppt	slides	PowerPoint (microsoft)
.pdf	documento portátil	Qualquer leitor de PDF (ex: Acrobat)
.pages	texto	Pages (Apple)
.numbers	planilha	Numbers (Apple)
.key	slides	Keynote (Apple)
.csv	dados	Qualquer leitor de texto

Alguns formatos de arquivos dependem de um software específico para sua leitura. Outros formatos são menos expecíficos, podendo ser lidos por um grande número de softwares, como é o caso dos arquivos .txte dos arquivos .pdf. Esses formatos são mais universais, sendo padrões comuns para comunicação de informações textuais.

Quando essa troca de dados se refere não um texto propriamente dito, mas um conjunto de dados, tais como tabelas com dados, um dos formatos mais universais é o .csv (comma separated values = valores separados por virgulas).

A estrutura desse arquivo é bastante simples: existem várias linhas, cada linha com vários dados, separados por vírgulas. Existem, entretanto variações nesse formato, por exemplo, no Brasil as casas decimais são separadas por vírgulas, nesse caso o delimitador dos valores não poderia ser a vírgula e é usado então o ponto e vírgula. Ao ler dados no formato .csv é sempre importante informar se os dados são separados por , ou ; e se o separador do decimal é a virgula , ou o ponto final .. Caso contrário a leitura dos dados poderá ser corrompida.

Para ler dados no R o ideal é que os dados estejam, de preferência, no formato separado por vírgulas, chamado de “comma separated values” ou, simplesmente de csv. A extensão .csv no final do nome de um arquivo indica que esse é um arquivo de dados no formato separado por vírgulas. Todo software de planilhas, tal como o Excel ou Numbers (do Mac) são capazes de salvar os dados nesse formato.

O R tem uma função especial para ler esses tipos de dados: read.csv( ).

Os argumentos dessa função já foram mostrados no capítulo sobre as funções:

argumentos	valor default	valor que necessita ser ajustado
`file =`	não possui	“nome do arquivo a ser lido.csv”
`na.strings`	NA	trocar para o que estiver sendo usado no arquivo
`header`	`FALSE`	trocar para `TRUE` se houver cabeçalho no arquivo
`sep`	espaço	trocar para `","` ou `";"` conforme o usado no arquivo
`dec`	”.”	usar o default ou trocar por `","` se for o caso

O código de exemplo abaixo lê um arquivo de dados chamado pesquisa.csv, no formato .csv, no qual há há um cabeçalho (header= TRUE) , cujos valores estão separadads por vírgula (sep = ",") e o separador decimal é o ponto final (dec = ".")

1 read.csv(file = "pesquisa.csv",
2          header = TRUE, 
3          sep = ",", 
4          dec = ".")

Argumentos default

Caso o arquivo esteja no formato .csv com as especificações acima, podemos usar essa mesma função informando apenas o nome do arquivo, pois a função read.csv() assume como valores default essas especificações, bastando indicar o nome do arquivo: a função read.csv().

1 read.csv(file = "pesquisa.csv")

Ou seja, com os dados no formato padrão, a leitura dos dados é extremamente fácil com o comando acima. Esse comando lê o arquivo chamado pesquisa.csv. Mas falta ainda um detalhe: é preciso colocar os dados lidos numa variável. O comando correto deve ser parecido com a linha abaixo. É lógico que você pode mudar o nome da variável que vai receber os dados. No caso abaixo a variável, ou melhor, o objeto, que vai receber os dados foi chamado de mydata e os dados estão sendo lidos de um arquivo chamado pesquisa.csv.

1 mydata <- read.csv(file = "pesquisa.csv")

Agora sim, os dados são lidos e colocados na variável mydata. Você verá que, ao ler um arquivo de dados dessa forma, o objeto mydata será um data frame, com linhas representado cada paciente (observação) e colunas representando as variáveis da pesquisa.

Up next

RStudio Projects