Importar arquivos comma separated values (extensão .csv)
\(>\) dados1 <- read.csv(file.choose(), header=TRUE)
Próprio para quando queremos escolher um arquivo .csv de uma lista de arquivos, navegando até o diretório onde está este arquivo. Arquivos com linha de cabeçalho devem ter o argumento da função header como TRUE ou T. Caso contrário, FALSE ou F.
\(>\) dados2 <- read.table(file.choose(), header=T, sep=“,”)
Nesta última opção é usado um comando mais genérico. Neste caso é importante avisar que os dados estão separados por vírgula.
Vale lembrar que há duas maneiras rápidas de obtermos informaçoes sobre um determinado comando do R. Tomando como exemplo o comando read.table, a primeira opção é
\(>\) help(read.table)
O help pode também ser acessado diretamente através da aba help. Outra opção é
\(>\) ?(read.table)
enquanto a terceira opção é clicar na aba “help”.
O endereço do arquivo poderia ser informado imediatamente através do comando
\(>\) dados2 <- read.table(/users/SouEu/MiniManuais/ArquivoDados.csv, header=T, sep=“,”)
Importar arquivos tab separated (extensão .txt)
\(>\) dados3 <- read.delim(file.choose(), header=T)
\(>\) dados4 <- read.table(file.choose(), header=T, sep=“\(\backslash\)t”)}
Na opção acima é necessário indicar que os dados estão separados por um tab.
Importar arquivos Excel (extensão .xlsx ou .xls)
Para isto usamos um pacote que já está instalado no R. Basta ir no Files/Import Dataset/From Excel ou ir na aba Environment e depois na opção Import Dataset escolhendo a opção From Excel. Além de um preview dos dados, aparecerá a opção de manter ou renomear o arquivo de dados, escolher uma worksheet da planilha Excel, informar o range da planilha onde está o banco de dados, limitar o número de linhas a serem importadas, definir o número de linhas iniciais que devem ser desconsideradas, informar se a planilha tem ou não cabeçalho, redefinir o tipo de cada variável, informar códigos usados para missing values, escolher a opção de pular determinadas colunas da base de dados. A medida que opções são feitas, é possivel visualizar ou mesmo copiar a linha de comando relativa aquele conjunto de opções. Pode ser útil copiar e colar o código para que não seja necessário usar a caixa de diálogo em uma próxima vez que aquela base de dados for analisada.
Definir o diretório de trabalho
Criar novos diretórios para cada novo trabalho é uma boa prática.
\(>\) getwd()
Informa qual o diretório que você está salvando seu trabalho, enquanto
\(>\) setwd(“/users/SouEu/MiniManuais”)
ou apenas
\(>\) setwd(“~/MiniManuais”)
quando você já estiver no caminho certo e quer apenas especificar um sub diretório. Quando estamos trabalhando com mais de um diretório simultaneamente pode ser interessante fazer
\(>\) projeto1 <- /users/SouEu/MiniManuais
e
\(>\) setwd(projeto1)
quando necessário. Outra opção é ir no menu do R e usar a opção Session/Set Working Diretorio
Remover arquivos do workspace
Algumas vezes é necessário remover dados do workpace. Isto pode ser feito através do comando
\(>\) rm(dados4)
Analise primária de dados que foram importados
Podemos querer inicialmente apenas saber o tamanho do conjunto de dados. Para isto podemos conhecer o número de linhas de de colunas do conjunto de dados usando o comando
\(>\) dim(dados1)
Para visualizar uma pequena porção dos dados (na realidade as primeiras seis linhas), usamos
\(>\) head(dados1)
Ou ainda as últimas seis linhas através do comando
\(>\) tail(dados1)
Outra opção de visualização sumária é atraves de
\(>\) str(dados1)
Para ver uma parte intermediaria do arquivo (por exemplo, todas as colunas entre as linhas 6 e 9), apresentamos duas opções
\(>\) dados1[c(6,7,8,9), ]
ou ainda
\(>\) dados1[6:9, ]
Poderiamos checar os nomes das variáveis dentro do conjunto de dados através do comando
\(>\) names(dados1)
Qualquer análise inicial precisaria extrair os dados de interesse do conjunto de dados. No exemplo a seguir queremos conhecer a média da variável \(var1\)
\(>\) mean(dados1$var1)
Para evitar precisar dar o nome e o sobrenome da variavel, separados por um cifrão (dados1$var1) a opção seria anexar (attach) o conjunto de dados ao workspace
\(>\) attach(dados1)
Para reverter a operação devemos usar o comando
\(>\) detach(dados1)
Podemos tambem verificar a categoria de uma variável através de
\(>\) classe(var1)
Caso a variável var1 seja categórica (ou “factor”), podemos checar seus níveis
\(>\) levels(var1)
Uma rápida análise descritiva pode ser obtida por
\(>\) summary(dados1)
Uma situação comum é ter uma coluna com dados categóricos cujas categorias foram assinaladas com números. Precisamos dizer ao R que não se trata de uma variável numérica e sim categórica. Isto pode ser feito através de
\(>\) var1 <- as.factor(var1)
Exportar dados
O comando mais flexivel para a necessidade de importar dados é o
\(>\) write.table(DadosParaExportar, file=“ArquivoDadosExportados.csv”, sep=“,”)
No exemplo acima o primeiro parâmetro é o nome do objeto com os dados a serem exportados, o segundo parâmetro é o nome do novo arquivo onde os dados serão gravados e o terceiro parâmetro é o separador dos dados, no caso do exempo uma virgula, gerando um arquivo .csv. É possível salvar o arquivo em um diretório diferente do diretório de trabalho indicando o caminho no parâmetro file=“/users/SouEu/MiniManuais/ArquivoDadosExportados.csv”.
Outras opções interessantes de serem mecionadas são os arquivos separados pela tecla \(tab\) ou por espaços. No primeiro caso é padrao salvar com extensão “tsv” (ou “txt”) e colocar o parâmetro sep=“\(\backslash\)t”. No segundo caso o padrão é salvar com extensão e colocar o parâmetro sep=" " com um espaço entre as aspas e extensão “txt”.
