R может читать данные, сохраненные в текстовом (ASCII) файле. Для этого используются три функции: read.table() (которая имеет два варианта: read.csv() и read.csv2()), scan() и read.fwf().
Например, если мы имеем файл data.dat, то для того чтобы его прочитать можно набрать:
> mydata <-read.table ("data.dat")
mydata тогда будет объектом вида data.frame, и каждая переменная будет называться, по умолчанию, V1, V2... и к ним можно обратиться индивидуально mydata$V1, mydata$V2..., или mydata["V1"], mydata["V2"]..., или mydata[,1], mydata[,2], …
Однако, есть различия: mydata$V1 и mydata[,1] – векторы, тогда как mydata["V1"] - data.frame.
У функции read.table() есть несколько параметров:
read.table(файл, header=FALSE, sep = "", quote = "\"’", dec = ".", row.names =, col.names =, as.is=FALSE, na.strings = "NA", skip=0, fill =! blank.lines.skip, check.names=TRUE, strip.white=FALSE, blank.lines.skip = TRUE)
Параметры:
файл | название файла пишется (в кавычках " "), можно использоваться путь (символ \ не допустим, и должен быть заменен на /). |
header | логический (ЛОЖЬ или ИСТИНА) указывает, содержит ли файл названия переменных в начале строки. |
sep | разделитель полей используемый в файле, например sep = "\t", если это - табуляция. |
quote | символы, используемые для обозначения переменных символьного типа. |
dec | символ, используемый для отделения дробной части числа. |
row.names | вектор с названиями строк, которые могут быть векторами символьного типа, или числового (или название) переменной файла (по умолчанию: 1, 2, 3...). |
col.names | вектор с названиями колонок (по умолчанию: V1, V2, V3...). |
as.is | указывает преобразовать символьных значения в факторы (если ЛОЖЬ) или сохраняет их как символы (ИСТИНА). |
na.strings | показывает какое значение строки считать отсутствием данным (по умолчанию - NA). Пустое значение в числовой колонке тоже считается отсутствием данных. |
skip | число строк, которые будут пропущены перед чтением данных |
fill = TRUE | если в файле все поля заполнены. |
check.names | если ИСТИНА, то проверяется, допустимость имен переменных для R |
strip.white | (условное выражение к sep), если ИСТИНА, то удаляются дополнительные пробелы до и после символьных переменных |
blank.lines.skip | Если имеет значение TRUE то пустые строки в файле игнорируются по умолчанию параметр имеет значение TRUE Мы можем изменить значение на FALSE, которое используется совместно с параметром fill = TRUE |
Для ввода из файлов имеющих определенный формат используются команды read.csv и read.csv2 которые имеют следующие значения по умолчанию:
read.csv (файл, header = ИСТИНА, sep =,"", quote = " \ "", dec = ". "...)
read.csv2 (файл, header = ИСТИНА, sep = ";", quote = " \ "", dec = ", "...)
Функция scan() более гибкая, чем read.table() и имеет больше параметров. Главное отличие в том, что, при вводе можно указать тип переменных, например:
> mydata <-scan("data.dat", what=list (" ", 0,0))
в файле data.dat три переменные, первая имеет символьный тип и следующие две - числовой тип.
Формат scan()следующий:
> scan (file = "", what=double(0), nmax=-1, n=-1, sep="", quote=if(sep == "\n") " " else " ’ \ "", dec = ". ", skip=0, nlines=0, na.strings = "NA", flush=FALSE, strip.white=FALSE, quiet=FALSE)
Параметры:
file | название файла пишется (в кавычках " "), можно использоваться путь (символ \ не допустим, и должен быть заменен на /), если file = " ", то данные вводят с клавиатуры. |
what | определяет типы данных |
nmax | количество читаемых данных, или, если what описывает список, количество читаемых строк (по умолчанию, scan читает данные до конца файла) |
n | количество читаемых данных, (по умолчанию все) |
sep | разделитель полей используемый в файле |
quote | символы, используемые для обозначения переменных символьного типа |
dec | символ, используемый для отделения дробной части числа. |
skip | число строк, которые будут пропущены перед чтением данных |
nlines | количество читаемых строк |
na.strings | присваивает значения, отсутствующим данным (показывает как NA) |
flush | логический, если TRUE, то scan переходит на следующую строку, как только достигнет последнего столбца |
strip.white | (условное выражение к sep), если TRUE, то удаляются дополнительные пробелы до и после символьных переменных |
quiet | логический, если FALSE, scan отображает строку, показывающую, какие поля были прочитаны |
Функция read.fwf() используется, для чтения данных имеющих определенный фиксированный формат:
read.fwf (файл, widths, sep = "\t ", as is=FALSE, skip=0, row.names, col.names)
Например, если файл data.txt имеет следующий вид:
A1 | ||
A1 | ||
B1 | ||
B1 | ||
C1 | ||
C1 |
То его можно прочитать следующим образом:
> mydata <-read.fwf("data.txt", widths=c(1,4,3))
> mydata
V1 V2 V3
1 А 1.50 1.2
2 А 1.55 1.3
3 B 1.60 1.4
4 B 1.65 1.5
5 C 1.70 1.6
6 C 1.75 1.7