W tej części kursu omówimy podstawowe typy danych z R. Będą to typy:
logical
, integer
, numeric
,
character
oraz factor
.
Na kursie nie będziemy omawiać typu pozwalającego pracować z liczbami
urojonymi (typ complex
). Zainteresowani mogą doczytać o tym
typie w dokumentacji R (help(complex)
)
logical
W R elemety wektoru typu logical
przyjąć mogą dwie
wartości - TRUE
lub FALSE
. Tak też nazywają
się odpowiednie stałe logiczne w R. Zamiast pełnych nazw możemy w kodzie
używać skrótów: T
oraz F
.
Typ ten jest bardzo ważny i używa się go niemal cały czas kiedy filtrujemy/indeksujemy zbiory danych. Na razie jednak należy zapamiętać tylko to, że w R nazwy wartości logicznych piszemy wielkimi literami.
c()
# przypisujemy wartość zmiennej x, funkcja c służy do tworzenia wektorów
x <- c(FALSE, FALSE, FALSE, FALSE, TRUE)
W tym fragmencie kodu widzimy dwie bardzo istotne w kontekście
pisania kodu w R rzeczy. Po pierwsze, w przeciwieństwie do wielu języków
programowania, w R operatorem przypisania wartości zmiennej nie jest
znak równośści (=
) ale strzałka (<-
). Znak
równości również jest interpretowany przez R jako operator przypisania,
konwencje stylistyczne mówią jednak, że powinnismy używać strzałki.
Drugą istotną rzeczą w tym fragmencie kodu jest funkcja
c()
. Jej nazwa jest skrótem od angielskiego słowa
combine. Pozwala ona tworzyć wektory. W R wszystkie podstawowe
typy danych są wektorowe. Na nasze potrzeby oznacza to po prostu, że
mogą mieć więcej niż jeden element. Funkcja ta pozwala połączyć \(n\) wartości w jeden \(n\)-elementowy wektor. Funkcja
c()
co do zasady tworzy wektor takiego typu, jakiego były
jej argumenty (sprawdź, co się stanie, gdy przekażesz jej kilka
argumentów różnych typów!).
print(x) # wyświetlamy na ekranie wartość x
## [1] FALSE FALSE FALSE FALSE TRUE
class(x) # sprawdzamy jakiego typu jest to zmienna
## [1] "logical"
# możemy także stworzyć "pusty" wektor typu logicznego.
# domyslną wartością jego elementów będzie FALSE
logical(5)
## [1] FALSE FALSE FALSE FALSE FALSE
integer
Typ integer
to po prostu liczby całkowite. R domyślnie
traktuje wszystkie liczby nie jako integer
, lecz jako
numeric
, nawet jeżeli są to liczby całkowite. Możemy to
łatwo zobaczyć sprawdzając, jaki ma typ wpisana wybrana przez nas
liczba:
class(5) # sprawdźmy typ liczby 5
## [1] "numeric"
W niektórych kontekstach R automatycznie przeprowadza konwersje z
numeric
na int
, czasami jednak tego nie robi.
Jeżeli zależy nam na tym, aby nasze pracować z typem
integer
, to możemy użyć suffiksu L
:
class(c(4L, 6L, 8L))
## [1] "integer"
Możemy również explicite przekonwertować liczby z jednego
typu do drugiego. Służy do tego funkcja as.integer
.
x <- as.integer(c(1,11,2,2,3,3,4,4))
print(x)
## [1] 1 11 2 2 3 3 4 4
class(x)
## [1] "integer"
W przypadku użycia funkcji as.integer
na liczbach, które
nie są liczbami całkowitymi, R zaokrągla je w dół:
# Uwaga! Gdy konwertujemy numeric do integer R obcina wszystko po kropce (floor)
x <- as.integer(c(1.2, 2.3, 2.8))
# nie musimy używać do wyświetlania instrukcji print(), kiedy wywołujemy samą zmienną R sam to zakłada
x
## [1] 1 2 2
# można sprawdzić typ danej zmiennej za pomocą funkcji is.{typ}
# funkcje te zwracają wartość TRUE lub FALSE
is.integer(x)
## [1] TRUE
numeric
Z matematycznego punktu widzenia typowi numeric
najbliżej do liczb rzeczywistych. Z informatycznego punktu widzenia są
to po prostu liczby zmiennoprzecinkowe. Jest to podstawowy typ wartości
liczbowych w R i najczęściej bęðziemy korzystać właśnie z niego.
x <- c(1, 2, 3.2, 3.4, 5.2)
x
## [1] 1.0 2.0 3.2 3.4 5.2
character
Standardowe w programowaniu ciągi znaków. W R możemy wybrać, czy
chcemu używać pojedynczego ('
) czy podwójnego
("
) cudzysłowu.
x <- 'Raz' # kiedy nie używamy funkcji c() to również tworzymy wektor
length(x) # o długości 1, co można sprawdzić funkcją length()
## [1] 1
y <- c(x, 'Dwa', 'Trzy') # możemy dodawać do siebie wektory za pomocą funkcji c()
y
## [1] "Raz" "Dwa" "Trzy"
# stwórzmy więc wektor z powtórzonego dwukrotnie wektora x oraz dwukrotnie wektora y
z <- c(x,x,y,y)
z
## [1] "Raz" "Raz" "Raz" "Dwa" "Trzy" "Raz" "Dwa" "Trzy"
length(z) # ma on długość 1+1+3+3 czyli 8
## [1] 8
class(z) # sprawdźmy, czy rzeczywiście nasza zmienna jest typu character
## [1] "character"
class(class(z)) # i sprawdźmy jakiego typu wartość zwraca funkcja class
## [1] "character"
factor
factor
jest typem bardzo podobnym do
character
, z tą różnicą, że przechowuje dodatkowe
informacje. Istotą tego typu jest to, że przechowuje on nie tylko
wartości, ale również informacje o możliwych wartościach danej zmiennej.
Z tego względu swietnie nadaje się do przechowywania danych nominalnych
takich jak płeć, wykształcenie, status socjoekonomiczny, itp.
Stwórzmy wektor typu character
, w którym przechowywać
będziemy informacje o wykształceniu:
# wektor typu character z wykształceniem
edu <- c('Wyższe', 'Średnie', 'Średnie', 'Wyższe', 'Wyższe', "Podstawowe", 'Średnie')
Za pomocą funkcji table
może policzyć, ile wystąpień
poszczególnych wartości znajduje się w naszym wektorze:
table(edu) # podstawowa tabela z liczbą wystapień
## edu
## Podstawowe Średnie Wyższe
## 1 3 3
str
i summary
W R dostępne są dwie uniwersalne funkcje, za pomocą których możemy uzyskać podstawowe informacje na temat tego, co przechowuje nasza zmienna. Warto o nich pamiętać!
# funkcja str zwraca podstawowe informacje o obiekcie,
# który jej przekazujemy w argumencie - tutaj typ, dlugość i 5 wartości
str(edu)
## chr [1:7] "Wyższe" "Średnie" "Średnie" "Wyższe" "Wyższe" "Podstawowe" ...
summary(edu)
## Length Class Mode
## 7 character character
Z wektora typu character
możemy stworzyć
factor
za pomocą funkcji factor
. Funkcja ta
przyjmuje trzy argumenty:
factor(dane, levels = c("level 1", "level2", ...), ordered = T/F}
dane
- wektor typu character
z danymilevels
- wektor typu character
zawierający
poziomy (możliwe wartości) naszej zmiennejordered
- wektor typu logical
(TRUE
lub FALSE
) mówiący, czy poziomy naszej
zmiennej są uporządkowaneedu_factor <- factor(edu,
levels = c('Podstawowe', 'Gimnazjalne',
'Średnie', 'Wyższe'),
ordered = TRUE)
Kiedy na naszej nowej zmiennej wywołamy funkcję table
zobaczymy, że w tabeli ze zliczeniami ujęte będzie również wykształcenie
gimnazjalne, którego nie ma w naszym wektorze z danymi.
table(edu_factor)
## edu_factor
## Podstawowe Gimnazjalne Średnie Wyższe
## 1 0 3 3
Warto również prześledzić, co w przypadku zmiennej typu
factor
zwracają znane nam funkcje str
i
summary
.
# funkcja str mówi nam, że mamy do czynienia
# z uporzadkowanym (ordered) factorem z czterema poziomami
str(edu_factor)
## Ord.factor w/ 4 levels "Podstawowe"<"Gimnazjalne"<..: 4 3 3 4 4 1 3
# a funkcja summary zwraca tabelkę podobną do funkcji `table`
summary(edu_factor)
## Podstawowe Gimnazjalne Średnie Wyższe
## 1 0 3 3