R-i tegur: kategooriline muutuja & Pidevad muutujad

Lang L: none (table-of-contents):

Anonim

Mis on R-i tegur?

Factor R on muutuja, mida kasutatakse andmete kategoriseerimiseks ja salvestamiseks, millel on piiratud arv erinevaid väärtusi. See salvestab andmed täisarvude vektorina. R-tegurit tuntakse ka kui kategoorilist muutujat, mis salvestab nii stringi kui ka täisarvu väärtused tasemetena. Faktorit kasutatakse enamasti statistilise modelleerimise ja uurimisandmete analüüsimisel R-ga.

Andmekogumis saame eristada kahte tüüpi muutujaid: kategoorilised ja pidevad .

  • R kategooriliste muutujate kirjeldavas statistikas on väärtus piiratud ja põhineb tavaliselt kindlal lõplikul rühmal. Näiteks võib R-i kategooriline muutuja olla riigid, aasta, sugu, amet.
  • Pidev muutuja võib aga võtta mis tahes väärtusi täisarvust kümnendkohani. Näiteks võime saada tulu, aktsia hinna jne.

Kategoorilised muutujad

Kategoorilised muutujad R-is salvestatakse teguriks. Kontrollime allpool olevat koodi, et muuta tähemuutuja R-s tegurimuutujaks. Masinõppe algoritmis ei toetata märke ja ainus viis on stringi teisendamine täisarvuks.

Süntaks

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argumendid:

  • x : kategooriliste andmete vektor R-s. See peab olema string või täisarv, mitte kümnendkoht.
  • Tasemed : võimalike väärtuste vektor, mille võtab x. See argument on valikuline. Vaikeväärtus on vektori x ainulaadne loend.
  • Sildid : lisage R-i kategooria x andmetele silt. Näiteks võib 1 võtta sildi "mees", kui 0, sildi "naine".
  • järjestatud : määrake, kas tasemed tuleks R-i kategoorilistes andmetes järjestada

Näide:

Loome tegurite andmeraami.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Väljund:

## [1] "character"## [1] "factor"

Masinõppeülesande täitmisel on oluline muuta string tegurimuutujaks R-is.

Kategoorilise muutuja R-s võib jagada nominaalseks kategooriliseks muutujaks ja järjestikuks kategooriliseks muutujaks .

Nominaalne kategooriline muutuja

Kategoorilisel muutujal on mitu väärtust, kuid järjekord pole oluline. Näiteks mees või naine. R-i kategoorilistel muutujatel ei ole järjestust.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Väljund:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

Factor_colori järgi ei saa me öelda ühtegi järjekorda.

Tavaline kategooriline muutuja

Tavalistel kategoorilistel muutujatel on loomulik järjestus. Järjekorra saame määrata madalamast kõrgeimani järjekorraga = TRUE ja kõrgeimast madalamani järjekorraga = FALSE.

Näide:

Kokkuvõtte abil saame lugeda R-i iga teguri muutuja väärtused.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Väljund:

## [1] evening morning afternoon middaymidnight evening 

Näide:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Väljund:

## morning midday afternoon evening midnight## 1 1 1 2 1

R tellis taseme alates hommikust keskööni, nagu on täpsustatud tasemete sulgudes.

Pidevad muutujad

Püsivad klassimuutujad on R-i vaikeväärtus. Need salvestatakse numbri- või täisarvuna. Näeme seda allpool olevast andmekogumist. mtcars on sisseehitatud andmekogum. See kogub teavet erinevat tüüpi autode kohta. Saame selle importida mtcaride abil ja kontrollida muutuja mpg klassi, miil galloni kohta. See tagastab arvväärtuse, mis näitab pidevat muutujat.

dataset <- mtcarsclass(dataset$mpg)

Väljund

## [1] "numeric"