Selles õpetuses saate teada
- Lihtne lineaarne regressioon
- Mitu lineaarset regressiooni
- Pidevad muutujad
- Tegurite taandareng
- Sammuline taandareng
- Masinõpe
- Juhendatud õppimine
- Järelevalveta õppimine
Lihtne lineaarne regressioon
Lineaarne regressioon vastab lihtsale küsimusele: kas saate mõõta täpset suhet ühe sihtmuutuja ja ennustajahulga vahel?
Lihtsaim tõenäosusmudel on sirgjooneline mudel:
kus
- y = sõltuv muutuja
- x = sõltumatu muutuja
= juhusliku vea komponent
= pealtkuulamine
= Koefitsient x
Mõelge järgmisele proovitükile:
Võrrand on lõikepunkt. Kui x võrdub 0-ga, võrdub y lõikepunktiga 4,77. on joone kalle. See ütleb, millises proportsioonis y varieerub, kui x varieerub.
Et hinnata optimaalsete väärtuste sa kasutada meetodit nimetatakse harilik vähimruutude (OLS) . Selle meetodiga püütakse leida parameetrid, mis minimeerivad ruutude vigade summa, see tähendab vertikaalne kaugus ennustatud y väärtuste ja tegelike y väärtuste vahel. Erinevust nimetatakse veaterminiks .
Enne mudeli hindamist saate hajumisdiagrammi joonistamise abil kindlaks teha, kas y ja x lineaarne seos on usutav.
Hajuvusdiagramm
Lihtsa lineaarse regressiooni mõiste selgitamiseks kasutame väga lihtsat andmekogumit. Impordime Ameerika naiste keskmised kõrgused ja kaalud. Andmekogum sisaldab 15 vaatlust. Soovite mõõta, kas kõrgused on kaaludega positiivses korrelatsioonis.
library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()
Väljund:
Hajusdiagramm näitab üldist kalduvust y suureneda, kui x suureneb. Järgmises etapis mõõdate, kui palju iga järgmise lisatasu puhul suureneb.
Vähim ruutude hinnangud
Lihtsa OLS-i regressiooni korral on arvutus sirgjooneline. Eesmärk pole selles õpetuses tuletamist näidata. Kirjutate ainult valemi.
Soovite hinnata:
OLS-i regressiooni eesmärk on minimeerida järgmine võrrand:
kus
prognoositav väärtus.
Lahendus
Pange tähele, et see tähendab x keskmist väärtust
Lahendus
R-s saate hindamiseks kasutada funktsioone cov () ja var () ning prognoosimiseks
beta <- cov(df$height, df$weight) / var (df$height)beta
Väljund:
##[1] 3.45
alpha <- mean(df$weight) - beta * mean(df$height)alpha
Väljund:
## [1] -87.51667
Beetakoefitsient tähendab, et iga täiendava pikkuse korral suureneb kaal 3,45 võrra.
Lihtsa lineaarvõrrandi käsitsi hindamine pole ideaalne. R pakub nende parameetrite hindamiseks sobiva funktsiooni. Seda funktsiooni näete varsti. Enne seda tutvustame lihtsa lineaarse regressioonimudeli käsitsi arvutamist. Oma andmeteadlase teekonnal hindate vaevalt või mitte kunagi lihtsat lineaarset mudelit. Enamikus olukordades tehakse regressioonülesandeid paljudele hinnangutele.
Mitu lineaarset regressiooni
Regressioonanalüüsi praktilisemates rakendustes kasutatakse lihtsama sirgjoonelise mudeliga võrreldes keerulisemaid mudeleid. Tõenäosuslikku mudelit, mis sisaldab rohkem kui ühte sõltumatut muutujat, nimetatakse mitmeks regressioonimudeliks . Selle mudeli üldine vorm on:
Maatriksmärgistuses saate mudeli ümber kirjutada:
Sõltuv muutuja y on nüüd k sõltumatute muutujate funktsioon. Koefitsiendi väärtus .
Tutvustame lühidalt OLSi juhusliku vea kohta tehtud eeldust :
- Keskmine võrdub 0-ga
- Dispersioon on võrdne
- Normaalne jaotus
- Juhuslikud vead on sõltumatud (tõenäosuslikus mõttes)
Peate lahendama regressioonikordajate vektori, mis minimeerib prognoositud ja tegelike y väärtuste ruutude summa.
Suletud vormis lahendus on:
koos:
- tähistab maatriksi X transpositsiooni
tähistab pööratavat maatriksit
Kasutame mtcarsi andmekogumit. Te olete andmekogumiga juba tuttav. Meie eesmärk on ennustada miili galloni kohta funktsioonide komplekti kohta.
Pidevad muutujad
Praegu kasutate ainult pidevaid muutujaid ja jätate kategoorilised tunnused kõrvale. Muutuja am on binaarne muutuja, mille väärtus on 1, kui käigukast on manuaalne, ja 0 automaatautode puhul; vs on ka binaarne muutuja.
library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)
Väljund:
## Observations: 32## Variables: 6## $ mpg21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp 160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp 110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat 3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt 2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec 16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2…
Parameetrite arvutamiseks võite kasutada funktsiooni lm (). Selle funktsiooni põhisüntaks on:
lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset
Pidage meeles, et võrrand on järgmisel kujul
aastal R
- Sümbol = asendatakse sümboliga ~
- Iga x asendatakse muutuja nimega
- Kui soovite konstandi loobuda, lisage valemi lõppu -1
Näide:
Soovite hinnata üksikisikute kaalu nende pikkuse ja sissetuleku põhjal. Võrrand on
R-i võrrand on kirjutatud järgmiselt:
y ~ X1 + X2 +… + Xn # Kuulamisega
Nii et meie näite jaoks:
- Kaaluge ~ kõrgus + tulu
Teie eesmärk on hinnata miili galloni kohta muutujate hulga põhjal. Hinnanguvõrrand on:
Hinnate oma esimese lineaarse regressiooni ja salvestate tulemuse fit objektile.
model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit
Koodi selgitus
- mudel <- mpg ~ . disp + hp + drat + wt: salvestage mudel hindamiseks
- lm (mudel, df): hinnake mudelit andmeraami df abil
#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015
Väljund ei anna piisavalt teavet sobivuse kvaliteedi kohta. Funktsiooniga Summary () pääseb juurde üksikasjadele, nagu koefitsientide olulisus, vabadusaste ja jääkide kuju.
summary(fit)
Väljund:
## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10
Järeldus ülaltoodud tabeli väljundist
- Ülaltoodud tabel tõestab, et massi- ja läbisõidu ning positiivse suhte draatiga on tugev negatiivne seos.
- Statistiliselt mõjutab mpg-d ainult muutuja wt. Pidage meeles, et hüpoteesi kontrollimiseks statistikas kasutame järgmist:
- H0: Statistilist mõju pole
- H3: ennustajal on y-le märkimisväärne mõju
- Kui p väärtus on väiksem kui 0,05, näitab see, et muutuja on statistiliselt oluline
- Kohandatud R-ruut: dispersioon on seletatav mudeliga. Teie mudelis selgitas mudel 82 protsenti y variatsioonist. R ruut on alati vahemikus 0 kuni 1. Mida kõrgem, seda parem
Funktsiooni anova () iga funktsiooni mõju variatsioonide hindamiseks võite käivitada ANOVA testi.
anova(fit)
Väljund:
## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tavapärasem viis mudeli toimivuse hindamiseks on jäägi kuvamine erinevate mõõtude korral.
Funktsiooni plot () abil saate näidata nelja graafikut:
- jäägid vs paigaldatud väärtused
- Normaalne QQ graafik: teoreetiline kvartiil vs standardiseeritud jäägid
- Scale-Location: sobitatud väärtused vs standardiseeritud jääkide ruutjuured
- jäägid vs finantsvõimendus: finantsvõimendus vs standardiseeritud jäägid
Enne graafiku (sobivus) lisate koodi par (mfrow = c (2,2)). Kui te seda koodirida ei lisa, palub R järgmise graafiku kuvamiseks vajutada käsku enter.
par(mfrow=(2,2))
Koodi selgitus
- (mfrow = c (2,2)): tagastab akna, kus neli graafikut on kõrvuti.
- Esimesed 2 liidetakse ridade arv
- Teine 2 lisab veergude arvu.
- Kui kirjutate (mfrow = c (3,2)): loote 3 rida 2 veeru akna
plot(fit)
Väljund:
Valem lm () tagastab loendi, mis sisaldab palju kasulikku teavet. Neile pääseb juurde teie loodud sobivuse objektiga, millele järgneb märk $ ja teave, mille soovite ekstraheerida.
- koefitsiendid: "fit $ koefitsiendid"
- jäägid: "fit $ jäägid"
- sobitatud väärtus: `fit $ fit.values`
Tegurite taandareng
Viimases mudeli hinnangus regresseerite mpg ainult pidevatele muutujatele. Tegurimuutujate lisamine mudelile on lihtne. Lisate oma mudelile muutuja am. Oluline on olla kindel, et muutuja on teguritase ja mitte pidev.
df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))
Väljund:
#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124
R kasutab esimest teguritaset alusrühmana. Peate võrdlema teise rühma koefitsiente baasrühmaga.
Sammuline taandareng
Selle õpetuse viimane osa käsitleb järkjärgulise regressiooni algoritmi. Selle algoritmi eesmärk on lisada ja eemaldada mudelitesse potentsiaalsed kandidaadid ning hoida need, kellel on sõltuvale muutujale oluline mõju. See algoritm on mõttekas, kui andmekogum sisaldab suurt nimekirja ennustajaid. Te ei pea iseseisvaid muutujaid käsitsi lisama ja eemaldama. Astmeline regressioon on loodud selleks, et valida parimad kandidaadid, kes sobivad mudeliga.
Vaatame, kuidas see töötab. Mtcarsi andmekogumit koos pidevate muutujatega kasutate ainult pedagoogiliseks illustreerimiseks. Enne analüüsi alustamist on hea kindlaks teha andmete variatsioonid korrelatsioonimaatriksiga. GGally teek on ggplot2 laiendus.
Raamatukogu sisaldab erinevaid funktsioone, et näidata kokkuvõtlikku statistikat, näiteks kõigi maatriksi muutujate korrelatsioon ja jaotus. Kasutame funktsiooni ggscatmat, kuid lisateabe saamiseks GGally teegi kohta saate viidata vinjetile.
Ggscatmat () põhisüntaks on:
ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula
Kuvate kõigi muutujate korrelatsiooni ja otsustate, milline neist on järk-järgulise regressiooni esimese sammu parim kandidaat. Teie muutujate ja sõltuva muutuja mpg vahel on tugev seos.
library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))
Väljund:
Sammuline taandareng
Muutujate valik on mudelile sobiv oluline osa. Astmeline regressioon viib otsingu automaatselt läbi. Hinnamaks, kui palju võimalikke valikuid on andmekogumis, arvutage k abil ennustajate arv. Võimaluste hulk kasvab sõltumatute muutujate arvuga suuremaks. Sellepärast peate tegema automaatse otsingu.
Peate installima paketi olsrr CRAN-ist. Pakett pole Anacondas veel saadaval. Seega installite selle otse käsurealt:
install.packages("olsrr")
Sobivuskriteeriumite abil saate joonistada kõik võimaluste alamhulgad (st R-ruut, Kohandatud R-ruut, Bayesi kriteeriumid). Lõplikuks mudeliks on madalaima AIC-kriteeriumiga mudel.
library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)
Koodi selgitus
- mpg ~ .: Konstrueerige mudel hinnanguks
- lm (mudel, df): käivitage OLS-mudel
- ols_all_subset (fit): konstrueerige graafikud asjakohase statistilise teabega
- graafik (test): joonistage graafikud
Väljund:
Lineaarse regressiooni mudelid kasutavad t-testi, et hinnata sõltumatu muutuja statistilist mõju sõltuvale muutujale. Teadlased määrasid maksimaalseks künniseks 10 protsenti, madalamad väärtused näitavad tugevamat statistilist seost. Selle testi ümber ehitatakse järkjärgulise regressiooni strateegia potentsiaalsete kandidaatide lisamiseks ja eemaldamiseks. Algoritm töötab järgmiselt:
- 1. samm: regresseerige iga ennustaja y-le eraldi. Nimelt regresseerige x_1 y-l, x_2 y-l x_n-ni. Salvestage p-väärtus ja hoidke regressorit p-väärtusega, mis on madalam kui määratletud künnis (vaikimisi 0,1). Lävendist väiksema olulisusega ennustajad lisatakse lõplikule mudelile. Kui ühegi muutuja p-väärtus ei ole madalam kui sisestuskünnis, siis algoritm peatub ja teie lõplik mudel on ainult konstandiga.
- 2. samm: kasutage madalaima p-väärtusega ennustajat ja lisage eraldi üks muutuja. Regresseerite konstanti, esimese astme parimat ennustajat ja kolmandat muutujat. Lisate astmelisele mudelile uued ennustajad, mille väärtus on madalam kui sisestuskünnis. Kui ühegi muutuja p-väärtus pole väiksem kui 0,1, siis algoritm peatub ja teil on lõplik mudel ainult ühe ennustajaga. 1. astme parimate ennustajate olulisuse kontrollimiseks regresseerite astmelise mudeli. Kui see on eemaldamislävest kõrgem, hoiate seda järkjärgulises mudelis. Vastasel juhul välistate selle.
- 3. samm: korrake uue parema sammhaaval mudeli 2. sammu. Algoritm lisab astmelisele mudelile ennustajad, lähtudes sisestatavatest väärtustest, ja jätab ennustaja järk-järgulisest mudelist välja, kui see ei vasta välistamise lävele.
- Algoritm töötab seni, kuni ühtegi muutujat ei saa lisada ega välistada.
Algoritmi saate teostada olsrr paketi funktsiooniga ols_stepwise ().
ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)arguments:
-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step
Enne seda näitame teile algoritmi samme. Allpool on tabel sõltuvate ja sõltumatute muutujatega:
Sõltuv muutuja |
Sõltumatud muutujad |
---|---|
mpg |
laiali |
hj |
|
drat |
|
wt |
|
qsek |
Alusta
Alustuseks algab algoritm mudeli käivitamisest igal iseseisval muutujal eraldi. Tabelis on näidatud iga mudeli p-väärtus.
## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199
Mudeli sisestamiseks hoiab algoritm muutuja madalaima p-väärtusega. Ülaltoodud väljundist on see wt
Samm 1
Esimeses etapis käivitab algoritm mpg wt-l ja muud muutujad iseseisvalt.
## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03
Iga muutuja on potentsiaalne kandidaat lõpliku mudeli sisestamiseks. Algoritm hoiab siiski ainult väiksema p-väärtusega muutujat. Selgub, et hp-l on ps-väärtus veidi madalam kui qsec. Seetõttu siseneb hp lõplikku mudelisse
2. samm
Algoritm kordab esimest sammu, kuid seekord lõplikus mudelis kahe sõltumatu muutujaga.
## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01
Ühelgi lõplikku mudelisse sisenenud muutujast ei ole p-väärtus piisavalt madal. Algoritm peatub siin; meil on lõplik mudel:
#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12
Tulemuste võrdlemiseks võite kasutada funktsiooni ols_stepwise ().
stp_s <-ols_stepwise(fit, details=TRUE)
Väljund:
Algoritm leiab lahenduse kahe sammu järel ja tagastab sama väljundi, mis oli meil varem.
Lõpus võite öelda, et mudeleid selgitatakse kahe muutuja ja ristmikuga. Miil galloni kohta on negatiivses korrelatsioonis hobuse kogujõu ja kaaluga
## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.
Masinõpe
Masinõpe on andmeteadlaste seas laialt levinud ja seda kasutatakse sadades toodetes, mida igapäevaselt kasutate. Üks esimesi ML-i rakendusi oli rämpspostifilter .
Järgmised on masinõppe muud rakendused -
- E-postis soovimatute rämpspostiteadete tuvastamine
- Kliendi käitumise segmenteerimine sihitud reklaami jaoks
- Petturlike krediitkaarditehingute vähendamine
- Kodu- ja kontorihoone energiakasutuse optimeerimine
- Näotuvastus
Juhendatud õppimine
In jälgitav õppimise , koolituse andmed toida algoritmi sisaldab etiketti.
Klassifikatsioon on ilmselt kõige enam kasutatav juhendatud õppetehnika. Üks esimesi klassifitseerimisülesandeid, millega teadlased tegelesid, oli rämpsposti filter. Õppe eesmärk on ennustada, kas meil on klassifitseeritud rämpspostiks või sinki (hea e-post). Masin suudab pärast koolitusetappi tuvastada e-posti klassi.
Regressioone kasutatakse masinõppeväljal pideva väärtuse ennustamiseks. Regressioonülesanne võib ennustada sõltuva muutuja väärtust sõltumatute muutujate hulga (nimetatakse ka ennustajateks või regressoriteks) põhjal. Näiteks võivad lineaarsed regressioonid ennustada aktsia hinda, ilmaennustust, müüki ja nii edasi.
Siin on loetelu mõnedest põhilistest juhendatud õppealgoritmidest.
- Lineaarne regressioon
- Logistiline taandareng
- Lähimad naabrid
- Toetage vektormasinat (SVM)
- Otsustuspuud ja juhuslik mets
- Närvivõrgud
Järelevalveta õppimine
In järelevalveta õppimise , koolituse andmed märgistamata. Süsteem proovib õppida ilma viiteta. Allpool on loetelu järelevalveta õppimisalgoritmidest.
- K-keskmine
- Hierarhiline klastrianalüüs
- Ootuse maksimeerimine
- Visualiseerimine ja mõõtmete vähendamine
- Põhikomponentide analüüs
- Tuuma PCA
- Kohalik-lineaarne kinnistamine
Kokkuvõte
Tavalise väikseima ruudu regressiooni võib kokku võtta järgmises tabelis:
Raamatukogu |
Eesmärk |
Funktsioon |
Argumendid |
---|---|---|---|
alus |
Arvutage lineaarne regressioon |
lm () |
valem, andmed |
alus |
Kokkuvõte mudelist |
kokku võtma () |
sobib |
alus |
Exctract koefitsiendid |
lm () $ koefitsient | |
alus |
Eemaldage jäägid |
lm () $ jääke | |
alus |
Eemaldada sobiva väärtuse |
lm () $ sobivad.väärtused | |
olsrr |
Käivitage järkjärguline regressioon |
ols_stepwise () |
sobivus, pent = 0,1, prem = 0,3, detailid = FALSE |
Märkus . Ärge unustage enne mudeli sobivuse muutmist tegur kategooriline muutuja.