R Lihtne, mitmekordne ja järkjärguline regressioon (koos näitega)

Selles õpetuses saate teada

Lihtne lineaarne regressioon
Mitu lineaarset regressiooni
Pidevad muutujad
Tegurite taandareng
Sammuline taandareng
Masinõpe
Juhendatud õppimine
Järelevalveta õppimine

Lihtne lineaarne regressioon

Lineaarne regressioon vastab lihtsale küsimusele: kas saate mõõta täpset suhet ühe sihtmuutuja ja ennustajahulga vahel?

Lihtsaim tõenäosusmudel on sirgjooneline mudel:

kus

y = sõltuv muutuja
x = sõltumatu muutuja
= juhusliku vea komponent
= pealtkuulamine
= Koefitsient x

Mõelge järgmisele proovitükile:

Võrrand on lõikepunkt. Kui x võrdub 0-ga, võrdub y lõikepunktiga 4,77. on joone kalle. See ütleb, millises proportsioonis y varieerub, kui x varieerub.

Et hinnata optimaalsete väärtuste sa kasutada meetodit nimetatakse harilik vähimruutude (OLS) . Selle meetodiga püütakse leida parameetrid, mis minimeerivad ruutude vigade summa, see tähendab vertikaalne kaugus ennustatud y väärtuste ja tegelike y väärtuste vahel. Erinevust nimetatakse veaterminiks .

Enne mudeli hindamist saate hajumisdiagrammi joonistamise abil kindlaks teha, kas y ja x lineaarne seos on usutav.

Hajuvusdiagramm

Lihtsa lineaarse regressiooni mõiste selgitamiseks kasutame väga lihtsat andmekogumit. Impordime Ameerika naiste keskmised kõrgused ja kaalud. Andmekogum sisaldab 15 vaatlust. Soovite mõõta, kas kõrgused on kaaludega positiivses korrelatsioonis.

library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()

Väljund:

Hajusdiagramm näitab üldist kalduvust y suureneda, kui x suureneb. Järgmises etapis mõõdate, kui palju iga järgmise lisatasu puhul suureneb.

Vähim ruutude hinnangud

Lihtsa OLS-i regressiooni korral on arvutus sirgjooneline. Eesmärk pole selles õpetuses tuletamist näidata. Kirjutate ainult valemi.

Soovite hinnata:

OLS-i regressiooni eesmärk on minimeerida järgmine võrrand:

kus

prognoositav väärtus.

Lahendus

Pange tähele, et see tähendab x keskmist väärtust

Lahendus

R-s saate hindamiseks kasutada funktsioone cov () ja var () ning prognoosimiseks

beta <- cov(df$height, df$weight) / var (df$height)beta

Väljund:

##[1] 3.45

alpha <- mean(df$weight) - beta * mean(df$height)alpha

Väljund:

## [1] -87.51667

Beetakoefitsient tähendab, et iga täiendava pikkuse korral suureneb kaal 3,45 võrra.

Lihtsa lineaarvõrrandi käsitsi hindamine pole ideaalne. R pakub nende parameetrite hindamiseks sobiva funktsiooni. Seda funktsiooni näete varsti. Enne seda tutvustame lihtsa lineaarse regressioonimudeli käsitsi arvutamist. Oma andmeteadlase teekonnal hindate vaevalt või mitte kunagi lihtsat lineaarset mudelit. Enamikus olukordades tehakse regressioonülesandeid paljudele hinnangutele.

Mitu lineaarset regressiooni

Regressioonanalüüsi praktilisemates rakendustes kasutatakse lihtsama sirgjoonelise mudeliga võrreldes keerulisemaid mudeleid. Tõenäosuslikku mudelit, mis sisaldab rohkem kui ühte sõltumatut muutujat, nimetatakse mitmeks regressioonimudeliks . Selle mudeli üldine vorm on:

Maatriksmärgistuses saate mudeli ümber kirjutada:

Sõltuv muutuja y on nüüd k sõltumatute muutujate funktsioon. Koefitsiendi väärtus .

Tutvustame lühidalt OLSi juhusliku vea kohta tehtud eeldust :

Keskmine võrdub 0-ga
Dispersioon on võrdne
Normaalne jaotus
Juhuslikud vead on sõltumatud (tõenäosuslikus mõttes)

Peate lahendama regressioonikordajate vektori, mis minimeerib prognoositud ja tegelike y väärtuste ruutude summa.

Suletud vormis lahendus on:

koos:

tähistab maatriksi X transpositsiooni
tähistab pööratavat maatriksit

Kasutame mtcarsi andmekogumit. Te olete andmekogumiga juba tuttav. Meie eesmärk on ennustada miili galloni kohta funktsioonide komplekti kohta.

Pidevad muutujad

Praegu kasutate ainult pidevaid muutujaid ja jätate kategoorilised tunnused kõrvale. Muutuja am on binaarne muutuja, mille väärtus on 1, kui käigukast on manuaalne, ja 0 automaatautode puhul; vs on ka binaarne muutuja.

library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)

Väljund:

## Observations: 32## Variables: 6## $ mpg  21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp  160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp  110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat  3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt  2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec  16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2…

Parameetrite arvutamiseks võite kasutada funktsiooni lm (). Selle funktsiooni põhisüntaks on:

lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset

Pidage meeles, et võrrand on järgmisel kujul

aastal R

Sümbol = asendatakse sümboliga ~
Iga x asendatakse muutuja nimega
Kui soovite konstandi loobuda, lisage valemi lõppu -1

Näide:

Soovite hinnata üksikisikute kaalu nende pikkuse ja sissetuleku põhjal. Võrrand on

R-i võrrand on kirjutatud järgmiselt:

y ~ X1 + X2 +… + Xn # Kuulamisega

Nii et meie näite jaoks:

Kaaluge ~ kõrgus + tulu

Teie eesmärk on hinnata miili galloni kohta muutujate hulga põhjal. Hinnanguvõrrand on:

Hinnate oma esimese lineaarse regressiooni ja salvestate tulemuse fit objektile.

model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit

Koodi selgitus

mudel <- mpg ~ . disp + hp + drat + wt: salvestage mudel hindamiseks
lm (mudel, df): hinnake mudelit andmeraami df abil

#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015

Väljund ei anna piisavalt teavet sobivuse kvaliteedi kohta. Funktsiooniga Summary () pääseb juurde üksikasjadele, nagu koefitsientide olulisus, vabadusaste ja jääkide kuju.

summary(fit)

Väljund:

## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10

Järeldus ülaltoodud tabeli väljundist

Ülaltoodud tabel tõestab, et massi- ja läbisõidu ning positiivse suhte draatiga on tugev negatiivne seos.
Statistiliselt mõjutab mpg-d ainult muutuja wt. Pidage meeles, et hüpoteesi kontrollimiseks statistikas kasutame järgmist:
- H0: Statistilist mõju pole
- H3: ennustajal on y-le märkimisväärne mõju
- Kui p väärtus on väiksem kui 0,05, näitab see, et muutuja on statistiliselt oluline
Kohandatud R-ruut: dispersioon on seletatav mudeliga. Teie mudelis selgitas mudel 82 protsenti y variatsioonist. R ruut on alati vahemikus 0 kuni 1. Mida kõrgem, seda parem

Funktsiooni anova () iga funktsiooni mõju variatsioonide hindamiseks võite käivitada ANOVA testi.

anova(fit)

Väljund:

## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Tavapärasem viis mudeli toimivuse hindamiseks on jäägi kuvamine erinevate mõõtude korral.

Funktsiooni plot () abil saate näidata nelja graafikut:

- jäägid vs paigaldatud väärtused

- Normaalne QQ graafik: teoreetiline kvartiil vs standardiseeritud jäägid

- Scale-Location: sobitatud väärtused vs standardiseeritud jääkide ruutjuured

- jäägid vs finantsvõimendus: finantsvõimendus vs standardiseeritud jäägid

Enne graafiku (sobivus) lisate koodi par (mfrow = c (2,2)). Kui te seda koodirida ei lisa, palub R järgmise graafiku kuvamiseks vajutada käsku enter.

par(mfrow=(2,2))

Koodi selgitus

(mfrow = c (2,2)): tagastab akna, kus neli graafikut on kõrvuti.
Esimesed 2 liidetakse ridade arv
Teine 2 lisab veergude arvu.
Kui kirjutate (mfrow = c (3,2)): loote 3 rida 2 veeru akna

plot(fit)

Väljund:

Valem lm () tagastab loendi, mis sisaldab palju kasulikku teavet. Neile pääseb juurde teie loodud sobivuse objektiga, millele järgneb märk $ ja teave, mille soovite ekstraheerida.

- koefitsiendid: "fit $ koefitsiendid"

- jäägid: "fit $ jäägid"

- sobitatud väärtus: `fit $ fit.values`

Tegurite taandareng

Viimases mudeli hinnangus regresseerite mpg ainult pidevatele muutujatele. Tegurimuutujate lisamine mudelile on lihtne. Lisate oma mudelile muutuja am. Oluline on olla kindel, et muutuja on teguritase ja mitte pidev.

df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))

Väljund:

#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124

R kasutab esimest teguritaset alusrühmana. Peate võrdlema teise rühma koefitsiente baasrühmaga.

Sammuline taandareng

Selle õpetuse viimane osa käsitleb järkjärgulise regressiooni algoritmi. Selle algoritmi eesmärk on lisada ja eemaldada mudelitesse potentsiaalsed kandidaadid ning hoida need, kellel on sõltuvale muutujale oluline mõju. See algoritm on mõttekas, kui andmekogum sisaldab suurt nimekirja ennustajaid. Te ei pea iseseisvaid muutujaid käsitsi lisama ja eemaldama. Astmeline regressioon on loodud selleks, et valida parimad kandidaadid, kes sobivad mudeliga.

Vaatame, kuidas see töötab. Mtcarsi andmekogumit koos pidevate muutujatega kasutate ainult pedagoogiliseks illustreerimiseks. Enne analüüsi alustamist on hea kindlaks teha andmete variatsioonid korrelatsioonimaatriksiga. GGally teek on ggplot2 laiendus.

Raamatukogu sisaldab erinevaid funktsioone, et näidata kokkuvõtlikku statistikat, näiteks kõigi maatriksi muutujate korrelatsioon ja jaotus. Kasutame funktsiooni ggscatmat, kuid lisateabe saamiseks GGally teegi kohta saate viidata vinjetile.

Ggscatmat () põhisüntaks on:

ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula

Kuvate kõigi muutujate korrelatsiooni ja otsustate, milline neist on järk-järgulise regressiooni esimese sammu parim kandidaat. Teie muutujate ja sõltuva muutuja mpg vahel on tugev seos.

library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))

Väljund:

Sammuline taandareng

Muutujate valik on mudelile sobiv oluline osa. Astmeline regressioon viib otsingu automaatselt läbi. Hinnamaks, kui palju võimalikke valikuid on andmekogumis, arvutage k abil ennustajate arv. Võimaluste hulk kasvab sõltumatute muutujate arvuga suuremaks. Sellepärast peate tegema automaatse otsingu.

Peate installima paketi olsrr CRAN-ist. Pakett pole Anacondas veel saadaval. Seega installite selle otse käsurealt:

install.packages("olsrr")

Sobivuskriteeriumite abil saate joonistada kõik võimaluste alamhulgad (st R-ruut, Kohandatud R-ruut, Bayesi kriteeriumid). Lõplikuks mudeliks on madalaima AIC-kriteeriumiga mudel.

library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)

Koodi selgitus

mpg ~ .: Konstrueerige mudel hinnanguks
lm (mudel, df): käivitage OLS-mudel
ols_all_subset (fit): konstrueerige graafikud asjakohase statistilise teabega
graafik (test): joonistage graafikud

Väljund:

Lineaarse regressiooni mudelid kasutavad t-testi, et hinnata sõltumatu muutuja statistilist mõju sõltuvale muutujale. Teadlased määrasid maksimaalseks künniseks 10 protsenti, madalamad väärtused näitavad tugevamat statistilist seost. Selle testi ümber ehitatakse järkjärgulise regressiooni strateegia potentsiaalsete kandidaatide lisamiseks ja eemaldamiseks. Algoritm töötab järgmiselt:

1. samm: regresseerige iga ennustaja y-le eraldi. Nimelt regresseerige x_1 y-l, x_2 y-l x_n-ni. Salvestage p-väärtus ja hoidke regressorit p-väärtusega, mis on madalam kui määratletud künnis (vaikimisi 0,1). Lävendist väiksema olulisusega ennustajad lisatakse lõplikule mudelile. Kui ühegi muutuja p-väärtus ei ole madalam kui sisestuskünnis, siis algoritm peatub ja teie lõplik mudel on ainult konstandiga.
2. samm: kasutage madalaima p-väärtusega ennustajat ja lisage eraldi üks muutuja. Regresseerite konstanti, esimese astme parimat ennustajat ja kolmandat muutujat. Lisate astmelisele mudelile uued ennustajad, mille väärtus on madalam kui sisestuskünnis. Kui ühegi muutuja p-väärtus pole väiksem kui 0,1, siis algoritm peatub ja teil on lõplik mudel ainult ühe ennustajaga. 1. astme parimate ennustajate olulisuse kontrollimiseks regresseerite astmelise mudeli. Kui see on eemaldamislävest kõrgem, hoiate seda järkjärgulises mudelis. Vastasel juhul välistate selle.
3. samm: korrake uue parema sammhaaval mudeli 2. sammu. Algoritm lisab astmelisele mudelile ennustajad, lähtudes sisestatavatest väärtustest, ja jätab ennustaja järk-järgulisest mudelist välja, kui see ei vasta välistamise lävele.
Algoritm töötab seni, kuni ühtegi muutujat ei saa lisada ega välistada.

Algoritmi saate teostada olsrr paketi funktsiooniga ols_stepwise ().

ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)

arguments:

-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step

Enne seda näitame teile algoritmi samme. Allpool on tabel sõltuvate ja sõltumatute muutujatega:

Sõltuv muutuja	Sõltumatud muutujad
mpg	laiali
	hj
	drat
	wt
	qsek

Alusta

Alustuseks algab algoritm mudeli käivitamisest igal iseseisval muutujal eraldi. Tabelis on näidatud iga mudeli p-väärtus.

## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199

Mudeli sisestamiseks hoiab algoritm muutuja madalaima p-väärtusega. Ülaltoodud väljundist on see wt

Samm 1

Esimeses etapis käivitab algoritm mpg wt-l ja muud muutujad iseseisvalt.

## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03

Iga muutuja on potentsiaalne kandidaat lõpliku mudeli sisestamiseks. Algoritm hoiab siiski ainult väiksema p-väärtusega muutujat. Selgub, et hp-l on ps-väärtus veidi madalam kui qsec. Seetõttu siseneb hp lõplikku mudelisse

2. samm

Algoritm kordab esimest sammu, kuid seekord lõplikus mudelis kahe sõltumatu muutujaga.

## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01

Ühelgi lõplikku mudelisse sisenenud muutujast ei ole p-väärtus piisavalt madal. Algoritm peatub siin; meil on lõplik mudel:

#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12

Tulemuste võrdlemiseks võite kasutada funktsiooni ols_stepwise ().

stp_s <-ols_stepwise(fit, details=TRUE)

Väljund:

Algoritm leiab lahenduse kahe sammu järel ja tagastab sama väljundi, mis oli meil varem.

Lõpus võite öelda, et mudeleid selgitatakse kahe muutuja ja ristmikuga. Miil galloni kohta on negatiivses korrelatsioonis hobuse kogujõu ja kaaluga

## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.

Masinõpe

Masinõpe on andmeteadlaste seas laialt levinud ja seda kasutatakse sadades toodetes, mida igapäevaselt kasutate. Üks esimesi ML-i rakendusi oli rämpspostifilter .

Järgmised on masinõppe muud rakendused -

E-postis soovimatute rämpspostiteadete tuvastamine
Kliendi käitumise segmenteerimine sihitud reklaami jaoks
Petturlike krediitkaarditehingute vähendamine
Kodu- ja kontorihoone energiakasutuse optimeerimine
Näotuvastus

Juhendatud õppimine

In jälgitav õppimise , koolituse andmed toida algoritmi sisaldab etiketti.

Klassifikatsioon on ilmselt kõige enam kasutatav juhendatud õppetehnika. Üks esimesi klassifitseerimisülesandeid, millega teadlased tegelesid, oli rämpsposti filter. Õppe eesmärk on ennustada, kas meil on klassifitseeritud rämpspostiks või sinki (hea e-post). Masin suudab pärast koolitusetappi tuvastada e-posti klassi.

Regressioone kasutatakse masinõppeväljal pideva väärtuse ennustamiseks. Regressioonülesanne võib ennustada sõltuva muutuja väärtust sõltumatute muutujate hulga (nimetatakse ka ennustajateks või regressoriteks) põhjal. Näiteks võivad lineaarsed regressioonid ennustada aktsia hinda, ilmaennustust, müüki ja nii edasi.

Siin on loetelu mõnedest põhilistest juhendatud õppealgoritmidest.

Lineaarne regressioon
Logistiline taandareng
Lähimad naabrid
Toetage vektormasinat (SVM)
Otsustuspuud ja juhuslik mets
Närvivõrgud

Järelevalveta õppimine

In järelevalveta õppimise , koolituse andmed märgistamata. Süsteem proovib õppida ilma viiteta. Allpool on loetelu järelevalveta õppimisalgoritmidest.

K-keskmine
Hierarhiline klastrianalüüs
Ootuse maksimeerimine
Visualiseerimine ja mõõtmete vähendamine
Põhikomponentide analüüs
Tuuma PCA
Kohalik-lineaarne kinnistamine

Kokkuvõte

Tavalise väikseima ruudu regressiooni võib kokku võtta järgmises tabelis:

Raamatukogu	Eesmärk	Funktsioon	Argumendid
alus	Arvutage lineaarne regressioon	lm ()	valem, andmed
alus	Kokkuvõte mudelist	kokku võtma ()	sobib
alus	Exctract koefitsiendid	lm () $ koefitsient
alus	Eemaldage jäägid	lm () $ jääke
alus	Eemaldada sobiva väärtuse	lm () $ sobivad.väärtused
olsrr	Käivitage järkjärguline regressioon	ols_stepwise ()	sobivus, pent = 0,1, prem = 0,3, detailid = FALSE

Märkus . Ärge unustage enne mudeli sobivuse muutmist tegur kategooriline muutuja.

R Lihtne, mitmekordne ja järkjärguline regressioon (koos näitega)

Lang L: none (table-of-contents):

Lihtne lineaarne regressioon

Hajuvusdiagramm

Vähim ruutude hinnangud

Mitu lineaarset regressiooni

Pidevad muutujad

Tegurite taandareng

Sammuline taandareng

Sammuline taandareng

Masinõpe

Juhendatud õppimine

Järelevalveta õppimine

Kokkuvõte

Kuidas kasutada AutoIT-i koos seleeni veebidraiveriga: näide failide üleslaadimisest

Kuidas käsitseda AJAX-kõnet seleeni veebidraiveris

Kuidas käsitseda SSL-sertifikaati seleenis WebDriveris

JavaScriptExecutor seleeni WebDriveris koos näitega

Kuidas kasutada IntelliJ IDE & Seleeni veebidraiver

Objektihoidla loomine Seleeni WebDriveris: XML & Atribuutide fail

Kuidas lehte Selenium Webdriver lehel alla või üles kerida

Kaudne, selgesõnaline ja & Sujuv ootamine seleeni veebidraiveris

Topeltklõpsake ja paremklõpsake seleenis koos näidetega

XPath sisaldab, järgides õde-venda, esivanemat & Seleen JA / VÕI

# 001 - seeria tutvustus - CSS-trikid

Squigglevision - CSS-trikid

# 003 - esmane kliendisuhtlus - CSS-trikid

# 004 - Photoshopi lõuend - CSS-trikid

The Greatest CSS Tricks Vol. I - CSS-trikid