Mis on R-programmeerimiskeel? Sissejuhatus & R põhitõed

Lang L: none (table-of-contents):

Anonim

Mis on R-tarkvara?

R on programmeerimiskeel ja vabatarkvara, mille on välja töötanud Ross Ihaka ja Robert Gentleman 1993. aastal. R-l on ulatuslik statistiliste ja graafiliste meetodite kataloog. See sisaldab masinõppe algoritme, lineaarset regressiooni, aegridu, statistilisi järeldusi, et nimetada vaid mõnda. Enamik R-teekidest on kirjutatud tähtedega R, kuid raskete arvutusülesannete jaoks eelistatakse C-, C ++ - ja Fortrani koode.

R-i ei usalda mitte ainult akadeemikud, vaid paljud suured ettevõtted kasutavad ka R-programmeerimiskeelt, sealhulgas Uber, Google, Airbnb, Facebook ja nii edasi.

Andmete analüüs R-ga toimub mitmel etapil; tulemuste programmeerimine, teisendamine, avastamine, modelleerimine ja edastamine

  • Programm : R on selge ja juurdepääsetav programmeerimisvahend
  • Transform : R koosneb spetsiaalselt andmeteaduse jaoks loodud raamatukogude kogust
  • Avastage : uurige andmeid, täpsustage oma hüpoteesi ja analüüsige neid
  • Mudel : R pakub laia valikut tööriistu teie andmete jaoks õige mudeli jäädvustamiseks
  • Suhtlemine : integreerige R Markdowniga aruandesse koodid, graafikud ja väljundid või koostage Shiny-rakendusi, et neid kogu maailmaga jagada

Selles sissejuhatavas õpetuses õpite R-d

  • Milleks R-d kasutatakse?
  • R tööstuse järgi
  • R pakett
  • Suhtle R-ga
  • Miks kasutada R-d?
  • Kas peaksite valima R?
  • Kas R on raske?

Milleks R-d kasutatakse?

  • Statistiline järeldus
  • Andmete analüüs
  • Masinõppe algoritm

R tööstuse järgi

Kui me jaotame R-i kasutamise tööstuse lõikes, näeme, et esikohal on akadeemikud. R on keel statistikat teha. R on esimene valik tervishoiusektoris, millele järgnevad valitsus ja nõustamine.

R pakett

R-i peamised kasutusalad on ja jäävad statistikaks, visualiseerimiseks ja masinõppeks. Alloleval pildil on näha, milline R-pakett sai Stack Overflow'is kõige rohkem küsimusi. Kümne parema hulgas on enamik neist seotud andmeteadlase töövoogudega: andmete ettevalmistamine ja tulemuste edastamine.

Kõik R-i raamatukogud, peaaegu 12 k, on salvestatud CRAN-i. CRAN on tasuta ja avatud lähtekoodiga. Masinõppe või aegridade analüüsi läbiviimiseks saate arvukaid teeke alla laadida ja kasutada.

Suhtle R-ga

R-l on töö esitamiseks ja jagamiseks mitu võimalust, kas märgistusdokumendi või läikiva rakenduse kaudu. Kõike saab majutada Rpubis, GitHubis või ettevõtte veebisaidil.

Allpool on näide Rpubis hostitud esitlusest

Rstudio aktsepteerib dokumendi kirjutamiseks märgistust. Dokumendid saate eksportida erinevates vormingutes.

  • Dokument:
    • HTML
    • PDF / lateks
    • Sõna
  • Esitlus
    • HTML
    • PDF-kiirgus

Rstudios on suurepärane tööriist rakenduse hõlpsaks loomiseks. Allpool on näide rakendusest koos Maailmapanga andmetega.

Miks kasutada R-d?

Andmeteadus kujundab ettevõtete äritegevuse viisi. Kahtlemata viib tehisintellektist ja masinast eemalejäämine ettevõtte ebaõnnestumiseni. Suur küsimus on, millist tööriista / keelt peaksite kasutama?

Andmete analüüsi tegemiseks on turul palju tööriistu. Uue keele õppimine nõuab mõnda aega investeerimist. Alloleval pildil on kujutatud õppimiskõverat võrreldes keele pakutava ärivõimega. Negatiivne suhe tähendab, et tasuta lõunasööki pole. Kui soovite andmetest parimat ülevaadet anda, peate kulutama mõnda aega vastava tööriista õppimiseks, milleks on R.

Graafiku vasakus ülanurgas näete Exceli ja PowerBI-d. Neid kahte tööriista on lihtne õppida, kuid need ei paku silmapaistvat ärivõimet, eriti modelleerimise osas. Keskelt näete Pythoni ja SAS-i. SAS on spetsiaalne tööriist ettevõtte statistilise analüüsi läbiviimiseks, kuid see pole tasuta. SAS on kliki ja käivita tarkvara. Python on aga monotoonse õppimiskõveraga keel. Python on fantastiline tööriist masinõppe ja tehisintellekti juurutamiseks, kuid sellel puuduvad kommunikatsioonifunktsioonid. Identse õppimiskõveraga on R hea kompromiss rakendamise ja andmete analüüsi vahel.

Andmete visualiseerimise (DataViz) osas olete ilmselt kuulnud Tableau kohta. Tableau on kahtlemata suurepärane vahend graafikute ja diagrammide kaudu mustrite avastamiseks. Pealegi pole Tableau õppimine aeganõudev. Andmete visualiseerimise üks suur probleem on see, et võite lõpuks mustrit üles leida või lihtsalt luua palju kasutuid diagramme. Tableau on hea vahend andmete või ärianalüüsi kiireks visualiseerimiseks. Statistika ja otsuste tegemise tööriista puhul on R sobivam.

Stack Overflow on suur programmeerimiskeelte kogukond. Kui teil on kodeerimisprobleeme või peate mudelist aru saama, on siin abiks Virnade ülevool. Aastaga on küsimuste vaatamiste protsent R-i jaoks teiste keeltega võrreldes järsult kasvanud. See suundumus on muidugi tugevalt seotud andmeteaduse õitsva vanusega, kuid see peegeldab R-keele nõudlust andmeteaduse järele.

Andmeteaduses on omavahel võistlemas kaks tööriista. R ja Python on tõenäoliselt programmeerimiskeel, mis määrab andmeteaduse.

Kas peaksite valima R?

Andmeteadlane saab kasutada kahte suurepärast tööriista: R ja Python. Teil ei pruugi olla aega mõlema õppimiseks, eriti kui alustate andmeteaduse õppimist. Statistilise modelleerimise ja algoritmi õppimineon palju olulisem kui programmeerimiskeele õppimine. Programmeerimiskeel on tööriist oma avastuse arvutamiseks ja edastamiseks. Andmeteaduse kõige olulisem ülesanne on viis, kuidas te andmetega tegelete: importimine, puhastamine, ettevalmistamine, funktsioonide väljatöötamine, funktsioonide valik. See peaks olema teie peamine tähelepanu. Kui proovite õppida R-i ja Pythoni samaaegselt ilma kindla statistikataustata, on see lihtsalt rumal. Andmeteadlased pole programmeerijad. Nende ülesanne on mõista andmeid, nendega manipuleerida ja paljastada parim lähenemisviis. Kui mõtlete, millist keelt õppida, vaatame, milline keel on teile kõige sobivam.

Peamine andmeteaduse vaatajaskond on äritöötaja. Ettevõtluses on üks suur implikatsioon suhtlemine. Suhtlemiseks on palju võimalusi: aruanne, veebirakendus, juhtpaneel. Teil on vaja tööriista, mis teeb seda kõike koos.

Kas R on raske?

Aastaid tagasi oli R keele valdamine keeruline. Keel oli segane ega olnud nii struktureeritud kui teised programmeerimisvahendid. Selle olulise probleemi ületamiseks töötas Hadley Wickham välja pakettide kogu nimega tidyverse. Mängureegel muutus paremaks. Andmetega manipuleerimine muutub tühiseks ja intuitiivseks. Graafiku koostamine polnud enam nii keeruline.

Parimaid masinõppe algoritme saab rakendada R. abil. Paketid, nagu Keras ja TensorFlow, võimaldavad luua tipptasemel masinõppe tehnikat. R-l on ka pakett Xgboosti sooritamiseks, mis on Kaggle'i võistluse parim algoritm.

R saab suhelda teise keelega. R-s on võimalik helistada Pythonile, Java-le, C ++ -ile. Suurandmete maailm on juurdepääsetav ka R-le. R-i saate ühendada erinevate andmebaasidega nagu Spark või Hadoop.

Lõpuks on R arenenud ja võimaldanud arvutamise kiirendamiseks paralleelset toimingut. Tegelikult kritiseeriti R-i, kuna ta kasutas korraga ainult ühte protsessorit. Paralleelpakett võimaldab teil täita ülesandeid masina erinevates tuumades.

Kokkuvõte

Lühidalt öeldes on R suurepärane vahend andmete uurimiseks ja uurimiseks. Täpsem analüüs, nagu klastrid, korrelatsioon ja andmete vähendamine, tehakse R-ga. See on kõige olulisem osa, ilma hea funktsioonitehnika ja mudelita ei anna masinõppe juurutamine sisukaid tulemusi.