Blog

Data Science: ktorým jazykom začať?

Learn2Code tím - 11.08.2021 - Vzdelávanie

Aj ty rozmýšľaš o tom, že sa naučíš data science, ale nevieš, kde začať? Dostávame otázky na to, s ktorým data science jazykom začať ako s prvým. Preto sme pripravili tento blog, v ktorom ti zosumarizujeme nami navrhovaný postup učenia sa data science. V článku nájdeš tipy na jazyky dátovej vedy od našich lektorov Mira Beku, ktorý spravil populárny online kurz Python Data Science a od Mareka Čecha, ktorý vytvoril kurz so zameraním na SQL dátovú analýzu. Veríme, že tento článok ti pomôže vybrať ten správny data science jazyk.

Správny jazyk pre tvoje Data Science ciele

Predtým, ako si vyberieš konkrétny jazyk, by si si mal(a) položiť niekoľko otázok a zodpovedať na ne. Sú to najmä tieto: Na akých projektoch chceš pracovať? Aké témy ťa zaujímajú? Do ktorých odvetví chceš ísť?

Odpovede na tieto otázky ti pomôžu určiť jazyk, ktorý sa budeš musieť naučiť. Niektoré odvetvia vyžadujú znalosť konkrétneho jazyka, je to najmä z dôvodu, že budeš pracovať s preverenými modelmi daného odvetvia, ktoré sú vytvorené pomocou určitého jazyka.

Dobrým postupom je aj opýtať sa dátových vedcov z odvetvia, ktoré ťa zaujíma, na jazyky, ktoré používajú a čím odporúčajú začať. Nižšie v článku nájdeš niekoľko facebookových a iných skupín z regiónu Slovenska a Česka, ktoré ti odporúčame.

TL;DR: Najčastejšie používané jazyky v dátovej vede sú Python, R a SQL. Toto sú aj nami odporúčané jazyky, ktorými začať, pokiaľ máš v úmysle stať sa dátovým vedcom. 

Pri výbere akéhokoľvek z data science jazykov však v podstate neurobíš chybu, nakoľko keď sa naučíš extrahovať poznatky a dáta pomocou jedného jazyka, nebude pre teba problém naučiť sa iný jazyk. Všestranný dátový vedec by mal byť schopný "skákať" medzi jazykmi.

Najobľúbenejšie Data Science jazyky

V tomto stručnom prehľade ti predstavíme najobľúbenejšie Data Science jazyky a na čo slúžia. Dobrou správou je, že Python, R aj SQL majú rozsiahle ekosystémy a komunity, takže tieto jazyky sú vhodné pre takmer všetky úlohy dátovej vedy.

Python 

Python je univerzálny moderný programovací jazyk, vieš ním robiť weby aj programovať robotov. Medzi programátormi je obľúbený pre svoju stručnú a ľahko čitateľnú syntax. Dobre sa teda číta a je možné sa ho veľmi rýchlo naučiť - je teda skvelou voľbou pre výučbu programovania. Vďaka množstvu výkonných knižníc a balíkov môže Python implementovať mnohé zo štatistických modelov a výpočtov potrebných pre dátovú vedu. Je to tiež jeden z najlepších jazykov na získavanie (scraping) údajov z webu.

Veľa firiem a organizácií používa Python na data science, pretože ich programátori už používajú Python aj na iné účely. Python tiež používa intuitívnu a jednoduchú syntax, takže je vhodný pre začiatočníkov na učenie sa dôležitých všeobecných konceptov programovania, ako sú napr. funkcie.

Miernou nevýhodou Pythonu ako prvého jazyka pre data science je, že základná inštalácia Pythonu neobsahuje štatistické funkcie, takže si budeš musieť stiahnuť všetky potrebné balíčky, aby si mohol začať s data science v Pythone. Keď si však všetko nastavíš, Python sa dá ľahko naučiť.

Zopár zaujímavých a odporúčaných balíčkov pre Python:

Lektor Miro Beka odporúča aj Jupyter notebook, ktorý je podľa neho "skvelý nástroj ako pracovať s Python datas cience, pretože programátor vie priamo v ňom vykonávať všetky funkcie, zobrazovať grafy a obrázky, prípadne importovať existujúce jupyter notebooky. Keďže python nemá natívne IDE, kde by všetky tieto veci fungovali out of the box, jupyter notebook slušne dopĺňa Python prostredie o potrebné nástroje."

Programovací jazyk R 

R je štatistický programovací jazyk vytvorený pre analýzu údajov, vizualizáciu údajov a dátovú vedu. Dodáva sa s komplexným súborom vstavaných štatistických funkcií a metód.

R je dobrá voľba, ak si nováčik v oblasti dátovej vedy, ale už máš základné znalosti o všeobecných konceptoch programovania. Dátové štruktúry, typy premenných a analytické nástroje v R sú jednoduché a navrhnuté špeciálne pre dátovú vedu. Na začiatku nemusíš byť zaneprázdnený syntaxou alebo viacerými rôznymi knižnicami.

So základnou inštaláciou R budeš mať prístup k mnohým funkciám dátovej vedy, ako sú lineárne regresie alebo t-testy, a vytvárať peknú grafiku a vizualizácie. R sa tiež dobre kombinuje s RStudio - integrovaným vývojovým prostredím (IDE) - ktoré uľahčuje spustenie kódu R a kontrolu výstupu.

Medzi niekoľko užitočných balíkov, o ktorých by si mal vedieť pri učení jazyka R, patria:

  • Zbierka data science balíčkov: tidyverse
  • Data manipulácia: dplyr (nachádza sa aj v tidyverse)
  • Vizualizácia: ggplot2 (nachádza sa aj v tidyverse)
  • Regresia: caret

SQL

SQL je jazyk, ktorý umožňuje programátorom komunikovať s databázami a spravovať údaje, ktoré obsahujú. Bežne sa používa na dopytovanie a úpravu údajov uložených v relačnej databáze.

Dátoví vedci zvyčajne extrahujú údaje z databázy pomocou jazyka SQL a potom ich importujú do R alebo Pythonu na analýzu. Bez ohľadu na to, aký jazyk sa pre analýzu údajov naučíš, SQL je dôležité naučiť sa, ak chceš sťahovať údaje z databáz.

Znalosť jazyka SQL ti umožňuje pracovať s databázami PostgreSQL, SQLite, MySQL a ďalšími relačnými databázami. Syntax základných dotazov je v rôznych databázach podobná, takže SQL je na tento účel univerzálnym jazykom. Ak sa chceš dozvedieť viac o rôznych typoch databáz, pozri si tento online kurz o MySQL a SQLite.

Lektor Marek Čech hovorí o SQL ako o vstupnej bráne do odborov súvisiacich so správou dát, či už sa jedná o dáta science, dáta analýzu alebo napríklad business intelligence. Je nielen univerzálnym jazykom pre komunikáciu s databázami a získavanie dát z nich, ale ponúka aj veľké množstvo vstavaných funkcií, vďaka ktorým je používateľ veľmi rýchlo a jednoducho schopný robiť pomerne komplexné operácie.

"Začať svoju cestu k práci s dátami jazykom SQL by som práve preto odporučil aj ľuďom, ktorí nemajú predchádzajúce skúsenosti s programovaním či "kódovaním". Človek sa tak naučia písať jednoduché aj zložité otázky, vytvárať databázové schémy, indexy či procedúry, a všeobecne pochopí, ako tok dát a ich čistenie / transformácie bežne prebieha." hovorí ďalej Marek Čech.

Jazyk SQL je možné využiť naozaj v akomkoľvek odbore. Poznať ho teda znamená otvorené dvere do lokálnych podnikov i nadnárodných korporácií snáď vo všetkých odvetviach. A keď sa človek rozhodne svoje znalosti rozšíriť o ďalšie jazyky, bude sa mu znalosť SQL stále hodiť pri pátraniach na zdrojové dáta a často aj pre najrôznejšie dáta analytické operácie či poskytovanie dát "businessovým" používateľom - teda napr. Manažment firmy.

Ďalšie data science jazyky

V závislosti od toho, do akého odvetvia nakoniec pôjdeš, sa možno budeš musieť naučiť konkrétny jazyk pre dátovú vedu. V nasledujúcom zozname jazykov sa dozvieš viac o tom, na čo sa používajú.

C/C ++: C aj C ++ vyžadujú silné znalosti základov programovania a učenie týchto jazykov môže trvať dlhšie. V kombinácii s Pythonom alebo R je možné C/C ++ použiť na rýchlejšie a efektívnejšie výpočty datasetov.

JavaScript: JavaScript je super nástroj na vývoj interaktívnych data vizualizácií na webe s knižnicami ako D3.js. JavaScript tiež podporuje knižnice strojového učenia ako TensorFlow.js.

MATLAB: Ideálny pre pokročilé numerické výpočty a na riešenie zložitých matematických a štatistických problémov. MATLAB sa v akademickom prostredí široko používa na vyučovanie matematiky, fyziky a inžinierstva.

Julia: Novší programovací jazyk navrhnutý pre numerickú analýzu a výpočtovú vedeckú analýzu. Je to užitočné pre aplikácie vo fyzike, chémii, astronómii, strojárstve, bioinformatike a ďalších oblastiach.

Scala: Výkonný jazyk, ktorý dokáže spracovať veľké množstvo údajov. Scala beží na Java Virutal Machine, čo znamená, že sa dobre integruje s programami napísanými v Jave.

SAS: Vytvorený pre pokročilú analytiku, obchodnú inteligenciu a prediktívnu analýzu. SAS sa bežne používa v zdravotníctve, bankovníctve a poisťovníctve.

Stata: Používa sa v ekonomickom výskume, verejnej politike a sociálnych vedách. Stata je navrhnutá pre čokoľvek od jednoduchej deskriptívnej analýzy po komplexné štatistické modelovanie.

Ďalšie vzdelávanie v data science

Pokiaľ chceš byť v kontakte s ľuďmi z fachu, pozri si týchto zopár užitočných odkazov. Toto sú slovenské Facebook skupiny, ktoré sa zaoberajú dátovou vedou:

Pycon konferencia v Bratislave je organizovaná dobrovoľníkmi a dobrovoľníčkami z občianskeho združenia SPy o.z. zameraného na šírenie jazyka Python a ďalších open sourcových technológií a myšlienok. Pycon má špecializovaná časť, ktorá sa volá Edu Summit a je zameraná na vyučovanie programovania na základných a stredných školách. Viac info nájdeš na webe Pyconu.

Pythonu sa venuje aj konferencia Python Day Bratislava. Je to československá konferencia, na ktorej si vypočuješ prednášky od popredných českých a slovenských odborníkov zo sveta Pythonu. Ročník 2021 bol organizovaný online.

Machine Learning Prague je najväčšia európska konferencia o Machine Learningu, AI a Deep Learningu. Ročník 2022 bude v marci, viac info na stránke konferencie. 



Logo facebook

Learn2Code tím

Učíme ľudí dizajnovať, robiť webstránky a programovať. Naše prezenčné kurzy nájdeš vo viacerých mestách na Slovensku a pomocou online kurzov sa môžeš vzdelávať z pohodlia domova.


Krátky úvod do SQL

Vzdelávanie

Úvod do databázy Na internete, v mobilných aplikáciách vo webových aplikáciách potrebujeme dáta – informácie. Tieto informácie musia byť niekde...

Izometrický dizajn: 3D objekty zobrazené v 2D priestore

Vzdelávanie

Vo svojej podstate predstavuje izometrický dizajn spôsob, akým zobrazujeme trojrozmerné objekty v dvojrozmernom priestore. Izometria však nie je to isté...

Podmienené formátovanie v Exceli

Vzdelávanie

V tomto článku ti popíšeme, ako využívať podmienené formátovanie v Exceli. Podmienené formátovanie je dobré využívať vtedy, keď potrebuješ zmeniť formát...