Data Scientist vs Data Analyst vs Data Engineer pomocí Word Cloud

Termíny Data Scientist, Data Analyst a Data Engineer jsou často používány zaměnitelně. Ačkoli jsou všechny tři role zaměřené na údaje, mají jemné rozdíly, které je od sebe oddělují. I když najímající společnosti zaměňují názvy pracovních pozic, pojďme se podívat na pochopení názvů pracovních pozic pomocí…. DATA!!

First Love .. Zeptej se Google

Data Scientist

Datoví vědci jsou velcí wranglery. Berou obrovské množství chaotických datových bodů (nestrukturovaných a strukturovaných) a používají své impozantní dovednosti v matematice, statistice a programování k jejich čištění, masáži a organizaci. Poté aplikují všechny své analytické schopnosti - znalosti odvětví, kontextové porozumění, skepticismus stávajících předpokladů - k odhalení skrytých řešení obchodních výzev.

Analytik dat

Analytici dat shromažďují, zpracovávají a provádějí statistické analýzy dat. Jejich dovednosti nemusí být tak pokročilé jako vědci v oblasti dat (např. Nemusí být schopni vytvářet nové algoritmy), ale jejich cíle jsou stejné - zjistit, jak lze data použít k zodpovězení otázek a řešení problémů.

Datový inženýr

Datoví inženýři staví obrovské nádrže pro velká data. Vyvíjejí, konstruují, testují a udržují architektury, jako jsou databáze a rozsáhlé systémy zpracování dat. Jakmile jsou do těchto obrovských „skupin“ filtrovaných informací nainstalovány nepřetržité potrubí, mohou vědci údajů pro své analýzy vytáhnout relevantní soubory dat.

Výše uvedené definice jsou trochu vágní a nevysvětlují jasně, jaké dovednosti společnost očekává od potenciálního kandidáta na dané role.

Přístup, který bychom použili k pochopení rozdílů v názvech pracovních pozic

Slovo mrak

Word Cloud je obrázek složený ze slov použitých v konkrétním textu nebo předmětu, ve kterém velikost každého slova označuje jeho frekvenci v dokumentech.

Data z LinkedIn

Shromáždili jsme kolem 20 údajů o náplni práce a odpovědnosti pro každou z rolí na LinkedIn, Kaggle a Glassdoor zveřejněných několika společnostmi. Generování slovních mraků pomocí těchto dat nám může pomoci jasně rozlišit role. Nicméně, stejně jako u mnoha analýz vědy o datu, vezměte tuto analýzu se zrnkem soli, dokud nebudeme sestavovat rozsáhlý soubor údajů o popisu práce a odpovědnosti, nejlépe 100 společností pro každý pracovní titul :)

Generování Word Cloud - Pythonův kód

Extrahovaná data jsou uložena v textových souborech a používají se ke generování cloudu slov. To používá knihovnu word_cloud, kterou lze nainstalovat pomocí „pip install word cloud“

z wordcloud import WordCloud
import matplotlib.pyplot jako plt
## Odpovědnosti analytiků dat
f = open ('data / Data_analyst_responsibility.txt', 'r')
    data_analyst_resp = f.read ()
    f.close ()

##### Dovednosti analytika dat
f = open ('data / Data_analyst_skill.txt', 'r')
    data_analyst_skill = f.read ()
    f.close ()
##### Odpovědnost vědců za údaje
f = open ('data / data_scientist_responsibility.txt', 'r')
    data_scientist_responsibility = f.read ()
    f.close ()
##### Dovednosti datových vědců
f = open ('data / data_scientist_skills.txt', 'r')
    data_scientist_skills = f.read ()
    f.close ()
def word_cloud_job_title (data, font_size = 40, title = ''):
   "" "Funkce vykreslování cloudu Word" ""
    stopwords = ['etc', 'years', 'Etc', 'degree', 'skill',
„pomocí“, „upřednostňovaným“, „polem“, „založeným“, „souvisejícím“, „včetně“, „schopností“, „zkušeností“]
    data = data.lower ()
    pro slovo v stopwords:
        pokud slovo v datech:
           data = data.replace (slovo, "")

           # Generujte obrázek cloudového slova
           wordcloud = WordCloud (). vygenerovat (data)

           # Zobrazit vygenerovaný obrázek:
           # matplotlib způsobem:
           plt.imshow (wordcloud, interpolation = 'bilinear')
           plt.axis ("off")
           fig = plt.gcf ()
           fig.set_size_inches (15,10)
           plt.title (název, velikost písma = 24)
           plt.show ()

           ### Zodpovědnost správce dat
           word_cloud_job_title (data_analyst_resp, title = 'data_analyst_responsibility')

           Schopnost ### Data_analyst
          word_cloud_job_title (data_analyst_skill, title = 'data_analyst_skill')

           ### Odpovědnost vědce za údaje
          word_cloud_job_title (data_scientist_responsibility, title = 'data_scientist_responsibility')

           ### Dovednosti datových vědců
          word_cloud_job_title (data_scientist_skills, title = 'data_scientist_skills')

           ### Zodpovědnost datového inženýra
          word_cloud_job_title (data_scientist_responsibility, title = 'data_scientist_responsibility')

           ### Dovednosti datového inženýra
          word_cloud_job_title (data_scientist_skills, title = 'data_scientist_skills')
Exportované obrázky Matplotlib
Závěr

Každá společnost zapojená do zpracování velkého množství dat bude mít zaměstnance ve všech třech rolích pracujících společně. Z cloudu dovedností Data Engineer si všimneme mnoha klíčových slov jako SQL, Spark, Hadoop, které se používají převážně pro zpracování dat. Datoví inženýři zpracovávají velká data s tímto softwarem a usnadňují vědcům a analytikům dat práci se shromážděnými daty.

Zatímco jak vědci, tak analytici úzce spolupracují s obchodním týmem, aby jim poradili při rozhodování na základě svých zjištění s danými daty, vědci s daty také pracují na vývoji predikčních modelů, a proto se od nich očekává větší kvalifikace v programování, statistice a kvantitativní způsobilosti. A to lze opět vidět pomocí generovaných klíčových slov pro cloudové slovo pro dovednosti vědců v oblasti dat (python, statistika, strojové učení).

Varianty:

Analytik dat: Produkt / Marketing / Rizikový analytik

Data Scientist: Associate / Senior / Lead / Lead / Product Data Scientist

Data Engineer: Machine Learning Engineer / Big Data Engineer

Tento článek je spoluautorem Ashish Khana, který je také bezplatnou lucernou v oboru Machine Learning, aplikace pro Android, webdesign a věda o datech. Podívejte se na jeho webovou stránku, kde najdete zábavné a vzrušující věci, které lze s DATA dělat. A moji práci na GitHub najdete zde.

Reference:

  1. Google!
  2. Propojené, Kaggle a Glassdoor popisy práce a odpovědnosti za analytik dat, datový vědec a datový inženýr
  3. Kariérní materiál pro odrazový můstek. (V současné době jsem součástí programu kariérového sledování datových věd)