‹ Takaisin listaan

Data Engineer – no mitä sä oikeastaan teet?

· Blogi · Pirjo Leppänen

Olen kuullut otsikon kysymyksen monesti ja siihen on hankala vastata lyhyesti. Sopivaa suomenkielistä käännöstä data engineer -nimikkeelle ei oikein löydy. Insinööri en ole, datakaan ei ole itsestäänselvä asia. Nimikkeen työnkuva varmasti myös vaihtelee ihmisen ja työpaikan mukaan. Yritän tässä blogissa kuvata hieman sitä, millaista minun työni on ja miten tähän on tultu.

Kun yli puolitoista vuotta sitten sain ensimmäisen yhteydenoton nykyiseltä työnantajaltani, minulla ei ollut juuri minkäänlaista käsitystä siitä, mitä vaikkapa termi “data-arkkitehtuuri” pitää sisällään. Olin kuitenkin ylätasolla kovin innostunut datasta, sen loogisesta järjestämisestä ja tehokkaasta käytöstä, joten jatkokeskusteluiden myötä päätin elää vaarallisesti, tarttua tarjottuun käteen ja hypätä Cloud1:n kanssa tuntemattomaan. Tammikuussa 2021 aloitin, ja kuluneen kahdeksan kuukauden aikana sekä käsitteet data ja data-arkkitehtuuri että oma työnkuva ovat pikkuhiljaa kirkastuneet ja innostus on vain kasvanut.

Datan virta

Työpöytäni kautta kulkee monenlaista dataa. Yleensä dataa kertyy operatiivisiin järjestelmiin, juuri niihin, joita käytetään päivittäisessä toiminnassa yrityksissä, virastoissa, vähittäiskaupassa ja teollisuudessa. Dataa voidaan kerätä myös vaikkapa nettipalveluissa tai erilaisilla mittalaitteilla. Yhteistä näille kaikille on, että järjestelmien käyttämisen lopputuotteena dataa syntyy valtavia määriä, eikä sen edelleen hyödyntäminen pelkästään lähdejärjestelmän sisällä yleensä ole järkevää tai edes mahdollista. Data on kuitenkin oikein käsiteltynä varsinainen runsaudensarvi tietoa ja ymmärrystä. Siksi sitä kannattaa tallentaa, järjestää ja jatkojalostaa.

Miten ja mihin dataa sitten käytetään? Tiedolla johtaminen on muodikas termi, mutta harvoin tulee pohdittua, mitä tiedolle tehdään ennen kuin se on hyödynnettävissä johdon työkaluna, markkinoinnin apuvälineenä tai asiakkaan tiedonhalun tyydyttämiseen. Tieto siirretään lähteestä paremmin sen puhdistamiseen, yhdistämiseen ja analysoimiseen soveltuvalle alustalle. Datan laadusta pidetään huolta ja sitä pyritään parantamaan yhdistämällä tietoa eri lähteistä ja mittaamalla tietosisältöä. Tiedon matka lähteestä läpi erilaisten muodonmuutosten, ja sen mallintaminen palvelemaan liiketoimintaa tai yrityksen asiakkaiden tarpeita, on monipuolinen ja mielenkiintoinen prosessi. Yhtä ainoaa oikeaa ratkaisua ei ole, vaan luovuus, kekseliäisyys, asiasisällön ymmärtäminen ja kokonaisuuden hallinta ovat erittäin tärkeitä prosessin suunnittelussa ja toteutuksessa.

Data jalostuu trendeiksi, asiakasprofiileiksi, tulevien tilausten ohjenuoriksi, markkinoinnin tehomittareiksi, tuottaviksi parannuksiksi. Data kertoo työnantajalle, missä työntekijöitä tarvitaan todennäköisimmin ensi torstaina, ja asiakkaalle, mistä liikkeestä löytyy etsitty tuote puolen tunnin päästä. Datan virta kiihtyy koko ajan, ja eilinen data on jo monessa tapauksessa vanhaa – monet haluavat datansa uunituoreena.

Pappi, lukkari, talonpoika, kuppari

Data engineer on mekaanikko, arkistonhoitaja, keksijä, koodari, kokki ja kirjuri – käsityöläinen kerrassaan, vaikka työkalut ovat huippumoderneja.

Mekaanikko kerää kasaan koneeseen tarvittavat osat ja kokoaa niistä liukuhihnan, sellaisen kuin piirretyissä filmeissä. Kourallinen tietokantaa, roppakaupalla tallennustilaa ja sylillinen laskentatehoa, määrät saattavat vaihdella. Arkistonhoitajan tehtävänä on säilyttää data alkuperäisessä muodossaan niin, että sen muokkaaminen moneen eri käyttötarkoituksen on mahdollista nyt ja myöhemmin. Keksijänkyvyistä on hyötyä datan monipuolisessa ymmärtämisessä ja asioiden yhdistelemisessä; data ei aina ole sitä, miltä näyttää, ja saattaa sisältää yllättäviä yhtymäkohtia. Koodari pääsee vauhtiin, kun dataa haetaan, muokataan ja tallennetaan monella eri tasolla. Mitä useampi kieli ja syntaksi on hallussa, sen helpompaa on hallita eri lähdejärjestelmien ja integraatioiden viidakkoa. Kokki taiteilee haetuista aineksista mallinnettua dataa moneen eri makuun, data-analyysin ja visualisoitujen raporttien ravinnoksi. Ja lopuksi kirjuri kirjaa väsymättä datan tien pienimpien yksityiskohtien tasolla dokumentaatioon, jotta kaikki datan käsittelijät ja käyttäjät kykenevät seuraamaan jokaisen datanmurun reittiä lähteestä käyttökohteeseen.

Teknologia on datan elämänkaaressa suuressa osassa, korvaamaton apuri siis, mutta viime kädessä datan laadusta ja järkevästä käytöstä voi vastata vain datan sisältöä ymmärtävä ihminen.

Miten tässä näin kävi?

Ajauduin datan pariin Java-sovelluskehittäjän ja teknisen arkkitehdin töiden kautta. Suunnittelin ja toteutin edellisessä tehtävässäni massadataa käsitteleviä eräajoja, ja datan optimaalinen virta paikasta toiseen oli paitsi tavoite, myös älyllinen haaste, jonka otin mieluusti vastaan. Työhaastattelussa nykyiseen työpaikkaani kerroin, ettei minulla ole mitään varsinaista kokemusta tai koulutusta datatehtäviin, mutta kiinnostusta sitäkin enemmän. Muistan elävästi sen, kun samaisessa haastattelussa kuuntelin silmät loistaen selostusta datan elämänkaaresta, ja tunsin olevani ihan juuri oikeassa paikassa.

Kahdeksan ensimmäisen kuukauden aikana tietovarastot, ETL-pipelinet ja monenmoiset integraatiot ovat tulleet tutuiksi, ja aiemman osaamisen päälle on ollut helppo rakentaa uutta. Python ja SQL ovat tällä hetkellä pääkielet. Niiden lisäksi monet eri datan siirtoon käytettävät työkalut ja tallennuspaikat, kuten tietokannat, -altaat ja -varastot, ovat päivittäin käytössä. Välillä tuntuu siltä, että joka aamu olisi tarjolla uusia mahdollisuuksia tarjoavia työkaluja. Kehitys kehittyy ja edistys etenee sitä vauhtia, että paikalleen ei sovi jämähtää. Jotkut klassikot kuitenkin pitävät pintansa ja SQL on ikuinen.

Dataputkien tekninen suunnittelu ja tiedon mallintaminen ovat työssä yhtä tärkeässä osassa kuin niiden käytännön toteutuksetkin. Kekseliäin ja tehokkain ratkaisu löytyy, kun ymmärtää kokonaisuuden lähteestä loppukäyttäjälle asti. Tätä varten suunnittelua tehdään yhteistyössä datan käyttäjän kanssa, jotta tekninen ja liiketoiminnallinen näkökulma kohtaavat hedelmällisellä tavalla.

Olen ollut erittäin tyytyväinen työtehtävieni monipuolisuuteen, työtä tehdessä tarjoutuviin oppimismahdollisuuksiin ja yhdessä tekemisen kulttuuriin, jossa kukin saa hyödyntää omia vahvuuksiaan ja oppia samalla muilta. Tarvittavien taitojen skaala on niin laaja, että kaikesta pitäisi tietää edes hieman, mutta aina löytyy ympäriltä juuri sen asian taitaja, jos ei itse satu olemaan sellainen. Työssä olen pystynyt myös paneutumaan omiin erityisiin kiinnostuksen kohteisiini, kuten datan laatuun ja sen parantamiseen.

Loppusanat

Mietin joskus aamuisin, että toivottavasti kaikki ihmiset saavat joskus kokea sen tunteen, kun on vaan ihan mahtavaa mennä töihin. Data ei ehkä kuulosta kaikista yhtä tunteita herättävältä, mutta vakuutan, että työpaikallani meitä dataan hurahtaneita on monta. Innostus uuteen asiaan voi herätä pienestä kosketuksesta. Yhtäkkiä voi tajuta, että näinhän aivoni ovat aina näitä asioita jäsennelleet, kuten minulle kävi. Tärkeintä on se, että löytää oman juttunsa, oli se ihan mikä vaan. Sen, joka jää mieleen, saa pohtimaan, kipinöi uusia näkökulmia ja motivoi valloittamaan joka päivä jonkun ennen käymättömän korpimaan.

Pirjo

PS. Jos data kutittelee tai haluat muuten vaan verkostoitua, niin klikkaa connect: LinkedIn. Olisi mukava kuulla millaisia ajatuksia kirjoitus herätti, joten jätä ihmeessä kommentti alle! 🙂

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Pirjo Leppänen.

Pirjo Leppänen

Helsinkiläinen dataintoilija ja muusikko. Työskentelen data engineerinä Cloud1 Oy:llä data-arkkitehtuurin suunnittelun ja käytännön toteutuksen sekä datan laatua tarkkailevan ja parantavan alustan kehittämisen parissa. Taustaltani olen klassinen muusikko ja aiemmin työskentelin niin oopperalavalla, sinfoniaorkesterissa kuin opetustehtävissäkin. Blogeissa kirjoitan mm. datasta ja elinikäisestä oppimisesta.