Svako malo se stvori hype oko neke tehnologije - prije 10-ak godina se pocelo aktivnije sa Cloudom, pa se onda preslo na mikroservise, istovremeno navodeci BigData (Hadoop, Spark, Data Lake), a zacinilo se Blockchainom, potom su dosli Kubernetes, Cassandra, Kafka i trenutno Machine Learning/AI.
Meni je najfascinantniji bio jedan kvazi "Enterprise arhitekta" u Erste banci, koji je svakodnevno pratio najnovije trendove i odmah zagovarao koristenje najnovijih tehnologija - a svaki put kad bih ga pitao:"Ok, ajd mi navedi neki Use case za tu tehnologiju", on se stilta sa upitnikom iznad glave... Radili smo tad na ogromnom projektu baziranom na Oracle bazi (DataWareHouse sa oko 50 Terabajta), a on kaze:"Ajmo prebaciti sve poslovne procese da pozivaju mikroservise", a vrhunac je bila provala:"Zasto ne bismo prebacili Oracle bazu na Docker container?", nakon cega smo ga bukvalno ismijali.
Ja pri radu na svakom projektu pokusavam da shvatim Use case poslovnih procesa, pa tek onda da vidim koja tehnologija je najprikladnija. Ihahaj puta sam shvatio da je krajnjim korisnicima bio dovoljan i Excel, a ne Oracle baza u sklopu projekta vrijednog nekoliko miliona evra.
Da se osvrnem i na konkretna pitanja: Hadoop sam na par projekata vidjao samo u svrhu Data Lakea, gdje se trpalo sve i svasta - od XML i CSV fajlova, preko slika, Avro i "parket" fajlova, pa do PDF-ova. Sve se "parsiralo" preko Sparka i onda procisceno i uredjeno trpalo u Oracle bazu.
Data Engineer je u sustini sinonim za nekog ko zna SQL i ima domensko znanje u nekoj bransi.
Ako neko zeli da se prekvalifikuje, trenutno je velika potraznja u Austriji i Njemackoj, a bome i u Banjaluci za Oracle APEX developerima -> apex.oracle.com , pa ucite. Kad naucite, javite se za posao.