MINDSPIRE BLOG
Kövesse a MINDSPIRE közösségi oldalait!
Az adatbetöltő (ETL) eszközök főbb funkciói
A piacon ma már számos adatbetöltő, azaz ETL eszköz érhető el. Az ETL az „Extract, Transform, Load” kifejezés rövidítése, amely magyarul ’Kinyerés, Átalakítás és Betöltés’-ként fordítható.
Az ETL eszközök alapvető feladata, hogy:
- több, akár különböző platformon található rendszerekből különféle formában adatokat nyerjen ki (Extract),
- azokat az egyes célrendszerek számára üzleti igények alapján transzformálja, a rendszerek által elvárt formátumban (Transform),
- végül az így előállított adatokat a célrendszerek számára elérhetővé tegye, vagy azokba közvetlenül betöltse (Load).
A vállalkozások különböző esetekben vehetnek igénybe adatbetöltő eszközöket, ezek közé tartozik többek között az:
- Adatmigráció, amelyet valamilyen rendszerbevezetés, rendszercsere vagy akvizíció tehet szükségessé.
- Adatpiacok, adattárházak, adattavak építése, karbantartása vagy üzemeltetése, amikor eltérő forrásrendszerekből nyersen, vagy megfelelő adattranszformációk mentén adatokat szükséges gyűjteni, illetve azokat elő kell készíteni az üzleti döntésekhez.
- Riportigényeket kielégítő eseti vagy rendszeres folyamatok, amelyek az összegyűjtött adatokra épülnek.
Kundrík Kamilla
DELTA product manager
Kamilla több, mint 15 éves szektorfüggetlen rendszerimplementációs tapasztalattal rendelkezik.
A MINDSPIRE DELTA eszközének üzleti és IT fejlesztéséért felelős, továbbá támogatási és minőségbiztosítási tevékenységet végez a migrációs projektek IT feladataiban.
A MINDSPIRE DELTA adatmigrációs eszköz
A saját fejlesztésű MINDSPIRE DELTA adatmigrációs eszközünk is egyfajta ETL megoldás, amelyet nem kifejezetten csak adatmigrációs projekteken alkalmazunk. Vettük a bátorságot, és összehasonlítottuk a ’MINDSPIRE DELTA Migration Tool’ funkcionális és nem funkcionális képességeit a piacon elérhető legismertebb ETL alkalmazásokkal.
Ezeket az ETL eszközöket sok szempont alapján lehetne csoportosítani. Az egyik ilyen aspektus, hogy az adatbetöltő megoldás ingyenes, open-source eszközként, avagy egy erre specializálódott fejlesztő megvásárolható termékeként vehető igénybe. Bejegyzésünkben most ez alapján vizsgáljuk meg a főbb megoldásokat, a cikk végén azonban található egy összehasonlító ETL eszköz táblázat, amelyben számos egyéb paraméter alapján is összehasonlítjuk azokat.
A kereskedelemben elérhető ETL eszközök
Ezeket az adatbetöltő alkalmazásokat tipikusan olyan, az ETL piacra specializálódott és nagy tapasztalattal rendelkező vállalatok teszik elérhetővé a nagyközönség számára, mint például az Oracle, az IBM, vagy az Informatica.
Ezek a szoftverek igencsak széleskörű funkcionalitással és beállítási lehetőségekkel bírnak, azonban elsősorban nem üzleti elemzők számára tervezték ezeket az adatbetöltő alkalmazásokat. Ennek megfelelően hatékony alkalmazásukhoz költséges és hosszas oktatásokra van szükség, emellett valamilyen alapfokú, vagy akár speciális IT tudás és személet is elengedhetetlen ezen eszközök alkalmazásához.
Cserébe viszont robosztus, az egyéni igényeknek megfelelően hangolható teljesítményű, jelentős mennyiségű adatok hatékony mozgatására és komplex transzformációjára képes ETL megoldásokat kapunk, amelyeket heterogén és igen összetett környezetekben is hatékonyan lehet alkalmazni.
Az ilyen adatbetöltő alkalmazások bevezetéséhez és üzemeltetéséhez szükséges ráfordítások miatt alkalmazásuk nagy, összetett, az egész vállalatot átölelő problémák megoldására alkalmas. Ilyen lehet például az adatpiacok, adattárházak vagy akár adattavak kiépítése és folyamatos működtetése naprakész üzleti intelligencia megoldás kialakítása céljából.
Ezek az ETL eszközök igen széles integrációs lehetőségeket biztosítanak, különböző formátumú fájlok, fájlrendszerek, relációs és nem relációs adatbázisok, API integrációk széles köre, IoT eszközök, big data vagy akár felhő és hibrid felhő megoldások tekintetében is mind a forrás-, mind pedig a célrendszerek tekintetében.
Az ilyen adatbetöltő alkalmazások paraméterezése sok esetben, ha nem is feltétlen fejlesztői tudást, de valamilyen szintű IT ismeretet vagy IT szemléletet igényel. Az adatfolyamatok alapvetően SQL funkciók sorozatából állnak, mint például a join, filter (select), merge, aggregate, stb. Minden egyes elemnek a bemeneti értéke az előző elem kimeneti értéke, majd ez kerül az adott elem szerint átalakításra, mindaddig, amíg a kívánt célformátum elő nem áll. Az így kapott adatfolyamok egy céltábla előállításához is igen hosszú és komplex láncok lehetnek, amelyek átlátása és kezelése fokozott figyelmet és szaktudást igényel.
A telepítésük és használatba vételük is számos előkészületet igényel, amelyekhez viszont elengedhetetlen az adott adatbetöltő termékre specializált üzemeltetői, azon belül is akár a DBA (Database Administrator) kompetencia.
Bár az ilyen szoftverek mögött rendszerint komplex struktúra szerint működő ügyfélszolgálati és támogató szolgáltatásokat nyújtó szervezet áll, azonban a fórumokban található bejegyzések alapján a kapcsolatfelvétel és a napi problémák megoldása nem minden esetben tűnik zökkenőmentesnek.
Ingyenes, open-source ETL megoldások
Az adatbetöltő eszközök piacának másik részét az ingyenesen elérhető, nyílt forráskódú megoldások teszik ki. Ezen alkalmazások jellemzője, hogy jóval szűkebb funkcionalitást tesznek elérhetővé a felhasználók számára, ezért a gyakorlatban meglehetősen korlátozott lehetőségeket biztosítanak az ingyenesen letölthető formájukban. Azonban a nyílt forráskód miatt ezek az ETL eszközök fejlesztéssel testre szabhatók és kiegészíthetők, illetve jellemzően az általuk alkalmazott technológia már hosszútávon bizonyított és nem szab határt a további módosítások tekintetében sem.
Ráadásul az elterjedt adatbetöltő eszközök nagylétszámú és aktív közösséggel rendelkeznek, a fórumokon pedig a felhasználók megosztják egymás között a problémáikat és tapasztalataikat. A fejleszthetőség ugyanakkor feltételeket is támaszt, ugyanis ezek a megoldások kizárólag azoknak a vállalatoknak lehetnek alkalmasak, amelyek megfelelő fejlesztési kompetenciákkal rendelkeznek az elvárt célok biztosításához.
A fizetős verzióhoz természetesen támogatást és garanciát is biztosítanak, ugyanúgy, mint az előző fejezetben tárgyalt, csak kereskedelmi alapokon elérhető adatbetöltő eszközök esetében. Így az open-source megoldások már képesek felvenni a versenyt az ETL piacra specializált megoldásokkal.
Integrálhatósági képességeiket tekintve felveszik a versenyt a kereskedelemben elérhető ETL eszközökkel, azonban a teljesítmény tekintetében már jelentős különbségek lehetnek az egyes open-source termékek között, így a lehetséges felhasználási területeik is igencsak eltérőek.
A legismertebb és legelterjedtebb nyílt forráskódú eszközök közé tartoznak a Pentaho és a Talend termékei, amelyeknek az ingyenes verziója mellett elérhető a licenszelhető változat is.
A MINDSPIRE DELTA adatmigrációs eszköz áttekintése
A DELTA adatmigrációs eszközünk funkcionalitását a már számos projekten bizonyított migrációs módszertanunk támogatására, ügyfeleink igényei és elvárásai szerint alakítottuk ki. A megoldás fókuszában a transzformációs szabályok egyszerű és felhasználóbarát paraméterezhetősége állt, amelyhez egyáltalán nem, vagy csak minimálisan szükséges fejlesztői tudás.
Ennek megfelelően a DELTA eszköz alapvetően az ETL szoftverek „T” funkcionalitását látja el teljeskörűen. Legfontosabb erőssége, hogy a transzformációs szabályok a beépített átalakító funkciók segítségével egyszerű paraméterezéssel felállíthatók. Ezen szabályok nem elemi lépések hosszas és komplex láncából épülnek fel, mint a piacon található adatbetöltő eszközök esetében, hanem a forrás és célrendszeri táblák egyszeri összerendeléséből, majd pedig a kettő közötti transzformációs szabályok paraméterezéséből.
Ezek lehetnek egészen egyszerű másolási szabályok, több függvényt egymásba ágyazó szabályok, vagy akár egészen komplex, egyedileg testreszabható igazságtáblák is. Inputként pedig tetszőleges adathalmaz használható fel, amely lehet forrásadat, már korábban előállított céladat, vagy köztes számítások eredményeként előálló adat.
Mindezt egy felhasználóbarát paraméterező felület teszi lehetővé, amely lehetőséget biztosít a felállított szabályok azonnali, a tényleges futtatást nélkülöző tesztelésre is. A vezető ETL eszközök működésével szemben a DELTA adatbetöltő megoldás nagyon egyszerűen átlátható felületet és funkcionalitást biztosít azáltal, hogy minden célmezőhöz pontosan egy transzformációs szabály megadására van csupán szükség. Ennek megfelelően a karbantartás és a „fejlesztés” is jelentősen egyszerűbb, hiszen egy apró módosítás egy szabály paraméterezésének módosítását jelenti, nem pedig egy bonyolult SQL parancs sorozat átlátását és megfelelő pontján való módosítását.
A transzformációs szabályokon kívül minden más egyéb lépés is egyszerű, üzleti elemzők által végrehajtható paraméterezést igényel csupán: így a forrásadatok betöltésének, illetve transzformált adatok exportálásának módja, valamint az egész adatfolyamot leíró workflow is igen könnyen felállítható és kezelhető. Ezen kívül a DELTA adatmigrációs eszköz folyamat futtatási funkciói is leginkább az üzleti elemzői szemléletet támogatják. Az adatfolyamok tetszőleges pontján lehetőség van a rendszer által biztosítottnyújtott, validációs lépéseket biztosítandó sablon riportok beállítására és futtatására, amelyek tételes vagy aggregált szinten részletes tájékoztatást adnak a folyamat aktuális eredményéről.
Természetesen lehetőség és néha szükség is van egyedi scriptek írására és azok adatfolyamokba való illesztésére, amelyhez elengedhetetlen a fejlesztői tudás. De a DELTA adatmigrációs megoldás esetében a szükséges fejlesztői kompetencia és ráfordítás arányaiban jóval kisebb a vezető ETL eszközökhöz képest. Emellett fontos előny, hogy a transzformációs szabályokat olyan felhasználók állítják fel, akik értik és ismerik az adatmigrációhoz kapcsolódó üzleti igényeket, folyamatokat is, ezáltal jóval kisebb az üzleti igények félreértéséből vagy meg nem értéséből fakadó kockázat.
Az eszköz napi szintű üzemeltetése alapszintű üzemeltetői ismereteket igényel, ezek mind standard technológiai ismerteket jelentenek csupán, ezáltal különösebb és főleg költséges oktatásokra nincsen szükség. A DELTA megoldás használata pedig a migrációs folyamat ismerete mellett igen intuitív. Pusztán a transzformációs szabályok megismerésére van szükség, amely azonban az SQL parancsokra épít és azokat egyszerűsíti le üzleti felhasználók számára.
A DELTA eszközt alapvetően az automatikus adatmigrációt igénylő, a pénzügyi szektorban futó projektjeinken alkalmazzuk, amelyek mérete és komplexitása igen eltérő. Saját fejlesztésű alkalmazásunkkal megvalósítottunk már kisebb, csak egy-két terméket érintő migrációs feladatokat, de több ízben sikerrel alkalmaztuk már banki akvizícióból fakadó migrációs projekteken is, amelyek során a termékpalettát igen széles körben, komplex adatfolyamokkal a DELTA eszközzel fedtünk le.
A legelterjedtebb ETL megoldások összehasonlítása
Az alábbi táblázatban a Gartner 2021-es kutatásai alapján a piacvezető adatbetöltő megoldások közül a legelterjedtebbeket és a MIDSPIRE DELTA adatmigrációs eszközt hasonlítjuk össze egymással.
A Talend és a Pentaho open-source termékekként jelentek meg a piacon, de mára már licenszköteles, funkcionalitásban jóval gazdagabb verzióik is elérhetők. Az Informatica és az Oracle Data Integrator termékek kizárólag licensz díj ellenében használhatók.
A táblázat olyan lényeges szempontok mentén hasonlítja össze egymással az eszközöket, mint a felhasználóbarát felület megléte, az elérhető transzformációs képességek, a folyamatvezérlés, testreszabhatóság, kapcsolódó riportolási lehetőségek, integrációs képességek és a performancia.
Záró gondolatok
A MINDSPIRE DELTA adatmigrációs megoldás erőssége a piacon szereplő ETL eszközökkel szemben az, hogy olyan felhasználóbarát felületet és lehetőségeket nyújt, amellyel a teljes, akár nagyon komplex adattranszformációs folyamat (betöltés, transzformáció, exportálás) fejlesztői tudás nélkül is megvalósítható.
Ez jelentős hozzáadott értékkel bír olyan területeken, ahol jellemzően elemzői és üzleti tudással rendelkező szakemberek dolgoznak. Emellett az eszköz természetesen lehetőséget biztosít egyedi kódoknak a folyamat tetszőleges pontján való beillesztésére is.
Továbbá a DELTA széleskörű, beépített, az üzleti területek számára könnyen értelmezhető, akár a teljes folyamatot átölelő tételes és aggregált riportolási képességekkel is rendelkezik. A testreszabott és paraméterezhető rekonsziliációs funkcionalitás pedig ismereteink szerint teljesen egyedi a piacon.
Hátránya lehet, hogy integrációs képességei mind a forrás mind pedig a céloldal felé jelenleg csak az alapvető megoldásokat fedik le (fájl és relációs adatbázisok), amelyeket azonban lehetséges heterogén környezetben is alkalmazni.
Illetve további megfontolás tárgya lehet, hogy a DELTA működéséhez licenszköteles környezeti komponens is szükséges. Azonban a jelenleg megcélzott pénzintézeti ügyfélkör a saját működéséből fakadóan ezen komponenssel eleve rendelkezik, így ez tényleges hátrányt valójában nem jelent.
Kérdése van a MINDSPIRE DELTA adatmigrációs eszköz kapcsán? Kérjen konzultációt és tudjon meg többet az alkalmazásról!
Hivatkozások
Gartner®, Magic Quadrant™ for Data Integration Tools, Ehtisham Zaidi, Sharat Menon, Robert Thanaraj, Eric Thoo, Nina Showell, August 25, 2021.
Ismerje meg a MINDSPIRE kapcsolódó szolgáltatásait:
Kérdése vagy megjegyzése van a bejegyzéssel kapcsolatban?
Küldje el üzenetét és munkatársaink felveszik Önnel a kapcsolatot!
Legújabb adatmigrációs referenciáink
Többet szeretne tudni adatmigrációs szolgáltatásainkról?
További információkért kattintson ide: