8 Tools um ein Data Warehouse komplett Open Source zu betreiben
Ist es möglich ein Data Warehouse nach Data Vault 2.0 mit Open Source Tools zu betreiben? Ja und das sogar mit Automatisierung. Hier der gesamte Tool-Stack:
Virtualisierung: Oracle VirtualBox
Zu Testzwecken kann man das Data Warehouse zunächst in einer virtuellen Maschine betreiben.
Betriebssystem: Ubuntu Linux Server
Zurecht eine der populärsten Linuxdistributionen im Server-Bereich
Datenbank: Postgres
Weniger bekannt als MySQL, doch durch den größeren Funktionsumfang für Unternehmens-Anwendungen besser geeignet. So migrieren aktuell einige Großunternehmen von Oracle auf Postgres um den gestiegenen Lizenzkosten zu entkommen.
IDE Datenbankentwicklung: DBeaver Community Edition
Eine grundsolide SQL-Entwicklungsumgebung
Data Vault Automatisierung: Datavault4dbt
Basierend auf dbt und nach Data Vault 2.0 Standard bietet dieses Automatisierungstool nicht nur Unterstützung beim Modellieren sondern bietet alles was ein ELT-Tool braucht. Test, Scheduling, Lineage, grafische Datenmodelle und Dokumentation sind in den Entwicklungsprozess integriert. Hier gibt es eine Demo-Aufzeichnung
IDE Data Vault Automatisierung: PyCharm Community Edition
Datavaul4dbt ist ein Kommandozeilentool basierend auf Python. Es empfielt sich es in einer Python-Entwicklungsumgebung zu betreiben.
Data Vault Automatisierung: Turbovault4dbt
Um den Kodieraufwand in datavault4dbt nochmals zu reduzieren, kann diese graphische Benutzerobefläche genutzt werden. Im einfachsten Falle nutzt man eine Excel-Datei zur Modellierung. Daraus werden dann dbt-Modelle generiert, welche datavault4dbt weiter nutzt. Hier gibt es eine Demo-Aufzeichnung
Tabellenkalkulation: Libre Office Calc
Hat da jemand Excel gesagt? Zum Bearbeiten der Excel-Datei kann genauso gut das Open-Source-Pendant Libre Office Calc dienen.
Bonus:
Wer das ganze ausprobieren und auf Herz und Nieren testen will, kann die Testdaten Willibald nutzen. Sie sind frei zugänglich und bieten alle herausfordernden Szenarien die mit Data Vault entstehen können.
Fazit
Es ist durchaus möglich ein modernes DWH komplett Open Source zu betreiben. Gerade Kleinunternehmen und Bildungseinrichtungen können sehr stark davon profitieren.
Bildquelle: Foto von carlos aranda auf Unsplash
Datum: 22.12.2023
Kategorie: Data Warehouse, Datenmodellierung, Open Source, Data Vault, dbt