Daniel Fritzler BI Consultant
  • Über mich
  • Services
  • Blog
  • CV
  • Kontakt


Data Vault und Open Source

8 Tools um ein Data Warehouse komplett Open Source zu betreiben


Ist es möglich ein Data Warehouse nach Data Vault 2.0 mit Open Source Tools zu betreiben? Ja und das sogar mit Automatisierung. Hier der gesamte Tool-Stack:


  1. Virtualisierung: Oracle VirtualBox

Zu Testzwecken kann man das Data Warehouse zunächst in einer virtuellen Maschine betreiben.

  1. Betriebssystem: Ubuntu Linux Server

Zurecht eine der populärsten Linuxdistributionen im Server-Bereich

  1. Datenbank: Postgres

Weniger bekannt als MySQL, doch durch den größeren Funktionsumfang für Unternehmens-Anwendungen besser geeignet. So migrieren aktuell einige Großunternehmen von Oracle auf Postgres um den gestiegenen Lizenzkosten zu entkommen.

  1. IDE Datenbankentwicklung: DBeaver Community Edition

Eine grundsolide SQL-Entwicklungsumgebung

  1. Data Vault Automatisierung: Datavault4dbt

Basierend auf dbt und nach Data Vault 2.0 Standard bietet dieses Automatisierungstool nicht nur Unterstützung beim Modellieren sondern bietet alles was ein ELT-Tool braucht. Test, Scheduling, Lineage, grafische Datenmodelle und Dokumentation sind in den Entwicklungsprozess integriert. Hier gibt es eine Demo-Aufzeichnung

  1. IDE Data Vault Automatisierung: PyCharm Community Edition

Datavaul4dbt ist ein Kommandozeilentool basierend auf Python. Es empfielt sich es in einer Python-Entwicklungsumgebung zu betreiben.

  1. Data Vault Automatisierung: Turbovault4dbt

Um den Kodieraufwand in datavault4dbt nochmals zu reduzieren, kann diese graphische Benutzerobefläche genutzt werden. Im einfachsten Falle nutzt man eine Excel-Datei zur Modellierung. Daraus werden dann dbt-Modelle generiert, welche datavault4dbt weiter nutzt. Hier gibt es eine Demo-Aufzeichnung

  1. Tabellenkalkulation: Libre Office Calc

Hat da jemand Excel gesagt? Zum Bearbeiten der Excel-Datei kann genauso gut das Open-Source-Pendant Libre Office Calc dienen.



Bonus:

Wer das ganze ausprobieren und auf Herz und Nieren testen will, kann die Testdaten Willibald nutzen. Sie sind frei zugänglich und bieten alle herausfordernden Szenarien die mit Data Vault entstehen können.


Fazit


Es ist durchaus möglich ein modernes DWH komplett Open Source zu betreiben. Gerade Kleinunternehmen und Bildungseinrichtungen können sehr stark davon profitieren.


Bildquelle: Foto von carlos aranda auf Unsplash

Datum: 22.12.2023

Kategorie: Data Warehouse, Datenmodellierung, Open Source, Data Vault, dbt