13.12.2023

Entwicklung eines ‘state of the art’ EDW mit Data Vault 2.0 in der Cloud

In enger Zusammenarbeit mit der Scalefree International GmbH und einem Team aus fünf Studierenden des Schwerpunktes Business Intelligence (BI) in der Wirtschaftsinformatik an der Hochschule Hannover (HsH) startete im September 2023 ein Projekt,

das sich mit der Entwicklung eines automatisierten Enterprise Data Warehouse (EDW) in der Cloud befasst.

Unter der Betreuung von Prof. Dr. Stephan König und auf Seiten von Scalefree Michael Olschimke und Ole Bause, einem BI-Absolventen der HsH, arbeiten die Studierenden an dem Ziel, ein cloudbasiertes Vorzeige-EDW für potenzielle Kunden zu erstellen. Ein EDW dient der langfristigen Speicherung und Historisierung von Daten, auf Grundlage dessen Analysen durchgeführt werden. Da es sich bei Projekten der Scalefree GmbH oft um vertrauliche Daten handelt und diese aus Datenschutzgründen nicht an Dritte weitergegeben werden dürfen, arbeiten die Studierenden mit einer öffentlich zugänglichen Open Data Plattform, welche Daten über öffentliche Gebäude, aus Kriminal- und Unfallstatistiken, Beschwerden oder auch über Eichhörnchensichtungen in der Stadt New York City aufzeichnet und im Internet zur Verfügung stellt
 

Architekturschichten des EDW

Die Studierenden laden die Daten der Open NYC zunächst in die “Staging Area” (siehe Abb.), dann analysieren sie die Zusammenhänge zwischen verschiedenen Datasets und modellieren diese nach den Modellierungsmethoden von Data Vault 2.0, wie sie bei Scalefree angewendet werden. Diese Modellierungsmethoden werden teils auch im Schwerpunkt Business Intelligence vermittelt und wurden von den Gründern der Scalefree GmbH, Michael Olschimke und Dan Linstedt, entwickelt.

 

Im weiteren Verlauf werden aus den modellierten Daten, die im sogenannten “Raw Data Vault” abgelegt werden, Kennzahlen berechnet und im “Business Vault” gespeichert. Die Kennzahlen werden für die nächste Architekturschicht des EDWs, die Information Marts, noch einmal neu modelliert, sodass sie leichter abgefragt werden können. Auf Basis dieser werden interaktive Dashboards erstellt, auf welchen ein Anwender verschiedene Filter anwenden kann, um z.B. den Zeitraum oder den Ort einzugrenzen und zu beobachten, wie die Daten sich verändern. So kann beispielsweise herausgefunden werden, in welchen Monaten mehr Unfälle passiert sind oder welche Stadtteile in New York besonders gefährlich sind.

Vor allem hat Scalefree so jedoch die Möglichkeit, seinen Kunden dieses sehr abstrakte Thema anschaulich an einer Vorzeigeimplementierung präsentieren zu können. Die Studierenden machen hierbei erste praktische Erfahrungen im Bereich Data Vault, sie lernen neue Tools wie dbt kennen, modellieren das erste Mal selbst ein komplettes Data Warehouse und erkennen, welche Probleme häufig auftreten und wie diese zu lösen sind.

Studentisches Projektteam
Von links: Benjamin Maedchen, Georg Sagel, Joshua Stendel, Ellinor Nienhaus, Juliane Markmann