Was ist ein Data Warehouse-System?

Zuletzt aktualisiert: 05.01.2022

Ziel von Data Warehouse-Lösungen ist die Zusammenführung (Integration) und Verdichtung (Aggregation) von Daten aus mehreren unterschiedlichen und verteilten Quellen in einer zentralen Datenbank.

Allerdings ist nicht jede Datensammlung automatisch ein Data Warehouse (Abk. DW oder DWH): ein DWH ist eine Art „Datenlager“, das nach einem bestimmten Konzept strukturiert ist, um flexible und  schnelle Auswertungen zu ermöglichen. Die Daten werden dabei von den Datenquellen in das Data Warehouse geladen und dort vor allem für die Datenanalyse und zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen langfristig gespeichert. 

Wofür benötigt man operative Daten?

Operative Daten sind für die Verarbeitung in Transaktionssystemen strukturiert. Jeder Datensatz muss jederzeit für Lese- und Schreibzugriffe zur Verfügung stehen und Details über Daten sind notwendig. 

Wofür benötigt man analytische Daten?

Analytische Daten haben einen anderen Aufbau als operative Daten. Analytische Daten wurden verändert/angepasst, wobei die Daten in Kennzahlen komprimiert und zusammengefasst werden.

Operative und analytische Systeme in der Informationspyramide
Operative und analytische Systeme in der Informationspyramide

Die in einem Data Warehouse so entstehende Datensammlung unterteilt sich in 4 Bereich:

Was bedeutet themenorientiert?

Die Daten werden nach dem betriebswirtschaftlichen Umfeld organisiert. „Alles über Kunden, Produkte oder …“. Data Warehouses befriedigen den Informationsbedarf bezüglich Sachverhalten, die das Handeln eines Unternehmens bestimmen.

Themenorientierung von Data Warehouses
Themenorientierung von Data Warehouses

Was bedeutet zeitorientiert?

Daten eines Data Warehouses werden langfristig gespeichert. Jedes Data Warehouse beinhaltet auch die Dimension Zeit. Es erfolgt eine periodische Ergänzung um aktuelle Daten, unter Umständen auch eine Verdichtung älterer Informationen. Data Warehouses beinhalten somit zeitraumbezogene, historisierte Daten.

Zeitorientierung von Data Warehouses
Zeitorientierung von Data Warehouses

Was bedeutet integriert?

Das Data Warehouse wird aus einer Vielzahl interner wie externer Datenquellen bewirtschaftet. Dabei spielt die Datenqualität eine wesentliche Rolle. Aufgabe ist die Zusammenführung und Konsolidierung verteilter Daten. Data Warehouses vereinheitlichen die Daten der Vorsysteme mittels Anpassung der Datenformate, Vereinheitlichung von Datumsfeldern, Umrechnung von Werteeinheiten und Währungsumrechnungen.

Integration von Data Warehouses
Integration von Data Warehouses

Was bedeutet unveränderlich?

Die Daten werden dauerhaft gespeichert. Daten sind nur lesbar.

Persistenz von Data Warehouses
Persistenz von Data Warehouses

Wie ist die Architektur von Data Warehouse-Systemen?

Fasst man die obigen Ausführungen zu Data Warehouse-Systemen zusammen, so ergibt sich grob folgende Struktur:

Grobstruktur eines Data Warehouse-Systems
Grobstruktur eines Data Warehouse-Systems

Datenquellen sind Lieferanten der Daten für das Data Warehouse und gehören nicht direkt zum DWH. Sie können intern (Unternehmen) oder extern (z.B. staatliche Einrichtung) sein und sind im Allgemeinen heterogen bzgl. Struktur, Inhalt und Schnittstellen (Datenbanken, Dateien).

Die Auswahl der Quellen und die Qualität der Daten ist von besonderer Bedeutung.

Was sind Faktoren für die Auswahl der Daten?

  • Zweck des DWH
  • Qualität der Quelldaten
  • Verfügbarkeit (rechtlich, sozial, technisch)
  • Preis für Erwerb der Daten (speziell bei externen Quellen)

Welche Aufgabe hat die Extraktionskomponente?

Die Extraktionskomponente hat die Aufgabe der Übertragung von Daten aus Quellen in den Arbeitsbereich. Die Funktion ist von der Strategie abhängig und kann periodisch, auf Anfrage, ereignisgesteuert (z.B. bei Erreichen einer definierten Anzahl von Änderungen) oder mittels sofortiger Extraktion erfolgen. 

Welche Aufgabe hat die Transformationskomponente?

In der Transformationskomponente wird die Vorbereitung und die Anpassung der Daten für das Laden durchgeführt. Inhaltlich erfolgt eine Datenintegration und Bereinigung, strukturell eine Schemaintegration. Dabei werden alle Daten in ein einheitliches Format bezüglich Datentypen, Datumsangaben, Maßeinheiten, Kodierungen, etc. überführt und Verunreinigungen (fehlerhafte oder fehlende Werte, Redundanzen, veraltete Werte) werden beseitigt.

Welche Aufgabe hat die Ladekomponente?

Die Ladekomponente überträgt die bereinigten und aufbereiteten Daten in die Basisdatenbank bzw. das DWH. Änderungen in Quellen dürfen dabei die DWH-Daten nicht überschreiben, sondern müssen zusätzlich abgespeichert werden. Der Ladevorgang kann online (Basisdatenbank bzw. DWH steht weiterhin zur Verfügung) oder offline (Basisdatenbank bzw. DWH steht nicht zur Verfügung – Zeitfenster: nachts, Wochenende) erfolgen.

Welche Aufgabe hat die Basisdatenbank?

Die Basisdatenbank ist die integrierte Datenbasis für verschiedene Analysen, jedoch unabhängig von konkreten Analysen, d.h. es gibt noch keine Aggregationen von Daten. Aufgabe ist daher die Versorgung des DWH mit bereinigten Daten (u.U. durch Verdichtung). 

Welche Aufgabe hat der Datenwürfel?

Der Datenwürfel beinhaltet die Datenbanken für Analysezwecke (relational oder multidimensional). Er orientiert sich in der Struktur an den Analysebedürfnissen, Basis ist ein Datenbank-Managementsystem. Besonderheiten sind:

  • Unterstützung des Ladeprozesses: schnelles Laden großer Datenmengen
  • Unterstützung des Analyseprozesses durch effiziente Anfrageverarbeitung und multidimensionales Datenmodell