Was ist ein Datenkatalog und wozu wird er verwendet?

Erfahren Sie alles über Funktionsweise und Verwendung eines Datenkatalogs

Unternehmen setzen im Zuge der Digitalisierung und Automatisierung von Prozessen immer mehr auf datengestützte Anwendungen. Die Grundlage für solche datengestützten Anwendungen ist ein funktionierender Datenkatalog: Dabei handelt es sich um ein zentralisiertes Informationsregister, das Informationen über sämtliche Unternehmensdaten enthält und damit die effiziente Datenverwaltung, -kategorisierung und -nutzung im Unternehmen ermöglicht.

Erfahren Sie hier mehr über die grundlegende Funktionsweise und Mehrwerte von Datenkatalogen und lernen Sie deren spezifische Anwendungsfälle kennen. Wir bringen Ihnen die typischen Nutzerrollen des Datenkatalogs näher und geben Ihnen eine praxisnahe Schritt-für-Schritt-Anleitung für die Erstellung eines Datenkatalogs an die Hand.

Inhaltsverzeichnis

icon benefit idea

Was ist ein Datenkatalog und welche Mehrwerte bringt er?

Mehr erfahren→
icon user

Verwendung und Anwenderrollen eines Datenkatalogs

Mehr erfahren→
icon functions

Funktionen eines Datenkatalogs

Mehr erfahren →
icon benefit idea step

Schritt für Schritt zum passenden Datenkatalog

Mehr erfahren →

Was ist ein Datenkatalog und welche Mehrwerte bringt er?

Die Erstellung und Nutzung von Daten findet abteilungsübergreifend in allen Bereichen des Unternehmens statt. Damit den Mitarbeitern für diese Zwecke eine einheitliche und konsistente Datenbasis zur Verfügung steht, ist eine Klassifizierung und Strukturierung der Daten an einem zentralen Ort unverzichtbar. Diese Strukturierung erfolgt in Unternehmen üblicherweise mithilfe sogenannter Metadaten.

Bei Metadaten handelt es sich um Daten, die Informationen zu einer bestimmten Menge an Daten enthalten – vereinfacht ausgedrückt also „Daten über Daten“. Die Metadaten kommen in verschiedensten Ausführungen vor, beispielsweise als technische, geschäftliche, betriebliche, administrative und terminologische Daten oder auch als Governance-Metadaten und Kontext-Metadaten.

Eine der zentralen Aufgaben eines Datenkatalogs ist es, diese Metadaten präzise und eindeutig zu dokumentieren sowie sichtbar und dadurch auch verfügbar zu machen.

Der Datenkatalog fungiert daher als ein zentralisiertes Informationsregister, das alle relevanten Informationen über vorhandene Daten und zugehörige Quellen, den Zugang zu den Daten, die Qualität und den Inhalt enthält. Darüber hinaus enthält der Datenkatalog in der Regel auch historische Daten wie die Nutzungsgeschichte und die Beziehungen.
data catalog contiamo
Die Aufgabe eines Datenkatalogs wird häufig auch mit dem Begriff der Datenkuration beschrieben: Die Datenkuration ermöglicht das strukturierte Suchen, Auffinden und Abrufen sowie die Qualitätssicherung von Daten. Die Nutzer eines Datenkatalogs können also auf der einen Seite Daten registrieren und festlegen, wer welche Daten auf welche Art und Weise nutzen darf. Auf der anderen Seite ist das gezielte Abrufen von Daten zur Bewertung und Analyse von Fragestellungen möglich.

Die Anwendungsfälle von Datenkatalogen im Unternehmen sind vielseitig und reichen von Datenmanagement und -analyse (Data Discovery / Data Shopping) über die Einhaltung interner Standards und Richtlinien (Data Governance) bis hin zu Data Assessment, Verwaltung und der Anwendung im Rahmen von Machine Learning / Künstlicher Intelligenz.

Diese Mehrwerte bringt die Nutzung eines Datenkatalogs

Graph benefits data catalog

Ein Datenkatalog bringt Ordnung in die Unternehmensdaten und ermöglicht die strukturierte, effiziente und sicherheitskonforme Erstellung und Nutzung von Daten durch Stakeholder im Unternehmen. Übergeordnetes Ziel eines Datenkatalogs ist die Unterstützung datenbasierter Prozesse zur Steigerung von Leistung, Effizienz und Datenqualität sowie zur transparenten Entscheidungsfindung.

Die Mehrwerte des Datenkatalogs im Überblick:

orange tick
Effizienz: Datenkataloge sind die Grundlage für effiziente Prozesse im Unternehmen. Als „Effizienz-Katalysator“ reduzieren Datenkataloge zudem auch die Arbeit der Datenverwalter und schaffen freie Kapazitäten für andere Aufgaben. Laut Forrester-Forbes-Bericht verbringen Data Scientists 75 Prozent ihrer Zeit damit, Daten zu finden und zu verstehen. Das sogenannte „Data Wrangling“ – also die Nutzbarmachung von Rohdaten für die Analyse – stellt für viele Unternehmen einen zeit- und kostenintensiven Pain Point dar.
orange tick
Leistung: Durch einen Datenkatalog lassen sich unternehmensweit Prozesse beschleunigen, Kosten senken und neue Geschäftsfelder identifizieren. Die Nutzung strukturierter Daten ermöglicht in allen Bereichen des Unternehmens eine signifikante Leistungssteigerung.
orange tick
Kostensenkung: Dank der signifikanten Effizienzsteigerung und der Beseitigung von Datenredundanzen gelingt es, Kosten im Unternehmen spürbar zu reduzieren. Neben den messbaren Kosten wirkt sich ein Datenkatalog auch auf weitere Unternehmensbereiche aus. Zusätzlich werden die Kommunikation zwischen Mitarbeitern optimiert, Fehler verringert und Daten besser verfügbar gemacht.
orange tick
Datensicherheit: Vor dem Hintergrund immer strengerer Datenschutzstandards und Sicherheitsanforderungen ermöglichen Datenkataloge die Einhaltung der unternehmensinternen Compliance und der gesetzlichen Vorschriften. Insbesondere trägt der Datenkatalog auch zur Beseitigung von Schatten-IT bei und verhindert unnötige Datenkopien.
orange tick
Datenzugang & Agilität: Durch Datenkataloge machen Unternehmen ihre Daten unternehmensweit zugänglich und eröffnen den Teams ganz neue Möglichkeiten. Dank der Eliminierung von Daten-Silos gelingt es, neue Anwendungsfälle zu entwickeln und somit auch neue Absatzmärkte zu erschließen. Gleichzeitig werden agile Projekte im Sinne von Dateninitiativen gefördert. Rund 60 Prozent der Agilitätsprojekte im Unternehmen scheitern aktuell an einer mangelnden Datenkultur.
orange tick
Entscheidungsfindung: Die datengestützte Entscheidungsfindung gewinnt in Unternehmen mehr und mehr an Bedeutung. Daten ermöglichen transparente, nachvollziehbare und objektive Entscheidungen auf der Grundlage vertrauenswürdiger Daten.
orange tick
Datenqualität: Wer einen Datenkatalog aufsetzt, beschäftigt sich oft auch automatisch mit der Qualität der vorhandenen Daten und identifiziert fehlende beziehungsweise fehlerhafte Daten. Durch die Etablierung eines Datenkatalogs gelingt es, die Datenqualität im Allgemeinen zu optimieren und datenassoziierte Probleme zu identifizieren. Durch eine höhere Datenqualität wächst zudem das Vertrauen der Mitarbeiter in die Daten: Der Datenkatalog wird zum „Central Point of Truth“ und ermöglicht Self-Service-Analysen.
orange tick
Balance: Mit einem Datenkatalog werden Verantwortlichkeiten definiert und verwaltet. Auf diese Weise gelingt es, eine nachhaltige Balance zwischen Agilität und Governance sicherzustellen und die Datenverwaltung im Unternehmen an die regulatorischen Richtlinien und die Markterfordernisse anzupassen.
Tipp: Umfragen zufolge wünschen sich 40 % aller Fachbereiche schnellere Antwortzeiten der IT. Mit einem Datenkatalog wird diese Abteilung besonders entlastet und kann sich neuen und anderen Aufgaben effizienter widmen.
Die Erfahrung zeigt: Das Erstellen eines unternehmensweiten Datenkatalogs erfordert im ersten Schritt einen Zusatzaufwand. Für den Prozess erweist es sich als vorteilhaft, einen guten Fokus zu setzen. Datenbestände, die sehr wichtig sind und viel genutzt werden, sollten möglichst frühzeitig katalogisiert werden. Die Investition amortisiert sich dank Effizienz- und Leistungssteigerungen sowie spürbaren Kostensenkungen aber in der Regel sehr schnell. Ein weiterer wichtiger Erfolgsfaktor ist, wie gut die Nutzer den Katalog annehmen und nutzen. Um eine möglichst hohe Nutzung zu gewährleisten, sollten bei der Einführung stets relevante Anwendungsfälle für die Fachbereiche berücksichtigt werden.

Verwendung und Rollen eines Datenkatalogs

Sobald der Datenkatalog einmal aufgesetzt ist und alle relevanten Daten sauber eingepflegt sind, eröffnet er weitreichende Möglichkeiten zur datengestützten Projektentwicklung, zur Unterstützung von Self-Service-Analysen sowie zur strategischen Erschließung neuer Märkte. Die meisten Unternehmen haben das Potenzial von Datenkatalogen erkannt: 85 Prozent der Organisationen sehen Datenkataloge als Lösung für die Herausforderungen von heute und morgen.

Im Folgenden stellen wir die wichtigsten Anwendungsfälle von Datenkatalogen kurz vor und gehen auf die verschiedenen Rollen von Datenkatalognutzern ein.
accelerate data projects
Projektunterstützung:
Im operativen Geschäft ermöglichen Datenkataloge eine erhebliche Steigerung der Effizienz. Rund 70 Prozent der Zeit wird in Datenprojekten für die Suche und Aufbereitung von Daten aufgewandt – mit Datenkatalogen lässt sich auf der Projektebene eine effiziente und erfolgreiche Durchführung durchsetzen.
self service data marketplace
Self-Service-Analysen:
Mit Self-Service-Analysen stellen Unternehmen ihren Datenschatz auch IT-fernen „Laien“ zur Verfügung und ermöglichen dadurch die breite Verfügbarkeit und Nutzung von Daten in allen Abteilungen. Durch Self-Service Business Intelligence gelingt es, Synergieeffekte zwischen IT und Geschäftsbetrieb zu realisieren und dem Endbenutzer ganz neue Möglichkeiten in Bezug auf die Datenaufbereitung und -analyse zu eröffnen. Insbesondere in Kombination mit modernen Visualisierungstools ermöglicht der Katalog eine sehr gute Alternative zu Excel.
Symbol for consuming data
Strategische Ziele erreichen und neue Märkte erschließen:
Auch in der strategischen Unternehmensausrichtung spielen Datenkataloge heute eine wichtige Rolle. In einer sich schnell verändernden Unternehmenslandschaft unterstützen sie mit dem Aufbau eines Datenkatalogs die Anpassung an neue Marktentwicklungen und die Erreichung strategischer Ziele. Zu diesen Zielen gehören unter anderem:

blue tick
Verbesserung der Wertversprechen von Produkten durch eine fundierte Datenbasis
blue tick
Generierung neuer Anwendungsfelder für bestehende Produkte
blue tick
Erschließen neuer Einnahmequellen, beispielsweise durch den Handel mit Daten auf B2B-Ebene
blue tick
Digitalisierung von Prozessen im Sinne der Industrie 4.0 auf Grundlage einer verbesserten Datenverarbeitung
blue tick
Ableitung datengestützter, fundierter Erkenntnisse z.B. für die strategische Geschäftsausrichtung
blue tick
Unterstützung von Business-Intelligence(BI)-Ansätzen zur Bereitstellung analytischer Inhalte
blue tick
Strukturierte Verwaltung kontinuierlich wachsender Datenmengen
blue tick
Etablierung von datenbasierten Technologien und Trends wie Big Data, Cloud-Hosting, Automatisierung, maschinellem Lernen oder Self-Service Analytics im Unternehmen
In Bezug auf die Notwendigkeit und den Mehrwert von Datenkatalogen gibt es inzwischen einen breiten Konsens. Viele Unternehmen investieren bereits große Summen in Big Data, künstliche Intelligenz und datengestützte Automatisierung. Die Statistik zeigt aber auch, dass nur 72 Prozent dieser Unternehmen eine Datenkultur pflegen – viele Unternehmen stehen mangels strukturierter Datenkataloge vor der Herausforderung, neue Technologien und Prozesse erfolgreich zu implementieren.

Die typischen Rollen von Datenkatalognutzern

Für die nachhaltige und erfolgreiche Implementierung eines Datenkatalogs ist eine klare Rollenzuteilung erforderlich. Dabei geht es darum, die Aufgaben der verschiedenen Stakeholder und gleichzeitig deren Beziehung untereinander zu beschreiben. Typischerweise sind in einem Datenkatalog die folgenden drei Rollen definiert:
datacatalog user steward owner user
Data Owner: Der Data Owner ist der „Besitzer“ der Daten. Er ist verantwortlich für die Daten und deren Pflege. Die Qualität des Datenkatalog hängt maßgeblich von der Arbeit des Data Owners ab. Weiterhin legt er die Data Stewards für seinen Datenbestand fest.

Data Steward: Er pflegt die Metadaten im Katalog und stellt die Datenqualität sicher. Er ist in besonderem Maße an der Erstellung des Datenkatalogs beteiligt, reichert bestehende Metadaten an und stellt die Pflege des Katalogs sicher. Dabei arbeitet er eng mit dem Data Owner, aber auch den fachlichen Nutzern zusammen, um die Korrektheit sicherzustellen.

Data User: Der Data User nutzt den Datenkatalog aktiv für seine Arbeit. Er sucht gezielt nach Daten, verwendet die Datenbestände und nutzt diese zur Analyse und Bewertung.


Aus unternehmensstrategischer Sicht lassen sich die Ziele des Datenkatalogs auch mit den folgenden vier griffigen Schlagworten beschreiben:

Data Discovery: Anwendungen innerhalb der Business Intelligence (BI), die das gezielte Identifizieren von Mustern und das Auffinden von Daten entsprechend von Nutzerberechtigungen und die Eliminierung von firmeninternen Datensilos ermöglichen.

Data Transparency:
Das Erlangen eines korrekten Überblicks über die gesamte Datenlandschaft inklusive der Datenquellen und -zusammenhänge.

Data Analytics:
Die Nutzung von Rohdaten und quellenübergreifenden Daten für Analysezwecke.

Data Compliance:
Die Einhaltung von geltenden Richtlinien und Compliance-Vorgaben im Unternehmen.

Die Funktionen eines Datenkatalogs

Der Datenkatalog ist das datentechnische Herzstück des Unternehmens. Hier werden Metadaten aus Datenbanken ausgelesen und verwaltet, Daten strukturiert, organisiert und zur Verfügung gestellt sowie Rollen und Berechtigungen zugewiesen. Die wichtigsten Funktionen des Datenkatalogs stellen wir im Folgenden kurz vor.
metadata management
Metadatenverwaltung
data management
Datenorganisation
data governance compliance
Data Governance
data analysis
Datenanalyse

Zugriff auf und Verwaltung von Metadaten

Damit ein Datenkatalog funktionieren kann, muss er zu allen Daten beschreibende Informationen sammeln. Dabei handelt es sich um die Metadaten. Die Metadaten ermöglichen es dem Nutzer später, die gewünschten Datensätze schnell und effizient anhand bestimmter Merkmale zu finden. Der Datenkatalog greift zu diesem Zweck auf die Datenbanken des Kunden zu. Dabei kann es sich beispielsweise um CRM-Systeme, ERP-Systeme, Data Warehouses, Data Lakes, Datenbanken oder ein Stammdaten-Repository handeln. Diese können sowohl „on premise“ als auch in einer Cloud gespeichert werden und sind wahlweise über eine direkte Datenbankverbindung, über APIs oder über Ingest-Datenbanken zugänglich.

Darüber hinaus kann der Datenkatalog auch weitere Dateninformationstypen wie Datenberichte mit Visualisierungen sowie APIs, Datenabstammungen und Beziehungen zwischen Daten enthalten. Grundsätzlich wird in einem Datenkatalog zwischen zwei Arten von Metadaten unterschieden:
Automatisch extrahierte Daten: Diese Metadaten werden ausschließlich aus technischen Informationen und Analyse der tatsächlichen Datenbestände abgeleitet, etwa durch Methoden des Machine Learning.
Manuell hinzugefügte Daten: Diese Metadaten stehen üblicherweise in einem geschäftlichen Kontext und können daher nicht automatisiert ausgelesen werden. Sie werden manuell in den Datenkatalog eingepflegt.

Datenorganisation und -verwaltung

Ein Datenkatalog ist dafür verantwortlich, Daten zu strukturieren und zu dokumentieren. Der Datenkatalog analysiert dazu Datenquellen anhand von Metadaten, Tags, Annotationen, Ähnlichkeiten, dem jeweiligen Kontext oder der Datenherkunft. Dabei ist es nicht entscheidend, ob die Daten bereits strukturiert oder noch unstrukturiert sind oder um welchen Datentyp es sich handelt.

Bei der Analyse der Daten zur Strukturierung macht sich der Datenkatalog moderne Methoden der IT zunutze: Mithilfe von künstlicher Intelligenz (AI), Machine Learning (ML), semantischen Interferenzen, Tags, Mustern oder Beziehungen gelingt es, Datenbanken systematisch zu scannen und automatisch die erforderlichen Informationen abzuleiten.

Durch die Klassifizierung und Verknüpfung von Metadaten mit Terminologien und Prozessen innerhalb eines Unternehmens können zudem Business Glossaries oder Data Dictionaries zur erleichterten Nutzung des Datenkatalogs erstellt werden.

Die zentralisierte fachliche und technische Dokumentation der Datenbestände im  Datenkatalog bietet einen entscheidenden Vorteil: Eine "Single Source of Truth", ein zentraler Punkt der Wahrheit, wird damit innerhalb des Unternehmens kreiert.

Data Governance

Die Data-Governance-Funktion ist ein Kernstück eines Datenkatalogs. Diese Funktion verwaltet und dokumentiert den Zugriff der Nutzer auf die Daten. Die Data-Governance-Funktion weist Rollen und Berechtigungen zu, zeigt Verantwortlichkeiten für die Daten auf und analysiert die Qualität der Daten sowie die Datenflüsse. Auf der Grundlage einer funktionierenden Data Governance gelingt es, die unternehmensinternen Compliance-Richtlinien einzuhalten und gleichzeitig gesetzliche Vorschriften wie die Datenschutz-Grundverordnung (DSGVO) zu berücksichtigen.

Info: 43% der Analysen werden durch Governance-Bedenken zurückgehalten

Tools zur Datenanalyse

Fortgeschrittene Datenkataloge zeichnen sich durch umfangreiche Datenanalyse-Tools aus und geben dem User dadurch weitreichende Möglichkeiten zur weiterführenden Suche und Analyse von Daten. So kann der Datenkatalog beispielsweise Daten gezielt für Metriken, Berichte, KPIs oder vergleichbare Auswertungen aufbereiten und dokumentieren. Durch API-Schnittstellen gelingt es, die Ausgabe und Auswertung von Analysen aus Nutzersicht erheblich zu erleichtern.

Das User-Interface moderner Datenkataloge ist so aufgebaut, dass es den Benutzerfluss aktiv unterstützt und eine intuitive Benutzeroberfläche mit integrierter Suchfunktion anbietet. Damit sich der Datenkatalog flexibel an Veränderungen anpassen lässt und weitgehend skalierbar ist, sollte er über offene Schnittstellen nach außen verfügen. Dadurch gelingt es, Metadaten in andere Anwendungen zu extrahieren oder Daten zu importieren.

Schritt für Schritt zum passenden Datenkatalog

business people discussing data catalog

Schritt 1: Auswahl eines geeigneten Katalogs

Im ersten Schritt gilt es, die Anforderungen des Unternehmens an das Datenmodell zu analysieren. Wichtig ist dabei, alle relevanten Interessengruppen im Unternehmen miteinzubeziehen, Ziele und Vorgaben für den Katalog zu definieren und eine stimmige Datenstrategie zu erarbeiten.

Bei der Auswahl eines geeigneten Anbieters gilt es, verschiedene Angebote einzuholen und diese in Hinblick auf die unternehmensspezifischen Anforderungen zu prüfen. Einige beispielhafte Kriterien sind im Schritt 2 aufgelistet.
female programmer investigating use case

Schritt 2: Proof-of-concept-Phase

Das Ziel der Proof-of-Concept-Phase ist es, die Eignung der verfügbaren Datenkataloge für die unternehmensspezifischen Bedürfnisse und Ziele zu beurteilen. Dabei kommt es auch darauf an, wie die Zusammenarbeit mit dem Anbieter funktioniert. Der Anbieter spielt in der späteren Implementation des Datenkatalogs sowie beim Betrieb eine wichtige Rolle, sodass die „Chemie“ stimmen sollte.

In dieser Phase ist es wichtig, Mitarbeiter möglichst früh miteinzubeziehen und die Akzeptanz für den Datenkatalog mithilfe „realer“ Anwendungsfälle zu erhöhen. Zu den Stakeholdern des Datenkatalogs gehören die verschiedenen Fachbereiche, die IT, Compliance-Teams sowie auch Business-Intelligence-Teams. In der Proof-of-Concept-Phase bietet es sich an, gemeinsam mit dem Anbieter praxisnahe Workshops zu organisieren und damit zwei oder drei gemeinsame Anwendungsfälle zu definieren und umzusetzen.

Um einen hohen Nutzungsgrad im Unternehmen zu erreichen, sollten die verschiedenen Datenquellen möglichst frühzeitig an den Datenkatalog angeschlossen werden. Durch die Festlegung gemeinsamer Definitionen und fachlicher Begriffe gelingt es, ein einheitliches „Wording“ zu etablieren und das neue Tool als „Single Source of Truth“ bekannt zu machen. Gleichzeitig ist es wichtig, die Sichtbarkeit des Instruments durch eine transparente Kommunikation innerhalb des Unternehmens zu erhöhen.
Tip: Even after implementation, it is important to constantly monitor how the data catalog is accepted by the workforce and what added value it brings.
people discussing data catalog implementation

Schritt 3: Einführungsphase

Im Rahmen der Einführungsphase gilt es, die Mitarbeiter an Bord zu holen und eine hohe Akzeptanz für den Datenkatalog zu erreichen. Dabei empfiehlt es sich, umfassende Schulungen durchzuführen und durch ein iteratives Vorgehen schrittweise weitere Anwender zum Datenkatalog hinzuzufügen. Durch die frühzeitige Verknüpfung des Datenkatalogs mit allen relevanten Werkzeugen gelingt es, von Beginn an eine hohe Funktionalität sicherzustellen. Auf Grundlage der gesammelten Erfahrungen wird der Datenkatalog dann laufend angepasst und kontinuierlich verbessert (siehe Proof-of-Concept-Phase).

Erleben Sie Contiamo selbst

Legen Sie direkt los und testen Sie unsere Plattform 14 Tage lang - kostenlos und unverbindlich.
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.