Damit ein Datenkatalog funktionieren kann, muss er zu allen Daten beschreibende Informationen sammeln. Dabei handelt es sich um die Metadaten. Die Metadaten ermöglichen es dem Nutzer später, die gewünschten Datensätze schnell und effizient anhand bestimmter Merkmale zu finden. Der Datenkatalog greift zu diesem Zweck auf die Datenbanken des Kunden zu. Dabei kann es sich beispielsweise um CRM-Systeme, ERP-Systeme, Data Warehouses, Data Lakes, Datenbanken oder ein Stammdaten-Repository handeln. Diese können sowohl „on premise“ als auch in einer Cloud gespeichert werden und sind wahlweise über eine direkte Datenbankverbindung, über APIs oder über Ingest-Datenbanken zugänglich.
Darüber hinaus kann der Datenkatalog auch weitere Dateninformationstypen wie Datenberichte mit Visualisierungen sowie APIs, Datenabstammungen und Beziehungen zwischen Daten enthalten. Grundsätzlich wird in einem Datenkatalog zwischen zwei Arten von Metadaten unterschieden:

Automatisch extrahierte Daten: Diese Metadaten werden ausschließlich aus technischen Informationen und Analyse der tatsächlichen Datenbestände abgeleitet, etwa durch Methoden des Machine Learning.

Manuell hinzugefügte Daten: Diese Metadaten stehen üblicherweise in einem geschäftlichen Kontext und können daher nicht automatisiert ausgelesen werden. Sie werden manuell in den Datenkatalog eingepflegt.
Ein Datenkatalog ist dafür verantwortlich, Daten zu strukturieren und zu dokumentieren. Der Datenkatalog analysiert dazu Datenquellen anhand von Metadaten, Tags, Annotationen, Ähnlichkeiten, dem jeweiligen Kontext oder der Datenherkunft. Dabei ist es nicht entscheidend, ob die Daten bereits strukturiert oder noch unstrukturiert sind oder um welchen Datentyp es sich handelt.
Bei der Analyse der Daten zur Strukturierung macht sich der Datenkatalog moderne Methoden der IT zunutze: Mithilfe von künstlicher Intelligenz (AI), Machine Learning (ML), semantischen Interferenzen, Tags, Mustern oder Beziehungen gelingt es, Datenbanken systematisch zu scannen und automatisch die erforderlichen Informationen abzuleiten.
Durch die Klassifizierung und Verknüpfung von Metadaten mit Terminologien und Prozessen innerhalb eines Unternehmens können zudem Business Glossaries oder Data Dictionaries zur erleichterten Nutzung des Datenkatalogs erstellt werden.
Die zentralisierte fachliche und technische Dokumentation der Datenbestände im Datenkatalog bietet einen entscheidenden Vorteil: Eine "Single Source of Truth", ein zentraler Punkt der Wahrheit, wird damit innerhalb des Unternehmens kreiert.
Die Data-Governance-Funktion ist ein Kernstück eines Datenkatalogs. Diese Funktion verwaltet und dokumentiert den Zugriff der Nutzer auf die Daten. Die Data-Governance-Funktion weist Rollen und Berechtigungen zu, zeigt Verantwortlichkeiten für die Daten auf und analysiert die Qualität der Daten sowie die Datenflüsse. Auf der Grundlage einer funktionierenden Data Governance gelingt es, die unternehmensinternen Compliance-Richtlinien einzuhalten und gleichzeitig gesetzliche Vorschriften wie die Datenschutz-Grundverordnung (DSGVO) zu berücksichtigen.
Info: 43% der Analysen werden durch Governance-Bedenken zurückgehalten
Fortgeschrittene Datenkataloge zeichnen sich durch umfangreiche Datenanalyse-Tools aus und geben dem User dadurch weitreichende Möglichkeiten zur weiterführenden Suche und Analyse von Daten. So kann der Datenkatalog beispielsweise Daten gezielt für Metriken, Berichte, KPIs oder vergleichbare Auswertungen aufbereiten und dokumentieren. Durch API-Schnittstellen gelingt es, die Ausgabe und Auswertung von Analysen aus Nutzersicht erheblich zu erleichtern.
Das User-Interface moderner Datenkataloge ist so aufgebaut, dass es den Benutzerfluss aktiv unterstützt und eine intuitive Benutzeroberfläche mit integrierter Suchfunktion anbietet. Damit sich der Datenkatalog flexibel an Veränderungen anpassen lässt und weitgehend skalierbar ist, sollte er über offene Schnittstellen nach außen verfügen. Dadurch gelingt es, Metadaten in andere Anwendungen zu extrahieren oder Daten zu importieren.
