Open source data catalogs for big enterprises - yes or no?

by
Kira Lenz
March 18, 2022

Bevor wir diese Frage beantworten, lassen Sie uns mit einer kurzen Einführung beginnen: Was ist ein Open-Source-Datenkatalog?

Ein Open-Source-Datenkatalog ist ein Datenkatalog mit einem Quellcode, der für jeden zugänglich ist (für jeden mit einem github-Account). Per Definition muss dieser Code modifizierbar sein, kompiliert werden und über klar definierte Schnittstellen verfügen. Die Idee hinter Open Source ist, dass Entwickler von gemeinschaftlich entwickelten Bausteinen profitieren können. Mit sauberen, offenen APIs können diese Bausteine komfortabel und effizient zusammengesetzt werden, um die Zielkomponente/-funktion zu realisieren. 

Um auf die Hauptfrage zurückzukommen:

Wenn die Frage lauten würde: "Datenkatalog - ja oder nein", wäre die Antwort einfach. Datenkataloge sind ein wichtiges Werkzeug für alle, die mit Daten arbeiten - Data Engineers, Data Architects, Analysten, Data Scientists und fachliche Datennutzer. Datenkataloge sind der Schlüssel zu Data Governance, zum Aufbau nachhaltiger Datenlandschaften und zu effizienten Datenprojekten. 

Obwohl große Unternehmen häufig das Potenzial von Open-Source-Tools im Allgemeinen anerkennen, verlassen sie sich doch in der Regel auf proprietäre Lösungen. 
Wir haben die häufigsten Bedenken gegenüber Open-Source-Datenkatalogen auf den Prüfstand gestellt:

  1. "Den OS-Datenkatalogen fehlen benötigte Unternehmensfunktionen" → Das stimmt zum Teil, aber viele verfügen über eine ebenbürtige Anzahl von Funktionen und erlauben außerdem deutlich mehr individuelle Erweiterungen
  2. "OS-Datenkataloge sind weniger skalierbar" → Dies ist nicht richtig. Durch den Einsatz modernster Technologie gibt es weniger Leistungseinschränkungen und zudem auch keine herstellerseitigen Einschränkungen. 
  3. "OS-Datenkataloge haben keinen Support" → Das stimmt, aber eine aktive Community und Auftragsentwickler können dies kompensieren. Es lohnt sich, vor der Implementierung einen Blick in die Community-Chats zu werfen, um einen Eindruck der Aktivität zu bekommen. 
  4. "OS-Datenkataloge machen mehr Arbeit beim Deployment und der Wartung" → Dies ist teilweise richtig. Die Wartung muss vom Unternehmen selbst - oder von Beratern - durchgeführt werden. Ähnlich wie bei Punkt 2 kann 3rd-Party-Support ein geeigneter Workaround sein. 
  5. "OS-Datenkataloge bieten weniger Sicherheit" → Das stimmt nicht. Bei einer großen Community werden Sicherheitsprobleme sogar schneller erkannt und mehr Augen sind an der Codeüberprüfung beteiligt.  

In Anbetracht der Ergebnisse dieser Analyse kommen wir zu dem Schluss, dass ein Open-Source-Katalog für große Unternehmen ebenso geeignet sein kann wie für KMU (kleine und mittlere Unternehmen). Realistische Vor- und Nachteile müssen auf einer sehr viel individuelleren Ebene ermittelt werden. Fragen wie:

  • Haben die erwarteten Nutzer die notwendigen Fähigkeiten für den Einsatz einer Open-Source-Software? 
  • Passt unser TechStack zu der Lösung? 
  • Kommt die Einbindung von Beratern für uns in Betracht?

Diese Fragen müssen natürlich sowohl für proprietäre Lösungen als auch für Open-Source-Lösungen beantwortet werden. Insbesondere in Anbetracht der häufig komplexeren Datenarchitektur profitieren Unternehmen von einer größeren Flexibilität. Technologisch fortgeschrittene Anwendungsfälle erfordern in der Regel immer klare, offene APIs und sind mit einem flexiblen Katalog wesentlich leichter zu realisieren. 

Zusammenfassend lässt sich sagen: Open-Source-Datenkataloge sind grundsätzlich für Unternehmen jeder Größe geeignet. Die individuelle Eignung sollte natürlich anhand sorgfältig ausgewählter Kriterien beurteilt werden. Wenn Sie mehr über die zu berücksichtigenden Elemente wissen möchten oder sich nicht sicher sind, ob ein Open-Source-Katalog für Sie in Frage kommt, schreiben Sie uns eine Nachricht!  

Are you interested in more information? Let's talk about your current topics and challenges!
Contact