Kriterien und Anforderungen
Die Bewertung der Datenformate berücksichtigt die folgenden Hauptkriterien:
- Anwendungsgebiet: Wie gut passt das Datenformat zu den spezifischen Anforderungen des Schienenverkehrs, einschließlich der Erfassung und Archivierung von Mess- und Diagnosedaten.
- Performance: Effizienz des Formats bei der Verarbeitung großer Datenmengen.
- Packungsdichte: Effizienz der Datenkompression und die resultierende Dateigröße.
- Metadaten: Unterstützung und Flexibilität der Metadatenstruktur.
- Einfachheit und Komplexität: Aufwand bei der Implementierung und Nutzung des Formats.
- Robustheit: Resilienz des Formats bei Unterbrechungen wie Stromausfällen.
- Tool-Unterstützung: Verfügbarkeit und Qualität der Tools zur Verarbeitung und Analyse der Daten.
- Dokumentation: Vollständigkeit und Verständlichkeit der Formatdokumentation.
- Verbreitung: Akzeptanz und Nutzung des Formats in der Branche.
- Menschliche Lesbarkeit: Lesbarkeit des Formats für Entwickler und Techniker.
- Erweiterbarkeit und Langlebigkeit: Fähigkeit des Formats, zukünftige Anforderungen und Änderungen zu integrieren.
Rangliste der Datenformate
- OSF4 (optiMEAS Streaming Format)
- Anwendungsgebiet: Sehr gut geeignet für Mess- und Automatisierungsdaten.
- Performance: Hoch, effizient in der Datenverarbeitung.
- Packungsdichte: Geringer Speicherbedarf, komprimierbar.
- Metadaten: Flexibel und umfangreich unterstützt.
- Einfachheit: Vergleichsweise einfach zu implementieren.
- Robustheit: Extrem robust gegenüber Unterbrechungen.
- Tool-Unterstützung: Verfügbarkeit von Tools noch ausbaufähig.
- Dokumentation: Gut dokumentiert.
- Verbreitung: Aktuell noch gering, aber wachsend.
- Menschliche Lesbarkeit: Akzeptabel.
- Erweiterbarkeit: Sehr gut erweiterbar und zukunftssicher.
- MDF4 (Measurement Data Format)
- Anwendungsgebiet: Speziell für Messdaten in der Automobilindustrie, gut anpassbar.
- Performance: Sehr hoch.
- Packungsdichte: Gut.
- Metadaten: Umfangreich und detailliert.
- Einfachheit: Komplexer als OSF4.
- Robustheit: Weniger robust gegen Ausschalten.
- Tool-Unterstützung: Weit verbreitet und gut unterstützt.
- Dokumentation: Sehr gut.
- Verbreitung: Weit verbreitet in der Automobilindustrie.
- Menschliche Lesbarkeit: Gering.
- Erweiterbarkeit: Gut erweiterbar.
- HDF5 (Hierarchical Data Format)
- Anwendungsgebiet: Breite Anwendung, besonders in der Wissenschaft.
- Performance: Gut, aber nicht führend.
- Packungsdichte: Gut.
- Metadaten: Sehr gut unterstützt.
- Einfachheit: Komplex in der Implementierung.
- Robustheit: Nicht sehr robust gegen Ausschalten.
- Tool-Unterstützung: Sehr gut in der Wissenschafts- und Forschungsgemeinschaft.
- Dokumentation: Ausgezeichnet.
- Verbreitung: Sehr verbreitet im wissenschaftlichen Bereich.
- Menschliche Lesbarkeit: Gering.
- Erweiterbarkeit: Sehr gut erweiterbar.
- PARQUET
- Anwendungsgebiet: Gut für tabellarische und strukturierte Daten.
- Performance: Gut für große, dichte Tabellen.
- Packungsdichte: Effizient bei großen Dateien.
- Metadaten: Unterstützt, aber weniger flexibel.
- Einfachheit: Vergleichsweise einfach.
- Robustheit: Weniger robust für kontinuierliche Datenströme.
- Tool-Unterstützung: Sehr gut im Hadoop-Ökosystem.
- Dokumentation: Gut.
- Verbreitung: Weit verbreitet im Big-Data-Bereich.
- Menschliche Lesbarkeit: Mittel.
- Erweiterbarkeit: Gut, aber mit Einschränkungen bei dünn besetzten Tabellen.
- CSV/TSV
- Anwendungsgebiet: Grundlegend und breit einsetzbar.
- Performance: Niedrig.
- Packungsdichte: Sehr schlecht.
- Metadaten: Sehr eingeschränkt.
- Einfachheit: Sehr einfach.
- Robustheit: Nicht robust.
- Tool-Unterstützung: Sehr weit verbreitet.
- Dokumentation: Einfach und weit verbreitet.
- Verbreitung: Sehr weit verbreitet.
- Menschliche Lesbarkeit: Sehr hoch.
- Erweiterbarkeit: Sehr eingeschränkt.