Datenformate
Warum brauchen Messdaten spezialisierte Datenformate?
Alle Daten in unserer Welt haben einen zeitlichen Bezug. Ein Film wird zu einem bestimmten Zeitpunkt veröffentlicht. Ein Reisepass hat ein Ausstellungs- und ein Ablaufdatum. Wir öffnen Türen, beobachten das Wetter oder führen Gespräche – alles geschieht entlang einer Zeitspur. Doch obwohl Zeit für jede Form von Information eine Rolle spielt, unterscheiden sich die Anforderungen an deren Erfassung und Verarbeitung teils erheblich – insbesondere, wenn es um die Beobachtung physikalischer, mechanischer oder elektrischer Prozesse geht.
In der Messtechnik beobachten wir nicht selten Prozesse, die so schnell ablaufen, dass der Mensch sie mit bloßem Auge oder Ohr nicht mehr erfassen könnte. Beispiele dafür sind:
- Die Vibration eines Maschinenbauteils mit 1.000 Messungen pro Sekunde (Hz)
- Die Stromaufnahme eines Elektromotors während des Einschaltvorgangs (mit 10.000 Hz erfasst)
- Die Zündung in einem Verbrennungsmotor mit bis zu 100.000 Messpunkten pro Sekunde
- Die Messung von Strukturspannungen während eines Crashtests (mehrere Millionen Samples pro Sekunde)
Solche Daten entstehen kontinuierlich und in hoher Dichte. Sie müssen zuverlässig, reproduzierbar und möglichst verlustfrei gespeichert werden. Dabei handelt es sich nicht nur um einfache Zahlenwerte wie Temperatur oder Spannung. Vielmehr gibt es unterschiedliche Datentypen – etwa diskrete Signale wie das Öffnen und Schließen einer Tür, analoge Messgrößen mit physikalischen Einheiten, Audiosignale, Bilddaten oder ganze Datenblöcke mit jeweils spezifischer Bedeutung.
Für all das braucht es Datenformate, die mehr können als typische Büroanwendungen. Formate wie CSV, JSON oder Excel sind nützlich für den strukturierten Datenaustausch, aber sie stoßen schnell an ihre Grenzen, wenn es um:
- hohe Datenraten
- verschiedene Datentypen
- exakte Zeitstempel
- Streaming und Robustheit gegenüber Ausfällen
- flexible Erweiterbarkeit geht.
Daher haben sich im Laufe der Zeit viele proprietäre Messdatenformate etabliert, darunter:
- MATLAB (.mat)
- imc (.dat)
- HBK / ASAM (.atfx)
- NI / National Instruments (.tdm / .tdms)
- Gantner Instruments (.dat im UDBF-Format)
- Vector / CSM (ASAM MDF 4)
- HDF5 (ein generisches, weit verbreitetes Format für wissenschaftliche Daten)
Diese Formate sind jeweils gut auf die spezifischen Anforderungen ihrer Hersteller und Anwender abgestimmt – jedoch häufig proprietär, komplex oder nicht ideal für Anwendungen mit offenen, modularen Systemen.
Warum OSF? Warum schon wieder ein neues Datenformat?
Als wir bei optiMEAS vor der Aufgabe standen, ein robustes und flexibles Datenformat für unsere eigenen Geräte und Plattformen zu definieren, haben wir zunächst intensiv geprüft, ob sich ein bestehendes Format sinnvoll integrieren lässt. Doch keine der vorhandenen Lösungen erfüllte alle unsere Anforderungen gleichzeitig:
- Kontinuierliches, verlustfreies Schreiben während der Messung (Streaming)
- Robustheit gegenüber Stromausfällen oder abruptem Abschalten
- Unterstützung für äquidistante und nicht-äquidistante, zeitgestempelte Daten
- Abbildbarkeit verschiedener Datentypen – Zahlenwerte, Bilder, Audiosignale oder andere strukturierte Datenblöcke
- Einfache Integration und Implementierung
- Geringer Komplexitätsgrad bei gleichzeitig offener Erweiterbarkeit
Einige Formate wie MDF4 (ASAM Measurement Data Format Version 4) kommen diesen Anforderungen technisch durchaus nahe. MDF4 ist leistungsfähig und in der Automobilindustrie weit verbreitet. Allerdings ist die Spezifikation mehrere hundert Seiten lang, nicht frei zugänglich und nur für Mitglieder des ASAM-Verbands oder gegen Gebühr erhältlich. Auch die Implementierung ist entsprechend aufwendig.
Auch HDF5 (Hierarchical Data Format) ist ein interessantes, weit verbreitetes Format mit hoher Flexibilität und breiter Unterstützung in Wissenschaft und Technik. Es kann große Datenmengen effizient strukturieren und bietet ein offenes Ökosystem. Allerdings ist HDF5 sehr generisch gehalten – und genau darin liegt die Herausforderung: Ohne eine konkrete, auf Messdaten zugeschnittene Konvention zur Strukturierung und Interpretation der Inhalte bleibt die Implementierung aufwendiger, uneinheitlich und potenziell fehleranfällig.
Deshalb haben wir uns – nach sorgfältiger Abwägung – bewusst für einen eigenen Weg entschieden: das Open Streaming Format (OSF).
OSF erfüllt dieselben hohen Anforderungen wie etablierte Industrieformate – ist dabei aber offen dokumentiert, frei nutzbar, leicht verständlich und mit geringem Aufwand implementierbar. Es wurde speziell für den praktischen Einsatz in Messsystemen entwickelt, bei denen Daten kontinuierlich und zuverlässig auf Embedded-Systemen gespeichert werden müssen – auch unter schwierigen Bedingungen. Gleichzeitig ermöglicht OSF eine effiziente Verarbeitung und Analyse im Labor oder auf dem PC, wo eine höhere Systemleistung zur Verfügung steht.
Im Folgenden erläutern wir die Struktur, Philosophie und praktischen Vorteile von OSF – und warum es sich für moderne Messsysteme als optimale Wahl anbietet.
Von Messdatenformaten zu offenen Datenaustauschformaten
Spezialisierte Formate wie OSF sind ideal, um physikalische Messwerte effizient, verlustfrei und strukturiert zu erfassen.
Doch Messdaten sind nur der erste Schritt: echter Mehrwert entsteht, wenn sie mit anderen Informationen kombiniert werden.
Ab einem gewissen Punkt müssen die aufgezeichneten Werte den Weg aus der Messtechnik hinaus finden:
- In Data Lakes, wo sie mit großen Datenbeständen aus anderen Quellen verschmelzen.
- In Abrechnungs- und Instandhaltungssysteme, die aus Messwerten Geschäftsentscheidungen ableiten.
- In Analyseplattformen, die Trends erkennen, Anomalien finden oder KPIs berechnen.
Für diesen Austausch brauchen wir Dateiformate, die vielleicht nicht so effizient oder robust sind wie OSF, die aber einen entscheidenden Vorteil haben: Sie können von nahezu jeder Plattform und Software gelesen werden.
Formate wie CSV, TSV, JSON oder auch Parquet spielen hier eine wichtige Rolle.
- CSV / TSV: Sehr einfach, menschenlesbar, für kleine Datenmengen geeignet.
- JSON: Flexibel, strukturiert, gut für API-Transport und kleinere Datenblöcke.
- Parquet: Spaltenorientiertes, komprimiertes Format, oft in Big-Data-Umgebungen verwendet.
Sie sind nicht für die dauerhafte Ablage von hochfrequenten Messdaten gedacht, aber sie sind das Bindeglied zwischen der Welt der Messtechnik und der Welt aller anderen „Verbraucher“ von Daten. Hier geht es zu weiteren Infos
Fazit:
OSF sorgt für die verlustfreie und robuste Erfassung – die offenen Austauschformate machen die Daten zugänglich für alle weiteren Systeme und führen am Ende zu dem, was zählt: Mehrwert aus Information.