×

Von Sensordaten zu gezielten Erkenntnissen

Wir leben im Informationszeitalter. Allerorts werden Daten erfasst, gesammelt und weiterverarbeitet, sei es mithilfe von Sensoren, manuell durch Beobachtung und Niederschreiben oder rein informatisch beispielsweise durch das Erfassen des Benutzerverhaltens im Web-Browser.
Begriffe wie Big Data und die Cloud sind schon lange nicht mehr exklusiv den IT-Spezialisten bekannt. Es stellt sich aber in jedem Fall die Frage, was wir mit den gesammelten Daten anfangen können und wie dies zu bewerkstelligen ist.

In diesem Beitrag soll zum einen aufgezeigt werden, welche Bedingungen Daten im Allgemeinen zu erfüllen haben, damit sie weiterverarbeitet und zur Erkenntnisgewinnung genutzt werden können, und zum anderen wie die Prozesskette von Daten zur Weiterverarbeitung bei Sensoren aussieht. Ein abschließendes Anwendungsbeispiel aus einem Forschungsprojekt, bei dem es um die gezielte Auswertung von gelieferten Sensordaten geht, demonstriert dann, wie konkrete Fragestellungen in der Praxis beantwortet werden können.

1. Bedingungen an Daten

Die grundlegende Anforderung an auszuwertende Daten ist, dass der Kontext der Daten bekannt ist und ggf. entsprechende Metadaten vorhanden sind. Wenn der Kontext der Daten unbekannt ist, lässt sich meist nur sehr wenig aus den Daten extrahieren. Wenn ich eine reine Ansammlung an Daten vorliegen habe und weder Informationen darüber habe, wie sie erhoben wurden oder was sie repräsentieren sollen, dann sind die Daten nahezu nutzlos.

Der Begriff der Metadaten ist in der IT-Branche mittlerweile gut bekannt. Dabei handelt es sich um Informationen, die die (Nutz-)Daten zusätzlich beschreiben. Ich möchte für Metadaten ein Beispiel aus dem Bereich der Medizin bringen. Wenn wir eine Temperaturmessung durchführen, mit dem Ziel, Fieber bei einer Person zu diagnostizieren, dann ist es zusätzlich zu der gemessenen Temperatur äußerst wichtig, wie die Temperatur gemessen wurde und welche weiteren Gegebenheiten vorhanden waren. Die Art der Messung ist relevant, weil der Schwellwert der Körpertemperatur variiert, je nachdem welche Methode angewendet wird. Bei einer rektalen Temperaturmessung liegt der Schwellwert bei 38,2°C wohingegen bei einer oralen Temperaturmessung der Schwellwert bei 37,8°C bei einer erwachsenen Person liegt. Darüber hinaus variiert der Schwellwert auch abhängig vom Alter der Person und von weiteren Gegebenheiten. Sollten Temperaturdaten ohne Vorhandensein dieser speziellen Metadaten analysiert werden, ist es bei grenzwertigen Daten nicht möglich, eine korrekte Schlussfolgerung zu ziehen.

In diesem Beispiel lässt sich direkt aus den Temperaturdaten eine Erkenntnis gewinnen, dies ist aber nicht immer der Fall. In den meisten Fällen müssen diverse Datenmanipulations- oder Erkennungsalgorithmen angewandt werden, um Erkenntnisse aus den Sensordaten zu gewinnen. Daher ist es ebenso wichtig, Kenntnis über die Methoden zur Datenverarbeitung zu besitzen sowie das Wissen darüber zu haben, wie man die manipulierten Daten interpretieren kann und darf. Es geschieht leider nicht selten, dass in wissenschaftlichen Arbeiten und Studien eine Fehlinterpretation der Daten unterläuft, weil die Bedeutung der Manipulation verkannt wurde.

2. Beispiel für fehlenden Kontext und fehlende Metadaten

Mit den beiden folgenden Tabellen, welche ich von Abschnitt zu Abschnitt erweitere und ergänze, möchte ich Beispiele geben, wie notwendig der Kontext bzw. Metadaten sind, um richtige Erkenntnisse aus den Daten zu ermitteln.

Abbildung 1: Tabellen ohne Metadaten

Die beiden Tabellen sind unabhängig voneinander, stellen also zwei separate Beispiele dar. Sie sind gefüllt mit Daten, zu denen wir zunächst keine weiteren Metadaten haben. Auch der Kontext ist soweit nicht bekannt. Die einzige Information, die ich verrate, ist, dass die linke Tabelle etwas mit Musik zu tun hat und die rechte Tabelle eher etwas für Sportliebhaber ist. Die Datensätze sind zeilenweise zusammenhängend.

Nehmen wir uns kurz Zeit, um die beiden Beispiele anzusehen. Ohne Blick auf die nächsten Tabellen können wir noch nicht wissen, was die Daten repräsentieren oder wiedergeben.

Auf der linken Seite könnte man aus der kurzen Datenreihe erkennen, dass sich die zweite Spalte im Prinzip antiproportional zur dritten Spalte verhält. Die Buchstaben in der letzten Spalte scheinen erst mal keinen erkennbaren Zusammenhang zu haben. Aber auch das lässt sich nicht ausschließen.

Auch in der rechten Tabelle scheinen sich die zweite und dritte Spalte antiproportional zu verhalten.

Wobei hier auffällt, dass die beiden Dreien in der zweiten Spalte unterschiedliche Zahlenwerte in der dritten Spalte haben. Hier besteht also keine einfache bzw. direkte Abhängigkeit. Eventuell hängt die zweite Spalte von der dritten Spalte in Kombination mit der vierten Spalte ab.

In der nächsten Abbildung sind die Daten um eine Spalte erweitert.

Abbildung 2: Tabellen mit Jahresdaten

Nehmen wir nun die erste Spalte hinzu, so kann uns dies bei der Interpretation ein wenig weiterhelfen. Die linke Tabelle hat eine absteigende Reihenfolge in Einer-Schritten. Die rechte Tabelle hat eine aufsteigende Reihenfolge in Vierer-Schritten. Es ist wohl nicht zu viel, wenn ich verrate, dass es sich hier um Jahreszahlen handelt.

‚Schon eine Idee, worum es bei einer der beiden Tabelle geht?‘

Werden nun alle Metainformationen zu den Daten angegeben, haben wir bereits viel bessere Chancen die Daten korrekt zu deuten.

Abbildung 3: Tabellen mit Metadaten

Durch die neuen Informationen lassen sich insbesondere die Abhängigkeiten der einzelnen Spalten zueinander verstehen. Auf der linken Seite lagen wir richtig mit der Annahme, dass Spalte zwei und drei antiproportional sind. Je mehr Punkte vorhanden sind, umso geringer (also besser) ist die Platzierung. Ebenso auf der rechten Seite. Je nachdem, wie viele Tore erzielt wurden und wie wenige Gegentore kassiert wurden, ändert sich die Platzierung. Bleibt nur noch die Frage aus welchem Zusammenhang die Daten entstanden sind.

Wer möchte, kann sich noch mal kurz Zeit nehmen, den Zusammenhang vor dem Weiterlesen zu erraten. Das Ergebnis wird im nächsten Abschnitt aufgelöst.

Die rechte Tabelle zeigt die Fußball WM Ergebnisse für die deutsche Nationalmannschaft über die letzten Jahre. Die linke Tabelle zeigt die Eurovision Song Contest Ergebnisse von Deutschland.

Ich denke, mit diesem Beispiel konnte verdeutlicht werden, wie notwendig es ist, die Daten um Metadaten anzureichern. Die reinen Daten geben lediglich dem Erhebenden der Daten ausreichende Informationen, für alle weiteren interpretierenden Personen oder Maschinen wären sie unzureichend.

Es passiert leider immer noch, dass teilweise Daten zur Weiterverarbeitung übergeben werden, bei denen der Kontext nicht eindeutig und die Metadaten nicht vollständig sind. Mit diesem Beispiel möchte ich dafür sensibilisieren, dass bei der Erhebung und der Weitergabe von Daten die Metainformationen nicht in Vergessenheit geraten.

3. Prozesskette von der Datenerhebung zur Erkenntnisgewinnung

Im einfachsten Szenario (siehe Abbildung 1) werden drei Komponenten benötigt, um die Prozesskette von Sensordaten zu Verarbeitung zu ermöglichen.

Essentiell ist die Sensorikkomponente, welche die gemessenen Daten zur Verfügung stellt.

Die Sensorauslesungskomponente erhält die Signale der Sensorik und bereitet diese zunächst auf, so dass sie in  Algorithmen eingesetzt werden können. Die Berechnung bzw. Ausführung der Algorithmen geschieht dann in der Algorithmikkomponente. Aus diesem Schritt resultieren die angestrebten Erkenntnisse.

Abbildung 4: Prozesskette Szenario 1

Ein weiteres Szenario beinhaltet eine Vorverarbeitungs- und Controllersteuerungs-Komponente (siehe Abbildung 4).

Diese Komponente kann bereits erste vorverarbeitende Datenmanipulationen durchführen, die hardwarenah und eventuell zeitkritisch durchgeführt werden müssen. Auch eine Anreicherung der Daten beispielsweise um einen Zeitstempel wäre hier angebracht. Der Hauptbestandteil der Datenverarbeitung wird jedoch in der Algorithmikkomponente durchgeführt, da diese in den meisten Fällen in der physischen Größe und anderweitigen Rahmenbedingungen weniger eingeschränkt ist.

In dieser Komponente kann auch eine Controllersteuerung umgesetzt werden, beispielsweise um die Sensibilität der Sensorik anzupassen oder die Frequenz der Messung zu variieren.

Abbildung 5: Prozesskette Szenario 2

Im nächsten Szenario wird eine Aktorik hinzugefügt (siehe Abbildung 6), welche dann sinnigerweise basierend auf den Messergebnissen und deren Schlussfolgerungen eingesetzt wird.

Abbildung 6: Prozesskette Szenario 3

In Abbildung 7 sehen wir eine Duplizierung aller Komponenten bis auf die Algorithmikkomponente. Anstelle der Duplizierung kann eine beliebige Vervielfachung der Komponenten durchgeführt werden. Gerade die Datenverarbeitung bei einer Vervielfachung der Sensorik ist eine spannende Angelegenheit, da die erfassten Sensordaten hier kombiniert und die Sensordaten vervollständigen können oder die Qualität und Genauigkeit der Daten optimieren können.

Abbildung 7: Prozesskette Szenario 4

Für alle Abbildungen gilt, dass die grau hinterlegten Komponenten optional in der Prozesskette sind und nur die grün hinterlegten Komponenten notwendig sind, um die Prozesskette zu vervollständigen.

4. Klassifikation von Verfahren zur Datenverarbeitung

Die folgende Liste erhebt keinen Anspruch auf Vollständigkeit. Wobei diese Liste der Klassifikationen bereits die wesentlichen Verfahrenstechniken in der Signalverarbeitung beinhaltet.

  • Filterung
    • Ein Filter ist ein System, das bestimmte Eigenschaften eines Signals modifiziert, z.B. hervorhebt oder unterdrückt. [1]
    • Beispiel Kantendetektion:

Abbildung 8: Beispiel Kantendetektion [2]

  • Transformation
    • Unter Transformation versteht man diverse mathematische Methoden, die die Ursprungsdaten umwandeln und neue andersartige Informationen anzeigen.
  • Korrelation
    • Korrelation wird in der Signalverarbeitung dazu verwendet, Zusammenhänge zweier oder mehrere Signale zu ermitteln, indem diese zueinander zeit- bzw. ortsverschoben werden. [3]
  • Klassifikation, Detektion und Mustererkennung
    • Die drei Methoden Klassifikation, Detektion und Mustererkennung zielen im Prinzip auf dasselbe. Sie dienen der Typisierung der Daten in verschiedene „Schubladen“.
  • Datenfusion
    • Mit einer Datenfusion können Daten bspw. aus unterschiedlichen Quellen zusammengeführt werden, um die Qualität und gegebenenfalls die Vollständigkeit der Daten zu verbessern.
  • Kompression
    • Im Gegensatz zur Datenfusion reduziert die Kompression die Daten auf das Maß, welches bereits für eine Fragestellung ausreichend ist – im Sinne der Datenmenge und auch der Datenqualität und Datengenauigkeit.

Dieser Verfahren kann man sich nun bedienen, um bestimmte Erkenntnisse aus Daten zu extrahieren.

5. Beispiel aus einem Forschungsprojekt

In dem Forschungsprojekt mit dem Namen „Sensorunterstützte Atmungsüberwachung bei Früh- und Neugeborenen“ (SAN) haben wir uns eine Pipeline definiert, die unterschiedliche Verfahren hintereinander schaltet, um eines der gefragten Ziele zu erreichen.

In dem Projekt wurde ein flexibler Sensorpatch entwickelt, der 36 zweilagige Brückenschaltungen (siehe Abbildung 10) besitzt, um Biegungen zu detektieren und sowohl die Stärke als auch das Vorzeichen der Biegung zu ermitteln. Ein Ziel des Forschungsprojektes war es, die Ein- und Ausatemzeitpunkte bei Früh- und Neugeborenen detektieren zu können.

Abbildung 10: Flexibler Sensorpatch/Foto: Eugen Koch

Im Folgenden beschreibe ich die Abbildung 11, welche vereinfacht die Pipeline darstellt, die zum Detektieren der Ein- und Ausatemzeitpunkte verwendet wurde. Die Basis für die Erkenntnis, wann eingeatmet beziehungsweise ausgeatmet wird, sind die erfassten Daten des Sensorpatches, dargestellt durch die neun Sensoren in Abbildung 11. Jede einzelne zweilagige Brückenschaltung gibt uns eine Folge von Voltwerten, hier vereinfacht dargestellt durch die drei Liniendiagramme. Mit Hilfe einer Frequenzanalyse können wir die vorherrschenden Frequenzen im Signal identifizieren.

Auf Basis der Frequenzanalyse und der Vorgaben aus der Natur, dass bestimmte Frequenzen nicht Teil des Nutzsignals sein können (da wir die Atmung bei kleinen Kindern messen), können wir gewisse Frequenzen per se ausschließen. Wir erhalten nun ein gefiltertes diskretes Signal.

Mit Hilfe der Differenzialrechnung lassen sich über die erste und zweite Ableitung die Extremwerte ermitteln, also die Hoch und Tiefpunkte, welche sich als die Ein- und Ausatemzeitpunkte der Kindesatmung verstehen lassen. Um eine bessere,  – d.h. schnellere Erkennung, – von Ein- und Ausatemzeitpunkte zu ermöglichen, kann mit Hilfe des Signals und dem Frequenzspektrum eine Prognose der nächsten Ein- und Ausatemzeitpunkte erstellt werden.

Mit dieser Pipeline, welche zugegebenermaßen sehr vereinfacht dargestellt ist, konnten wir in dem Forschungsprojekt aus den Sensordaten die zu erzielende Erkenntnis, wann bei einer Live-Messung eine Ein- bzw. Ausatmung vorliegt, erreichen.

Abbildung 11: Verarbeitungspipeline im Forschungsprojekt SAN

6. Quellen

[1] https://www.mb.uni-siegen.de/mrt/lehre/sv/signalverarbeitung-skript.pdf

[2] http://opencvexamples.blogspot.com/2013/10/void-canny-inputarray-image-outputarray.html

[3] https://de.wikipedia.org/wiki/Korrelation_(Signalverarbeitung)

Von Bernhard Rimatzki | 27.09.2018
Bernhard Rimatzki

Softwareentwicklung