Dieser Beitrag wurde von unserem Co-Autor Pascal verfasst.
Vielen Dank für deine Mithile am ParaWiki.
1. Einleitung
Der Kinect-v1-Sensor ist eine Tiefensensorleiste mit zusätzlicher Farbkamera und Mehrfachmikrofon [1]. Sie wurde ursprünglich Ende 2010 als Controller-Ersatz für die Microsoft XBOX 360 Spielekonsole konzipiert, wobei der Körper und/oder die Stimmen von maximal zwei Spielern das Spiel bzw. die Konsole selbst steuert, sowie zur Identifikation dient.
Durch den sehr günstigen Preis im Verhältnis zu den Anwendungsmöglichkeiten erfuhr sie eine große internationale Verbreitung auch bei wissenschaftlichen und kommerziellen Anwendungen.
Laut Kenny Biddle [2] wurde sie im Rahmen der Filmserie „Paranormal Activity 4“ zum ersten Mal einer breiten paranormal interessierten Zuschauerschaft zur mutmaßlichen Erkennung von sonst nicht sichtbaren Wesenheiten vorgeführt. Ebenso laut Kenny Biddle hatte Bill Chappell, einem Anbieter vieler bekannter Sondergeräte wie z.B. der „Ovilus“, im Jahr 2014 eine tragbar gemachte Kombination von Kinect v1, Tablet-PC und Akkupack in Handhalterung in „Ghost Adventures“, einer international bekannten Sendung, vorgestellt.
2. Konzept zur Körpererkennung
Der verwendete Laseremitter, der bei rund 830nm [3], also im unteren Infrarotbereich, arbeitet, strahlt ein unregelmäßiges aber fest definiertes Punktraster aus. Dieses Verfahren wird als „Structured Light“ bezeichnet. Die komplementäre Infrarotkamera nimmt die von Objekten reflektierten IR-Strahlen auf. Da das Punktegitter in Form und Abstand vorgegeben und damit dem System bekannt ist, kann über die Streckung / Stauchung der einzelnen Punkte mittels Triangulation die Entfernung des Bereiches berechnet werden [4]. Der Kinect-Sensor liefert u.a. also als Rohdaten die Entfernung dieser definierten Bereiche des Gitters.
3. Abfolge bis zum “Skeletal-Tracking” in der Software
1. Unterscheidung von Vorder- und Hintergrund: Lediglich die als Vordergrund erkannten Bereiche können potenzielle Benutzer der XBOX oder des Computers darstellen. Dazu werden die Entfernungsdaten genutzt.
2. Klassifikation der Körperteile: Basierend auf einer durch rund 1 Million per Motion Capture erfassten Menschenkörper, deren Daten zum Vortraining des Systems verwendet wurden, wird per SVM (Support Vektor Machine) und Regression Decision Forest versucht, die einzelnen Körperteile zu identifizieren, weil ein Ganzkörpermapping auf Tiefensensorextrakte aus zum einen aufwendig und zum anderen zu ungenau ist.
3. Lokalisierung und Gliederung der Körperteile: Vitruvian Manifold Ansatz [6].
4. Zusammenfügen und Verbinden: Da der menschliche Körper symmetrisch aufgebaut ist, werden bei Überlappungen oder Verdeckungen einzelner Körperteile Annahmen über deren Platzierung vollzogen und in Summe die 20 möglichen Verbindungen (Joints) geschaffen [7].
Für diese komplexen Berechnungen bei 30fps (Frames per Second) wurden dem Kinect Projekt ‚Natal‘ lediglich max. 10% der Rechenleistung der XBOX 360 Konsole eingeräumt, welche 240 GFLOPS aufweist. Demnach darf Kinect v1 SDK (1.8) lediglich 24 GFLOPS Rechenleistung beanspruchen. Zum Vergleich: eine alte Playstation 4 hatte schon 1,84 TerraFLOPS Leistung. Dies ist u.a. ein Grund, wieso bei den tragbaren SLS-Systemen auf Kinect v1 Basis für PUs sehr preiswerte Tablet-PCs zum Einsatz kommen.
Weitere, sehr ausführlichere Details zu diesem Thema findest du in [9], [10], [11].
4. Anfällgkeit für Fehlerkennungen / Zusammenfassung
Wenig bekannt ist, dass der Kinect v1 Sensor in 3 Versionen existiert:
– 1414: ohne Near Mode / für Xbox360, ohne Netzteil
– 1473: mit Near Mode / für Xbox360, ohne Netzteil
– 1517: mit Near Mode / für Windows, mit Netzteil
Allein aus diesem Near-Mode-Umstand ergibt sich, ob der Tiefensensor brauchbare Daten schon auf 50cm oder erst ab 80cm Abstand liefern kann. Außerdem ist Body Tracking für eine stationäre, als nicht-bewegte Kinect optimiert.
Wird die Kinect also mobil und zusätzlich noch in wenig großen Räumen inklusive Inventar verwendet [8], wird nach den obigen Ausführungen klar, dass die Software wenig brauchbare Tiefendaten von dem Sensor bekommen wird und darauf basierend durch den sich ständig ändernden Hintergrund und störende Objekte zu viele Annahmen machen werden.
In sehr vielen Aufnahmen im Rahmen von paranormalen Untersuchungen sind überlange oder hin- und her ‚zappelnde‘ Gliedmaßenverbindungen bei Stickmen zu sehen. Daran ist zu erkennen, dass die Software mutmaßliche menschliche Körperteile zu erkennen glaubt, auf dieser Fehlinterpretation aber dennoch weitere Gliedmaßen annimmt und hinzufügt.
Software, die nicht auf Microsoft Kinect SDK aufbaut wie z.B. OpenKinect u.v.m. weisen kein Training der Algorithmen mit unzähligen menschlichen Körperformen auf und sind dadurch potenziell gezwungen noch mehr Annahmen zuzulassen, was zu noch mehr Fehlinterpretationen desselben Tiefenbildes führt.