Dieser Beitrag wurde von unserem Co-Autor Pascal verfasst.
Vielen Dank für deine Mithile am ParaWiki.

1. Einleitung

Der Kinect-v1-Sensor ist eine Tiefensensorleiste mit zusätzlicher Farbkamera und Mehrfachmikrofon [1]. Sie wurde ursprünglich Ende 2010 als Controller-Ersatz für die Microsoft XBOX 360 Spielekonsole konzipiert, wobei der Körper und/oder die Stimmen von maximal zwei Spielern das Spiel bzw. die Konsole selbst steuert, sowie zur Identifikation dient.
Durch den sehr günstigen Preis im Verhältnis zu den Anwendungsmöglichkeiten erfuhr sie eine große internationale Verbreitung auch bei wissenschaftlichen und kommerziellen Anwendungen.
Laut Kenny Biddle [2] wurde sie im Rahmen der Filmserie „Paranormal Activity 4“ zum ersten Mal einer breiten paranormal interessierten Zuschauerschaft zur mutmaßlichen Erkennung von sonst nicht sichtbaren Wesenheiten vorgeführt. Ebenso laut Kenny Biddle hatte Bill Chappell, einem Anbieter vieler bekannter Sondergeräte wie z.B. der „Ovilus“, im Jahr 2014 eine tragbar gemachte Kombination von Kinect v1, Tablet-PC und Akkupack in Handhalterung in „Ghost Adventures“, einer international bekannten Sendung, vorgestellt.

nach oben ↑

2. Konzept zur Körpererkennung

Der verwendete Laseremitter, der bei rund 830nm [3], also im unteren Infrarotbereich, arbeitet, strahlt ein unregelmäßiges aber fest definiertes Punktraster aus. Dieses Verfahren wird als „Structured Light“ bezeichnet. Die komplementäre Infrarotkamera nimmt die von Objekten reflektierten IR-Strahlen auf. Da das Punktegitter in Form und Abstand vorgegeben und damit dem System bekannt ist, kann über die Streckung / Stauchung der einzelnen Punkte mittels Triangulation die Entfernung des Bereiches berechnet werden [4]. Der Kinect-Sensor liefert u.a. also als Rohdaten die Entfernung dieser definierten Bereiche des Gitters.

nach oben ↑

3. Abfolge bis zum “Skeletal-Tracking” in der Software

1. Unterscheidung von Vorder- und Hintergrund: Lediglich die als Vordergrund erkannten Bereiche können potenzielle Benutzer der XBOX oder des Computers darstellen. Dazu werden die Entfernungsdaten genutzt.

2. Klassifikation der Körperteile: Basierend auf einer durch rund 1 Million per Motion Capture erfassten Menschenkörper, deren Daten zum Vortraining des Systems verwendet wurden, wird per SVM (Support Vektor Machine) und Regression Decision Forest versucht, die einzelnen Körperteile zu identifizieren, weil ein Ganzkörpermapping auf Tiefensensorextrakte aus zum einen aufwendig und zum anderen zu ungenau ist.

3. Lokalisierung und Gliederung der Körperteile: Vitruvian Manifold Ansatz [6].

4. Zusammenfügen und Verbinden: Da der menschliche Körper symmetrisch aufgebaut ist, werden bei Überlappungen oder Verdeckungen einzelner Körperteile Annahmen über deren Platzierung vollzogen und in Summe die 20 möglichen Verbindungen (Joints) geschaffen [7].

Für diese komplexen Berechnungen bei 30fps (Frames per Second) wurden dem Kinect Projekt ‚Natal‘ lediglich max. 10% der Rechenleistung der XBOX 360 Konsole eingeräumt, welche 240 GFLOPS aufweist. Demnach darf Kinect v1 SDK (1.8) lediglich 24 GFLOPS Rechenleistung beanspruchen. Zum Vergleich: eine alte Playstation 4 hatte schon 1,84 TerraFLOPS Leistung. Dies ist u.a. ein Grund, wieso bei den tragbaren SLS-Systemen auf Kinect v1 Basis für PUs sehr preiswerte Tablet-PCs zum Einsatz kommen.

Weitere, sehr ausführlichere Details zu diesem Thema findest du in [9], [10], [11].

nach oben ↑

4. Anfällgkeit für Fehlerkennungen / Zusammenfassung

Wenig bekannt ist, dass der Kinect v1 Sensor in 3 Versionen existiert:
– 1414: ohne Near Mode / für Xbox360, ohne Netzteil
– 1473: mit Near Mode / für Xbox360, ohne Netzteil
– 1517: mit Near Mode / für Windows, mit Netzteil

Allein aus diesem Near-Mode-Umstand ergibt sich, ob der Tiefensensor brauchbare Daten schon auf 50cm oder erst ab 80cm Abstand liefern kann. Außerdem ist Body Tracking für eine stationäre, als nicht-bewegte Kinect optimiert.
Wird die Kinect also mobil und zusätzlich noch in wenig großen Räumen inklusive Inventar verwendet [8], wird nach den obigen Ausführungen klar, dass die Software wenig brauchbare Tiefendaten von dem Sensor bekommen wird und darauf basierend durch den sich ständig ändernden Hintergrund und störende Objekte zu viele Annahmen machen werden.
In sehr vielen Aufnahmen im Rahmen von paranormalen Untersuchungen sind überlange oder hin- und her ‚zappelnde‘ Gliedmaßenverbindungen bei Stickmen zu sehen. Daran ist zu erkennen, dass die Software mutmaßliche menschliche Körperteile zu erkennen glaubt, auf dieser Fehlinterpretation aber dennoch weitere Gliedmaßen annimmt und hinzufügt.
Software, die nicht auf Microsoft Kinect SDK aufbaut wie z.B. OpenKinect u.v.m. weisen kein Training der Algorithmen mit unzähligen menschlichen Körperformen auf und sind dadurch potenziell gezwungen noch mehr Annahmen zuzulassen, was zu noch mehr Fehlinterpretationen desselben Tiefenbildes führt.

nach oben ↑

4. Quellen
[1] Wikipedia (2023): Kinect. Online verfügbar unter: https://en.wikipedia.org/wiki/Kinect#Kinect_for_Xbox_360_(2010). Zuletzt geprüft am 05.12.2023.

[2] Center for Inquiry (2021): Ghost Gadgets: The Xbox Kinect with Kenny Biddle. Online verfügbar unter: https://www.youtube.com/watch?v=PF-_S-BXWFU. Zuletzt geprüft am 05.12.2023.

[3] Naeemabadi, Reza M.; Dinesen, Birthe; Andersen, Ole K.; Hansen, John (2018): Investigating the impact of a motion capture system on Microsoft Kinect v2 recordings: A caution for using the technologies together. In: PLoS ONE 13(9). Online verfügbar unter: https://www.researchgate.net/publication/327657805_Investigating_the_impact_of_a_motion_capture_system_on_Microsoft_Kinect_v2_recordings_A_caution_for_using_the_technologies_together. Zuletzt geprüft am 05.12.2023.

[4] CuriousInventor (2013): How the Kinect Depth Sensor Works in 2 Minutes. Online verfügbar unter: https://www.youtube.com/watch?v=uq9SEJxZiUg. Zuletzt geprüft am 05.12.2023.

[5] Download-Link für die Software: https://www.microsoft.com/en-us/download/details.aspx?id=40278. Zuletzt geprüft am 05.12.2023.

[6] Taylor, Jonathan; Shotton, Jamie; Sharp, Toby; Fitzgibbon, Andrew (2012): The Vitruvian Manifold: Inferring Dense Correspondences for One-Shot Human Pose Estimation. Online verfügbar unter: https://www.researchgate.net/publication/239527061_The_Vitruvian_Manifold_Inferring_Dense_Correspondences_for_One-Shot_Human_Pose_Estimation. Zuletzt geprüft am 05.12.2023.

[7] Ganea, Daniel; Mereuta, Elena; Mereuta, Claudiu (2014): Human Body Kinematics and the Kinect Sensor. In: Applied Mechanics and Materials (555). S. 707 – 712. Online verfügbar unter: https://www.researchgate.net/publication/271657351_Human_Body_Kinematics_and_the_Kinect_Sensor. Zuletzt geprüft am 05.12.2023.

[8] Kipp, Michael (2022): Kinect. Interaction. Engineering. Online verfügbar unter: https://michaelkipp.de/interaction/kinect.html. Zuletzt geprüft am 05.12.2023.

[9] Shotton, Jamie (2014): Depth, You, and the World. Centre for Intelligent Sensing. Online verfügbar unter: https://www.youtube.com/watch?v=eBe9649hNDc. Zuletzt geprüft am 05.12.2023.

[10] Shotton, Jamie (2016): Body Part Recognition and the Development of Kinect. Microsoft Research. Online verfügbar unter: https://www.youtube.com/watch?v=eBe9649hNDc. Zuletzt geprüft am 05.12.2023.

[11] Williams, Oliver (2016): The Xbox Kinect Body Tracking Pipeline. Microsoft Research. Online verfügbar unter: https://www.youtube.com/watch?v=2N3esy3ii5c. Zuletzt geprüft am 05.12.2023.