Method Article
Ziel des Protokolls ist es, detailliert darzulegen, wie Videodaten für den Einsatz im Labor gesammelt werden können; Wie man die Daten der Teilnehmer, die sich die Daten ansehen, aufzeichnet und wie man den Inhalt der Videos, die sie mit Hilfe einer maschinellen Lerntechnik betrachten, effizient analysiert.
Da Individuen zunehmend in Städten leben, werden Methoden, um ihre Alltagsbewegungen zu studieren, und die Daten, die gesammelt werden können, werden wichtig und wertvoll. Eye-Tracking Informatiker sind dafür bekannt, dass sie sich mit einer Reihe von Gefühlen, gesundheitlichen Bedingungen, psychischen Zuständen und Handlungen verbinden. Aber weil das Sehen das Ergebnis ständiger Augenbewegungen ist, ist das Ausreißen des Wichtiges aus dem, was Lärm ist, komplex und datenintensiv. Darüber hinaus besteht die Kontrolle darüber, was die Menschen im Vergleich zu dem, was ihnen präsentiert wird, zu kontrollieren.
Im Folgenden finden Sie eine Methodik zur Kombination und Analyse von Eye-Tracking auf einem Video einer natürlichen und komplexen Szene mit einer maschinellen Lerntechnik zur Analyse des Inhalts des Videos. Im Protokoll geht es um die Analyse von Daten von gefilmten Videos, wie ein Video am besten verwendet werden kann, um die Eye-Tracking-Daten der Teilnehmer aufzuzeichnen, und wie der Inhalt des Videos analysiert und mit den Eye-Tracking-Daten kombiniert werden kann. Wir präsentieren eine kurze Zusammenfassung der Ergebnisse und eine Diskussion über das Potenzial der Methode für weitere Studien in komplexen Umgebungen.
Unsere täglichen Erfahrungen in urbanen Umgebungen haben großen Einfluss auf unsere Gesundheit und unser Wohlbefinden. Unser Wohlbefinden kann von der Menge der Grünflächen abhängen, die wir1,2,3sehen und erleben, und diese Ansichten können mit Hilfe von Eye-Tracking-Geräten quantifiziert werden, um die Entscheidungsfindung über das Parkdesign zu bestimmen. Ein Problem stellt sich jedoch mit dem Umfang der Eye-Tracking-Daten, die generiert werden und die für diese Daten sinnvoll sind. Da die Geräte zur Erfassung von Blickdaten in einem Labor oder in einer natürlichen Umgebung einfacher zu bedienen und leistungsfähiger werden, müssen die Forscher überlegen, wie wir Daten wirksam sammeln und analysieren können, um bei Entscheidungsfragen zu helfen.
Bisher hat eine große Menge Eye-Tracking-Recherchen Fotos in einer Befragung oder Laboreinstellung4verwendet. Diese Methodik ermöglicht zwar eine große Reproduzierbarkeit und Kontrolle über die Ergebnisse, ist aber nicht in der Lage, die neuesten Fortschritte in der Eye-Tracking-Technologie zu nutzen, zu der der Einsatz von Video und tragbaren mobilen Eye-Trackern gehört. Darüber hinaus würden wir argumentieren, dass der Akt des Gehens und Entspannens notwendigerweise dynamisch ist, besonders wenn er sich an einer Aufgabe wie der Wegeunterstellung5orientiert. Daher sollte ein vollständig wissenschaftliches Verständnis dieser Einstellungen außerhalb des Labors stattfinden. Im Moment jedoch macht die Eye-Tracking in einem realen naturalistischen Rahmen den Vergleich der Erfahrungen zwischen den Themen sehr schwierig. Wenn wir zum Beispiel vergleichen wollten, ob ein Befragter mehr als ein anderer auf Bäume schaut, wie könnten wir dann kontrollieren, dass sich ihr Standpunkt im Vergleich zu anderen ständig ändern würde oder dass sich ihr Kopf gewendet hätte. Eine detaillierte Analyse unter diesen Bedingungen ist mit aktuellen Analysetechniken nahezu unmöglich. Wir würden argumentieren, dass es wichtig ist, die Sichtbereiche zu kontrollieren, die dem untersuchten Individuum zur Verfügung stehen, und in der Analyse in der Lage zu sein, die Gesamtszene, die zu einem bestimmten Zeitpunkt betrachtet wird, zu berücksichtigen.
Es gibt eine Reihe von Theorien, die Stresslevel und Sicherheitswahrnehmungen mit Landschaftsansichten und gutentwickelten Messgrößen von Stress 6,7verbinden. Es gab auch einen rasanten Anstieg der Raffinesse der Eye-Tracking-Geräte, um den Blick8zu messen. Eye-Tracking ist wichtig, weil unfreiwillige Augenbewegungen zuverlässiger mit Präferenz, Stress und anderen traditionellen Messungen verbunden sein können als Umfragen und aufdringliche, physiologische Tests wie Speichelkortisolspiegel. Ziel dieser Forschung ist es, Werkzeuge zu entwickeln, die eine präzisere Messung von Eye-Tracking-Daten ermöglichen, die auf naturalistischere Umgebungen angewendet werden, um weitere Beweise für langjährige Landschaftstheorien zu liefern oder zu widerlegen, die die Gestaltung des Parks informiert haben. Jahrzehnten.
Ziel des Projektes ist es, eine neuartige Analysetechnik zu entwickeln und zu testen, die für verschiedene Videos von Park-Walking-Simulationen relevante Eye-Tracking-Daten generieren kann. Unsere Arbeit, die hier und anderswo berichtet wird9 , stellt einen halben Punkt zwischen der naturalistischen Einstellung eines vollmobilen Eye-Tracking-Systems und den oben erwähnten labbasierten Fotostudien dar. Wir konzentrieren uns vor allem darauf, Videos als Reizstoff zu verwenden und zu untersuchen, wie dieses Material genutzt werden kann, um die Faszination zu testen, die verschiedene Parks in der Stadt Melbourne erzeugen. Unsere Arbeit basiert auf der Annahme, dass eine detaillierte Analyse von Videos ein notwendiger Schritt ist, um zu brechen, bevor wir eine umfassendere, naturalistischere Bewertung des Potenzials von Parks, um Wiederherstellung von Stress zu ermöglichen.
In dieser Studie haben wir einen Desktop-Eye-Tracker mit Videos von Spaziergängen durch Stadtparks eingesetzt und die Teilnehmer gebeten, sich vorzustellen, dass sie einen entspannten Spaziergang durch einen Park machen. Wir beschreiben eine Methode, mit der die Zeit, die die Teilnehmer damit verbrachten, verschiedene Objekte zu betrachten, zwischen Parks vergleichbar ist. Desktopstudien sind im Vergleich zu mobilen ET-Studien in der Regel leichter zu kontrollieren und erlauben eine vergleichende Analyse der einzelnen Fäbanten.
Die Standard-Eye-Tracking-Software verwendet ein manuelles Tool, in dem ein Bediener manuell Grenzen um Objekte ziehen kann, die für jede Szene von Interesse sind. So kann automatisch gezählt werden, wie viel Zeit die Teilnehmer damit verbrachten, verschiedene Objekte zu betrachten. Bei Videodaten ist dieser Prozess arbeitsintensiv und unterliegt der Subjektivität und dem Irrtum des Betreibers. In späteren Versionen der Eye-Tracking-Analyse-Software können AOIs Objekte automatisch über Frames verfolgen, wenn sie im Video die gleiche Größe haben. Das ist eine Verbesserung, aber dies ist nur für eine kleine Anzahl von Reizen in jedem Bild gedacht und jedes Bild muss überprüft und bestätigt werden.
Die manuelle Kennzeichnung von Objekten in einem Bild ist üblich und wird durch Bildbearbeitungssoftware wie GNU Image Manipulation Program (GIMP) unterstützt. Da 1 s 30 Bilder oder Bilder produziert, ist die manuelle Kennzeichnung von Videos unpraktisch. Darüber hinaus ist die AOI-Kennzeichnung durch das Zeichnen von Vektorpolygonen am Rand komplexer Objekte wie Baumkronen sehr zeitaufwendig. Schließlich ist es zwar denkbar, die Größe von Objekten in einem Sichtfeld mit Vektorkennzeichnung zu berechnen, aber diese Funktion ist derzeit nicht verfügbar.
Die Methode, über die wir unten berichten, befasst sich mit diesen Einschränkungen. In dieser Studie wurde die automatische Kennzeichnung von Objekten verwendet. Möglich wird dies mit einer Bildbearbeitungstechnik, die als semantische Beschriftung bekannt ist, bei der jedem Pixel in jedem Rahmen des Videos ein Etikett zugewiesen wird, das eine Objektklasse anzeigt. Maschinelles Lernen wird verwendet, um Pixelklassiker für jede Objektklasse von Interesse abzuleiten. Diese Klassifizierer bieten für jedes Pixel (als unary Potentials bekannt) ein probabilistisches Etikett, das dann in einem anschließenden Optimierungsprozess verfeinert wird, um die Endbeschriftung zu erreichen. Diese Klassifikatoren lernen statistische Entscheidungsgrenzen zwischen den einzelnen Objektklassen im Raum der aus dem Bild gewonnenen Funktionen, einschließlich Textur, Histogramm der Kantenorientierung, RGB-Farbwerte und die normalisierten Bildkoordinaten. Eine entsprechende Technik dafür ist in der DARWIN-Maschinenlernwerkskaufstelle10 implementiert und wird im Folgenden beschrieben.
Die Ethikkommission der Australischen Katholischen Universität hat für dieses Projekt eine ethische Genehmigung erteilt-die Zustimmungsnummer #201500036E. Dies sorgte dafür, dass von allen Teilnehmern eine informierte Einwilligung eingeholt wurde und alle Teilnehmer freiwillig teilnahmen und die Daten der Teilnehmer anonym und vertraulich blieben. Darüber hinaus wurde die Genehmigung aufgrund der Methode und der Ausrüstung nach den australischen Normen Sicherheitsvorschriften erteilt.
1. Filmen urbane Szenen, die in einer Augenverfolgungsstudie verwendet werden können
2. Einrichtung und Desktop-Kalibrierung der Eye-Tracking-Geräte
3. Rekrutierung und Ethik
4. Participant Experimental Setup
5. Verbindung der betrachtten Parks mit Impressionen der Videos
6. Automatische Videoanalyse für den Bereich der Zinsextraktion
7. Registrierung der Eye-Tracking-Daten zu den Video-Inhalten
8. Die Anzahl der Zeit, die die Teilnehmer untersucht untersucht verschiedene Klassen von Objekten in den Videos
Hinweis: Aufgrund der enormen Größe der Eye-Tracking-Daten wird die Programmiersprache Python besser für Schritte bis 8.4 verwendet, obwohl auch ein Datenverarbeitungsprogramm verwendet werden kann.
Abbildung 1 und Abbildung 2 zeigen das Ergebnis, dass alle Eye-Tracking-Daten für das gesamte Video über alle Teilnehmer hinweg erfasst werden und eine Wärmekarte erstellt wird; Dies ist der Standard-Ansatz, der in Eye-Tracking-Softwarepaketen verfügbar ist. Durch den Vergleich von Abbildung 1 und Abbildung 2 lässt sich feststellen, dass im Durchschnitt die Teilnehmer links und rechts auf der x-Koordinate des Videos in Abbildung 1 im Vergleich zu Abbildung 2 gescannt werden, die eine Runderform aufweist. Das liegt daran, dass Abbildung 1 im gesamten Video mehr horizontale Elemente hatte als der Park in Abbildung2. Das Bild hinter der Wärmekarte ist ein einzelner Rahmen und stellt nicht ausreichend den vollen Inhalt des Videos dar.
Das Desktop-Eye-Tracking-System und die Software zählen nur Ergebnisse, bei denen beide Augen gleichzeitig lokalisiert werden können. Mit anderen Worten: Wenn ein oder beide Augen nicht lokalisiert werden können, werden die Daten als verloren gezählt. In unserem Fall wurden Eye-Tracking-Daten für & gt;80% der Zeit erfasst.
Abbildung 3 und Abbildung 4 zeigen das Ergebnis der Verwendung des Protokolls und der Nutzung von maschinellem Lernen, um den Inhalt der Videos zu analysieren. Abbildung 3 zeigt die dichte Vegetation der Fitzroy-Gärten im Vergleich zur relativ spärlichen Vegetation des Royal Parks (Abbildung4). Bei letzterem ist mehr Himmel zu sehen, mehr Szenen dominieren die Strauchvegetation. Abbildung 5 zeigt die% Fixierungszeit auf die verschiedenen Objekte während des Videos für einen der Teilnehmer. Es zeigt, dass der Pfad zwar im Verlauf des Videos deutlich sichtbar ist, der Teilnehmer diese Funktion aber nur gelegentlich, aber an Schlüsselpunkten betrachtet. Wie Abbildung 6 zeigt, untersucht der Teilnehmer der Studie diese Merkmale in einem vergleichsweise großen Umfang, obwohl ein winziger Bruchteil des Inhalts des Videos im Royal Park auf künstliche Objekte zurückzuführen ist.
Die Ergebnisse in Abbildung3, Abbildung 4, Abbildung5 und Abbildung 6 können in Abbildung 7 und Abbildung 8 für alle 39 Teilnehmer zusammengefasst werden, deren Daten in dieser Studie verwendet wurden. Abbildung 7 zeigt die Verweildauer für alle Teilnehmer, wenn sie Objekte während der gesamten Länge des Videos betrachten. Die Abbildung 8 zeigt die gleichen Daten, die durch die Zeit und den Raum geteilt sind, die diese verschiedenen Objekte im Video besetzten. Ein Wert von 1 zeigt an, dass die Verweigerzeit durch die Menge des Objekts im Video abgerechnet werden kann. Abbildung 7 zeigt, dass künstliche Objekte wie Straßenlaternen und Bänke im Vergleich zu anderen Objekten (& gt;1) in größerem Maße bewohnt werden. Abbildung 7 zeigt auch, dass Objekte, die weniger relevant waren, wie der Himmel in beiden Bildern, vergleichsweise weniger gesehen wurden (& lt;1).
Abbildung 1: Beispiel-Wärmekarte, die für das gesamte Video eines Parks erstellt wird. Das zeigt, wo sich der Großteil der Augenspuren befand. Beachten Sie die horizontale Form der Wärmekarte wegen der Dominanz der horizontalen Elemente im Video. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.
Abbildung 2: Beispiel Wärmekarte, die für das ganze Video eines anderen Parks produziert wird. Beachten Sie die abgerundete Form, weil vertikale und horizontale Elemente im Video vorhanden sind. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.
Abbildung 3: Histogramm des Inhalts im Video von Fitzroy Gardens analysiert mit der maschinellen Lerntechnik. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.
Abbildung 4: Histogramm von Inhalten im Video von Royal Park mit der maschinellen Lerntechnik analysiert. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.
Abbildung 5: Augenverfolgungs-Fixierungszeit mit dem Betrachten von Objekten in Fitzroy Gardens. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.
Abbildung 6: Zeit zur Fixierung von Augenverfolgung, die mit dem Betrachten von Objekten im Royal Park verbracht wird. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.
Abbildung 7: Aggregierte Eye-Tracking Verweilen für alle Teilnehmer und Objekte für beide Parks. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.
Abbildung 8: Aggregierte Eye-Tracking wohnen in Bezug auf Inhalte für alle Teilnehmer und Objekte für beide Parks. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.
In der Regel wird in Standard-Softwarepaketen zur Analyse von Eye-Tracking-Daten ein Vektor AOI verwendet. Auch für ein einzelnes Standbild lässt sich die Größe des Vektors nicht einfach messen. Darüber hinaus ist es mühsam, alle AOIs in ein Bild aufzunehmen und die relativen Mengen von AOIs zu berechnen. Es ist fast unmöglich, dies manuell auf einem Video zu tun, ohne eine maschinelle Lerntechnik, wie sie beschrieben wird. Das war eine relativ einfache Aussage, die eine kostenlose Betrachtungssituation einfügt. Ein viel genaueres Szenario kann verwendet werden und verschiedene Szenarienbeschreibungen, bevor der gleiche Reizauch die Augenbewegungen 11 beeinflussen kann.
Unsere Recherchen verwendeten eine Methode, um Objekte in einem Video präzise zu klassifizieren und zu analysieren, inwieweit diese für das Auge sichtbar waren. Die Methode stellt ein Mittel dar, um zu erklären, inwieweit Augenbewegungen mit interessanten Objekten verknüpft sind. So lässt sich beim Vergleich der Eye-Tracking von verschiedenen Probanden mit einem mobilen Eye-Tracking-Gerät oder an verschiedenen Orten bei der Nutzung eines Desktop-basierten Systems kontrollieren, in dem interessante Objekte, die in einem Sichtfeld präsent sind, kontrolliert werden. Überlegungen, die sich auf die automatische Klassifizierung von Objekten durch das maschinelle Lernen auswirken können, das wir verwenden, sind Beleuchtung, Formen in Bezug auf das, was klassifiziert wird (z.B. nicht nur eine Baumart, sondern eine Reihe von Baumarten, ihre Position in der Bild, die Art und Weise, wie sie beleuchtet werden etc.), Textur und Farbe. Zu den Überlegungen über die Anzahl der Rahmen gehören die Länge und Variation der visuellen Bedingungen, die im gesamten Video gezeigt werden, sowie die Anzahl der zu identisierenden Objektklassen und die Häufigkeit ihres Erscheinungsbildes. Die Rahmen ändern sich jede Ein-25-Sekundenzeit, aber die Eye-Tracking mit der Software erfolgt bei der Ein-120 (120 Hz). Aus diesem Grund werden die Eye-Tracking-Daten mit dem 4.8-fachen der Geschwindigkeit erhoben, mit der ein neuer Rahmen erscheint. Es ist nicht möglich, die Etikettierung vollständig genau zu kennzeichnen, aber die Kennzeichnung der Rahmen sollte alle 5 Mal geändert werden. Zum Beispiel wurden für den Rahmen von 100 Sekunden des Videos die Eye-Tracking-Daten während 99 bis 101 s berücksichtigt.
Ein wesentlicher Vorteil der aktuellen Eye-Tracking-Pakete ist, dass sie so eingerichtet sind, dass Nutzer einen Film über ihre eigenen Eye-Tracking-Fixierungen und-Wege überprüfen und beschreiben können, warum sie bestimmte Objekte angeschaut haben. Daraus ergibt sich ein qualitativer Datensatz, der aufdecken kann, warum einzelne Probanden denken, bestimmte Objekte betrachtet zu haben. Eine Erweiterung des Projekts wäre es, ihnen auch die Zeit zu zeigen, die sie damit verbracht haben, Objekte zu unterschiedlichen Zeiten im Verhältnis zum Inhalt zu betrachten, zum Beispiel die Informationen in Abbildung8. Doch dies durch die schnelle genug kontrollierte Anzahl von Objekten in einer Szene ist derzeit nicht möglich.
So konnten die Teilnehmer gebeten werden, ihre eigenen Blickwege zu betrachten, die aufgezeichnet worden waren, und zu beschreiben, warum sie sich die einzelnen Objekte12angeschaut hatten. In unserem Fall wurden die Teilnehmer am Ende eines jeden Films gebeten, jeden der Parks auf einer Skala von 1-10 zu bewerten, erstens, ob sie das Gefühl haben, in dieser Umgebung auszuruhen und sich zu erholen (1, nicht sehr, bis 10, sehr) und zweitens, wie sehr ihnen die Park (1, nicht sehr viel, bis 10, sehr viel).
nichts
Diese Arbeit wurde von der Stadt Melbourne und teilweise von ARC DP 150103135 finanziell unterstützt. Wir danken Eamonn Fennessy für seinen Rat und seine Zusammenarbeit. Ein besonderer Dank galt den Forscherinnen Isabelle Janecki und Ethan Chen, die auch bei der Erhebung und Analyse dieser Daten mitgeholfen haben. Alle Fehler bleiben den Autoren erhalten.
Name | Company | Catalog Number | Comments |
12 mm lens | Olympus | Lens | |
Panasonic GH4 | Panasonic | Video Camera | |
Tobii Studio version (2.1.14) | Tobii | Software | |
Tobii x120 desktop eye-tracker | Tobii | Eye-tracker |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten