Method Article
L’objectif du protocole est de détailler Comment collecter des données vidéo à utiliser en laboratoire; Comment enregistrer les données de suivi oculaire des participants qui regardent les données et comment analyser efficacement le contenu des vidéos qu’ils cherchaient à utiliser une technique d’apprentissage automatique.
Comme les individus vivent de plus en plus dans les villes, les méthodes pour étudier leurs mouvements quotidiens et les données qui peuvent être collectées devient important et précieux. L’informatique de suivi des yeux est connue pour se connecter à une gamme de sentiments, les conditions de santé, les États mentaux et les actions. Mais parce que la vision est le résultat de mouvements oculaires constants, taquiner ce qui est important de ce qui est le bruit est complexe et les données intensives. En outre, un défi important consiste à contrôler ce que les gens regardent par rapport à ce qui leur est présenté.
Ce qui suit présente une méthodologie pour combiner et analyser le suivi des yeux sur une vidéo d’une scène naturelle et complexe avec une technique d’apprentissage automatique pour analyser le contenu de la vidéo. Dans le protocole, nous nous concentrons sur l’analyse des données à partir de vidéos filmées, comment une vidéo peut être mieux utilisé pour enregistrer les données de suivi oculaire des participants, et surtout comment le contenu de la vidéo peut être analysé et combiné avec les données de suivi des yeux. Nous présentons un bref résumé des résultats et une discussion sur le potentiel de la méthode pour d’autres études dans des environnements complexes.
Nos expériences quotidiennes d’environnements urbains ont un impact considérable sur notre santé et notre bien-être. Notre bien-être peut dépendre de la quantité d’espaces verts que nous avons vue et de l’expérience1,2,3, et ces vues peuvent être quantifiées à l’aide de l’équipement de suivi des yeux pour guider la prise de décision sur la conception du parc. Cependant, un problème survient avec le volume des données de suivi des yeux qui est générée et qui rend le sens de ces données. Comme l’équipement pour l’enregistrement des données de regard dans un laboratoire ou un environnement naturel devient plus facile à utiliser et plus puissant, les chercheurs doivent examiner comment nous pouvons collecter et analyser les données validement pour aider à des questions de prise de décision.
Jusqu’à présent, une grande partie de la recherche sur le suivi des yeux a utilisé des photographies dans un cadre de sondage ou de laboratoire4. Bien que cette méthodologie permette une grande reproductibilité et un contrôle sur les résultats, elle ne peut pas tirer parti des dernières avancées dans la technologie de suivi des yeux qui incluent l’utilisation de la vidéo et portable mobile Eye-trackers. En outre, nous affirons que l’acte de marche et de détente est nécessairement dynamique, surtout lorsqu’il est orienté vers une tâche telle que le orientation5. Par conséquent, une compréhension entièrement scientifique de ces paramètres devrait avoir lieu en dehors du laboratoire. Cependant, pour le moment, le suivi des yeux dans un cadre naturaliste de la vie réelle rend la comparaison de l’expérience entre les sujets très difficile. Par exemple, si nous voulions comparer si un répondant regarde les arbres plus qu’un autre, comment pourrions-nous contrôler le fait que leur point de vue serait en constante évolution par rapport à d’autres ou que leur tête pourrait avoir tourné. Une analyse détaillée dans ces conditions est presque impossible avec les techniques d’analyse actuelles. Nous soutenons qu’il est important de contrôler les zones d’observation à la disposition de la personne étudiée et, dans l’analyse, de pouvoir tenir compte de la scène totale qui est visualisée à un moment donné.
Il existe un ensemble de théories reliant les niveaux de stress et les perceptions de la sécurité aux vues paysagères et aux mesures bien évoluées du stress6,7. Il y a également eu une augmentation rapide de la sophistication de l’équipement de suivi oculaire pour mesurer le regard8. Le suivi des yeux est important parce que les mouvements oculaires involontaires peuvent être reliés de manière plus fiable à la préférence, au stress et à d’autres mesures traditionnelles que les enquêtes et les tests physiologiques intrusifs tels que les niveaux de cortisol salivaire. L’objectif de cette recherche est de développer des outils qui permettent une mesure plus précise des données de suivi oculaire appliquées à des contextes plus naturalistes, afin de fournir des preuves supplémentaires ou de réfuter les théories du paysage de longue date qui ont éclairé la conception du parc pour Décennies.
Le but de ce projet est de développer et de tester une nouvelle technique d’analyse qui peut générer des données pertinentes de suivi des yeux pour différentes vidéos de simulations de promenade de parc. Notre travail rapporté ici et ailleurs9 représente un point à mi-chemin entre le cadre naturaliste d’un système de suivi des yeux entièrement mobile et les études de photo en laboratoire mentionnées ci-dessus. En particulier, nous nous concentrons sur l’utilisation de vidéos comme matériau de stimulation, en explorant comment ce matériel peut être utilisé pour tester la quantité de fascination que les différents parcs génèrent dans la ville de Melbourne. Notre travail est basé sur l’hypothèse que l’analyse détaillée des vidéos est une étape nécessaire pour violer avant d’entreprendre une évaluation plus complète et plus naturaliste du potentiel des parcs pour fournir la restauration du stress.
Dans cette étude, nous avons employé un Eye-Tracker de bureau avec des vidéos de promenades dans les parcs urbains et a demandé aux participants d’imaginer qu’ils prenaient une promenade relaxante à travers un parc. Nous décrivons une méthode permettant de prévoir le temps que les participants ont passé à examiner différents objets pour être comparables entre les parcs. Les études de bureau sont généralement plus faciles à contrôler par rapport aux études mobiles et permettent une analyse comparative de chaque sujet.
Le logiciel standard de suivi des yeux utilise un outil de zone d’intérêt manuel dans lequel un opérateur peut tracer manuellement des limites autour des objets d’intérêt dans chaque scène. Cela permet de compter le temps que les participants ont passé à examiner différents objets pour être automatiquement comptés. Pour les données vidéo, ce processus est intensif en main-d’œuvre et soumis à la subjectivité et à l’erreur de l’opérateur. Dans les versions ultérieures du logiciel d’analyse de suivi des yeux, AOIs peut automatiquement suivre les objets à travers les trames quand ils sont de la même taille dans la vidéo. Il s’agit d’une amélioration, cependant, ce n’est destiné à être utilisé pour un petit nombre de stimuli dans chaque image et chaque image doit être vérifiée et confirmée.
L’étiquetage manuel des objets dans une image est commun et pris en charge par le logiciel d’édition d’images tel que GNU Image Manipulation Program (GIMP). Etant donné que 1 s produit 30 trames ou images, l’étiquetage manuel des vidéos n’est pas pratique. En outre, l’étiquetage AOI en dessinant des polygones vectoriels autour du bord d’objets complexes tels que les auvents d’arbres est très long. Enfin, bien qu’il soit possible de calculer la taille des objets dans un champ de vision à l’aide de l’étiquetage vectoriel, cette fonctionnalité n’est pas disponible actuellement.
La méthode que nous rapmettons ci-dessous traite de ces limitations. Cette étude a utilisé l’étiquetage automatique des objets. Ceci est possible à l’aide d’une technique de traitement d’image connue sous le nom d’étiquetage sémantique, dans laquelle chaque pixel de chaque image de la vidéo reçoit une étiquette indiquant une classe d’objet. L’apprentissage automatique est utilisé pour dériver des classificateurs de pixel pour chaque classe d’objet d’intérêt. Ces classificateurs fournissent une étiquette probabiliste pour chaque pixel (connu sous le nom de potentiels unaires), qui sont ensuite affinées dans un processus d’optimisation ultérieur pour obtenir la sortie étiquetée finale. Ces classificateurs apprennent les limites de décision statistique entre chaque classe d’objet dans l’espace des entités extraites de l’image, y compris la texture, l’histogramme des orientations de périphérie, les valeurs de couleur RVB et les coordonnées d’image normalisées. Une technique appropriée pour cela est implémentée dans la boîte à outils de machine learning de DARWIN10 et est décrite ci-dessous.
L’approbation éthique de ce projet a été donnée par le numéro d’homologation du Comité d’éthique de l’Université catholique australienne #201500036E. Cela a veillé à ce que tous les participants aient obtenu le consentement éclairé et que tous les participants aient participé volontairement, et que les données des participants demeurent anonymes et confidentielles. En outre, l’approbation a été donnée en raison de la méthode et de l’équipement répondant aux normes australiennes de sécurité.
1. filmer des scènes urbaines qui peuvent être utilisées dans une étude de suivi des yeux
2. Configuration et calibrage du Bureau de l’équipement de repérage des yeux
3. recrutement et éthique
4. Configuration expérimentale du participant
5. connexion des parcs consultés aux impressions des vidéos
6. analyse vidéo automatique pour l’extraction de la zone d’intérêt
7. enregistrement des données de suivi des yeux sur le contenu vidéo
8. affichage du laps de temps pendant lequel les participants ont examiné différentes classes d’objets dans les vidéos
Remarque: en raison de l’énorme taille des données de suivi des yeux, le langage de programmation Python est mieux utilisé pour les étapes jusqu’à 8,4, bien qu’un programme de traitement des données peut également être utilisé.
La figure 1 et la figure 2 montrent le résultat de la prise de toutes les données de suivi oculaire pour l’ensemble de la vidéo sur tous les participants et la production d’une carte de chaleur; C’est l’approche standard disponible dans les progiciels de suivi des yeux. En comparant la figure 1 et la figure 2 , il est possible d’identifier que les participants moyens scannés à gauche et à droite sur la coordonnée x de la vidéo dans la figure 1 par rapport à la figure 2, qui montre une forme plus ronde. C’est parce que la figure 1 avait plus d’éléments horizontaux tout au long de la vidéo par rapport au parc dans la figure 2. L’image derrière la carte de chaleur est une trame unique et ne représente pas adéquatement le contenu complet de la vidéo.
Le système de suivi des yeux de bureau et le logiciel ne compte que les résultats où les deux yeux peuvent être localisés en même temps. En d’autres termes, si un ou les deux yeux ne peuvent pas être localisés, les données sont comptabilisées comme perdues. Dans notre cas, les données de suivi des yeux ont été capturées pour > 80% du temps.
La figure 3 et la figure 4 montrent le résultat de l’utilisation du protocole et de l’utilisation de l’apprentissage automatique pour analyser le contenu des vidéos. La figure 3 montre la végétation dense des jardins de Fitzroy par rapport à la végétation relativement clairsemée du parc Royal (figure 4). Dans ce dernier, plus de ciel est visible, plus de scènes sont dominées par la végétation arbustive. La figure 5 montre le temps de fixation% sur les différents objets au cours de la vidéo pour l’un des participants. Il montre que bien que le chemin est clairement visible au cours de la vidéo, le participant ne regarde que cette fonction occasionnellement, mais à des points clés. De même, comme le montre la figure 6 , bien qu’une infime fraction du contenu de la vidéo dans le parc Royal se rapporte à des objets artificiels, le participant à l’étude examine ces caractéristiques dans une relativement grande mesure.
Les résultats de la figure 3, de la figure 4, de la figure 5et de la figure 6 peuvent être résumés à la figure 7 et à la figure 8 pour tous les 39 participants dont les données ont été utilisées dans cette étude. La figure 7 montre le temps de pause pour tous les participants lors de la recherche d’objets pendant toute la durée de la vidéo. La figure 8 montre ces mêmes données divisé par la quantité de temps et d’espace que ces différents objets occupés dans la vidéo. Une valeur de 1 indique que le temps de pause peut être comptabilisé par la quantité d’objet dans la vidéo. La figure 7 montre que les objets artificiels, tels que les lampadaires et les bancs, sont plus largement comparés à d’autres objets (> 1). La figure 7 montre également que les objets qui étaient moins pertinents, comme le ciel dans les deux images, ont été vus comparativement moins (< 1).
Figure 1: exemple de carte de chaleur produite pour l’ensemble de la vidéo d’un des parcs. Cela montre où se trouvaient la majorité des traces oculaires. Notez la forme horizontale de la carte thermique en raison de la dominance des éléments horizontaux dans la vidéo. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Figure 2: exemple de carte de chaleur qui est produite pour l’ensemble de la vidéo d’un autre des parcs. Notez la forme plus arrondie en raison de la présence d’éléments verticaux et horizontaux dans la vidéo. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Figure 3: histogramme du contenu de la vidéo de Fitzroy Gardens analysé à l’aide de la technique d’apprentissage automatique. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Figure 4: histogramme du contenu de la vidéo de Royal Park analysé à l’aide de la technique d’apprentissage automatique. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Figure 5: temps de fixation de suivi des yeux passé à regarder des objets dans les jardins Fitzroy. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Figure 6: temps de fixation de suivi des yeux passé à regarder des objets dans le parc Royal. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Figure 7: temps de maintien agrégé des yeux pour tous les participants et tous les objets des deux parcs. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Figure 8: temps d’arrêt agrégé du suivi des yeux par rapport au contenu de tous les participants et objets pour les deux parcs. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Généralement, dans les progiciels standard pour l’analyse des données de suivi oculaire, un vecteur AOI est utilisé. Même pour une seule image fixe, la taille du vecteur ne peut pas être facilement mesurée. En outre, y compris tous les AOIs dans une image et le calcul des quantités relatives d’AOIs est laborieux. Il est presque impossible de le faire manuellement sur une vidéo sans une technique d’apprentissage machine telle que celle décrite. Il s’agit d’une déclaration relativement simple qui déduit une situation de visionnement libre. Un scénario beaucoup plus précis peut être utilisé et des descriptions de scénarios différentes avant le même stimulus peuvent également affecter les mouvements oculaires11.
Notre recherche a utilisé une méthode pour classer avec précision les objets dans une vidéo et analyser la mesure dans laquelle celles-ci étaient visibles à l’œil. La méthode représente un moyen de comptabilisation de la mesure dans laquelle les mouvements oculaires sont liés à des objets d’intérêt. Cela permet de déterminer dans quelle mesure les objets d’intérêt sont présents dans un champ de vision à contrôler lors de la comparaison du suivi des yeux de différents sujets avec un dispositif mobile de suivi des yeux, ou des emplacements différents lors de l’utilisation d’un système basé sur le bureau. Les considérations qui peuvent affecter la classification automatique des objets à l’aide de l’apprentissage machine que nous employons comprennent l’éclairage, les formes par rapport à ce qui est classifié (par exemple , pas seulement un type d’arbre, mais une gamme de types d’arbres, leur position dans le l’image, la façon dont ils sont allumés, etc.), la texture et la couleur. Les considérations sur le nombre de trames comprennent la longueur et la variation des conditions visuelles exposées à travers la vidéo analysée, ainsi que le nombre de classes d’objets à identifier et la fréquence de leur apparition. Les trames changent toutes les 1/25 secondes, mais le suivi des yeux avec le logiciel se produit à 1/120 (120 Hz). Pour cette raison, les données de suivi des yeux seront collectées à 4,8 fois le taux auquel une nouvelle trame apparaît. Il n’est pas possible d’étiqueter entièrement avec précision, mais l’étiquetage des cadres devrait changer tous les 5 fois. Par exemple, les données de suivi oculaire pendant 99 à 101 s ont été prises en compte pour le cadre de la 100ème seconde de la vidéo.
Un avantage significatif des paquets actuels de suivi des yeux est qu’ils sont mis en place pour permettre aux utilisateurs de revoir un film de leurs propres fixations de suivi des yeux et des voies et de décrire pourquoi ils ont regardé certains objets. Il en résulte un ensemble de données qualitatives qui peut révéler pourquoi les sujets individuels pensent qu’ils ont examiné certains objets. Une extension du projet serait de leur montrer aussi le temps qu’ils passaient à regarder des objets à des moments différents par rapport au contenu, par exemple les informations de la figure 8. Cependant, ce faisant, en contrôlant le nombre d’objets dans une scène assez rapidement n’est actuellement pas possible.
Par exemple, on pourrait demander aux participants de voir leurs propres voies de regard qui avaient été enregistrées et de décrire pourquoi ils avaient examiné les objets particuliers12. Dans notre cas, à la fin de chaque film, les participants ont été invités à évaluer chacun des parcs sur une échelle de 1-10, premièrement pour savoir s’ils estimaient qu’ils seraient en mesure de se reposer et de se rétablir dans cet environnement (1, pas beaucoup, à 10, beaucoup) et deuxièmement combien ont-ils aimé le Parc (1, pas beaucoup, à 10, beaucoup).
aucun
Ce travail a été financé financièrement par la ville de Melbourne et en partie par l’ARC DP 150103135. Nous aimerions remercier Eamonn Fennessy pour son Conseil et son approche collaborative. Avec des remerciements particuliers aux assistants chercheurs Isabelle Janecki et Ethan Chen qui ont également aidé à collecter et à analyser ces données. Toutes les erreurs demeurent les auteurs.
Name | Company | Catalog Number | Comments |
12 mm lens | Olympus | Lens | |
Panasonic GH4 | Panasonic | Video Camera | |
Tobii Studio version (2.1.14) | Tobii | Software | |
Tobii x120 desktop eye-tracker | Tobii | Eye-tracker |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon