Читать книгу Айтрекинг в психологической науке и практике - Коллектив авторов, Ю. Д. Земенков, Koostaja: Ajakiri New Scientist - Страница 4
Раздел I
Методы и технологии регистрации окуломоторной активности человека
Технологии айтрекинга: от видеорегистрации до наложения треков на изображение[3]
В. Н. Анисимов, А. В. Краснопёрое, Ф. Л. Серженко, Л. В. Терещенко
Оглавление1
Введение
Нашим научным коллективом разработана установка для регистрации движений глаз на основе скоростной цифровой видеокамеры. Для обеспечения синхронизации компонентов системы, записи данных и их обработки создано оригинальное программное обеспечение. Преимуществом работы с нашей системой является доступ к полному циклу обработки регистрируемых данных, что позволяет быстро и эффективно решать задачи идентификации событий, а также визуально контролировать полученные результаты с помощью синхронного вывода видеозаписи изображения глаза. Также важной является возможность синхронизации регистрации треков движений глаз с внешними устройствами, например, с электроэнцефалографом или полиграфом. Известно, что подобная задача часто возникает при проведении научных или практических исследований и не всегда легко и корректно реализуется на основе решений, предлагаемых производителями айтрекеров.
2
Скоростная цифровая видеокамера Fastvideo
Движения глаз регистрируются монокулярно с использованием цифровой видеокамеры Fastvideo-ЗОО (Стандартная система скоростной видеозаписи, электронный ресурс) производства компании «Фаствидео», Россия. Камера позволяет вести видеосъемку с частотой до 300 кадров в секунду при разрешении 640x480 пикселей и разрядности аналого-цифрового преобразования 10 бит. В основе камеры используется монохромный сенсор «ШРА-300» (Скоростная матрица ШРА-300, электронный ресурс), максимум спектральной чувствительности которого лежит в области длин волн порядка 700 нм, поэтому при работе применяется инфракрасная (ИК) подсветка. ИК подсветка также позволяет добиться максимальной контрастности зрачка на регистрируемом изображении. Камера соединена специальным высокочастотным кабелем с установленной в персональном компьютере (ПК) платой ввода изображения PIXCI® EB1 (PIXCI® EB1 PCI Express xl Base Camera Link Frame Grabber, электронный ресурс). Плата обеспечивает передачу управляющих сигналов в камеру, прием в непрерывном режиме захваченных кадров от камеры и сохранение кадров в оперативной памяти ПК. Обмен данными между камерой и платой ввода осуществляется по протоколу Base Camera Link, поток данных достигает 960 Мегабит в секунду при настройках камеры по умолчанию (640x480,10 бит, 300 кадров в секунду).
3
Программное обеспечение
Для обеспечения синхронизации компонентов системы, записи данных и их обработки разработано оригинальное программное обеспечение. Оно включает в себя две программы: программное обеспечение Fastvideo Lab для скоростной видеосъемки (Программное обеспечение Fastvideo Lab для скоростной видеосъемки, электронный ресурс) и разработанная нами программа VisualStimulator.
3.1
Программное обеспечение Fastvideo Lab и параметры съемки
Программное обеспечение, поставляемое с камерой, дает пользователю широкий спектр возможностей для ведения высокоскоростной съемки. Доступны, в частности, настройка режимов работы камеры – изменение области сканирования сенсора, частоты захвата кадров, времени экспозиции, выделение фрагмента кадра и др., просмотр изображения на экране монитора, непрерывная запись видеопотока в память ПК или в файл на жесткий диск, чтение, просмотр и преобразование записанных данных.
Регистрация движений зрачка в ИК свете, направленном под углом к оптической оси камеры, основана на эффекте «темного зрачка», когда вторичное отражение от сетчатки глаза не поступает в камеру. Отображение зрачка на кадре является, как правило, самой затемненной областью, интенсивность пикселей в которой меньше, чем интенсивность пикселей в других частях кадра. Наиболее распространенное и простое определение центра положения зрачка сводится к усреднению х и у координат пикселей, интенсивность которых не превышает заранее выбранного порогового значения. Заметим, что точность этого метода ограничена наличием светодиодных бликов подсветки на роговице глаза, так как положение этих бликов может совпадать с положением зрачка. Кроме того, на точность могут влиять области с еще большим затемнением (ресницы, затемнения у краев кадра и др.). С другой стороны, результат зависит от выбора порога бинаризации изображения, а фиксированное значение порога делает этот метод практически неприменимым в режиме реального времени из-за изменений затемнения зрачка в процессе съемки.
Стандартное программное обеспечение камеры было дополнено автоматическим алгоритмом (фильтром) распознавания зрачка на изображении (Программное обеспечение для видео нистагмографии, электронный ресурс), изначально разработанным «Фаствидео» для медицинских систем видеонистагмографии на основе аналоговых ИК камер (Видео нистагмограф, электронный ресурс). Координаты зрачка на изображении определяются по его эллиптическому контуру, который является проекцией контура зрачка на плоскость сенсора камеры при любом направлении взора испытуемого. Заметим, что метод нечувствителен к бликам ИК подсветки и работает в случаях, когда зрачок частично прикрыт веками или ресницами (рисунок 1).
Рис. 1
В используемой нами версии алгоритм был в значительной степени переработан с целью увеличения производительности, что позволило применять его в режиме реального времени со 100 %-й эффективностью при частоте работы камеры 300 кадров в секунду и выше и размерах изображения от 320x240 до 640x480 пикселей. Измерения показали, что время, необходимое для выделения зрачка на кадре с размером 640x480 пикселей, не превышает 3 мс на ПК с процессором уровня Intel® Core™ i7-920 (2,66 ГГц).
Предельная точность определения центра эллиптической области оценивалась в модельном эксперименте с изображением черного круга на белом фоне. Было установлено, что при различных проекциях изображения на плоскость матрицы видеокамеры, координаты центра определяются с точностью лучшей, чем один пиксель сенсора, что соответствует предельной точности угла поворота глаза 0,5 градуса. Эта точность ограничена шумами матрицы, механическими колебаниями установки, стабильностью освещенности изображения, а также точностью работы выбранного алгоритма.
В наших измерениях камера, программа и фильтр настраиваются на непрерывную съемку и запись видео в файл. Временная привязка координат зрачка ведется от момента запуска камеры по порядковому номеру кадра с учетом периода следования кадров. Координаты, время и номера кадров передаются в программу VisualStimualtor по мере регистрации с помощью интерфейса межпроцессного взаимодействия mailslot (Центр разработки Windows, электронный ресурс).
3.2
Программа VisualStimulator
Для анализа движений глаз нами было разработано оригинальное программное обеспечение VisualStimulator, использующее в качестве предъявляемых стимулов статические изображения (рисунки), динамические ряды (видеофайлы), а также имеющее возможность реализовывать захват экрана монитора, на котором происходит предъявление. Последний пункт может быть очень важен при решении задач, связанных с процессами навигации по сайтам, анализу расположения элементов на рабочем столе и т. д.
3.2.1
Отображающая координатная функция и калибровка
Программа управления камерой определяет координаты взора в системе координат сенсора, переход от измеренных координат к координатам предъявляемого изображения производится в программе VisualStimulator. Детальный обзор методов, позволяющих связать координаты «сенсор-стимул», представлен в работе Шила (Sheela, 2011). В нашей программе переход от измеренных координат (х, у) к предъявляемым (X, У) осуществляется с помощью отображающей функции вида:
где коэффициенты и (i = 1.. 6) определяются методом наименьших квадратов из калибровочного измерения.
Калибровка состоит в последовательной демонстрации на экране монитора точек с известными координатами (X, Y) с синхронной регистрацией направленного на них взора испытуемого с координатами (х, у) (рисунок 2). Точки расположены в узлах калибровочной сетки монитора, число узлов по вертикали и по горизонтали задается в настройках программы. При демонстрации изображений на мониторе с соотношением сторон 16:9 использовалось 18 точек, соответствующих шести узлам сетки по горизонтали и трем – по вертикали. Предъявление точек проводится с заданной длительностью по одной, друг за другом.
Рис. 2. Пример удачной калибровки с наложенными на калибровочные точки восстановленными позициями взора. Фиксация в центре – начальная позиция взора испытуемого
3.2.2
Выделение фиксаций и саккад
Первоначально координаты трека анализируются независимо друг от друга. Каждый временной ряд аппроксимируется кусочной ступенчатой функцией (Lemire, 2007), разбивающей последовательность на интервалы, в пределах которых координата не изменяется или изменяется незначительно. Пересечения полученных интервалов во времени определяют положения фиксаций на треке (рисунок 3). Восстановление положения фиксаций на экране монитора проводится с помощью отображающей функции по координатам, полученным из усреднения измерений на выделенных временных интервалах. Угловое изменение направления взора между двумя последовательными фиксациями определяет амплитуду саккады. В случае, когда амплитуда не превышает 1,4°, две последовательные фиксации объединяются в одну. Выбор данного критерия многократно обсуждался в литературе (Velichkovsky et al., 2005) и может быть обусловлен целями эксперимента, а также анатомо-физиологическими свойствами сетчатки. Так, известно, что угловой размер фовеа глаза человека составляет около 2°. Примером причины выбора иного амплитудного критерия, обусловленного целями эксперимента, может быть, например, необходимость оценки стабильности фиксации взора на одной точке длительное время. В этом случае критичными могут быть также микросаккады и дрейф. Отметим также, что в программе предусмотрена возможность опциональной настройки данного критерия.
Рис. 3. Зарегистрированные X и Y координаты взора в зависимости от времени. Найденные интервалы фиксаций показаны горизонтальными линиями с подписями, соответствующими их длительности в миллисекундах
В случае, когда изучается зрительное внимание в стандартных глазодвигательных парадигмах, интерес представляют саккадические движения глаз. При объединении фиксаций, которые отстоят друг от друга на угол, меньший, чем заданный параметр, происходит пересчет лежащих рядом амплитуд саккад, а также общей длительности полученной новой фиксации, которая является суммой двух объединяемых.
4
Методика предъявления и регистрации
Камера устанавливается сбоку под прямым углом к направлению взора испытуемого и регистрирует изображение глаза, отраженное от «теплого зеркала» – специального эмиссионного фильтра, пропускающего свет видимого спектра и отражающего волны инфракрасного диапазона (более 800 нм). Эмиссионный фильтр располагается в плоскости, расположенной под углом 45° к плоскости зрачка. Это позволяет убрать видеокамеру из поля зрения испытуемого, а также расположить ее в плоскости, параллельной плоскости зрачка. Такое расположение видеокамеры позволяет избежать погрешностей, обусловленных угловыми искажениями при вычислении координат центра зрачка.
Изображение предъявляют на экране монитора Samsung с диагональю 23' (с разрешением 1920x1080 пикселей) на расстоянии 60 см от глаз испытуемых, занимая 47° по горизонтали и 26° по вертикали их зрительного поля. В экспериментах голову испытуемых фиксируют с помощью лобно-подбородной подставки.
С точки зрения построения эксперимента необходима возможность составления набора предъявляемых стимулов, как статических, так и динамических. Эта возможность предусмотрена в разработанном программном обеспечении. Интерфейс позволяет добавлять графические файлы разных форматов, задавать время предъявления стимулов.
Также в программе предусмотрена возможность проведения повторной калибровки в течение эксперимента, в том числе в «горячем» режиме, и добавления фонового изображение между предъявляемыми стимулами.
В экспериментах на экране монитора предъявляют различные зрительные стимулы и регистрируют изображение глаза. Координаты взора отражают траекторию движения глаза и периоды фиксаций. Такие траектории можно «наложить» на изображения, предъявляемые на мониторе, что позволяет качественно оценить процесс сканирования испытуемым зрительной сцены во время эксперимента (рисунок 4).
Рис. 4. Стимульное изображение с наложенными на него треками и выделенными фиксациями. Испытуемый сканирует взором детали интерьера и фигуру человека
У многих современных трекеров, предлагаемых на рынке, существует ряд ограничений, связанных с закрытыми алгоритмами анализа и удобством работы с конкретным программным обеспечением. Программа VisualStimulator дает исследователю максимально необходимый доступ к разным уровням обработки, начиная с потока исходных данных, на основе которых строятся треки, и заканчивая выделенными из них событиям (фиксации, саккады и моргания). В программе предусмотрены возможности изменения цветов накладываемых треков; существует возможность изменения цвета трека, саккад и фиксаций отдельно. Для большей наглядности линия, соответствующая саккаде, передается с разной толщиной: тонкая в том месте, где саккада начинается, и утолщающаяся в сторону конца саккады.
Возможность синхронного вывода видеозаписи и прорисовки треков взора, наложенных на изображение (рисунок 4) позволяет верифицировать моменты генерации событий (саккад и фиксаций) при проведении эксперимента. Этот метод дополняет преимущества использования открытых алгоритмов работы программно-аппаратного комплекса, которые, в свою очередь, также позволяют получать как массивы исходных координат центра зрачка в системе координат матрицы видеокамеры, так и в системе координат монитора, на котором предъявляются стимульные изображения. Большое внимание при разработке описанного программного обеспечения уделялось именно возможностям визуализации, что является очень важным аспектом при анализе полученных записей. Специальной опцией является то, что координаты треков или соответствующие им события могут «выгружаться» непосредственно за тот промежуток времени, который отражается на картинке в данный момент. Также возможно делать временные отступы от начала или конца записи, чтобы точно определить интересующий исследователя фрагмент записи.
Известно, что у ряда трекеров, даже современных, отсутствует возможность загрузки динамических стимулов, что сильно ограничивает возможности исследователя. В нашем ПО специально была предусмотрена такая возможность и представлены все необходимые для анализа записанных данных инструменты. Для вывода стимульного видеоряда с наложенными на него треками движений глаз в программу VisualStimulator был интегрирован видеоплейер (рисунок 5), автоматически вызываемый при просмотре сделанной в эксперименте записи.
Рис. 5. Синхронный вывод трека в интервале 500 мс и видеоизображения глаза, которое хранится в отдельном файле
5
Применение технологии айтрекинга в исследованиях
Разработанный программно-аппаратный комплекс с успехом применялся нашей научной группой в целом ряде исследований. Основными направлениями исследований стали работы со статическими и динамическими изображениями (Шурупова и др., 2015) и исследования движений глаз при чтении предложений с синтаксической неоднозначностью (Жондо и др., 2015). По результатам проведенных исследований были защищены две дипломные работы на кафедре высшей нервной деятельности биологического факультета МГУ им. М. В. Ломоносова. Результаты, полученные в указанных работах подтвердили динамику зависимости параметров движений глаз при просмотре статических и динамических сцен, а также при чтении предложений с синтаксической неоднозначностью, которая описана в ранее опубликованных работах, что говорит о релевантности полученных результатов и косвенно свидетельствует о точности работы программно-аппаратного комплекса. При этом с использованием описанного оборудования и программного обеспечения были получены новые содержательные результаты. Высокая частота и удобство работы с программно-аппаратным комплексом позволяет эффективно регистрировать данные в экспериментах и получать результаты на уровне работ современной мировой науки.
6
Заключение
Приведено описание программно-аппаратного комплекса, разработанного нашей научной группой. В нем предусмотрены широкие возможности настройки как аппаратной части (изменение частоты, разрешения и др.), так и широкий спектр программных настроек, необходимых для удобной и продуктивной работы с данными регистрации движений глаз.
Установка позволяет быстро освоить навыки работы с ней, что является также существенным преимуществом, особенно для начинающих работать с айтрекингом. Важными особенностями являются возможности синхронного вывода треков движений глаз и видео изображения глаза с выделенным на нем зрачком и оперативного добавления калибровки в процессе проведения эксперимента.
Циклы работы программы VisualStimulator и поток координат зрачка синхронизованы по времени. В настоящее время формат принимаемых данных определяется программным обеспечением цифровой камеры Fastvideo-ЗОО, однако потенциально существует возможность работы с данными в любом другом формате и с другими типами камер. Этот фактор дает преимущества перед используемыми в настоящее время коммерческими айтрекерами, так как позволяет изменять аппаратную часть, базируясь на серийно производимых типах видеокамер в широком ценовом диапазоне.
Существует потенциальная возможность применения программно-аппаратного комплекса для работы с животными (низшими приматами).
Литература
Видео нистагмограф. URL: http://www.vdvs.ru/products/vng/vng.htm (дата обращения: 15.06.2015).
Жондо А. С, Анисимов В. Н., Фёдорова О. В., Латаное А. В. Движения глаз при чтении предложений с локальной и глобальной синтаксической неоднозначностью // Когнитивная наука в Москве: новые исследования. М.: ООО «Буки Веди», ИППиП, 2015. С. 131–134.
Скоростная матрица ШРА-300. URL: http://www.fastvideo.ru/info/sensor/ cypress/lupa300.htm; http://www.fastvideo.ru/info/sensor/cypress/ lupa_300.pdf (дата обращения: 15.06.2015).
Стандартная система скоростной видеозаписи: 640x480,10 бит, 300 fps. URL: http://fastvideo.ru/products/vga/fv300.htm http://fastvideo.ru/ products/vga/fv300.htm (дата обращения: 15.06.2015).
Программное обеспечение Fastvideo Lab для скоростной видеосъемки. URL: http://www.fastvideo.ru/products/software/software.htm (дата обращения: 15.06.2015).
Программное обеспечение для видео нистагмографии. URL: http://www. vdvs.ru/products/software/software.htm (дата обращения: 15.06.2015).
Центр разработки для Windows. Mailslots. URL: https://msdn.microsoft. com/ru-ru/library/windows/desktop/aa365576%28v=vs.85%29.aspx (дата обращения: 15.06.2015).
Шурупова М. А., Анисимов В. Н., Красноперое А. В., Латаное А. В. Параметры движений глаз при просмотре динамических сцен // Когнитивная наука в Москве: новые исследования. М.: ООО «Буки Веди»-ИППиП, 2015. С. 492–498.
Шурупова М. А., Анисимов В. Н., Латаное А. В. Параметры движений глаз при просмотре динамических сцен // Одиннадцатый международный междисциплинарный прогресс «Нейронаука для медицины и психологии». Тезисы докладов. Судак, 2015. С. 456.
Lemire D. A Better Alternative to Piecewise Linear Time Series Segmentation // SDM. 2007. P. 545–550.
PIXCI® EB1 PCI Express xl Base Camera Link Frame Grabber. URL: www.epixinc.com/products/pixci_ebl.htm (дата обращения: 15.06. 2015).
Sheela S. V., Vijaya P. A. Mapping Functions in Gaze Tracking // International Journal of Computer Applications. 2011. V. 26. № 3. P. 36–42.
Velichkovsky B. M. et al. Two visual systems and their eye movements: Evidence from static and dynamic scene perception // Proceedings of the XXVII conference of the cognitive science society. Mahwah, N.J.: Lawrence Erlbaum, 2005. С 2283–2288.