Контакты
Подписка
МЕНЮ
Контакты
Подписка

Интуитивная система взаимодействия человека с телевизором

В рубрику "Оборудование и технологии" | К списку рубрик  |  К списку авторов  |  К списку публикаций

Интуитивная система взаимодействия человека с телевизором

Дмитрий Тараев
Руководитель проекта, кафедра "Информационные системы и телекоммуникации" МГТУ им. Н.Э. Баумана

Современная техника уверенно развивается в направлении искусственного разума. Инжене-, ры всего мира стремятся создавать инструменты, максимально упрощающие жизнь человека. Не так давно в МГТУ им. Н.Э. Баумана группа инженеров приступила к разработке интуитивной системы для телевизора, которая позволит не только переключать каналы "взмахом руки", но и сможет отличить ребенка от взрослого

Есть идея!

В мире продолжается тенденция к облегчению жизни для рядового пользователя техники, но он все еще сталкивается с определенными неудобствами. К тому же, несмотря на то что прогресс идет большими темпами, некоторые вещи практически не претерпевают изменений. Одна из них - концепция управления различной домашней аппаратурой, а проще говоря, пульт дистанционного управления. Уже были предприняты попытки использовать интуитивно более понятные способы взаимодействия с техникой, такие как голосовые команды и управление пальцем (как, например, в известном iPhone), и в некоторых приложениях они успешно работают. Но тем не менее большого распространения они пока не получили. Часто голосовые команды (или даже речь), жесты пытаются использовать для взаимодействия с роботами, но у нас возникла идея применить методы интуитивного взаимодействия в управлении домашней электроникой.

Сама идея возникла еще в 2005 году, затем мы начали искать компанию, которая нам помогла бы эту идею реализовать. Тогда же мы решили остановиться на нескольких ключевых сценариях - использовании мультимодаль-ности (нескольких источников информации - звука, изображения, датчиков) для более надежного распознавания человека, распознавания пола человека, а также возраста человека (ребенок -взрослый). С 2006 года мы начали разработку, в первую очередь, алгоритмов, а затем и их реализации на обычном персональном компьютере, чтобы впоследствии портировать уже отлаженные алгоритмы на платформу. Следует отметить, что в первый год наша команда состояла всего из 5 человек (одного доктора технических наук, двух аспирантов и двух студентов). А в этом году наша команда уже состоит из 10 человек (доктора технических наук, кандидата технических наук, четырех аспирантов и четырех студентов).

Реализация идеи

Серьезной задачей был выбор платформы, на которой будет работать конечный продукт. Выбранное решение изначально предназначено для создания абонентской приставки к телевизору (set-top box). У нее есть свой жесткий диск, поэтому есть возможность записи телевизионных передач, а также есть поддержка огромного количества видеоформатов, например MPEG-2, MPEG-4, DivX, WMV9. К тому же программная архитектура позволяет добавить поддержку других форматов из имеющихся библиотек компонентов.

Наша задача довольно сильно отличается от первоначального предназначения этой приставки. В 2006 году мы приступили к работе. Конечно, было много трудностей, в первую очередь связанных с освоением абсолютно новой для нас платформы, но мы их успешно преодолели, и на данный момент уже имеем работающую часть нашей системы.

Мы решили сосредоточиться на трех ключевых моментах:

Распознавание конкретного человека
Представьте себе такую ситуацию. Глава семьи приходит домой, включает телевизор, тот его распознает и предлагает в зависимости от его предпочтений посмотреть, например, футбольный матч, который показывают сегодня вечером, или досмотреть фильм, который он начал смотреть вчера.

Распознавание возраста человека (ребенок - взрослый)
Данное применение вообще трудно переоценить, ведь так хочется уберечь ребенка от многого из того, что показывают по телевизору. Благодаря набору алгоритмов, которые мы применяем, система с довольно большой надежностью отличает ребенка от взрослого.

Управление оборудованием с помощью жестов и голосовых команд
Как уже было сказано выше, тоже очень перспективное применение - часто пульт дистанционного управления не оказывается под рукой, а хочется отрегулировать громкость или переключить канал. Тут мы, конечно, можем столкнуться с многими проблемами, например, чьи жесты или голосовые команды система должна учитывать, если управлять пытаются несколько человек одновременно.

На данный момент наша система на ПК довольно устойчиво распознает конкретного человека (по информации, содержащейся в базе данных), а также несколько динамических жестов, что позволяет организовать уже довольно интересный интерфейс для взаимодействия с пользователем. Распознавание ребенок - взрослый на данный момент производится не очень надежно, из-за того, что мы пока не строим объемные модели человека, используя две видеокамеры.

Сейчас мы работаем над дальнейшим портированием уже работающих алгоритмов захвата лица человека, распознавания голосовых команд. А также занимаемся исследованиями и реализацией алгоритмов, связанных с построением трехмерных моделей головы и тела человека, и базирующихся на них алгоритмах для различия взрослого и ребенка.

К концу года мы планируем иметь уже устойчиво работающую систему с полной функциональностью, исключая разве что само "физическое" переключение каналов и изменение других настроек, так как заниматься встраиванием системы в конечные продукты мы пока не собираемся.

Опубликовано: Журнал "Broadcasting. Телевидение и радиовещание" #2, 2008
Посещений: 10330

  Автор

Дмитрий Тараев

Дмитрий Тараев

Руководитель проекта, кафедра "Информационные системы и телекоммуникации" МГТУ им. Н.Э. Баумана

Всего статей:  1

В рубрику "Оборудование и технологии" | К списку рубрик  |  К списку авторов  |  К списку публикаций