В рубрику "Оборудование и технологии" | К списку рубрик | К списку авторов | К списку публикаций

Объемное телевидение – символ XXI века
Часть 4

Мы продолжаем публикацию, посвященную объемному телевидению. В этой части статьи автор подробно рассматривает особенности зрительной системы человека и физиологию глаза

Павел Варгин
Генеральный директор ПКБ “Рельеф”

Бинокулярное зрение

Зрительная система человека обладает рядом интересных особенностей. Во-первых, разрешающая способность глаза быстро меняется при смещении изображения объекта от центральной ямки сетчатки к периферии. Это обусловлено тем, что от сетчатки в мозг человека поступают не сигналы отдельных рецепторов (палочек и колбочек), а взвешенные суммы таких сигналов. Суммируются сигналы рецепторов небольших зон сетчатки – рецептивных полей. Рецептивные поля ганглиозных нейронов сетчатки имеют приблизительно круглую форму. Диаметр рецептивных полей изменяется от 2 угловых минут в центре до 1–2 градусов на периферии сетчатки. Для сравнения угловой размер Луны составляет 30 минут, а колбочки – 0,5 минуты. Рецептивные поля близких нейронов частично перекрываются. В результате такой обработки сигналов от 150 млн фоторецепторов сетчатки глаза в мозг идет только миллион нервных волокон. При моделировании работы нейронов сетчатки в качестве весовых функций рецептивных полей используют двумерные функции Гаусса колоколообразной формы.

Во-вторых, каждый отдельный рецептор сетчатки имеет собственную биохимическую систему адаптации к световому потоку. Эта система может быть описана на функциональном уровне как система с глубокой параметрической обратной связью, аналогичная системе автоматической регулировки усиления (АРУ), используемой в радиотехнике. Контуры АРУ имеются также на уровнях слоев горизонтальных и амакриновых клеток сетчатки глаза, которые изменяют весовые функции рецептивных полей. Учет действия АРУ позволяет объяснить многие психофизиологические эффекты зрения, такие как наличие полос Маха (подчеркивание контуров) или появление последовательных образов (рис. 1).

Параметры статического режима АРУ можно определить, например используя психофизический закон Стивенса. Динамический режим АРУ возникает лишь тогда, когда входной сигнал значительно изменяется за время, сравнимое с постоянной времени цепи АРУ. В случае зрения человека эта постоянная равна примерно одной секунде.

В-третьих, глаза человека постоянно двигаются. Повороты глаз влево-вправо, вверх-вниз и вокруг оптической оси производятся с помощью трех пар мышц каждого глаза. С одной стороны, они позволяют стабилизировать поле зрения при наклонах и поворотах головы, а с другой – отслеживать движущиеся объекты, сочетая плавные (нистагмы) и скачкообразные (саккады) движения. Особо следует отметить небольшие (менее 10 угловых минут) движения глаз – так называемые микросаккады, дрейф и тремор (рис. 2), совершаемые бессознательно.

Если искусственно остановить движения глаз, человек перестает видеть неподвижное изображение через несколько секунд, поскольку все участки изображения приходят за это время к одинаковому серому фону из-за перехода АРУ зрительной системы из динамического в статический режим.

В-четвертых, бинокулярный (двухглазный) механизм зрения обеспечивает нам особое ощущение объемности изображения трехмерных объектов. То есть дает нам возможность определять относительную глубину точек поверхности объекта наблюдения.

Абсолютную глубину или дальность светящейся точки в физике часто соотносят с ее параллаксом – углом, под которым из этой точки виден базис наблюдения. Базисом зрительной системы является межглазное расстояние (65 мм). При наблюдении светящейся точки из двух точек пространства сначала определяют ее параллакс, а затем по параллаксу вычисляют расстояние до нее. Такой способ определения дистанции, оправданный геометрией наблюдения, закрепился в астрономии в названии единицы длины “парсек” (параллакс – секунда), соответствующей дистанции, с которой базис (диаметр орбиты Земли) виден под углом в одну угловую секунду.

Когда мы фиксируем взор на какой-либо точке, наши глаза скашиваются на угол конвергенции (рис. 3), который равен параллаксу этой точки. Все другие точки пространства, которые кажутся нам находящимися на одинаковом с точкой фиксации расстоянии, находятся на некоторой поверхности, называемой гороптером. Гороптер можно определить опытным путем. Его форма зависит от расстояния до наблюдаемой точки. Хотя мы смотрим двумя глазами, но обычно видим один не раздваивающийся мир. Мы как бы видим его одним циклопическим глазом. Волшебство этого глаза в том, что он дает нам ощущение объемности и слитности изображения. Его серединное положение (рис. 3) может меняться при амблиопии, смещаясь в сторону ведущего глаза.

Задав положение циклопического глаза и его линию визирования выбранной точки пространства можно ввести понятие диспаратности для пары изображений левого и правого глаза этой точки. Диспаратность равна сумме модулей отклонений этих изображений от изображений точки гороптера, пересекаемой линией визирования циклопического глаза. Для точки пространства дальше гороптера диспаратности присваивается положительное значение, а для точки ближе гороптера – отрицательное. Можно показать, что диспаратность точки В (С) на рис. 3 равна разности параллаксов точек А и В (С), то есть так называемому дифференциальному параллаксу.

Человек способен оценивать диспаратность точек локальных особенностей поверхности объекта наблюдения с помощью специальных бинокулярных нейронов зрительной коры головного мозга. Каждый такой нейрон работает, получая одновременно сигналы рецептивных полей левого и правого глаза. Весовые функции этих полей часто представляют действительной и мнимой частями комплексного вейвлета (wevalet – “всплеск”) Габора. Эти функции не обладают круговой симметрией, в отличие от весовых функций первичных рецептивных полей ганглиозных нейронов сетчатки, но на уровне коры мозга может происходить синтез из первичных других рецептивных полей с необходимыми функциями.

Здесь мы предложим модель определения диспаратности с экспоненциальными весовыми функциями рецептивных полей левого и правого глаза. На рис. 4 вверху слева показан график поверхности такой функции. Для наглядности поверхность модулирована по яркости в соответствии с высотой ее точек. Справа вид графика сверху, дополненный линиями равного уровня. Снизу изображена модель, на которой, кроме рецептивных полей левого и правого глаза, показаны элементы логарифмирования и вычитания входных сигналов. Выходы модели соответствуют двум отдельным бинокулярным нейронам. Один нейрон (+Δ) реагирует на положительную разность входных сигналов, которая пропорциональна положительной диспаратности точек изображений светлого объекта (линии) на рецептивных полях. Другой нейрон (-Δ) реагирует на отрицательную разность входных сигналов, если диспаратность светлого объекта отрицательна.

Совокупность реакций соответствующих бинокулярных нейронов дает карту положительных или отрицательных диспаратностей по полю зрения, которая аналогична картам глубины, приведенным выше, но отличается от них фрагментарностью, соответствующей местоположению в поле зрения локальных особенностей яркости. Модель не реагирует на диспаратность изображений точек однородно окрашенной поверхности, что соответствует свойству нашего зрения. Анализ работы модели при различных оптических сигналах показывает, что минимизация ошибок определения диспаратности достигается при размерах локальных неоднородностей яркости окраски объекта, намного меньших, чем размер рецептивных полей. Кроме того, угловой интервал между неоднородностями должен быть много меньше углового значения диспаратностей. Эффективным средством минимизации ошибок является выделение контуров неоднородностей. Именно такую операцию производит совместное действие АРУ зрительной системы и механизма микросаккад. Обратим внимание на то, что максимальная амплитуда микросаккад (рис. 2) одного порядка с максимальной глубиной зоны слияния (рис. 3) – 10 угловых минут. Последнее обстоятельство, наряду с конфигурацией траекторий микросаккад и дрейфа, позволяет эффективно усреднять карты диспаратностей по времени.

На рис. 4 приведена схема модели, реагирующей на повышенную яркость или локальное включение света. Модель, реагирующая на пониженную яркость (темный объект) или локальное выключение света, отличается от нее наличием инверторов по входам сигналов.

Поггио и Фишер (1977) обнаружили четыре типа бинокулярных нейронов с модуляционными характеристиками, приведенными на рис. 5. Наша модель объясняет возбуждение нейрона на дальнюю и ближнюю диспаратности. Модель, получающаяся суммированием выходных сигналов +Δ и -Δ, объясняет торможение нейрона на нулевую диспаратность, а эта же модель с инверсией выходного сигнала объясняет возбуждение нейрона на нулевую диспаратность.

Особо отметим, что приведенная модель обладает инвариантностью по отношению к изменениям амплитуды и местоположения оптических сигналов. Так как вычисляемая разность логарифмов двух величин равна отношению этих величин, то одинаковые коэффициенты яркости и сдвига оптических сигналов сокращаются. Коэффициент разности сдвига экспоненциального вида при логарифмировании дает линейную зависимость выходных сигналов модели от диспаратности.

Бинокулярное зрение человека, обеспечивающее фузию (слияние) изображений, формируемых мозгом с помощью каждого из двух глаз, представляет собой весьма сложный процесс, требующий изучения. Для проектирования системы объемного телевидения важно то, что глубина видимого пространства может быть разделена на три зоны. Наблюдение до трех метров сопровождается изменением как конвергенции, так и аккомодации. От 3 до 6 метров изменяется только конвергенция. До 1300–2600 метров мы способны видеть рельефность (глубину) сцены, благодаря оценке диспаратности. Разрешение по глубине (диспаратности) зрительной системы человека варьируется от 3 до 30 угловых секунд у разных людей. Эти данные позволяют рассчитать число различимых человеком планов по глубине. Расчет показывает, что на расстоянии от 1 метра до бесконечности число планов равно 450 при разрешении по глубине в 30 угловых секунд.

Отметим, что, например, конструкция объемного монитора ПКБ “Рельеф” обеспечивает возможность создания сотен и даже тысяч планов разрешения по глубине, а конструкция монитора по технологии DepthCube обеспечивает 20 планов разрешения по глубине, при этом разработчики утверждают, что им удалось сгладить дискретность (кулисность) изображения, обусловленную низким разрешением по глубине, с помощью оригинального алгоритма сглаживания.

Важными являются пороговые характеристики зрения. Порог конвергенции оценивается смещением объекта в глубину на 3 угловые минуты. Порог аккомодации – на 30 угловых минут. При превышении порога зрительная система автоматически перестраивается на новую глубину.

В школьных учебниках по биологии и даже в учебниках по телевидению глаз часто уподобляют фотоаппарату или телекамере. Как мы имели возможность убедиться, это весьма упрощенное представление. При разработке системы объемного телевидения, когда перед нами встает проблема создания трехмерной динамичной модели (карты) физического мира, по существу, только зрительная система человека служит нам примером ее решения. Пример может показаться трудно досягаемым даже на первых (низких) уровнях зрительной системы. Вызывает восхищение, скажем, ее эффективность при решении задачи адаптации.

Адаптация

Мы живем в мире, наполненном светом. Диапазон изменения яркости окружающих объектов может достигать пятнадцати порядков (квадрильона раз). Это диапазон изменения значений пленоптической функции, о которой мы говорили в начале статьи. На рис. 6 приведен диапазон яркостей белой бумаги под различными источниками освещения. Даже создание такого диапазона яркостей в экспериментальных условиях представляет известную проблему. Во всем этом диапазоне глаз сохраняет работоспособность, хотя, как жаловался Ньютон (1691) в своем письме Локку, ему пришлось трое суток сидеть в полной темноте, чтобы избавиться от послеобразов Солнца после наблюдения его в телескоп. Бойль (1664) в таких опытах получил ожог сетчатки и продолжал видеть образ Солнца с закрытыми глазами даже спустя 10 лет. С другой стороны, после нескольких часов, проведенных в темноте, человек может видеть ничтожную вспышку света, эквивалентную восприятию десяти фотонов. Ни одна телевизионная камера не может перекрыть такой диапазон яркостей. В лучшем случае мы можем попытаться перекрыть его с помощью трех телекамер разных диапазонов, охваченных глубокими параметрическими обратными связями автоматических регулировок режимов (коэффициентов усиления).

При использовании трехмерной интерактивности объемного телевидения можно представить себе следующие ситуации: сначала вы находились в помещении, а затем вышли из дома полюбоваться закатом или, двигаясь в автомобиле по ярко освещенной автостраде, заехали в тоннель. Перепады яркости, вызванные вашим поведением, весьма велики и для реалистичности объемного изображения телевизионная модель должна содержать информацию о текущей освещенности на местности.

В последние годы вызывает большой интерес проблема отображения тона (Tone Mapping - TM) - сжатия светового диапазона, содержащегося в изображении широкого динамического диапазона (High Dynamic Range - HDR) в визуализируемый узкий динамический диапазон (Low Dynamic Range - LDR). Например, в Миннесотском институте прикладной математики (2009) разработан алгоритм ТМ на основе модифицированного уравнения Нака - Раштона, позволяющий не только сжимать HDR, но и осуществлять локальное повышение контраста изображения и устранять потери цвета. Необходимо отметить, что разброс коэффициентов отражения поверхностей природных объектов невелик, обычно не более 40 раз. Примерно такой же диапазон яркости отображает зрение человека без адаптации. Классический пример отображения связан с чтением книги. В помещении текст нам кажется черным, а лист книги – белым. На ярком солнечном свете текст все равно нам кажется черным, а лист – белым, хотя объективно яркость текста на солнце в десять раз больше яркости листа в помещении. Учитывая такие адаптационные свойства зрения, достаточно иметь монитор с тысячекратным изменением яркости для воспроизведения любых изображений, в том числе и с имитацией пересветки. Современные цифровые фотокамеры обладают большим динамическим диапазоном и фиксируют HDR в RАW (англ. Raw - “cырой”) файлах (до 14 бит на канал) или Tiff (англ. Tagged Image File Format) файлах (до 64 бит на канал). Для сравнения в широко используемом стандарте True color яркость (цвет) кодируется всего 256 уровнями (8 бит на канал), при этом глаз не ощущает “ступенек” тона. Обладая запасом разрешения по градациям яркости, можно растягивать при воспроизведении диапазон яркости малоконтрастных локальных участков, повышая их локальный контраст.

Благодаря процессу эволюции, подвергаясь непрерывным колебаниям освещенности при смене дня и ночи, мы получили механизм зрения, обладающий феноменальными динамическими характеристиками. Обычно говорят об адаптационной роли зрачка глаза (изменение площади в 16 раз) и подчеркивают наличие двух видов фоторецепторов сетчатки глаза: палочек и колбочек, которые делят диапазон воспринимаемых яркостей на два. В действительности основная тяжесть адаптационной перестройки падает на биохимический комплекс механизма трансдукции фоторецепторов (изменение передачи в миллионы раз), а также на нейросетевой механизм организации рецептивных полей сетчатки глаза.

Механизм фототрансдукции обеспечивается длинным каскадом биохимических реакций, заканчивающихся цГМФ (циклический гуанин монофосфат) регуляцией пропускания мембранных каналов рецепторов. Изменение ионной проводимости мембраны фоторецептора вызывает изменение ее внутриклеточного потенциала (-35 мВ). Увеличение яркости света вызывает гиперполяризацию мембраны, до -70 мВ, уменьшение – деполяризацию, до 0. Градуальный потенциал рецепторов воздействует на биполярные и горизонтальные нейроны сетчатки глаза и далее на ее амакриновые и ганглиозные нейроны так, что у ганглиозной клетки образуется приблизительно круглое рецептивное поле с выраженными центром и периферией.

Продолжение следует

Опубликовано: Журнал "Broadcasting. Телевидение и радиовещание" #7, 2011
Посещений: 13838

Статьи по теме

Автор