FAQ по 3D звуку с точки зрения QSound
Автор: Скот Виллинг (Scott Willing),
Manager, Tech Info Services, QSound Labs, Inc. ПредисловиеПоследние 8.5 лет я работал в компании QSound Labs, Inc. занимаясь разработками в области 3D звука и созданием решений, рассчитанных как на сектор профессиональной звукозаписи, так и недорогих программных и аппаратных продуктов для конечного пользователя. Моя работа очень разнообразна и по ходу дела я сотрудничаю с известными на весь мир звуковыми студиями в таких городах, как Лондон, Сидней, Лос-Анджелес и Нью-Йорк. Плюс ко всему, по роду занятий, я регулярно посещаю такие шумные места, как выставка Comdex в Вегасе, где зачастую приходится проводить ночи на пролет, готовя образцы прототипов новых продуктов для демонстрации на шоу. Все это дало мне хорошую подготовку для красноречивых рассуждений в различных конференциях. По ходу дела, я видел и слышал почти все, что есть в мире относящееся к 3D звуку, причем еще задолго до того, как об этом услышали большинство людей. Одна из проблем, замеченных мною по отношению к 3D звуку в том, что данная тема очень нова для большинства народа и поэтому наблюдается большая неразбериха по этому поводу. Некоторые спецы по маркетингу извлекают из такой ситуации выгоду, впаривая неосторожным покупателям всякое барахло. Я посвятил большую часть моей жизни 3D звуку и думаю, что это классная вещь, поэтому, когда людей вводят в заблуждение или, что еще хуже, просто обманывают, это меня возмущает, и молчать я не могу. Ребята с сайта ALive! попросили меня собрать вместе отредактированные версии некоторых моих публикаций в сети вместо того, чтобы писать отдельную статью, на которую просто нет времени (дело в том, что я очень занят в последнее время!), и вот получился... FAQ по 3D звуку от QSound. Немного позднее, парни из iXBT Hardware предложили мне перевести получившийся материал на русский. Кстати, еще ни разу я не публиковался на русском языке. Разумеется, я согласился. Поэтому, теперь мой скромный труд доступен на двух языках. Не смотря на то, что в данном материале будет немного скачков от темы к теме (Ну хорошо, много) и могут встретиться повторения (потому что информацию я собрал из разных документов), я надеюсь, в результате будет, хотя бы частично, развеян туман, окружающий эту очаровывающую технологию. Возможно, представленные ниже факты покажутся вам направленными слегка в пользу продуктов QSound, меня извиняет то, что я знаю о них лучше всего, а некоторые аспекты, которых я буду касаться, напрямую связаны с технологиями QSound и тем, как они сравнимы с альтернативными технологиями. 3D звук это что, шутка?Трехмерный звук совершенно новая вещь для большинства людей и большая часть "информации" по этой теме исходит от парней, озабоченных лишь увеличением прибылей и тиражей. Я должен побудить вас не верить всему, что вы читаете, не обращая внимания на источник информации (включая меня). Берите все, но отделяя зерна от плевел. Обычная печатная пресса, к сожалению, изрядно невежественна во многих вещах, в частности в вопросе 3D звука. Как результат, если речь заходит об играх, то вам ужасно повезет, если в обзоре игры упоминается звук как таковой, и уж гораздо реже можно встретить упоминание о 3D звуке. Если 3D звук все же упоминается, проверьте обзор на предмет комментариев от компаний, занимающихся трехмерным звуком, для оценки некоторых перспектив технологии, используемой в продукте и сделанных в обзоре выводах. Терминология 3D звукаПоловина всех дискуссий в ньюсгруппах посвящены вопросу что такое "3D" и что нет, вплоть до бессмысленной семантики. Для протокола, термин "stereophonic" означает трехмерный звук! (От Греческого "stereos", означающего "пространственный, трехмерный, непрерывный, сплошной, цельный", а если вы не представляете себе, что означает "phonic" (акустический, звуковой), то дальше не читайте). Когда QSound Labs взялась за этот бизнес, мы назвали наш первый процесс обработки звука, ориентированный на акустические колонки, именем "QSound". Не самый лучший выбор, сделав который мы теперь имеем целое семейство алгоритмов, но примечательно то, что мы не выбрали название "3D audio". На протяжении лет, рынок наводнялся различными видами технологий, которые расширяли возможности аппаратуры убедительно воспроизводить позиционируемый звук в пространстве на ограниченном количестве реальных акустических колонок, и каждый называл все это "3D". Уже давно я перестал бороться с этой проблемой. Извините парни, термин просочился сквозь лабораторные стены и теперь находится в повсеместном употреблении, поэтому все дебаты о том, что должно называться "3D звуком", сейчас в большой степени бессмысленны. Допустим, что существует нечто, называемое "3D графикой", причем повсеместно под этим термином понимается "визуализация в 2D пространстве 3D модели". Теперь представим, что существует технология, которая позволяет создать подлинное ощущение глубины изображения, и некоторые люди убеждены, что термин "3D", применительно к графике, должен быть зарезервирован для этой технологии. Я полагаю, что пока мы не имеем изображения, протяженностью 360 градусов с воспринимаемой глубиной, его нельзя по настоящему считать "трехмерным" ("3D"), даже если вы хотите выдрать волосы у оппонента. Есть ли смысл доказывать что-либо из выше сказанного? Может быть лучше понять технологии и то, что они делают, чем суетиться вокруг того, как они называются? Так или иначе, но пытаться что-либо сделать в последнем случае уже поздно. Типы "3D audio" процессовОчень важно видеть различия между типами технологий 3D звука, прежде всего по функциям (игнорируя в этот момент то, какого успеха достигли поставщики этих технологий на рынке). В результате получаем следующее:
Stereo expansion и virtual surround главным образом удобны для применения в бытовой электронике, такой, как стерео системы, домашние кинотеатры и т.д. Однако так как некоторые из этих технологий пересекаются с рынком персональных компьютеров (прослушивание музыки с помощью CD-ROM проигрывателей или прямо из сети Интернет, просмотр фильмов DVD), их применение также допустимо. Тем не менее, визитная карточка для компьютеров - это позиционируемый 3D звук. Все эти технологии покрывают львиную долю потребительского рынка, каждая в своей соответствующей области применения. Следовательно, 3D звук это не шутка, это полезная и быстро развивающаяся технология для создания музыки, применения в бытовой электроники,в видеоиграх, и т.д. и т.д. Что действительно смешно, так это количество дезинформации и слепо верящих в характеристики чего-то -- при этом большая часть информации почерпнута из рекламных проспектов различных продуктов, но сами верующие при этом в массе своей не имеют знаний о звуке, в особенности о 3D звуке. Я читал в ньюсгруппах и конференциях безобидные упрощения и глупые противоречивые заявления о том, как работает 3D звук, причем в основном это писали люди, явно не имеющие соответствующих знаний. В чем разница между 3D звуком и панорамированием?В течение многих лет добавить звук в видео игру можно было только при условии использования панорамирования стерео (stereo panning). Это накладывало ограничение в том, что звук можно было поместить только где-то между акустическими колонками, неважно, где бы они ни находились, перед вами в вашей комнате или на вашей голове в виде головных телефонов. В первом случае, все звуки слышаться где-то между колонками спереди от вас, а в последнем случае, звуки воспроизводятся внутри вашей головы -- что не имеет никаких аналогов с ощущениями в реальном мире. (Во всяком случае, если вы трезвый и в здравом уме.) Панорамирование стерео это просто управление уровнями левого/правого звуковых каналов, которое никогда не зависит от частоты звука и напрямую не влияет на его фазу или синхронизацию. Панорамирование на нескольких акустических колонках (Multi-speaker panning) обычно является развитием этой идеи, но при этом может содержать больше манипуляций с преобразованиями. Преобразование звука в "3D" (т.е. трехмерный) -- не имеет значения, какой метод при этом используется -- включает дополнительную информацию в звуковой поток в форме амплитуды и разности фаз/задержек между выходными каналами. В этом случае часто присутствует зависимость от частоты звука, хотя некоторые простые эффекты создаются с использованием простых задержек по времени на всем протяжении спектра шумов. Есть масса способов содрать шкуру с кошки, но кое-где это делать бесполезно. Я слышал утверждение, что в 3D звуке не используется сдвиг по фазе или задержки по времени или что-то в этом роде. Я могу сказать только, "пожалуйста!" возьмите осциллограф и убедитесь во всем сами. 3D звук совершенен?Сегодня существуют несколько технологий, которые расширяют возможности разработчиков по размещению звука в уникальных местах относительно слушателя. Есть ли какое-то решение действительно совершенное? По-моему, такого решения нет. Означает ли это, что "3D звук" это бесполезная вещь? По-моему, это не так. Истина находится где-то между двумя крайностями. Почему люди не могут прийти к какому-то общему мнению относительно действенности 3D звука? Тот факт, что человеческий слух несовершенен, является корнем проблем. Два уха, расположенных по сторонам головы, для определения местоположения источника звука воспринимают большую часть из доступной информации в горизонтальной плоскости (т.е. по азимуту или "по углу компаса"), при этом мы плохо различаем звуки исходящие спереди и сзади, при отсутствии дополнительных данных. Так как все мы являемся существами, живущими на поверхности земли, то мы определяем местоположение источника звука по смещению относительно азимута, так как наши жертвы и наши враги, все являются тоже наземными существами. Выходит, что наша возможность оценки положения звука в вертикальной плоскости и его удаленности от нас очень слаба и сильно зависит от ушных каналов, которые зачастую очень плохо развиты. Таким образом, когда разработчик технологии говорит о "точном" расположении источников звука, относитесь к этому с осторожностью. Простая математика может создать целый набор хороших цифр, но реальные результаты это совершенно другой вопрос -- после всего, мы вновь начинаем с недостатков, парни. Нравится это или нет, но для нормально видящих людей, зрение является основным чувством определения местоположения чего-либо, причем до такой степени, что нас легко одурачить без особых трудов, предоставив противоречивую звуковую информацию. Сколько раз мы смотрели телевизор со звуковым сопровождением, исходящим из паршивого маленького динамика, который мог быть вмонтирован даже не в переднюю панель телика? Волновало ли это нас? Ощущали ли мы большое несоответствие между происходящими на экране событиями и звуком сопровождавшим их? По-видимому, не сильно. Долгое время мы не имели стерео телевизоров и домашних кинотеатров, а популярность они приобрели лишь из-за существенно упавшей на них цены. Я говорил это везде и говорю это сейчас. Действенность любой технологии позиционируемого звука полностью находится под влиянием таких факторов, связанных с областью применения:
Интересно, что видео игры (или другие симуляторы окружающей среды) это единственные приложения с 3D звуком, в которых все эти факторы играют важную роль. (Неумышленный каламбур.) Если вы поместите кого-нибудь в затемненную комнату и проиграете ему незнакомые звуки, воспроизводя их из колонок, расположенных в произвольно выбранных местах помещения, вы увидите, что ни одна из существующих технологий не обеспечивает 100% эффективность -- даже близкую! Теперь, скажем, у нас есть безэховая камера (т.е. помещение, в котором нет реверберации), поместим в нее слушателя, зафиксируем его голову в нужном (правильном) положении и повторим эксперимент. Есть все шансы, что результат будет лучше. Однако все это не относится к делу до тех пор, пока вы не начали всерьез планировать построить безэховую камеру у себя дома, тогда к чему все это? Точно такая же технология, обеспечившая посредственные результаты в первом тесте на эффективность, при использовании в хорошо сделанном приложении, например, видео игре, заставит большинство людей поклясться всем святым в том, что она (технология) обеспечивает абсолютную возможность размещения источника звука в любом месте пространства, потому что они слышат звук исходящим именно из этих мест! Это вторая самая большая проблема и одновременно обоснование того, что заявления типа "делайте так!" "так не делайте!" никогда не прекратятся до тех пор, пока участники тестов в слепую не подтвердят и не удостоверятся в том, что они одновременно и правы и не правы. Нет ничего странного в том факте, что иллюзия или обман чувств используется в большинстве создаваемых приложениях. Это как раз то место, где на сцену выходит искусство. Тем не менее, очень важно отдать должное тому, что этого заслуживает. Если в игре нет эффективного использования 3D звука, это не означает, что виновата в этом технология и если звук звучит правдоподобно как в жизни, технология, сама по себе, лишь часть головоломки! Это должно быть так же очевидно, как в случае, если вам попался паршивый текстовый процессор, в этом нет вины компьютера, на котором он запущен, почему же в случае с 3D звуком люди все время строят свои выводы, не представляя точно, на чем основывается их мнение. Далее, будем считать, что разные методы реализации имеют сильные и слабые стороны. Получается, что наушники, в связке с соответствующим бинауральным процессом обработки звука (слишком часто называемым просто HRTF) относительно хорошо справляются с созданием ощущения, что звук расположен сзади нас или над нами. Тем не менее, я еще ни разу не слышал такого звучания (а слышал я все), где бы убедительно осуществлялось расположение источника звука справа и впереди слушателя. (Флойд Тул /Floyd Toole/, занимающийся 3D звуком в компании Harman International и в течение долгого времени проводящий исследованиями по этой теме, один из немногих людей, который обобщил и изложил эту проблему в печатном виде.) Кстати, парни, HRTF, конечно же, звучит по-особому для каждого слушающего, поэтому любая звуковая технология для массового рынка должна создавать усредненное звучание, воспроизводя потенциально компромиссный результат и тем самым, продолжая вносить все больше разногласий между слушателями. При использовании двух акустических колонок, основная зона эффективного размещения источников звука (т.н. sweet spot) находится спереди от слушателя и покрывает пространство в 180 градусов по азимуту, т.е. в горизонтальной плоскости. Ощущения, что звук расположен сзади и над слушателем, очень слабые, если нет поддержки в виде дополнительных сигналов. Особо отметим то, что использование алгоритмов HRTF, обеспечивающих воспроизведение звука для бинаурального прослушивания (т.е. в наушниках) и алгоритмов cross-talk cancelation (или для краткости CC; технология позволяющая воспроизводить звук, например из левой колонки так, что бы слышно этот звук было только левым ухом) не является успешным решением проблемы, неважно как хорошо цифры выглядят на бумаге или как крута рекламная компания. Применение множества акустических колонок это уже другой вид зверей, но они действительно являются частью доступного выбора возможностей, особенно для компьютерных игр. Панорамирование звука обеспечивает явные выгоды при расположении акустических колонок сзади слушателя. Это облегчает проблему выбора места с наилучшим звучанием для прослушивания, так называемый sweet spot. Однако само по себе панорамирование звука никогда не может обеспечить значительных результатов, с точки зрения позиционирования источников звука в вертикальной плоскости. Конечно, до тех пор, пока мы не перестанем размещать колонки только на полу, а не начнем их подвешивать под потолком. API и Rendering Engine - это две разные вещи!Играя в игры, вы используете API и rendering engine (рендерин энджин). API (application programming interface или, для краткости, интерфейс) это, по сути, просто набор команд, используемых разработчиком при написании игры -- это не технология 3D звука или чего-то другого. Rendering engine или механизм воспроизведения звука (далее просто звуковой движок) представляет собой процесс взаимодействия алгоритмов 3D звука со звуковыми потоками с целью расположения источников акустики в пространстве. Если API (например, DS3D или наш QMDX) поддерживает множество звуковых движков, тогда в одном и том же приложении будет воспроизводиться звук немного отличающийся при использовании разных звуковых движков, почти так же, как и звуковая дорожка MIDI (другой набор команд) будет звучать немно |