ЛУЧШЕ ОДИН РАЗ УСЛЫШАТЬ.
|
Звук и компьютерные технологии стали неотделимы. Автор решился на краткий обзор: где, как и зачем компьютер имеет дело со звуком. Пригодится читателю и краткий словарик аббревиатур. |
Ветераны компьютерного дела
хорошо помнят эпоху машин серий ЕС и СМ. Мне сразу
возразят: mainframe и сейчас в ходу. Речь не о том.
Информация была сугубо в символьно-цифровом
виде. Предчувствие multimedia выражалось в создании и
распечатке картин, состоящих из звездочек или
других символов. Эта ╚технология╩ несомненно
пришла из вышивания крестиком.
Со звуком было хуже. Приходилось
довольствоваться гулом машинного зала. Времена
переменились. Звук и компьютерные технологии
стали неотделимы. Автор решился на краткий обзор:
где, как и зачем компьютер имеет дело со звуком.
Запись/воспроизведение звука,
MIDI-синтез, цифровая обработка (DSP) звука и речи
требуют кроме компьютера специальной
аппаратуры: звуковых плат (о них вы можете узнать
из статьи ╚Звуковые платы╩ в этом номере),
MIDI-синтезаторов и т.п.
Впрочем, сейчас ширится технология NSP
(Native Signal Processing). Эта технология перекладывает
функции multimedia (проигрывание и запись видео и
звука, синтез MIDI-инструментов, распознавание
речи, телефонный интерфейс) с карт расширения на
центральный процессор.
Р55С - условное название процессора Pentium
с аппаратной поддержкой инструкций MMX. 57 новых
команд и 8 64-разрядных регистров MMX ускоряют
обработку графики и аудио. P55C с частотами 166 и 200
МГц будет выпущен Intel в январе 1997 года. Микросхема
MMX с частотой 300 МГц ожидается в феврале 1997 года.
Версия Pentium Pro с MMX называется Klamath.
Версия Klamath 233 МГц будет представлена в первом
квартале 1997 года. Архитектура процессора Р7
(условное название Merced) корпорации Intel будет
включать расширения, поддерживающие MPEG, аудио- и
графические приложения, интерфейс TAPI и
видеоконференции.
Компания Cyrix также объявила о выпуске
во втором квартале 1997 года версии процессора 6х86
под названием М2 с возможностями технологии MMX
(частоты 180 и 225 МГц). Процессор К6 фирмы AMD также
будет включать MMX. M2 и K6 совместимы по разъему с
Pentium.
Пользователь обычно узнает о
том, что компьютер может играть музыку,
разговаривать и петь, увидев
программы-энциклопедии, обучающие программы,
игры. Звук в них может произвести большое
впечатление, но этим его использование не
ограничивается.
Добавлять непосредственно в файл звук,
видео, графику в среде Windows позволяет механизм OLE
(Object Linking and Embedding, связь и внедрение объектов). В
Windows for Workgroups включена программа Microsoft Mail. С ее
помощью можно посылать сообщения, в которые
входит текст, изображение и звук.
Обмениваться сообщениями, содержащими
текст и речь, можно и в сетях Novell Netware. Утилита
VoiceNet фирмы Voyetra позволяет посылать такие
сообщения другим пользователям и хранить их на
сервере. Продукт CallWare фирмы CallWare Technology позволяет
обмениваться голосовыми сообщениями через Internet
или корпоративные сети intranet.
Весьма полезно применение звука при
создании презентаций. Для этого есть программы
помощнее, например, Power Point из пакета Microsoft Office,
поддерживает технологию OLE. Есть программы
попроще: MediaBlitz! (Asymetrix), MMPlay (Creative Labs), SoundScript (Voyetra).
Эти программы позволяют по заданному сценарию
воспроизводить файлы с разнородными данными:
.mid, .cmf - музыка
.wav, .voc - речь, разные звуки
.pcx, .bmp - графика
.fli, .flc - анимация
Растет популярность средств
автоматического распознавания речи (Automated Speech
Recognition, ASR). Системы ASR преобразуют речь в текст.
Для этого производится спектральный анализ
оцифрованной речи и определяются с применением
нейронных сетей или скрытых марковских моделей
минимальные звуковые единицы языка - фонемы.
Существующие системы распознавания
речи ориентированы или на слитную или на
дискретную речь. Слитная (непрерывная) речь - это
нормальная плавная человеческая речь. Если
система рассчитана на дискретную речь, то...
говорить... надо... с... паузами... между... словами.
Большинство систем зависимы от
диктора - перед началом работы пользователь
должен ╚обучить╩ программу, произнося
определенный текст. Но есть и разработки, которые
не требуют этого (speaker-independent - независимые от
диктора).
Словарь систем для распознавания
слитной речи составляет порядка 2000 слов. Это
существенно меньше словаря систем для
дискретной речи (около 50 тысяч слов). Обычно чем
меньше словарь, тем более непрерывной может быть
речь, а система распознавания - менее зависимой
от диктора.
Двумя основными типами программ для
распознавания речи являются
голосовые или речевые навигаторы (voice navigator) - управление программным и аппаратным обеспечением;
программы для диктовки - ввод текста и цифровых данных.
Распознавание речи связано с
большим объемом вычислений. Поэтому не все
программы обходятся обычными звуковыми картами,
некоторые требуют специализированных плат с
цифровым сигнальным процессором (DSP). DSP уменьшает
нагрузку на центральный процессор (ЦП). В любом
случае ЦП компьютера должен быть 486, а лучше Pentium.
Программам для диктовки требуется еще и 8-16 MB ОЗУ.
Голосовые навигаторы управляют
программами, в какой-то мере заменяя клавиатуру и
мышь. Они имеют небольшой словарь (100-300 слов).
Некоторые могут работать со слитной речью, а то и
не требуют обучения.
Таблица 1. |
Голосовые навигаторы. |
Название программы |
Фирма - производитель |
Операционная система |
Aria Listener |
Prometheus Products Inc. |
Windows 3.1 |
IN3 Pro Voice Command |
Command Corp. |
Windows 3.1 |
Just Voice 95 Pro |
Клуб голосовых технологий |
Windows 95 |
Listen 2.0 |
Verbex Voice Systems |
Windows 3.1 |
QwickSwitch |
BitWare Consulting |
OS/2 |
Rover 1.01 |
Digital Soup Inc. |
Windows 3.1 |
Speech Recognizer 3.0 |
Telaccount Inc. |
Windows 3.1 |
Voice Assist 1.06 |
Voice Processing Corp. |
Windows 3.1 |
Voice Mouse |
Interactive Products |
Windows 3.1 |
Voice Pilot |
Voice Pilot Technology |
OS/2 |
Программы для речевого ввода текста обычно ориентированы на дискретную речь и, как правило позволяют не только с голоса вводить текст, но и голосом управлять как собой так и другими приложениями.
Таблица 2. |
Программы для диктовки. |
Название программы |
Фирма - производитель |
Операционная система |
DragonDictate 2.0 |
Dragon Systems |
Windows 3.1 |
HARK Recognizer 2.0 |
BBN HARK Systems Corp. |
UNIX(SunOS,HP-UX,IRIX) |
IBM Personal Dictation System |
IBM |
OS/2 2.1 |
Law Talk |
Kolvox Communication Inc. |
DOS, Windows 3.1 |
Office Talk |
Kolvox Communication Inc. |
DOS, Windows 3.1 |
Power Secretary 2.04 |
Articulate Systems Inc. |
MacOS 7.5 |
Kurzweil Voice 1.5 |
Kurzweil Applied Intelligence |
Windows 3.1 |
VoiceType Dictation |
IBM |
OS/2 2.1,Windows 3.1, 95, NT |
Для разработчиков программ выпускаются специальные инструментальные пакеты Software Developer▓s Kit (SDK).
Таблица 3. |
Инструментальные средства для разработки программ. |
Название программы |
Фирма - производитель |
Операционная система |
ДР/НР |
Angoss Voice Application System |
Angoss Software International Ltd. |
DOS 6.x |
ДР |
Custom Voice |
A&G Graphics Interface |
Windows 3.1 |
НР |
Dragon VoiceTools |
Dragon Systems |
DOS,Windows 3.1 |
НР,ДР |
HARK Developers Toolkit 2.0 |
BBN HARK Systems Corp. |
UNIX (SunOS, |
НР HP-UX, IRIX) |
IBM Continuous Speech Series |
IBM |
Windows 3.1, OS/2 2.1 |
НР |
Micro IntroVoice |
Voice Connexion Inc. |
DOS 2.x,Windows 3.1 |
|
Microsoft Speech SDK |
Microsoft |
Windows 95/NT |
|
MultiVoice 3.0 |
ITI Logicel |
DOS 3.1 |
|
Phonetic Engine 500 |
Speech Systems Inc. |
Windows 3.1 |
НР |
Speech Easy 2.0 |
Telaccount Inc. |
Windows 3.1 |
|
Speech Recognition |
Lernout&Hauspie Speech |
Windows 3.1 |
НР,ДР |
VoiceType Dictation Developers Program |
IBM |
|
ДР |
Примечание. ДР - дискретная речь, НР - непрерывная (слитная) речь
Немало усилий было положено
на то, чтобы снабдить программы и операционные
системы графическим интерфейсом пользователя
(GUI). Говоря простыми словами, чтобы можно было
управлять программой с помощью мыши. Сейчас
новое направление - речевой интерфейс
пользователя.
Поэтому большой резонанс имел недавний выход
новой версии операционной системы (ОС) OS/2 - Warp 4
(условное название Merlin). IBM включила в Merlin свою
технологию VoiceType, которая позволяет
надиктовывать тексты в редакторе и управлять ОС
и приложениями [1]. То есть возможности речевой
навигации и диктовки реализованы не в виде
отдельных программ, а интегрированы в ОС. Это
большой шаг вперед. OS/2 Warp 4.0 - первая ОС с речевым
интерфейсом пользователя.
Большой интерес вызывает синтез речи,
в том числе реализация речевого ответа. Автор
припоминает программу SPP (размером всего 32К байт),
которая при весьма малом размере вполне внятно
синтезировала на встроенный динамик
произвольный текст. Конечно, есть программы,
делающие это лучше. Вероятно вскоре многие
программы и устройства ╚заговорят╩, сообщая
пользователю о нештатных ситуациях, давая советы
и информацию.
Небезынтересна для широкого
пользователя и компьютерно-телефонная
интеграция (КТИ, CTI, Computer Telepnone Integration). КТИ - часть
стратегии, направленной на объединение
компьютера с бытовыми устройствами (телефон,
факс). Ее цель - сделать использование компьютера
и этих устройств более простым и понятным,
увеличить число оказываемых услуг. Каковы
основные направления КТИ?
Современные телефоны имеют много
кнопок, много функций, которые на практике редко
используются, так как сложно все эти функции
освоить. То есть интерфейс современного
многофункционального телефона малопонятен. Если
же его заменить дружественным графическим
интерфейсом типа Windows, то пользоваться телефоном
станет проще. А полезных функций есть масса:
хранение множества номеров в виде базы данных,
конференц-связь (режим селекторного совещания),
дозвон (если нужный номер занят),
голосовая (речевая) почта,
запись поступающих телефонных звонков на жесткий диск,
автоответчик и множество других.
Эти функции в какой-то мере
есть в программном обеспечении, которое
управляет факсмодемами (особенно с
возможностями речевой почты).
Системы распознавания речи позволяют
управлять посредством голоса по телефону
банковским счетом. Весьма перспективна
технология IVR (interactive voice responce, интерактивный
речевой ответ, интерактивный речевой диалог). Она
предполагает ╚понимание╩ речи абонента и выдачу
в соответствии с этим определенного ответа.
Применяется в основном для предоставления
информации из базы данных по конкретному запросу
(с идентификацией звонившего).
Intel и Microsoft разработали спецификацию TAPI
(Telephony API) для интеграции телефона с компьютером в
среде Microsoft Windows. TAPI освобождает пользователей и
разработчиков приложений ПК от необходимости
знать особенности телефонного аппарата и
конфигурации телефонной сети.
Novell и AT&T предложили TSAPI (Telephony Services API).
Местная АТС связывается с сервером NetWare, на
котором работает загружаемый модуль (NLM). При этом
обеспечиваются:
проведение телефонных конференций;
почтовые ящики для смешанных типов сообщений;
управление внутренними и внешними телефонными звонками;
интеграция телефона с базой данных.
Приложения клиента работают
на платформе Windows. Novell готовит поддержку платформ
Macintosh, Unix, OS/2.
Фирмы Intel и Northern Telecom разрабатывают
инструмент программирования TMap, который
обеспечит трансляцию между интерфейсами TAPI и TSAPI
с целью взаимодействия приложений КТИ для
настольных систем и серверов.
Возможности компьютера
весьма привлекательны для музыкантов.
Композитор может не только написать партитуру
для оркестра из многих инструментов, но и
синтезировать все эти инструменты, добавить
партию певца и прослушать полученное, а также
многократно все изменить и перепробовать массу
вариантов, не беспокоя оркестрантов [2,6].
Не за горами то время, когда цифровая
аппаратура полностью вытеснит аналоговую. И это
не удивительно. Качество воспроизведения с
компакт-диска или звуковой кассеты с цифровой
записью не ухудшается от многократного
проигрывания. Цифровая обработка звука
позволяет реализовать самые разнообразные
эффекты без привлечения сложной аналоговой
аппаратуры. Конечно, не совсем без аппаратуры, а
только без традиционных громоздких систем (см.
врезку ╚Что нужно музыканту?╩). Зато потребуется
программное обеспечение:
MIDI-секвенсер (sequencer),
звуковой редактор (audio editor),
редактор оцифровок (сэмплов),
генератор стилей (groove generator),
программа для улучшения качества фонограмм.
Можно выделить такие среды для передачи речи:
коммутируемые телефонные линии (PSTN),
локальные сети (LAN),
Internet,
intranet (внутрикорпоративные сети, которые используют протоколы TCP/IP и программное обеспечение Internet),
ISDN,
сети Frame Relay (FR),
сети АТМ.
Мы уже говорили о том, что в
локальных сетях, Internet и intranet можно обмениваться
речевой почтой.
Фирма PhoNet Communication (Израиль) даже создала
технологию EtherPhone, которая позволяет на базе
локальной сети Ethernet или Fast Ethernet создать систему
учрежденческой телефонной связи с выходом в
телефонную сеть общего пользования [18].
Современные факсмодемы (часто
совмещенные со звуковой платой) кроме
приема/передачи собственно факсов и данных
предоставляют интересные функции:
голосовая (речевая) почта,
запись поступающих телефонных звонков на жесткий диск,
возможность вести беседу одновременно с передачей факсов и данных,
автоответчик,
определение вида поступающего звонка (речь, факс или данные) с последующим запуском соответствующего программного обеспечения.
Для совместной передачи речи и данных с помощью модема разработаны три технологии:
VoiceView (фирма Radish Communications Systems);
DSVD (Digital Simultaneously Voice & Data);
ASVD (Analog Simultaneously Voice & Data).
VoiceView позволяет в одном сеансе
переходить от передачи речи к передаче данных
(скорость 14400 и 28800 бит/c). Windows95 поддерживает VoiceView.
Пример реализации VoiceView - модем VoiceSURFR V.32bis (фирма
Motorola).
DSVD передает речь и данные одновременно
со скоростью 28800 бит/c. 9600 бит/c выделяется под
речь, 19200 бит/c - под данные. Если разговор не
ведется, данные передаются со скоростью 28800 бит/c.
Модель PhoneBlaster 28.8 DSVD фирмы Creative Technology совмещает
модем и звуковую карту.
В системе ASVD данные передаются со
скоростью 14400 бит/c (модем VoiceSpan Dataport 2001 фирмы AT&T
Paradyne). Ожидается выпуск модемов со скоростью 28800
бит/c.
Есть несколько программ, позволяющих
вести телефонные разговоры через Internet:
CoolTalk (InSoft)
CyberPhone (CyberScience)
DigiPhone (Third Planet Publishing)
Intercom (Revolutionary Software)
Internet Connection Phone (IBM)
Internet Phone (VocalTec)
WebPhone (NetSpeak)
WebTalk (Quarterdeck Software)
Они сжимают речь и передают ее
через Internet в реальном времени. Можно настроить
чувствительность микрофона, громкость динамика,
обменяться текстовыми сообщениями, создать
телефонную книгу (понятно, не с телефонными
номерами, а с IP-адресами). Эти программы называют
IP-телефоном или Web-телефоном. Связь с
собеседником организуется одним из двух
способов: через сервер телефонной связи или
напрямую по IP-адресам.
Netscape Communication купила фирму InSoft и включила CoolTalk как
дополнительный модуль в свою программу
просмотра Netscape Navigator 3.0. В аналогичной программе
Internet Explorer 3.0 фирмы Microsoft также есть возможности
для Internet-телефонии.
Как видим, Internet становится все более
популярной средой для передачи речи. Однако он не
был предназначен для этого изначально, поэтому
имеются определенные трудности и, конечно,
способы борьбы с ними. Как известно, в Internet для
передачи данных используются протоколы TCP/IP:
TCP (Transmission Control Protocol) - протокол транспортного уровня для управления передачей;
IP (Internet Protocol) - межсетевой протокол.
TCP хорош для выполнения
транспортных функций, но неудобен для пересылки
потоков аудио и видеоинформации в режиме
реального времени. При использовании TCP
неправильно переданный пакет данных
пересылается заново. Это вызывает искажения
изображения и звука при проведении
видеоконференций.
Если в IP-сетях вместо TCP использовать RTP
(Realtime Transport Protocol), то вместо повторной передачи
утраченного пакета посылается сообщение, что
пакет пропущен. При определенном числе
пропущенных пакетов при помощи другого
протокола - RSVP (Resource Reservation Protocol) - запрашивается
улучшение трафика.
Компания Presept Software представила пакет
сетевого программного обеспечения FlashWare для
замены в Windows-приложениях протокола TCP на RTP и RSVP.
Presept Software создало приложение IP/TV, которое будет
работать поверх FlashWare и передавать видео в
локальных и глобальных сетях. [13]
Протокол RSVP позволяет
пользовательским приложениям зарезервировать
полосу пропускания и обеспечить качественную
передачу голоса, данных и видео в сети Internet.
Протокол RSVP - это открытая система, поддержанная
многими компаниями (Cisco, Bay Networks, Intel, Sun, Silicon Graphics).
Ожидается, что вскоре Рабочая группа инженеров
Internet (Internet Engineering Task Force, IETP) утвердит RSVP как
стандарт [15].
Протокол передачи UDP (User Datagram Protocol)
также более эффективен для передачи звука, чем TCP
(Transmission Control Protocol). В нем нет коррекции ошибок,
искаженные или утерянные пакеты игнорируются. Ho
UDP может иметь проблемы с корпоративными
брандмауэрами (wirewalls), которые рассчитаны на TCP.
Современная телефония строится на
базе цифровых телефонных каналов 64 Кбит/c (8 бит,
частота дискретизации 8 кГц). Цифровые телефонные
каналы служат основой сетей ISDN, ATM, FR, по которым
можно передавать речь более компактно.
Сети с ретрансляцией кадров (Frame Relay, FR)
обеспечивают телефонный разговор со скоростями
от 4800 бит/c (алгоритм E-CELP, федеральный стандарт
США 1016) до 16000 бит/c (алгоритм LD-CELP, рекомендация ITU
G.728) [10]. Возможна передача речи и по сетям АТМ [11].
При организации видеоконференций
вместе с видеоизображением передается звук
(рекомендация ITU H.320). Система видеоконференций
ProShare Video System 200 фирмы Intel ориентирована на линии
ISDN**), а система CorelVIDEO фирмы Corel - на локальные сети
[17].
Фирма Connectix создала комплект VideoPhone
(видеокамера, которая подключается к
последовательному порту Macintosh или параллельному
порту привычного ПК и программное обеспечение).
Этот продукт поддерживает полнодуплексные
видеоконференции, проводимые по локальным сетям
(с использованием Novell Netware, TCP/IP, AppleTalk) и
глобальным сетям по ISDN и более скоростным линиям
[16].
Фирма First Virtual (FVC) предлагает комплект
аппаратных и программных средств для
организации видеоконференций в сетях АТМ.
Возможно увеличение числа участников путем
подключения удаленных пользователей через шлюз
ATM/ISDN, который поддерживает 4 линии ISDN [14].
Есть и два продукта для проведения
видеоконференций через Internet: CoolView (InSoft), Enhanced CUSeeMe
(White Pine Software).
Также стало возможным включать в
Web-страницу звуковые файлы.
Чтобы их послушать, есть две технологии:
download-and-play;
continuous-delivery.
Технология download-and-play для прослушивания
звукового файла, указанный на Web-странице,
требовала сначала загрузить его целиком. Это
было неудобно. Долго грузи файл (а
мультимедиа-файлы изрядных размеров). Затем
прослушав начало, понять - это не то, что хотел
услышать.
Новые технологии (continuous-delivery) начинают
проигрывать файл после получения его начала. Они
реализованы в продуктах:
Internet Wave 1.0 (VocalTec)
RealAudio 2.0 (Progressive Networks)
StreamWorks (Xing Technology)
ToolVox for the Web (Voxware)
TrueSpeech Internet (DSP Group)
Стали возможны функции магнитофона: быстрый поиск, ╚перемотка╩ вперед и назад, пауза, стоп, регулятор громкости.
Доступность компьютеров и
звуковых плат сильно облегчила жизнь инженеров и
ученых, имеющих дело с обработкой звука и речи. В
былые времена, чтобы создать новую методику,
нужно было сопрягать разные аналоговые приборы
(генераторы, осциллографы, анализаторы спектра и
т.п.) и думать о том, как ввести полученную
информацию в компьютер. А компьютеры тогда были
громоздки и не имели штатных средств
ввода/вывода звука.
Сейчас проще - выбирай плату с
подходящими параметрами (а выбор весьма широк) и
вставляй в свободный разъем. Затем принимай и
обрабатывай информацию в свое удовольствие (даже
в реальном масштабе времени).
Серьезные платы для ввода/вывода аналоговых и
цифровых сигналов поставляются с
инструментарием:
пакетами для цифровой обработки сигналов;
драйверами, обеспечивающими интерфейс для взаимодействия с платой;
компилятор, редактор связей (linker) и отладчик (debugger) языков Си и ассемблера DSP (если он есть на плате);
программные эмуляторы DSP;
библиотеки функций;
исходные тексты примеров программ.
Описать (даже кратко) все
области, где применяется анализ звука и речи,
мудрено. Упомянем только три области, где
производится измерение параметров речи:
биометрия, судебная экспертиза, медицина.
Голос человека можно использовать как пропуск в
системах с ограничением доступа (например, в
автоматическом контрольно-пропускном пункте,
КПП).
При производстве судебной экспертизы
материалов звукозаписи часто нужно провести
идентификацию личности, то есть ответить на
вопрос - принадлежит ли голос на двух фонограммах
одному и тому же человеку?
Можно определять эмоциональное состояние
(уровень стресса) по параметрам устной речи. Этот
способ имеет то преимущество, что к человеку не
нужно подсоединять датчики.
ADC Analog Digital Converter -
аналого-цифровой преобразователь, АЦП
ADPCM Adaptive Differencial Pulse Code Modulation, АДИКМ,
адаптивная дифференциальная импульсно-кодовая
модуляция - алгоритм сжатия звука, при котором
оцифровывается не сам сигнал, а его отклонение от
предсказанного значения
AES/EBU (Audio Engineer Society/European Broadcasting Union) -
стандарт передачи звуковых сигналов студийного
качества с линейной ИКМ
API Applic Programms Interface - интерфейс
прикладных программ.
ASP,AdSP Advanced Signal Processor -
усовершенствованный цифровой сигнальный
процессор фирмы Creative Labs (16 бит, фиксированная
запятая)
ASR Automated Speech Recognition - автоматическоe
распознавание речи
ASVD Analog Simultaneously Voice & Data -
технология одновременной передачи речи и данных
ATM Asynchronous Transfer Mode, режим
асинхронной передачи - способ передачи и
коммутации цифровой информации
CD-ROM Compact Disk - Read Only Memory - лазерный
компакт-диск
CELP Code Excited Linear Prediction - алгоритм
параметрического сжатия речи
C/MS Creative Music System - метод синтеза
музыки
CODEC COder/DECoder - кодек (кодер/декодер),
устройство для кодирования/декодирования
CSP то же, что и ASP
CTI Computer Telepnone Integration -
компьютерно-телефонная интеграция
DAC Digital Analog Converter - цифро-аналоговый
преобразователь, ЦАП
DAT Digital Audio Tape - цифровой магнитофон
DSP Digital Signal Processing/Digital Signal Processor -
цифровая обработка сигналов/цифровой сигнальный
процессор (также название кодека в звуковых
платах фирмы Creative Labs)
DSVD Digital Simultaneously Voice & Data -
технология одновременной передачи речи и данных
FM Frequency Modulation - метод синтеза
музыки
FR Frame Relay - сети с
ретрансляцией кадров
GM General MIDI - спецификация, которая
предусматривает синтез 128 музыкальных
инструментов
GS General Sound - расширение GM (стандарт
фирмы Roland)
GUI Graphic User Interface - графический
интерфейс пользователя
HMM Hidden Markov Models - скрытые марковские
модели (математический алгоритм,
предсказывающий событие на основе анализа
предшествующих событий
IDE/ ATAPI Integrated Drive Electronics / AT Attachment Packet
Interface) - интерфейс жестких и гибких дисков,
дисководов CD-ROM
IETF Internet Engineering Task Force - Рабочая
группа инженеров Internet
IP Internet Protocol - межсетевой протокол
ISDN Integrated Services Digital Network - цифровая
сеть с интеграцией служб, работает на базе
цифровых телефонных каналов 64 кбит/c
ITU International Telecommunication Union -
Международный союз электросвязи, МСЭ
IVR Interactive Voice Responce - технология
интерактивного речевого диалога
LAN Local Area Network - локальная сеть
MIDI Musical Instrument Digital Interface - цифровой
интерфейс музыкальных инструментов
MMX MultiMedia eXtensions - добавление в
процессор Pentium 57 инструкций и 8 64-разрядных
регистров для ускорения обработки графики и
аудио
MPC Multimedia Personal Computer - спецификации
мультимедийного оборудования, разработанные
Советом MPC (Council MPC)
MPEG Motion Pictures Experts Group - алгоритм
сжатия видео и звука
MTC MIDI Time Code - временной код MIDI для
синхронизации MIDI - файлов с оцифрованным звуком
NSP Native Signal Processing - технология,
которая перекладывает функции multimedia с карт
расширения на центральный процессор
OLE Object Linking and Embedding - механизм связи
и внедрения объектов в Windows
PCM Pulse Code Modulation - импульсно-кодовая
модуляция, ИКМ
PSTN Public Switched Telephone Network -
коммутируемые телефонные линии общего
пользования
QT QuickTime - метод синхронизации
видео и звука, разработанный
фирмой Apple
RSVP Resource Reservation Protocol - протокол
передачи данных
RTP Realtime Transport Protocol - протокол
транспортного уровня для управления передачей
SCSI Small Computer System Interface -
параллельный интерфейс для подключения к шине
компьютера периферийных устройств (имеется
несколько модификаций отличающихся
разрядностью, допустимым числом подключаемых
устройств (минимум 8) и скоростью передачи данных)
SDK Software Developer's Kit - инструментарий
разработчика программ
SMPTE временной код (тайм-код) для
синхронизации MIDI-файлов с
оцифрованным звуком
S/PDIF Sony/Panasonic Digital InterFace - стандарт
передачи звуковых данных (16 бит, стерео)
SRS Sound Retrieval Systems - технология
создания 3-мерного звука
TAPI Telephony Application Programming Interface -
телефонный интерфейс прикладных программ
(разработка фирм Intel, Microsoft)
TCP Transmission Control Protocol - протокол
транспортного уровня для управления передачей
TSAPI Telephony Services API - телефонный
интерфейс прикладных программ (разработка фирм
Novell, AT&T)
UART Universal Asynchronous Receiver/Transmitter -
универсальный асинхронный приемопередатчик
UDP User Datagram Protocol - протокол передачи
данных
WT WaveTable - метод синтеза музыки на
основе оцифровок (sample) настоящих инструментов
XG Extended General - расширение GM
(стандарт фирмы Yamaha)
Какая аппаратура нужна музыканту? На этот вопрос содержательно отвечают статьи [2,8]. Mы же будем кратки. Среди аппаратуры упомянем:
MIDI-синтезатор (synthesizer),
тон-генератор (tone generator),
MIDI-контроллер,
MIDI-клавиатура (MIDI-Keyboard),
педаль поддержки (sustain pedal),
плата MIDI-интерфейса,
MIDI-адаптер,
многоканальный оцифровщик (sampler),
проигрыватель оцифровок (sample-player),
эффект-процессор (процессор цифровых эффектов),
аналоговый микшер,
цифровой микшер.
И, разумеется, соединительные
кабели и акустические системы (динамики).
MIDI-синтезатор - это устройство, которое
синтезирует звук на основе полученных MIDI-данных.
Tон-генератор - внешний модуль синтеза с
MIDI-интерфейсом.
Выпускаются фирмами Yamaha (MU50), Korg (05DR),
Kurzwail (2500), Roland (MT-32).
MIDI-контроллер управляет MIDI-системой, это
основной источник MIDI-данных. Бывает клавишным
(MIDI-клавиатура), ударным, гитарным.
MIDI-клавиатура может совмещаться с синтезатором.
Иногда в ней есть разъем для педали поддержки,
которая позволяет увеличить время звучания ноты,
то есть аналогична правой педали рояля.
Клавиатуры выпускают фирмы Fatar (Studio 49, Studio 2001), Roland
(PC-160, PC-200), Kawai (Datacat, MDK61), Yamaha (CBX-K1), Turtle Beach (TB-49).
Заметим, что некоторые звуковые платы
совмещают MIDI-синтезатор, многоканальный
оцифровщик, проигрыватель оцифровок и цифровой
микшер. Кроме того имеют MIDI-интерфейс и могут
создавать разные эффекты с помощью встроенного
DSP. Если звуковая плата не имеет MIDI-разъема, то
нужна плата MIDI-интерфейса.
Фактический стандарт платы
MIDI-интерфейса - модель фирмы Roland MPU-401 (MIDI Processing Unit).
С платой MIDI-интерфейса компьютер становится
полноправным устройством в MIDI-сети и может быть
приемником и источником MIDI-сообщений.
В описаниях многих звуковых плат
говорится о совместимости с MPU-401. Но большинство
плат имеет только микросхему UART (универсальный
асинхронный приемопередатчик, который формирует
выходное напряжение с уровнями ТТЛ). А для
подключения MIDI-устройств нужен MIDI-адаптер с
преобразователем ╚ТТЛ-токовая петля╩,
формирующий ╚настоящий╩ электрический сигнал,
соответствующий стандарту MIDI. MIDI-адаптер -
переходник от 15-штырькового разъема игрового
порта, который совмещен с MIDI-интерфейсом, к
5-штырьковым разъемам MIDI (In, Out, Thru).
Плата MIDI-интерфейса обычно
вставляется в 8-разрядный разъем шины ISA. Фирма
Voyetra выпускает модель VP-11, которая подсоединяется
к параллельному порту.
Многоканальный оцифровщик - система цифровой
многоканальной записи инструментов и вокальных
партий. Известны оцифровщики
Tahiti, Monterey, Classic (Turtle Beach);
Digital CardD Plus (Digital Audio Labs);
Session 8 (DigiDesign)
Проигрыватель оцифровок Maui
(Turtle Beach) - плата, которая синтезирует звук по
WT-методу. В ней есть ПЗУ (2 Мбайт) и ОЗУ (256 Кбайт,
расширяется до 8 Мбайт) для оцифровок
инструментов, DSP Motorola 68000 10 МГц, MIDI-интерфейс.
Эффект-процессор создаст различные
эффекты: Reverb (реверберация, эхо), Chorus (хор) и многие
другие. Эффектпроцессор можно реализовать и
программно. Но очевидно, что аппаратное решение
на основе сигнального процессора (DSP) будет
работать быстрее. Например, DSP/FX (Power Technology) на
основе DSP TMS320C32 имеет производительность 50 MFLOPS.
Цифровой микшер позволяет
комбинировать звук от нескольких источников. ProMix
01 (Yamaha) может работать синхронно с программным
секвенсером и имеет 2 эффект-процессора.
Аппаратное и программное
обеспечение для музыкантов тесно связано с
понятием MIDI. MIDI (Musical Instrument Digital Interface)
- это цифровой интерфейс музыкальных
инструментов. Напомним, что интерфейс - это
совокупность технических и программных средств,
с помощью которых организуется взаимосвязь
функциональных модулей и их совместимость
(конструктивная, электрическая, логическая).
MIDI - асинхронный последовательный интерфейс.
Принцип работы - токовая петля (current loop) 5 мА (5 мА -
╚0╩, 0 мА - ╚1╩). Информация передается байтами в
последовательном коде со скоростью 31250 бит/c (+-1%).
Формат данных - 8-битовые слова с одним стартовым
и одним стоповым битами.
Каждый MIDI-инструмент имеет 3 разъема: In
(вход), Out (выход), Thru (повторитель входного
сигнала). Это позволяет объединить в MIDI-сеть
несколько инструментов.
По интерфейсу MIDI передается партитура
музыкального произведения: какому инструменту,
какую ноту, когда и как играть. Поток MIDI-данных
может нести информацию о 16 каналах (то есть для 16
инструментов). Возможна также организация
нескольких одновременных или независимых
последовательных потоков.
Стандарт General MIDI, разработанный фирмой
Roland, описывает набор инструментов в музыкальных
синтезаторах. Синтезатор должен синтезировать
ноты разной высоты 128 инструментов в каналах 1-9 и
11-16 и 46 ударных инструментов в канале 10. General MIDI
имеет подвиды:
Basic MIDI (используются каналы 13-16, ударные - в 16-м канале),
Extended MIDI (используются каналы 1-10, ударные - в 10-м канале).
Есть и другие наборы инструментов:
LA (стандарт фирмы Roland),
GS (General Sound) - расширение General MIDI (стандарт фирмы Roland),
XG (Extended General) - расширение General MIDI (стандарт фирмы Yamaha).
Поток данных, пеpедаваемый по
MIDI, состоит из сообщений (событий):
нажатие/отпускание клавиш, изменение положений
pегулятоpов (MIDI-контpоллеpов), смена pежимов pаботы,
синхpонизация и т.п. Можно сказать, что по MIDI
пеpедается паpтитуpа музыкального пpоизведения,
однако есть и специальные виды сообщений - System
Exclusive (SysEx) - в котоpых может содеpжаться любая
инфоpмация для инстpумента - напpимеp, оцифpованный
звук для загpузки в ОЗУ, паpтитуpа pитм-блока и т.п.
Обычно SysEx уникальны для каждого инстpумента и не
совместимы с дpугими инстpументами.
Большинство сообщений содеpжит в себе
номеp канала (1..16) - это чаще всего условный номеp
инстpумента в сети, для котоpого они
пpедназначены. Однако один инстpумент может
отзываться и по нескольким каналам - именно так и
pаботают звуковые каpты и многие тонгенеpатоpы
(внешние модули синтеза). Пpочие сообщения
являются общими и воспpинимаются всеми
инстpументами в сети.
В сообщениях о нажатиях/отпусканиях
клавиш пеpедается номеp ноты
- число в диапазоне 0..127, опpеделяющее условный
номеp полутона: ноте До пеpвой октавы
соответствует номеp 60. Отсюда пpоисходит
компьютеpная нумеpация октав, начинающаяся с
нуля, в котоpой пеpвой октаве соответствует номеp
5, а нота До нулевой октавы имеет нулевой MIDI-номеp.
Пpи записи MIDI-потока в файл (MID, RMI) он офоpмляется в
один из тpех стандаpтных фоpматов:
0 - обычный MIDI-поток;
1 - несколько паpаллельних потоков (доpожек);
2 - несколько независимых последовательных
потоков.
Головных А. Merlin: явление волшебника
//ComputerWorld Киев, 1996, N 19(91), c.1,6-7.
Курило А., Михайлов А. Музыкальная студия
на компьютере
//Мир ПК, 1996, N 3, c.170-179.
Малафеев П.В. "Химчистка" для звука
//Мир ПК, 1995, N 9, c.166-170.
Новосельский А.Ф. Форматы звуковых
файлов
//Компьютеры+Программы, 1996, N 1(25), c.66-71.
Новосельский А.Ф. И звукам не тесно, и
мыслям просторно
//Компьютеры+Программы, 1996, N 6(30), c.21-26.
Попко Р., Уортингтон П. Вы -
человек-оркестр
//Мир ПК, 1995, N 4, c.160-166.
Рaш-мл. У. Говорите со своим компьютером
//PC Magazine/Russian Edition, 1995, N 4(32), c.46-62.
Сергеев В. Создайте музыку !..
//Компьютеры+Программы, 1996, N 4(28), c.71-74.
Эндертон К. Программы для
редактирования звука
//Компьютеры+Программы, 1996, N 3(27), c.66-71.
Kafka G. Самая популярная сетевая
технология -
ретрансляция кадров //ComputerWorld Киев, 1996, N 15(87), c.22.
Kafka G. Станет ли 1996 год годом АТМ
//ComputerWorld Киев, 1996, N 16(88), c.1,22.
Koegler S. Скажите вслух
//ComputerWorld Киев, 1996, N 8(80), c.19-21.
Lee Y.L. FlashWare: мультимедиа в локальных
сетях
//ComputerWorld Киев, 1996, N 11(83), c.21.
Wallase R. Видеоконференции через АТМ
//ComputerWorld Киев, 1995, N 35(56), c.23.
Wallase R. Протокол для управления трафиком
в сети
//ComputerWorld Киев, 1996, N 22(94), c.22.
Wingfield N. Видеоконференции становятся
дешевле
//ComputerWorld Киев, 1995, N 48(69), c.16.
Недорогая система CorelVIDEO для
видеоконференций
//ComputerWorld Киев, 1995, N 49(70), c.21.
EtherPhone - ATC на базе локальной компьютерной
сети
//ComputerWeek Москва, 1996, N 17(223), c.9.