Читать книгу Информатика и ИТ. Нейросети. - - Страница 9
Глава 3
Представление информации в компьютере
Компьютерное представление звука
ОглавлениеЗвук – это продольная механическая волна, распространяемая в воздухе или другой среде во всех направлениях от источника колебаний.
Всякий звук (игра музыкальных инструментов, голос человека) – это своеобразная смесь многих гармонических колебаний с определенным набором частот. Как и любая волна, звуковая волна характеризуется двумя основными параметрами – амплитудой и частотой.
Частота – это количество звуковых колебаний в секунду; измеряется в герцах (Гц). Чем выше частота, тем выше тон звука.
Амплитуда колебаний определяет громкость звука и зависит в первую очередь от мощности источника звука.
Абсолютную величину звукового давления измеряют в паскалях (Па). Порогом слышимости обладают звуки, имеющие амплитуду около 20мкПа (2*10—5 Па). Уровень болевого порога слышимости около 200 Па, т.е минимальное и максимальное значения отличаются на 6—7 порядков. Из-за большого разброса величин абсолютными значениями пользоваться неудобно, и используют логарифмическую шкалу децибелов.
Десятичный логарифм отношения некоторой величины к ее эталонному значению (порогу слышимости) называется белом (Б), а его десятая часть – децибелом (дБ).
,
где L – уровень звука в дБ
РЗВ – измеряемое звуковое давление
РПС – звуковое давление порога слышимости
Звук можно представить в виде кривой, которая показывает зависимость звукового давления от времени. Замеряя напряжение через равные промежутки времени и сохраняя полученные численные значения можно дискретизировать (оцифровать звук). При этом сохраняются мгновенные значения звукового сигнала в определенные моменты времени (выборки). Чем чаще берутся выборки, тем точнее цифровая копия звука.
Частота следования отсчетов называется частотой дискретизации, а диапазон значений отсчета определяется разрядностью его двоичного представления.
При цифровом способе хранения звука не сохраняется весь профиль кривой звукового давления (и соответственно, сопоставленного ему напряжения). На рис.3.4 проиллюстрированы потери информации об истинном изменении времени и значениях амплитуды.
Для того чтобы воспроизвести закодированный таким образом звук, нужно выполнить обратное преобразование, и сгладить получившийся ступенчатый сигнал.
Рис. 3.4. Потери информации при дискредитации звука
Устройство, выполняющее оцифровку (кодирование аналогового сигнала), называется аналого-цифровым преобразователем (АЦП).
Для обратного преобразования служит цифро-аналоговый преобразователь (ЦАП).
Дискретизация сигнала с произвольной частотой не всегда дает возможность восстановить форму входного сигнала, а использование частоты в два раза большей, чем частота фиксируемого сигнала однозначно даст восстановление искомой формы.
Это утверждение является одной из важнейших теорем, используемых в теории информации, теорема В.А.Котельникова (в англоязычной литературе – теорема Найквиста-Шеннона):
Непрерывная функция Х (t) не имеющая в своем спектре составляющих с частотами, лежащими за пределами полосы f (-Fm, Fm), полностью определяется последовательностью своих отсчетов в дискретные моменты времени X (ti), следующих с шагом t <1/2Fm.
Таким образом, по дискретной последовательности отсчетов всегда можно восстановить исходную непрерывную функцию Х (t), если отсчеты брались с интервалом t <1/2Fm. То есть любой непрерывный сигнал может быть преобразован в дискретную последовательность, а затем восстановлен по последовательности своих дискретных значений.
Человеческое ухо воспринимает чистые гармонические тоны в том случае, если их частоты не превышают 20 килогерц, т.е. 20 тысяч колебаний в секунду. Остальные тоны, частоты которых выше 20 килогерц, оказываются неслышимыми для человека – ультразвук. Этот факт ограниченности возможностей человеческого уха по частоте и предоставляет возможность установления разумного интервала для снятия значений звукового давления.
Точная формулировка теоремы Котельникова применима только к сигналам с неизменными частотными характеристиками и бесконечной длительностью, и поэтому для оцифровки реальных звуковых сигналов выбирают несколько большую частоту дискретизации (с запасом).
Предел восприятия частоты звука составляет 20 КГц, и частоты 40 КГц будет вполне достаточно для осуществления цифровой записи, лишенной искажений, но при этом некоторые шумы и искажения в записи все же будут присутствовать. В современной цифровой записи звука принят стандарт записи с частотой снятия значения звукового давления, или частотой дискретизации, равной 44100 герц. Компьютер позволяет записывать звук, как с большими, так и с меньшими частотами дискретизации.
Разрядность цифрового звука (глубина цифрового звука) – количество бит, отведенных для хранения значений звукового давления. Поскольку «единицей» хранения информация в компьютере является байт, то стандартный цифровой звук бывает 8 битным, 16 битным и 24 битным.
Одна секунда стереозвука (на два канала) вмещает 44100 х 2 = 88200 записей, при разрядности 16 (2 байта) это соответствует 176400 байтам (без учета заголовков и другой информации). Одна минута 8-битового одноканального (моно) звука будет занимать 44100 х 60 = 2646000 байт, или 2584 кБ, или 2,5 мБ.
Такие значительные требования к памяти при хранении аудиоинформации способствуют применению различных методов сжатия и иных принципов хранения звука.
Методы компьютерного синтеза звука. С появлением мини – ЭВМ, а позднее – персональных компьютеров, в составе аппаратных средств появились и средства, обеспечивающие взаимодействие компьютеров с простейшими генераторами звука – динамиками. Эти простейшие средства работы со звуком использовались в основном (и используются до сих пор) как средство диагностики и реакции на действия оператора системы.
Современное устройство для воспроизводства и записи звука (музыки, речи, шумов) – это звуковая карта, или адаптер.
В режиме записи звуковая плата производит оцифровку звука для последующей записи в память компьютера. В режиме воспроизведения, как цифровой аудиоплеер, считывает из памяти цифровые сигналы и преобразует их в аналоговые звуковые. В режиме создания звука плата действует как музыкальный инструмент (синтезатор), при этом используются два основных метода: частотная модуляция (FM-синтез) и таблично-волновой синтез (WT).
FM-синтез – использует специальные генераторы сигналов, определяющие частоту (высоту) тона и амплитуду (громкость). Для синтеза звука каждого музыкального инструмента требуется два таких генератора. Современные платы могут воспроизводить до 9—10 разных голосов инструментов (чаще 2—4), но звук при FM-синтезе имеет «металлический оттенок».
WT синтез – дает возможность хранить музыкальный звук в виде коллекции заранее созданных наборов звуков. Такие сэмплы (sample – пример, образец) соответствующих тембрам различных инструментов хранятся в памяти звуковой платы в MIDI-файлах. Лучшие звуковые платы могут хранить и использовать до 8 Мбайт сэмплов, выпускаются также табличные расширители, позволяющие нарастить массив MIDI-файлов.
Файл. mid содержит в себе запись действий музыканта о том, какая клавиша была нажата, в какой момент времени, с какой силой, как долго удерживалась, с какой силой (этот параметр особенно важен не для клавишных инструментов, а, например, для смычковых), была ли нажата педаль и т. п. Для озвучивания таких файлов важно наличие механизма преобразования записанных инструкций в звук.
Для ввода мелодии в стандарте MIDI в компьютер применяется специальное средство ввода – MIDI-клавиатура. Она похожа на клавиатуру пианино, но предназначена для передачи соответствующих нот звуковой карте – для последующего синтеза звука заданным инструментом. Программы синтеза мелодий отображают набранные ноты в соответствии с музыкальной нотацией и позволяют редактировать их.
Понятие формата компьютерного звука используется в двух различных смыслах. При использовании специализированного носителя или способа записи и специальных устройств чтения/записи в понятие формата входят физические характеристики носителя звука – размеры кассеты с магнитной лентой или диском и т. п.
При использовании универсального информационного носителя широкого применения – например, компьютерного гибкого или жесткого диска – под форматом понимают только способ кодирования цифрового сигнала, особенности расположения битов и слов и структуру служебной информации; вся «низкоуровневая» часть, относящаяся непосредственно к работе с носителем, в этом случае остается в ведении компьютера и его операционной системы.
Специализированные форматы относятся к устаревшим, но в качестве примера можно привести следующие:
– DCC (Digital Compact Cassette – цифровая компакт-кассета) – бытовая система записи в продольном направлении на стандартную компакт-кассету
– CD (Compact Disk – компакт-диск) – односторонний пластмассовый диск с оптической лазерной записью и считыванием, диаметром 120 или 90 мм, вмещающий максимум 74 минуты стереозвучания с частотой дискретизации 44.1 кГц и 16-разрядным линейным квантованием. Система предложена фирмами Sony и Philips и носит название CD-DA (Compact Disk – Digital Audio). Различаются штампованные (CD) однократно записываемые (CD-R) и многократно перезаписываемые (CD-RW) компакт-диски.
– MD (MiniDisk) – бытовая и концертная система записи на магнитооптический диск, разработанная Sony (диаметром 64 мм).