Обнаружение скрытых эмоций в голосе
Реклама. ООО «ЛитРес», ИНН: 7719571260.
Оглавление
Евгений Столов. Обнаружение скрытых эмоций в голосе
Введение
Кому адресована данная книга
Свойства речевого файла
Отсу алгоритм
Разбиение на слова
Описание больших фрагментов файла
Энергия сигнала
Частота основного тона
Мел-кепстральные коэффициенты
Сравнение кривых
Разложение по ортогональному базису
Квантили
Кривая энергии в точке
Огибающая кривая сигнала
Куммулятивная сумма
Эмоциональные фрагменты
Отрывок из книги
Сказанное выше означает, что приведённые алгоритмы образуют конструктор, из которого каждый может сделать консольную программу по своему вкусу. Алгоритмы не содержат графической интерфейсной части, которую предлагается создать самому читателю в случае необходимости, а приводимые модули являются консольными приложениями. Существующие в Интернете программы, решающие проблему анализа речи, содержат в интерфейсной части какие-то параметры, смысл которых не всегда ясен. В случае самоделки все находится в руках программиста. Как уже упоминалось выше, предполагается знание языка программирования Питон (только базовые знания) и доступ к основным библиотекам: numpy, scipy, matplotlib, scikit-learn и некоторым другим. Приводятся только тексты нестандартных, по мнению автора, модулей Для остальных модулей дается словесное описание алгоритм. Более существенным моментом является владением основами цифровой обработки сигналов, если есть желание понять, что именно измеряется. А когда такого желания нет, достаточно уметь пользоваться числами, полученными в результате вычислений. Книга не является учебником по упомянутым областям знаний, поскольку в настоящее время имеется бесплатный доступ к нужной литературе.
Что касается «железа», то необходимо обеспечить доступ к речевым файлам и способ ввода их в компьютер. Для этих целей может понадобиться микрофон либо обычный смартфон с приложением «Диктофон». Здесь следует сделать несколько замечаний. Для анализа важен способ записи речевого файла. Рекомендуется стандартный формат с частотой записи 44100 Hz. Именно эта частота предполагается, когда речь идет об отдельных параметрах алгоритмов. Программы записи в диктофонах, как правило, используют сжатие файла и перевод его в соответствующий формат. Все алгоритмы, реализованные в книге, предполагают формат wav речевого файла, поэтому будет необходимо перевести исходный файл в этот формат. Наиболее универсальным средством, решающим данную задачу, является бесплатная программа ffmpeg. Другой полезной программой для работы с аудио файлами является бесплатная программа Audacity. Она пригодится для ввода файлов с микрофона, перевода в формат wav и для редактирования файлов.
.....
Что касается «железа», то необходимо обеспечить доступ к речевым файлам и способ ввода их в компьютер. Для этих целей может понадобиться микрофон либо обычный смартфон с приложением «Диктофон». Здесь следует сделать несколько замечаний. Для анализа важен способ записи речевого файла. Рекомендуется стандартный формат с частотой записи 44100 Hz. Именно эта частота предполагается, когда речь идет об отдельных параметрах алгоритмов. Программы записи в диктофонах, как правило, используют сжатие файла и перевод его в соответствующий формат. Все алгоритмы, реализованные в книге, предполагают формат wav речевого файла, поэтому будет необходимо перевести исходный файл в этот формат. Наиболее универсальным средством, решающим данную задачу, является бесплатная программа ffmpeg. Другой полезной программой для работы с аудио файлами является бесплатная программа Audacity. Она пригодится для ввода файлов с микрофона, перевода в формат wav и для редактирования файлов.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.
.....