Розробка алгоритму розпізнавання багатоголосних музичних сигналів

Розробка алгоритму сегментації

Вибір підходу до сегментації визначається, насамперед, вибором елемента розпізнавання (при розпізнаванні злитої мови елементом розпізнавання може бути і фонема і склад і ціле слово). Задача алгоритму сегментації – визначення границь елементів розпізнавання, і при необхідності їх розділення. У випадку, якщо елементи розпізнавання перекриваються у часовій області, необхідне визначення границь у частотній області.

Основна складність сегментації багатоголосних музичних сигналів визначається тим, що звукові об’єкти перекриваються і в часовій і в частотній областях. Найскладніше виконання в унісон – кілька інструментів одночасно виконують однакову мелодію.

Після виконання задачі сегментації утворюється ритмічна структура мелодії, яка розпізнається. Ритмічна структура мелодії не менш важлива ніж її висотна структура. В цьому полягає одна з різниць між розпізнавання музичного і мовного сигналів.

Сучасні алгоритми сегментації музичних сигналів будуються на використанні паралельного спектрального аналізатора. Створення систем розпізнавання музичних сигналів ведеться в межах більш загальної задачі – комп’ютеризованого аналізу звукових сцен (CASA – Computational Auditory Scene Analysis), до задач якого відноситься просторова локалізація і ідентифікація джерел звуку. Для сегментації звуку використовується набір фільтрів або сонограми (часова залежність коефіцієнтів дискретного перетворення Фур’є), яка використовується для візуалізації результатів спектрального аналізу звукових фрагментів великої тривалості. Останній підхід використовується рідко. Частіше використовується підхід, що базується на моделі сприйняття гучності людським вухом. Послідовність процесів опрацювання і аналізу сигналу наведена на рис.8.

Всі вхідні сигнали повинні бути приведені до одного визначеного значення відносної гучності. Тому перед опрацюванням сигнал нормується і поступає на набір смугових фільтрів. Частотний діапазон від 40 Гц до 18 КГц ділиться на смуги так, щоб ширина кожної з них була приблизно рівною ширині критичної смуги слухової системи. Для перекриття діапазону достатньо 21 фільтру.