Представлення даних в системах розпізнавання музичних сигналів

Входом системи розпізнавання є звуковий сигнал, вихід – структурована інформація про довжини і основні тони виявлених звукових об’єктів. Першою спостережуваною ознакою звукового сигналу є його амплітудний спектр, який обчислюється з ДПФ. Оскільки не можна відразу перейти від амплітудного спектру до нотного запису, необхідно використати кілька рівнів представлення інформації, тобто, системи розпізнання музичних сигналів – багаторівневі. Рівні представлення даних при розпізнаванні музичних сигналів наведені на рис.3.

1. По наявності локальних максимумів амплітудного спектру, який є більшим від певного порогу, судять про наявність гармонійних (на відміну від шумових) спектральних складових.

2. Спектральні складові можуть бути як тонами чи обертонами. Так і завадами.

3. Ноти об’єднуються в послідовні інтервали (створюють мелодію голосів) і співзвуччя (гармонійні інтервали), що створюють акорди.

4. Характер мелодії і акомпанементу визначається вибраною тональністю.

В системі використовуються такі рівні представлення даних:

1. Корелограма.

2. Сумарна АКФ.

3. Локальні максимуми сумарної АКФ.

4. Періодичності.

5. Огинаючі вузькосмугових компонентів.

6. Передбачувані моменти початку звучання звукових обєктів – атаки вузькосмугових компонент.

Ноти – результат розпізнавання.