Входом системи розпізнавання є звуковий сигнал, вихід – структурована інформація про довжини і основні тони виявлених звукових об’єктів. Першою спостережуваною ознакою звукового сигналу є його амплітудний спектр, який обчислюється з ДПФ. Оскільки не можна відразу перейти від амплітудного спектру до нотного запису, необхідно використати кілька рівнів представлення інформації, тобто, системи розпізнання музичних сигналів – багаторівневі. Рівні представлення даних при розпізнаванні музичних сигналів наведені на рис.3.
1. По наявності локальних максимумів амплітудного спектру, який є більшим від певного порогу, судять про наявність гармонійних (на відміну від шумових) спектральних складових.
2. Спектральні складові можуть бути як тонами чи обертонами. Так і завадами.
3. Ноти об’єднуються в послідовні інтервали (створюють мелодію голосів) і співзвуччя (гармонійні інтервали), що створюють акорди.
4. Характер мелодії і акомпанементу визначається вибраною тональністю.
В системі використовуються такі рівні представлення даних:
1. Корелограма.
2. Сумарна АКФ.
3. Локальні максимуми сумарної АКФ.
4. Періодичності.
5. Огинаючі вузькосмугових компонентів.
6. Передбачувані моменти початку звучання звукових обєктів – атаки вузькосмугових компонент.
Ноти – результат розпізнавання.