Сравнение эффективности распознавания человеком и искусственными системами.

Из таблицы ниже хорошо видно уменьшение точности распознавания речи машиной по сравнению с человеком, у которого в любой акт распознавания включены источники знаний всех уровней.

 

Задача Процент ошибок человека Процент ошибок ИСРР  
База "TI46", SNR ~60 дБ Звуки, обозначающие буквы алфавита 1.6% 1) 5% 2)  
База "TI digits", SNR ~60 дБ Цифровые последовательности 0.009% 0.72%  
0.105% 3)  
База "Resource Management", SNR ~60 дБ (словарь 1000 слов, языковое моделирование) 0.1% 3.6%  
База "Resource Management", SNR ~60 дБ (словарь 1000 слов, нет модели языка) 2% 17%  
База "Wall Street Journal", SNR ~60 дБ (словарь 5000 слов, чтение) 0.9% 7.2%  
База "Switchboard", SNR ~60дБ (задача распознавания спонтанной речи) 4% 43%  
База “Corpus of Spontaneous Japanese”, SNR ~ 60 дБ (задача распознавания спонтанной речи) 4% 9%  
База "Switchboard", SNR ~60 дБ (задача выделения 20 ключевых слов) 12.8% 4) 31.1%  
  7.4% 5)    
Слитная речь, SNR ~60 дБ (словарь 20000, чтение) 2.6% 12.6%  
1 - распознавание последовательностей 2 - распознавание изолированных слов 3 - распознавание вокодерной речи (модель линейного предсказания 12-го порядка) 4 - отсутствие контекста, бессмысленный поток слов 5 - осмысленный контекст ~ 2 сек

 

Сравнение эффективности распознавания человеком и искусственными системами в условиях шума. Точно также влияет наличие шума: точность распознавания речи машиной уменьшается при увеличении уровня шума.

 

Отношение Сигнал-Шум Процент ошибок человека Процент ошибок ИСРР
SNR ~60 дБ ~1% ~1%
SNR 18 дБ ~1% ~10%
SNR 12 дБ ~1% ~25%
SNR 6 дБ ~1% ~60%
SNR 0 дБ ~1% ~100%