Из таблицы ниже хорошо видно уменьшение точности распознавания речи машиной по сравнению с человеком, у которого в любой акт распознавания включены источники знаний всех уровней.
Задача | Процент ошибок человека | Процент ошибок ИСРР | |
База "TI46", SNR ~60 дБ Звуки, обозначающие буквы алфавита | 1.6% 1) | 5% 2) | |
База "TI digits", SNR ~60 дБ Цифровые последовательности | 0.009% | 0.72% | |
0.105% 3) | |||
База "Resource Management", SNR ~60 дБ (словарь 1000 слов, языковое моделирование) | 0.1% | 3.6% | |
База "Resource Management", SNR ~60 дБ (словарь 1000 слов, нет модели языка) | 2% | 17% | |
База "Wall Street Journal", SNR ~60 дБ (словарь 5000 слов, чтение) | 0.9% | 7.2% | |
База "Switchboard", SNR ~60дБ (задача распознавания спонтанной речи) | 4% | 43% | |
База “Corpus of Spontaneous Japanese”, SNR ~ 60 дБ (задача распознавания спонтанной речи) | 4% | 9% | |
База "Switchboard", SNR ~60 дБ (задача выделения 20 ключевых слов) | 12.8% 4) | 31.1% | |
7.4% 5) | |||
Слитная речь, SNR ~60 дБ (словарь 20000, чтение) | 2.6% | 12.6% | |
1 - распознавание последовательностей 2 - распознавание изолированных слов 3 - распознавание вокодерной речи (модель линейного предсказания 12-го порядка) 4 - отсутствие контекста, бессмысленный поток слов 5 - осмысленный контекст ~ 2 сек |
Сравнение эффективности распознавания человеком и искусственными системами в условиях шума. Точно также влияет наличие шума: точность распознавания речи машиной уменьшается при увеличении уровня шума.
Отношение Сигнал-Шум | Процент ошибок человека | Процент ошибок ИСРР |
SNR ~60 дБ | ~1% | ~1% |
SNR 18 дБ | ~1% | ~10% |
SNR 12 дБ | ~1% | ~25% |
SNR 6 дБ | ~1% | ~60% |
SNR 0 дБ | ~1% | ~100% |