Словообразование

1. [Комбинаторные слова.] Дано множество A+ (массив неповторяющихся) букв и длина слова (от…до). Получите все возможные слова как последовательности букв заданной длины.

2. [Расширенные комбинаторные слова.] Задача 1, но допускаются также любые другие буквы (буквы из A+ должны быть обязательно).

3. [Список слов.] Дан длинный текст в виде файла, уберите в нем все, кроме слов. Слова запишите во второй файл, каждое слово на своей строке.

4. [Получить словарь.] Отсортируйте файл из задачи 3 и выкиньте дублирующиеся слова.

5. [С контролем правильности.] Задача 2, но необходимо искать образующиеся слова в словаре из задачи 4.

5. [Поиск заданных.] Найдите в словаре все слова, содержащие все буквы из A+.

6. [С количеством слогов.] Задача 5 + составьте словарь слогов и подсчитывайте количество слогов в образующемся слове.

7. [Встречаемость букв, или модель порядка 0.] Определите частоты (вероятности) F0 появления букв (пробел считается буквой) в тексте из задачи 3 как

F0("А") = (количество букв "А" в тексте) / (длина текста).

8. [Слова модели порядка 0.] Задача 2, но буквы выбираются согласно частотам, измеренным в задаче 7: сначала более вероятные, затем менее. Подсчитывается средняя вероятность (для слова длиной n — корень n-й степени из произведения всех частот).

9. [Модель порядка 1.] Анализом текста из задачи 3 определите частоты появления двухбуквенных сочетаний, например:

F1("АБ") = (количество сочетаний "АБ" в тексте) / (количество букв "А" в тексте).

Это характеризует, насколько велика вероятность появления "Б" при условии, что перед ней уже стоит "А".

8. [Слова модели порядка 1.] Задача 2, но буквы выбираются согласно частотам, измеренным в задаче 9, при этом для подбора следующей буквы используются частоты, связанные с буквой, поставленной на предыдущем шаге.

9. [Модели порядков 2-5.] Задача 8, но длины последовательностей — от 3 до 6 букв. Здесь будут большие массивы данных, надо думать, как хранить.

10. [Слова порядков 2-5.] Задача 8, но вероятности взяты из задачи 9.

11. [Лексические ассоциации.] Задача 10, и дан словарь слов и фрагментов слов с определенными значениями (признаками). Нужно искать в этом словаре и оставлять слова только если в словаре найдены необходимые признаки.

12. [Фонетика слова.] Дано слово (с ударением), надо получить его фонетическую транскрипцию (первая часть фонетического разбора).

13. [Фонетика текста.] Задача 12, но дан текст.

14. [Запрещенная фонетика.] Дан словарь запрещенных слов, составьте по нему фонетический словарь.

15. [Контроль фонетики.] Задача 13 + проверьте фонетику по словарю из задачи 14 без учета разделения на слова (все слова слитно).

16. [Фонетические ассоциации.] Задача 11, но словарь фонетический.