Особенности индуктивных схем рассуждений

Индуктивные рассуждения справедливы при условии, что в описании ситуации имеется полное множество наблюдаемых факторов и явлений. Причем в левой части причинно-следственного отношения может стоять сложное выражение, в котором отдельные элементы могут быть связаны между собой конъюнктивными и дизъюнктивными связками. При этом очень важен способ выделения факторов.

Например, нужно выявить причины положительных эмоций при наблюдении некоторых объектов. Пусть некто наблюдает птичек, при этом часть объектов вызывает положительную реакцию, а часть – отрицательную:

 
 

 

 


 

 

положительная отрицательная

реакция реакция

 

Можно выделить следующие признаки объектов: а) форма спины; б) число ног; в) форма ног. По признаку (а) положительную реакцию вызывает вогнутая форма спины. По второму принципу Милля наличие (а) должно давать (d) – положительную реакцию. Однако первый пример из птичек, вызывающих отрицательную реакцию, опровергает это утверждение. По признаку (б) положительную реакцию вызывают две ноги у птички, но (б) как причина тоже отвергается, как, впрочем, и (в).

Таким образом, ни один из признаков в отдельности не вызывает положительных эмоций. Выделим ядро сходства у объектов, вызывающих положительную реакцию. Это вогнутая спина и число ног, равное двум. Р1(А) истинно при вогнутой форме спины и ложно в противном случае. Р2(А) истинно при количестве ног, равном двум, и ложно во всех остальных случаях. Построим формулу Р1(А) Ù Р2(А), которая истинна на положительных примерах и ложна на отрицательных. Следовательно, причиной положительных эмоций является вогнутая спина и две ноги.

7.4. Индуктивные методы и алгоритмы

Существуют различные методы и алгоритмы, работающие с индуктивными рассуждениями. Они применяются для решения задач автоматического обучения, распознавания образов, поиска и формирования «новых» знаний и т. п.

Под формированием знаний(machine learning) понимают процесс анализа данных и выявление скрытых закономерностей с использованием специального математического аппарата и программных средств. Термин «формирование знаний» используется в активно развивающейся области инженерии знаний, которая занимается разработкой моделей, методов и алгоритмов обучения.

Традиционно к задачам формирования знаний или машинного обучения относятся задачи идентификации (синтеза) функций, расшифровки языков, прогнозирования, классификации, диагностики, распознавания и т.п. Для решения этих задач разрабатываются соответствующие модели, методы и алгоритмы: индуктивные модели формирования знаний и автоматического порождения гипотез, методы на основе обучающих выборок, обучение на примерах, обучение по аналогии и др.

Эти модели позволяют выявить и учесть причинно-следственные и другие связи, которые установлены на конкретных примерах. Применяя методы индуктивных рассуждений, можно выявить общие правила предметной области на основе имеющейся информации.

Помимо перечисленных выше существуют и другие подходы к формированию знаний – это data mining и knowledge discovery. Оба подхода базируются на анализе данных и поиске закономерностей. Рассмотрим ряд методов и алгоритмов на основе индуктивных рассуждений, в той или иной степени решающих эти задачи.

7.4.1. ДСМ – метод

Это метод автоматического порождения гипотез. Основной принцип метода – анализ структурного сходства изучаемых объектов, формализуемого алгебраическими средствами, использование метода индуктивного обучения и правдоподобного вывода на достаточном основании.

Метод может быть представлен в виде последовательной схемы рассуждения «сходство – причина – аналогия», т. е. на основе анализа сходства событий ищется причина этих событий, которая в дальнейшем используется при прогнозировании новых событий на основе структурной аналогии.

ДСМ метод оперирует со следующей моделью:

А = {a1, a2, …, an} – множество причин;

B = {b1, b2, …, bm} – множество следствий;

Q = {q1, q2, …, qk} – множество оценок;

ai Þ (bj, ql), где ai причина bj с достоверностью ql; ql Î [0, 1], где 0 – ложь, а 1 – истина. Остальные оценки всегда равны S / n, где S Î [1, n-1], S – число экспериментов. Предлагается следующая упрощенная схема рассуждений.

1. Рассматриваются отношения XÞ1Y – «объект X обладает множеством свойств Y» и VÞ2W – «часть объекта V является причиной множества свойств W». При этом предполагается как наличие, так и отсутствие свойств и соответственно причины их наличия и отсутствия.

2. На основании наблюдений за множеством X1Þ1Y1…XkÞ1Yk выделяется сходство объектов V=ÇXi, а также сходство в следствиях WÍYi. Таким образом, выделяются причины наличия и отсутствия свойств.

3. Далее осуществляется вывод по аналогии. Если неизвестно, есть ли у объекта X свойство Y, но при этом в X есть положительные причины для проявления этих свойств, а отрицательные причины отсутствуют, то делается вывод о наличии свойства Y у объекта X.

В ДСМ–методе есть два рода процедур: для поиска причин (правила первого рода для Þ2); для предсказания ранее неизвестных явлений (правила второго рода для Þ1). ДСМ – метод работает по схеме «сходство – причина – аналогия» и руководствуется принципом «сходство объектов влечет сходство свойств». При этом используются два механизма обнаружения сходства – прямой (от причины к следствию – анализ сходства объектов позволяет обнаружить сходство их свойств) и обратный (от следствия к причине – из анализа сходства свойств можно сделать вывод о строении объектов).

При использовании метода рассматриваются группы положительных примеров, и составляется матрица М+, в которой строки соответствуют выделенным кандидатам в причины, а столбцы – явлениям. На пересечении записывается оценка. Аналогично строится М- для отрицательных примеров. Матрицы модифицируются по результатам очередного эксперимента (в начальный момент в них записаны 0 и 1, которые соответствуют априорно заданным связям).

Если некоторые элементы матрицы на некотором шаге имеют оценку k/n и если эта гипотеза подтверждается в следующем эксперименте, то k/n меняется на (k+1)/n (оценка гипотезы поощряется), если наоборот, то k/n меняется на (k-1)/n (оценка гипотезы штрафуется). После серии экспериментов одни оценки будут стремиться к -1, а другие – к 1. Для «1» (а) является причиной (b), а для «-1» (а) не является причиной (b), «0» означает, что связь не установлена, о колеблющихся величинах ничего сказать нельзя.

Основным недостатком ДСМ-метода является отсутствие алгоритма нахождения исходных множеств причин и следствий.