рефераты конспекты курсовые дипломные лекции шпоры

Раздел Образование
/
Обучение персептрона

Реферат Курсовая Конспект

Выберите учебное заведение

Обучение персептрона

Обучение персептрона - раздел Образование, Основные понятия и определения Способность Искусственных Нейронных Сетей Обучаться Является Их Наиболее Интр...

Способность искусственных нейронных сетей обучаться является их наиболее интригующим свойством. Подобно биологическим системам, которые они моделируют, эти нейронные сети сами моделируют себя в результате попыток достичь лучшей модели поведения.

Используя критерий линейной разделимости, можно решить, способна ли однослойная нейронная сеть реализовывать требуемую функцию. Даже в том случае, когда ответ положительный, это принесет мало пользы, если у нас нет способа найти нужные значения для весов и порогов. Чтобы сеть представляла практическую ценность, нужен систематический метод (алгоритм) для вычисления этих значений. Розенблатт сделал это в своем алгоритме обучения персептрона вместе с доказательством того, что персептрон может быть обучен всему, что он может реализовывать.

Обучение персептрона является обучением с учителем. Алгоритм обучения персептрона может быть реализован на цифровом компьютере или другом электронном устройстве, и сеть становится в определенном смысле самоподстраивающейся. По этой причине процедуру подстройки весов обычно называют «обучением» и говорят, что сеть «обучается». Доказательство Розенблатта стало основной вехой и дало мощный импульс исследованиям в этой области. Сегодня в той или иной форме элементы алгоритма обучения персептрона встречаются во многих сетевых парадигмах.

Персептрон обучают, подавая множество образов по одному на его вход и подстраивая веса до тех пор, пока для всех образов не будет достигнут требуемый выход. Допустим, что входные образы нанесены на демонстрационные карты. Каждая карта разбита на квадраты, и от каждого квадрата на персептрон подается вход. Если в квадрате имеется линия, то от него подается единица, в противном случае – ноль. Множество квадратов на карте задает, таким образом, множество нулей и единиц, которое и подается на входы персептрона. Цель состоит в том, чтобы научить персептрон включать индикатор при подаче на него множества входов, задающих нечетное число, и не включать в случае четного.

На рис. 21 показана такая персептронная конфигурация. Допустим, что вектор Х является образом распознаваемой демонстрационной карты. Каждая компонента (квадрат) Х – (x₁, x₂, …, x_n) – умножается на соответствующую компоненту вектора весов W – (w₁, w₂, ..., w_n). Эти произведения суммируются. Если сумма превышает порог Θ, то выход нейрона Y равен единице (индикатор зажигается), в противном случае он – ноль. Эта операция компактно записывается в векторной форме как Y =XW, а после нее следует пороговая операция.

Для обучения сети образ Х подается на вход, и вычисляется выход Y. Если Y правилен, то ничего не меняется. Однако если выход неправилен, то веса, присоединенные к входам, усиливающим ошибочный результат, модифицируются, чтобы уменьшить ошибку.

Чтобы увидеть, как это осуществляется, допустим, что демонстрационная карта с цифрой 3 подана на вход и выход Y равен 1 (показывая нечетность). Так как это правильный ответ, то веса не изменяются.

Рис. 21. Персептронная система распознавания изображений

Если, однако, на вход подается карта с номером 4 и выход Y равен 1 (нечетный), то веса, присоединенные к единичным входам, должны быть уменьшены, так как они стремятся дать неверный результат. Аналогично, если карта с номером 3 дает нулевой выход, то веса, присоединенные к единичным входам, должны быть увеличены, чтобы скорректировать ошибку.

Этот метод обучения может быть подытожен следующим образом:

1. Подать входной образ и вычислить Y.

2. а. Если выход правильный, то перейти на шаг 1;

б. если выход неправильный и равен нулю, то добавить все входы к соответствующим им весам; или

в. если выход неправильный и равен единице, то вычесть каждый вход из соответствующего ему веса.

3. Перейти на шаг 1.

За конечное число шагов сеть научится разделять карты на четные и нечетные при условии, что множество цифр линейно разделимо. Это значит, что для всех нечетных карт выход будет больше порога, а для всех четных – меньше. Отметим, что это обучение глобально, т. е. сеть обучается на всем множестве карт. Возникает вопрос о том, как это множество должно предъявляться, чтобы минимизировать время обучения.

Важное обобщение алгоритма обучения персептрона, называемое дельта-правилом, переносит этот метод на непрерывные входы и выходы. Чтобы понять, как оно было получено, шаг 2 алгоритма обучения персептрона сформулируем в обобщенной форме с помощью введения величины δ, которая равна разности между требуемым или целевым выходом T и реальным выходом Y

δ = (T - Y).

Случай, когда δ=0, соответствует шагу 2а, когда выход правилен и в сети ничего не изменяется. Шаг 2б соответствует случаю δ > 0, а шаг 2в случаю δ < 0.

В любом из этих случаев персептронный алгоритм обучения сохраняется, если δ умножается на величину каждого входа х_i и это произведение добавляется к соответствующему весу. С целью обобщения вводится коэффициент «скорости обучения» η, который умножается на δх_i, что позволяет управлять средней величиной изменения весов.

В алгебраической форме записи

Δ_i = ηδx_i,

w(n+1) = w(n) + Δ_i,

где Δ_i – коррекция, связанная с i-м входом х_i; w_i(n+1) – значение веса i после коррекции; w_i(n) – значение веса i до коррекции.

Дельта-правило модифицирует веса в соответствии с требуемым и действительным значениями выхода каждой полярности как для непрерывных, так и для бинарных входов и выходов. Эти свойства открыли множество новых приложений.

11.4. Процедура обратного распространения

Долгое время не было теоретически обоснованного алгоритма для обучения многослойных искусственных нейронных сетей. А так как возможности представления с помощью однослойных нейронных сетей оказались весьма ограниченными, то и вся область в целом пришла в упадок.

Разработка алгоритма обратного распространения сыграла важную роль в возрождении интереса к искусственным нейронным сетям. Обратное распространение – это систематический метод для обучения многослойных искусственных нейронных сетей. Он имеет солидное математическое обоснование. Несмотря на некоторые ограничения, процедура обратного распространения сильно расширила область проблем, в которых могут быть использованы искусственные нейронные сети, и убедительно продемонстрировала свою мощь.

Рис. 22. Искусственный нейрон с активационнной функцией

На рис. 22 показан нейрон, используемый в качестве основного строительного блока в сетях обратного распространения. Подается множество входов, идущих либо извне, либо от предшествующего слоя. Каждый из них умножается на вес, и произведения суммируются. Эта сумма, обозначаемая NET, должна быть вычислена для каждого нейрона сети. После того как величина NET вычислена, она модифицируется с помощью активационной функции, и получается сигнал OUT.

Для обратного распространения обычно используется сигмоидальная активационная функция. Эта функция весьма удобна, так как имеет простую производную, что используется при реализации алгоритма обратного распространения:

Сигмоид сужает диапазон изменения NET так, что значение OUT лежит между нулем и единицей. Как указывалось выше, многослойные нейронные сети обладают большей представляющей мощностью, чем однослойные, только в случае присутствия нелинейности. Сжимающая функция обеспечивает требуемую нелинейность.

В действительности имеется множество функций, которые могли бы быть использованы. Для алгоритма обратного распространения требуется лишь, чтобы функция была всюду дифференцируема. Сигмоид удовлетворяет этому требованию. Его дополнительное преимущество состоит в автоматическом контроле усиления. Для слабых сигналов (величина NET близка к нулю) кривая вход-выход имеет сильный наклон, дающий большое усиление. Когда величина сигнала становится больше, усиление падает. Таким образом, большие сигналы воспринимаются сетью без насыщения, а слабые сигналы проходят по сети без чрезмерного ослабления.

На рис. 23 изображена многослойная сеть, которая может обучаться с помощью процедуры обратного распространения. Первый слой нейронов (соединенный с входами) служит лишь в качестве распределительных точек, суммирования входов здесь не производится. Входной сигнал просто проходит через них к весам на их выходах. А каждый нейрон последующих слоев выдает сигналы NET и OUT, как описано выше.

Рис. 23. Двухслойная сеть обратного распространения (e – желаемый сигнал)

В литературе нет единообразия относительно того, как считать число слоев в таких сетях. Одни авторы используют число слоев нейронов (включая несуммирующий входной слой), другие – число слоев весов. Так как последнее определение функционально описательное, то оно будет использоваться на протяжении книги. Согласно этому определению, сеть на рис. 23 рассматривается как двухслойная. Нейрон объединен с множеством весов, присоединенных к его входу. Таким образом, веса первого слоя оканчиваются на нейронах первого слоя. Вход распределительного слоя считается нулевым слоем.

Процедура обратного распространения применима к сетям с любым числом слоев. Однако для того, чтобы продемонстрировать алгоритм, достаточно двух слоев. Сейчас будут рассматриваться лишь сети прямого действия, хотя обратное распространение применимо и к сетям с обратными связями.

Перед началом обучения всем весам должны быть присвоены небольшие начальные значения, выбранные случайным образом. Это гарантирует, что в сети не произойдет насыщения большими значениями весов, и предотвращает ряд других патологических случаев. Например, если всем весам придать одинаковые начальные значения, а для требуемого функционирования нужны неравные значения, то сеть не сможет обучиться.

Обучение сети обратного распространения требует выполнения следующих операций:

1. Выбрать очередную обучающую пару из обучающего множества; подать входной вектор на вход сети.

2. Вычислить выход сети.

3. Вычислить разность между выходом сети и требуемым выходом (целевым вектором обучающей пары).

4. Подкорректировать веса сети так, чтобы минимизировать ошибку.

5. Повторять шаги с 1 по 4 для каждого вектора обучающего множества до тех пор, пока ошибка на всем множестве не достигнет приемлемого уровня.

Операции, выполняемые шагами 1 и 2, сходны с теми, которые выполняются при функционировании уже обученной сети, т. е. подается входной вектор и вычисляется получающийся выход. Вычисления выполняются послойно. На рис. 23 сначала вычисляются выходы нейронов слоя j, затем они используются в качестве входов слоя k, вычисляются выходы нейронов слоя k, которые и образуют выходной вектор сети.

На шаге 3 каждый из выходов сети, которые на рис. 23 обозначены OUT, вычитается из соответствующей компоненты целевого вектора, чтобы получить ошибку. Эта ошибка используется на шаге 4 для коррекции весов сети, причем знак и величина изменений весов определяются алгоритмом обучения.

После достаточного числа повторений этих четырех шагов разность между действительными выходами и целевыми выходами должна уменьшиться до приемлемой величины, при этом говорят, что сеть обучилась. Теперь сеть используется для распознавания, и веса не изменяются.

На шаги 1 и 2 можно смотреть как на «проход вперед», так как сигнал распространяется по сети от входа к выходу. Шаги 3, 4 составляют «обратный проход», здесь вычисляемый сигнал ошибки распространяется обратно по сети и используется для подстройки весов. Эти два прохода далее будут детализированы и выражены в математической форме.

Проход вперед. Шаги 1 и 2 могут быть выражены в векторной форме следующим образом: подается входной вектор Х, и на выходе получается вектор Y. Векторная пара вход-цель Х и Т берется из обучающего множества. Вычисления проводятся над вектором X, чтобы получить выходной вектор Y.

Вычисления в многослойных сетях выполняются слой за слоем, начиная с ближайшего к входу слоя. Величина NET каждого нейрона первого слоя вычисляется как взвешенная сумма входов нейрона. Затем активационная функция F «сжимает» NET и дает величину OUT для каждого нейрона в этом слое. Когда множество выходов слоя получено, оно является входным множеством для следующего слоя. Процесс повторяется слой за слоем, пока не будет получено заключительное множество выходов сети.

Этот процесс может быть выражен в сжатой форме с помощью векторной нотации. Веса между нейронами могут рассматриваться как матрица W. Например, вес от нейрона 8 в слое 2 к нейрону 5 слоя 3 обозначается w_8,5. Тогда NET-вектор слоя N может быть выражен не как сумма произведений, а как произведение Х и W. В векторном обозначении N = XW. Покомпонентным применением функции F к NET-вектору N получается выходной вектор О. Таким образом, для данного слоя вычислительный процесс описывается следующим выражением:

О = F(XW).

Выходной вектор одного слоя является входным вектором для следующего, поэтому вычисление выходов последнего слоя требует применения уравнения для О к каждому слою от входа сети к ее выходу.

Обратный проход. Подстройка весов выходного слоя. Так как для каждого нейрона выходного слоя задано целевое значение, то подстройка весов легко осуществляется с использованием модифицированного дельта-правила. Внутренние слои называют «скрытыми слоями», для их выходов не имеется целевых значений для сравнения. Поэтому обучение усложняется.

На рис. 24 показан процесс обучения для одного веса от нейрона р в скрытом слое j к нейрону q в выходном слое k. Выход нейрона слоя k, вычитаясь из целевого значения (Target), дает сигнал ошибки. Он умножается на производную сжимающей функции [OUT(1 – OUT)], вычисленную для этого нейрона слоя k, давая, таким образом, величину δ:

δ = OUT(1 – OUT)(Target – OUT).

Затем δ умножается на величину OUT нейрона j, из которого выходит рассматриваемый вес. Это произведение в свою очередь умножается на коэффициент скорости обучения η (обычно от 0,01 до 1,0), и результат прибавляется к весу. Такая же процедура выполняется для каждого веса от нейрона скрытого слоя к нейрону в выходном слое.

Следующие уравнения иллюстрируют это вычисление:

Δw_pq,k = η δ_q,k OUT

w_pq,k(n+1) = w_pq,k(n) + Δw_pq,k,

где w_pq,k(n) – величина веса от нейрона p в скрытом слое к нейрону q в выходном слое на шаге n (до коррекции); отметим, что индекс k относится к слою, в котором заканчивается данный вес, т. е. с которым он объединен; w_pq,k(n+1) – величина веса на шаге n + 1 (после коррекции); δ_q,k – величина δ для нейрона q, в выходном слое k; OUT_p,j – величина OUT для нейрона р в скрытом слое j.

Подстройка весов скрытого слоя. Рассмотрим один нейрон в скрытом слое, предшествующем выходному слою. При проходе вперед этот нейрон передает свой выходной сигнал нейронам в выходном слое через соединяющие их веса. Во время обучения эти веса функционируют в обратном порядке, пропуская величину δ от выходного слоя назад к скрытому слою. Каждый из этих весов умножается на величину δ нейрона, к которому он присоединен в выходном слое. Величина δ, необходимая для нейрона скрытого слоя, получается суммированием всех таких произведений и умножением на производную сжимающей функции:

Когда значение δ получено, веса, питающие первый скрытый уровень, могут быть подкорректированы с помощью соответствующих уравнений, где индексы модифицируются в соответствии со слоем.

Рис. 24. Настройка веса в выходном слое

Для каждого нейрона в данном скрытом слое должно быть вычислено δ и подстроены все веса, ассоциированные с этим слоем. Этот процесс повторяется слой за слоем по направлению к входу, пока все веса не будут подкорректированы.

С помощью векторных обозначений операция обратного распространения ошибки может быть записана значительно компактнее. Обозначим множество величин δ выходного слоя через D_k и множество весов выходного слоя как массив W_k. Чтобы получить D_j, δ-вектор выходного слоя, достаточно следующих двух операций:

Рис. 25. Настройка веса в скрытом слое

1. Умножить О-вектор выходного слоя D_k на транспонированную матрицу весов W’_k, соединяющую скрытый уровень с выходным уровнем.

2. Умножить каждую компоненту полученного произведения на производную сжимающей функции соответствующего нейрона в скрытом слое.

В символьной записи

D_j = D_kW’_k $[0_j $(I – 0_j)],

где оператор $ обозначает покомпонентное произведение векторов, О_j – выходной вектор слоя j и I – вектор, все компоненты которого равны 1.

Добавление нейронного смещения. Во многих случаях желательно наделять каждый нейрон обучаемым смещением. Это позволяет сдвигать начало отсчета логистической функции, давая эффект, аналогичный подстройке порога персептронного нейрона, и приводит к ускорению процесса обучения. Эта возможность может быть легко введена в обучающий алгоритм с помощью добавляемого к каждому нейрону веса, присоединенного к +1. Этот вес обучается так же, как и все остальные веса, за исключением того, что подаваемый на него сигнал всегда равен +1, а не выходу нейрона предыдущего слоя.

Импульс. Существует метод ускорения обучения для алгоритма обратного распространения, увеличивающий также устойчивость процесса. Этот метод, названный импульсом, заключается в добавлении к коррекции веса члена, пропорционального величине предыдущего изменения веса. Как только происходит коррекция, она «запоминается» и служит для модификации всех последующих коррекций. Уравнения коррекции модифицируются следующим образом:

Δw_pq_,k(n+1)= η δ_q_,k OUT_p_,j + aΔw_pq_,k(n),

w_pq_,k(n+1) = w_pq_,k(n) + Δw_pq_,k(n+1),

где (a – коэффициент импульса, обычно устанавливается около 0,9.

Используя метод импульса, сеть стремится идти по дну узких оврагов поверхности ошибки (если таковые имеются), а не двигаться от склона к склону. Этот метод, по-видимому, хорошо работает на некоторых задачах, но дает слабый или даже отрицательный эффект на других.

Существует сходный метод, основанный на экспоненциальном сглаживании, который может иметь преимущество в ряде приложений:

Δw_pq_,k(n+1)= (1-a) δ_q_,k OUT_p_,j + aΔw_pq_,k(n).

Затем вычисляется изменение веса

w_pq_,k(n+1) = w_pq_,k(n) + ηΔw_pq_,k(n+1),

где a коэффициент сглаживания, варьируемый и диапазоне от 0,0 до 1,0. Если a равен 1,0, то новая коррекция игнорируется и повторяется предыдущая. В области между 0 и 1 коррекция веса сглаживается величиной, пропорциональной a. По-прежнему, η является коэффициентом скорости обучения, служащим для управления средней величиной изменения веса.

Обратное распространение было использовано в широкой сфере прикладных исследований. Фирма NEC в Японии объявила недавно, что обратное распространение было ею использовано для визуального распознавания букв, причем точность превысила 99%. Это улучшение было достигнуто с помощью комбинации обычных алгоритмов с сетью обратного распространения, обеспечивающей дополнительную проверку.

Впечатляющий успех достигнут с Net-Talk, системой, которая превращает печатный английский текст в высококачественную речь. Магнитофонная запись процесса обучения сильно напоминает звуки ребенка на разных этапах обучения речи.

Обратное распространение использовалось в машинном распознавании рукописных английских слов. Буквы, нормализованные по размеру, наносились на сетку, и брались проекции линий, пересекающих квадраты сетки. Эти проекции служили затем входами для сети обратного распространения. Сообщалось о точности 99,7% при использовании словарного фильтра.

Несмотря на многочисленные успешные применения обратного распространения, оно не является панацеей. Больше всего неприятностей приносит неопределенно долгий процесс обучения. В сложных задачах для обучения сети могут потребоваться дни или даже недели, она может и вообще не обучиться. Длительное время обучения может быть результатом неоптимального выбора длины шага. Неудачи в обучении обычно возникают по двум причинам: паралича сети и попадания в локальный минимум.

В процессе обучения сети значения весов могут в результате коррекции стать очень большими величинами. Это может привести к тому, что все или большинство нейронов будут функционировать при очень больших значениях OUT, в области, где производная сжимающей функции очень мала. Так как посылаемая обратно в процессе обучения ошибка пропорциональна этой производной, то процесс обучения может практически замереть. В теоретическом отношении эта проблема плохо изучена. Обычно этого избегают уменьшением размера шага η, но это увеличивает время обучения. Различные эвристики использовались для предохранения от паралича или для восстановления после него, но пока что они могут рассматриваться лишь как экспериментальные.

Обратное распространение использует разновидность градиентного спуска, т. е. осуществляет спуск вниз по поверхности ошибки, непрерывно подстраивая веса в направлении к минимуму. Поверхность ошибки сложной сети сильно изрезана и состоит из холмов, долин, складок и оврагов в пространстве высокой размерности. Сеть может попасть в локальный минимум (неглубокую долину), когда рядом имеется гораздо более глубокий минимум. В точке локального минимума все направления ведут вверх, и сеть неспособна из него выбраться.

Если сеть учится распознавать буквы, то нет смысла учить «Б», если при этом забывается «А». Процесс обучения должен быть таким, чтобы сеть обучалась на всем обучающем множестве без пропусков того, что уже выучено. В доказательстве сходимости это условие выполнено, но требуется также, чтобы сети предъявлялись все векторы обучающего множества прежде, чем выполняется коррекция весов. Необходимые изменения весов должны вычисляться на всем множестве, а это требует дополнительной памяти; после ряда таких обучающих циклов веса сойдутся к минимальной ошибке. Этот метод может оказаться бесполезным, если сеть находится в постоянно меняющейся внешней среде, так что второй раз один и тот же вектор может уже не повториться. В этом случае процесс обучения может никогда не сойтись, бесцельно блуждая или сильно осциллируя. В этом смысле обратное распространение не похоже на биологические системы.

Разработано много других сетевых алгоритмов обучения, имеющих свои специфические преимущества, например, методы встречного распространения, стохастические методы. Возможности сети встречного распространения превосходят возможности однослойных сетей. Время же обучения по сравнению с обратным распространением может уменьшаться в сто раз. Встречное распространение не столь общо, как обратное распространение, но оно может давать решение в тех приложениях, где долгая обучающая процедура невозможна. Во встречном распространении объединены два хорошо известных алгоритма: самоорганизующаяся карта Кохонена и звезда Гроссберга. Их объединение ведет к свойствам, которых нет ни у одного из них в отдельности. В процессе обучения входные векторы ассоциируются с соответствующими выходными векторами. Эти векторы могут быть двоичными, состоящими из нулей и единиц, или непрерывными. Когда сеть обучена, приложение входного вектора приводит к требуемому выходному вектору. Обобщающая способность сети позволяет получать правильный выход даже при приложении входного вектора, который является неполным или слегка неверным. Это позволяет использовать данную сеть для распознавания образов, восстановления образов и усиления сигналов. Сеть встречного распространения также может быть использована для сжатия данных перед их передачей, уменьшая тем самым число битов, которые должны быть переданы.

Кроме рассмотренных детерминированных методов в нейронных сетях используются также и стохастические. Они полезны как для обучения искусственных нейронных сетей, так и для получения выхода от уже обученной сети. Стохастические методы обучения выполняют псевдослучайные изменения величин весов, сохраняя те изменения, которые ведут к улучшениям. Ловушки локальных минимумов досаждают всем алгоритмам обучения, основанным на поиске минимума, включая персептрон и сети обратного распространения. Стохастические методы позволяют решить эту проблему. Если изменение веса приводит к увеличению целевой функции, то вероятность сохранения этого изменения вычисляется с помощью распределения Больцмана или Коши. Это позволяет системе делать случайный шаг в направлении, портящем целевую функцию, позволяя ей тем самым вырываться из локальных минимумов, где любой малый шаг увеличивает целевую функцию. Соединение стохастических методов и обратного распространения дало хорошие результаты. Коррекция весов, равная сумме, вычисленной алгоритмом обратного распространения, и случайный шаг, задаваемый алгоритмом Коши, приводят к системе, которая сходится и находит глобальный минимум быстрее, чем система, обучаемая каждым из методов в отдельности. Комбинированная сеть, использующая обратное распространение и обучение Коши, обучается значительно быстрее, чем каждый из алгоритмов в отдельности, и относительно нечувствительна к величинам коэффициентов. Сходимость к глобальному минимуму гарантируется алгоритмом Коши, в сотнях экспериментов по обучению сеть ни разу не попадала в ловушки локальных минимумов. Проблема сетевого паралича была решена с помощью алгоритма селективного сжатия весов, который обеспечил сходимость во всех предъявленных тестовых задачах без существенного увеличения обучающего времени. Несмотря на такие обнадеживающие результаты, метод еще не исследован до конца, особенно на больших задачах. Еще одно направление развития теории искусственных нейронных сетей – это сети с обратными связями (сети Хопфилда). Так как сети с обратными связями имеют пути, передающие сигналы от выходов к входам, то отклик таких сетей является динамическим, т. е. после приложения нового входа вычисляется выход и, передаваясь по сети обратной связи, модифицирует вход. Затем выход повторно вычисляется, и процесс повторяется снова и снова. Для устойчивой сети последовательные итерации приводят к все меньшим изменениям выхода, пока, в конце концов, выход не становится постоянным. Для многих сетей процесс никогда не заканчивается, такие сети называют неустойчивыми. Неустойчивые сети обладают интересными свойствами и изучались в качестве примера хаотических систем. В 1983 г. Кохеном и Гроссбергом была получена теорема, описавшая подмножество сетей с обратными связями, выходы которых в конце концов достигают устойчивого состояния. Недостатком сетей Хопфилда является их тенденция стабилизироваться в локальном, а не глобальном минимуме функции энергии. Эта трудность преодолевается в основном с помощью использования машины Больцмана. Следует подчеркнуть, что никакая из сегодняшних сетей не является панацеей, все они страдают от ограничений в своих возможностях обучаться и вспоминать.

Развернуть

Открыть в широком формате

– Конец работы –

Эта тема принадлежит разделу:
Основные понятия и определения

В настоящее время искусственный интеллект одна из быстро развивающихся областей науки которая разрабатывает методы и средства поиска решений... Идея создания искусственного подобия человеческого разума для решения сложных... В XVIII в Г Лейбниц и Р Декарт независимо друг от друга развили эту идею предложив...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Обучение персептрона

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Твитнуть

Все темы данного раздела:

Понятие искусственного интеллекта
Центральным понятием является понятие «искусственный интеллект». Термин искусственный интеллект (artificial intelligence) был предложен в 1956 г. на научном семинаре в Стэндфордско

Попов Э.В., Фирдман Г.Р. (Алгоритмические основы интеллектуальных роботов и искусственный интеллект, 1992 г.)
«Под системой ИИ понимается система, обладающая способностью к накоплению и корректировке знания на основе активного восприятия информации о мире и к целенаправленному поведению на основе накопленн

Цели и задачи искусственного интеллекта
К основным целям искусственного интеллекта можно отнести: 1. Обработка зрительных сцен: - обработка изображения; - распознавание и понимание образов; - машинная

Основные направления исследований по ИИ
А

Истоки формальных рассуждений
2.1. Левополушарное и правополушарное мышления Как известно, мозг человека состоит из двух полушарий, каждое из которых по-своему преобразует информацию. Весь окружающий мир делит

Типы мышления
Левое полушарие – «Я» Тип мышления Сходство – различие Выделение признаков конкретных объектов Декомпозиция целого на части

Понятие формальной системы
Появление формальных систем было обусловлено осознанием того факта, что совершенно различные системы, будь то технические, социальные, экономические или биологические, облад

Разрешимость формальной системы
Первым вопросом, который возникает при задании формальной системы, является вопрос об инверсии, т. е. о том, возможно ли, рассматривая какую-либо формулу формальной системы, определить, является ли

Интерпретация формальной системы
Формальные системы являются не просто игрой ума, а всегда представляют собой модель какой-то реальности (либо конкретной, либо математической). Интерпретация представл

Доказательство и истинность
Из приведённых выше определений существует уже по построению глубокое различие между концепциями доказательства и истинности. Эти понятия относятся к двум различным областям. Априорно ничто не гара

Основные принципы силлогистики
Аристотель (384-322 гг. до н. э.) – древнегреческий учёный-энциклопедист, основоположник формальной логики. Основные сочинения в области логики: «Категории», «Об истолковании», «Аналитики первая и

Базовые высказывания силлогистики
Высказывание Обозначение Интерпретация Любой S есть P "SÎ P Asp

Решение силлогизмов
Силлогизм – вывод ранга 2, т.е. вывод, который можно сделать на основании истинности двух посылок. В этих посылках фигурируют три класса сущностей: S ,P и M. Для формирования силлогизма используютс

Расширенная силлогистика
Расширение классической силлогистики Аристотеля возможно произвести двумя способами – переходом к негативным утверждениям и увеличением числа посылок.

Моделирование силлогистики
Основной элемент при выводах в силлогистике – переход от двух посылок к заключению. Этот процесс может быть автоматизирован, схема автоматизированной системы для получения силлогистических выводов

Синтаксис исчисления высказываний
Основное понятие исчисления высказываний – высказывание. Это предложения на естественном языке, которые могут быть истинными или ложными. При этом различают логическую истину языка

Понятие семантического дерева
Если Р={Р1…Рn} – множество высказываний, то семантическое дерево – это бинарное дерево, удовлетворяющее следующим условиям: 1) каждая дуга помечена негативной или поз

Алгоритм Куайна
Алгоритм Куайна, или алгоритм частичного перебора, позволяет доказать общезначимость формулы без просмотра полного семантического дерева. Основная идея алгоритма з

Алгоритм редукции
Алгоритм редукции позволяет доказать общезначимость формул с помощью приведения их к противоречию. Рассмотрим работу алгоритма на примере. Пример.Проверит

Нормальные формы и алгоритм нормализации
Каждая логическая формула может изучаться алгебраически путем приведения ее к нормальной форме. Возможно приведение к двум нормальным формам – конъюнктивной нормальной форме (КНФ)

Алгоритм Куайна для ДНФ
Алгоритм Куайна для ДНФпозволяет проверить выполнимость и общезначимость приведенной дизъюнктивной нормальной формы. Пусть р – элементарное высказывание, а S – приведенная

Принцип резолюций
В исчислении высказываний не существует общего, по-настоящему эффективного критерия для проверки выполнимости КНФ, однако есть удобный метод для выявления невыполнимости множества дизъюнктов.

Алгоритм доказательства невыполнимости логической формулы
1. Если в формуле нет невыполнимых дизъюнктов, то выбираются l, S1 и S2, такие, что lÎ S1 и ù lÎ S2. 2. Строится резольвента

Хорновские дизъюнкты
Часто в исчислении высказываний возникает следующая задача: нужно проверить какую-то формулу (цель), логически выведенную из множества фактов и правил. Резолюция является методом доказательства от

База знаний на основе исчисления высказываний
Факты Формулы исчисления высказываний а1 – животное имеет шерсть а2 – животное кормит детенышей молоком а

Применение исчисления высказываний в конструировании релейно-контактных схем
Исчисление высказываний нашло широкое применение в теории и практике конструирования релейно-контактных схем благодаря основному свойству высказываний – высказывание может быть либо истинно, либо л

Исчисление предикатов
Уже упоминавшийся выше силлогизм «Люди смертны …» не может быть представлен с помощью исчисления высказываний. Для его формализации необходимо ввести квантифицированную переменную

Определение исчисления предикатов первого порядка
Пусть задано некоторое множество M = {m1, m2, …, mk, …}, в котором m1, m2, …, mk – какие-то определенные предметы из этого множеств

Общезначимость и выполнимость формул исчисления предикатов
Понятия общезначимости и противоречивости формул, введенные в исчислении высказываний, сохраняют свою силу и для исчисления предикатов. Формула исчисления предикатов называется

Исчисление предикатов как формальная система
Рассмотрим формальную аксиоматическую систему для исчисления предикатов. 1. Алфавит: а) счетное множество предметных переменных x1, x2, …, xn …;

Пренексные нормальные формы исчисления предикатов
В исчислении высказываний были рассмотрены две нормальные формы высказываний – КНФ и ДНФ. В исчислении предикатов также имеется нормальная форма, так называемая пренексная нормальная форма

Сколемовские стандартные формы исчисления предикатов
Очевидно, что если формулы F и Ф равносильны, то F логически невыполнима тогда и только тогда, когда логически невыполнима Ф. Благодаря этому утверждению и в силу того, что алгоритмы приведения в П

Процедура вывода Эрбрана
В исчислении предикатов не существует универсального алгоритма, который позволяет проверить общезначимость, нейтральность, невыполнимость формулы, т.к. для формулы исчисления предикатов существует

Принцип резолюции для логики предикатов
В главе 5 был изложен принцип резолюций для исчисления высказываний, где нахождение контрарных пар не вызывало трудностей. Для логики предикатов это не так. Действительно, пусть имеются дизъюнкты т

Индуктивные рассуждения
Термин «индукция» (от лат. inductio – наведение) в науку впервые был введен Аристотелем, который, в свою очередь, приписывал первое применение этого термина Сократу. Аристот

Принцип единственного различия
«Если после введения некоторого фактора появляется или после удаления этого фактора исчезает известное явление, причем не вводились и не удалялись никакие другие факторы и не производилось никакого

Особенности индуктивных схем рассуждений
Индуктивные рассуждения справедливы при условии, что в описании ситуации имеется полное множество наблюдаемых факторов и явлений. Причем в левой части причинно-следственного отношения может стоять

Алгоритм древ
Данный алгоритм является методом качественного обобщения по признакам и предложен как развитие алгоритма обобщения Э. Ханта – CLS. В основе метода используется дерево решений – один из спо

Индукция решающих деревьев (ID3)
Алгоритм ID3 (induction of decision tree) формирует решающие деревья на основе примеров. Каждый пример имеет одинаковый набор атрибутов (признаков), которые можно рассматрив

Метод фокусирования
Важный шаг при решении задачи обобщения понятий – получение решающих правил (продукций, деревьев), которые содержат не только логические функции на конкретных значениях признаков, но включают более

Рассуждения по аналогии
Согласно Большому энциклопедическому словарю «... аналогия (от греч. analogon – соответствие, равенство отношений) – сходство предметов (явлений, объектов) в каких-либо свой

Простая аналогия
Дадим формальные механизмы использования аналогии для решения задач. Пусть существуют два рассуждения: в первое входят два объекта S1 и S2, преобразование F и некоторый вывод

Модальные логики
Вводятся операторы над логическими формулами, которые могут модифицировать их интерпретацию. В зависимости от того, какие операторы вводятся, различают классы модальных логик: 1.

Применение нечеткой математики
Вводится понятие нечеткого множества – множества, относительно любого из элементов которого можно сделать следующие заключения: 1. Элемент принадлежит данному множе

Нечеткая силлогистика
Рассмотрим силлогизм, который содержит следующие посылки: 1. Среди тех, кто носит цилиндр, почти все ходят с тросточкой. 2. Среди тех, кто ходит с тросточкой, почти все пьют марти

Методы поиска в пространстве состояний
Методы поиска в пространстве состояний фактически являются методами поиска на графе, у которого начальная вершина – начальное состояние, и задан оператор, который строит все вершины, следующие непо

Искусственный нейрон
Стремясь воспроизвести функции человеческого мозга, исследователи создали простые аппаратные (а позже программные) модели биологического нейрона и системы его соединений. Когда нейрофизиологи дости

Персептроны
Рис. 13. Персептронный нейрон Первое систематическое изучение искусственных нейронных сетей было предпринято Маккалокком

Хотите получать на электронную почту самые свежие новости?

Подпишитесь на Нашу рассылку

Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail

Новости и инфо для студентов

Свежие новости

Актуальные обзоры событий

Студенческая жизнь

Реклама

Соответствующий теме материал

Похожее

Популярное

Облако тегов

Здесь

Временно

Пусто

Теги

рефераты конспекты курсовые дипломные лекции шпоры

Обучение персептрона

Основные понятия и определения

Что будем делать с полученным материалом:

Все темы данного раздела:

Хотите получать на электронную почту самые свежие новости?

Подпишитесь на Нашу рассылку

Новости и инфо для студентов

Реклама

Соответствующий теме материал

О Сайте