NEURAL NETWORK WITH BACK PROPAGATION TRAINING ALGORITHM.


  1. Название
  2. Авторы и история создания
  3. Модель
  4. Области применения
  5. Недостатки
  6. Преимущества
  7. Модификации
  8. Источники

1. Название:


Нейронная сеть с обучением по методу обратного распространения ошибки.

Другие названия:

2. Авторы и история создания.


Многослойные персептроны были предложены и исследованы в 1960-х годах Розенблаттом, Минским, Пейпертом и др. Лишь в середине 1980-х несколькими исследователями независимо друг от друга был предложен эффективный алгоритм обучения многослойных персептронов, основанный на вычислении градиента функции ошибки. Алгоритм был назван "обратным распространением ошибки".

3. Модель.


Алгоритм обратного распространения - это итеративный градиентный алгоритм, который используется с целью минимизации среднеквадратичного отклонения текущего выхода многослойного персептрона и желаемого выхода.

Алгоритм обратного распространения используется для обучения многослойных нейронных сетей с последовательными связями. Нейроны в таких сетях делятся на группы с общим входным сигналом - слои. На каждый нейрон первого слоя подаются все элементы внешнего входного сигнала. Все выходы нейронов m-го слоя подаются на каждый нейрон слоя m+1. Нейроны выполняют взвешенное суммирование элементов входных сигналов. К сумме элементов входных сигналов, домноженных на соответствующие синаптические веса, прибавляется смещение нейрона. Над результатом суммирования выполняется нелинейное преобразование - функция активации (передаточная функция). Значение функции активации есть выход нейрона.

На рисунке 1 показана укрупненная схема многослойной сети (многослойного персептрона). Нейроны представлены кружками, связи между нейронами - линиями со стрелками. Рисунок 2 представляет подробную схему сети с обозначенными синапсами, смещениями, сумматорами.

bp

Рис. 1. Многослойный персептрон

ТИП ВХОДНЫХ СИГНАЛОВ: целые или действительные.

ТИП ВЫХОДНЫХ СИГНАЛОВ: действительные из интервала, заданного передаточной функцией нейронов.

ТИП ПЕРЕДАТОЧНОЙ ФУНКЦИИ: сигмоидальная. В нейронных сетях применяются несколько вариантов сигмоидальных передаточных функций.

Функция Ферми (экспоненциальная сигмоида):

bp1 (1)

где s - выход сумматора нейрона, - некоторый параметр.

Рациональная сигмоида:

bp2 (3)

Рис. 2. Многослойная сеть с последовательными связями

Гиперболический тангенс:

bp3 (4)

Перечисленные функции относятся к однопараметрическим. Значение функции зависит от аргумента и одного параметра. Также используются многопараметрические передаточные функции, например:

bp4 (5)

Сигмоидальные функции являются монотонно возрастающими и имеют отличные от нуля производные на всей области определения. Эти характеристики обеспечивают правильное функционирование и обучение сети.

Наиболее эффективной передаточной функцией является рациональная сигмоида. Для вычисления гиперболического тангенса требуется больше всего тактов работы процессора.

ФУНКЦИОНИРОВАНИЕ многослойной сети выполняется в соответствии с формулами:

bp5 (6)

bp6 (7)

где s - выход сумматора, w - вес связи, y - выход нейрона, b - смещение, i - номер нейрона, N - число нейронов в слое, m - номер слоя, L - число слоев, f- функция активации.

ОБУЧЕНИЕ СЕТИ разбивается на следующие этапы:

1) Инициализация сети:

Весовым коэффициентам и смещениям сети присваиваются малые случайные значения из диапазонов и соответственно.

2) Определение элемента обучающей выборки:

(<текущий вход>, <желаемый выход>). Текущие входы (x0, x1... xN-1), должны различаться для всех элементов обучающей выборки. При использовании многослойного персептрона в качестве классификатора желаемый выходной сигнал (d0, d1... dN-1) состоит из нулей за исключением одного единичного элемента, соответствующего классу, к которому принадлежит текущий входной сигнал.

3) Вычисление текущего выходного сигнала:

Текущий выходной сигнал определяется в соответствии с традиционной схемой функционирования многослойной нейронной сети.

4) Настройка синаптических весов:

Для настройки весовых коэффициентов используется рекурсивный алгоритм, который сначала применяется к выходным нейронам сети, а затем проходит сеть в обратном направлении до первого слоя. Синаптические веса настраиваются в соответствии с формулой:

bp7 (8)

где wij - вес от нейрона i или от элемента входного сигнала i к нейрону j в момент времени t, xi' - выход нейрона i или i-ый элемент входного сигнала, r - шаг обучения, gj - значение ошибки для нейрона j.

Если нейрон с номером j принадлежит последнему слою, то

bp8 (9)

где dj - желаемый выход нейрона j, yj - текущий выход нейрона j.

Если нейрон с номером j принадлежит одному из слоев с первого по предпоследний, то

bp9 (10)

где k пробегает все нейроны слоя с номером на единицу больше, чем у того, которому принадлежит нейрон j.

Внешние смещения нейронов b настраиваются аналогичным образом.

4. Области применения:


распознавание образов, классификация, прогнозирование. Были попытки построения экспертных систем на основе многослойных персептронов с обучением по методу обратного распространения.

5. Недостатки.


Многокритериальная задача оптимизации в методе обратного распространения рассматривается как набор однокритериальных - на каждой итерации происходят изменения значений параметров сети, улучшающие работу лишь с одним примером обучающей выборки. Такой подход существенно уменьшает скорость обучения.

Классический метод обратного распространения относится к алгоритмам с линейной сходимостью. Для увеличения скорости сходимости необходимо использовать матрицы вторых производных функции ошибки.

6. Преимущества.


Обратное распространение - первый эффективный алгоритм обучения многослойных нейронных сетей. Один из самых популярных алгоритмов обучения, с его помощью были решены и решаются многочисленные практические задачи.

7. Модификации.


Модификации алгоритма обратного распространения связаны с использованием различных функций ошибки, различных процедур определения направления и величины шага:

1) функции ошибки:

- интегральные функций ошибки по всей совокупности обучающих примеров,

- функции ошибки целых и дробных степеней.

2) процедуры определения величины шага на каждой итерации:

- дихотомия,

- инерционные соотношения, например

bp10 (11)

(a - некоторое положительное число, меньше единицы)

- отжиг.

3) процедуры определения направления шага:

- с использованием матрицы производных второго порядка (метод Ньютона и др.),

- с использованием направлений на нескольких шагах (пар-тан метод и др.).

8. Источники:


  1. Барцев С.И., Гилев С.Е., Охонин В.А. Принцип двойственности в организации адаптивных сетей обработки информации // Динамика химических и биологических систем. Новосибирск: Наука, 1989, стр.6-55.
  2. Барцев С.И., Охонин В.А. Адаптивные сети обработки информации. Красноярск : Ин-т физики СО АН СССР, 1986. Препринт N 59Б. - 20с.
  3. Барцев С.И. Некоторые свойства адаптивных сетей (Программная реализация). Красноярск: Ин-т физики СО АН СССР, 1987. Препринт No.71Б. - 17 с.
  4. Биотехника - новое направление компьютеризации/ Ю.К. Ахапкин, С.И. Барцев, Н.Н. Всеволодов и др. - М.: Наука, 1990. - 144 с.
  5. Гилл Ф., Мюррей У., Райт М. Практическая оптимизация. - М.: Мир, 1985. - 509 c.
  6. Горбань А.Н. Обучение нейронных сетей. М.: СП ПараГраф. 1991.
  7. Евтихиев Н.Н., Оныкий Б.Н., Перепелица В.В., Щербаков И.Б. Математические модели и оптические реализации многослойных и полиномиальных нейронных сетей. М.: Препринт/МИФИ, 004-94, 1994. - 32 с.
  8. Евтихиев Н.Н., Оныкий Б.Н., Перепелица В.В., Щербаков И.Б. Многослойная нейронная сеть и ее реализация на основе оптического вектор-матричного перемножителя // Нейрокомпьютер, No.1-2, 1994.
  9. Уоссермен Ф. Нейрокомпьютерная техника : Теория и практика. М.: Мир. 1992.
  10. Ackley D.H., Hinton G.E., Sejnowski T.J. A Learning Algorithm for Boltzmann Machines. Cognitive Science, 9, 1985, pp. 147-169.
  11. Almeida L.B. A learning rule for asynchronous perceptrons with feedback in a combinatorial environment. Proc. 1st IEEE Intl. Conf. on Neural Networks, vol. 2, pp. 609-618, San Diego, CA, June 1987.
  12. Burr D.J. Experiments with a connectionist text reader. In Proceddings of the IEEE First International Conference on Neural Networks, eds. Caudill M., Butler C. vol 4, 1987, pp. 717-724. San Diego, CA: SOS Printing.
  13. Cottrell G.W., Munro P. and Zipser D. Learning Internal Representation from Gray-Scale Images: An Example of Extensional Programming. In Proc. 9th Annual Conference of the Cognitive Science Society, 1987, pp. 461-473.
  14. Dennis J., Schnabel R. Numerical Methods for Unconstrained Optimization and Nonlinear Equations. Englewood Cliffs, NJ: Prentice-Hall, 1983.
  15. Gilev S.E., Gorban A.N., Mirkes E.M. Several methods for acceleration the training process of neural networks in pattern recognition. USSR Academy of Sciences, Siberian Branch, Institute of Biophysics, Krasnoyarsk, 1990. Preprint N 146Б.
  16. Gorman R.P., Sejnowski T.J. Analysis of Hidden Units in a Layered Network Trained to Classify Sonar Targets. Neural Networks, 1, pp.75-89.
  17. Guyon I., Poujaud I., Personnaz L., Dreyfus G., Denker J. and Le Cun Y. Comparing different neural network architectures for classifying handwritten digits. In Proc. IEEE Int. Joint Conf. Neural Networks, June 1989.
  18. Hecht-Nielsen R. Theory of the backpropagation neural network // International joint conference on neural networks, Sheraton Washington Hotel, Washington D.C., June 18-22, vol. 1, 1989, p. 593-606.
  19. Jones W.P., Hoskins J. Back-Propagation, A Generalized Delta Learning Rule. BYTE Magazine. Oct. 1987.
  20. Jordan M. Generic constraints on underspecified target trajectories. In Proc. IEEE Int. Joint Conf. Neural Networks, June 1989.
  21. Kawato M. Computational schemes and neural network models for formation and control of multijoint arm trajectory. In W.T. Miller, R. Sutton, and P. Werbos, Eds. Neural Networks for Robotics and Control. Cambridge, MA: M.I.T. Press, 1990.
  22. Lippman R.P. An introduction to computing with neural nets // IEEE ASSP Magazine. Apr. 1987. P.4-22.
  23. Muller B., Reinhardt J. Neural networks. Springer- -Verlag. 1990. 267 p.
  24. Narendra K.S., Parthasarathy K. Identification and control of dynamical systems using neural networks. IEEE Trans. Neural Networks, vol.1, pp.4-27, Mar. 1990.
  25. Narendra R. Adaptive control using neural networks. In W.T. Miller, R. Sutton, and P. Werbos, Eds. Neural Networks for Robotics and Control. Cambridge, MA: M.I.T. Press, 1990.
  26. Neural Computing: NeuralWorks Professional II/Plus and NeuralWorks Explorer. NeuralWare, Inc., 1991. 355 p.
  27. Nguyen D., Widrow B. The truck backer-upper: An example of self-learning in neural networks. In W.T. Miller, R. Sutton, and P. Werbos, Eds. Neural Networks for Robotics and Control. Cambridge, MA: M.I.T. Press, 1990.
  28. Pearlmutter B. Learning state space trajectories in recurrent neural network. In Proc. 1988 Connectionist Models Summer School, D. Touretzky, G. Hinton, and T. Sejnowski, Eds. June 17-26, 1988, pp. 113-117. San Mateo, CA: Morgan Kaufmann. And in Proc. Int. Joint. Conf. Neural Networks, June 1989.
  29. Pineda F.J. Generalization of backpropagation to reccurent neural networks. In Phys. Rev. Lett., vol. 18, pp. 2229-2232, 1987.
  30. Pineda F.J. Generalization of backpropagation to reccurent and higher order networks. In Proc. IEEE Conf. Neural Inform. Processing Syst., 1987, and in Neural Information Processing Systems, ed. D.Z. Anderson, pp. 602-611. New York: American Institute of Phisycs. 1988.
  31. Rosenberg C.R. Revealing the structure of NETtalk's Internal Representations. In Proc. 9th Annual Conference of the Cognitive Science Society, 1987, pp. 537-554.
  32. Rumelhart D.E., Hinton G.E., Williams R.J. Learning Internal Representations by Error Propagation. In Parallel Distributed Processing, vol. 1, pp. 318-362. Cambridge, MA, MIT Press. 1986.
  33. Rumelhart D.E., Hinton G.E., Williams R.J. Learning Representations by Back-propagating Errors, Nature vol. 323, p. 533. 1986.
  34. Sawai H., Waibel A., Haffner P., Miyatake M. and Shikano K. Parallelism, hierarchy, scaling in time-delay neural networks for spotting Japanese phonemes/ CV-syllables. In Proc. IEEE Int. Joint Conf. Neural Networks, June 1989.
  35. Sejnowski T.J, Rosenberg C.R. Parallel Networks that Learn to Pronounce English Text. Complex Systems, 1, 1987, p.145-168.
  36. Shanno D. Conjugate-gradient methods with inexact searches. Math. Oper. Res., vol. 3, Aug. 1978.
  37. Shanno D. Recent advances in numerical techniques for large-scale optimization. In W.T. Miller, R. Sutton, and P. Werbos, Eds. Neural Networks for Robotics and Control. Cambridge, MA: M.I.T. Press, 1990.
  38. Stornetta W.S., Huberman B.A. An improved three-layer, backpropagation algorithm. In Proceedings of the IEEE First Conference on Neural Networks, eds. M. Caudill and C. Butler. San Diego, CA: SOS Printing. 1987.
  39. Wasserman P.D. Combined backpropagation/ Cauchy machine. Proceedings of the International Neural Network Society. New York: Pergamon Press. 1988.
  40. Wasserman P.D. Experiments in transtating Chinese characters using backpropagation. Proceedings of the Thirty-Third IEEE Computer Society International Conference. Washington, D.C.: Computer Society Press of the IEEE. 1988.
  41. Watrous R., Shastri L. Learning phonetic features using connectionist networks: an experiment in speech recognition. In Proc. 1st IEEE Int. Conf. Neural Networks, June 1987.
  42. Werbos P. Applications of advances in nonlinear sensitivity analysis. In R. Drenick and F. Kozin, Eds., Systems Modelling and Optimization: Proc. 10th IFIP Conf. (1981). New York: Springer-Verlag, 1982.
  43. Werbos P. Learning how the word works: Specifications for predictive networks in robots and brains. In Proc. 1987 IEEE Int. Conf. Syst., Ma, Cybern., 1987.
  44. Werbos P. Consistency of HDP applied to a simple reinforcement learning problem. Neural Networks, Mar. 1990.
  45. Werbos P. Generalization of backpropagation with application to a recurrent gas market model, Neural Networks, Oct. 1988.
  46. Werbos P.J. Backpropagation through time: what it does and how to do it // Proceedings of the IEEE, vol. 78, No. 10, October, 1990, p. 1550-1560.
  47. Werbos P. Maximizing long-term gas industry profits in two minutes in Lotus using neural networks methods. IEEE Trans. Syst., Man, Cybern., Mar./Apr. 1989.
  48. Widrow B., Lehr M.A. 30 years of adaptive neural networks: perceptron, madaline, and backpropagation // Proceedings of the IEEE, vol. 78, No. 9, September, 1990, p. 1415-1442.
  49. Williams R. Adaptive state representation and estimation using recurrent connectionist networks. In W.T. Miller, R. Sutton, and P. Werbos, Eds. Neural Networks for Robotics and Control. Cambridge, MA: M.I.T. Press, 1990.


smallogo При использовании информации, находящейся на данной странице, вы обязаны ссылаться на следующую работу:

Отчет по научно-исследовательской работе "Создание аналитического обзора информационных источников по применению нейронных сетей для задач газовой технологии"; Копосов А.И., Щербаков И.Б., Кисленко Н.А., Кисленко О.П., Варивода Ю.В. и др., ВНИИГАЗ, 1995.