ИСПОЛЬЗОВАНИЕ НЕЙРОПАРАДИГМЫ "BACK PROPAGATION" ДЛЯ РЕШЕНИЯ ПРАКТИЧЕСКИХ ЗАДАЧ


Общее описание нейропарадигмы "back propagation"

Алгоритм обратного распространения - это итеративный градиентный алгоритм обучения, который используется с целью минимизации среднеквадратичного отклонения текущего выхода и желаемого выхода многослойных нейронных сетей.

Алгоритм обратного распространения используется для обучения многослойных нейронных сетей с последовательными связями. Нейроны в таких сетях делятся на группы с общим входным сигналом - слои. На каждый нейрон первого слоя подаются все элементы внешнего входного сигнала. Все выходы нейронов m-го слоя подаются на каждый нейрон слоя m+1. Нейроны выполняют взвешенное суммирование элементов входных сигналов. К сумме элементов входных сигналов, помноженных на соответствующие синаптические веса, прибавляется смещение нейрона. Над результатом суммирования выполняется нелинейное преобразование - функция активации (передаточная функция). Значение функции активации есть выход нейрона.

В нейропарадигме "back propagation" используются сигмоидальные передаточные функции, например

.

Сигмоидальные функции являются монотонно возрастающими и имеют отличные от нуля производные на всей области определения. Эти характеристики обеспечивают правильное функционирование и обучение сети.


ФУНКЦИОНИРОВАНИЕ многослойной сети выполняется в соответствии с формулами:

где s - выход сумматора, w - вес связи, y - выход нейрона, b - смещение, i - номер нейрона, N - число нейронов в слое, m - номер слоя, L - число слоев, f- функция активации.

ОБУЧЕНИЕ СЕТИ разбивается на следующие этапы:

1) Инициализация сети:

Весовым коэффициентам и смещениям сети присваиваются малые случайные значения из диапазонов и соответственно.

2) Определение элемента обучающей выборки:

(<текущий вход>, <желаемый выход>). Текущие входы (x0, x1... xN-1), должны различаться для всех элементов обучающей выборки. При использовании многослойного персептрона в качестве классификатора желаемый выходной сигнал (d0, d1... dN-1) состоит из нулей за исключением одного единичного элемента, соответствующего классу, к которому принадлежит текущий входной сигнал.

3) Вычисление текущего выходного сигнала:

Текущий выходной сигнал определяется в соответствии с традиционной схемой функционирования многослойной нейронной сети.

4) Настройка синаптических весов:

Для настройки весовых коэффициентов используется рекурсивный алгоритм, который сначала применяется к выходным нейронам сети, а затем проходит сеть в обратном направлении до первого слоя. Синаптические веса настраиваются в соответствии с формулой:

где wij - вес от нейрона i или от элемента входного сигнала i к нейрону j в момент времени t, xi' - выход нейрона i или i-ый элемент входного сигнала, r - шаг обучения, gj - значение ошибки для нейрона j.

Если нейрон с номером j принадлежит последнему слою, то

где dj - желаемый выход нейрона j, yj - текущий выход нейрона j.

Если нейрон с номером j принадлежит одному из слоев с первого по предпоследний, то

где k пробегает все нейроны слоя с номером на единицу больше, чем у того, которому принадлежит нейрон j.

Внешние смещения нейронов b настраиваются аналогичным образом.


Гетероассоциативная память

Использование нейропарадигмы "back propagation" для построения моделей гетероассоциативной памяти является традиционным. Нейронная сеть в процессе обучения приобретает способность строить ассоциации между входным сигналом X и выходным сигналов Y. Обучающая выборка состоит из пар

(<вход X>, <известный выход Y>).

В общем случае X и Y - вектора. В моделях гетероассоциативной памяти размерности входных и выходных векторов различаются .

В большинстве задач распознавания и прогнозирования . Дан некоторый входной вектор, требуется определить, к какому классу он относится.

В задачах восстановления образа по номеру класса (по некоторому коду) .

На рисунках 1 и 2 представлены схемы многослойных сетей, реализующих гетероассоциативную память. Нейроны представлены кружками, связи между нейронами - линиями.

Рис. 1. Многослойная нейронная сеть, .

Рис. 2. Многослойная нейронная сеть, .


Прогнозирование

С математической точки зрения задача прогнозирования является частным случаем задачи построения гетероассоциативной памяти. В качестве входных сигналов сети используются временные ряды, представляющие значения контролируемых переменных на некотором интервале времени. Выходной сигнал - множество переменных, которое является подмножеством переменных входного сигнала.

Характерные для прогнозирования проблемы:

  1. элементы входных сигналов принадлежат разным типам данных,
  2. интервалы значений разных элементов входных сигналов существенно различаются,
  3. на значения выходных сигналов сети влияют на столько абсолютные значения входных сигналов, сколько их небольшие изменения.

Эти проблемы могут быть решены с помощью масштабирования элементов входных сигналов (см. ниже).


Автоассоциативная память

В моделях автоассоциативной памяти размерности входных и выходных сигналов совпадают (см. рисунок). То есть в результате функционирования сети необходимо получить выходной сигнал, который имеет тот же тип и ту же размерность, что и входной сигнал.

Рис. 3. Многослойная нейронная сеть, .


Кластеризация

Использование нейропарадигмы "back propagation" для решения задачи кластеризации возможно, но не является традиционным. Наиболее популярными моделями для кластеризации являются сети ART (Adaptive Resonance Theory).

Пусть дана обучающая выборка, каждый пример которой содержит только входной сигнал. Рассмотрим два этапа кластеризации с помощью "back propagation".

1. Первичное формирование кластеров.

Путем попарного сравнения выбираются два наиболее различающихся входных сигнала. Мерой сходства-различия для бинарных сигналов может служить расстояние Хемминга. Для других типов сигналов - евклидово расстояние. Далее считают, что первый сигнал принадлежит классу (кластеру) 1, другой - второму классу. Строится обучающая выборка традиционного вида, содержащая два примера - пары (<вход>,<известный выход>). По данной выборке проводится обучение сети алгоритмом обратного распространения.

Случайным образом выбирается один из оставшихся входных сигналов и вводится в нейронную сеть. Если среднеквадратичное отклонение текущего выходного сигнала от одного из известных выходных сигналов обучающей выборки меньше заданного порогового значения, то входной сигнал считается принадлежащим классу соответствующего примера. В противном случае считается, что входной сигнал принадлежит новому классу. Строится обучающая выборка из трех примеров и по ней выполняется обучение.

Аналогичные действия повторяются до тех пор, пока не закончатся входные сигналы.

2. Объединение кластеров.

Для каждого сформированного на первом этапе класса (кластера) строится "центральный" или "эталонный" образ, каждый элемент которого есть среднее арифметическое соответствующих элементов всех примеров данного класса.

Далее с помощью меры Хемминга или Евклида определяется расстояние между парами "центральных" образов. Если расстояние меньше некоторого порогового значения, то два класса объединяются в один. Соответствующим образом формируется новая обучающая выборка и по ней проводится обучение нейронной сети.

Эту операцию повторяют до тех пор, пока не останется ни одной пары классов, расстояние между "центральными" образами которых меньше порогового значения.


Число нейронов в скрытых слоях нейронных сетей

Размерность входного сигнала и число нейронов последнего слоя в многослойных нейронных сетях определяются заданной обучающей выборкой. Определение числа нейронов в скрытых слоях представляет из себя нетривиальную задачу.

Для приблизительной оценки этого числа можно воспользоваться теоремой Колмогорова-Арнольда и следствием из нее. В соответствии с этими теоретическими результатами в негомогенной двухслойной нейронной сети для реализации произвольного отображения потребуется 2*N нейронов в скрытом слое, где N - размерность выходного сигнала или число нейронов последнего слоя. Сеть негомогенная, нет никаких ограничений на передаточные функции нейронов. Для гомогенных сетей, в которых передаточные функции нейронов фиксированы, данная оценка является заниженной. Число 2*N можно рассматривать как нижнюю границу необходимого числа нейронов скрытого слоя.

Для более точной оценки числа нейронов с скрытых слоях можно воспользоваться формулой для оценки необходимого числа синаптических весов Nw в многослойной сети с сигмоидальными передаточными функциями [48]:

,

где Ny - размерность выходного сигнала, Np - число элементов обучающей выборки, Nx - размерность входного сигнала.

Оценив необходимое число весов, можно рассчитать число нейронов в срытых слоях. Например, число нейронов в двухслойной сети составит:

Аналогично можно рассчитать число нейронов в сетях с большим числом слоев.


Масштабирование входных и выходных данных

В нейропарадигме "back propagation" на типы входных и выходных данных не накладывается никаких ограничений. Входные и выходные сигналы сети могут принадлежать как к одному, так и к разным типам данных, они могут быть двоичными, целыми или действительные (вещественными). Главное - чтобы все элементы сигналов принадлежали к одному типу. Кроме того для успешного обучения и функционирования нейронной сети желательно, чтобы диапазоны изменений элементов входных сигналов незначительно отличались друг от друга.

Однако при решении практических задач эти требования часто не соблюдаются. Например, в задачах финансовых прогнозов входной сигнал может состоять из следующих элементов:

Первый элемент имеет величину порядка нескольких тысяч и в общем случае является вещественным числом, второй элемент - целое число от 1 до 7 и т. д.

Для того, чтобы представить все элементы входного сигнала числами одного типа из одного диапазона, используется операция масштабирования.

Выбирается диапазон изменения элементов входного сигнала ("общий диапазон"). Для каждого элемента входного сигнала определяется его диапазон и выполняется линейное преобразование данного элемента таким образом, чтобы в результате его значения принадлежали общему диапазону.

Еще одна проблема обучения и функционирования нейронных сетей состоит в следующем. В некоторых задачах на значение выходных сигналов сети существенно влияют не абсолютные значения входных сигналов, а небольшие изменения во входных сигналах. Например, небольшие колебания курса валюты могут существенно повлиять на финансовый прогноз. Классический вариант нейропарадигмы "back propagation" позволяет учитывать главным образом абсолютные значения входных сигналов, а не небольшие колебания. Это затрудняет решение некоторых практических задач, в частности, прогнозирования. Для разрешения этой проблемы также можно использовать масштабирование.


Список литературы

  1. Барцев С.И., Гилев С.Е., Охонин В.А. Принцип двойственности в организации адаптивных сетей обработки информации // Динамика химических и биологических систем. Новосибирск: Наука, 1989, стр.6-55.
  2. Барцев С.И., Охонин В.А. Адаптивные сети обработки информации. Красноярск : Ин-т физики СО АН СССР, 1986. Препринт N 59Б. - 20с.
  3. Барцев С.И. Некоторые свойства адаптивных сетей (Программная реализация). Красноярск: Ин-т физики СО АН СССР, 1987. Препринт No.71Б. - 17 с.
  4. Биотехника - новое направление компьютеризации/ Ю.К. Ахапкин, С.И. Барцев, Н.Н. Всеволодов и др. - М.: Наука, 1990. - 144 с.
  5. Гилл Ф., Мюррей У., Райт М. Практическая оптимизация. - М.: Мир, 1985. - 509 c.
  6. Горбань А.Н. Обучение нейронных сетей. М.: СП ПараГраф. 1991.
  7. Евтихиев Н.Н., Оныкий Б.Н., Перепелица В.В., Щербаков И.Б. Математические модели и оптические реализации многослойных и полиномиальных нейронных сетей. М.: Препринт/МИФИ, 004-94, 1994. - 32 с.
  8. Евтихиев Н.Н., Оныкий Б.Н., Перепелица В.В., Щербаков И.Б. Многослойная нейронная сеть и ее реализация на основе оптического вектор-матричного перемножителя // Нейрокомпьютер, No.1-2, 1994.
  9. Уоссермен Ф. Нейрокомпьютерная техника : Теория и практика. М.: Мир. 1992.
  10. Ackley D.H., Hinton G.E., Sejnowski T.J. A Learning Algorithm for Boltzmann Machines. Cognitive Science, 9, 1985, pp. 147-169.
  11. Almeida L.B. A learning rule for asynchronous perceptrons with feedback in a combinatorial environment. Proc. 1st IEEE Intl. Conf. on Neural Networks, vol. 2, pp. 609-618, San Diego, CA, June 1987.
  12. Burr D.J. Experiments with a connectionist text reader. In Proceddings of the IEEE First International Conference on Neural Networks, eds. Caudill M., Butler C. vol 4, 1987, pp. 717-724. San Diego, CA: SOS Printing.
  13. Cottrell G.W., Munro P. and Zipser D. Learning Internal Representation from Gray-Scale Images: An Example of Extensional Programming. In Proc. 9th Annual Conference of the Cognitive Science Society, 1987, pp. 461-473.
  14. Dennis J., Schnabel R. Numerical Methods for Unconstrained Optimization and Nonlinear Equations. Englewood Cliffs, NJ: Prentice-Hall, 1983.
  15. Gilev S.E., Gorban A.N., Mirkes E.M. Several methods for acceleration the training process of neural networks in pattern recognition. USSR Academy of Sciences, Siberian Branch, Institute of Biophysics, Krasnoyarsk, 1990. Preprint N 146Б.
  16. Gorman R.P., Sejnowski T.J. Analysis of Hidden Units in a Layered Network Trained to Classify Sonar Targets. Neural Networks, 1, pp.75-89.
  17. Guyon I., Poujaud I., Personnaz L., Dreyfus G., Denker J. and Le Cun Y. Comparing different neural network architectures for classifying handwritten digits. In Proc. IEEE Int. Joint Conf. Neural Networks, June 1989.
  18. Hecht-Nielsen R. Theory of the backpropagation neural network // International joint conference on neural networks, Sheraton Washington Hotel, Washington D.C., June 18-22, vol. 1, 1989, p. 593-606.
  19. Jones W.P., Hoskins J. Back-Propagation, A Generalized Delta Learning Rule. BYTE Magazine. Oct. 1987.
  20. Jordan M. Generic constraints on underspecified target trajectories. In Proc. IEEE Int. Joint Conf. Neural Networks, June 1989.
  21. Kawato M. Computational schemes and neural network models for formation and control of multijoint arm trajectory. In W.T. Miller, R. Sutton, and P. Werbos, Eds. Neural Networks for Robotics and Control. Cambridge, MA: M.I.T. Press, 1990.
  22. Lippman R.P. An introduction to computing with neural nets // IEEE ASSP Magazine. Apr. 1987. P.4-22.
  23. Muller B., Reinhardt J. Neural networks. Springer- -Verlag. 1990. 267 p.
  24. Narendra K.S., Parthasarathy K. Identification and control of dynamical systems using neural networks. IEEE Trans. Neural Networks, vol.1, pp.4-27, Mar. 1990.
  25. Narendra R. Adaptive control using neural networks. In W.T. Miller, R. Sutton, and P. Werbos, Eds. Neural Networks for Robotics and Control. Cambridge, MA: M.I.T. Press, 1990.
  26. Neural Computing: NeuralWorks Professional II/Plus and NeuralWorks Explorer. NeuralWare, Inc., 1991. 355 p.
  27. Nguyen D., Widrow B. The truck backer-upper: An example of self-learning in neural networks. In W.T. Miller, R. Sutton, and P. Werbos, Eds. Neural Networks for Robotics and Control. Cambridge, MA: M.I.T. Press, 1990.
  28. Pearlmutter B. Learning state space trajectories in recurrent neural network. In Proc. 1988 Connectionist Models Summer School, D. Touretzky, G. Hinton, and T. Sejnowski, Eds. June 17-26, 1988, pp. 113-117. San Mateo, CA: Morgan Kaufmann. And in Proc. Int. Joint. Conf. Neural Networks, June 1989.
  29. Pineda F.J. Generalization of backpropagation to reccurent neural networks. In Phys. Rev. Lett., vol. 18, pp. 2229-2232, 1987.
  30. Pineda F.J. Generalization of backpropagation to reccurent and higher order networks. In Proc. IEEE Conf. Neural Inform. Processing Syst., 1987, and in Neural Information Processing Systems, ed. D.Z. Anderson, pp. 602-611. New York: American Institute of Phisycs. 1988.
  31. Rosenberg C.R. Revealing the structure of NETtalk's Internal Representations. In Proc. 9th Annual Conference of the Cognitive Science Society, 1987, pp. 537-554.
  32. Rumelhart D.E., Hinton G.E., Williams R.J. Learning Internal Representations by Error Propagation. In Parallel Distributed Processing, vol. 1, pp. 318-362. Cambridge, MA, MIT Press. 1986.
  33. Rumelhart D.E., Hinton G.E., Williams R.J. Learning Representations by Back-propagating Errors, Nature vol. 323, p. 533. 1986.
  34. Sawai H., Waibel A., Haffner P., Miyatake M. and Shikano K. Parallelism, hierarchy, scaling in time-delay neural networks for spotting Japanese phonemes/ CV-syllables. In Proc. IEEE Int. Joint Conf. Neural Networks, June 1989.
  35. Sejnowski T.J, Rosenberg C.R. Parallel Networks that Learn to Pronounce English Text. Complex Systems, 1, 1987, p.145-168.
  36. Shanno D. Conjugate-gradient methods with inexact searches. Math. Oper. Res., vol. 3, Aug. 1978.
  37. Shanno D. Recent advances in numerical techniques for large-scale optimization. In W.T. Miller, R. Sutton, and P. Werbos, Eds. Neural Networks for Robotics and Control. Cambridge, MA: M.I.T. Press, 1990.
  38. Stornetta W.S., Huberman B.A. An improved three-layer, backpropagation algorithm. In Proceedings of the IEEE First Conference on Neural Networks, eds. M. Caudill and C. Butler. San Diego, CA: SOS Printing. 1987.
  39. Wasserman P.D. Combined backpropagation/ Cauchy machine. Proceedings of the International Neural Network Society. New York: Pergamon Press. 1988.
  40. Wasserman P.D. Experiments in transtating Chinese characters using backpropagation. Proceedings of the Thirty-Third IEEE Computer Society International Conference. Washington, D.C.: Computer Society Press of the IEEE. 1988.
  41. Watrous R., Shastri L. Learning phonetic features using connectionist networks: an experiment in speech recognition. In Proc. 1st IEEE Int. Conf. Neural Networks, June 1987.
  42. Werbos P. Applications of advances in nonlinear sensitivity analysis. In R. Drenick and F. Kozin, Eds., Systems Modelling and Optimization: Proc. 10th IFIP Conf. (1981). New York: Springer-Verlag, 1982.
  43. Werbos P. Learning how the word works: Specifications for predictive networks in robots and brains. In Proc. 1987 IEEE Int. Conf. Syst., Ma, Cybern., 1987.
  44. Werbos P. Consistency of HDP applied to a simple reinforcement learning problem. Neural Networks, Mar. 1990.
  45. Werbos P. Generalization of backpropagation with application to a recurrent gas market model, Neural Networks, Oct. 1988.
  46. Werbos P.J. Backpropagation through time: what it does and how to do it // Proceedings of the IEEE, vol. 78, No. 10, October, 1990, p. 1550-1560.
  47. Werbos P. Maximizing long-term gas industry profits in two minutes in Lotus using neural networks methods. IEEE Trans. Syst., Man, Cybern., Mar./Apr. 1989.
  48. Widrow B., Lehr M.A. 30 years of adaptive neural networks: perceptron, madaline, and backpropagation // Proceedings of the IEEE, vol. 78, No. 9, September, 1990, p. 1415-1442.
  49. Williams R. Adaptive state representation and estimation using recurrent connectionist networks. In W.T. Miller, R. Sutton, and P. Werbos, Eds. Neural Networks for Robotics and Control. Cambridge, MA: M.I.T. Press, 1990.


smallogo При использовании информации, находящейся на данной странице, вы обязаны ссылаться на следующую работу:

Отчет по научно-исследовательской работе "Создание аналитического обзора информационных источников по применению нейронных сетей для задач газовой технологии"; Копосов А.И., Щербаков И.Б., Кисленко Н.А., Кисленко О.П., Варивода Ю.В. и др., ВНИИГАЗ, 1995.