Сделать стартовой

Добавить в избранное

Карта сайта

Портал БЕЗПЕКА: Все об IT-безопасности



Навигация

Microsoft Certified Partner


Подписка на рассылки

Партнеры

Безопасность для всех CCTV Ukraine
Русские времена. Язык - душа народа.

Биометрическая аутентификация и нейронные сети

20 Мая 2005 | 14:00 Версия для печати Обсудить на форумеКомментарии: 0

Быстрое обучение искусственных нейронных сетей в системах биометрической аутентификации
Иванов А.И.
Иванов А.И. E-mail: ivan@beda.stup.ac.ru
Докторант Пензенского государственного университета

Представляемая Вашему вниманию работа проводится в Пензенском государственном университете на кафедре "Автономные информационные и управляющие системы" в период с ноября 1998 по настоящий момент и является темой диссертационной работы на соискание ученой степени доктора технических наук по специальностям 05.13.01 – "Управление в технических системах" и 05.13.19 – "Методы и системы защиты информации, информационная безопасность".

Актуальность темы обусловлена тем, что проблемы автоматического узнавания личности человека обостряются в связи с активной информатизацией современного общества. Отмечается непрерывный рост объемов торговли в среде Internet, а также тенденция принятия юридически значимых решений на аудио-видео Internet конференциях. Возникают ситуации, когда люди вынуждены иметь дело только с виртуальными образами своих партнеров, и нуждаются в гарантиях соответствия виртуальных образов партнера реальному человеку со значимыми полномочиями.На сегодняшний момент в открытых информационных пространствах действительно надежными являются только криптографические протоколы аутентификации. Получается, что при вовлечении в Internet-торговлю большого числа людей, все они должны столкнуться с необходимостью корректного выполнения криптографических операций в открытом информационном пространстве и необходимостью обеспечить надежное хранение своих личных ключей в слабо защищенном личном пространстве (в малом офисе, дома, при себе).Необходимо отметить, что криптография способна обеспечивать, соответствующий уровень гарантированной безопасности в открытом информационном пространстве, однако она неудобна для подавляющего большинства пользователей. Подавляющее большинство пользователей халатно относятся к процедурам безопасного хранения криптографических ключей, считая эти процедуры нудными, неудобными, излишне жесткими.Ожидается, что криптографические операции и операции надежного хранения личных ключей будут автоматизированы. Появятся криптографические автоматы (аппаратные или чисто программные), которые должны быть способны с высокой вероятностью узнавать своего хозяина, с еще большей вероятностью распознавать злоумышленников. Основной задачей подобных автоматов является надежное хранение секретов своего хозяина и корректное использование этих секретов в слабо защищенной среде.В настоящее время, как в России, так и за рубежом активно развивается специальное научно-техническое направление – биометрия. Одной из важнейших задач биометрии является создание технических устройств, способных узнавать конкретного человека по его динамике рукописного почерка, голосу, рисунку кровеносных сосудов на руке или на поверхности глазного дна, радужной оболочке глаз, рисунку кожных покровов (пальцев, ладоней), геометрическим параметрам частей тела (руки, лица, ушей). За последние 30 лет развития этого типа технологий удалось создать технические устройства, способные работать много быстрее и надежнее экспертов-людей. Это становится возможным в силу того, что биометрические устройства располагают большими объемами плохо формализуемой конкретной биометрической информации, в то время как эксперт-человек способен использовать только малые объемы хорошо формализованных знаний в виде утвержденных методик криминалистики. На плакате 1 приведены основные результаты диссертационной работы, выдвигаемые на защиту.

Плакат 1

БЫСТРОЕ ОБУЧЕНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ В СИСТЕМАХ БИОМЕТРИЧЕСКОЙ АУТЕНТИФИКАЦИИ
Основные результаты
  1. Показано, что симметризация ядер Вольтерра при их аппроксимации позволяет сделать задачу идентификации одномерной или двумерной, независимо от порядка восстанавливаемого ядра.
  2. Разработан и обоснован метод быстрого и устойчивого обучения нелинейных нейронных сетей. Снижена вычислительная сложность обучения до квадратичной, снято ограничение на число слоев обучаемой нейросети.
  3. Разработан табличный метод прогноза качества обучения искусственных нейронных сетей биометрических систем.
  4. Предложено получать ключ пользователя из его тайного биометрического образа большой расширяющейся нейронной сетью. Исключена опасная процедура хранения ключей.


На сегодняшний день используется достаточно много биометрических технологий. На плакате 2 даны таблицы отражающие стоимость и эффективность биометрических систем разного типа. В таблице 1 даны параметры биометрических систем, построенных на использовании статических открытых (не тайных) биометрических образов. Этот тип систем достаточно дорог и малоэффективен в связи с тем, что их можно атаковать, предъявляя муляжи (открытых) публичных биометрических образов личности. Кроме того, этот тип систем нуждается в физической защите и не обеспечивает анонимности пользователя биометрией. В таблице 2 приведены показатели биометрических систем, построенные на анализе динамических биометрических образов. Этот тип образов может быть сохранен пользователем в тайне, что позволяет резко снизить вероятности ошибок второго рода. Заметим, что в тайне проще всего сохранять рукописно воспроизводимое слово пароль. Для аналогичных систем, построенных на анализе голоса, сохранить в тайне парольную фразу труднее. Подчеркнем, что стоимость систем динамической биометрии крайне низка в случае, когда они используют стандартные (уже имеющиеся на компьюторе) средства мультимедиа для ввода биометрической информации.

Плакат 2

МЕТОДЫ БИОМЕТРИЧЕСКОЙ АУТЕНТИФИКАЦИИ ЛИЧНОСТИ
Измеряемые параметры Ошибка -Р1 Ошибка -Р2 Стоимость
Рисунок кожных покровов пальцев рук, ладоней. 0.05 10-6 $200
Рисунок кровеносных сосудов глазного дна 0.01 10-9 $5000
Рисунок кровеносных сосудов кисти руки 0.05 10-4 $2000
Радужная оболочка глаз 0.05 10-5 $2000
Геометрия руки 0.02 10-3 $500
Геометрия лица 0.05 10-2 $300
Термограмма лица 0.02 10-3 $5000
Запах тела. Генотип. Следы пота. ?
?
?
?
?
?
?
?
?


Объяснением того, на чем базируется работоспособность систем динамической биометрии, является изначальная сложность (избыточность) механических приводов человека. Человек, взяв в руку шар, перемещает его в трехмерном пространстве механизмом руки, имеющим порядка 50 степеней свободы (50 мышц управления). Эта ситуация отображена на рисунке 1 плаката 3. У нас нет возможности решать в реальном времени задачи 50-мерные управления своими руками и ногами. Мы вынуждены пользоваться готовыми подпрограммами управления отработанными в глубоком детстве, когда мы учились ходить и хватать. Природа устроена так, что на обучение первичным навыкам уходят огромные вычислительные ресурсы, и человек по своей воле не может переобучаться. Он вынужден всю жизнь пользоваться однажды выработанной походкой, почерком, манерой говорить. Заметим, что скорость хорошо выученных движений у человека очень велика. Мы можем делать заученные движения руками быстрее, чем видим и осознаем эти движения. Но как только мы переходим к незнакомым движениям, скорость их выполнения ощутимо падает. Это отображено на рисунке 2 плаката 3 и широко используется системами динамической биометрии.Пока мы управляем спиной и копчиком движения быстры и стабильны, однако как только вмешивается высокий интеллект, движения прекращаются на время принятия решения. Эта характерная ситуация отображена на рисунке 3 плаката 3.

ПЛАКАТ 3.

ОСОБЕННОСТИ ДИНАМИКИ ХОРОШО ЗАУЧЕННЫХ ПОДСОЗНАТЕЛЬНЫХ ДВИЖЕНИЙ

Рис. 1. Многомерная механическая модель управления человеком положением материальной точки в пространстве (для почерка n 10)

Рис. 2. Колебания пера Y(t) автора и злоумышленника, обводящего подпись.

Рис. 3. Эффект "сороконожки", интеллект прерывает программу управления



Объяснением того, на чем базируется работоспособность систем динамической биометрии, является изначальная сложность (избыточность) механических приводов человека. Человек, взяв в руку шар, перемещает его в трехмерном пространстве механизмом руки, имеющим порядка 50 степеней свободы (50 мышц управления). Эта ситуация отображена на рисунке 1 плаката 3. У нас нет возможности решать в реальном времени задачи 50-мерные управления своими руками и ногами. Мы вынуждены пользоваться готовыми подпрограммами управления отработанными в глубоком детстве, когда мы учились ходить и хватать. Природа устроена так, что на обучение первичным навыкам уходят огромные вычислительные ресурсы, и человек по своей воле не может переобучаться. Он вынужден всю жизнь пользоваться однажды выработанной походкой, почерком, манерой говорить. Заметим, что скорость хорошо выученных движений у человека очень велика. Мы можем делать заученные движения руками быстрее, чем видим и осознаем эти движения. Но как только мы переходим к незнакомым движениям, скорость их выполнения ощутимо падает. Это отображено на рисунке 2 плаката 3 и широко используется системами динамической биометрии. Пока мы управляем спиной и копчиком движения быстры и стабильны, однако как только вмешивается высокий интеллект, движения прекращаются на время принятия решения. Эта характерная ситуация отображена на рисунке 3 плаката 3. На плакате 4 представлены кривые колебания пера при рукописном воспроизведения парольного слова "Пенза". На этом же плакате представлена блок-схема системы биометрической аутентификации личности по динамике воспроизведения рукописного слова-пароля ( рисунок 7 плаката 4). При создании подобных биометрических систем можно пойти двумя путями. Первый путь состоит в использовании классического решающего правила. Второй путь состоит в замене этого решающего правила искусственной нейронной сетью. Особый интерес представляет использование больших расширяющихся нейронных сетей с числом выходов больше, чем число входов. Такой тип нейронных сетей можно использовать для синтеза личного криптографического ключа пользователя из его тайного биометрического образа. Такого типа системы позволяют отказаться от опасной процедуры хранения личных криптографических ключей на дискетах и в компьютерах. Ключ нигде не хранится, он синтезируется пользователем по мере необходимости.

ПЛАКАТ 4.

ДИНАМИКА РУКОПИСНОГО ПОЧЕРКА

Рис. 4. Траектория начертания слова-пароля.

Рис. 5. График зависимости Y(t)- колебаний пера по вертикали.

Рис. 6. График зависимости X(t) - горизонтальных колебаний пера

Рис. 7. Блок-схема системы биометрической аутентификации



На плакате 5 отображена ситуация криптографической аутентификации в открытом информационном пространстве (в Internet). Символически изображен один и тот же человек, пользующийся старой и новой технологией аутентификации. Пользуясь старой технологией, человек недоволен, так как он лишен мобильности и привязан к сейфу или к первому отделу, где хранится ключевая дискета. Пользуясь новой технологией может доказать свою аутентичность с любого компьютера. Для этого пользователю достаточно скачать со своего сайта стандартный модуль измерения биометрических параметров и, открыто хранящийся, нейросетевой синтезатор его личного криптографического ключа. Сама криптографическая процедура аутентификации обычна и построена с использованием протоколов асимметричной криптографии, использующих пару ключей: открытый (публичный) ключ и секретный (личный) ключ пользователя. Секретный личный ключ пользователя при необходимости генерируется искусственной нейронной сетью. Открытый ключ заранее размещается в публично доступные Internet-справочники. Целостность справочников должна быть кем-то гарантирована. Например, целостность может быть обеспечена государством, банком пользователя, различными сертификационными агенствами, нотариусом...

ПЛАКАТ 5.

В ОТКРЫТОМ ИНФОРМАЦИОННОМ ПРОСТРАНСТВЕ

Рис. 8. Процедуры криптографической аутентификации с использованием личного и открытого (публичного) ключа

В силу того, что нейросеть, созданная для синтеза (вспоминания) личных ключей пользователя должна храниться и пересылаться открыто она должна быть большой (иметь много нейронов) и многослойной. Можно говорить о том, что большая сеть искусственных нейронов должна быть широкой (иметь десятки входов и выходов) и глубокой (иметь десятки слоев). Только для больших сетей (широких и глубоких) задача криптоанализа становится сложнее задачи прямого перебора криптографических ключей. Главная проблема состоит в том, что существующие сегодня методы обучения искусственных нейронных сетей крайне медленны и неустойчивы. Причина неустойчивости (зацикливания) и низкого быстродействия существующих методов обучения в их итерационности. В свою очередь причиной итерационности существующих методов обучения нейронных сетей является их нелинейность. Сегодня мы не можем решать многомерные нелинейные задачи (нам доступны только многомерные линейные задачи - матричное исчисление). Например, системы линейных уравнений мы легко решаем не итерационными методами (метод Гаусса, методы ортогонального разложения матриц, минимум среднего квадрата для переопределенных систем). Системы же нелинейных уравнений мы можем решать только итерационными методами. Cитуация характерная для всех итерационных методов обучения отображена на рисунке 9 плаката 6. На этом рисунке отображена петля обратной связи по достигнутому итерациями качеству обучения. Заметим, что все итерационные процедуры обучения искусственных нейронных сетей есть не что иное как некоторые процедуры сокращенного не полного перебора возможных сочетаний настраиваемых параметров сети. Предельный случай полного перебора всех возможных параметров настраиваемой сети серьезно никто не рассматривает, так как этот метод зачастую требует затрат в несколько десятков лет машинного времени (зато полный перебор абсолютно устойчив и не может зацикливаться). Подчеркнем, что для всех итерационных методов обучения их вычислительная сложность не нормируется. Она зависит от качества материала, на котором производится обучение сети. Для очень хороших, легко разделимых, примеров итерационные методы обучения быстры, однако, по мере ухудшения качества исходного материала, затраты вычислительных ресурсов на обучение быстро растут. При очень низком качестве примеров учебника все итерационные методы начинают зацикливание (затраты времени равны бесконечности) и оказываются хуже полного перебора всех возможных сочетаний. Связь вычислительной сложности итерационного метода с качеством примеров отображена на рисунке 10 плаката 6. Кривые рисунка 10 соответствуют двум разным процедурам итерационного решения системы одной и той же системы линейных уравнений. Суть решаемой проблемы состоит в том, что биометрические данные имеют очень плохое качество (их много, но качество плохое), что отображено на рисунке 10 пунктиром (интервал по оси качества от 0 до пунктирной линии). Если попытаться обучить на таких данных большую нейронную сеть (например, методом обратного распространения ошибок), то обучение займет несколько часов машинного времени. В итоге биометрические системы с нейронными сетями оказываются не конкурентноспособными. Примерно такие же биометрические системы с классическими решающими правилами (например, Российская система "Рубеж") обучаются примерно за одну минуту машинного времени на той же обучающей выборке из 20...30 примеров. Для того, чтобы биометрия с нейросетями стала конкурентноспособной, необходимо создать новые методы быстрого обучения искусственных нейронных сетей. Этот новый тип процедур обучения не может быть итерационным (необходимо разорвать петлю обратной связи см. рис. 9), что одновременно должно привести к росту устойчивости вычислительных процедур. При отказе от итерационных вычислений исчезает вероятность их зацикливания, соответственно, исчезает ситуация бесконечного времени поиска решения, что сильно упрощает синтез автомата обучения.

ПЛАКАТ 6.

ПРОБЛЕМЫ ОБУЧЕНИЯ ИСКУССТВЕННЫХ
Полный перебор дает 200900 сочетаний параметров при шаге 1%, диапазоне ± 100%, для сети из 3 слоев со 100 входами в каждом слое.

Рис. 9. Появление петли обратной связи в методах направленного перебора сочетаний параметров

Рис. 10. Влияние качества входных данных на сложность процедуры обучения при направленном переборе сочетаний.


Отметим, что одной из причин отсутствия на сегодня быстрых алгоритмов обучения искусственных нейронных сетей является отсутствие для них хорошо развитого аналитического аппарата. Проблема состоит в том, что все быстрые вычислительные алгоритмы в той или иной степени построены на использовании свойств симметрии. Без хорошо развитого аналитического аппарата нельзя увидеть в нейронных сетях симметрию и воспользоваться ею для сокращения вычислений. Исходя из вышеизложенного, для описания нейрона воспользуемся хорошо изученным аппаратом рядов Вольтерра. На рисунке 11 плаката 7 изображен искусственный нейрон, используемый для анализа формы сигнала x(t), с входной линией задержки (характерной для цифровых фильтров). Известно, что такие структуры хорошо описываются рядом Вольтерра (формула (1) на плакате 7).Стремление привлечь для описания нейросетей аппарата многомерных функциональных рядов Вольтерра обусловлено двумя вескими причинами. Во-первых этот аппарат хорошо изучен, во-вторых задача идентификации ядер Вольтерра и задача обучения нейронных сетей - это эквивалентные задачи из двух близких областей знаний. При идентификации ядер Вольтерра мы по заданным реализациям сигналов вход/выход восстанавливаем параметры соответствующих ядер. То же самое происходит и при обучении нейронной сети. Отличие только в одном – в место наблюдения откликов сети во времени мы придумываем эти отклики (искусственно приравниваем их нулю или единице, опираясь на знания (или заблуждения) экспертов). В силу того, что задача идентификации ядер Вольтерра является многомерной и размерность этой задачи растет пропорционально порядку восстанавливаемого ядра, накоплен значительный опыт по упрощению вычислений. Имеет смысл перенести этот уже имеющийся опыт на теорию настройки искусственных нейронных сетей. По сути дела все упрощения, на которых построены быстрые процедуры идентификации ядер Вольтерра, используют то, что ядра Вольтерра всегда могут быть симметризованы. Все линейные динамические системы изначально обладают однородной симметрией пространства вход/выход. Нелинейные динамические системы шире линейных, но однородной симметрией пространства они не обладают, что и приводит к вычислительным сложностям. Однако всегда можно симметризрвать нелинейную динамическую систему, добившись неоднородной симметрии ядер Вольтерра. На рисунке 12 плаката 7 схематично изображены соотношения между свойствами симметрии нелинейных и линейных динамических систем.

ПЛАКАТ 7.


ИСПОЛЬЗОВАНИЕ АППАРАТА ФУНКЦИОНАЛЬНЫХ РЯДОВ ВОЛЬТЕРРА

Рис. 11. Фрагмент нейронной сети, созданной для анализа формы сигналов изменяющихся во времени

где аk(1,2,...,k) – многомерное ядро Вольтерра k-го порядка, Тk – конечное время памяти линейной динамической части.

Рис. 12. Топология взаимных соответсвий свойств симметрии



На рисунке 13 плаката 8 отражены процедуры симметричной аппроксимации ядер Вольтерра, используемых при идентификации ядер Вольтерра высоких порядков. Все процедуры аппроксимации построены на предположении о симметричности восстанавливаемого ядра. Если пренебречь нелинейными свойствами объекта идентификации, то мы будем иметь процедуры статистической и гармонической линеаризации. Естественно, что аппроксимация линеаризацией дает значительные погрешности. В силу этого имеет смысл переходить к аппроксимации ядер простейшими моделями Гаммерштейна и Винера. Дальнейшее повышение точности идентификации связано с использование моделей Гаммерштена-Винера и Винера-Гаммерштейна. Заметим, что в рамках аппроксимации ядер этими моделями все вычисления остаются одномерными и, как следствие, удается восстанавливать ядра Вольтерра до 90 порядка. Дальнейшее повышение точности идентификации сопряжено с переходом к двухмерной аппроксимации ядер Вольтерра и использованию псевдодвумерных базисных функций Гаммерштейна-Винера и Винера-Гаммерштейна. Задачу идентификации многомерных ядер Вольтерра удается сделать практически вычислимой, только проходя отображенные на рисунке 13 этапы. Можно предположить, что и другую задачу – настройки больших нейронных сетей можно существенно ускорить, построив соответствующие аналогии этих этапов в нейроинформатике.

ПЛАКАТ 8.


ПОНИЖЕНИЕ РАЗМЕРНОСТИ ЗАДАЧИ ИДЕНТИФИКАЦИИ ЯДЕР ВОЛЬТЕРРА.

Рис. 13. Генетическая связь извесных на сегодня методов понижения размерности задачи идентификации ядер Вольтерра.



На плакате 9 рисунки 14, 15, 16, 17 отображают структуры простейших (не параллельных) нелинейных динамических моделей. Модели Гаммерштейна (рисунок 15) получаются приведением всех нелинейных свойств объекта идентификации ко входу. Соответственно динамические свойства объекта идентификации в моделях Гаммерштейна оказываются приведенными к выходу. Модели Винера получаются приведением динамических свойств объекта идентификации ко входу. На выходе этого типа моделей оказываются неизвестные нелинейные элементы. Модели Гаммерштейна-Винера получаются последовательным соединением простейшей модели Гаммерштейна и следующей далее простейшей модели Винера. При этом в центре соединения оказываются два линейных динамических блока, которые могут быть слиты в один центральный линейный динамический блок (плакат 9, рисунок 16.). Модель Винера-Гаммерштейна получается изменением последовательности соединения элементарных моделей Винера и Гаммерштейна. Для этого типа моделей в центре оказываются два нелинейных элемента. Два неизвестных центральных нелинейных элемента имеет смысл объединить в один элемент, что упрощает вычисления. Главной особенностью всех отображенных на плакате 9 моделей является то, что все они имеют симметричные ядра Вольтерра. Использование этого типа моделей при идентификации упрощает вычисления и равносильно проведению симметризации восстанавливаемых ядер Вольтерра.

ПЛАКАТ 9.


ПРИНЦИПЫ СИНТЕЗА БАЗОВЫХ МОДЕЛЕЙ

Рис. 14. Линеаризованная модель

Рис. 15. Последовательные модели, полученные приведением нелинейных свойств ко входу и выходу

Рис. 16. Последовательная модель, полученная соединением моделей Гаммерштейна и Винера

Рис. 17. Последовательная модель, полученная соединением моделей Винера и Гаммерштейна



Важное для практики значение имеет то, что в моделях Гаммерштейна может присутствовать гистерезисный нелинейный элемент (нелинейный элемент с бесконечной памятью). На плакате 10 изображена симметричная гистерезисная нелинейность и модель Гаммерштейна с этого типа нелинейным элементом. Важность учета эффектов гистерезиса обусловлена тем, что такие нелинейные элементы встречаются повсеместно (механический гистерезис, магнитный гистерезис, сегнетоэлектрический гистерезис). Заметим, что сегодня использование гистерезисных нелинейных элементов в искусственных нейронных сетях не практикуется (таких работ мной не обнаружено), однако в будущем подобная практики, видимо, будет существовать. Необходимость в использовании гистерезисных нелинейностей, видимо, появится в динамических нейронных сетях. Если динамическая сеть с обратными связями неустойчива (начинает самовозбуждаться и генерировать некоторый периодический процесс), то сделать ее абсолютно устойчивой можно, введя гистерезис. Устойчивость монотонно возрастает при расширении петли гистерезиса (происходит сдвиг фаз колебаний в нужную для устойчивости системы сторону, например, по критерию Ляпунова). Отметим, что реальные нейронные сети у живых существ не могут находиться в устойчивом состоянии покоя (в статике). Они находятся в режиме непрерывных колебаний. Добиться режима непрерывных колебаний можно даже для абсолютно устойчивой сети с обратными связями, если ввести нелинейные элементы с отрицательным гистерезисом (сдвиг фаз колебаний в обратную сторону, гистерезис не поглощает энергию, как обычно, а выдает ее наружу).

ПЛАКАТ 10.

МОДЕЛИ С ГИСТЕРЕЗИСНЫМИ НЕЛИНЕЙНЫМИ ЭЛЕМЕНТАМИ

Рис. 18. Гистерезисная нелинейность
(нелинейный элемент с бесконечной памятью)

Рис. 19. Модель нелинейного динамического объекта, учитывающая гистекрезис нелинейного элемента


Естественно, что простейшие модели, изображенные на плакате 9 не могут давать достаточно точной аппроксимации ядер Вольтерра. Они должны быть обобщены на параллельные модели с разными динамическими линейными элементами и разными нелинейными элементами. Подобные обощения приводят к появлению параллельных моделей Гаммерштейна и Винера, изображенных на плакате 11. Совокупность таких параллельных моделей уже полна и может описывать объект идентификации с любой заданной точностью. При этом число параллельных моделей Винера и Гаммерштейна и порядок их ядер не ограничивается.

ПЛАКАТ 11.

ПАРАЛЛЕЛЬНЫЕ МОДЕЛИ (ОБОБЩЕННЫЕ СТЕПЕННЫЕ РЯДЫ)

Рис. 20. Разложение параллельной модели Гаммерштейна в обобщенный степенной ряд

Рис. 21. Разложение параллельной модели Винера в обобщенный степенной ряд



Возможность получения достаточно точных результатов идентификации можно интерпретировать как апроксимацию восстанавливаемых ядер Вольтерра по нескольким сечениям. Очевидно, что независимо от порядка восстанавливаемого ядра Вольтерра наблюдение любого его сечения является одномерной задачей. Этот факт иллюстрируется рисунком 22 плаката 12. После симметризации восстанавливаемого ядра можно положить все переменные одинаковыми и одновременно менять их. В этом случае мы будем наблюдать сечение восстанавливаемого ядра по главной диагонали. Все модели Гаммерштейна имеют вырожденные ядра Вольтерра с не нулевой главной диагональю и нулями вне ее. Ядра Вольтерра моделей Гаммерштейна вырожденны (не полны) и из-за этого модели Гаммерштейна всегда проще для идентификации. Если к любой из переменных симметричного ядра добавить константу – с, то мы будем наблюдать одно из сечений восстанавливаемого ядра расположенного параллельно главной диагонали. Если любую из переменных симметричного ядра зафиксировать (прировнять константе – с), то мы будем наблюдать одно из сечений восстанавливаемого ядра расположенное параллельное осям координат. Алгоритмы идентификации по нескольким сечениям восстанавливаемого ядра всегда одномерны, но их трудно реализовать при учете более трех сечений. Модель изображенная на рисунке 23 учитывает ровно три сечения восстанавливаемого ядра. Строить более сложные модели, совпадающие в большем числе сечений трудно. Необходим переход от аппроксимации ядер по нескольким сечениям к двухмерной аппроксимации поверхности восстанавливаемого ядра по критерию минимума среднеквадратической ошибки. Необходимость отказа от аппроксимации по сечениям диктуется предельной теоремой Колмогорова А.Н "О представлении непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одного переменного". По этой теореме при восстановлении ядер Вольтерра высоких порядков нужно учитывать достаточно много сечений (трех сечения совершенно недостаточно).Заметим, что на практике всегда нужно брать большее, чем указал Колмогоров число сечений (число одномерных функций аппроксимации). В этом плане теорема Колмогорова для восстановления многомерных функции играет примерно туже роль, какую теорема Котельникова играет при выборе числе отсчетов, восстанавливаемой одномерной функции (по Котельникову необходимо больше двух отсчетов на период самой высокой частоты в восстанавливаемом сигнале). Заметим, что переход к двухмерной аппроксимации поверхности многомерных ядер Вольтерра не противоречить предельной теореме Колмогорова. Любая двухмерная функции включает в себя бесконечное число сечений и, соответственно, может быть использована при аппроксимации ядер Вольтерра любого порядка. Формальный переход к двухмерной аппроксимации осуществляется введением бесконечного числа близко расположенных сечений. Формальный переход от аппроксимации по совпадению в сечениях к двухмерной аппроксимации производится заменой константы "с" (рисунок 22 плаката 12) на некоторую непрерывную переменную - . Тогда ядро ак(+,,...,)имеет смысл рассматривать как двухмерную функцию некоторых модифицированных переменных - ак(,), где=+, - переменная, отражающая одновременное одинаковое изменение всех остальных переменных исходного многомерного ядра.

ПЛАКАТ 12.

ВОССТАНОВЛЕНИЕ ЯДЕР ПО ИХ НЕСКОЛЬКИМ СЕЧЕНИЯМ (одномерная симметризация)

Рис. 22. Варианты сечений ядер Вольтерра задача наблюдения, которых оказывается одномерной

ak(1,2,3,...,k)=>ak(,,,...,) = ak() при 1=2=...=k (главная диагональ);
ak( 1, 2, 3,...,k) => ak( ,+с,,...,) = ak( ) при 1=2-с=...=k(диагональ параллельная главной);
ak(1,2,3,...,k) => ak(с,,,..., ) = ak( ) при 1=с, 2=3=...= k(диагональ параллельная осям 2,3,...,k);

Рис. 23. Аппроксимация ядра Вольтерра k-го порядка, совпадающая с истинным ядром в трех сечениях.



Для двухмерной аппроксимации ядер Вольтерра необходимо синтезировать специальные базисные функции, которые с одной стороны являются псевдодвухмерными, а с другой стороны являются псевдомногомерными. Эта задача вполне реализуема технически. На плакате 13 отображены два простейших способа синтеза подобных базисных функций. Первый способ формирования таких базисных функций сводится к перераспределению нелинейных свойств между входом и выходом модели Гаммерштейна-Винера. Он иллюстрируется рисунком 24. Входной и выходной нелинейные элементы этой модели должны выбираться таким образом, чтобы их последовательное соединение точно давало параболу степени – k. Меняя индексы степени входной нелинейности - i в пределах от 1 до мы получаем некоторый псевдодвухмерный базис. При i=1 мы имеем модель Винера. При i=k получается точная модель Гаммерштейна (fik(.)=(.)1). Вторым способом формирования псевдодвухмерного базиса является перераспределение памяти между входом и выходом модели Винера-Гаммерштейна. Эта ситуация отображена на рисунке 25 плаката 13. Когда входной линейный блок не имеет динамических свойств (он безынерционен и его память равна нулю), тогда мы имеем модель Винера. Если вся память динамической системы сосредоточена на входе (выходной блок безынерционен), то мы имеем модель Гаммерштейна. Принципиальным выводом из всего выше сказанного является то, что задачи идентификации ядер Вольтерра независимо от их порядка симметризацией могут быть сведены к одномерным или двухмерным вычислительным процедурам. Применительно к искусственным нейросетям это означает, что после их симметризации задача их настройки может быть табулирована. Могут быть построены специальные таблицы для оптимизации параметров нелинейных элементов. В место медленного итерационного поиска решения систем нелинейных уравнений при настройке нелинейных нейросетей можно обойтись линейными решениями с последующим их искажением по заранее вычисленным таблицам. Важным элементом нейроинформатики должны стать модели Гаммерштейна, дополняющие модели Винера. Сегодня в нейроинформатике господствуют только модели Винера, а моделям Гаммерштейна внимание практически не уделяется. Это недостатки роста молодой науки, необходимо в нейроинформатику вводить модели Гаммерштейна. Модели Гаммерштейна много проще для идентификации и только совокупность моделей Винера и Гаммерштейна дают полный базис необходимых понятий.

ПЛАКАТ 13.

АППРОКСИМАЦИЯ ЯДЕР ПО МИНИМУМУ СРЕДНЕКВАДРАТИЧЕСКОЙ ОШИБКИ
(Синтез базисных функций для двухмерной симметризации ядер)

Рис. 24. Формирование базиса Гаммерштейна-Винера при условии fi,k(xi) = xk, i=1, 2, 3, 4,..., k, k+1,...,

Разложив неизвестные импульсные переходные функции ai,k(t) по одномерным ортогональным базисным функциям Лагерра – Lj(t) получим псевдодвухмерный базис:

(x,t)=fi,k(xi(t)* Lj(t)) =>(t1,t2,t3,…,tk).

В базисе (x,t) задача аппроксимации ядра Вольтерра любого порядка двухмерна (двухмерна симметризация ядер):

(2).

Рис. 25. Формирование базиса Винера-Гаммерштейна путем перераспределения памяти между входом и выходом при выполнении условий Taki+Tgki =Tk и Taki=i-Tk/mk для i=0,1,2,3,...,mk; m=1,2,3,...

ВЫВОД: после симметризации нейронных сетей поиск их оптимальных параметров может быть сведен к двумерной вычислительной задаче.


Исходя из того, что алгоритмы быстрого обучения искусственных нейронных сетей должны быть построены путем табличного искажения линейных решений (решений, найденных в линейном многомерном пространстве) обратимся к модели многомерного нормального закона распределения (формула 3 плаката 14). Известно, что для этой модели оптимальной является квадратичная мера Махалонобиса (формула 4 плаката 14). Проблемой при использовании меры Махалонобиса является вычисление обратной ковариационной матрицы G-1, входящей в (4). Заметим, что в вычислительном отношении задача обращения ковариационных (корреляционных) матриц становится тривиальной, если контролируемые биометрические параметры оказываются независимыми. Заметим так же, что в рамках линейной модели мы всегда можем построить некоторое линейное декоррелирующее преобразование –D, делающее исходные зависимые данные независимыми. В новой системе координат прямые и обратные ковариационные (корреляционные) матрицы диагональны. Легко показать, что диагональность ковариационных матриц дает оптимальное значение весовых коэффициентов сумматора нейрона в виде обратных значений среднеквадратических отклонений каждого параметра (формула (5) плаката 14). Обычно качество полученного линейного решения оценивается двумя цифрами Р1 – вероятность ошибок первого рода (отказ "Своему") и P2 – вероятность ошибок второго рода (пропуск "Чужого"). Оценка качества настройки двумя параметрами запутывает потребителя. Имеет смысл заменить двухпараметрическую оценку более простой оценкой, когда порог разделения нормальных распределений "Свой" и "Чужой" специально выбран и дает равновероятные ошибки первого и второго рода РЕЕ1 + Р2 (см. рисунок 26, плаката 14). Качество обучение линейной части нейрона имеет смысл описывать формулой (6) плаката 14.

ПЛАКАТ 14.

ДЕКОРРЕЛЯЦИОННАЯ НАСТРОЙКА ЛИНЕЙНОЙ ЧАСТИ НЕЙРОНОВ

(3)

(4) – мера Махалонобиса

(5) - оптимальное линейное решение.

Рис. 26. Нормализация выходных законов распределения линейной части нейрона

(6) => PEE= 0,5- Ф0(q) - качество обучения



Плакат 15 посвящен технической реализации процедуры синтеза декорреляционной матрицы преобразований из исходной системы биометрических координат в оптимальную систему биометрических координат. Такую процедуру синтеза можно осуществить несколькими разными способами. Например, можно воспользоваться преобразованием Карунена-Лоева, однако оно сопряжено со сложными вычислениями собственных векторов и собственных чисел ковариационных (корреляционных) матриц. Для больших ковариационных матриц преобразование Карунена-Лоева имеет сложность выше кубической (оно сложнее обращения матриц по Гауссу и решения системы линейных уравнений). В диссертационной работе для осуществления декорреляции биометрических данных предложено использовать процедуру Грамма-Шмидта. Обычно эту процедуру используют для ортогонализации, однако она хорошо подходит и для декорреляции данных. Декорреляционная процедура Грамма-Шмидта имеет квадратичную вычислительную сложность, так как число вычисляемых коэффициентов пропорционально квадрату числа декоррелируемых биометрических параметров. Счится ковариационную матрицу ленточной и уменьшая ширину ленты можно плавно снизить вычислительную сложность с квадратичной до линейной. Заметим, что в формулу вычисления коэффициентов линейного декоррелирующего преобразования входит коэффициент корреляции (рисунок 27 плаката 15), который мы не можем знать точно из-за конечного объема обучающей выборки. На рисунке 28 показаны кривые ошибки вычисления коэффициентов корреляции из-за ограниченного числа примеров обучения. Очевидно, что декорреляцию биометрических данных нельзя сделать лучше, чем ошибка наблюдения коэффициентов корреляции. Процедура идеальной декорреляции возможна только на бесконечно большой обучающей выборке.

ПЛАКАТ 15.

ДЕКОРРЕЛЯТОР ГРАММА - ШМИДТА

Рис. 27. Настройка сумматора, через использование декоррелятора Грамма-Шмидта

Рис. 28 Недокомпенсация корреляционных связей из-за конечного числа примеров в обучающей выборке



Следует обратить внимание на то, что на ряду с обычными аспектами настройки искусственных нейронных сетей задача биометрической аутентификации имеет ряд специфических особенностей. На плакате 16 отображена весьма важная особенность всех людей, состоящая в их способности воспроизводить заданные движения с различной (...., хорошей, средней, плохой, ...) стабильностью. На рисунке 29 плаката 16 изображен нормальный закон распределения стабильности почерков людей. Обычно биометрические системы аттестуются относительно среднестатистического пользователя (группа "0" в центре распределения, включающая порядка 38% людей). Однако характеристики биометрической системы по среднестатистическому пользователю грубы. Реального пользователя должен волновать сугубо практический вопрос: "на сколько надежно система работает с его личной биометрией"? Для ответа на этот вопрос предложено разделить всех людей на 7 классов (ширина класса совпадает со среднеквадратическим отклонением нормального распределения "Все пользователи"). Отметим, сто отнесение пользователя к одному из 7 классов стабильности движений легко осуществим путем измерения дисперсии биометрических параметров, воспроизводимого им биометрического образа. Соответствующие расчетные формулы приведены под рисунком на плакате 16. После классификации пользователя по стабильности его движений легко может быть найдена поправка на "рекламные характеристики" среднестатистического пользователя. В таблице №3 плаката 16 даны поправки, учитывающие классы нестабильности движений конкретного человека. Заметим, что во многих случаях достаточно упростить воспроизводимое рукописно слово для изменения в лучшую сторону класса стабильности пользователя. Однако существует порядка 0.6% людей, которые вообще не обладают устойчивым почерком. Таких людей биометрические системы не должны вводить в заблуждение. Их необходимо предупреждать о целесообразности перехода к использованию биометрии иного типа.

ПЛАКАТ 16.

ПРОБЛЕМА ВАРИАЦИЙ СТАБИЛЬНОСТИ ДВИЖЕНИЙ ДЛЯ РАЗНЫХ ЛЮДЕЙ

Рис. 29. Деление людей на 7 групп по стребильности движений

Грi(cc-1)/±0,5.

Таблица 3.

Заявленные Вероятности ошибок Р1= Р2ЕЕ для разных групп
вероятности ошибок Группа"+3" Группа "+2" Группа "+1" Группа "0" Группа "-1" Группа "-2" Группа "-3"
0,06 0,0118 0,0282 0,0278 0,06 0,389 -:- -:-
0,05 0,0086 0,0138 0,0218 0,05 0,337 -:- -:-
0,04 0,0066 0,0105 0,0170 0,04 0,2924 -:- -:-
0,03 0,0046 0,0076 0,0124 0,03 0,2419 -:- -:-
0,02 0,0024 0,0046 0,0077 0,02 0,1852 -:- -:-
0,01 0,0011 0,0022 0,0036 0,01 0,1158 -:- -:-
0,009 0,0010 0,0018 0,0032 0,009 0,1073 -:- -:-
0,008 0,0009 0,0015 0,0027 0,008 0,0994 -:- -:-
0,007 0,0008 0,0014 0,0024 0,007 0,0903 0,4884 -:-
0,006 0,0007 0,0012 0,0022 0,006 0,0814 0,4538 -:-
0,005 0,0006 0,0009 0,0012 0,005 0,0718 0,4231 -:-
0,004 0,0005 0,0008 0,0015 0,004 0,0614 0,3844 -:-
0,003 0,0004 0,0005 0,0010 0,003 0,0502 0,3380 -:-
0,002 0,0002 0,0004 0,0006 0,002 0,0378 0,2810 -:-


Еще одной особенностью биометрии динамики подсознательных движений является то, что при обучении нейронных сетей мы можем использовать только образы "Свой". Хорошую имитацию подделок получить трудно. Приходится создавать из образов "Свой" модель "Все Чужие". Возникающие при этом проблемы отображены на плакате 17. На рисунке 30 плаката 17 отображена реальная ситуация, когда разные пользователи имеют совершенно разные распределения значений измеряемых биометрических параметров. Попытки построить линейное разделение приводят к противоречию. Как следствие нельзя выбирать наиболее значимые параметры и пренебрегать другими "малозначимыми" параметрами. Всегда можно найти "Чужого", для которого значимые и "малозначимые" параметры поменяются местами. В классе "линейных" сетей и линейных представлений биометрические задачи решить невозможно. В биометрических системах аутентификации имеет смысл использовать модель "Все Чужие" синтезированную из образов "Свой" путем их сдвига в произвольную сторону и размещения центров областей "Чужие" на соответствующем гиперэллипсоиде. Параметры гиперэллипсоидов задаются исходя из знания класса стабильности движений идентифицируемой личности. Модель "Все Чужие" изображена на рисунке 31 плаката 17. Подобная модель "Все Чужие" только кажется более сложной в сравнении с обычной "классической" нейросетевой задачей разделения фиксированных относительно друг друга классов. Переход к классической задаче достаточно прост. В нижних слоях классической сужающейся сети достаточно использовать четные нелинейные элементы (например, параболу или модуль). В последующих слоях нейросети задача оказывается классической, и могут быть использованы обычные (нечетные) нелинейные преобразования.

ПЛАКАТ 17.

ПРОБЛЕМА ОТСУТСТВИЯ ОБРАЗОВ "ВСЕ ЧУЖИЕ"

Рис. 30. Образы "Чужих", противоречащие друг другу при линейном разделении (нет смысла ранжировать парамеры)

Рис. 31. Модель образов “Все Чужие”, используемая при настройке нейросети биометрической системы



В представляемой диссертационной работе предложено использовать быстрые (не итерационные) алгоритмы обучения нейронных сетей, построенные на специфической декомпозиции задачи обучения. Нейронная сеть представляется в виде последовательности линейных и нелинейных слоев, как это показано на рисунке 32 плаката 18. Каждый линейный слой состоит из сумматоров, а нелинейный слой состоит из одинаковых нечетных нелинейных элементов. В качестве нелинейных элементов могут быть использованы любые нелинейности с двумя участками насыщения. В частности, могут быть использованы наиболее часто используемые нелинейные элементы изображенные на рисунке 33 плаката 18. В принципе, использованные метод быстрого обучения универсален относительно конкретной формы используемой нелинейности, однако в биометрии имеет смысл отдавать кусочно-линейному заданию нелинейных свойств. Такая форма задания наиболее экономична с точки зрения затрат на вычисления, что важно при размещении нейросети в смарт-карте. Гладкость нелинейного преобразования (его многократная дифференцируемость) не требуются. Суть, предложенных в диссертации, быстрых алгоритмов обучения сводится к хорошо изученной задачи обучения линейного слоя настраиваемой нейросети. Эта задача решается любым из известных методов (разложение Карунена-Лоева, метод главных компонент, или представленный на плакате 15 декорреляционный подход к вычислению весовых коэффициентов). При этом сложность задачи оказывается близка к кубической или квадратичной. Во всяком случае, она решается за достаточно короткий и всегда фиксированный интервал времени (зацикливаний быть не может, так как нет последовательных итераций и петли обратной связи по достигнутому качеству обучения). После получения линейного решения для первого линейного слоя по заранее вычисленным таблицам выбираются параметры нелинейных элементов для каждого из настроенных сумматоров. На следующем шаге входные примеры первого слоя пересчитываются в выходные примеры этого слоя нейронов. Зная выходные примеры первого слоя нелинейных нейронов можно приступить к настройке следующего слоя сумматоров. Далее весь процесс повторяется до моменты обучения всех слоев нейросети. Для каждого слоя нелинейных элементов должна быть заранее построена своя таблицы оптимальных значений параметров. В этом случае при быстрой настройке многослойной нейросети придется решать только простые линейные задачи.Быстрота рассматриваемого типа алгоритмов обучения обусловлена относительной простотой вычислений в линейных многомерных пространствах и тем, что табличное искажение линейных решений практически не отвлекает вычислительные ресурсы.

ПЛАКАТ 18.

ПОСЛЕДОВАТЕЛЬНАЯ НАСТРОЙКА СЛОЕВ НЕЛИНЕЙНОЙ НЕЙРОННОЙ СЕТИ
(Исключена обратная связь по качеству обучения)

Рис. 32. Декомпозиция сети нейронов на последовательные слои линейных и нелинейных элементов

Рис. 33. На более распространенные формы нелинейных выходных функций искусственных нейронов: а) пороговая функция; б) кусочно-линейная функция; в) сигмоидная функция; г) гиперболический тангенс.



Так как нелинейные преобразования в искусственных нейронных сетях принципиально необходимы, целесообразно остановиться подробнее на теоретических предпосылках возможности создания для нелинейных элементов таблиц оптимизации. Настройке нелинейных элементов посвящен плакат 19. Предварительно имеет смысл вернуться к модели нейрона, изображенной на рисунке 11 плаката 7. На этом рисунке отображено 10 весовых коэффициентов линейной части нейрона и два параметра "С" и "" настройки нелинейности. Параметр С- смещение сумматора, - масштаб входного сигнала нелинейного элемента. Заметим, что обычно параметр не выделяют, так как ведется совместная настройка нелинейного и линейного элементов нейрона. В нашем случае ведется раздельная настройка линейной и нелинейной части (приходится разделять значимые параметры). Задание параметра С осуществляется решением линейного уравнения, построенного исходя из того, что центр нелинейного элемента должен располагаться между центрами распределений "Свой"9и "Чужой". Эта ситуация отображена на рисунке 34 плаката 19. Несколько сложнее обстоит дело с оптимизацией масштабных коэффициентов -. Для оптимизации этого параметра нельзя пользоваться моделью Винера (рисунок 11 плакат 7). Просто введение нелинейности на выход единственного сумматора не может улучшить разделимость множеств "Свой" и "Чужой". Происходит только искажение формы распределений "Свой" и "Чужой", вероятности ошибок первого и второго рода не изменяются при статическом нелинейном преобразовании. Эффект улучшения разделимости множеств "Свой" и "Чужой" возникает только при введение сумматора следующего слоя, нормализующиего искаженные нелинейными элементами плотности распределения значений "Свой" и "Чужой". Мы приходим к необходимости использовать модель Гаммерштейна изображенную на рисунке 35 плаката 19. Заметим, что в этом случае задача оптимизации параметров усложняется (возникает видимость усложнения), так как приходится одновременно отыскивать все параметры нелинейностей и столько же параметров следующего линейного элемента. Кроме того возникает эффект размножения нелинейных элементов. Этот эффект иллюстрируется рисунком 36 плаката 19. Суть эффекта в том, что одна нелинейность модели Винера превращается в три нелинейности далее следующих моделей Гаммерштейна. Этот эффект так же создает иллюзию усложнения задачи. Однако из теории рядов Вольтерра однозначно следует вывод о том, что идентификация модели Гаммерштейна проще идентификации модели Винера, если и та, и другая модель симметризованы (вывода по второй глава диссертации). Получается, что для синтеза эффективных и быстрых алгоритмов настройки нелинейных нейронных сетей необходима их симметризация (полная аналогия с симметризацией ядер Вольтерра, плакат 8). При симметризации нейронной сети видимость усложнения процедур обучения моделей Гаммерштейна исчезает, так как все параметры нелинейных элементов в одном слое становятся одинаковыми.

ПЛАКАТ 19.

НАСТРОЙКА НЕЛИНЕЙНЫХ ЭЛЕМЕНТОВ

Рис. 34. Подбор постоянной смещения сумматора, исключающий эффект паралича всех нейронов сети

Рис. 35. Настройка входного масштаба нелинейного элемента в рамках модели Гаммерштейна

Рис. 36. Эффект размножения числа нелинейных элементов



Симметризация нейронной сети сводится к введению симметричных связей (например, полученных циклическим сдвигом). Кроме того, несимметричные входные биометрические параметры обычной несимметричной сети должны быть заменены на симметричные эквивалентные параметры. Пример нейронной сети с симметричными связями приведен на рисунке 37 плаката 20. При замещении сети с асимметричными связями на сеть с симметричными связями следует стремиться к их близости, однако это не всегда получается. При росте размеров сети ошибка замещения уменьшается. Симметризация входных данных сети формально может быть осуществлена путем всех возможных перестановок переменных входного многомерного закона распределения с последующим усреднением этих законов распределения (формула на плакате 20 под рисунком 37 аналог известной формулы симметризации ядер Вольтерра плаката 8). Заметим, что классическими формулами симметризации входных данных воспользоваться можно только теоретически. Практически подобные вычисления невыполнимы. Во-первых они трудны из-за своей многомерности, во-вторых на практике многомерный закон распределения входных данных неизвестен. Симметризацию входных данных много проще можно осуществить, если вычислить среднее качество входных данных и средний модуль коэффициентов корреляции измеряемых биометрических параметров. Далее необходимо заменить естественные входные данные на искусственные входные данные, обладающие одинаковым качеством и одинаковыми по модулю корреляционными связями. Подобная операция симметризации сильно упрощает задачу (многократно снижается размерность задачи, что отражено в таблице 4 плаката 20).

ПЛАКАТ 20.

СИММЕТРИЗАЦИЯ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ

Рис. 37. Сеть с симметричными связями и 50% перекрытием входных данных соседних нейронов.

p(v1,v2,v3,...,vk)+p(vk,v1,v2,...,vk-1)+p(vk-1,vk,v1,...,vk-2) Симметризация входного многомерного закона распределения значений k!p(v1,v2,vv3,...,vvk)
До симметризации нейрона После симметризации нейрона
qv1qv2qv3...qvk qv1=qv2=qv3=...=qvk
|r12||r13||r14|...|r1k| |r12|=|r13|=|r14|=...=|r1k|
P= P=
qвых(qv1,qv2,...,qvk; r12,r13,r14,...,r21,r21,...,rk1,rk2,...,) qвых(q,r,s1/s2,k,)
(v1,v2,v3,...,vk) (qвых, rвых,1/2,k)


Одним из примеров эффектов симметризации может служить возможность предсказания будущего качества обучения линейной части нейрона алгоритмом обучения линейной сложности. В отличие от алгоритма обучения квадратичной сложности (плакат 15) алгоритмы линейной сложности просты, так как исходят из предположения независимости (некоррелированности) входных сигналов. После симметризации задача становится только трехмерной и ее удается табулировать в виде таблицы приведенной на плакате 21. По этой таблице можно предсказать достижимое качество обучения линейной части нейрона, зная всего три параметра: k- число входов нейрона; q – среднее качество входного параметра сети; r – среднее значение модулей коэффициентов корреляции. Заметим, что таблица 5 плаката 21 самостоятельного значения не имеет, однако из нее легко получаются таблицы предсказания качества обучения для декорреляционных алгоритмов квадратичной сложности.

ПЛАКАТ 21.

ТАБЛИЦА КАЧЕСТВА ОБУЧЕНИЯ ЛИНЕЙНОЙ ЧАСТИ НЕЙРОНА

Таблица №5 Равновероятные ошибки первого и второго рода линейной части нейрона, настроенной алгоритмом линейной сложности

Качество Число входов сумматора - k
k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 Корреляция r = 0.0
q=0.2 0.420 0.388 0.374 0.368 0.363 0.361 0.360 0.358 0.358
q=0.4 0.343 0.286 0.260 0.249 0.243 0.239 0.236 0.235 0.233
q=0.6 0.274 0.199 0.167 0.155 0.149 0.144 0.141 0.139 0.138
q=0.8 0.212 0.130 0.100 0.087 0.081 0.078 0.075 0.075 0.073
q=1.0 0.158 0.079 0.055 0.045 0.040 0.038 0.036 0.035 0.035
Качество Число входов сумматора - k
k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 Корреляция r = 0.2
q=0.2 0.421 0.399 0.389 0.387 0.385 0.384 0.383 0.383 0.382
q=0.4 0.345 0.304 0.288 0.282 0.279 0.278 0.278 0.275 0.274
q=0.6 0.274 0.220 0.201 0.195 0.191 0.189 0.187 0.186 0.184
q=0.8 0.212 0.153 0.133 0.125 0.122 0.119 0.117 0.117 0.116
q=1.0 0.158 0.099 0.082 0.075 0.072 0.069 0.068 0.068 0.067
Качество Число входов сумматора - k
k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 Корреляция r = 0.4
q=0.2 0.420 0.407 0.400 0.399 0.398 0.397 0.397 0.397 0.397
q=0.4 0.344 0.318 0.307 0.305 0.304 0.303 0.302 0.301 0.301
q=0.6 0.274 0.238 0.227 0.222 0.219 0.219 0.218 0.218 0.217
q=0.8 0.211 0.171 0.159 0.155 0.152 0.151 0.150 0.149 0.149
q=1.0 0.159 0.117 0.106 0.101 0.099 0.097 0.097 0.096 0.096
Качество Число входов сумматора - k
k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 Корреляция r = 0.6
q=0.2 0.420 0.412 0.408 0.408 0.407 0.407 0.407 0.406 0.406
q=0.4 0.344 0.323 0.322 0.320 0.319 0.319 0.319 0.319 0.318
q=0.6 0.274 0.252 0.244 0.243 0.242 0.241 0.240 0.240 0.239
q=0.8 0.212 0.186 0.179 0.176 0.175 0.174 0.174 0.173 0.173
q=1.0 0.158 0.133 0.123 0.123 0.121 0.120 0.112 0.119 0.119
Качество Число входов сумматора - k
k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 Корреляция r = 0.8
q=0.2 0.420 0.416 0.415 0.415 0.414 0.414 0.414 0.414 0.414
q=0.4 0.344 0.337 0.334 0.334 0.333 0.333 0.333 0.333 0.333
q=0.6 0.274 0.264 0.261 0.260 0.259 0.259 0.259 0.259 0.258
q=0.8 0.211 0.200 0.196 0.196 0.195 0.195 0.195 0.195 0.194
q=1.0 0.158 0.146 0.144 0.143 0.142 0.142 0.141 0.141 0.141


Весьма важным является то, что трехмерная функция качества, заданная таблицей 5 плаката 21 монотонна и хостаточно гладкая. Это обстоятельство позволяет ее использовать как базовую (трехмерную функцию) таблицу и получать ее искажением, соответствующие, таблицы для реальных биометрических систем с более сложными алгоритмами настройки. На плакате 22 рисунок 38 отображает связи конечной вероятности при принятии решения линейной частью нейрона с качеством входных данных – q и числом входов сумматора – k. Из рисунка 38 видно, что все кривые достаточно гладкие и похожи друг на друга. На рисунке 35 плаката 22 приведены сечения трехмерной функции предсказания качества обучения линейной части нейрона для q=0.6 при изменяющихся значениях коэффициентов корреляции -r и разном числе входов сумматора – k. Процедура получения таблицы таблици предсказания качества линейной части нейрона, обученной декорреляционным алгоритмом, сводится к перемещению ячеек исходной таблицы 5 вниз. Исходная таблица (трехмерная функция) растягиваются с учетом недокомпенсации реальных корреляционных связей. В идеальном случае абсолютно точного знания корреляционной матрицы в новой таблице для всех значений -r используются данные таблицы 5 для r=0. Столь простая интерпретация (только деформация исходной функции растяжением) корректна для "линейных" сетей с нормальными законами распределений на выходах сумматоров. Для нелинейных сетей нормальные законы деформируются достаточно сложным образом, что приводит к необходимости более сложной деформации исходной таблицы. Необходимость в синтезе таблиц предсказания качества обучения обусловлена тем, что мы должны при обучении нейросети заранее предсказать результаты будущей надежности работы системы биометрической аутентификации. В биометрических системах нет возможности проводить тестирование для каждого конкретного человека. Необходимы механизмы (например, таблицы) способные по некоторым признакам предсказать ожидаемую надежность работы системы.

ПЛАКАТ 22.

СИНТЕЗ МНОЖЕСТВА ТАБЛИЦ КАЧЕСТВА ОБУЧЕНИЯ ЛИНЕЙНОЙ ЧАСТИ НЕЙРОНА
(для алгоритмов квадратичной сложности смещением строк таблицы №5 с учетом недокомпенсации корреляции)

Рис. 38. Изменение качества решения в зависимости от числа входов сумматора(от 1 до 9) и входного качества входных данных при их корреляции r=0.2

Рис. 35. Зависимость выходного качества от числа входов сумматора (от 1 до 9) и корреляции входных данных



Плакат 23 посвящен проблеме синтеза таблиц для определения оптимальных параметров нелинейных элементов настраиваемой нейронной сети. На рисунке 40 плаката 23 изображены искажения нормальных законов распределения значений, возникающие на выходе нелинейного элемента. Если применить к новым (искаженным) законам распределения значений функционал качества (плакат 14 нижняя формула), то появляются две тенденции разного знака. Первая положительная тенденция приводит к улучшению качества решения за счет уменьшения дисперсий множеств "Свой" и "Чужой" при нелинейном преобразовании. Вторая тенденция отрицательна и она сводится к сближению центров этих областей. Наличие двух противоположных тенденций изменения качества обучения является гарантией существования максимума для функционала качества. На рисунке 41 приведены три кривые изменения функционала качества в зависимости от расстояния между участками насыщения нелинейного элемента. Точки оптимума на этом рисунке отмечены пунктиром. Очевидно, что для каждого типа законов распределения значений мы можем заранее построить свою таблицу оптимальных значений ширины линейного участка нелинейного элемента.

ПЛАКАТ 23.

ОПТИМИЗАЦИЯ ПАРАМЕТРОВ НЕЛИНЕЙНОСТИ
(без изменения формы)

Рис. 40 Единственный параметр оптимизации нелинейности-k

Рис. 41 Зависимости коэффициентов улучшения качества настройки от параметров нелинейности при qвх = 0.2,qвх = 0.4, qвх= 0.6, 1=2 (таблица 6).



На плакате 24 приведена такая таблица оптимальных значений регулируемого параметра нелинейного элемента, построенная исходя из гипотезы нормальности законов распределения значений "Свой" и "Чужой" на входе нелинейного элемента. Очевидно, что для каждого последующего слоя нелинейных элементов нейросети законы распределения значений на входах нелинейных элементов все больше и больше будут отличаться от нормальных законов. В силу этого требуется предварительный синтез нескольких таблиц оптимизации параметров нелинейных элементов. Для каждого слоя нелинейных элементов должна строиться своя таблица оптимизации параметров. Весьма интересным является то, что нелинейные сети оказываются не всегда выгодны. Область, где линейные сети выгоднее нелинейных в таблице 6 отмечена темной заливкой. Проводимая сегодня по умолчанию гипотеза о безусловном преимуществе нелинейных сетей перед "линейными" сетями не верна. Вернее она верна для большинства случаев, но существуют и исключения. Видимо внутри заштрихованной области существует другая вложенная область, где имеет смысл сменить изгиб нелинейности на противоположный.
Таким образом, опираясь на предварительную оптимизацию регулируемого параметра нелинейных элементов, мы можем заранее рассчитать систему таблиц для нелинейного искажения линейного решения задачи обучения искусственных нейронных сетей. При этом получающиеся алгоритмы обучения оказываются быстрыми и устойчивыми, а для их реализации легко синтезировать автомат обучения. Фактически автомат обучения строится на решении линейной задачи декорреляции биометрических данных и операциям с заранее вычисленными таблицами.

ПЛАКАТ 24.

ОПТИМИЗАЦИЯ ПАРАМЕТРОВ НЕЛИНЕЙНОСТИ
(без изменения формы)

Таблица 6. Оптимальное расстояние до излома нелинейности (k1) от центра области "Свой"- m1 и улучшение показателя качества в процентах

Входное качество Группа "+3" 3.5 1=2 Группа "+2" 2.5 1=2 Группа "+1" 1.5 1=2 Группа "0" 1=2 Группа "-1" 1=1.52 Группа "-2" 1=2.5 2 Группа "-3"1=3.52
q =0.1 0.8125% 1.018.4% 2.81-1.2% 2.61-3.7% 2.41-1.3% 0.818.2% 0.2119%
q =0.2 0.4126% 0.9 19.1% 2.6 1-1.6% 2.31-2.3% 2.210.4% 0.418.6% 0.2117%
q =0.3 0.2127% 0.719.3% 1.718.1% 2.11-1.2% 1.510.5% 0.319.5% 0.2112%
q =0.4 0.0129% 0.5111% 1.511.8% 1.610.01% 1.210.6% 0.219.4% 0.0124%
q =0.5 -0.2131% 0.2113% 1.211.5 % 1.410.1% 1.011.8% 0.1114% 0.0125%
q =0.6 -0.5133% 0.0115% 0.812.8% 1.111.8% 0.812.6% 0.0116% -0.1128%
q =0.7   -0.2117% 0.614.3% 0.712.7% 0.514.4% -0.1116% -0.2131%
q =0.8   -0.4120% 0.416.7% 0.514.2% 0.415.2% -0.1119%  
q =0.9   -0.6122% 0.119.4% 0.416.6% 0.218.7% -0.2122%  
q =1.0   -0.8127% 0.0111% 0.219.5% 0.1111% -0.3126%  
q =1.1     -0.2117% 0.0113% -0.1114% -0.4129%  
q =1.2     -0.4120% -0.2117% -0.2118% -0.4133%  
q =1.3     -0.6