Д. В. ПОЛУПАНОВ, Е. Г. ЛЕХОВА
Башкирский государственный университет, Уфа
*****@***ru, *****@***ru
Построение нейросетевой модели
идентификации потенциальной
неплатежеспособности предприятий
на основе байесовского подхода
Рассматривается задача диагностики потенциальной неплатежеспособности предприятий. В качестве основного инструментария использованы нейросетевые парадигмы самоорганизующихся карт Кохонена. Для повышения качества моделей использованы методы байесовской регуляризации и селекции признаков.
Ключевые слова: самоорганизующиеся карты Кохонена, кластеризация, неплатежеспособность, байесовская регуляризация
Введение
Основная цель работы состоит в разработке модели диагностики неплатежеспособности как элемента процесса принятия решений при антикризисном управлении предприятием.
Высокая экономическая цена банкротств предприятия обуславливает необходимость в моделях, предсказывающих подобные события. К настоящему времени существует множество как зарубежных, так и отечественных источников, содержащих рекомендации по диагностике платежеспособности предприятий, но возникает проблема выбора определенной методики, которая соответствовала бы предприятию конкретной отрасли и условиям, в которых оно находится. В западной практике широкое распространение получила модель Альтмана и ее модификации [1]. Эти модели были разработаны в экономических условиях, отличных от российских, потому их использование приводит к значительным отклонениям прогноза от фактических данных. Для получения объективной оценки финансово-экономического состояния предприятия возникает необходимость создания эффективной методики оценивания неплатежеспособности, адаптированной к условиям конкретных отрасли и региона.
Предупреждение о несостоятельности предприятий можно получить на основе моделирования с помощью нейронных сетей, в частности, самоорганизующихся карт Кохонена [2].
Постановка задачи
Требуется провести сегментацию предприятий («банкрот» - «не банкрот»). Из данных Госкомстата Республики Башкортостан построена выборка по 33 предприятиям, 24 из которых нормально работающие предприятия, 9 - обанкротились. При построении модели использовались данные за год до банкротства.
Рассматривается следующая система факторов, содержащихся в публичной отчетности (бухгалтерский баланс (форма № 1), отчет о прибылях и убытках (форма № 2)): р1 – оборотные активы; р2 – краткосрочные обязательства; р3 –запасы; 4 р4 – денежные средства; р5 – объем реализации; р6 – основные средства; р7 – собственный капитал; р8 – дебиторская задолженность (платежи по которой ожидаются в течение 12 месяцев после отчетной даты); р9 – дебиторская задолженность (платежи по которой ожидаются более чем через 12 месяцев после отчетной даты); р10 – баланс; р11 – долгосрочные обязательства; р12 – краткосрочные финансовые вложения; р13 – прибыль до налогообложения; р14 – внеоборотные активы; р15 – затраты в незавершенном производстве.
На основе данной системы факторов была сформирована система показателей, охватывающая наиболее часто встречаемые в литературе показатели (коэффициенты) финансовой деятельности предприятия, которые можно разделить на 4 группы.
1. Показатели оценки финансовой устойчивости: коэффициент финансовой независимости
; отношение суммарных обязательств к суммарным активам
; отношение обязательств к собственному капиталу
; коэффициент дебиторской задолженности
.
2. Показатели платежеспособности: коэффициент текущей ликвидности
; отношение оборотных активов к объёму реализации
; коэффициент обеспеченности денежных средств и расчётов, запасов и затрат собственными средствами
.
3. Показатели деловой активности: общий коэффициент оборачиваемости
; отношение объема реализации к собственному капиталу б; отношение объема запасов к оборотным активам
.
4. Показатели рентабельности продаж: коэффициент рентабельности продаж:
; рентабельность оборотных активов
; рентабельность использования всего капитала
.
Самоорганизующиеся карты Кохонена
как основной инструментарий моделирования
С точки зрения моделирования, необходимо решить задачу кластеризации предприятий с использованием вектора признаков
. Как известно, эффективным инструментарием её решения являются самоорганизующиеся карты Кохонена (SOM). Рассмотрим некоторые положения теории SOM, необходимые для дальнейшего описания рассматриваемых моделей [2]. Процесс обучения SOM характеризуется, во-первых, окрестностью взаимодействия k‑го нейрона с i‑м вектором обучающей выборки:
, (1)
где
– расстояние взаимодействия по евклидовой мере; s – параметр гауссова распределения, определяемый по формуле
. (2)
В (2)
– начальное значение величины s в алгоритме SOM;
– некоторая константа. Во-вторых, скоростью изменения весов при обучении, характеризуемой параметром
, экспоненциально изменяющимся в зависимости от номера повторного прогона обучающей выборки (фактически от времени t):
, (3)
где
– еще одна константа алгоритма SOM.
Байесовский подход к регуляризации нейросетевых моделей
кластеризации экономических объектов
Вопросам регуляризации моделей, используемых в экономико-математическом моделировании, уделяется достаточное внимание, поскольку это улучшает их адекватность и повышает качество получаемых решений. В частности, данный вопрос проработан применительно к использованию нейронных сетей для случаев, когда выполняются условия соответствия исходных данных гауссовым смесям распределения плотности вероятности кластеризуемых объектов [3].
Однако имеются классы прикладных задач, в которых не выполняется требование возможности представления данных в виде смеси гауссовских распределений в силу сильного искажения исходных данных и их малого объема [4]. В этой связи актуальным является вопрос теоретического обоснования регуляризации нейросетевых кластеризаторов при невыполнении указанных требований.
Причиной неудовлетворительного качества кластеризации с помощью нейросетевых инструментариев является возможным сильная зависимость результатов кластеризации от параметров настройки SOM.
В работах [4-5] исследуются методы предрегуляризации и регуляризации нейросетевых моделей на основе байесовского подхода в условиях искажения информационного пространства признаков. Применительно к SOM особая идея заключается в следующем. Вводится критерий качества кластеризации
, (4)
где
и Q – соответственно номер гипотезы-нейросети в байесовском ансамбле и их общее количество;
– число элементов, попавших в m-ый кластер;
– центр m-го кластера в n-мерном евклидовом пространстве признаков;
– евклидово расстояние от исследуемого объекта
до центра своего m-го кластера;
– расстояние между l-ым и m-ым кластерами;
– число сочетаний из M по 2; М – количество кластеров.
Главные идеи байесовского подхода [3], применительно к кластеризации следующие.
· Выбор ансамбля априорных гипотез-нейросетей
, где W – множество параметров модели (синаптических весов), осуществляется из фиксированного класса (семейства) H мета-гипотез (SOM).
· Апостериорная фильтрация обученных гипотез-нейросетей осуществляется по критерию, оценивающему качество кластеризации (4) как по плотности группировки объектов вокруг центров кластеров (числитель отношения (4)), так и по удалению кластеров друг от друга (знаменатель в (4)).
· После фильтрации гипотез-нейросетей осуществляется усреднение критерия качества разбиения векторов x на кластеры по (4) на отфильтрованном ансамбле гипотез-нейросетей.
В предлагаемом методе байесовской регуляризации нейронной сети формула Байеса непосредственно не используется для апостериорной оценки вероятности
, где
– апостериорная вероятность выбранных гипотез-нейросетей;
– множество априорно выбранных гипотез-нейросетей в ансамбле; H – мета-гипотеза
; D – множество данных, поскольку для оценки указанной вероятности через функцию правдоподобия требуется априорное знание аналитической формы закона распределения кластеризуемых векторов x, например, в виде гауссовой смеси. Такого знания у нас нет. Поэтому апостериорные вероятности
, несущие информацию о качестве разбиения данных D на кластеры, в предлагаемом методе, оцениваются косвенно путем фильтрации гипотез – нейросетей
по критерию (4).
Фильтрация гипотез-нейросетей для случая с большим разбросом качества разбиения осуществляется следующим образом. Организуется итерационный процесс пошагового отбора (удаления из ансамбля) гипотез-нейросетей
с низким качеством кластеризации (4), т. е. большим значением
:
, (5)
где
– номер гипотезы–нейросети, успешно прошедшей процедуру фильтрации;
– желаемое значение качества фильтрации, определяемое в предварительных вычислительных экспериментах;
– совокупность вектор-строк данных.
После фильтрации (5) уточненные значения центров кластеров
и соответствующего им критерия качества разбиения (H) по (2.3.3) находятся как усредненные на отфильтрованном байесовском ансамбле величины:
;
. (6)
В случае, если SOM в байесовском ансамбле имеют большой разброс по критерию качества кластеризации (4), требуется осуществить процедуру регуляризации. Одним из подходов может служить селекция признаков. Имеются различные способы её осуществления. Например, скалярная селекции признаков, сущность которой состоит в оценке дискриминантной способности каждого отдельного признака
путем проверки соответствующих статистических гипотез о законах распределения плотности вероятности анализируемого признака в разных кластерах [4-5]. Другой способ, использованный нами при проведении вычислительного эксперимента, заключается в следующем. Использованы основы корреляционного анализа и алгоритм построения минимального вершинного покрытия графа выделенных показателей [6]. Рассчитываются коэффициенты корреляции между каждыми двумя возможными показателями. Число значений показателей равняется количеству рассматриваемых предприятий. Строится граф, вершинами которого являются показатели. Вершины смежные, если коэффициент корреляции между показателями достаточно велик (по модулю не менее 0,5 согласно шкале Чеддока). Из них выделяется одна. Если вершина не коррелируется ни с какой другой, ее тоже выделяют. Выделенные вершины формируют минимальное вершинное покрытие построенного графа.
Проведение вычислительных экспериментов
Таблица 1 Уровни варьирования параметров SOM | |||||
t1 | 140 | 280 | 420 | 560 | 700 |
t2 | 125 | 250 | 375 | 500 | 625 |
Первоначально был сформирован байесовский ансамбль априорных гипотез-нейросетей по всем 13 признакам. Варьировалось две эвристики, параметры t1 и t2 (формулы (2) и (3)). Дискретные уровни варьирования параметров представлены в табл. 1. Уровни указанных параметров подбирались путем предварительных вычислительных экспериментов [4]. Предварительные вычислительные эксперименты по выбору параметров адаптивного процесса обучения проводились по алгоритму начальной ширины функции топологической окрестности, начальной скорости обучения, числа эпох (итераций) процесса модификации весов. Были выбраны следующие параметры, которые затем фиксировались во всех SOM:
;
;
. Таким образом, был образован байесовский ансамбль из 25 SOM.
Результаты оценки качества кластеризации представлены в табл. 2 . Значение радиуса обучения (1) и скорости обучения (3) представлены в момент
. Обобщенный показа, оценивающий косвенно вероятность нейросетей-гипотез, изменяется в таблице на множестве из 25 сетей ансамбля в довольно широких пределах: от 0,75 до 1,81.
Графическое представление кластеров соответствующих этим критериям представлены на рис. 1 (случаи А и Б).
Таблица 2
Оценка качества разбиения на кластеры по всем априорным гипотезам
|
|
|
|
|
|
|
|
|
|
140 | 0,112463 | 125 | 0,005495 | 1,588838 | 420 | 1,21631 | 500 | 0,11036 | 0,99328 |
140 | 0,112463 | 250 | 0,040601 | 1,583204 | 420 | 1,21631 | 625 | 0,1348 | 1,38268 |
140 | 0,112463 | 375 | 0,079079 | 1,637859 | 560 | 1,63794 | 125 | 0,0055 | 0,78898 |
140 | 0,112463 | 500 | 0,110364 | 1,565609 | 560 | 1,63794 | 250 | 0,0406 | 0,85674 |
140 | 0,112463 | 625 | 0,134799 | 1,232432 | 560 | 1,63794 | 375 | 0,07908 | 0,81729 |
280 | 0,610709 | 125 | 0,005495 | 1,083644 | 560 | 1,63794 | 500 | 0,11036 | 0,81233 |
280 | 0,610709 | 250 | 0,040601 | 1,083644 | 560 | 1,63794 | 625 | 0,1348 | 0,83647 |
420 | 1,216306 | 375 | 0,079079 | 1,386822 | 700 | 1,95817 | 125 | 0,0055 | 1,10877 |
280 | 0,61071 | 500 | 0,11036 | 1,77027 | 700 | 1,95817 | 250 | 0,0406 | 0,76145 |
280 | 0,61071 | 625 | 0,1348 | 1,22481 | 700 | 1,95817 | 375 | 0,07908 | 1,15771 |
420 | 1,21631 | 125 | 0,0055 | 1,12742 | 700 | 1,95817 | 500 | 0,11036 | 0,75684 |
420 | 1,21631 | 250 | 0,0406 | 1,35053 | 700 | 1,95817 | 625 | 0,1348 | 1,14922 |
420 | 1,21631 | 375 | 0,07908 | 1,38682 |

Рис. 1. Результаты разбиения на кластеры при значениях критерия качества
кластеризации
(случай А) и
(случай Б)
Желаемое значение качества фильтрации выберем
. Как видно из рис. 1 и табл. 2, качество кластеризации не может быть признано удовлетворительным. Возможные варианты – фильтрация гипотез или переход к селекции признаков.
Рис. 2. Минимальное покрывающее множество коррелированных финансовых коэффициентов |
Далее для улучшения качества кластеризации была сокращена размерность информационного пространства на основе построения минимального вершинного покрытия графа выделенных показателей (рис. 2). Тесной взаимосвязью обладают следующие показатели: х1, х2, х8, х12, х13; и х9, х3; х11 и х7. После снижения размерности были проведены дублирующие расчеты при тех же параметрах, что и для модели, построенной с использованием всех 13 признаков. Результаты представлены в табл. 3.
Таблица 3
Оценка качества разбиения на кластеры по всем априорным
гипотезам-нейросетям Кохонена после селекции признаков
|
|
|
|
|
|
|
|
|
|
140 | 0,112463 | 125 | 0,005495 | 1,176682 | 420 | 1,216306 | 500 | 0,110364 | 0,967583 |
140 | 0,112463 | 250 | 0,040601 | 1,175750 | 420 | 1,216306 | 625 | 0,134799 | 0,957405 |
140 | 0,112463 | 375 | 0,079079 | 1,183448 | 560 | 1,637937 | 125 | 0,005495 | 0,808984 |
140 | 0,112463 | 500 | 0,110364 | 1,193150 | 560 | 1,637937 | 250 | 0,040601 | 0,785918 |
140 | 0,112463 | 625 | 0,134799 | 1,194437 | 560 | 1,637937 | 375 | 0,079079 | 0,821249 |
280 | 0,610709 | 125 | 0,005495 | 1,273290 | 560 | 1,637937 | 500 | 0,110364 | 0,927222 |
280 | 0,610709 | 250 | 0,040601 | 1,160047 | 560 | 1,637937 | 625 | 0,134799 | 0,812560 |
280 | 0,610709 | 375 | 0,079079 | 1,169325 | 700 | 1,958167 | 125 | 0,005495 | 0,730403 |
280 | 0,610709 | 500 | 0,110364 | 1,169449 | 700 | 1,958167 | 250 | 0,040601 | 0,779819 |
280 | 0,610709 | 625 | 0,134799 | 1,183006 | 700 | 1,958167 | 375 | 0,079079 | 0,805129 |
420 | 1,216306 | 125 | 0,005495 | 0,871477 | 700 | 1,958167 | 500 | 0,110364 | 1,288288 |
420 | 1,216306 | 250 | 0,040601 | 0,950186 | 700 | 1,958167 | 625 | 0,134799 | 0,846798 |
420 | 1,216306 | 375 | 0,079079 | 1,123394 |
Обобщенный показа, оценивающий косвенно вероятность нейросетей-гипотез, изменяется в таблице на множестве из 25 сетей ансамбля в пределах от 0,73 до 1,28. Графическое представление кластеров, соответствующих этим критериям, представлено на рис. 3 (случаи А и Б). Уточнённые значения центров кластеров и соответствующего им критерия качества
говорят об улучшении модели.

Рис. 3. Результаты разбиения на кластеры при значениях критерия качества кластеризации
(случай А) и
(случай Б)
Окончательно результаты моделирования представлены в табл. 4. Здесь указана вероятность попадания в кластер предприятий на байесовском ансамбле.
Таблица 4
Вероятность попадания в кластер
№ | Состояние | Вероятность попадания в кластер, % | № | Состояние | Вероятность попадания в кластер, % | № | Состояние | Вероятность попадания в кластер, % |
1 | 1 | 100 | 12 | 1 | 100 | 27 | 1 | 88 |
2 | 1 | 100 | 13 | 1 | 100 | 32 | 1 | 100 |
3 | 1 | 92 | 14 | 1 | 100 | 23 | 0 | 100 |
4 | 1 | 100 | 15 | 1 | 100 | 24 | 0 | 100 |
5 | 1 | 100 | 16 | 1 | 100 | 25 | 0 | 100 |
6 | 1 | 100 | 17 | 1 | 100 | 26 | 0 | 100 |
7 | 1 | 96 | 18 | 1 | 84 | 28 | 0 | 100 |
8 | 1 | 100 | 19 | 1 | 92 | 29 | 0 | 100 |
9 | 1 | 100 | 20 | 1 | 96 | 30 | 0 | 100 |
10 | 1 | 100 | 21 | 1 | 100 | 31 | 0 | 100 |
11 | 1 | 96 | 22 | 1 | 96 | 33 | 0 | 100 |
Как видно из таблицы, все предприятия, оказавшиеся в дальнейшем банкротами (отмечены 0), были отобраны в свой кластер со 100 %-ной вероятностью. Наименьшая вероятность отнесения нормально работающего предприятия (отмечены 1) в соответствующий кластер составляет 84 %. С вероятностью меньше 100 % в свой кластер попадает 8 предприятий из 24. Таким образом, предложенная методика идентификации потенциальной неплатежеспособности предприятия на основе самоорганизующихся карт Кохонена состоятельна.
Выводы
На основе факторов, содержащихся в публичной отчетности предприятия), сформированы кластерообразующие показатели для создания модели диагностики финансового состоянии предприятия. Использован метод байесовской регуляризации при построении самоорганизующихся карт Кохонена. Применена методика выделения наименьшего числа существенных показателей, основанная на корреляционном анализе. Построена модель идентификации потенциальной неплатежеспособности предприятий.
Авторы благодарят заслуженного деятеля науки Республики Башкортостан д-ра тех. наук профессора за ценные советы по обсуждению работы.
Список литературы
1. Антикризисное управление как инструмент финансовой стабилизации предприятия/ // Экономиечский анализ: теория и практика, 2009. №10. С.26-33.
2. Самоорганизующиеся карты. М.: БИНОМ. Лаборатория знаний, 2011.
3. Шумский регуляризация обучения // «Нейроинформатика– 2002»: Сб. науч. тр. Ч. 2. М.: МИФИ, 2002. С. 30-93.
4. Нейросетевое математическое моделирование в задачах ранжирования и кластеризации в бюджетно-налоговой системе регионального и муниципального уровней / С. А Горбатков, и др. Уфа: РИЦ БашГУ, 2011.
5. , Рашитова процесса кластеризации на нейронных сетях с использованием байесова подхода // «Нейроинформатика–2010»: Сб. науч. тру. В 3-х частях. Ч.3. М.: НИЯУ МИФИ, 2010. С. 245-255.
6. 3. Аналитическая модель оценки платежеспособности предприятия // Обозрение прикладной и промышленной математики, 2004. Т. 10. №2. С.510-511.




