Русская рулетка. О политических заключенных
ВСТУПЛЕНИЕ

Около года назад мы выпустили пост с переводом работы «Оценка гендерного неравенства в федеральных уголовных делах» под авторством Соньи Старр, опубликованной в 2012 году. Перевод был выполнен группой CMS Маскулизм+.
Согласно этой работе, в судебных решениях существует значительное гендерное неравенство в пользу женщин относительно длины срока. Так, женщинам дают на 60% меньший срок, чем мужчинам, за аналогичные преступления.

Мы тогда отметили, что вовсе не обязательно данное неравенство сохраняется во всех странах и культурах. К примеру, для России из-за различий в судопроизводстве и относительно большом количестве политических дел (по сравнению с США) мы не можем экстраполировать результаты исследования, основанного на американских данных.

Но к моменту написания этого поста мы не нашли работ, которые бы хоть как-то оценивали судопроизводственную систему с учетом политических заключенных.
У нас в принципе сложно провести какую-либо оценку этой системы из-за ограниченного количества данных (ФСИН публикует количество заключенных, но детальных данных у нас нет), а работы, требующие общения с заключенными (к примеру для опросов) и вовсе представляются невероятными.

Те данные, которые у нас есть, собирают разные правозащитные организации или активисты. К примеру, ОВД-Инфо (признаны иноагентами), которые начали свою работу в 2011 году и с тех пор неустанно занимаются поддержкой политических заключенных; как юридической, так и информационной. Также ОВД-Инфо ведет подробные базы задержанных и арестованных, благодаря которым мы знаем, сколько людей подвергаются преследованиям, что с ними происходит и где они находятся.

Базы данных ОВД-Инфо находятся в открытом доступе, благодаря чему с ними могут работать исследователи, правозащитники и активисты.
С разрешения ОВД-Инфо, мы воспользовались такой возможностью, чтобы провести анализ данных.

По данным ОВД-Инфо, начиная с 24 февраля 2022 года в России насчитывается почти 1000 фигурантов политически мотивированных уголовных дел.
Задержаний же было около 20 тысяч. Почти половина из них приходится на Москву и Московскую область.

В общем количестве политических* уголовных преследований в 2022—2023 годах подавляющее большинство (67 и 64%) — дела за антивоенную позицию.
Всего как минимум 267 фигурантов антивоенных дел лишены свободы на момент 20 февраля 2024 года. Из них 33 женщины.
В этой работе мы попытались понять, от каких факторов зависит срок наказания и есть ли эта зависимость в принципе. Мы рассмотрели только антивоенные дела, чтобы понять, есть ли зависимость наказания (длина срока, строгость заключения и т.д.) от таких входных данных (объясняющих переменных), как профессия, тип преступления (насильственный, порча имущества или «фейки»), пол осужденных или регион.

Мы воспользовались данными, которые собрало ОВД-Инфо. Мы знаем, что в России для женщин отменено заключение в колониях строгого режима. При этом, к примеру, ИК-28 в городе Березники для женщин в 2004 году изменила свой статус со строгого на общий. В реальности же внутренняя жизнь колонии мало изменилась, по большому счету женщинам стало доступно лишь большее количество звонков.

Конечно же, подобные детали не могут быть отражены в базах данных. Также мы полагаем, что существуют иные детали, которые не могут быть отражены в базах данных. Например, является ли человек известным активистом, является ли человек преследуемым по личным мотивам.
Выводы, которые мы получили, говорят о том, что возможны два варианта:

Либо информации в базах данных недостаточно для того, чтобы сделать какие-либо выводы о поведении судебной системы.

Либо это поведение случайно и не связано с такими показателями, как гендер, профессия, тип преступления или регион. Что представляется самым логичным выводом, так как мы говорим о делах, которые в реальности либо не имеют под собой основания, либо оно крайне искажено. В данном случае наказание не может базироваться на преступлении или каких-либо факторах, кроме политических.
ДАННЫЕ И МЕТОД

Имеющиеся данные не отвечают условиям применения классических методов регрессионного анализа. В частности, многие объясняющие переменные не имеют нормального распределения, гетероскедастичны (то есть остатки или ошибки неоднородны и меняются в зависимости от изменения входной переменной и ее величины), а некоторые даже не являются количественными (пол, род деятельности, регион). Мы решили отказаться от классических методов корреляционного анализа и воспользоваться методом машинного обучения Random Forest (“Случайный лес”) и нейросетью.

Для этого мы использовали библиотеку Keras в Python.

Подобный метод дает нам возможность на основе входных данных предсказать тип наказания, наличие/отсутствие срока/штрафа и длину срока. Конечно же это возможно только, если найдется достаточно высокая корреляция с нашими входными данными.
Для попытки предсказать поведение судебной системы использовались различные методы прогноза наказания на основании объясняющих переменных. Критерием адекватности метода является значение R2 — коэффициент детерминации, который показывает долю дисперсии, которую модель может объяснить. Проще говоря, это число, которое говорит вам, насколько хорошо независимая переменная (входные параметры) в статистической модели объясняет вариацию зависимой переменной (поведение судебной системы). Значение R2 = 1 указывает на идеальное соответствие модели данным, 0 — на полное несоответствие. Чтобы модель показывала большую долю правильных объектов, чем случайное угадывание, значение R2 должно превышать хотя бы 0,5. Если попробовать несколько различных моделей, проверка некоторых (наименее удачных) может давать значение R2 < 0, что не является ошибкой в расчетах, так как R2 не всегда является квадратом какого-то числа.

Отрицательный коэффициент говорит о том, что модель, которая на любых входных данных возвращается одно и то же значение, объясняет результат (длину срока, сумму штрафа) лучше, чем анализируемая нами модель. То есть модель не имеет прогностической ценности. С подробным расчётом R2 , используемой для оценки адекватности моделей в данной работе, можно ознакомиться в библиотеке sklearn.metrics: r2_score.

Для всех моделей сплит обучающей и тестовой выборок был задан 80% к 20% — т.е. обучение модели на 80% случаев (политических дел) и тестирование модели на 20% случаев.

В скачанной нами базе данных было 820 политических дел (случаев). Для нашего анализа мы вынуждены были исключить те случаи, в которых отсутствовали один или несколько из следующих параметров: пол, год рождения, вид деятельности, правонарушение, суть приговора; а также строгость меры наказания (длина срока, тип наказания, режим учреждения).
Разметка данных находится в Приложении.
В качестве входных данных мы использовали: Правонарушение, Пол, Год рождения, Вид деятельности, Регион.

Типы правонарушений:
  • Деструктивный протест
  • Дискредитация ВС РФ
  • Мирный протест
  • Отказ от выполнения приказа
  • Терроризм
  • Фейки о деятельности ВС РФ
  • Экстремизм

Регионы:
  • Так называемые “новые” территории
  • Дальневосточный округ
  • Приволжский округ
  • Северо-Западный округ
  • Северо-Кавказский округ
  • Сибирский округ
  • Уральский округ
  • Центральный округ
  • Южный округ

Целевые объясняемые функции (предсказываемые параметры): приведенный срок (см ниже), сумма штрафа.

Приведённый срок = срок * k1 * k2,

где k1 — к-т строгости режима (k1=1 для обычного заключения, k1=2 для заключения в колониях строгого режима),

k2 — к-типа срока (k2=2 – обязательные работы, k2=3 – ограничение свободы, k2=4 – лишение свободы),

Срок — количество месяцев лишения/ограничения свободы.

Также мы исключили из выборки 8 случаев, где наказанием было принудительное заключение в медицинское учреждение.

Конечно же, исключение почти двух третей случаев из нашего анализа ослабевает мощность конечного результата, однако, если существует четкая зависимость, то мы ее увидим.
АНАЛИЗ

1. Random Forest Regressor

В ходе попыток предсказать поведение судебной системы использовались конкурирующие случайные леса, созданные с помощью библиотеки sklearn.ensemble на python, отличающиеся друг от друга параметром «n_estimators» - количеством деревьев леса N.

Как мы видим, самое высокое значение R2 не превышало даже 0.5. То есть мы не увидели никакой закономерности в поведении судебной системы.
2. Нейросеть

Нейросети созданы с использованием библиотеки tensorflow.keras в python.
Полный цикл обучения — 10 000 эпох с затуханием коэффициента обучения каждые 1000 эпох.

Каждая нейросеть состоит из входного слоя, нескольких слоёв «Dense», сглаживающего слоя «Flatten» и выходного слоя. Функция активации — Rectified Linear Unit (ReLU).

Полное описание тел нейросетей на python — в Приложении (доступно для скачивания).

Конкурирующие нейросети отличаются друг от друга количеством слоев и количествами нейронов в слоях:
  • NN1 – малая
  • NN2 – средняя
  • NN3 – большая

Ни одна из конкурирующих нейросетей не достигла адекватного значения R2. Результаты оказались хуже, чем у Random Forest Regressor. R2 даже не вышло на положительные значения.

К примеру, вот график развития Большой нейросети (абсцисса - эпохи обучения, ордината - R2):
Чтобы проверить работу моделей, мы проверили их на искусственных данных.

Искусственные данные — это те же объясняющие переменные, на основании которых через сложное функциональное преобразование были рассчитаны объясняемые переменные, после чего на объясняющие переменные был наложен статистический шум в виде комбинации равномерно распределенных шумов. Таким образом в итоге получилась не строгая функциональная зависимость объясняемых переменных от объясняющих, а, как это бывает в реальности, зависимость с некоторой дисперсией.

В искусственных данных мы заведомо знаем, что объясняющие и объясняемые параметры коррелируют. Значит модель, должна найти эту корреляцию, если она пригодна для анализа. Таким образом станет понятно, несколько выбранные нами модели подходят для анализа рассматриваемых в статье данных ОВД-Инфо.

Сам вид функциональной зависимости не имеет отношения к реальности и введен только для проверки работоспособности моделей:
Было проведено аналогичное обучение для конкурирующих моделей:

Random Forest Regressor
Результаты конкурирующих лесов примерно одинаковы и говорят о неплохой объясняющей способности метода для искусственных данных.

Нейросети на искусственных данных показали себя лучше. Для каждой нейросети отслеживалась динамика обучения: значение R2 после прохождения каждых 50 эпох обучений. Всего эпох обучения было 10 000.

На графиках по оси абсцисс — последовательные номера эпох обучения, на оси ординат – значение R2. Подробнее о том, как рассчитывается это значение в библиотеке Keras, читайте здесь.

Средняя NN

R2=0.95
Средняя нейросеть выходила на плато (когда последующие эпохи обучения уже практически не влияют на объясняющую способность модели) довольно долго, но в результате дала чуть лучший результат, чем большая.

Большая NN

R2=0.93

Большая нейросеть быстрее вышла на «плато». Ее график обучения близок к графику средней.

Малая NN

R2=0.92
Малая нейросеть выходила на плато дольше других и в результате дала худший результат.

ВЫВОД

В ходе анализа данных были построены 6 различных моделей, которые прогнозируют длину срока и величину штрафа на основе данных о типе правонарушения, пола, возраста, региона и вида деятельности подсудимого.

Модели показали неплохие результаты на искусственно сгенерированных зашумленных данных, что говорит об их способности находить объяснения в целом, но не смогли показать хотя бы приемлемые (R2>0.5) результаты на реальных данных.
Мы также призываем вас помогать политзаключенным, писать письма** и открытки или материально помогать правозащитным организациям, в том числе ОВД-Инфо. Помимо этого можно помочь передачей вещей и еды политзаключенным. НО! Очень важно НЕ делать это самостоятельно. ОВД-Инфо периодически публикует запросы от политзаключенных о еде или вещах. Вы можете связаться с ними, и, только после получения инструкции, передать вещи или еду. Делая это самостоятельно, вы только навредите, поскольку передачи лимитированы, а родные и друзья, скорее всего, имеют график передач. Делая передачу самостоятельно, вы можете помешать передаче от родных и близких.

Примечание * — точного определения понятия “политический заключенный” не существует. Организации вроде Мемориала (признан иноагентом и ликвидирован в РФ) или Совы (признан иноагентом и ликвидирован в РФ) имеют свои критерии определения “политических заключенных” и исходя из этих критериев признают или нет человека политическим заключенным. Так, в Мемориале ориентируются на резолюцию ПАСЕ. Однако организации, признающие статус политзаключенных, не в состоянии охватить всех людей. Некоторые статьи, к примеру, вводящие цензуру, признаются нарушающими права людей. Следовательно, осужденные по этим статьям люди могут считаться политическими заключенными. Поэтому, говоря о политзаключенных или политически мотивированных делах, мы используем более общее определение.

Примечание** — ранее мы публиковали составленный активистами подробный гайд о том, как писать письма политзаключенным.
Приложение.

Ссылка на репозиторий — https://github.com/AlexandrFomichev/Test_Tasks

Файл "OVD_DF_NN.py" содержит сами модели, но там не весь набор вариантов нейросети, а только один из. Люди, которые немного разбираются в машинном обучении и знают python, могут легко настроить другие варианты нейросети самостоятельно.

Файл "prepareData.py" нужен для работы первого файла.

Файл “Разметка данных Итог.xlsx” — это файл с данными.
24 АВГУСТА / 2024
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website