Исследователи из Дании, Швейцарии и США разработали нейросеть, которая способна предсказывать смерть человека с точностью в 78%. Результаты эксперимента по «прогнозированию жизненных событий» были опубликованы в журнале Nature Computational Science. Предсказательная модель получила название Life2vec.
Нейросеть обучалась на основе открытых баз данных Национального регистра пациентов и Статистического управления Дании. Использованная информация включала в себя сведения о состоянии здоровья, доходах, образовании, профессиональной принадлежности и других характеристиках шести миллионов датчан. Набор данных охватывал период с 2008 по 2016 год.

Исследователи протестировали нейросеть с помощью выборки1, в которую вошли люди в возрасте от 30 до 65 лет. У этой демографической группы смертность предсказать труднее всего, пояснил CNN Сун Леманн, руководитель эксперимента. Половина датчан, чьи персональные данные составили итоговый датасет2, умерла после 2016 года. Другая половина на момент проведения эксперимента была жива. Перед искусственным интеллектом (ИИ) стояла задача определить, кто из людей умрет в течение четырех лет, а кто – продолжит жить. Точность прогноза Life2vec достигла 78%.
В основу программы легла модель «трансформер»3, которая изначально создавалась для работы с языковыми задачами. В отличие от более распространенных рекуррентных нейросетей4, которые обрабатывают информацию по порядку, трансформеры способны проводить параллельный анализ данных. Это ускоряет машинное обучение, а также позволяет учитывать весь контекст, в котором находится тот или иной элемент последовательности, объясняет «Коммерсантъ».

Чтобы использовать трансформерную модель в исследовании, ученые перекодировали все необходимые данные в простые предложения. CNN приводит примеры фраз, которые обрабатывала нейросеть: «В сентябре 2012 года Франциско работал охранником в замке в Хельсингере и получил за это двадцать тысяч датских крон», «На третьем году обучения в средней школе-интернате Гермиона посещала пять факультативных курсов». Жизнь каждого человека «укладывалась» учеными в текст, состоящий из нескольких предложений. Только после этого исследователи загружали информацию в Life2vec. «Нейросеть рассматривала человеческую жизнь как длинную последовательность событий, подобно тому, как предложение в языке состоит из ряда слов», – сказал Леманн в пресс-релизе Датского технического университета.
Ученые утверждают, что в эксперименте их интересовало не столько само предсказание, сколько те аспекты данных, которые Life2vec использовала для построения ответов. Так, предположения модели соответствовали выводам разных исследований в области социальных наук. Например, нейросеть прогнозировала, что у людей, занимающих руководящую должность или имеющих высокий доход, при прочих равных условиях больше шансов выжить, чем у подчиненных или менее обеспеченных граждан. Принадлежность к мужскому полу или наличие психических заболеваний модель связывала с более высокой вероятностью скорой смерти.

У эксперимента было несколько ограничений, из-за чего могли пострадать достоверность и полнота полученных результатов, признаются ученые. Исследователи тестировали нейросеть на ограниченной выборке, которая включала в себя только жителей Дании, страны с развитой системой здравоохранения и инфраструктурой. Точность ответов Life2vec может оказаться существенно ниже, если модель попытается предсказать смерть граждан других государств. Более того, не каждый житель Дании был внесен в базу данных, использованную для обучения нейросети. «Если у кого–то нет официальной зарплаты или если кто-то решает не сотрудничать с системой здравоохранения – у нас нет доступа к их данным [так как они не включены в национальный реестр]», – сказали ученые.
Использование Life2vec сопряжено с рядом этических проблем. Модель находится в открытом доступе и может применяться в работе страховых компаний. Из-за этого возникает риск дискриминации тех людей, которым нейросеть предсказала скорую смерть. «В будущем такая нейросеть усложнит продажу страховки. Вы не сможете застраховаться от рисков, если эти риски уже точно известны», – поделился опасениями с CNN доктор Артур Каплан, руководитель отдела медицинской этики Нью-Йоркского университета.
- Выборка – часть общей совокупности элементов, которая охватывается экспериментом.
- Датасет – это обработанный и структурированный массив данных.
- Трансформер – вид нейросетей, который хорошо подходит для обработки последовательностей данных. Самый популярный пример таких данных – это предложение, которое можно считать упорядоченным набором слов.
- Рекуррентные нейронные сети (RNN) — это класс нейронных сетей, специально разработанных для обработки и анализа последовательных данных.

