ИИ: Необъяснимый, непредсказуемый, неконтролируемый

Размер шрифта:   13
ИИ: Необъяснимый, непредсказуемый, неконтролируемый

© All Rights Reserved

Authorised translation from the English language edition published by CRC Press, a member of the Taylor & Francis Group LLC

© Издание на русском языке, дизайн. Nova Creative Group, 2025

Предисловие

«Сотворили его люди, но управлять им они не могут», – писал Джон Стейнбек в своем романе «Гроздья гнева» почти сто лет назад. И хотя речь шла о банке, сегодня эти слова можно отнести и к проблематике искусственного интеллекта (AI).

Новостной поток, который сопровождает всемирную гонку в создании искусственного сверхинтеллекта, постоянно приносит нам сообщения о превосходстве машин над человеком в решении задач. Эти успехи не только создают завышенные ожидания к разработчикам AI, но и вызывают опасения за будущее человечества среди ученых и инженеров.

Обеспокоенность эта серьезна – пионеры отрасли готовы к радикальным изменениям карьеры, чтобы обратить внимание общества на проблему контроля над AI. И хотя технология создается нами, людьми, сможем ли мы ее контролировать? Один из героев книги Ямпольского, американский специалист по AI Элиезер Юдковский, предупреждает, что «наибольшая опасность искусственного интеллекта заключается в том, что люди слишком рано решают, что понимают его».

Более того, если посмотреть в историческом плане, то первая, по-настоящему значимая технология, оказавшаяся в руках человека, – расщепление атома. Она разрабатывалась по инициативе государств, и до сих пор использование атомной энергии тщательно контролируется во всех странах. Вторая – преобразование информации. Однако есть одно важное отличие – впервые радикальная, трансформационная технология развилась и сосредоточивалась в частных компаниях.

В публичном поле сегодня представлено множество мнений о контролируемости AI. Но ситуация больше напоминает библиотеку после ремонта – книги на полках хорошие, но не на своих местах. На этом фоне работа доктора Ямпольского появилась в правильный момент: ученый предлагает несколько методов и классификаций для ответа на вопрос, можем ли мы контролировать AI. И кажется, это именно то, что нужно современному читателю, – тщательно и аккуратно разобраться в теме, используя научный подход. Обрисовывая долгосрочную перспективу, автор дает однозначный ответ – на существующей технологической парадигме мы не можем полностью и однозначно контролировать AI и последствия его применения.

Однако отнести Ямпольского к техноскептикам нельзя. Со свойственной ученым основательностью он отделяет зерна от плевел: надо использовать слабый AI там, где это полезно, например в медицине, и тщательно изучать все последствия, где есть риски. В случае искусственного суперинтеллекта любая ошибка может стать последней для человечества. И чтобы избежать катастрофических сценариев, необходимы исследования новых подходов к разработке моделей. Ямпольский считает, что любое определение AI критически ошибочно, если в нем не используется слово «безопасность».

Именно поэтому книга достойна внимания руководителей технологических компаний, разрабатывающих и внедряющих AI. Кроме того, ее будет полезно прочитать всем исследователям, вовлеченным в создание AI, – осознание небезопасности этой технологии должно стать необходимым шагом для всех дальнейших работ. Единственное, что мы не можем себе позволить, – игнорировать риски необъяснимого, непредсказуемого и неконтролируемого AI.

Альберт Ефимов, к. филос. н.,Вице-президент – директор управления исследований и инноваций ПАО СбербанкЗаведующий кафедрой инженерной кибернетики Университет науки и технологий МИСИС

Моему другу Яану Таллинну, человеку, сделавшему для мира больше, чем вы когда-либо узнаете.

Благодарности

Я хотел бы поблагодарить многих людей за помощь, советы, замечания к моей работе, содействие в исследованиях – или просто за то, что они так или иначе подталкивали мои размышления. Одних мне повезло встретить лично, другие остались моими виртуальными собеседниками – но для идей это неважно, так что все эти люди в равной степени замечательны. Уверен, что я многих упустил, ведь я не обладаю сверхразумом, да и память у меня скверная. Заранее приношу извинения всем, кого я здесь не упомянул. Вклад многих выдающихся ученых я признаю, цитируя их работы, ведь это главное признание для любого исследователя. Большое спасибо вам: Макс Тегмарк, Иэн Гудфеллоу, Кеннет Риган, Эдуард Френкель, Себастьен Зани, Сорен Эльверлин, Мелисса Хелтон, Анна Хусфельдт, Торе Хусфельдт, Дэвид Келли, Дэвид Джилк, Скотт Ааронсон, Роб Бенсингер, Сет Баум, Тони Барретт и Алексей Турчин. Последними, но не в последнюю очередь я хочу поблагодарить Яана Таллинна и Фонд выживания и процветания (Survival and Flourishing Fund), а также Илона Маска и Институт будущего жизни (Future of Life Institute) за частичное финансирование моей работы, посвященной безопасности ИИ.

Об авторе

Доктор Роман Владимирович Ямпольский – доцент, штатный сотрудник кафедры компьютерно-технических наук Инженерной школы Дж. Б. Спида при Луисвиллском университете. Основатель и действующий руководитель лаборатории кибербезопасности при Луисвиллском университете, автор множества книг, в т. ч. «Искусственный сверхинтеллект. Футуристический подход» («Artificial Superintelligence: A Futuristic Approach»), редактор сборников «Безопасность и защита ИИ» («AI Safety and Security») и «Технологическая сингулярность» («The Technological Singularity»). За время работы в Луисвиллском университете Роман Ямпольский получил звания почетного профессора-преподавателя, профессора года, самого популярного преподавателя своего факультета, эксперта в техническом образовании и награду за выдающееся начало карьеры в образовании, вошел в четверку лучших преподавателей факультета и десятку лучших профессоров года, а также удостоился многих других наград и почетных званий. Роман Ямпольский – старший член Общества изучения сильного и слабого ИИ института IEEE, член Академии наук штата Кентукки, ранее был научным руководителем Machine Intelligence Research Institute (MIRI) и Global Catastrophic Risk Institute (GCRI).

Роман Ямпольский получил степень доктора философии на кафедре компьютерно-технических наук университета штата Нью-Йорк в Буффало. Четыре года был стипендиатом Программы интегрированного обучения аспирантов и исследовательских стажировок Национального научного фонда США (National Science Foundation, NSF). Перед докторантурой Роман Ямпольский получил комбинированную степень бакалавра/магистра информатики (с отличием) в Рочестерском технологическом институте (шт. Нью-Йорк, США). После защиты докторской диссертации занял должность члена-корреспондента в Центре расширенного пространственного анализа Университетского колледжа Лондона в Лондонском университете. Ранее проводил исследования в Лаборатории прикладных вычислений в Рочестерском технологическом институте и в Центре комплексной биометрии и датчиков университета штата Нью-Йорк в Буффало. Роман Ямпольский – выпускник Университета сингулярности (летняя программа последипломного образования, 2012 г.) и приглашенный научный сотрудник Института сингулярности (Институт исследований машинного интеллекта).

Основная сфера интересов Романа Ямпольского – безопасность ИИ. Он автор более 200 публикаций, включая многочисленные статьи в журналах и книгах. Его исследования цитируются тысячами ученых и рассматриваются в популярных журналах как в США, так и за рубежом. Работы Романа Ямпольского упоминаются более 10 000 раз в различных статьях в СМИ более чем на 40 языках.

Глава 1

Введение[1]

1.1. Введение

Стремительный прогресс искусственного интеллекта (ИИ) за последнее десятилетие сопровождался и несколькими громкими провалами [1]. Стала очевидной необходимость следить за тем, чтобы ИИ работал на благо человечества. Так возникла новая сфера исследований – безопасность ИИ [2], охватывающая широкий спектр областей. Число публикаций по безопасности ИИ в последнее время уверенно растет [3–10].

Однако в основе всех этих исследований лежит предположение, что задача контроля ИИ в принципе разрешима, хотя не существует ни строгих математических доказательств тому, ни предпосылок к их появлению. В компьютерных науках принято сначала определить, относится ли задача к числу решаемых, а затем уже вкладывать ресурсы в ее решение.

Все признают, что контроль ИИ, возможно, является одной из важнейших проблем, стоящих перед человечеством, – и тем не менее, эта сфера остается малопонятной, недостаточно изученной и плохо исследованной. Задачи компьютерных наук принято делить на решаемые, нерешаемые, неразрешимые или имеющие частичное решение – но мы до сих пор не знаем, к какому виду относится задача контроля ИИ. Мы предполагаем, что в некоторых ситуациях возможны определенные формы контроля, но существует и вероятность того, что во многих случаях частичного контроля будет недостаточно. Пока мы не понимаем ни природы, ни осуществимости задач контроля ИИ, мы не сможем выработать соответствующую методику [11].

Потенциальные методы контроля сильного ИИ (Artificial General Intelligence, AGI) делят две общие категории: методы, основанные на контроле возможностей, и методы контроля мотивации [12]. Первые призваны минимизировать вред от систем сильного ИИ, помещая их в ограниченную среду, оснащенную механизмами (триггерами) останова. Методы контроля мотивации предполагают разработку систем сильного ИИ, которые будут наделены желанием не причинять вреда даже без ограничения их возможностей. Широкого признано, что контроль возможностей – в лучшем случае временная мера и не может считаться долгосрочным решением задачи контроля сильного ИИ [12]. Кроме того, использование средств контроля мотивации может потребоваться еще до запуска системы – на стадии разработки и обучения.

1.2. Задача контроля ИИ

Мы определяем проблему контроля ИИ следующим образом:

«Как человечество может безопасным образом осуществлять контроль, используя высшую форму интеллекта с выгодой для себя?»

Это фундаментальная проблема безопасности ИИ, которая сама по себе посвящена обеспечению безопасности интеллектуальных систем для всех заинтересованных сторон.

В настоящее время для обеспечения безопасности ИИ чаще всего рассматривают метод согласования ценностей[2]. Тем не менее, несмотря на долгие годы исследований, степень безопасности все еще сложно протестировать или точно измерить даже в программном обеспечении (ПО), которое не используют ИИ [13]. В лучшем случае мы, пожалуй, сможем отличить совершенно безопасную систему от системы, сравнимой по безопасности с человеком, выполняющим ту же задачу. Но вряд ли общество смирится с ошибками машин, даже если они возникают не чаще, чем человеческие ошибки. Мы ожидаем, что машины будут работать лучше нас, и не согласимся на частичную безопасность настолько мощных систем. Влияние ИИ (как положительное, так и отрицательное [3]) во многом зависит от его способностей. В том, что касается экзистенциальных угроз, частичная безопасность недопустима.

На первый взгляд кажется, что для решения задачи контроля нужно разработать машину, в точности выполняющую команды человека. Но такая форма контроля неоптимальна – команды могут быть противоречивыми или парадоксальными, человеческие языки неоднозначны [14], а постановка задач бывает некорректной (хотя желательно предусмотреть возможность обратной связи от человека). Предполагается, что для решения этой проблемы ИИ должен стать идеальным советником, который будет избегать проблем с неверным толкованием прямых команд и не будет допускать поступления команд от злоумышленников.

Считается, что отсутствие контроля ИИ приведет к настолько серьезным последствиям, что даже при малейшей вероятности появления враждебного ИИ потенциальный вред приобретет астрономический масштаб – а значит, исследования по безопасности ИИ в любой случае окупятся. Здравый смысл говорит о том, что огромный негативный эффект даже при его малой вероятности означает очень большой вред. И такой вариант развития событий действительно необходимо воспринимать всерьез. К тому же в реальности шансы несогласованности ИИ с целями и нормами его создателей довольно высоки. Это значит, что в отсутствие эффективной программы безопасности ИИ единственно возможный результат – почти гарантированное отрицательное событие с потенциалом экзистенциальной катастрофы. Таким образом, статистика говорит в пользу масштабного исследования безопасности ИИ. Речь о не о сценариях с низкими рисками и высокой отдачей – риски велики, а результатом будет предотвращение худшего. Неудивительно, что многие считают, что это самая серьезная задача, когда-либо стоявшая перед человечеством. Мы выбираем между нашим процветанием и нашим уничтожением. На весах находится судьба мира, поэтому доказательство решаемости или нерешаемости задачи контроля ИИ – действительно важнейшая проблема всех времен.

1.3. Что мешает контролировать ИИ

Для того чтобы контролировать модель сильного ИИ, нам нужны инструменты, которые обеспечат ее объяснимость, предсказуемость и проверяемость [15]. Но возникает вопрос доступности этих инструментов для нас.

• Концепция необъяснимости ИИ предполагает, что невозможно дать на 100 % точное и понятное объяснение конкретных решений интеллектуальной системы. Ее дополняет концепция непостижимости ИИ, которая означает, что человек не сможет до конца понять любое совершенно точное объяснение решений интеллектуальных систем [16].

• Непредсказуемость ИИ, которая также мешает достижению безопасности ИИ, – это неспособность человека точно и закономерно предсказывать действия интеллектуальной системы, которые она предпримет для достижения своих целей, даже если известны ее конечные цели [17]. Непредсказуемость связана с необъяснимостью и непостижимостью ИИ, но не совпадает с ними полностью. Она не означает, что невозможен статистический анализ с точностью выше случайной, но указывает на общее ограничение эффективности анализа, особенно ярко выраженное у передовых систем сильного ИИ в новых областях.

• Непроверяемость – фундаментальное ограничение проверки математических доказательств, ПО, поведения интеллектуальных агентов и любых формальных систем [18]. Все более очевидно, что у нас есть лишь вероятная уверенность в правильности математических доказательств и программных решений – и весьма ограниченная возможность проверки интеллектуальных агентов.

Многие исследователи предполагают, что задачу контроля ИИ можно решить, но никаких доказательств или подтверждений тому нет. Поэтому прежде чем приступать к созданию контролируемого ИИ, важно показать, что задача в принципе имеет решение, чтобы не тратить ценные ресурсы понапрасну. Бремя доказательств лежит на тех, кто утверждает, что эта задача вполне решаемая, а отсутствие таких доказательств в настоящее время свидетельствует о том, насколько рискованно разрабатывать сильный ИИ. С большой вероятностью ИИ не поддается контролю – это можно доказать приведением данной проблемы к задаче контроля со стороны человека.

Есть множество открытых вопросов о контролируемости ИИ: можно ли решить задачу контроля? Возможно ли это в принципе? Возможно ли это на практике? Можно ли при этом добиться достаточного уровня точности? Сколько времени это займет? Успеем ли мы это сделать? Каковы затраты энергии и вычислительных мощностей для данной задачи? На что будет похоже решение? Каким будет минимально осуществимое решение? Как мы поймем, что задача решена? Поддается ли решение масштабированию при дальнейшем развитии системы? Мы считаем, что интеллект без ограничений нельзя контролировать, а интеллект с ограничениями не сможет создавать что-либо новое. Если не контролировать сильный ИИ, то, кто бы ни программировал его, последствия будут катастрофическими для всех и в первую очередь – для его создателей. Неконтролируемый сильный ИИ никому не принесет пользы.

Отсутствуют публикации, подтверждающие, что менее интеллектуальный агент может бесконечно сохранять контроль над более интеллектуальным. Разрабатывая системы, уступающие нам по интеллекту, мы сохраняем контроль над ними, но если системы станут умнее нас, мы потеряем контроль. Если же мы пытаемся сохранить контроль, разрабатывая все более продвинутые интеллектуальные агенты, мы попадаем в «Уловку-22»[3], так как механизм контроля должен быть умнее контролируемого агента или хотя бы иметь тот же уровень интеллекта. Это приведет к тому, что для контроля систем, возможности которых постоянно растут, потребуется целая иерархия интеллектуальных систем.

Более того, задача контроля более мощного интеллекта усложняется и, очевидно, становится недоступной для агентов с постоянным уровнем интеллекта. Контролировать ситуацию будет тот, кто умнее, и он же будет принимать окончательные решения. Насколько нам известно, на данный момент нигде в мире не существует не только действующего механизма контроля ИИ, который можно было бы масштабировать до ИИ человеческого уровня и (когда-нибудь) выше, но даже представления о том, каким мог бы быть прототип такого механизма. Никто до сих пор не доказал наличия таких технологий – а ведь если кто-то утверждает, что задача контроля ИИ решаема, он должен доказать это. Но пока, судя по всему, наша способность создавать интеллектуальное ПО намного выше нашей возможности контролировать или даже проверять его.

1.4. Определение безопасного ИИ

В статье «Определение искусственного интеллекта» («On Defining Artificial Intelligence») Пэй Ван дает следующее определение [19]: «Интеллект – это способность системы обработки информации адаптироваться к среде и при этом работать в условиях недостаточных данных и ресурсов» [20]. Ван не только дает совершенно адекватную формулировку, но и рассматривает другие определения интеллекта, уже ставшие стандартом [21]. Однако есть существенная разница между определением интеллекта вообще или человеческого интеллекта в частности и определением ИИ, что и подразумевает заголовок работы Вана. В этой главе я бы хотел обозначить фундаментальные различия между ИИ и естественным интеллектом [22].

Обычно ИИ разрабатывают специально для получения пользы создателями и пользователями, и в определение ИИ важно включить эту отличительную особенность. Ван лишь мельком упоминает в своей статье концепцию безопасности ИИ [12, 23–26] и не анализирует ни ее, ни другие смежные концепции. Но я считаю неполными, а значит, опасными определения ИИ, в которых не упоминается в явном виде безопасность или хотя бы ее составные части: управляемость, объяснимость [27], постижимость, предсказуемость [28] и возможность внесения поправок [29].

Разработка сильного ИИ предсказуемо приведет к сдвигу вектора развития человеческой цивилизации [30]. Чтобы получить выгоду, избежав подводных камней настолько мощной технологии, важно иметь возможность контролировать ее. Полный контроль над интеллектуальной системой [31] подразумевает возможность ограничить ее производительность [32] – например, установить ей потолок, эквивалентный определенному IQ. Дополнительные средства контроля могли бы отключать систему [33], включать и отключать ее сознание [34, 35], свободу воли, собственный выбор цели и задавать моральные принципы [36], которыми система должна руководствоваться в принятии решений. Также необходима возможность вносить поправки в систему после ее развертывания [1, 37] для устранения проблем, обнаруженных в ходе эксплуатации. Система ИИ должна быть способна объяснить свои решения понятным человеку языком, насколько это теоретически возможно. А разработчики и конечные пользователи должны иметь возможность в общих чертах прогнозировать ее поведение. При необходимости систему нужно ограничить определенной средой [38–40] или сократить доступные ей вычислительные ресурсы. Работа ИИ должна быть максимально непредвзятой и прозрачной, ИИ должен быть доброжелательным [41] и безопасным [2].

Соответственно, мы предлагаем следующее определение ИИ, дополняющее формулировку Вана: «Искусственный интеллект – это полностью контролируемый агент, система обработки информации которого обладает способностью адаптироваться к среде, работая в условиях недостаточных данных и ресурсов».

1.5. Управляемость ИИ

Чтобы в будущем ИИ приносил пользу всему человечеству, инициативы по управлению ИИ пытаются подчинить ИИ различным правительствам, международным организациям и транснациональным корпорациям мира, которые совместно разрабатывают нормативную базу и отраслевые стандарты. Поскольку пытаться непосредственно управлять ИИ бессмысленно, этот термин подразумевает управление исследователями и создателями ИИ – иными словами, им разрешают разрабатывать определенные продукты и услуги определенными способами. Возможность управлять учеными и инженерами, работающими над ИИ, зависит от сложности создания сильного ИИ.

Если окажется, что вычислительные ресурсы и сбор данных, необходимые для создания сильного ИИ, сравнимы по стоимости и объему человеческого капитала с «Манхэттенским проектом», в рамках которого США разработали атомную бомбу, правительства получат целый ряд способов, чтобы направлять исследователей и приспособить будущий ИИ под свои требования. С другой стороны, если выяснится, что первый сильный ИИ, или т. н. «исходный» ИИ, который может вырасти в полномасштабный сверхинтеллект, может создать подросток с тысячедолларовым ноутбуком у себя в гараже (вариант менее вероятный, но все же возможный), то попытки контроля со стороны государств могут оказаться тщетными. В реальности же мы видим, что известные из истории попытки регулировать сферу ПО (например спам, компьютерные вирусы, дипфейки) дали весьма ограниченный результат. Когда сильный ИИ обретет независимость, он может стать неконтролируемым, поскольку традиционные методы распределения ответственности, принуждения и санкций несостоятельны по отношению к ПО.

Но даже в том благоприятном случае, если дорогостоящее управление ИИ все же окажется возможным, останется ряд технических ограничений предсказуемости [17], объяснимости [16] и контролируемости ИИ [42]. Как следствие, управляемость ИИ, для которой требуются как минимум эти три параметра, тоже будет достижима лишь частично, а значит, ИИ, превосходящий интеллект человека, в некоторых важных аспектах выйдет за пределы нашего контроля. Уполномоченные лица при этом не захотят брать на себя ответственность за ошибки [43] или намеренные действия ИИ, даже если они были допущены или выполнены в установленных и регулируемых рамках – а значит, высокопроизводительный, изобретательный, неконтролируемый сильный ИИ сможет косвенно или даже напрямую контролировать некоторые организации и лица, которым будет доверено управлять интеллектуальным ПО.

1.6. Выводы

Можно обеспечить безопасность систем слабого ИИ (Narrow Artificial Intelligence, NAI), поскольку таким системам доступно лишь ограниченное число вариантов выбора, а значит, все неблагоприятные решения и грубые ошибки можно предусмотреть и принять меры. Но для сильного ИИ пространство возможных решений и ошибок бесконечно, т. е. независимо от числа устраненных уязвимостей в системе всегда останется бесконечное множество потенциальных проблем. И это бесконечное пространство возможностей нельзя ни полностью отладить, ни даже просто проверить на безопасность. То же справедливо для защиты интеллектуальных систем. У слабого ИИ площадь атаки конечна, а сильный ИИ дает злоумышленникам и хакерам безграничный простор для действий [44]. В смысле защиты это означает, что защитникам приходится оборонять бесконечный рубеж, а нападающим для преодоления защиты достаточно найти одну уязвимую точку. Кроме того, каждый новый патч для устранения ошибок защиты и каждый новый механизм защиты создают новые уязвимости – и так до бесконечности. На данный момент исследования безопасности ИИ – это фактически поиск новых видов сбоев и создание патчей для их устранения – по сути, фиксированный набор правил для бесконечного набора задач. Эта проблема носит фрактальный характер: в каком масштабе ее ни изучай, на каждом уровне возникает множество сложностей. Таким образом, проблема контроля ИИ обладает фрактальной невозможностью решения: она содержит нерешаемые подзадачи на всех уровнях абстракции и нерешаема в целом [45].

Следует помнить, что отсутствие контроля ИИ также означает, что злоумышленники не смогут полностью обратить ИИ себе на пользу. Крайне важно, чтобы любой способ разработки и внедрения ИИ предусматривал механизм отмены принятых решений, если они окажутся нежелательными. Но текущие подходы к разработке ИИ не используют этого средства защиты.

1.7. Об этой книге

Во вступительной главе мы закладываем фундамент для центральных тем, отраженных в названии книги, трех принципов невозможности ИИ: необъяснимости, непредсказуемости, неконтролируемости. Главная мысль заключается в том, что по мере своего развития ИИ становится все менее предсказуемым, его все труднее объяснить и контролировать. В каждой главе эти темы критически анализируются, автор углубляется в детали, выдвигая на передний план наиболее важные аспекты ИИ. Главы не связаны друг с другом, поэтому их можно читать в любом порядке или пропускать.

В последующих главах мы рассмотрим некоторые утверждения о непредсказуемости, необъяснимости и непостижимости ИИ, подразумевающие, что действия ИИ сложно спрогнозировать и что принципы, лежащие в основе его решений, остаются загадкой даже для его создателей. Еще одна сложная концепция – непроверяемость – подчеркивает трудности проверки доказательств, создаваемых ИИ, и тем самым бросает тень на его непогрешимость.

Как обсуждается в главе «Невозможность владения», сама суть владения ИИ конфликтует с традиционными представлениями об ответственности, что делает крайне затруднительным владение продвинутыми интеллектуальными системами. При этом концепция неконтролируемости ставит под сомнение нашу способность управлять возрастающей мощью искусственного интеллекта, особенно сильного ИИ.

В следующих главах описаны потенциальные угрозы ИИ и условия их проявления. В главе «Пути к опасному ИИ» рассматриваются потенциальные способы получить вредоносный ИИ. Глава «Сбои» экстраполирует потенциальные риски и беспрецедентные последствия сбоев ИИ. В каждой последующей главе приводятся дополнительные аргументы в пользу того, что по мере своего развития ИИ может в корне изменить общество, причем необязательно на пользу человеку.

Во второй половине книги подробно разбираются противоречивые вопросы правообъектности и сознания ИИ. Оцениваются последствия наделения ИИ юридическими правами, рассматриваются концепции возможности возникновения эгоистичных мемов и взлома правовой системы.

В главе «Персонализированные вселенные» изучается концепция согласования ценностей. В этой области много сложностей, но она предлагает пути оптимального согласования ИИ с индивидуальными человеческими ценностями.

Глава «Человек ≠ сильный ИИ» посвящена различиям между способностями сильного ИИ и человекоподобного ИИ. В ней утверждается, что человек, по сути, не обладает общим интеллектом.

В последней главе, «Скептицизм», изучаются отрицание и недооценка рисков, связанных с ИИ, проводятся параллели с другими формами научного скептицизма.

Читателя ждет увлекательный и иногда пугающий мир ИИ. Зная эти базовые концепции и понимая их следствия, человек сможет лучше подготовиться к будущему, которое будет создаваться под действием ИИ. Мы надеемся, что эта книга поможет читателю проникнуться сложностями и проблемами ИИ и осознать, что на пути к ИИ придется не только создавать интеллектуальные машины, но и разбираться в их сложных отношениях с человеком и обществом. В путь!

Использованные материалы

1. Yampolskiy R.V. Predicting future AI failures from historic examples. Foresight, 2019. 21(1): p. 138–152[4].

2. Yampolskiy R.V. Artificial Intelligence Safety and Security. 2018: Chapman and Hall/CRC Press.

3. Cave S., Dihal K. Hopes and fears for intelligent machines in fiction and reality. Nature Machine Intelligence, 2019. 1(2): p. 74–78.

4. Avin S., et al. Filling gaps in trustworthy development of AI. Science, 2021. 374(6573): p. 1327–1329.

5. Beridze I., Butcher J. When seeing is no longer believing. Nature Machine Intelligence, 2019. 1(8): p. 332–334.

6. Tzachor A., et al. Artificial intelligence in a crisis needs ethics with urgency. Nature Machine Intelligence, 2020. 2(7): p. 365–366.

7. Cave S., OhEigeartaigh S. S. Bridging near-and long-term concerns about AI. Nature Machine Intelligence, 2019. 1(1): p. 5–6.

8. Theodorou A., Dignum V. Towards ethical and socio-legal governance in AI. Nature Machine Intelligence, 2020. 2(1): p. 10–12.

9. Nature Machine Intelligence, How to be responsible in AI publication. Nature Machine Intelligence, 2021. 3. https://www.nature.com/articles/s42256-021-00355-6 (дата обращения: 14.10.2024).

10. Crawford K. Time to regulate AI that interprets human emotions. Nature, 2021. 592(7853): p. 167–167.

11. Yampolskiy R. On controllability of artificial intelligence, in IJCAI-21 Workshop on Artificial Intelligence Safety (Al Safety 2021). 2020.

12. Bostrom N. Superintelligence: Paths, Dangers, Strategies. 2014: Oxford University Press[5].

13. Pfleeger S., Cunningham R. Why measuring security is hard. IEEE Security & Privacy, 2010. 8(4): p. 46–54.

14. Howe W., Yampolskiy R. Impossibility of unambiguous communication as a source of failure in Al systems, in AISafety@ IJCAI. 2021.

15. Yampolskiy R.V. AGI control theory, in Artificial General Intelligence: 14th International Conference, AGI 2021, Palo Alto, CA, USA, October 15–18,2021, Proceedings 14. 2022. Springer.

16. Yampolskiy R.V. Unexplainability and incomprehensibility of AI. Journal of Artificial Intelligence and Consciousness, 2020. 7(2): p. 277–291[6].

17. Yampolskiy R.V. Unpredictability of AI: On the impossibility of accurately predicting all actions of a smarter agent. Journal of Artificial Intelligence and Consciousness, 2020. 7(1): p. 109118[7].

18. Yampolskiy R. V. What are the ultimate limits to computational techniques: Verifier theory and unverifiability. Physica Scripta, 2017. 92(9): p. 093001[8].

19. Wang P. On defining artificial intelligence. Journal of Artificial General Intelligence, 2019. 10(2): p. 1–37.

20. Wang P. Non-Axiomatic Reasoning System: Exploring the Essence of Intelligence. 1995: Citeseer.

21. Legg S., Hutter M. Universal intelligence: A definition of machine intelligence. Minds and Machines, 2007. 17(4): p. 391–444.

22. Yampolskiy R.V. On the origin of synthetic life: Attribution of output to a particular algorithm. Physica Scripta, 2016. 92(1): p. 013002.

23. Yampolskiy R.V. Artificial intelligence safety engineering: Why machine ethics is a wrong approach, in Philosophy and Theory of Artificial Intelligence, V. C. Muller, Editor. 2013, Springer. p. 389–396.

24. Yampolskiy R.V., – Safety Engineering for Artificial General Intelligence. Topoi. Special Issue on Machine Ethics & the Ethics of Building Intelligent Machines, 2012.

25. Yudkowsky E. Complex value systems in friendly AI, in Artificial General Intelligence, J. Schmidhuber, K. Thorisson, and M. Looks, Editors. 2011, Springer. p. 388–393.

26. Yampolskiy R.V. Artificial Superintelligence: A Futuristic Approach. 2015: Chapman and Hall/CRC.

27. Yampolskiy, R.V., Unexplainability and Incomprehensibility of Artificial Intelligence. https://arxiv.org/abs/1907.03869 (дата обращения: 14.10.2024).

28. Yampolskiy R.V. Unpredictability of AI. arXiv preprint arXiv:1905.13053, 2019.

29. Soares N., et al. Corrigibility, in Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.

30. Baum S.D., et al. Long-term trajectories of human civilization. Foresight, 2019. 21(1): p. 53–83.

31. Yampolskiy R.V. The space of possible mind designs, in International Conference on Artificial General Intelligence. 2015. Springer.

32. Trazzi M., Yampolskiy R.V. Building safer AGI by introducing artificial stupidity. arXiv preprint arXiv:1808.03644, 2018.

33. Hadfield-Menell D., et al. The off-switch game, in Workshops at the Thirty-First AAAI Conference on Artificial Intelligence. 2017.

34. Elamrani A., Yampolskiy R.V. Reviewing tests for machine consciousness. Journal of Consciousness Studies, 2019. 26(5–6): p. 35–64.

35. Yampolskiy R.V. Artificial consciousness: An illusionary solution to the hard problem. Reti, Saperi, Linguaggi, 2018. (2): p. 287–318: https://www.rivisteweb.it/doi/10.12832/92302 (дата обращения: 14.10.2024)[9].

36. Majot A.M., Yampolskiy R.V. AI safety engineering through introduction of self-reference into felidfic calculus via artificial pain and pleasure, in 2014 IEEE International Symposium on Ethics in Science, Technology and Engineering. 2014, IEEE.

37. Scott P.J., Yampolskiy R.V. Classification schemas for artificial intelligence failures. arXiv preprint arXiv:1907.07771, 2019.

38. Yampolskiy R.V. Leakproofing singularity-artificial intelligence confinement problem. Journal of Consciousness Studies JCS, 2012. 19(1–2): p. 194–214. https://www.ingentaconnect.com/contentone/imp/jcs/2012/00000019/f0020001/art00014 (дата обращения: 14.10.2024).

39. Armstrong S., Sandberg A., Bostrom N. Thinking inside the box: controlling and using an oracle AI. Minds and Machines, 2012. 22(4): p. 299–324.

40. Babcock J., Kramar J., Yampolskiy R. The AGI containment problem, in International Conference on Artificial General Intelligence. 2016. Springer.

41. Muehlhauser L., Bostrom N. Why we need friendly AI. Think, 2014. 13(36): p. 41–47.

42. Yampolskiy R.V. On controllability of AI. arXiv preprint arXiv:2008.04071, 2020.

43. Yampolskiy R.V. Predicting future AI failures from historic examples. Foresight, 2019. 21(1). https://www.emerald.com/insight/content/doi/10.1108/FS-04-2018-0034/full/html (дата обращения: 14.10.2024)[10].

44. Buckner C. Understanding adversarial examples requires a theory of artefacts for deep learning. Nature Machine Intelligence, 2020. 2(12): p. 731–736.

45. Yampolskiy R.V. On the controllability of artificial intelligence: An analysis of limitations. Journal of Cyber Security and Mobility, 2022: p. 321–404. https://doi.org/10.13052/jcsm2245-1439.1132 (дата обращения: 14.10.2024)[11].

Глава 2

Непредсказуемость[12]

По мере обучения машины могут развить непредсказуемые стратегии такими темпами, которые недостижимы для их программистов.

Норберт Винер

Это проблема, с которой мы сталкиваемся каждый раз, когда думаем о создании интеллекта, превосходящего наш собственный.

Вернор Виндж

Творческая непредсказуемость интеллекта непохожа на хаотичную непредсказуемость генератора случайных чисел.

Элиезер Юдковский

2.1. Введение в проблему непредсказуемости

В последнее десятилетие с ростом возможностей ИИ немало ученых осознало, как важно не только создавать интеллектуальные системы, но и обеспечивать их безопасность [1–6]. К сожалению, безопасность ИИ – очень молодая сфера, и исследователи еще только определяют ее основные проблемы и ограничения. Принципы невозможности существуют во многих научных областях [7–13], а теперь и в сфере безопасности ИИ [14–16]. В этой главе мы сосредоточимся на малоизученной концепции непредсказуемости интеллектуальных систем [17], которая ограничивает наше понимание последствий разработки интеллектуальных систем и затрудняет решение задач проверки ПО, контроля интеллектуальных систем и безопасности ИИ в целом.

В теоретической информатике и разработке ПО в целом широко известен ряд утверждений о невозможности, и некоторые из них тесно связаны с предметом исследования главы. Например, согласно теореме Райса никаким эффективным вычислительным методом нельзя предсказать, проявит ли программа определенное нетривиальное поведение – например, выдаст ли она определенный результат [18]. Аналогично принцип вычислительной несводимости Вольфрама гласит, что выяснить сложное поведение программ можно, только запустив их [19]. И любая физическая система, которую можно представить как машину Тьюринга, поведет себя непредсказуемо [20, 21].

Принцип непредсказуемости ИИ – одно из многочисленных утверждений о невозможности в сфере безопасности ИИ. Используются также термины «непознаваемость» [22] и «когнитивная невместимость» [23], которые отражают нашу неспособность точно и последовательно предсказывать конкретные действия интеллектуальной машины – даже если нам известны конечные цели системы. Непредсказуемость связана с необъяснимостью и непостижимостью ИИ, но не совпадает с ними полностью. Она не означает, что невозможен статистический анализ с точностью выше случайной, но указывает на общее ограничение эффективности анализа, особенно ярко выраженное у передовых систем сильного ИИ (сверхинтеллекта) в новых областях.

На самом деле непредсказуемость таких сверхинтеллектуальных систем можно доказать. Приведем доказательство от противного. Предположим обратное – принцип непредсказуемости неверен и человек способен точно предсказать решения сверхинтеллекта. Это означает, что люди могут принимать такие же решения, что и сверхинтеллект, т. е. они настолько же умны, насколько умен сверхинтеллект. Это противоречит определению сверхинтеллекта как системы, превосходящей людей по интеллекту. Следовательно, наше первоначальное предположение ложно и принцип непредсказуемости верен.

Непредсказуемость можно формально измерить с помощью байесовой теории, по которой определяется разность между итоговыми и исходными представлениями агента, делающего предсказание [24–27]. «Непредсказуемость интеллекта неожиданна по-своему, необычным образом, нисколько не похожим на хаос или случайность. Существует удивительный баланс между непредсказуемостью действий и предсказуемостью результатов» [28]. Оценить величину неожиданности пропорционально разности в интеллекте между предсказателем и агентом, действия которого предсказываются, позволяет простейший эвристический алгоритм. Информацию об исследовании этой темы в доступной форме можно почерпнуть у Юдковского [29, 30].

Непредсказуемость можно наблюдать в действующих узкоспециализированных системах с производительностью выше человеческой. Разработчики известных интеллектуальных систем, победивших в играх – Deep Blue в шахматах [31, 32], IBM Watson в телевикторине «Jeopardy!»[13] [33], AlphaZero в го [34, 35], – не знали, какие решения их ИИ будут принимать на каждом шаге. Они могли предсказать только то, что ИИ попытается выиграть всеми доступными средствами – и это происходило. То же справедливо и для разработчиков сильного искусственного интеллекта. Они могут знать конечные цели своих систем, но не пошаговые планы достижения этих целей, и это очень важно для безопасности ИИ [36–39]. С конкретными примерами неожиданных действий интеллектуальных агентов можно ознакомиться в двух обзорах по этой теме: в области эволюционных алгоритмов [40] и интеллектуальных агентов на слабом ИИ [41].

Любого состояния можно достичь бесконечным количеством способов. Подавляющее большинство этих способов неприемлемы и небезопасны, у многих из них есть отрицательные побочные эффекты. В более сложных задачах и в большинстве реальных случаев даже общая цель системы может быть неизвестна или известна лишь в абстрактной формулировке, такой как «сделать мир лучше». В некоторых случаях можно узнать конечную цель, но даже если мы научимся предсказывать общий результат с некой статистической значимостью, невозможно будет спрогнозировать все шаги превосходящего интеллекта на пути к цели. Более низкий интеллект не может точно предсказать все решения более высокого интеллекта. Эта концепция известна как принцип Винджа [42]. «Принцип Винджа подразумевает, что, когда один агент разрабатывает другой (или модифицирует собственный код), он должен утвердить схему другого агента, не зная в точности его дальнейших действий» [43].

2.2. Предсказуемость: что мы можем предвидеть. Обзор литературных источников

В свое время Вернор Виндж отметил в своей статье о технологической сингулярности [22], что сверхинтеллектуальные машины создадут непредсказуемое будущее. Автор говорит о горизонте прогнозирования непознаваемого (см. также тезис о горизонте событий [44]), за которым человек уже не может что-либо предсказать: «Пожалуй, первыми осознали практические последствия писатели-фантасты. Именно авторов твердой НФ[14] интересует потенциальное воздействие технологий на людей. Но на пути к грядущему писатели все чаще останавливаются перед непрозрачной стеной. Когда-то они отодвигали фантазии об умных машинах на миллионы лет вперед, но теперь они видят, как их самые тщательные экстраполяции привели к непознаваемому…» [22]. Однако не все согласны с этим мнением [45]. В данном разделе приводятся примеры из литературных источников, которые утверждают, что свойства интеллектуальных систем вполне могут оказаться предсказуемыми.

Ник Бостром в своем отклике на работу Винджа под названием «Сингулярность и предсказуемость» говорит [46]: «Не уверен, что непредсказуемость сохранится… Думаю, мы можем достаточно достоверно предсказать даже кое-что, находящееся за пределами сингулярности. Например то, что сверхинтеллектуальная сущность, возникшая в сингулярности, запустит сферическую волну колонизации, которая распространится в пространстве со скоростью, близкой к скорости света… Другой пример: если существует несколько независимых конкурирующих агентов (хотя, подозреваю, их может и не быть), некоторые аспекты их поведения, возможно, окажутся предсказуемы в плане экономической целесообразности… Также может намного повыситься точность прогнозирования. Поскольку сверхинтеллект или постлюди, которые будут править миром после сингулярности, будут созданы нами – а возможно, и будут нами – на мой взгляд, мы имеем возможность повлиять на их ценности. Их ценности определят облик их мира, поскольку они будут способны за счет передовых технологий изменить мир в соответствии со своими ценностями и желаниями. Не исключено, что для предсказания событий после сингулярности достаточно определить ценности тех, кто создаст сверхинтеллект… И быть может, достаточно описать относительно небольшое число гипотез о том, каким будет мир после сингулярности. Каждая из гипотез должна соответствовать какой-либо несомненной ценности. Несомненные ценности – это ценности, которые с высокой долей вероятности разделят самые влиятельные люди к тому времени, когда будет создан первый сверхинтеллект. Каждая из этих ценностей определяет аттрактор – состояние мира, максимально полезное с точки зрения данной ценности. Затем мы можем предположить, что мир с большой вероятностью перейдет в один из таких аттракторов. В частности, можно ожидать, что в объеме колонизированного пространства материя постепенно (возможно, очень быстро) перестроится в структуры с максимальной ценностью, – т. е. вмещающие как можно больше определенной ценности» [46].

Аналогичные возражения мы встречаем у Майкла Нильсена [47]: «Что означает “непознаваемое”? Мне кажется, Виндж использует термин непознаваемого в значении “непредсказуемого”, поэтому правильный вопрос – должно ли будущее после пришествия доминирующего ИИ непременно стать непредсказуемым?.. Мне кажется нелепым считать, что мы неспособны сделать успешные прогнозы о мире доминирующего ИИ. Да, все изменится. Возможно, наши прогнозы окажутся не так правдоподобны, как раньше. Но я верю, что мы все еще можем делать обоснованные прогнозы на будущее. В крайнем случае, можно исключить некоторые варианты. Например, можно исключить то, чего не позволят законы физики. В отношении “непредсказуемости” будущего под властью ИИ часто звучит утверждение, что возможно будет все, что допускают законы физики» [47].

Авторы статей на платформе Arbital, обсуждая неопределенность Винджа, пишут: «Кроме того, наша способность размышлять о более умных агентах, чем мы сами, не ограничена знанием конкретной цели и предсказанием пути ее достижения. Если мы обнаружим огромную, виртуозно сконструированную инопланетную машину, мы сможем предположить, что инопланетяне превосходят человека по уровню интеллекта, даже если нам ничего не известно об их целях. Когда мы видим металлические трубы, мы можем предположить, что трубы – это устойчивая, оптимальная механическая конструкция, так сделанная из твердого металла, чтобы сохранять свою форму. Увидев сверхпроводящие кабели, мы можем предположить, что это способ эффективной передачи электричества из одного места в другое, даже не зная об их конечном предназначении. Это и есть инструментальная конвергенция[15]: если мы понимаем, что инопланетная машина эффективно получает и распределяет энергию, мы, вероятно, видим в ней разумно устроенный артефакт, служащий некой цели, хотя сама цель нам неизвестна» [31].

«Неопределенность Винджа – особое состояние познания, в котором мы рассматриваем достаточно интеллектуальные программы. В частности, мы в меньшей степени уверены в том, что сможем точно предсказать их действия, но в большей степени уверены в результате этих действий. (Обратите внимание – здесь нет утверждения, будто мы гносеологически беспомощны и ничего не можем знать о существах умнее нас.)» [31]. Юдковский с Херрешоффом еще раз подчеркивают: «Мы не можем точно предсказать действия более умного агента, но мы способны по его устройству предсказать последствия работы этого агента или выбрать одно из ряда возможных последствий путем отбора одной из возможных конструкций» [48].

Аргументы против непредсказуемости обычно делятся на два типа:

1) «Очевидная известность определенной области. Например, раз мы с высокой точностью изучили законы химии и знаем их истоки в молекулярной динамике, мы можем считать, что даже произвольный интеллектуальный агент не сумеет превратить свинец в золото с помощью химических реагентов, не обладающих радиоактивностью…

2) …Обратный логический вывод из парадокса Ферми[16], который в некоторой степени свидетельствует об ограниченных возможностях даже самых мощных агентов, какие могут существовать в нашей вселенной. Например, стандартное моделирование физических процессов все еще может преподнести нам сюрпризы, но любое незапланированное путешествие на сверхсветовой скорости в ранее недоступную точку сильно затруднит объяснение парадокса Ферми» [49].

На более практическом примере предсказуемости Израэли и Голденфельд «…обнаружили, что вычислительно несводимые физические процессы можно прогнозировать и даже свести путем вычислений на грубом уровне описания. Полученные нами грубые данные [клеточные автоматы] эмулируют поведение исходных систем в целом, без учета мелких деталей» [50]. Дальнейшая работа над безопасностью ИИ будет в основном заключаться в том, чтобы определить, какие аспекты интеллектуальных машин можно прогнозировать и знать, даже если большая часть будущих состояний навсегда останется для нас непредсказуемой. В следующем разделе рассматриваются первые шаги на этом пути.

2.3. Когнитивная невместимость

Machine Intelligence Research Institute (MIRI), ведущая исследовательская организация в области безопасности ИИ, рассматривает непредсказуемость в рамках работы над безопасным самосовершенствованием агентов ИИ, обозначая ее как когнитивную невместимость. Этот термин означает, что человеческий разум неспособен представить все возможные решения и (или) стратегии передовых интеллектуальных систем. «Сильная когнитивная невместимость означает, что агенту известны некоторые факты, неизвестные нам, и он может использовать их для выработки стратегий, успешность которых мы не сможем предсказать заранее… Когда агент может достичь успеха, используя варианты, которые мы не можем ни представить себе, ни даже понять, даже заранее ознакомившись с ними, этот агент считается строго когнитивно невместимым…» [23]. «Если мы твердо уверены в способности самомодифицирующихся систем рассуждать о более умных агентах, представляется разумным выработать некую теоретическую основу для адекватного объяснения более умных агентов» [51]. Даже ИИ, уступающие человеку, могут быть непредсказуемыми для исследователей-людей. «Хотя непредсказуемость Винджа служит классической формой проявления невместимости, можно представить и другие варианты – например, ИИ, работающий в широкой области знаний, может осуществлять поиск в областях, малодоступных для людей, в целом оставаясь глупее и некомпетентнее человека. В этом случае стратегии ИИ все равно могут быть непредсказуемыми для нас, даже если в целом он менее эффективен или менее компетентен» [23].

«Аргументы в пользу сильной невместимости ссылаются на:

• Содержательность и частичную неизвестность определенной предметной области. Например, психология человека очень сложна, в ней много неизвестных связей, ранее обнаруженные уязвимости часто были совершенно неожиданными, следовательно, предметная область психологии человека должна обладать строгой невместимостью.

• Влияние взгляда извне на предшествующие способности, обусловленное когнитивными преимуществами. X век не может вместить XX век даже при том условии, что в обоих столетиях жил один биологический вид, homo sapiens. Почему мы решили, что именно наше поколение узнало истинные законы вселенной?» [49].

2.4. Выводы

Непредсказуемость – интуитивно понятная концепция. Как правило, мы можем прогнозировать результаты обычных физических процессов, не зная конкретного поведения отдельных атомов, – и точно так же мы можем предсказать общее поведение интеллектуальной системы, не зная отдельных промежуточных этапов. Рахван и Себриан отмечают, что «…сложные агенты ИИ часто проявляют внутреннюю непредсказуемость, демонстрируя неочевидное поведение, не поддающееся точному прогнозированию даже для собственных программистов. Такое поведение проявляется только через взаимодействие с миром и другими агентами вокруг… Фактически Алан Тьюринг с Алонсо Черчем доказали фундаментальную невозможность обеспечения определенных свойств алгоритма без запуска этого алгоритма. Существуют фундаментальные теоретические пределы нашей способности удостовериться в том, что определенный фрагмент кода всегда будет иметь нужные свойства, пока код не будет исполнен и человек не проследит его поведение» [52]. Более подробное исследование непредсказуемости и сопутствующих вопросов машинного поведения приведено у Рахвана и др. [53]

Другие ученые пришли к аналогичным выводам. «С учетом внутренней непредсказуемости ИИ не всегда целесообразно контролировать каждое действие бота» [54]. «По мере того, как компьютерные программы становятся все более умными и менее прозрачными, затрудняется прогнозирование неблагоприятных последствий, более того, сам процесс принятия решений программами тоже может стать непредсказуемым» [55]. «ИИ может стать настолько сложным, что погрязнет в ошибках и непредсказуемых последствиях, т. к. не сможет предугадать собственное поведение» [56]. «…поведение ИИ настолько усложнится, что станет непредсказуемым и потому потенциально опасным для человека» [57].

В контексте безопасности ИИ [58–61] и управления ИИ [62] непредсказуемость означает, что некоторые стандартные инструменты и механизмы защиты не смогут обеспечить безопасность использования развитых интеллектуальных систем. Например, Батхаи пишет о законодательном контроле: «…в силу непредсказуемости крайне маловероятно, что закон сможет поощрять или предотвращать некоторые последствия. Что хуже, слабость правовых структур позволит злоумышленникам с помощью алгоритмов перекладывать свои расходы на других без надежды на возмещение нанесенного ущерба» [55].

Напрашивается вывод, что непредсказуемость никогда не позволит нам получить полностью безопасный ИИ, но мы все равно стремимся повысить безопасность ИИ, потому что в какой-то мере можем давать прогнозы относительно разрабатываемых нами ИИ. Конечные цели агентов могут быть совершенно произвольными [63], но инструментальные цели [64] универсальны для всех достаточно интеллектуальных агентов. Дополнительный анализ показал, что все инструментальные цели можно свести к одному стимулу или метацели любых агентов – стать самым умным агентом, что в качестве побочного эффекта может породить сверхсознание [65], воздействие которого на поведение агента сделает его еще менее предсказуемым для нас.

Использованные материалы

1. Yampolskiy R.V. Artificial Intelligence Safety and Security. 2018: Chapman and Hall/CRC Press.

2. Callaghan V. et al. Technological Singularity. 2017: Springer.

3. Baum, S.D. et al. Long-term trajectories of human civilization. Foresight, 2019. 21(1): p. 53–83.

4. Duettmann A. et al. Artificial General Intelligence: Coordination & Great Powers.

5. Charisi V., et al. Towards moral autonomous systems. arXiv preprint arXiv: 1703.04741, 2017.

6. Brundage M., et al. The malicious use of artificial intelligence: Forecasting, prevention, and mitigation. arXiv preprint arXiv:1802.07228, 2018.

7. Fisher M., Lynch N., Peterson M. Impossibility of distributed consensus with one faulty process. Journal of ACM, 1985. 32(2): p. 374–382.

8. Grossman S.J., Stiglitz J.E. On the impossibility of informationally efficient markets. The American Economic Review, 1980. 70(3): p. 393–408.

9. Kleinberg J.M. An impossibility theorem for clustering, in Advances in Neural Information Processing Systems. 2003, MIT Press.

10. Strawson G. The impossibility of moral responsibility. Philosophical Studies, 1994. 75(1): p. 5–24.

11. Bazerman M.H., Morgan K.P., Loewenstein G.F. The impossibility of auditor independence. Sloan Management Review, 1997. 38: p. 89–94.

12. List C., Pettit P. Aggregating sets of judgments: An impossibility result. Economics & Philosophy, 2002. 18(1): p. 89–110.

13. Dufour J.-M. Some impossibility theorems in econometrics with applications to structural and dynamic models. Econometrica: Journal of the Econometric Society, 1997. 65: p. 1365–1387.

14. Yampolskiy R.V. What are the ultimate limits to computational techniques: Verifier theory and unverifiability. Physica Scripta, 2017. 92(9): p. 093001[17].

15. Armstrong S., Mindermann S. Impossibility of deducing preferences and rationality from human policy. arXiv preprint arXiv:1712.05812, 2017.

16. Eckersley P. Impossibility and uncertainty theorems in AI value alignment (or why your AGI should not have a utility function). arXiv preprint arXiv:1901.00064, 2018.

17. Yampolskiy R.V. The space of possible mind designs, in International Conference on Artificial General Intelligence. 2015. Springer.

18. Rice H.G. Classes of recursively enumerable sets and their decision problems. Transactions of the American Mathematical Society, 1953. 74(2): p. 358–366.

19. Wolfram S. A New Kind of Science. Vol. 5. 2002: Wolfram Media Champaign.

20. Moore C. Unpredictability and undecidability in dynamical systems. Physical Review Letters, 1990. 64(20): p. 2354.

21. Moore C. Generalized shifts: Unpredictability and undecidability in dynamical systems. Nonlinearity, 1991. 4(2): p. 199.

22. Vinge V. Technological singularity, in VISION-21 Symposium Sponsored by NASA Lewis Research Center and the Ohio Aerospace Institute. 1993.

23. Cognitive Uncontainability, in Arbital. https://arbital.com/p/uncontainability (дата обращения: 15.10.2024).

24. Itti L., Baldi P. A principled approach to detecting surprising events in video, in 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05). 2005. IEEE.

25. Itti L., Baldi P.F. Bayesian surprise attracts human attention, in Advances in Neural Information Processing Systems. 2006, 49(10): pp. 1295–1306. MIT Press.

26. Storck J., Hochreiter S., Schmidhuber J. Reinforcement driven information acquisition in non-deterministic environments, in Proceedings of the International Conference on Artificial Neural Networks, Paris. 1995. Citeseer.

27. Schmidhuber J. Simple algorithmic theory of subjective beauty, novelty, surprise, interestingness, attention, curiosity, creativity, art, science, music, jokes. Journal of SICE, 2009. 48(1): p. 21–32.

28. Yudkowsky E. Expected Creative Surprises, in Less Wrong. https://www.lesswrong.com/posts/rEDpaTTEzhPLz4fHh/expected-creative-surprises (дата обращения: 15.10.2024).

29. Yudkowsky E. Belief in Intelligence, in Less Wrong. https://www.lesswrong.com/posts/HktFCy6dgsqJ9WPpX/belief-in-intelligence (дата обращения: 15.10.2024).

30. Yudkowsky E. Aiming at the Target, in Less Wrong. https://www.lesswrong.com/posts/CW6HDvodPpNe38Cry/aiming-at-the-target (дата обращения: 15.10.2024).

31. Vingean Uncertainty, in Arbital. https://arbital.com/p/Vingean_uncertainty (дата обращения: 15.10.2024).

32. Campbell M., Hoane Jr A.J., Hsu F.-H. Deep blue. Artificial Intelligence, 2002. 134(1–2): p. 57–83.

33. Ferrucci D.A. Introduction to “This is Watson”. IBM Journal of Research and Development, 2012. 56(3–4): p. 235–249.

34. Yudkowsky E. Eliezer Yudkowsky on AlphaGo’s Wins, in Future of Life Institute. https://futureoflife.org/2016/03/15/eliezer-yudkowsky-on-alphagos-wins (дата обращения: 15.10.2024).

35. Silver D., et al. A general reinforcement learning algorithm that masters chess, shogi, and go through self-play. Science, 2018. 362(6419): p. 1140–1144.

36. Pistono F., Yampolskiy R.V. Unethical research: how to create a malevolent artificial intelligence. arXiv preprint arXiv:1605.02817, 2016.

37. Yampolskiy R.V. What to do with the singularity paradox? in Philosophy and Theory of Artificial Intelligence. 2013, Springer. p. 397–413.

38. Babcock J., Kramar J., Yampolskiy R. The AGI Containment Problem, in The Ninth Conference on Artificial General Intelligence (AGI2015). July 16–19, 2016. NYC, USA.

39. Majot A.M., Yampolskiy R.V. AI safety engineering through introduction of self-reference into felicific calculus via artificial pain and pleasure, in IEEE International Symposium on Ethics in Science, Technology and Engineering. May 23–24, 2014. Chicago, IL: IEEE.

40. Lehman J., Clune J., Misevic D. The surprising creativity of digital evolution, in Artificial Life Conference Proceedings. 2018. MIT Press.

41. Yampolskiy R.V. Predicting future AI failures from historic examples. Foresight, 2019. 21(1): p. 138–152[18].

42. Vinge’s Principle, in Arbital. https://arbital.com/p/Vinge_principle (дата обращения: 15.10.2024).

43. Vingean Reflection, in Aribital. https://arbital.com/p/Vingean_reflection (дата обращения: 15.10.2024).

44. Cantlon J.F., Brannon E.M. Basic math in monkeys and college students. PLoS Biology, 2007. 5(12): p. e328.

45. Baum S., Barrett A., Yampolskiy R.V. Modeling and interpreting expert disagreement about artificial superintelligence. Informatica, 2017. 41(7): p. 419–428.

46. Bostrom N. Singularity and Predictability. http://mason.gmu.edu/~rhanson/vc.html (дата обращения: 15.10.2024).

47. Nielsen M. Comment by Michael Nielsen. http://mason.gmu.edu/~rhanson/vc.html (дата обращения: 15.10.2024).

48. Yudkowsky E., Herreshoff M. Tiling Agents for Self-modifying AI, and the Lobian Obstacle. MIRI Technical Report, 2013.

49. Strong Cognitive Uncontainability, in Arbital. https://arbital.com/p/strong_uncontainability (дата обращения: 15.10.2024).

50. Israeli N., Goldenfeld N. Computational irreducibility and the predictability of complex physical systems. Physical Review Letters, 2004. 92(7): p. 074105.

51. Fallenstein B., Soares N. Vingean Reflection: Reliable Reasoning for SelfImproving Agents. 2015: Citeseer.

52. Rahwan I., Cebrian M. Machine Behavior Needs to Be an Academic Discipline, in Nautilus. https://nautil.us/machine-behavior-needs-to-be-an-academic-discipline-237022 (дата обращения: 15.10.2024).

53. Rahwan I., et al. Machine behaviour. Nature, 2019. 568(7753): p. 477.

54. Mokhtarian E. The bot legal code: developing a legally compliant artificial intelligence. Vanderbilt Journal of Entertainment & Technology Law, 2018. 21: p. 145.

55. Bathaee Y. The artificial intelligence black box and the failure of intent and causation. Harvard Journal of Law & Technology, 2018. 31(2): p. 889.

56. Turchin A., Denkenberger D. Classification of global catastrophic risks connected with artificial intelligence. AI & Society, 2018. 35: p. 1–17.

57. De Garis H. The Artilect War. https://agi-conf.org/2008/artilectwar.pdf (дата обращения: 15.10.2024).

58. Babcock J., Kramar J., Yampolskiy R. V. Guidelines for artificial intelligence containment. arXiv preprint arXiv:1707.08476, 2017.

59. Trazzi M., Yampolskiy R. V. Building safer AGI by introducing artificial stupidity. arXiv preprint arXiv:1808.03644, 2018.

60. Behzadan V., Munir A., Yampolskiy R. V. A psychopathological approach to safety engineering in AI and AGI, in International Conference on Computer Safety, Reliability, and Security. 2018. Springer.

61. Ozlati S., Yampolskiy R. The formalization of AI risk management and safety standards, in Workshops at the Thirty-First AAAI Conference on Artificial Intelligence. 2017.

62. Ramamoorthy A., Yampolskiy R. Beyond mad? The race for artificial general intelligence. ITU J, 2018. 1: p. 1–8.

63. Bostrom N. The superintelligent will: motivation and instrumental rationality in advanced artificial agents. Minds and Machines, 2012. 22(2): p. 71–85.

64. Omohundro S.M. The Basic AI Drives, in AGI. 2008.

65. Yampolskiy R.V. Artificial consciousness: An illusionary solution to the Hard problem. Reti, Saperi, Linguaggi, 2018. (2): p. 287–318[19].

Глава 3

Необъяснимость и непостижимость[20]

Если бы лев умел говорить, мы бы его не поняли.

Людвиг Витгенштейн

Можно было бы описать все научно, но это не имело бы смысла; это было бы лишено смысла, как если бы вы описали симфонию Бетховена как изменение волнового давления.

Альберт Эйнштейн

Объяснять что-либо в этой жизни вообще очень трудно… Не важно, на каком языке… Особенно если объясняешь не другим, а самому себе. Очень важно не перестараться, иначе где-нибудь обязательно вылезет ложь.

Харуки Мураками

Я понимаю, что вы не понимаете.

Григорий Перельман

Если вы не можете объяснить это просто – значит, вы сами не понимаете этого до конца.

Альберт Эйнштейн

Если бы человеческий мозг был так прост, что мы могли бы его понять, мы были бы так просты, что не смогли бы его понять.

Эмерсон М. Пью

3.1. Введение

На протяжении десятилетий ИИ-проекты опирались на человеческий опыт специалистов в области инженерии знаний. Не было проблем ни с проектированием, ни с пониманием ИИ. Например, экспертные системы, которые часто создавались на основе дерева принятия решений, были идеальными моделями человеческого выбора, совершенно понятными и разработчикам, и конечным пользователям. В последнее десятилетие, когда с развитием систем машинного обучения на основе глубоких нейронных сетей (Deep Neural Network, DNN) доминирующая методология ИИ коренным образом менялась, простотой для понимания пришлось пожертвовать. Сегодняшние системы представляют собой «черные ящики» (это не то же самое, что «AI-boxing»: «ИИ в изолированной программной среде» [1, 2]), недоступные для понимания человеком, но исключительно производительные в отношении как результатов, так и обучения на новых предметных областях. Пока существуют большие данные и большие вычисления, для получения сверхчеловеческой производительности [3] не требуется человеческих знаний [4]. Благодаря новым возможностям ИИ на основе DNN такие системы применяются в принятии решений в отделах кадров [5], приемных комиссиях [6], управлении инвестициями [7], знакомствах [8], обеспечении разнообразия [9], безопасности [10, 11], рекомендательных системах [12], банковской сфере [13] и многих других важных предметных областях. Поскольку многие из таких предметных областей регулируются законодательством, очень желательно, а зачастую и обязательно [14, 15], чтобы они были способны объяснить, как они пришли к выбранному решению и доказать свою беспристрастность [16]. Еще важнее то, что для создания безопасных и защищенных систем искусственного интеллекта [17] необходимо понимать, что они делают и почему. Особый интерес для безопасности ИИ [18–25] представляет прогнозирование сбоев ИИ и объяснение их причин [26].

В настоящее время очень много исследований [27–41] посвящено разработке объяснимого ИИ. В следующем разделе рассматриваются основные результаты и общие тенденции по данной теме.

3.2. Обзор литературных источников

Объяснимому искусственному интеллекту (eXplainable Artificial Intelligence, XAI) посвящены сотни работ [42]. По словам представителей Управления перспективных исследовательских проектов Министерства обороны США (DARPA) [27], XAI должен «создавать более объяснимые модели, сохраняя высокий уровень эффективности обучения… чтобы пользователи-люди могли понимать ИИ, доверять ему и эффективно работать в партнерстве с ИИ нового поколения». В задачи данной главы не входит подробный анализ литературных источников, посвященных объяснимости и постижимости, но читателям рекомендуется ознакомиться с соответствующими обзорами [43–45]. Миллер [46] полагает, что общественные науки могли бы помочь разобраться в человеческом механизме объяснения, чтобы передать это знание XAI – но люди часто сами не понимают или не могут объяснить те или иные вещи. Например, многие люди неспособны объяснить, как они распознают лица, а ведь мы часто ставим такую задачу перед компьютерами [47, 48].

Несмотря на изобилие публикаций по XAI и смежным концепциям [49–51], тема необъяснимости или непостижимости ИИ затрагивается лишь косвенно. Иногда ограничения объяснимости обсуждаются в следующем ключе: «Алгоритмы машинного обучения (МО) по своей природе предусматривают высокую степень связности между входными признаками, из-за чего сложно вычленить такие функции в понятную для человека форму… Если одиночную линейную трансформацию можно интерпретировать по весовым коэффициентам входных признаков для каждого выходного класса, то для нескольких слоев с нелинейными взаимосвязями в каждом слое придется извлекать сверхсложную иерархическую структуру, а это нелегкая задача, необходимость решения которой неочевидна [52]… Как уже отмечалось, с учетом сложной структуры моделей МО сложные алгоритмы МО могут создавать множество точных моделей для одного и того же набора входных переменных и задач прогнозирования за счет сходных, но не идентичных внутренних методов решения в сети, поэтому в разных точных моделях подробности объяснения тоже могут различаться. Подобная системная нестабильность делает автоматически генерируемые объяснения сложными для восприятия» [42].

Сатклифф и др. говорят о непостижимых теоремах [53]: «Доступность для восприятия соответствует усилию, которое должен сделать человек для того, чтобы понять теорему. Теоремы из множества частей или со сложной структурой можно считать трудными для восприятия». Магглтон и др. [54] предлагают «использовать длительность ознакомления как приблизительный показатель непонимания, т. е. людям потребуется много времени… если программа трудна для восприятия. Время ознакомления как приблизительный показатель измерить легче, чем понимание».

Компромисс между объяснимостью и постижимостью признают [52], но не доводят до логического вывода. «Как правило, точность требует более сложных методов прогнозирования, [но] из простых интерпретируемых функций получаются не самые точные средства прогнозирования» [55]. «И действительно, одни алгоритмы поддаются интерпретации лучше других, и зачастую нужен компромисс между точностью и возможностью интерпретации: самые точные ИИ/МО-модели (глубокие нейросети, градиентный бустинг деревьев решений, случайный лес, метод опорных векторов и т. д.) обычно не очень хорошо поддаются объяснению, а самые понятные модели (линейная или логистическая регрессия) обычно менее точны» [42].

Непостижимость подтверждается широко известными утверждениями о невозможности. Чарлсворт доказал свою теорему постижимости, пытаясь сформулировать ответ на такие вопросы, как: «Если могут существовать программные средства с полноценным искусственным интеллектом уровня человека, поймут ли их люди?» [56] Описывая следствия своей теоремы применительно к ИИ, он отмечал [57]: «Теорема постижимости представляет собой первую математическую теорему, из которой следует невозможность любого агента ИИ или естественного агента – в т. ч. человека, который может заблуждаться, – выполнять строгую дедуктивную интерпретацию проблемы самопостижимости… Самопостижимость в каком-то представлении может быть залогом некоего подобия самокритики, полезной для саморазвития, которое может дать определенным агентам возможность чаще побеждать». Резонно сделать вывод, что система, которая себя не понимает, не сможет себя объяснить.

Эрнандес-Оральо и др. вводят понятие k-непостижимости (также известное как k-сложность) [58]. «С формальной точки зрения, это аналог нашего понятия хороших объяснений, которые сложно усвоить. Как мы понимаем, k-непостижимая строка с высоким значением k (сложная для понимания) сложнее, чем k-сжимаемая строка (сложная для усвоения) [59] и отличается от классической вычислительной сложности (приводящей к низкой скорости вычислений). Определение значения k для конкретной строки невозможно. К счастью, обратное выражение, т. е. является ли строка k-постижимой при произвольном k, поддается вычислению… Колмогоровская сложность измеряет количество информации, а не сложность ее восприятия» [58].

В своей работе, посвященной пространству возможных разумов, Ямпольский рассматривает пределы понимания других агентов [60]: «Модель каждого разума соответствует некому целому числу и, следовательно, является конечной, но, поскольку количество разумов является бесконечной величиной, определенная их часть имеет гораздо больше состояний, чем остальные. Данное свойство справедливо для всех разумов. Следовательно, поскольку человеческий разум имеет конечное число возможных состояний, есть разумы, которые человеческий разум никогда не сможет понять до конца, т. к. подобные модели разумов имеют гораздо большее число состояний, что делает их понимание невозможным. Это можно продемонстрировать на примере принципа Дирихле». Хиббард подчеркивает влияние непостижимости ИИ на безопасность: «С учетом непостижимости их мыслей мы не сможем разобраться в последствиях конфликтов между их и нашими интересами».

Постепенно мы начинаем понимать, что по мере увеличения мощности ИИ его модели успешного поведения будут нам все менее понятны [61]: «…при глубоком обучении результаты получают на основе множества переменных со множеством условий и преобразованиями во множестве слоев нейросетей, так что человек просто неспособен понять модель, построенную компьютером… Компьютеры явно превзошли нас по способности находить различия и закономерности и делать выводы. Это одна из причин, почему люди пользуются компьютерами. Можно не упрощать явления под относительно простую модель, пусть компьютер создает модели любого нужного ему размера. Но это также означает, что мы будем знать лишь то, что нам выдадут машины, действия которых мы не можем отследить, объяснить или понять… Некоторые новые модели недоступны для понимания. Они могут существовать только в виде весовых коэффициентов бесчисленных цифровых триггеров, соединенных в сеть, от которых последовательно распространяются слои связанных взвешенных триггеров, представляющих огромное число переменных, влияющих друг на друга так, что мы не в состоянии вывести для них какие-либо общие принципы».

«Сегодня машины показали нам, что даже при простых, элегантных, красивых и благоразумных правилах область, которую они регулируют, настолько детализирована, сложна и взаимосвязана, что все влияет на все сразу – и бесповоротно, и что человеческий мозг и знания даже на миллиметр не приблизились к ее пониманию… Мы стали полагаться на непрозрачные модели для обоснования наших взглядов, и это ставит нас в несколько странное положение. Знание подразумевает обоснование взглядов, и в данном случае обоснование состоит из моделей, загруженных в машины и непостижимых для человеческого разума… Но МО дает надежду, что однажды непрозрачные машинные модели станут намного более предсказуемыми, чем те, что созданы вручную и понятны человеку. В этом случае наше знание – если мы воспользуемся им – будет зависеть от обоснований, которые мы просто не понимаем… Скорее всего, мы и дальше будем полагаться на обоснования, которые даже не можем понять. И дело не только в том, что мы неспособны понять их, как человек с улицы не поймет ход мыслей специалиста по теории струн. Просто сама природа компьютерных суждений абсолютна несхожа с человеческими суждениями. Это чуждая нам логика» [61].

3.3. Необъяснимость

Широко известен ряд утверждений о невозможности во многих областях исследований [62–70]. Новые утверждения появляются в сфере исследований ИИ – например, это утверждения о непроверяемости [71], непредсказуемости[21] [72], ограничении предпочтительных выводов [73] и согласовании ценностей [74]. В этом разделе рассматривается понятие необъяснимости ИИ и демонстрируется, что некоторые решения систем сверхинтеллекта в принципе не могут быть объяснены. Рассмотрим самый интересный пример, в котором сверхразумный ИИ действует в новых и неограниченных областях. Простые примеры слабых ИИ, принимающих решения в ограниченных областях (например игра в крестики-нолики), и объяснимы, и понятны. Соответственно, можно получить целый спектр ИИ от совершенно объяснимых и постижимых до совершенно необъяснимых и непостижимых. Необъяснимость здесь означает невозможность дать совершенно точное и одновременно совершенно понятное объяснение определенных решений интеллектуальной системы.

Глубокие искусственные нейросети становятся все больше, иногда они состоят из миллионов нейронов, тысяч слоев и миллиардов весов соединений, приближаясь к размеру человеческого мозга, а может, даже превосходя его. Сети обучаются на больших данных, из которых они получают миллионы векторов признаков для принятия решений, где каждый признак влияет на решение пропорционально набору весов. Чтобы объяснить решение, основанное буквально на миллиардах факторов, ИИ должен либо упростить объяснение и тем самым сделать его менее точным, конкретным, детализированным, либо привести его в точности – но такое объяснение ничего не прояснит из-за своей семантической сложности, огромного размера и абстрактного представления данных. Точное представление станет просто копией обученной модели DNN.

1 Фрагменты этой главы ранее были опубликованы в статьях Романа Ямпольского «Об управляемости ИИ» («On Governability of AI») в AI Governance in 2020 a Year in Review. June, 2021, и «Определение различий между интеллектом и искусственным интеллектом» (On Defining Differences Between Intelligence and Artificial Intelligence) в Journal of Artificial General Intelligence 11(2), 68–70. 2020. – Прим. пер.
2 Тем самым предполагается, что машины можно научить понимать человеческие ценности и цели и действовать в соответствии с ними. –  Прим. пер.
3 Логический парадокс, описанный в одноименном романе Джозефа Хеллера, – выполнение условий задачи одновременно обеспечивает невыполнимость задачи. – Прим. пер.
4 См. также главу 8 данной книги. – Прим. пер.
5 См. также: Бостром Н. Искусственный интеллект. Этапы. Угрозы. Стратегии. Издательство: Манн, Иванов и Фербер, 2016 г. – Прим. пер.
6 См. также главу 3 данной книги. – Прим. пер.
7 См. также главу 2 данной книги. – Прим. пер.
8 См. также главу 4 данной книги. – Прим. пер.
9 См. также главу 10 данной книги. – Прим. пер.
10 См. также главу 8 данной книги. – Прим. пер.
11 См. также главу 6 данной книги. – Прим. пер.
12 Текст воспроизведен с разрешения World Scientific из статьи «Непредсказуемость ИИ: невозможно точно предсказать все действия превосходящего по интеллекту агента» («Unpredictability of AI: On the Impossibility of Accurately Predicting All Actions of a Smarter Agent») Романа Ямпольского, Journal of Artificial Intelligence and Consciousness, Vol 7, Issue № 1., Copyright © 2020 by World Scientific.
13 Российский аналог – «Своя игра». – Прим. пер.
14 Под «твердой» научной фантастикой обычно понимают НФ-произведения, уделяющие внимание прежде всего вопросам «твердой» науки (например, физики, астрономии, биологии) и техники. Обычно она противопоставляется «мягкой» научной фантастике, которая отводит эти аспекты на второй план и либо исследует «мягкие» науки (например, психологию, политологию, социологию), либо ставит человеческие эмоции выше научной точности или правдоподобия. – Прим. пер.
15 Гипотетическая тенденция большинства достаточно разумных, целеустремленных существ преследовать схожие подцели, даже если их конечные цели совершенно различны. – Прим. пер.
16 Предполагаемое противоречие, заключающееся в отсутствии достоверных фактов наблюдений деятельности внеземных технологически развитых цивилизаций (таких как радиопередачи, космические зонды, космические корабли и т. п.), несмотря на то, что, согласно современным научным представлениям, такие цивилизации должны существовать. – Прим. пер.
17 См. также главу 4 данной книги. – Прим. пер.
18 См. также главу 8 данной книги. – Прим. пер.
19 См. также главу 10 данной книги. – Прим. пер.
20 Текст воспроизведен с разрешения World Scientific из статьи «Необъяснимость и непостижимость ИИ» («Unexplainability and Incomprehensibility of AI») Романа Ямпольского, Journal of Artificial Intelligence and Consciousness, Vol 7, Issue № 2., Copyright © 2020 by World Scientific.
21 Непредсказуемость – это не то же, что необъяснимость или непонятность [72]. Yampolskiy R.V. Unpredictability of AI. arXiv preprint arXiv:1905.13053, 2019.
Продолжить чтение