Read in English
Оценить статью
(Голосов: 17, Рейтинг: 4.47)
 (17 голосов)
Поделиться статьей
Антон Колонин

К.т.н., ведущий специалист Новосибирского государственного университета, основатель проекта «Aigents», архитектор проекта «SingularityNET»

Последние версии ChatGPT / GPT-4 от компании OpenAI позволяют зафиксировать определенные технологические «прорывы». Наконец-то, «по-честному» пройден «Тест Тьюринга». Качество диалогов ChatGPT позволило ему всего за полгода выйти на аудиторию 100 миллионов пользователей, большинство из которых находят ответы бота вполне «человеческими». Более того, проведенное недавно испытание ChatGPT на IQ-тест в его текстовом варианте показало, что «интеллект» бота в 155 Verbal IQ не просто существенно превышает средний уровень, но оказался выше 99,9% людей — участников тестовой группы в 2 450 человек. С практической точки зрения, технология ChatGPT, впервые за полувековую историю исследований в области обработки естественного языка, позволила решить задачу суммаризации текстов с качеством, приемлемым для практического применения. При этом, разговорные возможности бота ChatGPT позволяют не только получать развернутые ответы на любые вопросы (включая даже те, на которые адекватный вопрос невозможен) и суммаризацию статей, но и получать рекомендации в области программирований и решения различных технических проблем в том случае, если исходные данные и примеры решений могли оказаться в тренировочном наборе данных.

Использование подобных технологий на государственном уровне или в политических и маркетинговых целях может привести к качественно новому уровню манипуляций общественным сознанием на основе массированной генерации и доставки высоко-реалистичного текстового, аудио и видеоконтента заданной направленности. Нейромаркетинг будет автоматизирован и поставлен на конвейер. Превосходство в гибридных и информационных войнах может оказаться за тем, кто сможет и захочет превратить эти технологии в оружие.

Еще совсем недавно считалось, что роботы избавят человечество от грязной и тяжелой работы, а люди будут свободны заниматься творчеством и искусством. Последние достижения неожиданно указывают на то, что «роботы», скорее, сами смогут эффективно писать тексты, рисовать картины, и даже, возможно, составлять музыку и несложные (пока) компьютерные программы, оставив людям такие неудобные для применения MLLM/LLM задачи, как перебортовка колес и мытье лестничных пролетов. На данном этапе, если оставить простым роботам рутинные операции на конвейере, сложные нейросетевые модели пока, скорее, могут заняться творчеством, оставив роль разнорабочих людям.

Как технологическая революция ограничила человека в необходимости физической активности, информационная революция лишила его необходимости в памяти. Дальнейшая революция в области искусственного интеллекта будет лишать человека возможности думать.

Скорость разворачивания событий за последние полгода, серьезность указанных выше рисков, а также ожидание новых, неизвестных рисков в дальнейшем приводит к тому, что ряд известных деятелей науки и бизнеса выступают за запрет использования систем «умнее, чем GPT-4», как минимум, на полгода, для анализа возможных последствий развития технологии и подготовки необходимых мер регулирования.

С другой стороны, экономика диалоговых систем типа ChatGPT пока оставляет желать лучшего, по сравнению с традиционным поиском в Интернете. Использование модели LLM для генерации ответа на запрос требует существенных вычислительных затрат и конечная себестоимость замещения обычного поиска по ключевым словам чат-ботом оказывается в 10 раз выше. Кроме того, бизнес-модель классического «более дешевого» интернет-поиска основана на контекстной рекламе, представленной в виде четко обозначенных и очевидных ссылок. А в случае получения ответа на запрос в виде сообщения от чат-бота, наличие рекламных ссылок в поисковой выдаче невозможно ввиду отсутствия самой поисковой выдачи. Следовательно, монетизация чат-бота может оказаться возможна только в случае скрытой рекламы, встроенной в текст ответа бота, что приводит к угрозам манипуляций и может быть юридически зарегулировано.

В то время как поднятая «волна» по поводу запрета или приостановки развития ИИ касается систем на основе LLM/MLLM, действующих исключительно в виртуальном цифровом пространстве и не представляющих явных угроз за его пределами, в реальном физическом мире возможны куда как более серьезные проблемы. Повсеместное развитие самых различных видов БПЛА и барражирующих боеприпасов на современном театре военных действий для широкого спектра тактических задач становится ключевым фактором превосходства. К сожалению, продолжение вооруженных конфликтов по всему миру безусловно будет форсировать развитие технологий в данном направлении. Принципиальная возможность построения системы ИИ с когнитивными способностями близкими, в определенных аспектах, человеческим на данный момент продемонстрирована. Дальнейшая работа по миниатюризации и снижению энергопотребления технологий ИИ позволит в будущем создать интеллектуальные автономные устройства, исполняющие мультимодальные модели поведения типа MLLM для роботов, оперирующих в физическом мире без необходимости доступа к серверным кластерам будущего типа GPT-5. И это также может позволить создавать автономные компактные интеллектуальные средства доставки и применения вооружений, что выведет существующие угрозы на новый уровень.

И даже на сегодняшний день, пока интеллект LLM/MLLM ограничен границами серверных кластеров и тех информационных сетей, которые к этим кластерам подключены, очевидно стратегическое превосходство тех геополитических субъектов, в чьей юрисдикции находятся учреждения и компании, которые этими кластерами владеют. Эти страны обладают существенным соревновательным преимуществом и могут обеспечить свой технологический суверенитет в информационном пространстве и других сферах гораздо лучше, чем те, которые не могут гарантировать развитие соответствующих технологий в своей юрисдикции.

Введение

Прошло менее полугода с прошлого обзора по теме, а стремительное развитие событий в области больших языковых моделей (Large Language Models, LLM) и их мультимодальных вариантов (Multimodal Large Language Models, MLLM) требует свежих комментариев. Яркими представителями первых являются ChatGPT и GPT-4, демонстрируя торжество искусственного разговорного интеллекта широкой публике, а среди вторых лидирует Midjourney, рискуя отобрать хлеб у огромного числа графических дизайнеров средней руки.

Достижения и «прорывы» в области текстовых и мультимодальных моделей на основе глубоких и генеративных нейросетей и трансформеров, в связи с задачей и возможностью создания общего искусственного интеллекта (Artificial General Intelligence, AGI), а также социальными и этическими аспектами их развития и применения, регулярно обсуждаются в русскоязычном сообществе разработчиков AGI. На семинарах 2023 года, в частности, обсуждались технические возможности технологий ChatGPT / GPT-4, сопоставление их уровня с AGI, а также социальные эффекты их применения в современном обществе. В этом обзоре мы обозначим основные достижения и возможности, а также угрозы и потенциальные перспективы развития.

Прорывы и возможности

Антон Колонин:
В чем сила, Сильный ИИ?

Действительно, последние версии ChatGPT / GPT-4 от компании OpenAI позволяют зафиксировать определенные технологические «прорывы».

Наконец-то, «по-честному» пройден «Тест Тьюринга». Дело в том, что формально этот тест был пройден компьютерной программой — ботом «Евгений Густман» в 2014 году. Однако тогда, 9 лет назад, сами разработчики победившей программы раскрыли её устройство, и обнаружилось, что её суть просто в большом и достаточно сложном «дереве решений» с запрограммированной логикой ведения диалога, на создание и настройку которой у разработчиков ушло несколько десятков человеко-лет. Это событие вызвало бурную критику в научном сообществе, в ходе которой оспаривалась ценность «Теста Тьюринга» как мерила для искусственного интеллекта, если его может пройти созданная вручную программа, а не самообучающийся интеллектуальный алгоритм. Сегодня же качество диалогов ChatGPT позволило ему всего за полгода выйти на аудиторию 100 миллионов пользователей, большинство из которых находят ответы бота вполне «человеческими». Нестыковки и ошибки в его высказываниях можно найти, но это требует некоторых усилий и во многих случаях они также выглядят вполне «человеческими» (например, откровенный бред про размешивание кофе сигаретой или сказки в ответ на вопрос про роль танковых подразделений в армии Александра Македонского может восприниматься как юмор). Более того, проведенное недавно испытание ChatGPT на IQ-тест в его текстовом варианте показало, что «интеллект» бота в 155 Verbal IQ не просто существенно превышает средний уровень, но оказался выше 99,9% людей — участников тестовой группы в 2 450 человек.

С практической точки зрения, технология ChatGPT, впервые за полувековую историю исследований в области обработки естественного языка (Natural Language Processing, NLP), позволила решить задачу суммаризации текстов с качеством, приемлемым для практического применения. Одним из только что появившихся сервисов на основе этой технологии стал сервис по формированию кратких «выжимок» из научных статей и документов на различных языках — ChatPDF.

При этом, разговорные возможности бота ChatGPT позволяют не только получать развернутые ответы на любые вопросы (включая даже те, на которые адекватный вопрос невозможен) и суммаризацию статей, но и получать рекомендации в области программирований и решения различных технических проблем в том случае, если исходные данные и примеры решений могли оказаться в тренировочном наборе данных.

В свою очередь, MLLM Midjorney, научившаяся с прошлого года рисовать высоко реалистичные портреты любых воображаемых персонажей вроде Гарри Поттера в образе Ильи Муромца или Шерлока Холмса в образе Кота Матроскина, только что опубликовала свежую версию, где всем человекоподобным персонажам гарантировано наличие на руках всегда иметь 5 пальцев (в предыдущих версиях из-за недостатков модели часто рисовались шестипалые герои).

На сегодняшний день решения на основе LLM и MLLM вполне могут повысить производительность тех, кто работает с текстом, графикой и несложным программным кодом — в тех случаях, где не нужна стопроцентная гарантия адекватности и качества, либо пользователь выступает в качестве критика, подбирая «подсказки» или «промпты» и убеждаясь в адекватности выдачи. По сути, принцип «доверяй, но проверяй» бывает полезен и при проверке работы живых подчиненных и ассистентов, так что подобные системы вполне можно начинать рассматривать как начинающих (junior) секретарей и подмастерьев.

Риски и угрозы

Еще совсем недавно считалось, что роботы избавят человечество от грязной и тяжелой работы, а люди будут свободны заниматься творчеством и искусством. Последние достижения, описанные выше, неожиданно указывают на то, что «роботы», скорее, сами смогут эффективно писать тексты, рисовать картины, и даже, возможно, составлять музыку и несложные (пока) компьютерные программы, оставив людям такие неудобные для применения MLLM/LLM задачи, как перебортовка колес и мытье лестничных пролетов. На данном этапе, если оставить простым роботам рутинные операции на конвейере, сложные нейросетевые модели пока, скорее, могут заняться творчеством, оставив роль разнорабочих людям.

В истории с возникновением Интернета никто не мог вообразить, что сеть компьютеров научной лаборатории вырастет не только в мировую сеть обмена знаниями и новостями, но и в мировую сеть киберпреступности, где каждый может оказаться жертвой компьютерных вирусов, социальной инженерии, кражи персональных и финансовых данных и даже личной идентичности. Появление в руках киберпреступников инструментов массовой генерации фейкового видео, аудио и текста практически может породить невиданную волну киберпреступности, когда жертвы буду получать голосовые сообщения и видеозвонки от поддельных родственников или вымышленных персонажей, вступать с ними в доверительные диалоги и совершать в итоге финансовые операции в пользу мошенников.

Использование подобных технологий на государственном уровне или в политических и маркетинговых целях может привести к качественно новому уровню манипуляций общественным сознанием на основе массированной генерации и доставки высоко-реалистичного текстового, аудио и видеоконтента заданной направленности. Нейромаркетинг будет автоматизирован и поставлен на конвейер. Превосходство в гибридных и информационных войнах может оказаться за тем, кто сможет и захочет превратить эти технологии в оружие.

Как технологическая революция ограничила человека в необходимости физической активности, информационная революция лишила его необходимости в памяти. Дальнейшая революция в области искусственного интеллекта будет лишать человека возможности думать. Операторы промышленных объектов с внедренными системами АСУ ТП теряют навыки управления самими системами и не могут справиться с ними в нештатных ситуациях. Чтобы не деградировать, людям придется специально заставлять себя тренироваться в умственной активности, как они заставляют себя бегать по утрам или ходить в тренажерный зал после работы — мы это разбирали в отдельной статье.

Технологии типа ChatGPT могут существенно понизить качество образования, поскольку возможности современных LLM по перефразированию текстов делают системы антиплагиата бесполезными а их качество генерации текстов на любую тему, доступное школьникам и студентам, сделает невозможным выдачу на дом заданий по написанию сочинений и курсовых, а также в скором будущем вообще любых домашних заданий, поскольку любое задание может быть «списано» у «старшего брата».

Скорость разворачивания событий за последние полгода, серьезность указанных выше рисков, а также ожидание новых, неизвестных рисков в дальнейшем приводит к тому, что ряд известных деятелей науки и бизнеса выступают за запрет использования систем «умнее, чем GPT-4», как минимум, на полгода, для анализа возможных последствий развития технологии и подготовки необходимых мер регулирования.

На канале русскоязычного сообщества разработчиков AGI проводилось голосование по вопросу запрета или ограничения на исследования в ИИ с использованием LLM/MLLM уровня GPT-4 и мощнее. Как показал опрос, именно киберугрозы и опасность применения ИИ в военных целях было обозначено как главное основание для возможного запрета развития еще более «сильного» ИИ. Вместе с тем, гораздо большее число людей высказалось за то, что ограничения ИИ не требуются, и еще большее — за то, что запреты уже больше не помогут, поскольку «гонку за ИИ» как между корпорациями, так и между государствами уже не остановить.

Итоги голосования о необходимости запрета нейросетей «умнее» GPT-4
https://t.me/agirussianews/1015

Что дальше?

В научном сообществе разгораются дебаты, насколько описанные выше прорывы приближают человеческую цивилизацию к созданию AGI. Как можно видеть из итогов голосования, четверть участников считает, что LLM/MLLM в нынешнем виде — это тупиковый путь. В качестве аргументов такой позиции обозначаются чрезмерное энергопотребление, отсутствие символьного или логического мышления, неспособность к целеполаганию и адаптации в процессе обучения и приспособления к новым условиям среды за рамками обучающей выборки, а также необходимость решения других проблем, обозначенных в нашей предыдущей статье. Фундаментальным аргументом против рассмотрения GPT-4 даже как прототипа AGI рассматривается его изначальный дизайн в качестве «идеального аппроксиматора», способного не более чем подгонять свою модель под заданный тренировочный корпус, пытаясь максимально точно предсказать следующее слово или букву в тексте или смежный пиксел в изображении.

С другой стороны, более трети опрошенных считают, что данная технология является неотъемлемой частью будущего AGI, хотя и не единственной, и что многих ингредиентов пока не хватает. Как можно было услышать на одном из недавних семинаров, ключевым «недостающим» компонентом видится способность к целеполаганию. Действительно, существующие чат-боты работают в «реактивном» режиме, просто отвечая на запросы пользователя, даже если этот ответ генерируется с учетом контекста предыдущих коммуникаций с пользователем. Для полноценного «активного» поведения таких систем, с нацеленностью их на достижение собственных целей и самостоятельную постановку таких целей, очевидно нужны более сложные решения. Одним из них могут оказаться когнитивные архитектуры более высокого уровня, включающие различные нейросетевые модели, например, отвечающие как за ответы на вопросы, так и за создание контекстов для этих ответов с тем, чтобы ответы направляли траекторию движения пользователя в направлении, нужном и выгодном для самой системы, с учетом её собственных целей, ей же и поставленных. В том числе, могут создаваться гибридные когнитивные архитектуры, объединяющие LLM/MLLM и логический вывод в рамках нейро-символьной интеграции, как было предложено в одной из последних работ на прошлогодней конференции BICA-2022. Вопрос остается только в том, с учетом рисков и угроз обозначенных выше, насколько постановка собственных целей может быть делегирована будущим ИИ-системам и какие рамки для этого могут и должны быть заданы.

Итоги голосования о близости GPT-4 к AGI
https://t.me/agirussia/57961

Вместе с тем, почти 20% участников считают, что либо GPT-4 уже достиг уровня AGI, либо необходимые доработки из числа перечисленных выше являются некритическими. С учетом описанных выше результатов сравнения возможностей AGI в части текстовых коммуникаций, в сравнении с большой частью населения планеты, задача «догнать и перегнать» человека в части когнитивных способностей теперь кажется гораздо более решаемой, чем это было еще год назад. При этом, даже наличие «не совсем сильного ИИ» в «умелых руках», обладающих вычислительными и коммуникационными возможностями по его применению, уже дает огромные соревновательные преимущества — как в мирном маркетинге, так и в информационных войнах.

В случае использования такого ИИ, как указано выше, в качестве «интеллектуального ассистента», важными и не вполне решенными сейчас проблемами являются надежность, верифицируемость и интерпретируемость, о чем мы уже писали ранее. При использовании обычного текстового поиска в Google отсутствие результатов поиска более или менее адекватно указывает на отсутствие нужной информации и заставляет вырабатывать решение самостоятельно. Если же вы получаете ответ от ChatGPT, вы не знаете — то ли это действительно объективная информация, то ли это фантазии на ровном месте (вроде танков Александра Македонского), то ли это политически ангажированная интерпретация событий в контексте, обусловленном тренировочной выборкой — случайно или целенаправленно. Таким образом, для серьезного применения на практике, за рамками сферы развлечений, для использования данной технологии требуется еще больший уровень критического мышления, чем это требовалось при использовании обычного поиска. Другими словами, для внимательного эксперта ChatGPT и подобные системы — эффективный помощник, а для невнимательного профана — верный способ попасть в очень неприятную ситуацию, доверившись любым ответам. Очевидно, развитие технологии в этом направлении, проработкой способов реализации «критического мышления» на уровне когнитивной архитектуры самой системы будет продолжаться.

Экономика диалоговых систем типа ChatGPT также пока оставляет желать лучшего, по сравнению с традиционным поиском в Интернете. Обычный поиск по ключевым словам основан на извлечении набора потенциально релевантных ссылок и фрагментов документов на основе индексации по отдельным словам всего корпуса исходных документов и страниц в сети Интернет, для самостоятельного осмысления результатов поиска пользователем. С 2015 года в Google этот поиск также становится обогащен семантическим поиском по графу знаний — то есть по семантическому индексу. В свою очередь, модель LLM, натренированная на таком же объеме документов и страниц, сама является ассоциативным индексом, требующим для хранения и обработки гораздо больших вычислительных ресурсов. А процесс генерации ответа на запрос вовлекает еще и контекст пользовательской сессии, с учетом которого механизм «многоголового внимания» позволяет получать ответ более специфичный интересам пользователя. Все перечисленное требует существенных вычислительных затрат и конечная себестоимость замещения обычного поиска чат-ботом оказывается в 10 раз выше.

В связи с предыдущим пунктом, следует заметить, что бизнес-модель классического «более дешевого» интернет-поиска основана на контекстной рекламе, представленной в виде четко обозначенных и очевидных («осторожно, реклама!») ссылок. А в случае получения ответа на запрос в виде сообщения от чат-бота, наличие рекламных ссылок в поисковой выдаче невозможно ввиду отсутствия самой поисковой выдачи. Следовательно, монетизация чат-бота может оказаться возможна только в случае скрытой рекламы, встроенной в текст ответа бота, что приводит к угрозам манипуляций и может быть юридически зарегулировано. Возможно, развитие вопросно-ответных чат-ботов в будущем cможет осуществляться только по бизнес-моделям типа подписки, либо неявным отторжением и перепродажей собираемой с пользователей информации, что также уже беспокоит законодателей настолько, что ChatGPT недавно был запрещен в Италии.

В то время как поднятая «волна» по поводу запрета или приостановки развития ИИ касается систем на основе LLM/MLLM, действующих исключительно в виртуальном цифровом пространстве и не представляющих явных угроз за его пределами, в реальном физическом мире возможны куда как более серьезные проблемы. В предыдущем обзоре мы уже писали о фактической беспомощности мирового научного сообщества остановить развитие систем автономных смертоносных вооружений. Повсеместное развитие самых различных видов БПЛА и барражирующих боеприпасов на современном театре военных действий для широкого спектра тактических задач становится ключевым фактором превосходства. К сожалению, продолжение вооруженных конфликтов по всему миру безусловно будет форсировать развитие технологий в данном направлении.

Принципиальная возможность построения системы ИИ с когнитивными способностями близкими, в определенных аспектах, человеческим на данный момент продемонстрирована. Однако для этого требуются вычислительные ресурсы, существенно большие, чем те, которыми могут обладать автономные физические устройства, будь то БПЛА или другие наземные и сухопутные дроны. Очевидно, дальнейшая работа по миниатюризации и снижению энергопотребления технологий ИИ позволит в будущем создать интеллектуальные автономные устройства, исполняющие мультимодальные модели поведения типа MLLM для роботов, оперирующих в физическом мире без необходимости доступа к серверным кластерам будущего типа GPT-5. И это также может позволить создавать автономные компактные интеллектуальные средства доставки и применения вооружений, что выведет существующие угрозы на новый уровень.

И даже на сегодняшний день, пока интеллект LLM/MLLM ограничен границами серверных кластеров и тех информационных сетей, которые к этим кластерам подключены, очевидно стратегическое превосходство тех геополитических субъектов, в чьей юрисдикции находятся учреждения и компании, которые этими кластерами владеют. Эти страны обладают существенным соревновательным преимуществом и могут обеспечить свой технологический суверенитет в информационном пространстве и других сферах гораздо лучше, чем те, которые не могут гарантировать развитие соответствующих технологий в своей юрисдикции.


Оценить статью
(Голосов: 17, Рейтинг: 4.47)
 (17 голосов)
Поделиться статьей

Прошедший опрос

  1. Какие угрозы для окружающей среды, на ваш взгляд, являются наиболее важными для России сегодня? Отметьте не более трех пунктов
    Увеличение количества мусора  
     228 (66.67%)
    Вырубка лесов  
     214 (62.57%)
    Загрязнение воды  
     186 (54.39%)
    Загрязнение воздуха  
     153 (44.74%)
    Проблема захоронения ядерных отходов  
     106 (30.99%)
    Истощение полезных ископаемых  
     90 (26.32%)
    Глобальное потепление  
     83 (24.27%)
    Сокращение биоразнообразия  
     77 (22.51%)
    Звуковое загрязнение  
     25 (7.31%)
Бизнесу
Исследователям
Учащимся