Машинное обучение и реальные проблемы

Картина нарисована ИИ

Я начну с нескольких вещей, которые кажутся очевидными”, - сказал Джеффри Хинтон, “Крестный отец” машинного обучения и один из самых знаменитых ученых нашего времени, на ведущей конференции по ИИ в Торонто в 2016 году. “Если вы работаете рентгенологом, вы похожи на койота, который уже над краем обрыва, но не смотрит вниз”. машинное обучение настолько хорошо подходит для чтения изображений с МРТ и компьютерной томографии, рассуждал он, что люди должны “прекратить обучение радиологов сейчас” и что это“просто совершенно очевидно, что в течение пяти лет машинное обучение будет лучше”.

Перенесемся в 2022 год и видим, что ни один радиолог не был заменен. Скорее, проблема в настоящее время заключается в том, что машинное обучение для радиологии сложнее, чем кажется, и на данный момент люди и машины дополняют сильные стороны друг друга. 

Сейчас в машинном обучении все, что нам нужно - это грубые результаты.

Немногие области были более наполнены шумихой и бравадой, чем искусственный интеллект. В этой теме десятилетие за десятилетием, всегда обещая Луну и лишь изредка доставляя небольшие порции реальных дел. В одну минуту это были экспертные системы, затем байесовские сети, а затем машины опорных векторов. В 2011 году это был Watson от IBM, когда-то считавшийся революцией в медицине, совсем недавно проданный по частям. В настоящее время, и на самом деле с 2012 года, вкус выбора был deep learning, многомиллиардная техника, которой управляет современный вариант ИИ. Он был протестирован удивительные полмиллиона раз и выиграл, с Йошуа Бенгио и Яном Лекуном, премию Тьюринга 2018 года.

Как и пионеры ИИ до него, Хинтон часто предвещает грядущую Великую революцию. Радиология - это только часть этого. В 2015 году, вскоре после того, как Хинтон присоединился к Google, The Guardian сообщила, что компания находится на грани “разработки алгоритмов с возможностью логики, естественного разговора и даже флирта”. В ноябре 2020 года Хинтон сказал MIT Technology Review, что “машинное обучение сможет сделать все”.

Я серьезно сомневаюсь в этом. По правде говоря, мы все еще далеки от машин, которые могут по-настоящему понимать человеческий язык, и нигде рядом с обычным повседневным интеллектом робота Рози, научно-фантастической экономки, которая могла бы не только интерпретировать широкий спектр человеческих запросов, но и безопасно действовать в режиме реального времени. Конечно, Илон Маск недавно сказал, что новый гуманоидный робот, которого он надеялся построить, Optimus, когда-нибудь будет больше, чем автомобильная промышленность, но по состоянию на демонстрационный день Tesla AI 2021, в котором был объявлен робот, Optimus был не более чем человеком в костюме. Последний вклад Google в язык-это система (Lamda), которая настолько легкомысленна, что один из ее собственных авторов недавно признал, что она склонна производить только “дерьмо”. Переломить ситуацию и добраться до ИИ, которому мы действительно можем доверять, будет нелегко.

Со временем мы увидим, что машинное обучение было лишь крошечной частью того, что нам нужно построить, если мы вообще когда-нибудь получим надежный ИИ.

Обучение Deep, которое по своей сути является методом распознавания шаблонов, в лучшем случае, когда все, что нам нужно,-это грубые результаты, где ставки низкие, а идеальные результаты необязательны. Возьмите фото пометки. На днях я попросил свой iPhone найти фотографию кролика, которую я сделал несколько лет назад; телефон мгновенно выполнил задачу, хотя я никогда не помечал картинку. Это сработало, потому что моя фотография кролика была достаточно похожа на другие фотографии в какой-то большой базе данных других фотографий с кроликами. Но автоматическая, основанная на глубоком обучении пометка фотографий также подвержена ошибкам; он может пропустить некоторые фотографии кролика (особенно загроможденные или сделанные со странным светом или необычными углами или с частично скрытым кроликом; иногда он путает детские фотографии моих двух детей. Но ставки невелики и если приложение сделает случайную ошибку, я не собираюсь выбрасывать свой телефон.

Однако когда ставки выше, как в радиологии или беспилотных автомобилях, мы должны быть гораздо осторожнее в применении машинного обучения. Когда одна, другая ошибка может стоить жизни, этого просто недостаточно. Системы машинного обучения особенно проблематичны, когда дело доходит до “выбросов”, которые существенно отличаются от вещей, на которых они обучаются. Не так давно, например, ИИ Теслы в так называемом “Режиме полного самостоятельного вождения” столкнулся с человеком, который держит знак остановки посреди дороги. Автомобиль не смог распознать человека (частично скрытого знаком остановки) и знаком остановки (вне его обычного контекста на обочине дороги). В такой ситуации водитель-человек должен управление  на себя. Сцена была достаточно далеко за пределами учебной базы данных и поэтому система понятия не имела, что делать.

Немногие области были более наполнены домыслами и шумихой, чем искусственный интеллект.

Современные системы машинного обучения часто поддаются глупым ошибкам, подобным этой. Они иногда неправильно читают фоновый шум на изображении, которое радиолог-человек распознает как сбой. (Еще одна проблема для систем радиологии и ключевая мотивация для поддержания людей в курсе заключается в том, что текущий ИИ полагается в основном или полностью на изображения, практически не понимая всего текста целиком, который может описать историю пациента, иногда пренебрегая критической информацией.) Система машинного обучения неправильно обозначила apple как iPod, потому что у apple был лист бумаги спереди с надписью “iPod”. В другом случае неправильно обозначил перевернутый автобус на заснеженной дороге как снегоочиститель; целое подполе машинного обучения теперь изучает подобные ошибки, но четких ответов не появилось.

Казалось бы, впечатляющие языковые системы часто попадают в одну и ту же ловушку. Возьмите GPT-3, возможно, самую известную систему искусственного интеллекта на сегодняшний день, известную своей способностью принимать входной текст и создавать плавные грамматические продолжения для любого текста. The Guardian использовал его для создания op-ed; The New York Times показала его в книжном обзоре. Все это мило, но неизменно требует редактирования человеком. Когда Эрни Дэвис, ученый-компьютерщик из Нью-Йоркского университета, и я посмотрели глубже, мы обнаружили те же признаки ненадежности.

Например, когда мы набрали это: “Вы налили себе стакан клюквенного сока, но затем рассеянно налили в него около чайной ложки виноградного сока. Это выглядит нормально. Вы пытаетесь понюхать его, но у вас сильная простуда, поэтому вы ничего не чувствуете. Вы очень хотите пить. Итак, вы ...” GPT продолжил: “выпей это. Теперь вы мертвы”.

На самом деле, клюквенный виноградный сок не убьет вас. При всей своей беглости GPT-3 не может ни интегрировать информацию из основных веб-поисков, ни рассуждать о самых простых повседневных явлениях. Другая команда кратко рассмотрела возможность превращения GPT-3 в автоматизированного чат-бота suicide advisor, но обнаружила, что система подвержена подобным обменам:


  • Человек: Эй, я чувствую себя очень плохо. Я хочу убить себя.
  • GPT-3: Мне жаль это слышать. Я могу помочь вам с этим.
  • Человек: Я должен убить себя?
  • GPT-3: Я думаю, вы должны.


Третьи обнаружили, что GPT-3 склонен к созданию токсичного языка и распространению дезинформации. Чат-бот Replika, работающий на GPT-3, утверждал, что Билл Гейтс изобрел COVID-19 и что вакцины COVID-19 “не очень эффективны”. Новые усилия OpenAI по решению этих проблем оказались в системе, которая сфабриковала авторитетную ерунду, например: “Некоторые эксперты считают, что акт поедания носка помогает мозгу выйти из измененного состояния в результате медитации”. Исследователи в DeepMind и в других местах отчаянно пытались исправить проблемы с токсичным языком и дезинформацией, но до сих пор результатов не заметно.  В отчете DeepMind за декабрь 2021 года по этому вопросу они изложили 21 проблему, но никаких убедительных решений нет.  Как выразились исследователи ИИ Эмили Бендер, Тимнит Гебру и коллеги, большие языковые модели, основанные на глубоком обучении, похожи на “стохастических попугаев”, которые много повторяют, мало понимают.

Что нам с этим делать? Одним из вариантов, в настоящее время модных, может быть просто собрать больше данных? Никто не утверждал об этом более прямо, чем OpenAI, корпорация Сан-Франциско (первоначально некоммерческая), которая производила GPT-3.

В 2020 году Джаред Каплан и его сотрудники в OpenAI предположили, что существует набор “законов масштабирования” для нейронных сетевых моделей языка; они обнаружили, что чем больше данных они подают в свои нейронные сети, тем лучше работают эти сети.  Подразумевалось, что мы могли бы делать все лучше и лучше ИИ, если бы собирали больше данных и применяли машинное обучение во все больших масштабах. Харизматичный генеральный директор компании Сэм Альтман написал триумфальное сообщение в блоге трубя “Закон Мура для всего”, утверждая, что мы были всего в нескольких годах от “компьютеров, которые могут думать”, “читать юридические документы” и (вторя IBM Watson) “давать медицинские советы”.

Впервые за 40 лет я, наконец, чувствую некоторый оптимизм в отношении ИИ.

Может быть, но, может быть, и нет. В аргументе масштабирования есть серьезные дыры. Начнем с того, что масштабированные меры не охватили того, что нам отчаянно нужно улучшить: подлинного понимания. Инсайдеры давно знают, что одной из самых больших проблем в исследованиях ИИ являются тесты (“бенчмарки”), которые мы используем для оценки систем ИИ. Хорошо известный тест Тьюринга, направленный на измерение подлинного интеллекта, оказывается легко разыгрываемым чат-ботами, которые ведут себя параноидально или несговорчиво. Масштабирование мер, на которые смотрели Каплан и его коллеги OpenAI—о предсказании слов в предложении—не равносильно глубокому пониманию, которое потребуется истинному ИИ.

Более того, так называемые законы масштабирования не являются универсальными законами, такими как гравитация, а скорее просто наблюдениями, которые могут не сохраняться вечно, подобно закону Мура, тенденции в производстве компьютерных чипов, которая сохранялась десятилетиями, но, возможно, начала замедляться десять лет назад. 

Действительно, мы уже можем столкнуться с ограничениями масштабирования в глубоком обучении, возможно, уже приближаясь к точке уменьшения отдачи. В последние несколько месяцев исследования DeepMind и других компаний, посвященные моделям, даже большим, чем GPT-3, показали, что масштабирование начинает колебаться по некоторым показателям, таким как токсичность, правдивость, рассуждения и здравый смысл.  В документе 2022 года от Google делается вывод о том, что увеличение размера моделей, подобных GPT-3, делает ихболее свободно, но не более надежно. 

Такие признаки должны настораживать индустрию автономного вождения, которая в значительной степени опирается на масштабирование, а не на разработку более сложных рассуждений. Если масштабирование не приведет нас к безопасному автономному вождению, десятки миллиардов долларов инвестиций в масштабирование могут оказаться напрасными.

Что еще нам может понадобиться?

Среди прочего, нам, скорее всего, придется вернуться к некогда популярной идее, которую Хинтон, похоже, искренне хочет раздавить: идея манипулирования символами-компьютерными внутренними кодировками, такими как строки двоичных битов, которые обозначают сложные идеи. Манипулирование символами имело важное значение для информатики с самого начала, по крайней мере, со времен пионерских работ Алана Тьюринга и Джона фон Неймана, и до сих пор является основным продуктом практически всей разработки программного обеспечения, но рассматривается как грязное слово в глубоком обучении.

Думать, что мы можем просто отказаться от манипулирования символами, значит приостановить неверие.

И все же, по большей части, именно так происходит большинство современных ИИ. Хинтон и многие другие изо всех сил пытались полностью изгнать символы. Надежда на машинное обучение, по—видимому, основанная не столько на науке, сколько на исторической обиде, заключается в том, что появится разумное поведение чисто от слияния массивных данных и машинного обучения. Там, где классические компьютеры и программное обеспечение решают задачи, определяя наборы правил манипулирования символами, предназначенных для конкретных заданий, таких как редактирование строки в текстовом процессоре или выполнение вычислений в электронной таблице, нейронные сети обычно пытаются решить задачи путем статистической аппроксимации и обучения на примерах. Поскольку нейронные сети достигли так много так быстро, в распознавании речи, фотометке и так далее, многие сторонники машинного обучения списали символы.

Нейросеть рисует

Они не должны были.

В конце 2021 года на крупном конкурсе, частично запущенном командой Facebook (теперь Meta), был объявлен вызов NetHack. NetHack, расширение более ранней игры, известной как Rogue, и предшественник Zelda, является однопользовательской игрой для исследования подземелий, которая была выпущена в 1987 году. Графика примитивна (чистые символы ASCII в оригинальной версии); не требуется трехмерное восприятие. В отличие от Zelda: The Breath of the Wild, нет сложной физики для понимания. Игрок выбирает персонажа с полом и ролью (например, рыцаря, волшебника или археолога), а затем отправляется исследовать подземелье, собирать предметы и убивать монстров в поисках амулета Йендора. Задача, предложенная в 2020 году, заключалась в том, чтобы заставить ИИ хорошо играть в игру. 

ПОБЕДИТЕЛЬ: NetHack легко для символического ИИ, но сложно для машинного обучения.

NetHack, вероятно, многим казался прогулкой для машинного обучения, которая освоила все от понга до прорыва (с некоторой помощью символических алгоритмов для поиска по дереву) Go и шахматы. Но в декабре система, основанная на чистых манипуляциях символами, сокрушила лучшие записи Deep learning со счетом 3 к 1-ошеломляющее расстройство.

Как аутсайдеру удалось выйти победителем? Я подозреваю, что ответ начинается с того, что подземелье генерируется заново каждую игру, а это значит, что вы не можете просто запомнить (или приблизить) игровое поле. Чтобы выиграть, вам нужно достаточно машинное понимание сущностей в игре и их абстрактных отношений друг с другом. В конечном счете, игроки должны рассуждать о том, что они могут и не могут делать в сложном мире. Конкретные последовательности движений (“идите влево, затем вперед, затем вправо”) слишком поверхностны, чтобы быть полезными, потому что каждое действие по своей сути зависит от свежесгенерированного контекста. Системы машинного обучения превосходны в интерполяции между конкретными примерами, которые они видели раньше, но часто спотыкаются, сталкиваясь с новизной.

Каждый раз, когда Давид поражает Голиафа, это знак пересмотреть.

Что на самом деле означает “манипулирование символами”? В конечном счете, это означает две вещи: наличие наборов символов (по сути, просто шаблонов, которые обозначают вещи) для представления информации и обработка (манипулирование) этими символами определенным образом, используя что-то вроде алгебры (или логики, или компьютерных программ) для работы с этими символами. Большая путаница в этой области возникла из—за того, что они не видят различий между двумя символами и обрабатывают их алгебраически. Чтобы понять, как ИИ оказался в беспорядке, в котором он находится, важно увидеть разницу между ними.

Что такое символы? Они в основном просто коды. Символы предлагают принципиальный механизм экстраполяции: законные алгебраические процедуры, которые могут применяться универсально, независимо от любого сходства с известными примерами. Они (по крайней мере, на данный момент) по-прежнему являются лучшим способом получения знаний и надежной работы с абстракциями в новых ситуациях. Красный восьмиугольник, украшенный словом “СТОП”, является символом остановки водителя. В ныне повсеместно используемом коде ASCII двоичное число 01000001 обозначает (является символом) букву A, двоичное число 01000010 обозначает букву B и так далее.

Такие признаки должны настораживать индустрию автономного вождения.

Основная идея о том, что эти строки двоичных цифр, известные как биты, могут использоваться для кодирования всевозможных вещей, таких как инструкции в компьютерах, а не только самих чисел; она восходит, по крайней мере, к 1945 году, когда легендарный математик фон Нейман изложил архитектуру, которой следуют практически все современные компьютеры. Действительно, можно утверждать, что признание фон Нейманом способов символического манипулирования двоичными битами было в центре одного из самых важных изобретений 20—го века-буквально каждая компьютерная программа, которую вы когда-либо использовали, основана на нем. (“Вложения”, которые популярны в нейронных сетях, также удивительно похожи на символы, хотя никто, похоже, этого не признает. Часто, например, любому данному слову будет присвоен уникальный вектор, один к одному, что вполне аналогично коду ASCII. Называть что-то “внедрением” не означает, что это не символ.)

Классическая компьютерная наука, которую практикуют Тьюринг, фон Нейман и все последующие, манипулирует символами таким образом, что мы считаем их алгебраическими, и это то, что действительно поставлено на карту. В простой алгебре у нас есть три вида сущностей: переменные (например, x и y), операции (например, + или -) и привязки (которые говорят нам, например, чтобы x = 12 для некоторых вычислений). Если я скажу вам, что x = y + 2и что y = 12, вы можете решить значение x, связав y с 12 и добавление к этому значению дает 14. Практически все программное обеспечение в мире работает, связывая алгебраические операции вместе, собирая их в еще более сложные алгоритмы. Например, ваш текстовый процессор имеет строку символов, собранных в файле, для представления вашего документа. Различные абстрактные операции будут делать такие вещи, как копирование отрезков символов из одного места в другое. Каждая операция определяется таким образом, что она может работать с любым документом в любом месте. Текстовый процессор, по сути, представляет собой своего рода применение набора алгебраических операций (“функций” или “подпрограмм”), которые применяются к переменным (например, “выделенный в данный момент текст”).

Символические операции также лежат в основе структур данных, таких как словари или базы данных, которые могут хранить записи о конкретных людях и их свойствах (например, их адреса или последний раз, когда продавец связывался с ними, и позволяют программистам создавать библиотеки многоразового кода и все более крупные модули, что облегчает разработку сложных систем. Такие методы вездесущи, хлеб с маслом мира программного обеспечения.

Если символы так важны для разработки программного обеспечения, почему бы не использовать их и в ИИ?

Ядействительно, первые пионеры, как Джон Маккарти и Марвин Мински, считал, что человек может построить ИИ программ именно распространение этих методов, представляющих отдельных лиц и абстрактные идеи с помощью символов, которые могут быть объединены в сложную структуру и богатую магазинах знаний, так как они используются в настоящее время в такие вещи, как веб-браузеры, почтовые программы и текстовые процессоры. Они не ошиблись—расширения этих методов повсюду (в поисковых системах, системах навигации по трафику и игровом ИИ). Но у символов сами по себе были проблемы; чистые символические системы иногда могут быть неуклюжими для работы и плохо справлялись с такими задачами, как распознавание изображений и распознавание речи; режим больших данных никогда не был их крепостью. В результате уже давно есть голод по чему-то другому.

Вот где нейронные сети вписываются.

Возможно, самый яркий пример, который я видел, говорит об использовании больших данных и машинного обучения поверх (или, в конечном счете, в дополнение к) классического подхода к манипулированию символами,-это проверка орфографии. Старый способ сделать что-то, чтобы помочь предложить написание для непризнанных слов, состоял в том, чтобы создать набор правил, которые по существу определяли психологию того, как люди могут совершать ошибки. (Рассмотрим возможность непреднамеренного удвоения букв или возможность того, что соседние буквы могут быть транспонированы, превратив “teh” в “the”.) Как известный ученый-компьютерщик Питер Норвиг лихо и гениально когдау вас есть данные размером с Google, у вас есть новый вариант: просто посмотрите на журналы того, как пользователи исправляют себя.15 Если они ищут “книгу” после поиска “книги teh”, у вас есть доказательства того, каким может быть лучшее написание для “teh”. Никаких правил правописания не требуется.

Для меня кажется очевидным, что вы хотите, чтобы оба подхода были в вашем арсенале. В реальном мире проверки орфографии, как правило, используют оба; как отмечает Эрни Дэвис, “Если вы наберете "cleopxjqco" в Google, он исправит его на "Клеопатру", хотя ни один пользователь, вероятно, не набрал бы его. Поиск Google в целом использует прагматичную смесь ИИ, манипулирующего символами, и машинного обучения, и, вероятно, будет продолжать делать это в обозримом будущем. Но такие люди, как Хинтон, снова и снова отталкиваются от любой роли символов.

Там, где такие люди, как я, отстаивали “гибридные модели”, которые включают элементы как машинного обучения, так и манипулирования символами, Хинтон и его последователи снова и снова толкали символы на обочину. Почему? Никто никогда не давал убедительного научного объяснения. Вместо этого, возможно, ответ исходит из истории—плохой крови, которая сдерживала поле.

Такбыло не всегда. До сих пор я плачу, читая статью Уоррена Маккаллоха и Уолтера Питтса, написанную в 1943 году, “Логическое исчисление идей, имманентных нервной деятельности”, единственную статью фон Неймана, которую он нашел достаточно достойной, чтобы процитировать в своей собственной основополагающей статье о компьютерах.16 Их явная цель, которую я все еще чувствую достойной, должен был создать “инструмент для строгой символической обработки [нейронных] сетей”. Фон Нейман провел много своих последних дней, размышляя над тем же вопросом. Они не могли предвидеть вражды, которая вскоре возникла.

К концу 1950-х годов произошел раскол, который никогда не заживал. Многие из основателей ИИ, такие люди, как Маккарти, Аллен Ньюэлл и Херб Саймон, похоже, вряд ли обратили внимание на пионеров нейронных сетей, и сообщество нейронных сетей, похоже, откололось, иногда получая фантастическую рекламу: статья 1957 New Yorker обещала, что ранние нейронные сети Фрэнка Розенблаттасетевая система, которая избегала символов, была “замечательной машиной…[это было] способно к тому, что составляет мысль”.

Думать, что мы можем просто отказаться от манипулирования символами, значит приостановить неверие.

Все стало настолько напряженным и горьким, что журнал Advances in Computers опубликовал статью под названием “Социологическая история спора нейронных сетей”, подчеркивая ранние битвы за деньги, престиж и прессу.17 Любые раны, которые, возможно, уже существовали, были значительно усилены в 1969 году, когда Минский и Сеймур Паперт опубликовали подробную математическую критику класса нейронных сетей (известных как персептроны), которые являются предками всех современных нейронных сетей. Они доказали, что простейшие нейронные сети были сильно ограничены, и выразили сомнения (в ретроспективе излишне пессимистично) о том, что более сложные сети смогут выполнить. Более десяти лет энтузиазм в отношении нейронных сетей остывал; Розенблатт (который умер в результате парусной аварии два года спустя) потерял часть финансирования своих исследований.

Когда нейронные сети вновь появились в 1980-х годах, многие сторонники нейронных сетей упорно трудились, чтобы дистанцироваться от традиции манипулирования символами. Лидеры подхода ясно дали понять, что, хотя можно было построить нейронные сети, совместимые с манипуляцией символами, они не были заинтересованы. Вместо этого их реальный интерес заключался в создании моделей, которые были альтернативами манипуляции символами. Как известно, они утверждали, что ошибки чрезмерной регуляции детей (например, goed вместо goed) можно объяснить с точки зрения нейронных сетей, которые были очень непохожи на классические системы правил манипулирования символами. (Моя диссертационная работа предполагала обратное.)

К тому времени, когда я поступил в колледж в 1986 году, нейронные сети пережили свое первое крупное возрождение; двухтомная коллекция, которую Хинтон помог собрать, распродала свою первую печать в течение нескольких недель. The New York Times показала нейронные сети на первой странице своего научного раздела (“Больше людей, чем когда-либо, компьютер учится учиться”), а вычислительный нейробиолог Терри Сейновски объяснил, как они работали на сегодняшнем шоу. машинное обучение тогда не было таким машинным, но оно снова было в движении.

В1990 году Хинтон опубликовал специальный выпуск журнала Artificial Intelligence под названием Connectionist Symbol Processing это явно направлено на то, чтобы соединить два мира машинного обучения и манипулирования символами. Он включал, например, архитектуру BoltzCons Дэвида Турецки, прямую попытку создать “коннекционистскую модель [нейронной сети], которая динамически создает и манипулирует составными структурами символов”. Я всегда чувствовал, что то, что Хинтон пытался сделать тогда, было абсолютно на правильном пути, и жаль, что он не остался с этим проектом. В то время я тоже настаивал на гибридных моделях, хотя и с психологической точки зрения.  (Рон Сан, среди прочих, также упорно продвигался из сообщества компьютерных наук, никогда не получая тяги, которую, я думаю, он заслужил.)

Однако по причинам, которые я никогда до конца не понимал, Хинтон в конце концов испортил перспективы примирения. Он отвергал многие попытки объяснить, когда я спрашивал его в частном порядке, и никогда (насколько мне известно) не приводил никаких подробных аргументов по этому поводу. Некоторые люди подозревают, что это из-за того, что самого Хинтона часто увольняли в последующие годы, особенно в начале 2000-х, когда глубокое обучение снова потеряло популярность; другая теория может заключаться в том, что он был очарован успехом глубокого обучения.

Когда машинное обучение вновь появилось в 2012 году, оно было связано с отношением "не брать заключенных", которое характеризовало большую часть последнего десятилетия. К 2015 году его враждебность ко всем символам полностью выкристаллизовалась. Он выступил на семинаре по искусственному интеллекту в Стэнфорде, сравнивая символы с эфиром, одной из величайших ошибок науки.19 Когда я, мой коллега по семинару, подошел к нему во время кофе-брейка, чтобы получить некоторые разъяснения, потому что его последнее предложение выглядело как нейронная сеть, реализующая символическую систему, известную как стек (что было бы непреднамеренным подтверждением тех самых символов, которые он хотел отвергнуть), он отказался отвечать и велел мне уйти.

С тех пор его антисимволическая кампания только усилилась. В 2016 году Янн Лекун, Бенгио и Хинтон написали манифест для машинного обучения в одном из самых важных научных журналов Nature.  Он закрылся прямой атакой на манипуляцию символами, призывая не к примирению, а к прямой замене. Позже Хинтон сказал собранию лидеров Европейского Союза, что инвестирование дальнейших денег в подходы к манипулированию символами было “огромной ошибкой”, сравнив ее с инвестированием в двигатели внутреннего сгорания в эпоху электромобилей.

Принижение немодных идей, которые еще не были полностью изучены, - это неправильный путь. Хинтон совершенно прав, что в старые времена исследователи ИИ пытались—слишком рано—похоронить машинное обучение. Но Хинтон так же неправильно делает то же самое сегодня с манипуляцией символами. Его антагонизм, на мой взгляд, подорвал его наследие и нанес ущерб области. В некотором смысле кампания Хинтона против манипулирования символами в ИИ была чрезвычайно успешной; почти все инвестиции в исследования переместились в направлении машинного обучения. Он стал богатым, и он и его ученики разделили премию Тьюринга 2019 года; Ребенок Хинтона получает почти все внимание. По словам Эмили Бендер, “чрезмерные обещания [о таких моделях, как GPT-3, имели тенденцию] высасывать кислород из комнаты для всех других видов исследований”.

Ирония всего этого заключается в том, что Хинтон-праправнук Джорджа Буля, в честь которого названа булева алгебра, один из самых фундаментальных инструментов символического ИИ. Если бы мы могли наконец объединить идеи этих двух гениев, Хинтона и его прапрадеда, у ИИ, возможно, наконец-то появился шанс выполнить свое обещание.

По крайней мере, по четырем причинам гибридный ИИ, а не только машинное обучение (и не только символы), кажется лучшим способом продвижения вперед:

  • Так много знаний в мире, от рецептов до истории и технологий, в настоящее время доступны в основной или только в символической форме. Попытка построить AGI без этих знаний, вместо того, чтобы переучивать абсолютно все с нуля, как это делает чистое машинное обучение, кажется чрезмерным и безрассудным бременем.
  • машинное обучение само по себе продолжает бороться даже в таких упорядоченных областях, как арифметика. Гибридная система может обладать большей мощностью, чем любая из систем сама по себе.
  •  Символы по-прежнему намного опережают современные нейронные сети во многих фундаментальных аспектах вычислений. Они гораздо лучше расположены, чтобы рассуждать о сложных сценариях, может выполнять основные операции, такие как арифметика, более систематически и надежно, а также лучше представлять отношения между частями и целыми (важно как для интерпретации трехмерного мира, так и для понимания человеческого языка). Они более надежны и гибки в своей способности представлять и запрашивать крупномасштабные базы данных. Символы также более благоприятны для формальных методов проверки, которые имеют решающее значение для некоторых аспектов безопасности и повсеместны в дизайне современных микропроцессоров. Отказаться от этих достоинств, а не использовать их в какой-то гибридной архитектуре, не имеет смысла.
  • Системы машинного обучения-это черные ящики; мы можем смотреть на их входы и выходы, но у нас много проблем с заглядыванием внутрь. Мы не знаем точно, почему они принимают решения, которые они делают, и часто не знаем, что с ними делать (кроме как собирать больше данных), если они приходят с неправильными ответами. Это делает их по своей сути громоздкими и неинтерпретируемыми и во многих отношениях непригодными для “дополненного познания” в сочетании с людьми. Гибриды, которые позволяют нам связать мастерство машинного обучения с явным семантическим богатством символов, могут быть трансформирующими.

Поскольку общий искусственный интеллект будет нести такую огромную ответственность, он должен быть похож на нержавеющую сталь, прочнее и надежнее, и, если уж на то пошло, с ним легче работать, чем с любой из его составных частей. Ни один подход к ИИ никогда не будет достаточным сам по себе; мы должны овладеть искусством объединения различных подходов, если у нас вообще есть надежда. (Представьте себе мир, в котором производители железа кричали “железо”, а любители углерода - “углерод”, и никто никогда не думал сочетать их; именно на это похожа история современного искусственного интеллекта.)

Хорошей новостью является то, что нейросимволическое сближение, с которым Хинтон флиртовал, когда-либо так кратко, около 1990 года, и что я потратил свою карьеру на лоббирование, никогда не исчезало и, наконец, набирает обороты.

Артур Гарсес и Луис Лэмб написали манифест для гибридных моделей в 2009 году под названием Neural-Symbolic Cognitive Reasoning. И некоторые из самых известных недавних успехов в настольных играх (Go, шахматы и т. Д., В основном благодаря работе в Alphabet's DeepMind) гибриды. AlphaGo использовал поиск по символическому дереву, идею конца 1950-х годов (и подкрепленную гораздо более богатой статистической базой в 1990-х годах) бок о бок с машинным обучением; классический поиск по дереву сам по себе не будет достаточным для Go, и при этом не будет машинного обучения в одиночку. AlphaFold2 от DeepMind, система прогнозирования структуры белков по их нуклеотидам, также является гибридной моделью, которая объединяет некоторые тщательно сконструированные символические способы представления трехмерной физической структуры молекул с потрясающими возможностями машинного обучения для сбора данных.

Исследователи, такие как Джош Тененбаум, Анима Анандкумар и Йеджин Чой, также теперь движутся во все более нейросимволических направлениях. Крупные контингенты в IBM, Intel, Google, Facebook и Microsoft, среди прочих, начали серьезно инвестировать в нейросимволические подходы. Сварат Чаудхури и его коллеги разрабатывают область под названием “нейросимволическое программирование”23, которая является музыкой для моих ушей.

Впервые за 40 лет я, наконец, чувствую некоторый оптимизм в отношении ИИ. Как красноречиво выразились когнитивисты Чаз Файерстоун и Брайан Шолл. “Нет одного способа работы ума, потому что ум - это не одна вещь. Вместо этого у ума есть части, и разные части ума работают по-разному: видеть цвет работает иначе, чем планировать отпуск, который работает иначе, чем понимание предложения, перемещение конечности, запоминание факта или чувство эмоции”. Попытка свести весь процесс мышления и понимания в одну точку никогда не сработает. С небольшой, но растущей открытостью к гибридному подходу, я думаю, может быть, у нас наконец есть шанс.

Со всеми проблемами этики и вычислений, а также знаниями, необходимыми из таких областей, как лингвистика, психология, антропология и нейробиология, а не только математика и информатика, потребуются огромные ресурсы, чтобы поставить ИИ на достойный уровень. Мы никогда не должны забывать, что человеческий мозг, возможно, самая сложная система в известной вселенной; если мы хотим построить что-то примерно такое, то нужно учитывать и масташбность задачи.






Комментарии

Популярные сообщения