ИИ скоро научится?

Когда я показал Иосифу статью о том, как ИИ не смог правильно воссоздать обстановку 1980-х из моей книги, Иосиф сказал: «Но ведь пройдёт сколько-то лет, и он научится?!» И я задался вопросом, а действительно, научится он этому «скоро» или нет? И это сподвигло меня на размышления, которые привожу ниже.

Нейросеть учится на классификации поступающих изображений, соотносит увиденное с фактами и строит различия. Грубо говоря, ей показывают миллион фотографий апельсинов и миллион — не апельсинов, и она строит набор атрибутов, по которым можно опознать, а потом и нарисовать апельсин. Это похоже на то, как ребёнок учится распознавать объекты: вот лицо, вот глазки, ушки и т.д.

И тут мы подходим к главному различию: ведь ребёнок-то продолжает развиваться, у него бинокулярное зрение, и эти самые глазки-ушки, которые он учится распознавать, он видит то ближе, то дальше, а потом он осознаёт их в движении, а потом заглядывает на обратную сторону объекта, понимает, что заслонено чем и строит трёхмерную модель мира. Этого наши нейросети пока не умеют: они учатся на двумерных фотографиях. «Мальчик 11 лет», «девочка с хвостиками», «балкон многоэтажки 1980х», «металлическая шариковая ручка» — для современного ИИ это набор цветных пятен.

Допустим, мы сделали шаг, и научили нейросеть трёхмерности, показали трёхмерные объекты, и как они отображаются в двумерных картинках. Это, конечно, чудовищный объём данных и вычислений, это понятно с первого взгляда на Google Earth (или как теперь называется трёхмерный показ крупных городов Европы и Америки). Это уже требует вычислительных мощностей, на несколько порядков бОльших, чем теперешние. Но это только первый шаг.

Следующий шаг — база, на которой надо учиться. Это, опять же, на несколько порядков сложнее, чем база Google Earth, в которой только улицы и здания, и то, по большей части — снаружи. Трёхмерную модель комнат, парт, детей, домов, книг, тетрадей, бантиков и пуговиц нельзя построить на миллиардах фотографий пользователей интернета. Разве что со временем, когда эти самые пользователи наснимают миллиарды трёхмерных фотографий всего этого, и то, эти фотографии будут обладать ограниченностью ракурсов. Оставим детали вашему воображению, но вы же понимаете, что никто не фотографирует родственников со всех возможных сторон и углов, как, собственно, и столы и микроволновки. Даже если такая база данных будет построена, никто уже не вернётся в прошлое и не создаст базу данных трёхмерных изображений, которые были. Тем более в нескольких временах и эпохах.

Такие трёхмерные модели существуют в анимационных программах, но их, разумеется, разрабатывает не искусственный интеллект, а люди. Это кропотливый и дорогостоящий процесс. Существует рынок моделей улиц, людей, персон для нужд анимации. Чем детальнее модель, чем больше в ней степеней свободы, чем ближе её «поведение» к реальному — тем она дороже. Этих моделей, конечно, недостаточно для самостоятельного обучения нейросети.

Значит, нужен следующий шаг: научить нейросеть на абстрактных трёхмерных моделях, что такое «человек», «дом», «собака», «дерево», а потом уже научить её распознавать эти трехмерные объекты по двух- или трёхмерным фотографиям и классифицировать. Это ещё несколько порядков вычислительной мощности. Такой (гипер-гипер-) компьютер будет способен распознать по фотографии, что на ней два человека и три дерева, дорожка, идущая в глубину кадра, что пара стоит поперёк дорожки, заслоняя часть бордюра и листвы.

И тут мы подходим не только к проклятию размерности, не только к чудовищному количеству вычислений на распознавание всего этого, но и к философскому смыслу такой машины. Вы только вообразите себе машину, которая способна определить содержание по виду, распознать действующие лица и предметы, определить до них расстояние, определить время происходящего, страну и эпоху. И эмоциональное состояние персонажей. Для которой «улыбающийся мальчик 12-лет» — это не просто набор цветных пятен, а она при этом знает, что мальчик — это частный случай понятия «человек» определённой возрастной категории, а «улыбающийся» — это отражение эмоции. Честно говоря, я бы побоялся к ней приближаться, потому что если она по фото может распознать, что она видит, то она может распознать и настроение, и намерения. Это была бы не просто машина времени, это была бы Машина Всех Времён, Настроений и Состояний.

Но если бы такая машина существовала, то ей бы, разумеется, могли бы дать более серьёзные (и пугающие) задания, чем «нарисуйте мне пару улыбающихся детей 12-лет во дворе СССР 1980-х».

Поэтому ответ на вопрос, поставленный Иосифом в начале, начинает очень походить на пример, который привёл Лем в «Сумме Технологий»: Алхимики думали, что смогут превратить ртуть в золото; впоследствии химики доказали, что это невозможно; впоследствии ядерная физика доказала, что это теоретически возможно, но абсолютно бессмысленно для тех «старых» целей: для этого требуются усилия и энергия, несопоставимые с целью получения более дорогого металла, годящегося для производства украшений. Иными словами, если науке понадобится произвести золото из ртути, то не для того, чтобы делать потом украшения или продавать золото дороже, чем ртуть.

Таков и мой вывод про ИИ: если он «поумнеет» настолько, что сможет распознавать объекты, распознавать их взаимное расположение и эмоциональное состояние, да ещё и соотносить их с временами и странами, то, наверное, у настолько умных машин будет какое-то другое применение, нежели рисование картинок про детей в СССР 1980-х.

Комментарии

  1. Привет из 1980-го: если когда-то будет создан виде-телефон, то наверняка для каких-то важных государственных целей, типа космонавтики. Ну никак для того, чтоб дети переговаривались из соседних комнат или мужья показывали женам из магазина, какой кошачий корм покупают.»

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *