Мы со Светланой решили попробовать с помощью ИИ воссоздать в виде фотографий моменты прошлого, которые не были сфотографированы, сделать «Фотографии по памяти». Мы создавали описания некоторых сцен из моей книги «Тетрадка«. Поскольку в этой книге я и автор, и герой, мы оба точно знаем, как выглядели эти сцены, и можем оценить достоверность.
Надо отметить, процесс был очень увлекательным. И результаты поначалу получались достаточно вдохновляющими. Вдохновляющими на то, чтобы продолжить поиски, пытаться ещё и ещё. Всё время казалось, что «в целом близко к тому, что надо, надо только исправить то и это»… И это продолжалось и продолжалось, пока ко мне не пришло ощущение, что окончательный результат, видимо, недостижим. ИИ не сделает то, что нам нужно. Задача воссоздания обстановки не решается с помощью ИИ. Если у меня в голове есть образ, который я не могу визуализировать из-за неумения рисовать, то, мне кажется, проще мне научиться рисовать, чем попытаться словами объяснить другому, что я имею в виду, чтобы он воссоздал образ, которого в его голове совсем не было.
Слова плохо подходят для детального описания образа, слова слишком неточны. Под фразой «двор города советской эпохи» может подразумеваться и занесенный снегом подъезд хрущёвки, и двор деревянного дома, и двор панельной многоэтажки. Попытки раз за разом детализировать описание приводили к тому, что ИИ, как усталый школьник на физкультуре, каждую новую итерацию делал всё дальше и дальше от требуемого, игнорировал требования, ухудшал даже то, что раньше получилось хорошо.
Мы пробовали несколько продуктов: OpenAI Dall-E, Playground AI, Microsoft CoPilot и MidJorney. Субъективно, CoPilot, кажется, лучше всех справился с атмосферой советского города и нужным нам видом с многоэтажки, хотя город за балконом и оказался вполне узнаваемой Припятью. А как же иначе, ведь ИИ учится на поисковых системах, а какой ещё город, навсегда застывший в 1980-х, так хорошо задокументирован? А MidJorney прекрасно воссоздал холмистый пейзаж Молдавии, где дети идут в поход, но это и понятно, потому что это более-менее однозначное понятие, которое сложно трактовать по-разному.
Несомненное достоинство MidJorney — это возможность заставить систему исправить, дообработать определённый кусок картинки.
Я хорошо себе представляю, для каких задач ИИ походит лучше. С MidJorney пользователи общаются через Discord, и мне видно, что рисуют другие люди. Задача типа «спелая груша на жёлтом фоне» идеально подходит для ИИ, и экономит уйму усилий, например, создателю рекламы. Нарисовать такое в деталях заняло бы уйму времени, чтобы сфотографировать, тоже нужно оборудование и умение, а если нагуглить подходящее фото, то поменять в нём фон, правильно перенести тени на окружающие объекты — долгая и кропотливая работа. ИИ сделает это за считанные секунды. ИИ также хорошо справился с созданием выдуманного космического корабля из сна мальчика, потому что это — фантазия, сформулированная общими словами, она не опирается на детальные образы из памяти.
Но задача воссоздания обстановки ИИ не под силу. Слишком велико количество деталей, которые важны для зрителя, и важность которых ИИ не может оценить. Форма компьютера восьмидесятых, обстановка класса советской школы, школьная форма, внутренность троллейбуса — он улавливает черты, но не в силах построить целостную картинку. Он не видит, не осознаёт форму объектов, перспективу: что заслонено чем, как выглядит сцена в плане. Мне даже казалось, что какой-нибудь софт для 3D анимации справился бы с задачей лучше.
И у меня сформировалось понимание, почему так происходит.
Мы находимся в культурном контексте, обладаем памятью о событиях и образах. Мы хотим воздействовать на человека, находящегося в том же культурном контексте, имеющего в памяти те же образы и те же события. Мы хотим задеть его чувствительные струны.
И мы пользуемся для этого услугами думающего существа (нейросеть — вполне себе думающее существо, хотя и не живое), которое не было в том контексте, а те образы знает лишь “понаслышке”, прогуглив их (в прямом смысле). Сможет ли оно правильно найти тот контекст, задеть те струны?
Мы находимся в культурном контексте, обладаем памятью о событиях и образах, и хотим воздействовать на человека, находящегося в том же культурном контексте.
И мы пользуемся для этого услугами думающего существа, которое те образы знает лишь “понаслышке”, прогуглив их.
Это как передать сообщение от русскоязычного человека другому русскоязычному человеку, пользуясь услугами нерусскоязычного переводчика. Это как объяснить удовольствие от возвышенного, романтического, чувственного полового акта, передав эти ощущения на словах через восьмилетнего ребёнка, который никогда чувств таких не испытывал.
Надо вкратце объяснить ему, создать в его “чистой” (в смысле “пустой”, а не в смысле “не грязной”) голове нужные образы, а потом попросить его выразить их.
Это примерно как попросить моего сына Иосифа рассказать Евгению Березнеру о выставке ИнтерПрессФото-1966.
Если бы я попросил Светлану нарисовать компьютер СМ-1420, мне сначала пришлось бы объяснить ей, что это была за машина, как она выглядела, каких была размеров, где у неё был пульт, что было на этом пульте. Я бы мог для этого прогуглить изображения похожих машин, машин тех времен. Светлана бы рассмотрела все эти картинки, погуглила бы сама, и нарисовала бы нечто. И это нечто было бы красивым, и, возможно, более или менее в нужном стиле. Но для человека, который работал с СМ-1420, помнит эти клавиши под руками, картина так же отличалась бы от его воспоминаний, как та сгенерированная ИИ классная комната 1980х от реальной. В комнате и окна не такие, и монитор не из тех времён, что клавиатура, и доска не в том месте, и парты не те. Так бы говорили и про СМ-1420: переключатели не там, задняя стенка не такая, эти тумблеры взяты с IBM/370, а лентовод не того размера.
Зато Светлана бесподобно нарисовала сцену на проспекте, потому что она жила в ту эпоху в таком городе. В картине есть потрясающее ощущение присутствия, и она поднимает пласт воспоминаний, хотя деталей в ней минимум, только штрихи, а дети обозначены маленькими цветными пятнышками, но нет ничего, нарушающего образ.
А в получившихся у ИИ картинках атмосфера “приблизительно” та. Часто даже будит нужные чувства. Если закрыть глаза на отличия, то настроение, в общем, есть, опять же, если отвлечься от джинсов, школьной униформы, класса, компьютера, экрана, балкона, Припяти за окном и прочего.
Художник всегда вынужден отбрасывать некоторые детали, и это нормально. Проблема только в том, что когда это художник с “чистой” (в смысле “пустой”) памятью, он отбросит детали, которые зрителю важны, в отличие от художника, который в том же контексте.
Если художник нарисует автомобиль, то не забудет колёса и руль, хотя точное количество кнопочек на радиоприёмнике может не соблюсти, и никого это не будет волновать. А если я попрошу ИИ нарисовать автомобиль, он может сделать пять колёс, два руля, он не знает, что именно в этой картинке важно для зрителя. Поэтому и получались на тех наших картинках три чашки кофе у девушки, два объектива у фотоаппарата, направленные в разные стороны, выросшие непонятно откуда кусочки клавиатуры.
Такая проблема хорошо описана в «Магеллановом облаке» у Лема. Там художник 32-го века нарисовал трамвай, в котором ехали люди в париках эпохи барокко. Историка это возмутило, а зрители ему сказали, что это детали, это неважно. Из 32-го века может быть неважно, были ли парики во времена трамваев, или нет. Поэтому для ИИ, возможно, и неважно, что телевизор 1950-х в стоит в комнате 1980-х рядом с видеомагнитофоном 1990-х, а живому человеку, жившему в той обстановке, разрушает образ.