DALL · E mini има мистериозна мания по жени в сарита

Подобно на повечето хора, които са изключително онлайн, бразилският сценарист Фернандо Марес е очарован от изображенията, създадени от модела с изкуствен интелект (AI) DALL · E mini. През последните няколко седмици системата за изкуствен интелект се превърна във вирусна сензация, като създава изображения, базирани на привидно произволни и причудливи заявки от потребители – като например „Лейди Гага като Жокера”“Илон Мъск е съден от капибара“И още.

Marés, ветеран хактивист, започна да използва DALL · E mini в началото на юни. Но вместо да въведе текст за конкретна заявка, той опита нещо различно: остави полето празно. Очарован от привидно произволни резултати, Марес изпълняваше празното търсене отново и отново. Тогава Марес забеляза нещо странно: почти всеки път, когато изпълняваше празна заявка, DALL · E mini генерираше портрети на жени с кафява кожа, носещи саривид облекло, разпространено в Южна Азия.

Марес попита DALL · E mini хиляди пъти с въвеждането на празна команда, за да разбере дали това е просто съвпадение. След това той покани приятелите си да се редуват на компютъра му, за да генерират едновременно изображения в пет раздела на браузъра. Той каза, че е продължил близо 10 часа без почивка. Той изгради обширно хранилище от над 5000 уникални изображения и сподели 1,4 GB необработени DALL · E mini данни с Останалия свят.

Повечето от тези изображения съдържат снимки на жени с кафява кожа в сарита. Защо DALL-E mini изглежда е обсебен от този много специфичен тип изображение? Според изследователи на AI отговорът може да има нещо общо с калпаво маркиране и непълни набори от данни.

DALL · E mini е разработен от AI художника Борис Дайма и вдъхновен от DALL · E 2, OpenAI програма, която генерира хиперреалистично изкуство и изображения от въведен текст. От котки, които медитират, до роботи динозаври, борещи се с чудовищни ​​камиони в колизеума, снимките взриви умовете на всичкикато някои го наричат ​​а заплаха за човешки илюстратори. Признавайки потенциала за злоупотреба, OpenAI ограничи достъпа до своя модел само до ръчно подбран набор от 400 изследователи.

Dayma беше очарован от изкуството, произведено от DALL · E 2 и „искаше да има версия с отворен код, която може да бъде достъпна и подобрена от всеки“, каза той Останалия свят. И така, той продължи и създаде съкратена версия на модела с отворен код и го нарече DALL · E mini. Той го пусна през юли 2021 г. и оттогава моделът тренира и усъвършенства своите резултати.


DALL.E мини

DALL · E mini вече е вирусен интернет феномен. Изображенията, които създава, не са толкова ясни, колкото тези от DALL · E 2 и имат забележимо изкривяване и замъгляване, но дивите изображения на системата – всичко от Демогоргон от Странни неща държи баскетболна топка на a публично изпълнение в Disney World – дадоха началото на цяла субкултура, с subreddits и Дръжки на Twitter посветена на кураторството на неговите изображения. То е вдъхновило а карикатура в Нюйоркчанин списание, а Twitter дръжката Weird Dall-E Creations има над 730 000 последователи. Дайма каза Останалия свят че моделът генерира около 5 милиона подкана на ден и в момента работи, за да бъде в крак с изключителния ръст на потребителския интерес. (DALL.E mini няма връзка с OpenAI и, по настояване на OpenAI, преименува своя модел с отворен код Craiyon от 20 юни.)

Дайма признава, че е озадачен защо системата генерира изображения на жени с кафява кожа в сарита за празни заявки, но подозира, че това има нещо общо с набора от данни на програмата. „Това е доста интересно и не съм сигурен защо се случва“, каза Дайма Останалия свят след преглед на изображенията. „Възможно е също този тип изображение да е силно представено в набора от данни, може би и с кратки надписи“, каза Дайма Останалия свят. Останалия свят също се обърнаха към OpenAI, създателят на DALL · E 2, за да видят дали имат някаква представа, но все още не са чули отговор.

AI модели като DALL-E mini се научават да рисуват изображение, като анализират милиони изображения от интернет със свързаните с тях надписи. Моделът DALL · E mini е разработен върху три основни набора от данни: Набор от данни за концептуални надписикойто съдържа 3 милиона двойки изображения и надписи; Концептуален 12Mкойто съдържа 12 милиона двойки изображения и надписи, и The OpenAI корпус от около 15 милиона изображения. Създателят на Dayma и DALL · E mini Педро Куенка отбеляза, че техният модел също е бил обучен с помощта на нефилтрирани данни в интернет, което го отваря за неизвестни и необясними отклонения в наборите от данни, които могат да се стичат до моделите за генериране на изображения.

Dayma не е сама в подозрението за основния набор от данни и модел на обучение. Търсейки отговори, Марес се обърна към популярния дискусионен форум за машинно обучение Прегръщащо лице, където се хоства DALL · E mini. Там общността по компютърни науки се намеси, като някои членове многократно предлагаха правдоподобни обяснения: AI би могъл да бъде обучен върху милиони изображения на хора от Южна и Югоизточна Азия, които са „немаркирани“ в корпуса от данни за обучение. Dayma оспорва тази теория, тъй като той каза, че нито едно изображение от набора от данни не е без надпис.

“Обикновено системите за машинно обучение имат обратния проблем – те всъщност не включват достатъчно снимки на небели хора.”

Майкъл Кук, който в момента изследва пресечната точка на изкуствения интелект, креативността и игровия дизайн в университета Queen Mary в Лондон, оспори теорията, че наборът от данни включва твърде много снимки на хора от Южна Азия. „Обикновено системите за машинно обучение имат обратния проблем – те всъщност не включват достатъчно снимки на небели хора“, каза Кук.

Кук има своя собствена теория за объркващите резултати на DALL · E mini. „Едно нещо, което ми хрумна, докато четях наоколо, е, че много от тези набори от данни премахват текст, който не е английски, и също така премахват информация за конкретни хора, т.е. собствени имена“, каза Кук.

„Това, което може да наблюдаваме, е странен страничен ефект от част от това филтриране или предварителна обработка, където изображенията на индийски жени, например, е по-малко вероятно да бъдат филтрирани от списъка с забрани или текстът, описващ изображенията, се премахва и те се добавят към набора от данни без прикачени етикети.” Например, ако надписите са на хинди или друг език, възможно е текстът да се обърка при обработката на данните, което води до това изображението да няма надпис. “Не мога да кажа това със сигурност – това е просто теория, която ми хрумна, докато изследвах данните.”

Предубежденията в системите за изкуствен интелект са универсални и дори добре финансирани големи технологични инициативи като тези на Microsoft чатбот Тей и AI на Amazon инструмент за набиране на персонал имат се поддаде на проблема. Всъщност моделът на Google за генериране на текст в изображение, Изображенияи DALL.E 2 на OpenAI изрично разкриват, че техните модели имат потенциал да пресъздадат вредни пристрастия и стереотипи, както и DALL.E mini.

Кук е бил а гласовит критик на това, което той вижда като нарастващата безчувственост и фалшиви разкрития, които отхвърлят пристрастията като неизбежна част от нововъзникващите модели на AI. Той каза Останалия свят че макар да е похвално, че една нова технология позволява на хората да се забавляват много, „Мисля, че има сериозни културни и социални проблеми с тази технология, която ние наистина не оценяваме“.

Dayma, създател на DALL · E mini, признава, че моделът все още е в процес на работа и степента на неговите пристрастия тепърва ще бъде напълно документирана. „Моделът предизвика много по-голям интерес, отколкото очаквах“, каза Дайма Останалия свят. Той иска моделът да остане с отворен код, за да може екипът му да изучава своите ограничения и пристрастия по-бързо. „Мисля, че е интересно обществеността да е наясно с това, което е възможно, за да може да развие критично мислене към медиите, които получават като изображения, до същата степен, както медиите получават като новинарски статии.

Междувременно мистерията продължава да остава без отговор. „Научавам много само като виждам как хората използват модела“, каза Дайма Останалия свят. „Когато е празно, това е сива зона, така че [I] все още трябва да се проучи по-подробно.”

Марес каза, че е важно хората да научат за възможните вреди от привидно забавни AI системи като DALL-E mini. Фактът, че дори Дайма не е в състояние да разбере защо системата бълва тези изображения, засилва опасенията му. „Това имат пресата и критиците [been] казвайки години наред: че тези неща са непредсказуеми и те не могат да ги контролират.”