AI слушах гласовете на хората. Тогава генерира лицата им.

Pin
Send
Share
Send

Изграждали ли сте някога мисловен образ на човек, когото никога не сте виждали, въз основа само на техния глас? Изкуственият интелект (AI) вече може да направи това, генерирайки цифрово изображение на лицето на човек, използвайки само кратък аудио клип за справка.

Наречена Speech2Face, невронната мрежа - компютър, който "мисли" по начин, подобен на човешкия мозък - беше обучен от учени на милиони образователни видеоклипове от интернет, показващи, че над 100 000 различни хора говорят.

От този набор от данни Speech2Face научи връзките между гласовите сигнали и определени физически характеристики на човешкото лице, изследователите писаха в ново проучване. Тогава AI използва аудио клип, за да моделира фотореалистично лице, съответстващо на гласа.

Резултатите бяха публикувани онлайн на 23 май в предпечатния jounral arXiv и не бяха подложени на проверка.

За щастие, AI все още не знае точно как изглежда конкретен индивид само въз основа на техния глас. Невронната мрежа разпознава определени маркери в речта, които сочат пол, възраст и етническа принадлежност, черти, които се споделят от много хора, съобщават авторите на изследването.

"Като такъв моделът ще произвежда само средно изглеждащи лица", написаха учените. „Няма да произвежда образи на конкретни личности.“

AI вече показа, че може да произведе неприлично точни човешки лица, въпреки че интерпретациите му на котки са откровено малко ужасяващи.

Лицата, генерирани от Speech2Face - всички обърнати отпред и с неутрални изражения - не съвпадаха точно с хората зад гласовете. Но изследванията обикновено улавят правилните възрастови групи, етноси и пол на индивидите, според проучването.

Интерпретациите на алгоритъма обаче далеч не са перфектни. Speech2Face демонстрира „смесена производителност“, когато се сблъсква с езикови вариации. Например, когато AI слуша аудио клип на азиатски мъж, говорещ китайски, програмата създава изображение на азиатско лице. Въпреки това, когато същият мъж говори на английски в различен аудио клип, AI генерира лицето на бял човек, съобщават учените.

Алгоритъмът също показа полов пристрастие, свързвайки ниски звуци с мъжки лица и високи гласове с женски лица. И тъй като учебният набор от данни представлява само образователни видеоклипове от YouTube, той "не представлява еднакво цялото световно население", пишат изследователите.

Друго притеснение относно този набор от данни за видео възникна, когато човек, който се появи в видеоклип в YouTube, изненада, като научи, че приликата му е включена в проучването, съобщи Slate. Ник Съливан, ръководител на криптографията в интернет компанията за сигурност Cloudflare в Сан Франциско, неочаквано забеляза лицето си като един от примерите, използвани за обучение на Speech2Face (и който алгоритъмът се възпроизведе доста приблизително).

Съливан не е дал съгласието си да се появи в проучването, но видеоклиповете в YouTube в този набор от данни се считат за достъпни за изследователи, които могат да използват, без да придобиват допълнителни разрешения, според Slate.

Pin
Send
Share
Send