Рапиращата Мона Лиза - нов AI анимира лица от снимки

Благодарение на нова технология на Microsoft, базирана на изкуствения интелект (AI), Мона Лиза вече може не само да се усмихва.

Наскоро изследователи от Microsoft представиха повече информация за разработен от тях нов AI модел, който може да използва изображение на лице и да създаде аудиоклип на някой, който говори, както и реалистично изглеждащо видео на този човек, в което говори.

Видеата, които могат да бъдат създавани от фотореалистични лица, както и от анимация или произведения на изкуството, включват отваряне на устата като в песен и движение на лицето и главата.

В едно от демонстрационните видеа те показаха как са анимирали Мона Лиза, така че да рецитира комедиен рап на актрисата Ан Хатауей.

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

Произведенията на AI модела, който носи името VASA-1, са едновременно забавни и малко потресаващи заради това колко реалистично изглеждат.

От Microsoft казват, че технологията може да бъде използвана за образователни цели, за “подобряването на достъпа за хора с проблеми с общуването” или за потенциалното създаване на виртуални спътници за хора. Лесно обаче е да се види и как с този инструмент може да се злоупотребява и той да се използва за имитирането на реални хора.

Това е притеснение, което не е ограничено само до Microsoft. Тъй като има все повече инструменти, които създават убедителни изображения, видеа или аудио, генерирани с AI, експерти се опасяват, че злоупотребата с тях може да доведе до нови форми на дезинформация.

Някои също така се опасяват, че технологията може допълнително да се отрази на творческите индустрии - от филмовата до рекламната.

Засега не планираме да предоставим модела VASA-1 непосредствено за обществено ползване, казват от Microsoft.

Този ход наподобява начина, по който партньорът на Microsoft - OpenAI, се справя с опасенията около своя инструмент за видеа, генериран с AI – Sora. OpenAI представи Sora през февруари, но моделът засега е наличен само за професионални потребители и преподаватели по киберсигурност за тестови цели.

“Ние сме против всяко поведение за създаване на подвеждащо или вредно съдържание с образа на реални хора,” заявиха изследователите от Microsoft. Те обаче допълват, че компанията “няма планове да пуска продукта за обществено ползване, докато не е сигурна, че технологията ще бъде използвана отговорно и в съответствие с подходящите разпоредби.”

AI е брилянтен, но дали краде авторски права?

Движещи се лица

Новият AI модел на Microsoft е обучен от много видеа на лица на хора, докато говорят и е проектиран, така че да разпознава естествените движения на лицето и главата, в това число движение на устните, погледи и мигане, казват учените. Резултатът е по-реалистично видео, когато VASA-1 анимира неподвижно изображение.

AI инструментът може също да бъде насочен към създаването на видео, в което обектът гледа в определена посока или изразява конкретна емоция.

Когато човек се вгледа по-внимателно, все още има признаци, че видеата са машинно генерирани, като рядко мигане и преувеличени движения на веждите.

От Microsoft обаче смятат, че техният модел “се представя значително по-добре” от други подобни модели и “проправя път за дейности в реално време с реалистични аватари, които имитират човешкото поведение при разговори.”

Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !