Wydarzenia
Vive la Résistance! W oku patrzącego - Marta Bogdańska w IFF
Coś co jeszcze kilka miesięcy temu wydawało się niemożliwe, dziś staje się przerażająco realne. Open AI zaprezentowało model o nazwie Sora - nową sztuczną inteligencję, która generuje realistyczne wideo na podstawie opisu. Implikacje jej wdrożenia będą znacznie bardziej poważne niż wszystko, co do tej pory widzieliśmy.
W ciągu ostatniego roku zdążyliśmy już przywyknąć do faktu, że układy AI są w stanie w kilka chwil wygenerować dowolne zdjęcia lub grafiki, które będą nierozróżnialne od tych, wykonanych przez człowieka. Pogodziliśmy się także z faktem, że na zawsze zmieni to branżę kreatywną, która z obrazem pracuje na co dzień. Zdaje się jednak, że nie pojmowaliśmy jeszcze dobrze w jakim stopniu nowa technologia wpłynie na wszystko, co wiemy na temat przekazu wizualnego.
Gdy pod koniec 2022 roku na rynku debiutowały generatory AI, wspólnie ze znajomymi z branży zastanawiałem się nad tym, jak będzie wyglądała zdominowana przez nie przyszłość. Jednym z pomysłów było wywrócenie do góry nogami branży filmowej, gdzie wygenerowane cyfrowo utwory zastępują konieczność zatrudniania aktorów czy nawet ekip filmowych. Można pójść o krok dalej i wyobrazic sobie świat, w którym platformy rozrywkowe generują w kilka chwil całe filmy tylko dla nas, na podstawie krótkiego promptu wypowiedzianego w stronę telewizora. „Co dziś oglądamy? Daj mi akcję w stylu Jasona Stathama, ale niech się dzieje w średniowieczu. I niech będzie zabawne”.
Przykład możliwości modelu Sora
Jeszcze pare miesięcy temu mogło się wydawać, że tego typu rozwiązania są jeszcze długie lata przed nami. Jak dobrze pamiętamy, próby zaprzęgnięcia AI do stworzenia animacji kończyły się abstrakcyjnym potokiem stale zmieniających się obrazów, przypominających raczej marzenia senne niż spójny ciąg przyczynowo-skutkowy. Brak umiejętności trzymania się „bazowej” klatki wydawał się także podstawowym ograniczeniem wszystkich generatorów AI - każda modyfikacja wytworzonego obrazu, czy to w Midjourney, Dall-E czy Stable Diffusion, widocznie zmieniała wygląd jego drobnych szczegółów. Ale to już przeszłość.
OpenAI, laboratorium badawcze odpowiedzialne m.in. za ChatGPT, zaprezentowało właśnie nowy model AI o nazwie Sora - sztuczną inteligencję, która tworzy przerażająco realistyczne klipy wideo na podstawie opisów. O ile pokazane w styczniu Lumiere od Google mogło wydawać się imponujące, o tyle Sora każe zadawać sobie pytania o naturę naszej rzeczywistości.
Przykład możliwości modelu Sora
Nowy system na podstawie krótkich opisów jest stanie generować materiały wideo o długości 60 sekund, w rozdzielczości do 1920 x 1080 px - wystarczająco dużej, by już teraz mogły być swobodnie używane w dowolnym przekazie wizualnym. Co więcej, poza realistycznym odwzorowaniem pokazywanych przedmiotów w ruchu, Sora jest w stanie generować dynamiczne ruchy kamery i na bieżąco tworzyć spójnie wyglądającą „scenografię”, czy jak nazywa to OpenAI - symulować światy. System jest także zaskakująco spójny w zakresie przedstawiania różnego rodzaju czynności - tylko drobne niuanse ruchu sprawiają, że jesteśmy w stanie wychwycić sztuczność oglądanego obrazu.
Oprócz tego, Sora może być także wykorzystana do generowania wideo na podstawie przedstawionych grafik, wydłużania wejściowych klipów wideo (w obydwie strony) czy też zamiany elementów obrazu źródłowego. Na przykład, gdy chcemy by nagrana przez nas miejska scena działa się w dżungli.
Twórcy przyznają, że model jest jeszcze niedoskonały. Nadal nie rozumie fizyki i jest podatny na „halucynacje”, gdzie nagle w kadrze pojawia się jakiś przedmiot, zmienia charakter pokazywanego obiektu czy też zachodzą nagłe zmiany w scenografii. Jak długo jednak może potrwać pozbycie się takich wad?
Radzimy zacząć przyzwyczajać się do myśli, że żyjemy w erze wczesnego cyberpunku, gdzie w ciągu raptem kilku lat będziemy musieli zaakceptować daleko idące zmiany dotyczące rynku rozrywki, reklamy i całego świata wizualnego, który nas otacza. W przypadku generatorów wideo, największą rewolucje przeżyje zapewne branża produkcyjna i powiązana z nią branża marketingowa. Kto o zdrowych zmysłach będzie chciał wydawać pieniądze na studio, scenografią, aktorów i ekipę filmową, gdy wszystkie sceny potrzebne do reklamy leku na zaparcie czy pasty do zębów będzie w stanie wygenerować na podstawie kilku dobrze opracowanych promptów?
Analogicznie, czy gdy technologia rozwinie się na tyle, by wygenerowane wideo móc poddawać swobodnej manipulacji, studia filmowe będą nadal skłonne przeznaczać setki milionów dolarów na kreatywną zabawę reżysera i ekipy filmowej? Śmiemy wątpić. To odbije się z kolei na firmach tworzących sprzęt fotograficzny i filmowy.
Oczywiście wszystko to ma także swoje jasny strony. Generatywne systemy wideo z pewnością ograniczą problem marnotrawienia środków, a dodatkowo mają szansę zupełnie zdemokratyzować kwestię kreacji i narracji wizualnej. O ile więc mogą zabić kino, jakie znamy, mogą być także początkiem nowego kina, gdzie każdy może zrealizować nawet najbardziej śmiały scenariusz, a twórcy mogą niskim kosztem dopracować obraz tak, by dokładnie odpowiadał ich wizji.
Wszystko to ma jednak dużo dalej idące implikacje. W przypadku scenariusza opisanego wyżej, będziemy musieli zaakceptować też fakt, że podstawą doskonałej większości tego, co oglądamy, jak i naszych interakcji z technologią, będą twory w całości wygenerowane cyfrowo. Z racji oszczędności czasu i środków, w krótkim czasie boty i generatory AI rozleją się nie tylko po zakorzenionych w fikcji rynkach filmu i reklamy, ale także zdominują ostatni bastion mediów kojarzącym nam się z autentycznością - szeroko pojętą blogosferę. Zresztą dzieje się to już na naszych oczach. Rozwiązania AI pozwalające na stworzenie swojego awatara wideo czy też generowania głosu to tylko wstęp do tego, co czeka nas w nadchodzących latach.
Co więcej, istnieje szansa, że twory, wyuczonych bądź co bądź na bazie naszych preferencji układów AI, będą na tyle pochłaniające i urzekające, iż ludzie z czasem mogą w ogóle przestać być zainteresowani oglądaniem rzeczywistych materiałów. Te będą zwyczajnie wydawać się archaiczne i ograniczone pod względem technicznym, w taki sam sposób w jaki dzisiaj wydaje nam się być kino pierwszej połowy XX wieku.
Gdzie wobec tego pozostanie miejsce na tradycyjny film i fotografię? Paradoksalnie jednej i drugiej dziedzinie całe zamieszanie z AI może wyjść na dobre. Przynajmniej z punktu widzenia wartości samego obrazu. Wycofane z rynku kreacji media odnajdą się z pewnością na nowo w tym, co potrafią robić najlepiej - dokumentowaniu rzeczywistości. Istnieje też szansa, że w dobie sztucznej inteligencji zaczniemy tego typu treści bardziej cenić, a tradycyjne medium wizualne stanie się tym, czym dzisiaj jest malarstwo dla rynku sztuki. Otoczeni cyfrowymi tworami, bardziej wymagający odbiorcy mogą najzwyczajniej w świecie stać głodni rzeczywistych interakcji.
Abstrahując od samych kwestii wizualnych, pozostaje także pytanie o to jak w świecie zdominowanym przez przekaz wygenerowany cyfrowo będziemy postrzegać rzeczywistość. Najbardziej znamienne wobec tego, co nas czeka, wydaje się ostatnie zdanie we wpisie poświęconym technicznym zagadnieniom Sory: „Dzisiejsze możliwości Sory pokazują, że dalsze skalowanie modeli wideo jest obiecującą drogą do rozwoju wydajnych symulatorów świata fizycznego i cyfrowego, wraz z obiektami, zwierzętami i ludźmi, którzy je zamieszkują”.
To jak to było z tą łyżką?
Więcej przykładów możliwości Sory znajdziecie na stronie https://openai.com/sora. Bardziej szczegóły opis możliwości nowego modelu dostępny jest z kolei pod adresem https://openai.com/research/video-generation-models-as-world-simulators.