Branża
Google pozamiatało - nowe modele AI rzucają strach na branżę wideo
Google zaprezentowało nowe wersje generatorów grafiki i wideo Imagen 4 i Veo 3 oraz platformę Flow, które pokazują, że przyszłość treści rozrywkowych może prawie w całości obyć się bez twórców. Czy boom na wideo skończy się równie szybko, jak się zaczął?
„Jeszcze co najmniej 10-15 lat" - takie odpowiedzi słyszeliśmy do tej pory od twórców z branży filmowej, gdy pytaliśmy o to, kiedy ich zdaniem technologia AI będzie w stanie realnie konkurować z możliwościami fizycznej ekipy filmowej. Wygląda jednak, że to, co wydawało się odległą przyszłością już dzisiaj stoi na naszym progu. Google pokazało właśnie nowe modele generatorów AI, które dobitnie pokazują, że rzucane przez wizjonerów branży przepowiednie na temat tego, iż niebawem 90% treści w internecie będzie generowane cyfrowo bynajmniej nie były wyssane z palca.
Podczas wczorajszej konferencji, internetowy gigant zaprezentował szereg nowych modeli AI: kierowaną do muzyków platformę Lyria 2, nową wersję generatora grafiki Imagen 4 oraz najnowszy generator wideo Veo 3. Dwa pierwsze nie szokują tak bardzo, gdyż dobrze wiemy, na jak wiele pozwalają nam już obecne rozwiązania (raptem 2 miesiące temu zaprezentowano nowy generator Chata GPT, który już teraz jest w stanie pozbawić pracy wielu fotografów). Veo 3 to jednak przypadek, który nagina dotychczasowy status quo w branży wideo.
Generatory wideo nie są niczym nowym. Od pewnego czasu twórcy mają już m.in. dostęp do imponującego generatora Sora, a tworzone za jego pomocą wstawki coraz chętniej używane są w branży reklamowej (można zauważyć je na przykład w reklamach leków). Nadal jednak problemem było tworzenie w ten sposób spójnych narracji, w tym ujęć zawierających dialogi. Właśnie się to zmienia. Veo 3 przede wszystkim oferuje większy realizm, dokładniejsze rozumienie promptów i lepszą jakość tworzonych materiałów, pozwalając tworzyć bardziej złożone sekwencje zdarzeń. Co jednak najważniejsze, to pierwszy generator, który jest w stanie jednocześnie uzupełniać tworzone nagrania o towarzyszące dźwięki tła czy dialogi - wraz z synchronizacją ruchu warg.
Wszystko to być może nie brzmi tak imponująco, ale wystarczy szybki rzut oka na instagrama, by zrozumieć w jak dużym stopniu nowe możliwości generowania ruchomego obrazu są w stanie wpłynąć na produkcję rozrywkowych i typowo komercyjnych realizacji wideo. Tym bardziej, że Google stara się zrobić wszystko, by dać użytkownikom nad tym wszystkim jak największą kontrolę.
Wyświetl ten post na Instagramie
Wraz modelem Veo 3, Google zaprezentowało także usprawnienia wcześniejszego modelu Veo 2, obejmujące m.in.: możliwość programowania ruchów kamery, generowanie w oparciu o materiał źródłowy czy outpainting. Naturalnie funkcje te trafią także niebawem do najnowszego modelu. Nie to jest tu jednak najistotniejsze. Oprócz nowych możliwości, zaprezentowano platformę Flow, która ma być naszym centrum nawigacji po generatorach Google i pozwalać na tworzenie oraz edytowanie kompletnych materiałów wideo w jednej aplikacji .
"Stworzone przez i dla twórców, Flow to narzędzie do tworzenia filmów z wykorzystaniem AI, które pozwala płynnie tworzyć filmowe klipy, sceny i historie, łącząc najbardziej zaawansowane modele Google DeepMind: Veo, Imagen i Gemini. Użyj języka naturalnego, aby opisać swoje ujęcia w Flow, zarządzaj składnikami swojej opowieści — obsadą, lokalizacjami, obiektami i stylami - w jednym wygodnym miejscu i wykorzystaj Flow, aby przekształcić swoją narrację w piękne sceny.” - pisze o swoim programie Google.
Wszystko to jednak ma swoją cenę. Nowe możliwości na chwilę obecną dostępne są jedynie w ramach nowej subskrypcji Ultra, która obejmuje najbardziej zaawansowane rozwiązania AI opracowane przez Google i która kwotuje niebotyczne 250 dolarów miesięcznie. https://blog.google/products/google-one/google-ai-ultra/
Z punktu widzenia branży wideo to oczywiście kwota nic nie znacząca, która tylko zachęci studia produkcyjne do coraz częstszego zastępowania zwykłych ekip filmowych przez wytwory AI. To naturalna kolej rzeczy i choć możemy się na to obrażać, raczej nic z tym nie zrobimy. W ostateczności prawie zawsze wygrywa wygoda i niższa cena. Z dużym prawdopodobieństwem generatory AI, podobnie jak te odpowiedzialne za grafikę, zagrożą w pierwszej kolejności twórcom pracujących przy zleceniach typowo komercyjnych. W niedalekiej przyszłości mogą jednak stanowić także istotny element rynku rozrywkowego, obejmującego vlogi, teledyski czy nawet całe produkcje fabularne.
Obserwując to wszystko, od pewnego czasu nasuwa mi się jednak pewne pytanie. Czy aby firmy technologiczne, które obecnie stawiają wszystkie swoje karty na AI, nie kręcą przypadkiem same na siebie bata? Póki co AI to kura znosząca złote jajka, która pozwala generować ogromne wpływy z subskrypcji i przekierować strumień pieniędzy z kont pomniejszych twórców na konta dostawców wspomnianych usług. Ostatecznie jednak prawdziwa walka toczy się dziś o uwagę użytkownika. To stąd m.in. promowanie najbardziej uzależniających form konsumowania treści.
Czy jednak użytkownicy z takim samym zaangażowaniem będą pochodzić do treści AI, jak tych stworzonych przy użyciu rzeczywistych narzędzi? Dla mnie najlepszym „barometrem” są dzieci, które nie posiadają różnego rodzaju filtrów, jakie my nabyliśmy na przestrzeni kilku dekad obcowania w internetem. I choć widzę z jaką siłą wśród pokolenia, które dopiero zaczyna poznawać internet rozprzestrzenia się np. fenomen „włoskich brainrotów”, to jednocześnie obserwuje jak wiele z treści z góry dyskredytowane jest przez nie jako „jakieś AI” i momentalnie pomijane. Póki co wydaje się, że element ludzki, jakikolwiek by nie był, ma jednak dużo większy appeal w zakresie budowania zaangażowania emocjonalnego.
Osobną kwestią pozostaje to, że wraz z upowszechnianiem się generatorów AI, wykładniczo wzrośnie także liczba materiałów trafiających na platformy rozrywkowe, co automatycznie znacznie utrudni twórcom dotarcie ze swoimi treściami do użytkowników i ich promowanie. Co gorsza, analogicznie wpłynie to na zmiejszenie zaangażowania użytkowników, którzy tworzą content organiczny, na którym to opiera się dzisiejsze „infuencer economy”. W dużym skrócie, już niebawem media społecznościowe mogą stać się jeszcze większym „śmietnikiem” niż dotychczas, co może spowodować ogólne zmęczenie i chęć odwrotu w stronę bardziej rzeczywistego doświadczenia.
O ile więc zalew treści AI może się początkowo opłacać, pozwalając na wyświetlenie większej ilości reklam użytkownikom (przecież o to głównie chodzi), w dłuższej perspektywie może okazać się gwoździem do trumny dla mediów społecznościowych, jakie znamy dzisiaj. Nie zapominajmy też, że utrzymywanie infrastruktury odpowiedzialnej za układy AI to ogromne koszty (zarówno finansowe, jak i środowiskowe), których zasadność już dzisiaj poddawana jest w wątpliwość.
To samo tyczy się zresztą agenta AI wbudowanego w wyszukiwarkę Google (AI Mode), którego podczas wczorajszej konferencji firma przedstawiała jako przyszłość poruszania się w internecie. Ten, działając na zasadzie ChataGPT, udzielać ma nam złożonych odpowiedzi na skomplikowane pytania, syntezując informacje z wielu źródeł. Problem w tym, że działanie AI opiera się w całości na dotychczasowych treściach stworzonych przez zwykłych ludzi na łamach serwisów, blogów czy forów indeksowanych przez Google. W sytuacji gdy większość odpowiedzi będzie oferowana użytkownikom od razu, znacznie mniejszy ruch będzie przekierowywany na te serwisy. A to oznacza mniejsze możliwości wyświetlania reklam (także dla Google), mniejsze zarobki osób tworzących nowe treści a koniec końców mniej nowych treści, na których będzie mogło bazować AI.
Czy taki scenariusz brany jest przez firmy pod uwagę? Na pewno. Czy wiemy jak i czy w ogóle chcą temu zaradzić? Niestety nie. Pewne jest jednak, że już niebawem czeka nas ogromna zmiana w sposobie konsumowania treści i poruszania się w internecie, która choć będzie bardzo wygodna z punktu widzenia zwykłego użytkownika, może okazać się ogromnym wyzwaniem dla osób, które swoją karierę wiązały z szeroko pojętą branżą kreatywną.
Z drugiej strony, być może gdy AI już w całości pożre użytkowy i komercyjny segment branży graficznej, fotograficznej i filmowej, a wygenerowane treści staną się bazową linią przekazu wizualnego, rynek „mediów tradycyjnych” będzie wreszcie w stanie na powrót skupić się głównie na dokumencie i sztuce, czyli tym, co od samego początku było w nim najbardziej wartościowe.
Źródło: https://blog.google/technology/ai/generative-media-models-io-2025/#veo-3