Nowe AI może zrewolucjonizować zoomy w smartfonach (i nie tylko) - powiększenie 256x bez utraty szczegółów

Oparte o uczenie maszynowe, softwarowe sztuczki od lat używane są w celu poprawy wyjściowej jakości zdjęć z niewielkich sensorów smartfonów. Jednym z najświeższych i najciekawszych przykładów tego typu rozwiązań jest funkcja cyfrowego zoomu, wspierana przez generatywną AI, która dorysowuje brakujące detale w przypadku zdjęć wykonywanych przy ekstremalnych zbliżeniach. Tego typu systemy widzieliśmy ostatnio m.in. w telefonach Oppo, OnePlus, Samsung czy Xiaomi.

Sony A7 V | Raty do 30x0%

12 999 zł

Canon EOS R6 Mark III | Raty do 30x0%

12 999 zł

Nikon Z8 - Raty do 20x0%

14 999 zł

Fujifilm X-E5 + XF 23mm f/2.8 R WR | Raty do 20x0%

6 997 zł

Panasonic Lumix S5 II | Raty do 20x0%

6 495 zł

Na pierwszy rzut oka to rozwiązania imponujące, ale szybko okazuje się, że również bardzo niedoskonałe. Systemy te radzą sobie nieźle w przypadku prostych faktur czy obiektów, gdy już jednak mamy do czynienia z większą ilością szczegółów, finalny efekt rzadko kiedy jest zadowalający nawet na niewielkim ekranie smartfonach. Wszystko przez niedostateczną ilośc informacji, która mogłaby pomóc układom AI w odtworzeniu brakujących detali. To jednak może się zmienić. Naukowcy z Korea Advanced Institute of Science and Technology (KAIST) opracowali nowy system cyfrowego powiększenia obrazu o nazwie Chain-of-Zoom, który dawać ma naturalne rezultaty i dużą szczegółowość obrazu nawet przy powiększeniach rzędu 256x.

Chain-of-Zoom - duże dystanse małymi krokami

W przeciwieństwie do tradycyjnych metod, które przy dużym zoomie generują rozmyty i nieczytelny obraz, CoZ stosuje sprytne podejście: zamiast powiększać wszystko na raz, robi to stopniowo, krok po kroku. Najpierw zwiększa rozdzielczość np. 4 razy, potem jeszcze 4 razy i tak dalej, aż osiągnie końcowy rezultat. To jednak tylko jeden z elementów układanki.

Schemat działania systemu CoZ (b) w porównaniu ze standardowymi modelami interpolacji AI (a)

Kluczową innowacją tego rozwiązania jest połączenie modeli wizualnych z językowymi. Na każdym poziomie powiększania, AI analizuje powstały obraz i generuje krótkie opisy tego, co widzi Opisy te następnie wykorzystywane są jako prompty, pomagając modelowi wizualnemu „zrozumieć”, jak powinny wyglądać drobne detale i struktury, które trzeba dopowiedzieć w kolejnych powiększeniach.

System dodatkowo wzmocniony jest przez trenowanie z udziałem naukowców, którzy oceniali, które z wygenerowanych opisów są najbardziej trafne i użyteczne. Dzięki temu AI lepiej rozpoznawać ma, jakie cechy obrazu są istotne i jak opisać je tak, by finalny obraz wyglądał realistycznie i przekonująco.

Trzeba przyznać, że praktyczne przykłady użycia narzędzia Chain-of-Zoom robią bardzo dobre wrażenia i choć przy powiększeniach rzędu 256x raczej nie ma co liczyć na zachowanie czegokolwiek z oryginalnego wyglądu danej sceny, to podobny system powinien być w stanie dostarczyć jeszcze realistycznie wyglądających rezultatów przy powiększeniach z zakresu 64-100x.

Czy Chain od Zoom wspomoże fotografów?

Czy system CoZ zostanie kiedykolwiek wykorzystany w smartfonach i aparatach? Póki co, główne zastosowania dla opracowanej przez siebie technologii twórcy widzą głównie w takich dziedzinach, jak:

Medycyna: Poprawa jakości obrazów diagnostycznych,
Monitoring i bezpieczeństwo: Wyostrzanie nagrań z kamer przemysłowych,
Restauracja starych fotografii: Odtwarzanie detali na starych zdjęciach,
Astronomia i mikroskopia: Analiza obrazów z teleskopów i mikroskopów.

Wydaje się jednak tylko kwestią czasu, aż podobnym rozwiązaniem zainteresują się twórcy urządzeń z rynku mobile (i nie tylko). Według badania, sam proces jest łatwy do optymalizowania i możliwy do uruchomienia nawet na pojedynczej karcie graficznej. Wydajność urządzeń mobilnych nie powinna być tu więc problemem. Samo rozwiązanie mogłoby też znaleźć praktyczne zastosowanie w programach do edycji, dając np. fotografom sportu czy przyrody większą elastyczność na etapie cropowania zdjęć.

Warto mieć jedynie na uwadze, że Chain-of-Zoom to nie żadna magia. To system, który dorysowuje nieistniejące szczegółów, tak jak każdy inny, tyle że robi to w nieco sprytniejszy sposób.

Więcej informacji na temat systemu Chain of Zoom znajdziecie w badaniu opublikowanym na portalu arxiv.org.

Tagi:

sztuczna inteligencja zoom fotografia smartfonowa nowe technologie branża

Maciej Luśtyk

Redaktor prowadzący serwisu Fotopolis.pl. Studiował na wydziale anglistyki Uniwersytetu Warszawskiego i w Europejskiej Akademii Fotografii. Dziennikarz technologiczny z ponad 10-letnim stażem. Autor newsów, testów i opinii z obszaru fotografii. Zafascynowany nowymi technologiami, choć zdjęcia woli robić analogiem.

Zobacz artykuły autora

Komentarze