Obiektywy
Laowa 8-15 mm f/2.8 FF Zoom Fisheye - ostateczne rybie oko?
Producenci smartfonów coraz chętniej sięgają po AI w celu poprawy szczegółowości zdjęć z teleobiektywów. System Chain of Zoom, opracowany przez naukowców z Korei Południowej, może sprawić, że wreszcie będzie to dobrze wyglądać.
Oparte o uczenie maszynowe, softwarowe sztuczki od lat używane są w celu poprawy wyjściowej jakości zdjęć z niewielkich sensorów smartfonów. Jednym z najświeższych i najciekawszych przykładów tego typu rozwiązań jest funkcja cyfrowego zoomu, wspierana przez generatywną AI, która dorysowuje brakujące detale w przypadku zdjęć wykonywanych przy ekstremalnych zbliżeniach. Tego typu systemy widzieliśmy ostatnio m.in. w telefonach Oppo, OnePlus, Samsung czy Xiaomi.
Na pierwszy rzut oka to rozwiązania imponujące, ale szybko okazuje się, że również bardzo niedoskonałe. Systemy te radzą sobie nieźle w przypadku prostych faktur czy obiektów, gdy już jednak mamy do czynienia z większą ilością szczegółów, finalny efekt rzadko kiedy jest zadowalający nawet na niewielkim ekranie smartfonach. Wszystko przez niedostateczną ilośc informacji, która mogłaby pomóc układom AI w odtworzeniu brakujących detali. To jednak może się zmienić. Naukowcy z Korea Advanced Institute of Science and Technology (KAIST) opracowali nowy system cyfrowego powiększenia obrazu o nazwie Chain-of-Zoom, który dawać ma naturalne rezultaty i dużą szczegółowość obrazu nawet przy powiększeniach rzędu 256x.
W przeciwieństwie do tradycyjnych metod, które przy dużym zoomie generują rozmyty i nieczytelny obraz, CoZ stosuje sprytne podejście: zamiast powiększać wszystko na raz, robi to stopniowo, krok po kroku. Najpierw zwiększa rozdzielczość np. 4 razy, potem jeszcze 4 razy i tak dalej, aż osiągnie końcowy rezultat. To jednak tylko jeden z elementów układanki.
Schemat działania systemu CoZ (b) w porównaniu ze standardowymi modelami interpolacji AI (a)
Kluczową innowacją tego rozwiązania jest połączenie modeli wizualnych z językowymi. Na każdym poziomie powiększania, AI analizuje powstały obraz i generuje krótkie opisy tego, co widzi Opisy te następnie wykorzystywane są jako prompty, pomagając modelowi wizualnemu „zrozumieć”, jak powinny wyglądać drobne detale i struktury, które trzeba dopowiedzieć w kolejnych powiększeniach.
System dodatkowo wzmocniony jest przez trenowanie z udziałem naukowców, którzy oceniali, które z wygenerowanych opisów są najbardziej trafne i użyteczne. Dzięki temu AI lepiej rozpoznawać ma, jakie cechy obrazu są istotne i jak opisać je tak, by finalny obraz wyglądał realistycznie i przekonująco.
Trzeba przyznać, że praktyczne przykłady użycia narzędzia Chain-of-Zoom robią bardzo dobre wrażenia i choć przy powiększeniach rzędu 256x raczej nie ma co liczyć na zachowanie czegokolwiek z oryginalnego wyglądu danej sceny, to podobny system powinien być w stanie dostarczyć jeszcze realistycznie wyglądających rezultatów przy powiększeniach z zakresu 64-100x.
Czy system CoZ zostanie kiedykolwiek wykorzystany w smartfonach i aparatach? Póki co, główne zastosowania dla opracowanej przez siebie technologii twórcy widzą głównie w takich dziedzinach, jak:
Wydaje się jednak tylko kwestią czasu, aż podobnym rozwiązaniem zainteresują się twórcy urządzeń z rynku mobile (i nie tylko). Według badania, sam proces jest łatwy do optymalizowania i możliwy do uruchomienia nawet na pojedynczej karcie graficznej. Wydajność urządzeń mobilnych nie powinna być tu więc problemem. Samo rozwiązanie mogłoby też znaleźć praktyczne zastosowanie w programach do edycji, dając np. fotografom sportu czy przyrody większą elastyczność na etapie cropowania zdjęć.
Warto mieć jedynie na uwadze, że Chain-of-Zoom to nie żadna magia. To system, który dorysowuje nieistniejące szczegółów, tak jak każdy inny, tyle że robi to w nieco sprytniejszy sposób.
Więcej informacji na temat systemu Chain of Zoom znajdziecie w badaniu opublikowanym na portalu arxiv.org.