Uso e abuso dell’IA nel miglioramento fotografico

1 Novembre 2023 Silvio Marano

Uso e abuso dell’IA nel miglioramento fotografico

Migliorare e alterare viaggiano insieme, ma meglio capire quando l’alterazione è troppa.

L’utilizzo dell’intelligenza artificiale nella fotografia diventa sempre più diffuso e dirompente.

Bold Glamour Filter. Non è più un miglioramento se si diventa un’altra persona.

Questo non si limita soltanto a filtri esplicitamente applicati per migliorare le foto con i vari effetti per app social come TikTok, Instagram ecc. (talvolta così eccessivi da trasformare in un’altra persona), o su alcuni sistemi usati nelle riprese delle trasmissioni TV e i vari filtri nascondi rughe (talvolta regolati in modo talmente spinto da far sembrare la faccia di attempati conduttori e presentatrici “spianata” come in un dipinto di Gideon Rubin), ma coinvolge anche i sistemi di processamento delle immagini di smartphone e fotocamere a vari livelli.

LA FOTOCAMERA ACQUISTA QUALITÀ CON L’IA

I produttori, per dare l’impressione agli utenti di avere fotocamere in grado di catturare immagini di qualità sbalorditiva o comunque nettamente superiore alle prestazioni nativamente ottenibili dall’hardware impiegato, dietro le quinte applicano algoritmi d’intelligenza artificiale che cambiano in modo considerevole le immagini acquisite realmente dal sensore.

Questo si può notare anche prendendo le foto scattate in condizioni di luce non ottimali da fotocamere di smartphone di nuova generazione e più vecchi di qualche lustro, e zoomando fino ad arrivare ai dettagli più piccoli e mal catturati. Facendo un confronto in entrambi i casi: mentre nelle fotocamere precedenti l’era IA, ci sono pixelature e rumore coerenti ai dettagli mancanti che i sensori non sono riusciti a catturare adeguatamente, in quelle più recenti, anche se qualitativamente nettamente superiori, si notano artefatti e strane anomalie, non spiegabili semplicemente dalle prestazioni non sufficienti del sensore nella cattura della luce in tali condizioni di utilizzo, sebbene, guardate normalmente senza zoom, possano dare l’idea di foto ben definite e dettagliate.
Un confronto di questo genere si può fare anche sovra-ingrandendo i dettagli di immagini catturate da smartphone come il Google Pixel 8 e quelle di fotocamere professionali. Queste ultime, malgrado un sensore immensamente superiore, mostrano prestazioni che a prima occhiata sembrerebbero confrontarsi alla pari o in alcuni casi addirittura anche sfigurare.
Il merito è degli avanzati sistemi di elaborazione neurale dell’immagine catturata, che vanno opportunamente ad integrare e correggere quello che il sensore non è riuscito a fare “nativamente“. Se si analizza però in modo più accurato nei particolari, è possibile comunque notare lo zampino di una complessa rielaborazione algoritmica.

Zoom su segni di rielaborazione algoritmica nella trama. Foto scattata da Google Pixel 8.

Gli utenti sono felici nel sentirsi fotografi più abili o apparire più glamour nei selfie, i produttori di smartphone e fotocamere varie sono felici di poter risparmiare sui costi di produzione utilizzando sensori a basso costo. Qual è il problema?

MOLTEPLICI ASPETTI DA CONSIDERARE

Il problema è capire come viene usata e in che misura per valutarne l’impatto. Le IA oltre a poter eseguire in modo più efficace le tecniche di miglioramento delle immagini, hanno la capacità d’integrare informazioni che nell’immagine non erano originariamente presenti per raggiungere il risultato prefissato. Le foto possono diventare così qualcosa di alterato e diverso da quello che una foto dovrebbe essere.

Mentre i filtri e gli effetti tradizionali agivano regolando aspetti come luminosità, contrasto, curve tonali ecc., o interpolando in maniera “simmetrica” alla matrice di pixel catturati, quelli basati su intelligenza artificiale di recente diffusione, introducono cambiamenti e alterazioni profonde nella struttura dell’immagine, pur potendo “mimare” paradossalmente un risultato che appare molto più realistico e meno artefatto di quello che l’economico sensore di una fotocamera non professionale sarebbe in grado di catturare non usandola.

UN PICCOLO ESEMPIO

Per chiarire questo che appare come un controsenso, prendiamo ad esempio questa foto di un drago blu (Glaucus Atlanticus) che a dispetto del nome è una lumaca di mare.
In questa immagine viene mostrata una variante a risoluzione estremamente bassa. e l’effetto di due tipi d’algoritmo d’ingrandimento: uno basato su tecniche tradizionali come l’interpolazione bilineare, l’altro basato invece su reti neurali; con infine la stessa immagine ma acquisita direttamente a risoluzione più alta, così da poter avere un termine di paragone.

Comparazione tra ingrandimento con algoritmo bilineare e rete neurale.

  • L’algoritmo bilineare, introduce i pixel aggiuntivi necessari all’ingrandimento calcolando sostanzialmente una stima nell’intorno di ogni pixel quelli che più si avvicina agli adiacenti. Questo andrà a introdurre sfocature e non impedirà di notare la “quadrettatura” se la risoluzione di partenza è molto bassa rispetto a quella di destinazione.
  • L’algoritmo basato su reti neurali, in estrema sintesi, andrà ad estrarre le sezioni caratteristiche dell’immagine, le analizzerà e ricostruirà l’immagine da ingrandire, tenendo conto dei pattern rilevati utilizzando le informazioni apprese nel suo modello, addestrato a partire da numerose immagini. Questo gli consente di produrre risultati nitidi senza artefatti quali pixelature o sfocature.

Infatti, nell’esempio, se guardate in condizioni standard, senza focalizzarsi su determinati particolari, l’ingrandimento basato su reti neurali pare produrre un risultato nettamente più simile a quelli dell’immagine acquisita direttamente a qualità alta, mentre quella ingrandita con filtro bilineare, risulta decisamente meno nitida e dettagliata.
Se ci focalizziamo sui dettagli, però, vediamo che mentre il dettaglio di quella ingrandita con filtro bilineare, appare come una versione pixelata e sfocata dell’immagine acquisita in alta risoluzione, il dettaglio di quella ingrandita dall’intelligenza artificiale, presenta caratteristiche estranee all’immagine di partenza e alterazioni, come parte dell’alga sparita e incorporata come fosse una pennellata di vernice nell’arto della lumaca, o alcuni particolari del fondale che non dovevano proprio esserci.

COLLASSO E CADUTA DELLA MODALITÀ

Bisogna partire con il tenere bene a mente che tutto quello che non viene catturato dal sensore sono informazioni mancanti. Per aggiungere ciò che l’IA non può conoscere, perchè non presente nei dati di partenza, deve fare delle stime e effettuare operazioni di ricostruzione sulla base delle affinità con ciò che ha appreso nella fase di training. Questi processi non sono perfetti, e nell’operazione di ricostruzione l’immagine può venire “contaminata” a causa di varie problematiche note delle varie architetture neurali usate, come ad esempio collasso e caduta della modalità, due problemi tipici delle GAN (reti generative avversarie).

Collasso e caduta della modalità.

  • Il collasso della modalità si verifica quando il modello tende a concentrarsi su un piccolo sottoinsieme dei dati, senza tenere conto del quadro complessivo.
  • La caduta della modalità si verifica invece quando il modello non riesce ad avere sufficiente capacità di generalizzazione da ricostruire l’immagine in modo coerente ai dati reali e quindi genera una distribuzione troppo simile a quella del suo training set.

Tali problemi possono portare il modello a produrre immagini con contaminazioni strutturali dipendenti dalle immagini nel set di addestramento, alterando caratteristiche importanti dell’immagine che diventerà così una sorta di ibrido tra l’immagine originale e quelle presenti nel training set del modello su cui la rete neurale è stata addestrata.

Ci sono diverse strategie per mitigarne l’impatto, ma non modi per risolverli completamente (non potendo l’IA conoscere come sono fatte tutte le immagini), e tanto più l’immagine di partenza è di qualità bassa o con condizioni e soggetti divergenti da quelle usate per addestrare i modelli, maggiore sarà la possibilità d’incorrere in alterazioni.

Ma tanto la mia fotocamera ha anche le immagini in formato RAW che sono una rappresentazione genuina delle immagini catturate dal sensore.

IL FORMATO RAW

Lo scopo del formato RAW è stato sempre quello di fornire un’autentica rappresentazione dell’immagine catturata dal sensore, quindi questo è quello che in teoria dovrebbero fare tutte le fotocamere, ultimamente però sta prendendo piede l’applicazione di sistemi di processamento sempre più complessi anche a più basso livello nel processore d’immagine (ISP) inclusi quelli basati su AI, questi possono introdurre alterazioni anche nell’immagine RAW.

Nell’immagine di seguito è possibile osservare la catena di processamento coinvolta nell’acquisizione dell’immagine:

Diagramma pipeline di cattura dell’immagine dal sensore.

Come si può notare ci sono numerose operazioni che vengono effettuate nella fase che precede l’ultima sezione di elaborazione che normalmente viene bypassata quando si utilizzano le immagini RAW, e non ci sono vincoli stringenti su quante e quali operazioni possano essere aggiunte.

A questo si aggiunge anche il fatto che, non di rado, capita pure di vedere lamentele su come i RAW di questo o quel dispositivo siano pessimi o che lo smartphone o camera X abbia RAW migliori con lo stesso sensore. Questo spinge il mercato a muoversi di conseguenza verso immagini RAW che per buoni risultati richiedono meno sforzi in post-produzione ma di fatto sono sempre meno “RAW“.

IN CONCLUSIONE…

Oltre alle riflessioni sulla realtà distorta dall’uso eccessivo di questi sistemi per quanto concerne realismo ed estetica; bisogna tenere a mente che l’uso aggressivo di reti neurali per migliorare l’immagine, rende più problematico il processo di verifica di autenticità delle foto, perchè le immagini acquisite possono avere già in partenza un “ritocco fantasma” applicato di default che altera la struttura dell’immagine.

In pratica siamo in uno scenario dove, da un lato le intelligenze artificiali generative diventano sempre più sofisticate e abili nel creare riproduzioni verosimili, mentre dall’altro le immagini in circolazione diventano sempre più alterate dalle intelligenze artificiali a scopo “migliorativo“. Continuando di questo passo, non ci vorrà molto per arrivare al punto in cui le alterazioni introdotte dalle prime e che ci consentono di poter rilevare se un’immagine è autentica o generata, diventeranno indistinguibili da quelle introdotte dalle seconde.

Pertanto sarebbe necessaria più trasparenza da parte dei produttori, sulle tecnologie IA impiegate nel processo di cattura delle foto e le possibilità dell’utente di decidere eventualmente di bypassarle completamente ove ritenuto necessario.

, , ,

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Entra in contatto

Compila il form con il tuo messaggio

Translate »