Registrazione in RAW compresso: verso una democratizzazione dell’alta qualità in cinematografia elettronica

Struttura base di una camera da ripresa per cinematografia elettronica
La sfida più importante affrontata dai progettisti di camere per cinematografia elettronica è quella di mappare appropriatamente le caratteristiche del mono-sensore selezionato (tipicamente di dimensione Super-35) per realizzare la migliore combinazione possibile tra sensibilità alle variazioni di Luma (con Luma qui si indica la componente del segnale video relativa alla componente dei toni di grigio, a volte impropriamente definita “luminanza” nella letteratura classica), range dinamico e entità del rumore sul segnale utile. Il ruolo di questa terna di fattori è oggi ancora più importante in chiave HDR, laddove i dettagli visibili nei neri più profondi e nelle intensità luminose più elevate possono evidenziare in modo palese alcuni compromessi tecnici. Per arrivare ad un risultato compatibile con i requisiti qualitativi attesi, occorre considerare un gran numero di fattori concomitanti: innanzitutto la distribuzione spettrale di potenza associata all’illuminazione della scena ripresa, in convoluzione con la trasmissività dell’ottica (che ha la propria caratteristica spettrale e, come già citato in un precedente articolo, è elemento centrale della qualità complessiva di un sistema di ripresa).


Tale combinazione influenzerà direttamente la distribuzione di energia proiettata sul sensore. Al livello di questo componente, la funzione di risposta spettrale del filtro Bayer RGB posto sulla sua faccia anteriore (rif. figura 1 a-b), in convoluzione con la sensibilità spettrale del sensore stesso, determinerà una distribuzione spettrale di energia complessiva che sagomerà i livelli dei segnali RGB sia nel dominio del tempo che nel dominio della frequenza.
Saranno esattamente questi segnali analogici a essere poi convertiti in digitale e presentati in uscita dal sensore. La catena completa, abbinata a una sufficiente rappresentazione statistica delle distribuzioni spettrali dei possibili stimoli luminosi reali, determinerà infine il modo in cui saranno controllati tutti i livelli di amplificazione lineare e non lineare nei circuiti di processo video a valle del sensore.
Il livello finale di Luma è ottenuto da una combinazione lineare di valori RGB, rispettivamente –e separatamente- caratterizzati dagli effetti di rumore termico nelle zone scure dell’immagine e dai livelli massimi corrispondenti alla saturazione raggiunta con i picchi luminosi dell’immagine ripresa.
Per i progettisti resta ancora un aspetto cruciale da stabilire: fissare (o mappare) il punto della caratteristica di risposta lineare del sensore corrispondente al livello di esposizione di riferimento ed intorno al quale ottimizzare le prestazioni complessive del sistema di ripresa. La sensibilità nativa della camera sarà così definita dalla scelta di questo punto e il range dinamico risolto dal numero di stop di latitudine al di sopra e al di sotto di esso (rif. figura 2-b). I metodi per razionalizzare tutte queste variabili differenziano i criteri progettuali tra i vari costruttori, rendendo infine le camere sottilmente o sostanzialmente diverse tra loro per la riproduzione dei toni, degli incarnati, della colorimetria, per la distribuzione del range dinamico, etc.
Codec Compressi: un limite alla solidità qualitativa delle immagini registrate
Un sistema camera può essere separato in due parti come indicato nella figura 2-a. Da un lato c’è la sezione lineare, dove la rappresentazione elettrica della luce incidente generata dal sensore è inviata al sistema di processo video (un sensore è composto da una matrice di celle elementare foto sensibili, dette "photo-sites", le quali rispondono linearmente allo stimolo luminoso: al raddoppio del numero di fotoni incidenti, corrisponde un raddoppio della tensione elettrica accumulata). La seconda parte è quella non lineare che definisce la funzione di trasferimento Ottico-Elettrico (Opto Electronic Transfer Function -OETF-) e che prepara il segnale in modo che tutte le informazioni utili per una rappresentazione SDR/HDR possano essere fedelmente tramesse con le interfacce standard dell’industria (segnali 3G-SDI, HDMI, le quali hanno banda passante definita e limitata) o registrate nella maniera più opportuna su supporti commerciali o proprietari. La rappresentazione non lineare a valle del sensore è necessaria per economizzare, o gestire nel modo più opportuno, il numero di "oggetti digitali" (numero di bit) indispensabili per descriverla. Come è noto, il processo è molto complesso: deve tenere conto delle caratteristiche foto-sensitometriche dell'occhio umano, di quelle dei display di visualizzazione (SDR? HDR?), della destinazione d'uso delle immagini così codificate (news, documentaristica sul piccolo schermo, cinema), del budget di costo e dell'economia di gestione del sistema di ripresa, delle tecnologie disponibili per la memorizzazione, ed infine delle caratteristiche fisiche della camera in termini di dimensioni e consumo energetico. Tutto il progetto, la "filosofia" della camera di ripresa, ruota intorno al budget prestazioni attese /processo non lineare dei dati prodotti dal sensore. Ogni non linearità a valle di un sensore -intrinsecamente lineare- introduce una “compressione” del volume di dati prodotto ed un vincolo tecnico alla fedeltà delle immagini codificate. Ulteriormente, introduce un limite temporale alla solidità qualitativa delle informazioni generate/registrate. I metodi di compressione dei dati digitali sono difatti contestualizzati al momento tecnologico, cioè si appoggiano alle tecnologie di processo hardware e di memorizzazione disponibili. Soffrono dunque di obsolescenza al pari delle tecnologie da cui essi stessi derivano. Il materiale di repertorio, gli archivi, i film registrati con i formati oggi disponibili saranno nel tempo affetti da una progressiva stratificazione qualitativa identica a quella che si è osservata con le tecnologie di memorizzazione analogiche dei decenni '70-'80-'90 dello scorso secolo. Saranno dunque riconoscibili sugli schermi televisivi e/o cinematografici delle prossime generazioni per la visibilità degli artefatti, l’effetto del rumore, la colorimetria, la definizione e il range dinamico.
RAW: cos’è e a cosa serve?
Alcune produzioni, o le testimonianze di momenti storici fondamentali, richiedono tuttavia una garanzia di validità temporale maggiore. Oppure richiedono, per la loro importanza, la garanzia di poter essere riprocessate in futuro con metodi e tecnologie e non ancora sviluppate. In questa chiave di lettura si intuisce che il vero passepartout temporale è rappresentato unicamente dalle informazioni lineari immagazzinate nativamente nel sensore frame per frame; dai suoi cosidetti dati “RAW”. I segnali RAW sono estratti dal sensore a valle del processo interno di digitalizzazione. Dunque, non ancora in forma di primari RGB a risoluzione piena (HD, 2K, 4K etc.), ma ancora da ricostruire con gli appositi algoritmi di interpolazione. Sono in altre parole i segnali digitali corrispondenti ai tre gruppi cromatici omogenei della maschera Bayer (in alcuni casi non è proprio così: alcune camere estraggono segnali pseudo-RAW a valle di alcune non linearità, quali l’applicazione di una curva di gamma logaritmica, il guadagno e il white balance. Pur non essendo ancora demosaicizzati, includono al loro interno alcune impostazioni non reversibili). Chiaramente il volume di dati prodotto è già molto ampio e la risoluzione dei campioni prelevati immediatamente all'uscita del sensore è varia: dai 10/12 bit di Canon C-200, C-300 MK-II, C-700, Arri Alexa, RED, ai 16 della Sony F-65; apparentemente il numero di bit per campione non sembra elevatissimo, ma non bisogna lasciarsi trarre in inganno: le prestazioni di un sensore di acquisizione d’immagini dipendono in larghissima parte dal rapporto segnale/rumore e dal suo residuo di rumore (noise floor). Il numero di bit per campione deve essere proporzionato a tali parametri; incrementare la risoluzione oltre il minimo necessario non fa altro che utilizzare i bit aggiuntivi per digitalizzare il rumore stesso. Un numero troppo basso, viceversa, introdurrebbe una prima compressione non necessaria. Il calcolo del bit rate risultante segue rapidamente con semplici operazioni : risoluzione netta del sensore (pixel H x pixel V) moltiplicato per il numero di frame al secondo, moltiplicato per la risoluzione dei campioni. Si ottengono così valori nell'ordine dei Gbps. Il vero costo del RAW è racchiuso in queste cifre. La gestione di tali volumi di dati alle velocità descritte è tecnologicamente molto complessa; richiede hardware specializzato, consumi energetici elevati, dimensioni delle camere proporzionate, supporti di memorizzazione velocissimi con capacità egualmente elevate (ad es. Arri Alexa open Gate in 4:3 genera 1.79 Gbps RAW e richiede 806 GByte/ora di storage! Laddove le camere rendano disponibili i dati RAW dalle uscite standard 3G-SDI, occorre abbinare alla camera un registratore esterno e i suoi accessori. Nelle realizzazioni più raffinate come nel caso della Arri Alexa XT o SXT, la registrazione RAW può essere eseguita a bordo sugli stessi supporti proprietari, in altri casi come la Sony PMW-F55, la Canon C-700, il registratore RAW è agganciato alla parte posteriore della camera in una soluzione “dockable”; e ancora una volta ci si allontana dalla portabilità e dalla flessibilità di impiego). Ma non è tutto: i dati RAW sono ancora grezzi, devono essere processati esternamente alla camera (de-bayerizzati o demosaicizzati) per convertirli in file video RGB veri e propri. Sono in realtà un "negativo digitale" poiché rappresentano fedelmente la luce catturata dal sensore e devono essere sviluppati per renderli visibili correttamente su un monitor di riferimento. Tale operazione, da eseguire esternamente alla camera su un computer, fa esplodere ulteriormente i volumi necessari a contenerli (almeno di un fattore 3!). E’ normalmente effettuata per mezzo di algoritmi proprietari, ma che non sono necessariamente gli unici adottabili. Qualora i dettagli di struttura dei file RAW siano noti, è possibile implementare molteplici strategie per demosaicizzarli. Addirittura, alcuni algoritmi sono ottimizzati per la velocità di esecuzione, ed embeddati in registratori a stato solido di terze parti in grado di transcodificare direttamente in un formato target (ad es. Atomos Shogun Ninjia, Inferno [figura3] o Convergent design Odyssey); oppure embeddati in monitor di riferimento che permettono la visualizzazione in tempo reale del positivo, una volta alimentati con il solo RAW (ad esempio i monitor reference 4K HDR Canon della serie DP-V24xx e DP-V1710 consentono di debayerizzare in tempo reale RAW Canon della C-500, C300-MK-II e C-700).
Dal punto di vista della post-produzione, la disponibilità di segnali o file RAW consente tuttavia di utilizzare una materia malleabile, controllabile, e soprattutto fruibile per successive rielaborazioni. White balance, impostazioni ISO, applicazione di curve di gamma, applicazione di spazi colore (quelli standardizzati sono quasi sempre contenuti nello spazio colore nativo di un sensore moderno), transcodifica verso formati standard come RGB oppure Open-EXR per il mondo ACES Academy, sono tutte operazioni non distruttive quando applicate su segnali di questo tipo. I dati grezzi restano preservati ed è sempre possibile ricominciare il processo daccapo qualora sia richiesto. Dunque è la vera risposta all’esigenza di conservazione del materiale girato per adeguarlo a nuovi codec di prossimo sviluppo ma anche alle tecnologie di visualizzazione emergenti (l’intero range dinamico può essere mappato sulle curve gamma standardizzate per l’HDR, ad esempio). Consente poi di transcodificare in un formato idoneo al montaggio o al grading su macchine analogamente potenti per gestire la mole di dati risultanti.
Il RAW ha finora trovato applicazione più estensiva nelle produzioni con budget di ampio respiro: le ragioni sono contenute in quanto appena detto. Macchine e supporti di fascia alta o altissima; necessità di una grande potenza di calcolo per la loro elaborazione. Tuttavia, la legge di Moore continua ad essere valida e la potenza di calcolo, unitamente alla disponibilità di supporti di memorizzazione ad alta capacità e velocità di scrittura, proseguono la loro corsa. Osservata da un’altra prospettiva, la legge di Moore implica un progressivo abbattimento dei costi per i prodotti e le tecnologie definibili mainstream.
La storia tecnologica della registrazione RAW indica comunque che sono stati sviluppati metodi per limitare il data rate RAW in macchina; Sony e RED hanno già impiegato algoritmi per ridurre la ridondanza numerica dei segnali digitali in uscita dai rispettivi sensori in maniera più o meno “lossless” (il termine lossless indica una trasformazione reversibile senza errori; il termine lossy indica una trasformazione che viceversa introduce una distorsione e rende non perfettamente recuperabile il segnale originario tramite la trasformazione inversa). I fattori di compressione conseguiti variano da 1:3 a 1:9. Questa strategia, utile principalmente ad aumentare i tempi di registrazione a parità di capacità dei supporti, è stata però sempre applicata su macchine di fascia elitaria. In altre parole, non ha diminuito i costi di ingresso al RAW, lasciando inalterata la piattaforma di applicazione.
Trasformata Wavelet
Per quanto illustrato in seguito è comunque interessante dare un accenno ad una delle tecniche più impiegate ed utili per la riduzione della ridondanza numerica dei file RAW (dunque a monte del debayering) : la compressione Wavelet, già utilmente impiegata nel coded JPEG-2000 per immagini statiche.
La definizione più semplice di Wavelet è quella di una funzione matematica con un supporto temporale ben definito che oscilla intorno all’asse orizzontale di un piano coordinato (rif. figura 4) . La definizione in se non aiuta molto, ma un approccio migliore è quello di illustrare cosa sono la trasformata Wavelet e cosa genera la successiva analisi. La trasformata Wavelet è simile alla trasformata di Fuorier. Analogamente, i coefficienti di trasformazione (tanti quanti sono i pixel) sono calcolati eseguendo un prodotto scalare tra il segnale di ingresso e una base di “wavelets” ortonormale (solo una delle possibili trasformazioni Vawelet). La differenza con il metodo classico applicato nei sistemi derivati dal MPEG (JPEG nel caso di immagini statiche) è nel modo in cui queste funzioni sono costruite e il tipo di analisi che permettono sul segnale di ingresso. La trasformata Wavelet è infatti una trasformata multi-risoluzione, cioè permette una forma combinata di analisi tempo-frequenza. Quando si usa la trasformata di Fourier il risultato è un’analisi molto precisa delle componenti armoniche contenute nel segnale, ma nel suo risultato non è contenuta alcuna informazione sull’istante temporale in cui le armoniche sono state prodotte. Nella trasformata Wavelet si ottengono invece informazioni sul contenuto armonico e sull’istante in cui alcune di tali caratteristiche sono state prodotte. In sintesi, la trasformata Wavelet può essere descritta come una serie di filtri e sotto-campionatori che analizzano il segnale di ingresso rispetto alla presenza di dettagli via via più minuti in tempi sempre più ristretti (scala): il fattore di scala è analogo al ruolo della frequenza spaziale. Similmente alla scala geografica di una mappa, un fattore di scala elevato permette di risolvere solo dettagli grossolani, una scala più ridotta permetterà di restringere l’analisi a dettagli più minuti. In termini di frequenze, le basse frequenza (scala elevata) corrispondono alle caratteristiche generali dell’immagine, tipicamente di lunga durata mentre le alte frequenze (scala ridotta) corrispondono ad informazioni più dettagliate di una parte dell’immagine che usualmente ha durata ridotta. Dunque, anche in questo caso, il numero di coefficienti dipende dal contenuto dell’immagine e una possibile rappresentazione visuale può essere apprezzata nell’esempio mostrato in figura 5! In questa sede non è opportuno approfondire oltre, ma il risultato finale, insieme ad opportuni algoritmi di approssimazione, quantizzazione e scansione dei coefficienti, permette di ridurre a piacere il volume dei dati originario. Quanto più si approssimano i coefficienti tanto più aumenta il fattore di compressione e ci si allontana da una trasformazione lossless.
Democratizzazione della registrazione RAW di alta qualità?
Considerando i recenti sviluppi tecnologici in termini di integrazione su larga scala, disponibilità di memorie CMOS di elevata capacità e elevate velocità di scrittura, raffinamento dei software di gestione, l’idea appena descritta potrebbe essere impiegata per una vera e propria opera di democratizzazione della registrazione RAW. E, seppur non ufficialmente confermata, potrebbe essere alla base del formato “Cinema RAW light” reso disponibile sulla neonata Canon EOS Cinema C-200 (rif. figura 6). La novità più importante di questa camera è rappresentata dal suo package e dalla scelta del supporto di memorizzazione: una vera rottura con gli schemi consueti per la registrazione RAW di altissima qualità. Un camcorder Super-35 che registra in alta qualità solo in RAW, ma che dispone di strumenti di produzione potentissimi: Auto-focus predittivo e sua compatibilità nativa con un insieme infinito di ottiche, dimensioni compatte, consumo ridottissimo (18W in registrazione!), impiego di media commerciali. Conserva il sensore delle sorelle maggiori C-300 MK-II e C-700, ma nello stesso fattore di forma a cui si è abituati dall’introduzione della C-300 nel 2011, permette di registrare in RAW la qualità nativa del sensore (senza alcuna non linearità introdotta, in risoluzione 4K 25/50 fps nello spazio colore nativo (estremamente esteso) con campioni di risoluzione 12 o 10 bit rispettivamente. Le specifiche disponibili dichiarano un data rate massimo di 1Gbps VBR. Tuttavia la Casa dichiara un fattore di compressione (da cui la denominazione “light”) variabile tra 1:3 -1:5 che, secondo l’autore, sembra compatibile con l’approccio di riduzione della ridondanza numerica mediante trasformata lossless Wavelet. I costi annunciati, le ottime caratteristiche qualitative, l’aderenza al modello EOS Cinema per dimensioni, pesi, consumi energetici, economia d’impiego (accessori, ottiche, batterie, etc.), l’adozione di un supporto commerciale come le schede C-Fast per memorizzare i dati RAW (128 GB permettono un tempo di registrazione di 15 minuti), costituiscono le premesse per un significativo passo in avanti nel diffondere la registrazione in RAW ad una base più ampia.
E tale aspetto garantisce l’unica strada per conservare nel tempo contenuti in modo invariabile rispetto alle piattaforme di processo e visualizzazione.
Ing.Sergio Brighel
Technical Director
Trans Audio Video s.r.l.
Articolo tratto da Digitalproduction.tv – Numero 3