fbpx Standard nei digital media per una migliore esperienza d'uso | Science in the net

Standard nei digital media per una migliore esperienza d'uso

Primary tabs

Read time: 6 mins

Gli standard sono una componente vitale della comunicazione. Nel 1984, quando lavoravo per CSELT – il centro di ricerca dell’odierna Telecom Italia – ideai RACE IVICO (Integrated Video Code), un progetto che puntava a sviluppare una tecnologia microelettronica europea per i video digitali con la partecipazione delle più importanti industrie Europee. Il progetto fu approvato, ma venne interrotto due anni più tardi per via delle differenze con la politica europea di allora in materia di audiovisivi (audio e video digitali avrebbero giocatoe un ruolo nella prima decade del Ventunesimo secolo), ma anche perché si riteneva che audio-video digitali avrebbero giocato un ruolo fondamentale nella strategia di banda larga per una società di telecomunicazioni quale Telecom Italia.
Un anno dopo, constatato che non era possibile sviluppare una tecnologia microelettronica Europea per audiovisivi, decisi di sviluppare almeno uno standard internazionale e nel 1988 fondai il Moving Picture Experts Group (MPEG), un gruppo di lavoro di ISO/IEC JTC 1 Information Technologies.
“Standard” è un termine che viene sia usato propriamente sia abusato, ma non tutti gli standard sono uguali. Nel caso dell’audio-visivo, non ci dovrebbero essere standard separati per l’audio e per il video, ma standard audiovisivi per tutte le industrie clienti: Radiodiffusione, Elettronica di consumo, Informatica e Telecomunicazioni; quindi uno standard unico per la rappresentazione digitale dell’informazione audiovisiva separato da potenzialmente diversi standard di delivery. Sono convinto che sia questa la ragione principale del successo degli standard MPEG.

Si possono trovare diverse definizioni di standard:
Da Webster
- Un oggetto appariscente (come uno stendardo) usato in passato per indicare un punto di raduno in battaglia o per essere usato come emblema
- Qualcosa che l’autorità, l’uso comune o il consenso generale definiscono come modello o esempio da seguire
Dall’Enciclopedia Britannica
- (specifica tecnica che) permette la produzione su larga scala grazie a componenti che si adattano prontamente ad altre parti senza bisogno di aggiustamenti
La mia definizione
- Accordo codificato tra le parti che riconoscono il vantaggio di fare certe cose tutti allo stesso modo.

Una critica comune agli standard li accusa di essere anticompetitivi e di arrestare l’innovazione. Questo potrebbe essere vero in altri campi, ma non vale per gli standard MPEG, come si può vedere dai test di performance effettuati nel 1995 su MPEG-2 Video che hanno dimostrato che la codifica era soggettivamente trasparente a 6 Mbit/s per il composito (PAL) e a 8 Mbit/s per componenti (YUV). All’inizio dell’operazione il bitrate selezionato era 4 Mbit/s, ma oggi gli MPEG-2 sono usati a 2 Mbit/s senza che sia necessario cambiare il decoder.
Questo risultato è stato ottenuto grazie al fatto che gli standard MPEG specificano il decoder (che permette di raggiungere i consumatori) ma non l’encoder, il cui unico vincolo rimane la capacità di produrre bitstream conforme.
Gli standard sono componenti importanti nella catena che porta innovazione ai consumatori.
Un innovatore si trova nella posizione di registrare un brevetto che ha già un valore di per sé, ma che ne possiede uno ancora maggiore se rientra in uno standard. Poiché il gruppo MPEG punta a produrre standard con massimo livello di performance, di solito per esercitare gli standard MPEG è necessaria una licenza.  Le royalty permettono a un innovatore di continuare a innovare e registrare brevetti da usare in nuovi standard…di fatto, gli standard MPEG non fermano l’innovazione.
Molti utenti nell’industria sono preoccupati dalle somme che devono pagare per poter esercitare un brevetto in uno standard, ma questo non dovrebbe essere necessariamente in cima alla lista delle preoccupazioni, perché spesso non importa tanto il “quanto” ma il “come” si deve pagare.
Nel mondo analogico la remunerazione del brevetto era tipicamente “per pezzo”, nel mondo digitalizzato MPEG-2 la remunerazione è ancora a pezzo di “elettronica” (ma anche per pezzo di “contenuto” in un DVD). Nel mondo digitale MPEG-4 Visual la remunerazione è per pezzo di elettronica ma anche per ora di contenuti in streaming di contenuti a pagamento. Questa clausola nella licenza ha impedito per anni l’adozione dello standard per i servizi video a pagamento sul web.

L’uso delle tecnologie digitali è stato ostacolato per molti anni dall’elevato bitrate usato nei video e audio digitali, come mostrano le tabelle riportate sotto che forniscono bitrate indicativi:

Video

 VHSSDHD4k8k
#righe2885761,0802,1604,320
#pixel3607201,9203,8407,680
Frequenza di quadro 2525255050
Mbit/s411668296,63626,542


 Audio

 VoceCDStereo5.122.2
Frequenza di campionamento844.1484848
bits/campione816161616
#chanali1225.3322.66
Mbit/s0.0641.4111.5364.09317.403

Fortunatamente nella compressione digitale di audio e video si è registrato un progresso costante che ha preservato allo stesso tempo la qualità originale, come mostrato dalla tabella qui sotto:

BaseScalableStereoDepthSelectable viewpoint
MPEG-1~VHS----
MPEG-22Mbit/s-10%-15%--
MPEG-4 Visual-25%-10%-15%--
MPEG-4 AVC-30%-25%-25%-20%5/10%
HEVC-60%-25%-25%-20%5/10%
??????

Nella colonna “Base” le percentuali si riferiscono al miglioramento nella compressione rispetto alla tecnologia di compressione di generazione precedente. Le percentuali nelle colonne “Scalable”, “Stereo” and “Depth” si riferiscono al miglioramento nella compressione rispetto alla capacità di selezionare e visualizzare un’immagine da un punto di vista che non era stato trasmesso. L’ultima riga si riferisce a possibili standard futuri di compressione.
In questo contesto è interessante analizzare il bitrate tra occhio/orecchio e cervello.
Circa 12 milioni di fibre nervose connettono la retina al cervello e circa mille fibre nervose collegano il nervo cocleare al cervello. Una fibra nervosa può trasmettere un nuovo impulso ogni 6 ms circa, cioè può generare 160 impulsi/s. Assumendo che siano necessari 16 impulsi per fare un bit, si può osservare che un occhio manda circa 12 Mbit/s al cervello e un orecchio circa 300 kbit/s, come mostrato dalla figura riportata di seguito.

Ci sono diversi tipi di video:
- Video Scalabile offre la possibilità di estrarre flussi diversi a bitrate diversi da un singolo flusso
- Video Multiview è un video generato da un insieme di telecamere che catturano la scena in modo che l’utente possa vederla da diversi punti di vista (magari interpolando le visuali esistenti per crearne una nuova che non era stata registrata o trasmessa)
- Screen content è un tipo di video naturale mescolato con grafica sintetica
- High Dynamic Range cerca di estendere la luminosità massima ottenibile sugli schermi odierni oltre i gli attuali 100 nit (cd/m2) fino a diverse migliaia di nit
- Wide Colour Gamut permette di riprodurre una gamma di colori molto più ampia di quella attualmente possibile
- Augmented Reality rappresenta l’integrazione tra video ed audio 3D naturali e sintetici.

Abbiamo visto che l’occhio umano porta a termine processi sofisticati per convertire Pbit/s di di informazione visiva in input in Mbit/s di output. Compact Descriptors for Visual Search (CDVS), uno standard per le applicazioni di ricerca, analisi e rilevazione di video che il gruppo MPEG sta sviluppando, cerca di fare qualcosa di concettualmente simile. Le applicazioni per questo standard sono svariate e si estendono ai cellulari, settore auto, SmartTV, sorveglianza, manutenzione di apparecchiature, robotica, info-mobilità, servizi per il turismo, patrimonio culturale ecc.

Il 10 giugno 2014 dalle 14 alle 17 in Via Sannio 2 Milano, L’Istituto Italiano per la Normazione UNI ospiterà un evento (http://www.uninfo.it/) intitolato “La visione artificiale per nuovi servizi e applicazioni industriali” organizzato da UNINFO, l’ente associato a UNI che si occupa di IT e relative applicazioni.  
In conclusione, è importante ricordare che gli standard sono (solo) facilitatori, perché il vero problema rimane come beneficiarne. Per rispondere a questa domanda dobbiamo chiederci se l’Italia sia in grado di:
- Sfruttare la proprietà intellettuale degli standard
- Trarre vantaggio dalla produzione legata agli standard (hardware e software)
- Avere una visione olistica dell’intero processo

Il mio suggerimento è di dare un’occhiata a come Digital Media in Italia (http://www.dmin.it/) ha provato a “definire e proporre aree di intervento che permetterebbero all’Italia di acquisire un ruolo primario nello sfruttamento del fenomeno globale dei media digitali”.


Scienza in rete è un giornale senza pubblicità e aperto a tutti per garantire l’indipendenza dell’informazione e il diritto universale alla cittadinanza scientifica. Contribuisci a dar voce alla ricerca sostenendo Scienza in rete. In questo modo, potrai entrare a far parte della nostra comunità e condividere il nostro percorso. Clicca sul pulsante e scegli liberamente quanto donare! Anche una piccola somma è importante. Se vuoi fare una donazione ricorrente, ci consenti di programmare meglio il nostro lavoro e resti comunque libero di interromperla quando credi.


prossimo articolo

Why have neural networks won the Nobel Prizes in Physics and Chemistry?

This year, Artificial Intelligence played a leading role in the Nobel Prizes for Physics and Chemistry. More specifically, it would be better to say machine learning and neural networks, thanks to whose development we now have systems ranging from image recognition to generative AI like Chat-GPT. In this article, Chiara Sabelli tells the story of the research that led physicist and biologist John J. Hopfield and computer scientist and neuroscientist Geoffrey Hinton to lay the foundations of current machine learning.

Image modified from the article "Biohybrid and Bioinspired Magnetic Microswimmers" https://onlinelibrary.wiley.com/doi/epdf/10.1002/smll.201704374

The 2024 Nobel Prize in Physics was awarded to John J. Hopfield, an American physicist and biologist from Princeton University, and to Geoffrey Hinton, a British computer scientist and neuroscientist from the University of Toronto, for utilizing tools from statistical physics in the development of methods underlying today's powerful machine learning technologies.