Dispensa 2 La Catena Audio

Il segnale analogico e il segnale digitale Una rappresentazione rappresentazione analogica del suono è una rappresentazione che lavora per “analogia”: la curva continua nel tempo delle variazioni di ampiezza viene rappresentata da una curva continua nel tempo delle variazioni di tensione elettrica, curva che è memorizzata nei solchi di un disco in vinile o nel campo magnetico di un nastro. Per essere più precisi, il tracciato dei solchi del vinile e l’intensità del campo magnetico sul nastro seguono l’andamento della curva dell’ampiezza, dopo che questa è stata convertita in un segnale elettrico. Una rappresentazione digitale non cerca di “imitare” la curva continua di ampiezza con una curva analoga ad essa, ma piuttosto assegna dei numeri che rappresentano di volta in volta il valore dell’ampiezza in istanti successivi di tempo. Sarà la successione di numeri a rappresentare l’andamento della curva di ampiezza. Nel caso del segnale analogico si ha un curva continua che approssima una curva continua; nel caso di quello digitale si ha una successione di numeri che approssima una curva continua. La rappresentazione digitale non è continua, ma discreta, cioè esistono degli eventi ben definiti che sono i valori dell’ampiezza in precisi istanti di tempo. La rappresentazione digitale si avvale di un codice simbolico preciso dato dalle cifre (digits) che compongono i numeri: fissate le cifre a disposizione e la lunghezza dei numeri, la rappresentazione avrà a disposizione un insieme finito di simboli conosciuto alla perfezione. I vantaggi di un codice simbolico preciso sono innumerevoli come ad esempio nelle operazioni di copia del segnale: è noto come copie ripetute dello stesso segnale analogico producano una degradazione sempre maggiore della qualità del segnale; ciò è intuitivamente comprensibile in quanto l’operazione di copia deve di nuovo approssimare con una curva continua la curva che era stata memorizzata in precedenza introducendo sempre sempre più errori. Al contrario, fare una copia di numeri non comporta comporta alcun errore: la curva memorizzata in precedenza rimane sempre la stessa, non subisce alterazioni nella copia. Lavorando con i numeri è anche immediato constatare quanto debba essere facile manipolare il segnale: le operazioni di manipolazione altro non sono che operazioni aritmetiche che comporteranno il cambiamento di alcuni numeri. Ad esempio, se si vuole aumentare l’intensità di una parte di un suono, è sufficiente moltiplicare i numeri che corrispondono a quella parte per il fattore desiderato. Nel caso analogico, invece, occorre applicare un dispositivo elettronico che accresce l’ampiezza della curva in questione. Ma un aspetto totalmente nuovo introdotto dalla rappresentazione digitale è la possibilità di correzione degli errori introdotti dai supporti per la memorizzazione (come i compact disc) e dai dispositivi di trasmissione (via cavo o via satellite). Per errore si intende che qualcuno dei numeri che rappresentano il segnale viene letto o ricevuto in modo differente da come era stato memorizzato o trasmesso, rispettivamente. Un sistema digitale, grazie alla finitezza del codice, conosce quali sono le rappresentazioni possibili, e quindi è in grado di rilevare e correggere alcuni errori mediante l’introduzione di informazioni aggiuntive rispetto al segnale vero e proprio. La rappresentazione digitale del segnale audio porta anche degli svantaggi. Innanzitutto occorre realizzare un sistema di comunicazione tra l’interno e l’esterno dell’elaboratore: nel mondo esterno, quello in cui noi esseri umani ascoltiamo i suoni, i numeri devono essere convertiti in pressione sonora; nella rappresentazione analogica un’onda sonora era sempre una forma d’onda di qualche tipo, non diventava mai una successione di numeri. Inoltre, una qualità del segnale comparabile con i migliori apparati analogici necessita di grandi capacità di memoria e di velocità di trasmissione per la memorizzazione e rispettivamente il trasferimento del segnale, comportando costi a volte eccessivi. Questo svantaggio ha portato allo sviluppo delle tecniche di compressione, che hanno permesso in tempi relativamente recenti l’impiego dell’audio nella multimedialità e la trasmissione della musica via Internet A partire dall’inizio degli anni ‘80, molte applicazioni audio hanno gradualmente beneficiato della rappresentazione digitale: manipolazione, missaggio, archiviazione (registrazione) di materiale sonoro, sintesi di nuovi timbri, simulazione di timbri di strumenti tradizionali, analisi di suoni, restauro di vecchie registrazioni analogiche, trasformazioni di registrazioni (con l’introduzione di effetti, come riverberi, echi, ecc.). Quando si considera la catena audio di un processo di registrazione e riproduzione che utilizza un computer per l’acquisizione, l’editing e la memorizzazione dei segnali dobbiamo pensare al seguente schema: Suono acustico

microfono

Suono analogico

Convertitore A/D

Suono digitale

Convertitore D/A

Suono analogico

monitor

Suono acustico

Il segnale analogico In un processo puramente analogico, il microfono cattura le variazioni di pressione nell’aria e le trasduce (Il termine trasduzione indica la conversione di un segnale con una forma di energia in un segnale in un’altra forma di energia). In particolare, i valori di una certa grandezza x del segnale in ingresso vengono convertiti nei valori di un’altra grandezza y del segnale in uscita, in modo che le variazioni della grandezza y rappresentino le variazioni della grandezza x. Nel caso del suono hanno particolare importanza le trasduzioni elettroacustiche, in cui un segnale sonoro viene convertito in un segnale elettrico e viceversa. Ad esempio, un microfono a pressione è un trasduttore elettroacustico da pressione sonora (la grandezza x) a tensione elettrica o intensità di corrente (grandezza y); un diffusore è un trasduttore elettroacustico che lavora nel verso opposto. Anche l’orecchio è un trasduttore elettroacustico: come il microfono, trasduce l’energia acustica in impulsi nervosi di tipo elettrico. Le variazioni di tensione descrivono “esattamente” il segnale acustico. Il debole segnale elettrico in uscita da un microfono passa attraverso un preamplificatore e un amplificatore prima di essere registrato in generale su un nastro magnetico: una testina elettromagnetica produce un campo magnetico sulla pellicola di polvere di ferro, o ossido di ferro, o ferro-cromo, presente sul nastro. Il campo magnetico, che varia nel tempo in dipendenza della corrente sulla testina, dispone in modo ordinato le particelle di polvere di ferro: è una nuova trasduzione, ma elettricità e magnetismo sono così intimamente collegati che non si parla di trasduzione). A questo punto il segnale può essere trasferito su uno qualsiasi dei supporti del suono analogico: ancora nastro magnetico, dischi in resina vinilica (incisione meccanica), banda della colonna sonora su una pellicola cinematografica (registrazione ottica). Da questi supporti il segnale può essere prelevato (trasdotto) mediante un lettore adeguato (ad esempio un giradischi, in cui la testina trasduce l’andamento dei microsolchi in un segnale elettrico). Di nuovo, il segnale viene amplificato e mandato ai diffusori acustici, che trasducono il segnale elettrico in un segnale sonoro. Se un sistema è di alta fedeltà, le curve di ampiezza sonora iniziale e finale sono molto simili. Tuttavia gli elementi della catena possono tutti introdurre del rumore e della distorsione. Il rumore è un segnale indesiderato che si aggiunge al segnale analogico, ed è in generale ad ampio spettro (vedi il rumore bianco). Un tipico rumore che tutti sperimentiamo è quello causato dall’impressione magnetica

sul nastro e viceversa dalla lettura del segnale registrato; tale rumore viene percepito come fruscio dal nostro apparato uditivo. Per la riduzione del rumore (noise reduction), sono stati sviluppati vari metodi: il noto sistema della Dolby, ad esempio, enfatizza in registrazione alcune regioni dello spettro nelle quali il rumore è maggiormente percepibile; in riproduzione, le stesse regioni vengono de-enfatizzate, con il risultato di riportare ai livelli corretti i rapporti tra le frequenze nel segnale e attenuare nel contempo il rumore. Per stimare l’ammontare di rumore introdotto da un sistema analogico, si è soliti usare il rapporto segnale-rumore (Signal-to-Noise-Ratio - SNR). SNR si definisce come il rapporto tra la massima ampiezza utile del segnale e l’ampiezza del rumore presente SNR = max ampiezza segnale/ampiezza rumore ovviamente maggiore è il rapporto SNR, migliore sarà la qualità del segnale. In pratica, si usa esprimere il rapporto segnale-rumore in decibel: SNR (in dB) = 20 log (max ampiezza segnale/ampiezza rumore) Connesso al rumore è un altro tipico parametro che misura la bontà di un dispositivo audio analogico, la gamma dinamica (dynamic range). La gamma dinamica è il rapporto tra l’ampiezza massima e l’ampiezza minima presenti nel segnale; essendo un rapporto di ampiezze, anch’essa può essere misurata in decibel e in questo caso la gamma dinamica è la differenza tra l’ampiezza massima e l’ampiezza minima presenti nel segnale. Intuitivamente, essa è una misura della escursione di un brano audio in termini di ampiezza: un brano che passa da un pianissimo a un fortissimo o viceversa presenta un’estesa gamma dinamica. Ovviamente un sistema analogico migliore è un sistema che approssima meglio la gamma dinamica del segnale in ingresso. La connessione con il rumore è dovuta al fatto che, poiché il rumore presenta in generale un’ampiezza media costante, esso limita la risposta utile del sistema in gamma dinamica. La distorsione è una modifica non desiderata della forma d’onda (e quindi dello spettro) di un segnale. Nei componenti elettronici, la distorsione di solito aumenta con l’ampiezza. Quindi, nella caratterizzazione SNR, per ampiezza utile si intende l’ampiezza massima alla quale non si presentano effetti di distorsione, o meglio l’ampiezza massima alla quale la distorsione è mantenuta al di sotto di una certa soglia di tolleranza prefissata. Considerando i parametri di un’onda, la distorsione può essere in frequenza, ampiezza e fase. Per fare un esempio, un tipico caso di distorsione in frequenza è presente nella nostra percezione uditiva, in quanto l’orecchio risponde in modo differente alle diverse frequenze. La forma d’onda percepita è quindi differente dalla forma d’onda in ingresso, a causa della “colorazione” introdotta dal nostro apparato uditivo. Di conseguenza, alcune distorsioni introdotte dai componenti elettronici non sono udibili, in quanto la “colorazione” comunque effettuata dal nostro apparato uditivo ne annulla l’effetto; se una distorsione è udibile, la nostra percezione del segnale viene ovviamente alterata (ad esempio, cambia il timbro di uno strumento).

Il segnale digitale La digitalizzazione del suono ha comportato una serie di trasformazioni a partire dagli anni ‘80, che hanno interessato sia i professionisti del settore che i fruitori di musica. È suono digitale tutto ciò che arriva da Compact Disc (CD), DVD, Digital Audio Tape (DAT), MiniDisc (MD), o dall’hard disk del computer. Anche la maggior parte delle sale cinematografiche trasmette suono digitale, che permette di realizzare delle complesse diffusioni come il surround. Il segnale digitale (numerico, discreto) è una successione di numeri che rappresentano l’ampiezza del segnale in precisi e ravvicinati istanti di tempo. Occorrono degli strumenti per convertire il segnale analogico in una successione di numeri e viceversa. Il fenomeno è noto come campionamento del segnale analogico. Cosa vuol dire allora campionare un segnale? Vuol dire trovare una rappresentazione discreta per qualcosa che in origine ha una variazione continua. Lo scopo è evidente: laddove, ad esempio, per modificare la registrazione analogica di una voce, dobbiamo prima convertire l'energia sonora in energia elettrica (tramite un microfono), poi trasformare l'ernergia elettrica in proprietà magnetica di un nastro (tramite un registratore a nastro) e infine intervenire con modifiche meccaniche sul nastro stesso (operazioni di edit con taglia e incolla manuali del nastro), con una registrazione digitale, nella quale l'energia elettrica fornita dal microfono viene direttamente convertita in campioni digitali, ossia in dati numerici discreti, sarà possibile modificare la registrazione tramite un calcolatore elettronico in grado di analizzare i dati e modificarli. Per comprendere come le variazioni di pressione dell’aria diventino dei numeri immateriali, occorre seguire la catena dell’audio digitale nella figura seguente, simile a quella vista in precedenza:

Cominciamo dalla semicatena della registrazione (a sinistra in figura). Il segnale analogico della pressione sonora viene trasdotto come in precedenza in un segnale elettrico. A questo punto occorre convertire il segnale in formato digitale: lo strumento fondamentale per la conversione è il Convertitore Analogico-Digitale (Analogue-to-Digital Converter - ADC), che in base a un suo orologio interno (clock), preleva i campioni dell’ampiezza dal segnale analogico. L’orologio interno fissa il tasso o frequenza di campionamento (sample rate - SR), cioè fissa ogni quanto tempo vengono prelevati i campioni. I campioni altro non sono che numeri, che possono essere memorizzati su un qualsiasi dispositivo digitale, simbolizzato in figura dall’icona cilindro che rappresenta il disco rigido (hard disk - HD). Prima di digitalizzare il segnale, occorre però filtrarlo in modo da eliminare una parte del suo spettro che potrebbe causare il problema dell’ aliasing ; infatti, secondo il teorema di Nyquist (o del campionamento): ogni segnale a banda limitata può essere campionato e perfettamente ricostruito a patto che la frequenza di campionamento sia almeno il doppio della frequenza massima contenuta nella banda del segnale. Soffermiamoci un attimo: la banda del segnale deve essere limitata: ossia deve

esserci una frequenza massima all'interno del segnale, che non venga mai superata. Poi, misurata questa frequenza massima, il teorema afferma che la frequenza del campionamento deve essere almeno doppia di questa frequenza massima perchè il campionamento possa essere realizzato con successo. Ad esempio: se vogliamo campionare il segnale di un basso elettrico, nel quale la frequenza massima sia, per ipotesi, 300Hz (ovvero l'onda sonora più "veloce" compie 300 cicli al secondo), la frequenza di campionamento dovrà essere come minimo di 600Hz, ossia dovranno essere presi almeno 600 campioni in un secondo. Se però dobbiamo campionare il segnale di un violino, che arrivi, ad esempio, fino a 15.000 Hz, sarà necessaria una frequenza di campionamento di almeno 30.000Hz, ossia si dovranno prendere almeno 30.000 misurazioni al secondo. Nella pratica, in ragione del fatto che lo spettro dell'udibile per l'orecchio umano è compreso tra i 20 e i 20.000Hz, una frequenza di 40.000Hz dovrebbe essere sufficiente a campionare ogni possibile suono udibile dall'uomo. Ciò che avviene nella digitalizzazione rispetta il teorema del campionamento procedendo in senso inverso. Stabilito un tasso di campionamento SR, occorre eliminare dal segnale tutte quelle frequenze che sono oltre la metà di SR; quindi, se SR = 11.000 campioni al secondo, occorre eliminare dal segnale tutte le frequenze superiori a 5500 Hz. Per far ciò si usa un filtro che elimina (o meglio attenua) tutte le frequenze sopra una certa soglia (detta frequenza di taglio o di cut-off). Ovviamente tale filtro è detto passabasso (lowpass filter) in quanto fa “passare” solo frequenze sotto una soglia, ed è detto antialiasing in quanto evita il problema dell’aliasing. La semicatena di riproduzione di un segnale digitale (sulla destra in figura) inizia con la conversione in segnale analogico, mediante il Convertitore Digitale-Analogico ( DAC - Digital-to-Analogue Converter). Il DAC genera delle tensioni elettriche che sono proporzionali ai campioni del segnale digitale, in corrispondenza degli istanti di tempo stabiliti dall’orologio interno. Un interpolatore si occupa di smussare i gradini dovuti al “salto” da un valore di tensione al valore vicino. Il modo in cui l’interpolatore svolge il suo compito necessita di nuovo di un filtro passabasso: i gradini ripidi tra un valore e l’altro, infatti, corrispondono alla presenza di alte frequenze nel segnale analogico generato; tali frequenze vengono eliminate dal filtro, la cui frequenza di taglio è data dalla metà del tasso di campionamento dato dal clock.

Nel segnale digitale, infatti, le frequenze superiori alla metà del tasso di campionamento sono state eliminate in fase di registrazione, e non sono quindi presenti: perché introdurle ex-novo nel segnale analogico con i gradini creati dal DAC? Infine il segnale viene amplificato e mandato ai diffusori per la trasduzione in segnale acustico. Facciamo due brevi commenti sulla catena audio digitale. Schema ADC FILTRO Analogico Banda illimitata Tempo e ampiezza continui

Campionatore Analogico Banda limitata Tempo e ampiezza continui

Quantizzatore Analogico Tempo discreto Ampiezza continua

Codificatore Digitale Tempo e Ampiezza discreti

Il FILTRO limita la larghezza di banda del segnale analogico. Il CAMPIONATORE converte un segnale a valore continuo nel tempo in segnale discreto Il QUANTIZZATORE converte un segnale a valore continuo nell’ampiezza in segnale discreto Il CODIFICATORE definisce il codice di segnale digitale in base alle applicazioni che seguono. Innanzitutto, si nota come la digitalizzazione, sebbene presenti notevoli vantaggi, introduce problematiche nuove e a volte impreviste, che sono intrinseche alla tecnica, e non hanno niente a che fare con il segnale di partenza. L’affermazione del digitale testimonia però che i vantaggi superano di gran lunga gli svantaggi. Inoltre, si nota come nella catena audio digitale vengono delimitati in modo netto le aree di competenza tra il segnale digitale, all’interno dell’elaboratore, e il segnale analogico, all’esterno dell’elaboratore. L’interno dell’elaboratore si prefigura come uno spazio perfetto in cui il segnale è descritto da numeri precisi, facilmente manipolabili, che non subiscono degradazioni; nessuno ascolta però il suono in esso rappresentato. L’esterno dell’elaboratore è il mondo reale in cui i suoni si possono ascoltare; ma il segnale fuori dall’elaboratore va incontro a una serie di pericoli che possono danneggiarlo: rumori, distorsioni, approssimazioni non controllate. Il passaggio da analogico a digitale e viceversa è caratterizzato da due operazioni di discretizzazione, in cui delle grandezze continue vengono ad assumere valori discreti: una è il tempo, dal momento che l’orologio dei convertitori stabilisce quali sono gli istanti da considerare per il campionamento, l’altra è l’ampiezza, dal momento che i numeri che è possibile usare nella rappresentazione appartengono a un codice simbolico definito e preciso. L’operazione che discretizza il tempo è detta campionamento; l’operazione che discretizza l’ampiezza è detta quantizzazione.

Figura Segnale analogico ( a), quantizzato (b), campionato ( c), quantizzato e campionato ( d )

Il campionamento è la discretizzazione del segnale analogico nel tempo. Dato che la descrizione del segnale è data dalla variazione dell’ampiezza nel tempo, il campionamento corrisponde alla individuazione dei valori discreti (istanti di tempo) sull’asse delle ascisse. Intuitivamente, perché il segnale digitale rappresenti in modo efficace il segnale analogico di partenza, occorre che i campioni siano prelevati a una velocità (o tasso) abbastanza elevati da riuscire a tener conto di tutte le variazioni del segnale. Cioè se il segnale passa in breve tempo da una fase ascendente a una fase discendente e quindi ancora a una fase ascendente, gli istanti di tempo considerati devono appartenere a tutte le tre fasi; se una delle fasi viene saltata, il segnale digitale non potrà rendere conto di tale variazione. Quindi, la velocità di prelevamento dei campioni, cioè il tasso di campionamento, deve essere dipendente dalla velocità di variazione del segnale. La velocità di variazione del segnale dipende a sua volta dalla parziale con frequenza più alta: sarà questa frequenza a determinare la velocità massima di variazione del segnale, e quindi anche il tasso di campionamento, se la digitalizzazione non deve causare degli errori di rappresentazione. In modo ancora più intuitivo, più brevi sono gli intervalli di tempo tra un campione e il successivo, più simile all’originale analogico sarà il segnale a gradini. Al limite, per intervalli di tempo infinitamente brevi, i due segnali analogico e digitale coincideranno. L’intervallo di tempo tra un campione e il successivo è detto periodo di campionamento; l’inverso del periodo, e quindi il numero di campioni in un secondo è detto tasso o velocità di campionamento (spesso si usa il termine frequenza di campionamento per indicare l’inverso del periodo, applicando la terminologia usata per i cicli dei segnali periodici al caso dei campioni). Si preferisce parlare in questo ambito di frequenza soltanto quando si parla di cicli al secondo per un segnale, impiegando il nome tasso o velocità quando si parla di campioni al secondo. In inglese, la confusione viene evitata usando il termine frequency per la frequenza vera e propria, e il termine rate per i campioni (in particolare sample rate). A ogni periodo di campionamento si preleva un campione dell’ampiezza del segnale, cioè il valore quantizzato del segnale analogico in quell’istante; il risultato è una sequenza di valori che corrispondono all’andamento del segnale. Più sono ravvicinati i valori, più efficacemente sarà descritto l’andamento del segnale.

Figura

Il campionamento di un segnale. ( a) il segnale analogico; ( b) campionamento con tasso di campionamento f ; (c) campionamento con tasso di campionamento 2 f ; (d ) campionamento con tasso di campionamento 3 f .

Poiché man mano che si riduce la dimensione dell’intervallo di campionamento aumenta l’accuratezza della descrizione del segnale, è cruciale scoprire qual è la dimensione migliore dell’intervallo. I due parametri per i quali occorre trovare un equo compromesso sono la qualità del suono e il numero di campioni. Una migliore qualità del segnale corrisponde a una maggiore quantità di informazione, cioè un maggior numero di campioni nell’unità di tempo; e un maggior numero di campioni richiede un maggiore spazio in memoria e una superiore velocità di trasferimento dati. Chiariamo un attimo questo secondo punto: la riproduzione dell’audio corrisponde a una lettura dei campioni e alla loro conversione in segnale analogico, che viene quindi amplificato e inviato ai diffusori. Queste operazioni devono avvenire con una velocità appropriata, che riesce a elaborare il numero corretto di campioni nell’unità di tempo: se i campioni che descrivono il segnale sono 44.100 per secondo, occorre che la capacità di lettura del

dispositivo (hard disk, CD, floppy disk, ...) sia sufficientemente veloce da inviare 44.100 numeri al DAC; se l’audio viaggia su Internet, allora la rete deve essere in grado di trasportare 44.100 campioni al secondo, altrimenti la riproduzione diventa difficile (con interruzioni continue). Se la quantità di campioni nell’unità di tempo diminuisce, allora la descrizione del segnale sarà meno accurata, e la qualità di ascolto potrebbe diventare inadeguata. Nella digitalizzazione di un segnale, i due parametri di qualità del suono e di quantità di campioni rispettivamente sono in contrasto, e la scelta del tasso di campionamento dipende dalle esigenze delle applicazioni individuali. Partendo tuttavia dall’idea di avere il massimo della qualità, cioè di riuscire a non percepire la differenza tra il segnale analogico e il segnale digitale, vediamo qual è il minimo valore di velocità di campionamento. In altre parole, come facciamo a non avere della perdita di informazione? Anche nella digitalizzazione occorre tenere a bada i due nemici di sempre, la distorsione e il rumore, rivisitati in senso digitale. La nostra percezione rimane invariata dal segnale analogico al segnale digitale se la forma d’onda, e quindi lo spettro del segnale, non subisce alcuna alterazione, se cioè le parziali del segnale in ingresso sono le stesse del segnale in uscita, oppure se le alterazioni subite non sono percepibili: in poche parole, se non occorrono distorsioni percepibili. Nella digitalizzazione di un segnale si ha un fenomeno di distorsione dovuto tipicamente all’operazione di campionamento che ci è utile per fissare dei limiti inferiori al tasso di campionamento: è il cosiddetto aliasing (o foldover). L’aliasing è un fenomeno che introduce in un segnale digitale delle frequenze spurie, che non erano presenti nel segnale analogico in ingresso. A partire dall’aliasing, si possono formulare dei principi generali sulla velocità di campionamento. In Figura troviamo tre casi di campionamento con differente rapporto tra tasso di campionamento e frequenza.

Nel caso (a) il segnale analogico è una sinusoide la cui frequenza è 1/8 del tasso di campionamento (quindi ben al di sotto della metà): cioè se il tasso di campionamento è di 1000 campioni al secondo, la frequenza del segnale è di 125 Hz. Interpolando i valori campionati, è immediato ricostruire il segnale di partenza. È un caso di sovracampionamento: le informazioni che risultano dalla digitalizzazione sono più che sufficienti per ricostruire il segnale originale.

Il caso (b) rappresenta un campionamento critico. La sinusoide ha una frequenza che è la metà della velocità di campionamento (con l’esempio di 1000 campioni/sec, la frequenza è di 500 Hz): l’interpolazione produce un risultato adeguato solo in presenza di determinate condizioni. Ad esempio, se la fase del segnale fosse stata 0° invece che 90° come in figura, il campionamento avrebbe prodotto tutti campioni di ampiezza 0, con possibilità nulle di ricostruire il segnale. Infine, nel caso (c), la ricostruzione del segnale a partire dai campioni produce un segnale totalmente nuovo, la frequenza spuria a cui si accennava in precedenza. È un caso di sottocampionamento: il segnale analogico di partenza ha una frequenza che è i 7/8 del tasso di campionamento; con un tasso di campionamento di 1000 campioni/sec il segnale è di 875 Hz, al di sopra della metà del tasso di campionamento. Il segnale ricostruito è di nuovo di 1/8 del tasso di campionamento, quindi di 125 Hz, ma con la fase invertita rispetto al segnale originale. Si dice che la curva ha una frequenza che è –1/8 rispetto al tasso di campionamento, cioè è di –125 Hz (Le frequenze negative non hanno un significato fisico in termini di frequenza, in quanto non avrebbe senso parlare di un numero negativo di cicli al secondo. Si noti che anche una frequenza nulla, 0 Hz, non ha senso). Questo è l’effetto di aliasing : i campioni ottenuti dal segnale originale non sono distinguibili dai campioni che si sarebbero ottenuti dal segnale ricostruito, usando lo stesso tasso di campionamento.

Le conseguenze dell’aliasing possono essere disastrose, e dipendono dai rapporti che le frequenze spurie hanno con le altre frequenze presenti nel segnale. Ad esempio, nel caso in cui la frequenza spuria sia molto vicina a una frequenza già presente nel segnale, si potrebbe verificare il fenomeno dei battimenti. Un caso particolarmente evidente di alterazione di un suono dovuta ad aliasing si verifica con un glissando: fino a che la frequenza del segnale rimane al di sotto della metà del tasso di campionamento, il segnale digitale rappresenta correttamente il segnale analogico; non appena la frequenza del segnale supera la metà del tasso di campionamento, il segnale ricostruito diminuisce la sua frequenza secondo la formula vista in precedenza (il segnale analogico continua invece a salire). Per comprendere il fenomeno dell’aliasing, può essere utile effettuare una comparazione con il fenomeno analogo che avviene nelle immagini. Nel caso delle immagini, per spettro si intende la composizione frequenziale di un’immagine in termini di sinusoidi che hanno come ascissa lo spazio (invece che il tempo) e come ordinata l’intensità luminosa o di colore: una sinusoide a frequenza elevata corrisponde a cambiamenti repentini di intensità o di colore, mentre una sinusoide a basse frequenze corrisponde a fluttuazioni più graduali di intensità o colore. L’applicazione di un filtro antialias corrisponde quindi all’eliminazione delle sinusoidi con frequenze più elevate: nel caso di immagini con cambi repentini di intensità o di colore questi cambi diventano più graduali o con “scalini” più arrotondati. Generalizzando dal fenomeno di aliasing, si osserva che per descrivere correttamente il segnale occorre “ricordarsi” di ogni singola variazione del segnale: cioè occorre ricordarsi di ogni volta che il segnale cresce e di ogni volta che il segnale decresce. Se l’operazione di campionamento “manca” di memorizzare qualcuna delle deformazioni, si ha un sottocampionamento e il fenomeno di aliasing. Considerando una parziale del segnale, sono necessari almeno due campioni per ciascun periodo del segnale: nel periodo di una sinusoide, infatti, il segnale cambia direzione due volte. Inoltre, poiché in un segnale complesso sono presenti più parziali, occorre che il campionamento prelevi almeno due campioni per la parziale di frequenza massima presente nel segnale; le altre parziali saranno tutte sovracampionate. Il principio che abbiamo appena descritto intuitivamente è il teorema di Nyquist, formulato nel 1928 da Harold Nyquist, e discende dalla teoria dell’informazione di Claude Shannon. Il tasso di campionamento deve essere quindi almeno il doppio della frequenza massima presente nel segnale in input. Questo tasso di campionamento è detto tasso di Nyquist. Se il tasso di campionamento è al di sotto del tasso di Nyquist, si verifica il fenomeno dell’aliasing. Operando nel senso inverso, stabilito un tasso di campionamento sui dispositivi di conversione analogicodigitale, per campionare correttamente il segnale in input occorre che le frequenze che sono la metà della frequenza di campionamento vengano eliminate. Con l’eliminazione di tali frequenze il segnale risulterà impoverito rispetto al segnale originale, ma non è detto che le conseguenze di questa riduzione del contenuto armonico siano percepibili dal sistema uditivo dell’uomo.

Ad esempio, poiché la percezione dell’uomo arriva a segnali di circa 20.000 Hz, è sufficiente che il tasso di campionamento sia fissato a oltre 40.000 campioni/sec, per non avere perdite significative nella qualità del segnale ricostruito. Il tasso di campionamento dei compact disc è di 44.100 campioni/sec, ed è quindi sufficiente a rappresentare correttamente il segnale audio di partenza. Per eliminare le frequenze dal segnale in ingresso, occorre filtrare il segnale in modo da far passare solo le frequenze al di sotto della metà del tasso di campionamento. Il dispositivo che permette di fare questa operazione è un filtro passabasso. Lo schema nella Figura rappresenta l’operazione di filtraggio operata da un filtro passabasso. In alto a sinistra vi sono le quattro parziali di un segnale in ingresso al filtro. Il segnale complesso che risulta dalla combinazione di queste quattro parziali si trova in basso a sinistra. Il filtro attenua le due frequenze più elevate (nel nostro schema semplificato le azzera). Il segnale risultante si trova in basso a destra e risulta differente dal segnale di partenza. L’eliminazione delle frequenze più elevate è una semplificazione: in realtà il filtro riesce solo ad attenuare le frequenze indesiderate. La frequenza che fissa la soglia oltre la quale le frequenze vengono attenuate è detta frequenza di taglio o di cut-off. Le stesse tematiche che riguardano il filtro passabasso riappaiono nella ricostruzione del segnale analogico, quando il filtro deve eliminare i cambi repentini di intensità dovuti alla successione di tensioni generate dal DAC in corrispondenza della lettura dei singoli campioni dal segnale digitalizzato. I cambi di intensità sono repentini in quanto la tensione rimane costante fino alla conversione del campione successivo risultando in un segnale “a scalini”. Nei casi reali l’intervallo di tempo tra due conversioni successive è di decimillesimi di secondo (ad esempio, a 44.100 campioni/sec l’intervallo è di 0,000023 secondi). Ma il segnale analogico di partenza non può avere questi cambi repentini di intensità, in quanto era stato filtrato mediante un filtro passabasso sotto la metà del tasso di campionamento: per ricostruire in modo corretto il segnale, è sufficiente che il segnale “a scalini” sia filtrato di nuovo mediante un filtro passabasso tarato come il filtro usato nella fase di campionamento. La “magia” del suono digitalizzato è che il segnale ha una banda limitata, oltre la quale non si può andare in fase di ricostruzione del segnale. La differenza operativa è la seguente: nel caso del campionamento il segnale di partenza era il segnale analogico originale; nel caso della ricostruzione, il segnale di partenza è i l segnale “a scalini” generato dal DAC. Il risultato è però il medesimo nei due casi, in quanto il contenuto spettrale al di sotto della metà del tasso di campionamento è lo stesso. Il segnale che arriva ai diffusori assomiglia graficamente e “suona” come il segnale originale.

La quantizzazione Abbiamo visto che, nel campionamento, andiamo a trasformare in valori numerici discreti quello che in origine è un segnale continuo. Comunque dopo il campionamento il segnale è ancora nel dominio analogico in quanto l’ampiezza di ogni campione può assumere infiniti valori tra i limiti massimo e minimo della tensione analogica. Ogni valore numerico viene conservato in un calcolatore sotto forma di una sequenza di bit, dove un bit può assumere un valore tra 0 e 1. Un valore numerico memorizzato nel nostro campionatore dovrà quindi avere una forma del tipo 0010, o 1011, o 10110101, o qualcosa di analogo. Come si applica questa situazione generale al campionamento? E' evidente che i valori che descrivoro l'ampiezza del segnale nell'istante in cui avviene il campionamento, dovranno essere del tipo che abbiamo visto: è chiaro anche, quindi, che essi non potranno assumere ogni possibile valore numerico (6, 35, 47/17, pi greco, 4,6666666...), ma potranno in realtà essere scelti in un insieme ristretto e finito, determinato dal numero di bit che il calcolatore metterà a disposizione per i valori dell'ampiezza del segnale. I numeri dovranno cioè essere approssimati ad uno dei valori possibili. E' per questo che, oltre alla frequenza di campionamento, di un campionatore si dichiara anche la capacità di quantizzazione. Quali sono i valori possibili per la quantizzazione? Prendiamo il caso che il campionatore metta a disposizione 4 bit per il campionameto. Ciò significa che avremo a disposizione valori binari da 0000 a 1111, ossia solo 16 "step" di valori possibili. L’operazione di quantizzazione sul singolo campione

di ampiezza (tensione elettrica) ha l’obiettivo di assegnare al campione uno dei valori numerici che sono consentiti nella codifica digitale. La codifica digitale divide la gamma delle ampiezze possibili in intervalli o regioni: ogni campione ha un’ampiezza che cade in una delle regioni. Ad esempio, se l’ampiezza varia tra –5 e +5 volt, la gamma totale delle ampiezze è di 10 volt; se la codifica digitale divide la gamma delle ampiezze in 16 regioni, ogni regione sarà ampia 0,625 volt (0,625 = 10/16). Il numero di regioni in cui è suddivisa la gamma delle ampiezze dipende dai bit a disposizione per la codifica. La rappresentazione digitale, infatti, si basa sulle sequenze di bit. Il bit è l’unità minima di informazione, e può valere 0 o 1; una sequenza di bit è detta una parola binaria. Una parola binaria di N bit può assumere 2N valori o configurazioni differenti, cioè si tratta di 2 N possibili sequenze differenti di 0 e 1. Per N = 2, le parole binarie possibili sono 4 (22), cioè 00, 01, 10, e 11. Per N = 3, le parole binarie possibili sono 8 (23), cioè 000, 001, 010, 011, 100, 101, 110, 111. Valori tipici per la lunghezza di una parola binaria nell’audio sono 8 o 16 bit, per un numero di valori differenti di 256 (28) e 65.536 (2 16), rispettivamente (il valore di 2 N è dato dal calcolo delle disposizioni di 2 valori (0 e 1) su N posti. Il calcolo combinatorio delle disposizioni si applica quando si ha un numero N di posti, e ciascuno può essere ricoperto da uno qualsiasi di B valori. Ad esempio, nella schedina del totocalcio i posti sono 13 (N = 13) e i valori possibili per posto sono 3 (B = 3: 1, 2, X). Il numero di disposizioni in questo caso, cioè il numero di configurazioni che possono venir fuori da una schedina è 3 13 (cioè BN). Nel caso della codifica digitale, i valori sono sempre 2 (0 e 1) e i posti dipendono dalla lunghezza della parola binaria). Nell’esempio fatto in precedenza divide la gamma delle ampiezze in 2 N regioni uguali, e associa a ciascuna delle regioni uno dei 2N valori numerici. Ciascuno dei 2N valori numerici è un codice binario a N bit. Nella Tabella si hanno i valori minimo e massimo delle 256 regioni in cui è suddivisa la gamma delle ampiezze di 10 volt (da –5 a +5 volt); ciascuna regione è ampia 0,039 volt (10 / 256); per ciascuna regione vengono indicati gli estremi minimo e massimo e la parola binaria che ne rappresenta il codice.

Fissato il numero di regioni possibili mediante i bit a disposizione, occorre stabilire un metodo per associare una configurazione di bit a una regione della gamma delle ampiezze. Un metodo comune è la quantizzazione lineare, che come nell’esempio fatto in precedenza divide la gamma delle ampiezze in 2 N regioni uguali, e associa a ciascuna delle regioni uno dei 2N valori numerici. Ciascuno dei 2N valori numerici è un codice binario a N bit. Nella Tabella 2.1, si hanno i valori minimo e massimo delle 256 regioni in cui è suddivisa la gamma delle ampiezze di 10 volt (da –5 a +5 volt); ciascuna regione è ampia 0,039 volt (10 / 256); per ciascuna regione vengono indicati gli estremi minimo e massimo e la parola binaria che ne rappresenta il codice. Nell’operazione di quantizzazione, tutti i valori di tensione che finiscono in una certa regione vengono convertiti nel codice binario che rappresenta quella regione. Così, facendo riferimento alla Tabella, il valore –4,985 verrà convertito nel codice 00000000, mentre il valore 4,831 verrà convertito nel codice 11111011. Nel processo di quantizzazione si perde dell’informazione, in quanto tutti i valori che rientrano in una regione verranno convertiti nello stesso codice binario, attenuando quindi le differenze tra i valori di tensione. È come se il codice corrispondesse a un valore di tensione che potrebbe essere il punto di mezzo della regione (dipende da come il DAC lo riconvertirà in tensione nella fase di ricostruzione del segnale). Rispetto al punto di mezzo, quando viene quantizzato un altro valore della regione si introduce per forza di cose un errore, che è detto errore di quantizzazione. Man mano che i bit della codifica aumentano, le regioni si riducono di ampiezza, e il codice binario viene quindi associato a una regione più piccola, riducendo l’errore di quantizzazione. Il massimo errore di quantizzazione è dato dalla metà della dimensione di una regione, in quanto assumendo che il codice corrisponda al valore di mezzo, al più il valore di tensione per un certo campione sarà agli estremi della regione. Ad esempio, facendo sempre riferimento alla Tabella, il massimo errore di quantizzazione è di 0,0195 volt. Il valore di mezzo della prima regione dall’alto è –4,9805 volt. Il massimo errore di quantizzazione si verifica sugli estremi delle regioni, anzi in questo caso delle piccole imprecisioni sulla misura della tensione possono far quantizzare

il valore su una regione o su quella vicina (consideriamo –4,961 volt); la probabilità che ciò accada è tuttavia abbastanza ridotta. Nella Figura seguente si può osservare la differenza di errore di quantizzazione nel caso di parole binarie di 3 bit (8 valori) o di 4 bit (16 valori). Per ogni campione, il puntino indica il valore effettivo di ampiezza registrato in quell’istante, mentre la barra corrispondente rappresenta il valore quantizzato. Come si rileva chiaramente, l’errore di quantizzazione, dato dalla differenza in valore assoluto tra il valore effettivo e il valore quantizzato, è molto maggiore nel caso di 3 bit (a sinistra nella figura) L’errore di quantizzazione si può certamente considerare casuale (può essere positivo o negativo, cioè essere inferiore o superiore al valore di mezzo della regione, può essere grande o piccolo, e comunque variare nei limiti dati dalla metà di una regione), ed è del tutto scorrelato dal segnale vero e proprio: si comporta come un segnale aggiunto affine al rumore “bianco” introdotto dal processo di digitalizzazione. Tale rumore è detto rumore di quantizzazione. Poiché non possiamo andare all’infinito nell’aumentare il numero di bit della codifica digitale, occorre fissare dei parametri per determinare se la rappresentazione di un segnale è corretta. In altre parole si cerca di fissare i limiti di precisione di una codifica digitale. Nel caso del segnale analogico, la qualità di rappresentazione del segnale viene stabilita con la “quantità” di rumore presente. Il rapporto SNR definito in precedenza dà una misura della “fedeltà” di un sistema audio analogico. Anche nel caso di un sistema digitale si può introdurre una misura simile al rapporto SNR: l’idea è di confrontare l’ampiezza del segnale con l’ampiezza del rumore di quantizzazione (cioè il rumore causato dall’errore di quantizzazione). Si parla di un rapporto SNR digitale, e, per differenziarlo, si può usare l’acronimo SQNR (Signal-to-Quantization-Noise-Ratio – Rapporto Segnale- Rumore-di-Quantizzazione). Ora affrontiamo qualche calcolo per valutare SQNR in termini di decibel.

Poiché N è il numero di bit della rappresentazione digitale, e SQNR è espresso in funzione di N, quest’ultima relazione stabilisce che ogni bit contribuisce per circa 6 dB al rapporto tra il segnale e l’errore di quantizzazione SQNR. Per avere un’idea del contributo dato da un singolo bit al rapporto segnale/rumore, consideriamo che con 8 bit, SQNR = 48 dB, mentre con 16 bit, SQNR = 96 dB, che è un valore molto alto anche rispetto ai migliori registratori analogici. Nella Tabella seguente sono riportati i valori di SQNR per la quantizzazione lineare in scala lineare e logaritmica per alcune lunghezze significative della parola binaria. Le più recenti tecniche di registrazione adottate nell’industria discografica si basano su una quantizzazione a 24 bit, e godono di un rapporto segnale/rumore senza precedenti (144 dB); il rapporto è già abbastanza elevato per i 16 bit utilizzati dallo standard dei compact disc (96 dB).

Dispensa 2 La Catena Audio

Recommend Documents