La ricostruzione della scena, come abbiamo già avuto modo di discutere in un precedente post, è un’operazione complessa svolta dal nostro cervello per darci l’illusione che la musica che stiamo ascoltando occupi uno spazio fisico ben definito. Più la catena di riproduzione è di qualità, più la scena ricostruita dal sistema “impianto-ambiente-orecchio-cervello” dovrebbe essere sovrapponibile a quella originale registrata nella sorgente. Ma come funziona questo meccanismo percettivo? E quali parametri influenza?
Posti di fronte a un segnale audio stereofonico riprodotto con uguale intensità da entrambi i diffusori, il nostro cervello interpreta tale suono fondendo i singoli segnali d’onda sonora percepiti da ciascun orecchio. Il risultato di questa fusione è l’illusione che il segnale provenga da un unico punto, posto esattamente al centro tra i due diffusori. Se però aumentiamo leggermente il volume su uno solo dei due diffusori – diciamo quello di sinistra – la fusione dei segnali stereofonici ci darà l’impressione che la musica arrivi da un punto posto leggermente alla nostra sinistra. Questo fenomeno di localizzazione della sorgente di un segnale audio è chiamato intensità stereo: L’informazione che il nostro cervello sfrutta per localizzare il suono è data dalla differenza di volume (intensità) tra l’orecchio destro e quello sinistro. L’intensità stereo è quindi un metodo per ricostruire l’ampiezza della scena.
Un altro metodo per ottenere lo stesso effetto, ossia ricreare un’immagine del suono localizzata nello spazio in ampiezza, è correlata alle “informazioni di fase” del segnale. La fase di un segnale periodico ad un certo istante temporale è la frazione di periodo trascorsa rispetto a un tempo fissato, ossia un tempo convenzionale che può esprimere, ad esempio, l’istante in cui iniziamo l’osservazione del fenomeno acustico. Più in generale, la fase esprime un particolare istante durante lo svolgersi di un fenomeno periodico che viene misurato tramite un angolo, detto angolo di fase. Le informazioni di fase sono rilevanti poiché ogni segnale audio può essere interpretato come somma di una serie di segnali armonici periodici e le relazioni spazio-temporali tra di essi influenzano pesantemente il modo in cui noi li percepiamo. Cerchiamo di capire come funziona questo secondo meccanismo percettivo in relazione alla fase. Torniamo, allora, al nostro segnale stereofonico emesso con la medesima intensità da entrambi i diffusori. Tale segnale può essere scomposto in una serie di onde sinusoidali periodiche (dette armoniche). Ora, anziché variare il volume di un canale rispetto all’altro, introduciamo un ritardo su tutte le onde provenienti da uno specifico canale – ad esempio su quelle del canale sinistro. Sono sufficienti pochi millisecondi di ritardo delle forme d’onda “di sinistra” affinché il nostro cervello ricostruisca la scena spostata leggermente verso destra. Nonostante i due diffusori stiano effettivamente emettendo lo stesso segnale alla medesima intensità (volume), l’immagine proveniente dalla fusione dei segnali nel nostro cervello appare essere localizzata maggiormente verso il diffusore che riproduce il suono per primo. Per tale ragione, un ritardo sul canale sinistro, sposta la scena verso destra, e viceversa. I due segnali hanno stessa intensità, ma risultano leggermente sfasati tra loro. Il ritardo delle fasi è dunque un altro metodo per localizzare la scena in ampiezza.
La presentazione appena illustrata di questi due metodi è molto semplificata (le onde sonore in un tipico ambiente di ascolto domestico, ad esempio, non arrivano dirette alle nostre orecchie, ma seguono dei percorsi turbolenti a causa di fenomeni acustici come le riflessioni su pareti, soffitti e pavimenti). Ciononostante, i precedenti due metodi di localizzazione ci permettono di fare due cose:
- Capire come un impianto è in grado di riprodurre un segnale stereofonico dandoci l’illusione che venga ricostruita un’immagine spaziale della musica;
- Descrivere il fenomeno della psicoacustica, ossia lo studio della percezione soggettiva umana dei suoni. Alcune persone sono più sensibili alle differenze di volume; altre lo sono di più ai ritardi di fase. In un modo o nell’altro, tuttavia, ognuno di noi è (inconsciamente) sensibile all’effetto di tali metodi quando percepisce l’ampiezza di una scena stereofonica.
Per quanto concerne la profondità (o prospettiva), ossia quella proprietà fisica dello spazio in cui percepiamo uno strumento posto avanti, in linea, oppure indietro rispetto ad un altro, il maggior contributo è dato dalla registrazione. In base alla posizione dei microfoni, certi suoni ci arriveranno prima di altri. I componenti della catena d’ascolto, tuttavia, possono influenzare questa percezione, facendoci apparire uno specifico suono come “arretrato” oppure “avanzato”. Se l’immagine sonora di uno strumento ci appare troppo arretrata, la sensazione che ne ricaviamo risulta di scarso coinvolgimento, perdendo di immediatezza. Per contro, se l’immagine è troppo avanzata, come se lo strumento facesse alcuni passi in avanti rispetto alla scena, la sensazione di forte presenza e immediatezza tenderà presto a trasformarsi in aggressività, causando la ben nota fatica d’ascolto. (Il fenomeno della fatica d’ascolto è facilmente sperimentabile in alcuni centri commerciali e showroom in cui, ad esempio, le frequenze basse vengono “pompate” per dare un’impressione di presenza e immediatezza forte all’ascoltatore. Bastano pochi minuti, tuttavia, affinché anche un ascoltatore minimamente educato desideri spegnere tutto. Per degli ascolti prolungati, il mal di testa è assicurato.)
Aggiungiamo ancora due considerazioni finali. La prima, sul vocabolario tecnico da usare nella valutazione di un impianto. Quando la scena risulta ben riprodotta – diciamo in modo credibile – l’impianto produce un’immagine sonora aperta. Se la scena risulta limitata in ampiezza, diremo che l’immagine è compressa. Se la scena è limitata in prospettiva, l’immagine è piatta. Laddove un impianto ecceda troppo nella ricostruzione di prospettiva, è preferibile che tenda ad arretrare la scena piuttosto che ad avanzarla. La musica rimarrà ancora godibile, pur essendo meno coinvolgente, ma non produrrà fatica d’ascolto. Per quel che riguarda la scena in ampiezza, un impianto hi-fi discreto sarà sempre in grado di esprimere un’immagine del suono credibile per le registrazioni di scene originariamente “raccolte”, come accade per le riproduzioni di piccoli ensemble e di praticamente tutta la cosiddetta musica da camera. Più la scena originaria si allarga, pensiamo a una grande orchestra di parecchie decine di elementi, più determinanti diventano le caratteristiche elettriche dell’amplificazione e, in ultimo, anche le capacità dei diffusori di muovere maggiori masse d’aria per rendere credibile la ricostruzione della scena. Per tale ragione, nella valutazione di un impianto, è importante spaziare su più generi e ascoltare programmi musicali in grado di esercitare i vari parametri di valutazione (e non solo limitatamente alla ricostruzione della scena, argomento centrale di questo post).
La seconda considerazione riguarda la natura della postura di ascolto critico. Quando ci apprestiamo a valutare le qualità di un impianto, analizzando per esempio con quale fedeltà esso riproduce la scena, stiamo prestando un’attenzione selettiva proprio a queste operazioni di fusione delle informazioni che avvengono all’interno del nostro cervello. In tal senso, la postura dell’ascolto critico è indipendente dal genere musicale ascoltato in quanto i meccanismi psico-fisici che risiedono alla base durante l’ascolto sono sempre gli stessi (quelli dell’intensità stereo, dei ritardi di fase, eccetera). Altro discorso, invece, è dire se abbia senso effettuare un ascolto critico a seconda del tipo di programmazione che stiamo ascoltando. Per poter ricostruire in modo credibile una scena, ci deve essere una scena da ricostruire :-). L’immagine che emerge dalla riproduzione sonora deve essere “ricca” per poter essere adeguatamente apprezzata dal nostro sistema orecchio-cervello. L’attenzione di un ascoltatore “educato” cala immediatamente quando il messaggio musicale è monotono: la scena risulta piatta, ma non per incapacità della catena di riproduzione, ma perché stiamo ascoltando un suono piatto all’origine. Proviamo ad accostarci a un brano di musica classica e poi a ripetere lo stesso esercizio con un brano rap o trap e ci renderemo ben presto conto della differenza tra le due immagini sia in ampiezza, sia in prospettiva. (A scanso di equivoci, la precedente affermazione non esprime una valutazione di merito, bensì una considerazione tecnica sulla ricchezza del messaggio sonoro.)