5.1. Introduzione
Introdurremo il tema di questa sezione sullanalisi dei segnali e dei supporti che
vengono originati da operazioni di intercettazione richiamando due recenti definizio-
ni. La prima, di Nazzaro (2010: 14), definisce il concetto di intercettazione legale in
termini di captazione delle comunicazioni effettuate dallutente posto sotto intercetta-
zione dalloperatore di telecomunicazione sulla propria rete su richiesta dellAutorit
Giudiziaria; la seconda, di Paoloni & Zavattaro (2007: 81), definisce lintercettazione
come un operazione di [] captazione, con opportuni dispositivi elettronici, di con-
versazioni o comunicazioni che si svolgono a distanza mediante telefono o altro mezzo
(intercettazione di telecomunicazioni), o tra persone presenti in un determinato contesto
ambientale (intercettazione tra presenti) ad opera di un terzo che non partecipe al col-
loquio n destinatario delle comunicazioni intercettate. Solo da queste due definizioni
risulta evidente come le competenze richieste a colui che chiamato ad operare su ci
che potremmo definire il prodotto finale di un intercettazione, sia esso un semplice se-
gnale sonoro contenente la conversazione intercettata o il supporto su cui questultima
stata registrata, vadano ben oltre la semplice capacit o abilit di ascoltare e trasporre in
forma scritta il contenuto di una comunicazione.
Nella prassi giudiziaria, al perito a cui viene conferito un incarico avente come og-
getto una comunicazione intercettata, viene solitamente consegnata una registrazione
contenente la traccia sonora di un segnale intercettato: il contenuto della registrazione su
cui il perito dovr operare costituito nella maggior parte dei casi da comunicazioni o
conversazioni tra due o pi soggetti, disturbate e frammiste ad altri suoni delle pi sva-
riate tipologie (rumori, voci estranee e quantaltro). Inoltre, poich la captazione delle
conversazioni o anche intercettazioni, come vedremo pi avanti, pu essere di diversa
natura per le modalit con cui essa viene eseguita, e poich tali conversazioni altro non
sono che segnali sonori registrati su un supporto, risulta fondamentale che colui che
chiamato ad operare su di esse possegga una serie di competenze sulla natura dei suoni
in generale, competenze che ricadono nel dominio dellAcustica; a queste si aggiungo-
no anche competenze pi specifiche che riguardano la produzione e la natura dei suoni
della parola, ambiti di cui si interessano, rispettivamente, la Fonetica Articolatoria e la
Fonetica Acustica. Infine, non possono naturalmente mancare ulteriori conoscenze di
tipo tecnico riguardanti nella fattispecie le varie modalit di intercettazione che danno
origine a questi segnali e le diverse tipologie di supporti su cui questi vengono incisi,
archiviati e custoditi.
Per questa ragione, prima di affrontare aspetti tecnici e pi specifici inerenti le inter-
cettazioni nel loro complesso, sar opportuna una breve digressione sulla natura fisica
ed acustica del suono e, come accennato, ai suoni della parola: solo cos si potranno
affrontare e comprendere tutte quelle problematiche e tutte quelle questioni che rendono
il variegato mondo delle intercettazioni tanto affascinante quanto insidioso (dal punto di
vista tecnico, naturalmente).
LAcustica quel ramo della fisica che si occupa del suono come entit o fenomeno
fisico. Si tratta di una disciplina antica: i primi tentativi di studiare fenomeni acustici
risalgono addirittura a Pitagora e ai suoi discepoli, ovviamente con scarsissimi risultati
data la conoscenza e gli strumenti del tempo. Aristotele, al contrario, era gi a conoscenza
del fatto che il suono fosse il risultato dellurto di un corpo in moto nellaria: La causa
che il suono prodotto dallaria in movimento: come ci che mette in movimento laria
provoca per primo un suono, cos occorre che faccia a sua volta laria, via via in parte
muovendone altra e in parte essendo mossa. Perci il suono continuo, perch le forze
in gioco si succedono fino a che si esauriscano [].1
In tempi pi recenti, invece, furono in tanti ad interessarsi al modo con cui si genera
e si propaga un suono: si tratta soprattutto di studiosi della fisica, tra cui figurano nomi
quali Isaac Newton o Daniel Bernoulli per citarne qualcuno. per durante gli anni a ca-
vallo della prima guerra mondiale che lacustica si sviluppa come scienza in quanto tale,
un salto di qualit reso possibile prima grazie ai trasduttori elettrici e poi agli amplifica-
tori elettronici che permisero di convertire i suoni in impulsi elettrici e contestualmente
di misurare e di produrre suoni di qualsiasi intensit e frequenza.
Ma che cos il suono? Con il termine suono viene indicata la sensazione percepita
dallorecchio umano dovuta alle onde meccaniche che si propagano nellaria o in altri
mezzi elastici. Con altro significato, suono indica il fenomeno sonoro prodotto dalla
voce umana, da strumenti musicali o anche da apparecchi di segnalazione acustica: si
parla del suono della voce, del pianoforte o del violino, ma anche del suono delle cam-
pane, del clacson, della sveglia.
Il suono, come gi Aristotele aveva intuito, quindi uno stato vibratorio di un mezzo
elastico capace di vibrare. Un mezzo, o un corpo, si definisce elastico quando, al cessare
della causa deformante, lo stesso ritorna al suo stato originario, cosiddetto di quiete o
di riposo. Nella produzione dei suoni si ha, pertanto, propagazione di moto (o energia)
attraverso un mezzo elastico. Le particelle daria (il mezzo elastico) attraverso le quali
si propaga unonda sonora non si allontanano dal loro punto di inerzia abbandonandolo,
ma oscillano con un movimento vibratorio attorno al loro punto di equilibrio nella di-
rezione opposta alla forza deformante, al quale ritornano dopo aver urtato la particella
successiva e non appena la forza che le ha messe in moto sar cessata2. Il movimento
innescato nelle particelle del corpo elastico produce variazioni di pressione dove zone
di compressione, in cui le particelle sono molto vicine tra loro, si susseguono a zone di
rarefazione, in cui le particelle sono alla loro massima distanza: lalternarsi di queste
variazioni di pressione indotte dallenergia trasmessa a far s che unonda sonora si ori-
gini e si propaghi nel mezzo. Tuttavia, poich non tutti i corpi reagiscono ad una forza
deformante allo stesso modo, la velocit di propagazione del suono varia al variare del
mezzo elastico attraverso il quale viaggia, velocit che maggiore nei solidi e minore nei
gas (cfr. Tabella 5.1 a seguire).
Tabella 5.1 Velocit di propagazione del suono nei diversi corpi a determinate con-
dizioni atmosferiche
Occorre a questo punto introdurre una distinzione fondamentale tra onde complesse
e onde semplici. Ci che differenzia le une dalle altre la loro periodicit. Il suono una
perturbazione di tipo periodico che, a causa di ulteriori fattori che si sommano allonda
sonora semplice, la trasformano in unonda sonora complessa. A causa del mezzo di
propagazione, dellambiente circostante e per una serie di effetti acustici che si som-
mano allonda semplice, questa si trasforma in unonda complessa, frutto della
somma algebrica di due o pi segnali sinusoidali, ciascuno di data frequenza ed
intensit3. per questo motivo che praticamente impossibile trovare in natura delle
onde sempli- ci perfettamente periodiche che sono, di fatto, delle onde complesse. Si
tratta tuttavia di una distinzione che sta alla base, prevalentemente, della Fonetica
Acustica su cui ci soffermeremo pi avanti: per convenzione si tende infatti a
considerare la forma donda di un suono linguistico come sinusoidale o quasi
periodico, che si riproduce in maniera
identica (o quasi) ad intervalli di tempo identici, in contrapposizione ad unonda sonora
a-periodica in cui il suo andamento vibratorio imprevedibile e altamente transiente,
ovvero diverso ad ogni istante4.
Come abbiamo visto, propagandosi nellaria un suono viaggia sotto forma di
onde sonore aventi caratteristiche fisiche misurabili in termini di tempo (t) espresso in
secondi (s), e ampiezza delle oscillazioni indotte dalla forza deformante.
Per affrontare gli altri concetti legati al suono che di seguito verranno esaminati, per
comodit e per maggiore semplicit faremo riferimento a unonda sonora di tipo sinusoi-
dale o periodica come quella riprodotta in Figura 5.1: la rappresentazione grafica, detta
oscillogramma, si riferisce allonda di un tono puro, o suono ideale5.
tipi di misura per lampiezza: la prima una misura di tipo assoluto ed detta am-
piezza di picco (espressa in Watt, W) che misura effettivamente il punto in cui londa
ha ampiezza massima, ovvero la potenza di unonda sonora; in modo analogo in Watt
al metro quadrato (W/m2) viene indicata lintensit acustica, che mette in rapporto la
potenza di unonda sonora con larea della superficie perpendicolare alla direzione
dellonda da cui viene attraversata; la seconda , al contrario della prima, una misura
sullampiezza per come viene percepita dal nostro orecchio. Si parla in questo caso di
ampiezza efficace detta anche intensit (I) e lunit di misura comunemente adottata
il decibel (dB) che esprime, secondo una scala logaritmica in base 10, il rapporto fra
due grandezze omogenee e ci fornisce informazioni sullenergia con la quale un corpo
elastico vibra7.
Dal punto A al punto E londa compie unoscillazione completa che viene definita
con il termine periodo (T). Il numero di oscillazioni completate in una unit di tem-
po8 determina la frequenza (F) di un dato suono, espressa in Hertz (Hz), e corrisponde
allinverso del periodo che, come detto, la quantit di tempo impiegata per compiere
unoscillazione completa (F = 1/T). Unonda di frequenza pari a 5 Hz compie 5 cicli ogni
secondo. Un maggiore numero di cicli, determiner frequenze pi alte e quindi suoni pi
alti9.
La distanza tra una cresta e laltra, rappresentati in Figura 5.1 dai punti B ed F
corrispondenti ai due massimi punti consecutivi di allontanamento dal punto di
riposo10, ci fornisce la lunghezza donda espressa con il simbolo lambda () e consiste
nella distanza percorsa da un onda nel tempo impiegato dalla stessa per completare un
periodo11.
Con il trascorrere del tempo, al cessare della forza deformante, ogni suono va in-
contro ad un fenomeno detto di smorzamento: la sua ampiezza decresce fino ad arrivare
al punto di equilibrio e di conseguenza il suono si attenua fino al silenzio (vedi Figura
5.2). Questo fenomeno porta ad avere sempre onde aperiodiche, ma dal momento che
lo smorzamento prevedibile e si pu misurare per convenzione si tende a considerarle
ugualmente come periodiche.
Oppure pu essere effettuata lanalisi di una porzione dellonda dove la sua ener-
gia viene espressa in funzione della frequenza (posta sullasse delle ascisse) e prender
quindi il nome di spettro di potenza13 rappresentato nella Figura 5.4 di seguito riportata.
Figura 5.3 Le quattro fasi che caratterizzano una sorgente sonora
Come precedentemente annunciato apriremo qui una breve parentesi sui suoni della
parola.
La Fonetica Articolatoria quella branca della Fonetica che si occupa dello studio
e della descrizione dei meccanismi di produzione dei suoni della parola da un punto di
vista fisiologico. Il suo principale oggetto di studio quello che viene comunemente de-
finito come apparato fonatorio, per descrivere il quale si ricorre essenzialmente a disci-
pline come lanatomia, la fisiologia, la foniatria, la neurologia e lotorinolaringoiatria. La
Fonetica Acustica si occupa, invece, dei singoli suoni del linguaggio indagandone le loro
caratteristiche fisiche, con particolare attenzione a quelli che vengono pi propriamente
detti foni, cio ai fonemi concretamente prodotti, avvalendosi delle leggi e dei principi
della fisica acustica ed a cui abbiamo gi accennato sopra.
Nellessere umano la generazione dei suoni della parola avviene attraverso una serie
di processi e meccanismi legati allapparato fonatorio. Si tratta di un complesso apparato
composto da pi organi con funzioni primarie prettamente fisiologiche come la masti-
cazione, la deglutizione, la respirazione e cos via. In realt, lapparato fonatorio non
altro che ladattamento allo scopo comunicativo di organi preposti ad altre funzioni16.
Ricorrendo alla definizione data da Ladefoged (1975), lapparato fonatorio pu es-
sere suddiviso in quattro grossi meccanismi che sono: il meccanismo pneumatico (che
comprende tutto il sistema deputato alla respirazione: polmoni, diaframma, bronchi e
trachea); il meccanismo glottidale (ovvero la parte superiore della laringe, compren-
dente la glottide nel suo insieme); il meccanismo articolatorio (che comprende tutta
quella parte che dalla glottide si estende fino alle labbra: epiglottide, cavit faringea,
ugola, palato duro, lingua ecc.); il meccanismo oronasale (comprendente le cavit
nasali e il velo). Nella Figura 5.6, a seguire, si evidenziano schematicamente le com-
ponenti di ciascun meccanismo che, nel loro insieme, compongono e costituiscono
lapparato fonatorio.
Figura 5.6 Una descrizione schematica dellapparato fonatorio con i quattro meccani-
smi deputati alla produzione dei suoni della parola
il flusso daria polmonare intervenendo sulla struttura delle cavit attraverso le quali
passa (per esempio, cavit faringea, orale e nasale), creando delle vere e proprie casse di
risonanza che differenziano, in base alla loro conformazione, il suono che ne viene gene-
rato21. Sono invece organi fissi i denti, la radice dei denti, il palato duro e il palato molle,
elementi che fungono in vari modi da supporto o appoggio agli articolatori mobili. In
tal caso il suono subisce modificazioni in base allentit della frizione impartita dagli
articolatori mobili contro gli articolatori fissi restringendo o ostruendo il varco di uscita
dellaria. Ogni modificazione intervenuta e realizzata in questa fase al di sopra della
glottide a carico dei due meccanismi articolatorio e oro-nasale in base ai contatti operati
dagli articolatori mobili e fissi, produce cambiamenti e differenze nella qualit e nel tipo
di suono che viene prodotto dal parlante e percepito dallascoltatore.
Lapparato fonatorio sostanzialmente uguale sia negli uomini che nelle donne e
nei bambini, a parte alcune piccole differenze che rendono le voci chiaramente distin-
guibili luna dallaltra, sia per i diversi sessi che per le varie fasce det. Queste diver-
sit sono desumibili soprattutto dai valori di frequenza fondamentale (dora in poi F0 )
che dipendono dalle caratteristiche anatomofisiologiche dellindividuo quali et, peso,
sesso e sono direttamente legati alle caratteristiche delle pliche vocali quali elasticit,
grossezza e lunghezza.
La frequenza fondamentale la frequenza dellonda generata dalla glottide, comune-
mente identificata con la vibrazione delle pliche vocali, e viene calcolata con un apposito
algoritmo (Cepstrum) che consente di rilevare il suo valore anche in situazioni di segnale
disturbato. Poich le frequenze di un suono sono collegate tra di loro in modo armonico,
il valore di F0 corrisponde alla frequenza pi bassa tra le componenti di un suono definite
armoniche. Ogni armonica multiplo intero di F0 , pertanto la seconda armonica ha un
valore di 2F0, la terza di 3F0 e cos via. Il parlato , in questi termini, il risultato dellunione
di pi onde modificate dal nostro apparato fonatorio a formare onde complesse con F 0 e
armoniche proprie e variabili. Londa complessa che viene originata, infine, varia al variare
dellimpostazione che lapparato fonatorio assume nella produzione dei singoli foni.
La diversit maggiore tra uomo e donna sta nella differenza di altezza di F 0 (essa
varia orientativamente da 80 a 200 Hz per gli uomini e da 100 a 300 Hz per le donne).
Luomo medio ha una laringe pi larga, di conseguenza pi adatta a produrre suoni con
frequenza pi bassa rispetto alla donna media dotata di una laringe pi stretta. Nei bam-
bini questi valori sono ancora pi alti rispetto agli adulti22.
La conformazione fisica del nostro apparato fonatorio risulta essere determinante nella
morfologia del segnale vocale. I suoni linguistici che grazie ad esso vengono realizzati,
vengono comunemente divisi in due classi: vocali, ovvero suoni prodotti senza che via sia
frapposizione di ostacoli al flusso daria nellarea che compresa fra la glottide e il termi-
ne del percorso dellaria, caratterizzate dalla presenza di vibrazione delle pliche vocali; e
consonanti, ovvero suoni prodotti con lausilio della frapposizione di un ostacolo, parziale
o totale, al passaggio dellaria in un qualche punto del percorso al di sopra della glottide.
Le vocali risultano generate grazie allemissione costante del flusso sonoro prodotto a
livello glottidale. Poich i suoni generati con concomitante vibrazione delle pliche vocali
sono detti sonori, le vocali sono normalmente e per loro natura tutte sonore. Le vocali sono
in genere gli elementi pi frequenti nel parlato e possiedono unenergia intrinseca maggio-
re rispetto a tutti gli altri foni. Per questa ragione le vocali risentono meno delle alterazioni
e delle influenze indotte dal rumore. La loro differenziazione nella lingua parlata avviene
sulla base di valori acustici detti valori formantici che sono strettamente connessi alla di-
mensione delle cavit sopraglottidali che fungono da casse di risonanza. Le vocali possie-
dono, quindi, una tipica struttura spettrale caratterizzata dalla presenza di formanti. Come
pi volte detto, i suoni prodotti dal nostro apparato fonatorio sono caratterizzati dallavere
una determinata F0 che domina su una serie di armoniche. Le formanti sono, perci, dei
rafforzamenti di energia di alcune armoniche in un determinato punto dello spettro. Questi
picchi di energia corrispondono ai punti di maggiore annerimento sul tracciato sonografico
(vedi Figura 5.5 pi sopra riportata) o ai picchi dellinviluppo spettrale (vedi Figura 5.9).
Le formanti non coincidono necessariamente con unarmonica23. Una formante pu,
infatti, contenere o dominare su pi di unarmonica. Ne consegue che in assenza di
armoniche da rinforzare non vi pu essere formante che, per essere considerata tale, ne-
cessita di una determinata banda formantica o di un insieme di armoniche da rinforzare24.
necessario sottolineare, inoltre, che la diversificazione delle vocali da un punto di
vista acusticopercettivo non dipende solo da una singola formante, ma dallinsieme di
Figura 5.9 Spettro con inviluppo spettrale delle prime cinque formanti di una vocale25
tutti i valori formantici e dalla configurazione spettrale degli stessi. Ovviamente i valori for-
mantici non sono sempre uguali, ma possono variare allinterno di un certo intervallo defini-
to area di esistenza vocalica. Per questo motivo, nonostante la variabilit dei valori forman-
tici, un ascoltatore sar comunque in grado di identificarle. La frequenza delle formanti26
differente dalla F 0 poich dipende strettamente dalle cavit dellapparato fonatorio, o meglio,
dalle cavit che stanno al di sopra della glottide. Le cavit soprastanti hanno quindi funzione
di filtri o di casse di risonanza che risuonano a determinate frequenze che, rafforzando una
serie di armoniche danno origine a quelle che qui sono state definite formanti.
Si tratta, in breve, di quella che nota come la teoria acustica di produzione della
parola attualmente e quasi universalmente riconosciuta, elaborata e sviluppata da Gun-
nar Fant (1960)27, che approssima la configurazione del condotto vocale a un condotto
acustico a simmetria radiale, asse rettilineo e sezione trasversa di area variabile: secondo
tale teoria le frequenze formantiche rappresentano una funzione del condotto vocale28.
Come gi detto, la differenziazione delle vocali viene operata sulla base dei valori formantici, dove F1
inversamente proporzionale allinnalzamento/abbassamento della lingua (pi la lingua alta, pi il
valore di F1 basso; analogamente, pi la lingua bassa, pi il valore di F1 alto); mentre F2 , al
contrario, direttamente proporzionale allavanzamento/arretramento della lingua (ci significa che,
pi la lingua anteriore, pi F2 alta, mentre pi la lingua posteriore, pi F2 bassa). Da quanto
detto sinora,
Figura 5.10 Schematizzazione del condotto vocale con relativa funzione darea secon-
do Fant (1960)29
disponendo dei valori di F1 e F2 , sar possibile individuare e definire le aree di
esistenza vocalica per ciascuna vocale. Solitamente, per classificare le vocali, si utilizzano
soltanto le prime tre formanti in quanto le altre formanti risultano essere troppo deboli, nella
maggior parte dei casi impossibili da visualizzare e misurabili solo in condizioni di
laboratorio.
Va inoltre ricordato che la produzione delle vocali, e quindi la loro composizione spettra-
le, viene fortemente influenzata dai foni che seguono o che precedono per il cosiddetto effetto
di coarticolazione, dando origine a quelle che vengono definite transizioni formantiche30.
Se una vocale viene definita come un suono risultante dal passaggio libero del flusso
dellaria attraverso le cavit orali, senza che vi sia attrito o impedimento, le consonanti
vengono generate grazie ad interruzioni localizzate di tale flusso. Una consonante viene
presentata come un suono che implica o un arresto (occlusione), che impedisce al flusso
dellaria di fuoriuscire (in tal caso si originano foni di tipo occlusivo), o una
costrizione di questo flusso tale da farne percepire una certa frizione (foni di tipo
fricativo). In base allimpedimento o al restringimento del passaggio del flusso daria,
che pu essere istan- taneo o completo, si determina il modo di articolazione della
consonante riconducibile alla disposizione degli articolatori mobili nella cavit orale.
Poich abbastanza facile percepire lavvicinarsi di un organo mobile ad uno fisso,
oppure il loro contrario, da un punto di vista qualitativo i suoni consonantici sono pi
facili da descrivere di quelli vocalici. Contrariamente alle vocali che sono state
definite come naturalmente sonore, le consonanti possono, invece, essere sia sonore
che sorde, a seconda che vi sia o meno vibrazione delle pliche vocali.
Nella fonetica articolatoria, la composizione dei suoni consonantici, come anche la
loro descrizione, viene indicata elencando il modo e il luogo di articolazione, rispettiva-
mente occlusivo, nasale, trill o polivibrante, tap o monovibrante, fricativo, fricativo late-
rale, approssimante, approssimante laterale e bilabiale, labiodentale, dentale, alveolare,
postalveolare, retroflesso, palatale, velare, uvulare, faringale, glottidale31.
A livello qualitativo le consonanti presentano sostanziali differenze dovute al loro
modo di articolazione, differenze riscontrabili e misurabili a livello acustico32.
Da un punto di vista articolatorio le occlusive sono caratterizzate da tre fasi ben di-
stinte che prendono il nome di catastasi, la fase in cui gli articolatori si preparano per il
raggiungimento del target articolatorio; tenuta, la fase di occlusione o di restringimento
del flusso daria; metastasi, la fase di rilascio e allontanamento repentino degli articola-
tori dal punto di occlusione. A livello acustico e spettroacustico la fase di catastasi non
produce alcun effetto udibile o visibile. Al contrario, invece, ci che comunemente viene
percepito il momento della metastasi che consiste in una vera e propria esplosione
prodotta dal rilascio degli articolatori e che a livello spettroacustico risulta caratterizzato
dalla presenza di bursts o spikes (striature verticali visibili sul sonogramma). In alcuni
casi, a livello spettroacustico, si pu anche rilevare, nel fono successivo a quello occlu-
sivo, un ritardo dellattacco dellattivit della laringe che viene indicato con il termine
VOT (Voice Onset Time, o ritardo dellattacco della sonorit)33. Si tratta di un fenome-
no (misurabile a livello temporale) contraddistinto dallassenza di quella che sul tracciato
sonografico viene definita barra di sonorit e che consente di distinguere a livello visivo di
ispezione dello stesso, foni sonori da foni sordi. Per quello che concerne lidentificazione
del luogo di articolazione delle occlusive sul tracciato sonografico ci si affida alle transizio-
ni formantiche degli elementi vocalici attigui. A seconda del luogo di articolazione del fono
occlusivo le transizioni formantiche (che rappresentano ladattamento della struttura delle
cavit orali) tenderanno verso un punto o un valore di frequenza ideale definito locus34.
Per quel che concerne le fricative bisogna distinguere tra sorde e sonore che a livello
spettroacustico producono effetti diversi. Nelle prime, le sorde, si ha un annerimento verti-
cale diffuso e continuo sul tracciato sonografico dato dalla frizione esercitata dagli artico-
latori mobili contro quelli fissi. in base allestensione della frequenza di tale rumore, che
varia a seconda del luogo di articolazione, che si distinguono i diversi foni di tipo fricativo.
Nel caso di foni fricativi sonori si ha, invece, oltre a quella che stata definita barra di so-
norit, una sostanziale riduzione degli effetti dellattrito con una conseguente ed evidente
riduzione di striature verticali sul sonogramma al posto delle quali si rileva, invece, una
struttura formantica ben definita.
Le affricate possono, molto sommariamente, essere descritte come lunione di un fono
occlusivo e di un fono fricativo avente, per ciascuna delle sue componenti, le caratteristiche
che sino ad ora sono state esaminate.
Le nasali, invece, presentano una struttura formantica molto simile a quella delle vo-
cali e sono caratterizzate dallavere una intensit pi debole rispetto ad esse. La F1 dei foni
nasali tende generalmente ad avere valori di frequenza alquanto fissi e stabili per ciascun
parlatore (per effetto dellabbassamento del velo si ha una parziale fuoriuscita dellaria
attraverso le cavit nasali che non sono modificabili), mentre la F 2 presenta variazioni a
seconda del luogo di articolazione del nesso nasale prodotto.
Le vibranti realizzate con repentine e ripetute interruzioni del flusso daria egressivo,
si presentano costituite, a livello spettroacustico, dalla presenza di una barra di sonorit a
cui si sovrappongono una serie di brevi fasi di silenzio (date dallocclusione degli articola-
tori) seguite da brevissimi spikes (dati dal rilascio degli articolatori).
Per concludere, le consonanti laterali vengono realizzate attraverso una parziale chiusu-
ra del flusso daria e presentano per questa ragione una struttura formantica molto simile a
quella delle vocali, la cui intensit si trova a cavallo tra queste ultime e le consonanti nasali.
Le caratteristiche qui presentate sono chiaramente osservabili nel parlato iperartico-
lato (prodotto in laboratorio). Tuttavia, anche per le consonati, come per le vocali, si ve-
rificano fenomeni di coarticolazione che ne complicano le indagini nel parlato continuo.
5.4.1.1. Campionamento
5.4.1.2. Quantizzazione
Il formato audio in diretta relazione ed strettamente collegato a ci che sin qui ab-
biamo definito come codifica digitale di un segnale audio. Con formato ci si riferisce,
infatti, al modo di disporre i dati e, per estensione, di codificarli. Esistono varie tipologie
di formato, le pi importanti sono due:
formati che contengono effettivamente laudio sotto forma di onda sonora cam-
pionata che viene riprodotta mediante un convertitore D/A e un semplice pro-
gramma in grado di inviare i campioni al convertitore (la qualit della riprodu-
zione, quindi, dipende solo dal sistema di conversione);
formati che non contengono laudio, ma solo i dati di controllo per crearlo. Il
suono vero e proprio viene, poi, creato in locale da un sintetizzatore esterno o
residente sulla scheda audio, oppure da un sintetizzatore virtuale (emulato via
software). Di questa categoria fanno parte, ormai, solo i MIDI file.
In alcuni casi tutte le informazioni sul formato sono contenute nel file audio mede-
simo, ed quindi possibile interpretare correttamente tutto ci che serve; per il modo
con cui queste informazioni sono memorizzate non univoco e si possono avere errori
in lettura, o addirittura il file audio potrebbe essere scritto erroneamente.
In altri casi, invece, tali informazioni sono contenute nella documentazione associata, ed
demandato esplicitamente alloperatore la scelta del formato: non ci pu essere un control-
lo software sulla corretta lettura (si va ad orecchio, ma ci pone evidenti limiti). Lascolto,
nel caso di problemi di formato, pu solamente darci indicazioni sulla corretta interpretazio-
ne. Se si hanno alcune indicazioni di formato e se provandole esaustivamente si ha una sola
soluzione corretta allascolto ci si pu fidare. Nel caso siano ignoti tutti i valori del formato
non possibile con il solo ascolto risalire ad una corretta interpretazione del formato.
Tralasciamo in questa sede il formato *.wav che rappresenta uno standard internazio-
nale e a cui abbiamo gi dedicato ampio spazio (si rammenti a tal proposito quanto detto
anche per la codifica PCM e ALaw), per dare pi spazio ad altri tipi di formati audio pi
diffusi come lMp3.
Sul finire degli anni Ottanta lISO (International Organization for Standardization)
e lIEC (International Electrotechnical Commission) si misero al lavoro con lo scopo di
sviluppare gli standard per la riproduzione, la codifica e lelaborazione digitale di audio
e video. Furono 25 i membri provenienti da entrambe le organizzazioni che si riunirono
sotto il nome di MPEG (Moving Picture Experts Groups) e diedero vita, aglinizi degli
anni 90, al primo di questi standard, ossia lMPEG. Lo standard MPEG si divide in tre
modalit operative: MPEG 1 Layer I (il termine Layer indica il livello di compressione);
MPEG 1 Layer II; MPEG 1 Layer III (questultimo altro non che il noto formato Mp3).
Questultima tecnologia legata allMp3 si avvale di due importanti caratteristiche:
Bit Rate: ossia la quantit di bit per campione. Maggiore il Bit Rate, migliore
sar la qualit. Solitamente negli encoder50 questo parametro viene impostato a
128 kbps (questa compressione occupa circa 1 MB/min);
Tag ID3: importante soprattutto in ambito musicale, si tratta di una tecnologia
attraverso cui il file Mp3 in grado di contenere, oltre alla musica, informazioni
accessorie che riguardano il nome dellautore del brano, lalbum di cui fa parte e
la data di pubblicazione.
I registratori che normalmente venivano utilizzati dalle Procure, erano del tipo
UHER modello RT2000 (introdotto nel 1988) e RT4000, delle apparecchiature che re-
gistrano su bobina e che ora non sono pi in uso (o quasi)56. Queste apparecchiature
erano dotate di un dispositivo per lattivazione automatica della registrazione (chiamato
Trevisan) e presentavano linconveniente di scrivere sul nastro, nella banda di frequen-
za di 2138 Hz, tutte le informazioni relative alla telefonata intercettata (ora, giorno e
anno, numero di telefono selezionato, numero di progressivo ecc.). In molti casi era di-
sponibile uno scontrino cartaceo (denominato anche striscetta) su cui venivano stam-
pate le medesime informazioni impresse nella banda di frequenza sopra menzionata e
che spesso, ma non sempre, accompagnano la bobina. Uno degli inconvenienti legati a
questi scontrini consiste nel fatto che gli stessi siano costituiti da un certo tipo di carta
(carta termica): le informazioni, incise sulla carta con un procedimento di trasferimento
termico (annerimento della patina superiore della carta), col passare del tempo svani-
scono diventando illeggibili57. Questa striscetta di carta rappresenta di fatto un secon-
do brogliaccio58 e le informazioni riportate su di esso sono costituite da riferimenti
temporali (ora, giorno, mese e anno di registrazione), numero di telefono in entrata e in
uscita sulla linea intercettata, numero progressivo della conversazione, numero di pista o
traccia e numero di giri della bobina allinizio e alla fine della registrazione.
Le bobine sono dei nastri magnetici avvolti su una bobina aperta e possono essere di
diversi tipi e dimensioni con caratteristiche e composizioni chimico/fisiche assai diffe-
renti. Per quello che attiene alle intercettazioni veniva usato un nastro magnetico largo
1/4 di pollice59 avvolto su una bobina aperta del diametro di 5 pollici60. Normalmente la
velocit di scorrimento del nastro era fissata a 2.38 cm/s per le intercettazioni di tipo te-
lefonico: a tale velocit possibile registrare su una bobina fino a 5 ore di conversazioni
telefoniche. Per le intercettazioni di tipo ambientale, invece, era pi comune una velocit
di scorrimento del nastro pari a 4.76 cm/s per un totale di massimo 2 ore e mezzo di re-
gistrazione. La differenza di velocit dettata dalla necessit di economizzare e quindi
registrare pi conversazioni possibili sullo stesso nastro: poich la qualit delle con-
versazioni telefoniche su rete fissa di norma migliore (assenza di disturbi e di rumori
ambientali), ammissibile una minore precisione di registrazione rispetto alle ambientali
che sono intrinsecamente pi degradate dalla presenza di molteplici fonti di rumore61.
In questa fase storica delle intercettazioni veniva registrato su doppia bobina, la
registrazione veniva cio effettuata in parallelo e contemporaneamente su due differenti
registratori aventi le medesime caratteristiche. Le bobine, denominate bobina AG (desti-
nata allautorit giudiziaria) che era copia della bobina denominata originale PG (polizia
giudiziaria), nonostante la dicitura (bobina AG identificata come copia della bobina ori-
ginale denominata PG) erano di fatto due originali a tutti gli effetti. Lunica
differenza tra le due bobine consiste nel numero di piste di registrazione utilizzate:
durante le ope- razioni di intercettazione era possibile che nei momenti in cui non
arrivavano conversa- zioni loperatore effettuasse un riascolto di qualche conversazione
di maggiore interesse. Poteva accadere, tuttavia, che durante il riascolto
sopraggiungesse una chiamata: non potendo al momento trovare il punto dellultima
conversazione registrata (bisognava far
scorrere la bobina fino al punto esatto) loperatore registrava la conversazione su unaltra
pista: questa era appunto la bobina PG, mentre la bobina AG registrava le conversazioni
una di seguito allaltra.
5.5.1.2. La musicassetta
IEC1 Ossido di ferro (Normal), licenziatario BASF, con una banda passante
di 300 8300 Hz;
IEC2 Biossido di cromo / cromo equivalenti (High), licenziatario BASF, con
una banda passante di 300 14300 Hz;
IEC3 Doppio strato ferro cromo, licenziatario SONY, con una banda passante
di 300 14300 Hz;
IEC4 Metal, licenziatario TDK, con una banda passante di 300 14300 Hz;
5.5.1.3. La microcassetta
Rappresenta una versione in miniatura della musicassetta con una larghezza del nastro
di 3.175 mm, ma con dimensioni complessive di ca. un quarto pi ridotte (50 mm x 32 mm
x 7 mm). Si rilevano per questa tipologia di supporto due velocit di scorrimento del nastro:
una velocit di ca. 2.4 cm/s (anche nota come SP, short play) e laltra di ca. 1.2 cm/s (LP,
long play). I supporti sono contrassegnati anche in questo caso da sigle come per la musicas-
setta, questa volta con laggiunta di una lettera m di microcassetta: MC15, MC30, MC60,
MC90. I registratori di questi supporti sono, per questioni legate alle dimensioni molto ri-
dotte, privi di capstan, un sistema di trasporto del nastro che ne regola lo scorrimento e la
tensione. Per questa ragione nella riproduzione della registrazione sono udibili fluttuazioni
nel segnale dovute allassenza di tale elemento presente, invece, nelle compact cassette. Il
nastro ha una risposta in frequenza molto ridotta con una banda passante che va da 300 a
4000 Hz (nel caso di registratori professionali e microcassette di ottima qualit non si su-
perano comunque i 250 6300 Hz). Spesso la registrazione effettuata presenta effetti legati
alla presenza del sistema attivazione vocale VOR (Voice Operated Recording), che arresta il
nastro ogni qualvolta il segnale in ingresso scende al di sotto di una certa soglia di intensit
(che nei registratori pi evoluti pu essere preimpostata) per economizzare sulla durata del
nastro. La registrazione che ne scaturisce ha caratteristiche qualitative di basso livello anche
in virt del fatto che il microfono risulta essere incorporato nel registratore con la possibilit
di settarne i parametri solo in apparecchiature di profilo medioalto65.
il supporto pi utilizzato nel caso di intercettazioni di tipo amatoriale e comun-
que fuori dagli schemi classici delle intercettazioni: dato questultimo aspetto non da
escludere che spesso e volentieri supporti di questo tipo rientrino per ragioni che non ci
interessano come elemento di prova in un procedimento giudiziario diventando possibile
oggetto di incarico di consulenza66.
Anche nelle microcassette presente una linguetta di protezione alla base del sup-
porto che se rimossa ne impedisce la sovrascrittura.
Accanto alla possibilit di poter sempre e comunque leggere i supporti di tipo ana-
logico su un qualsiasi altro registratore/lettore assimilabile a quello che lo ha genera-
to67, i supporti magnetici possono purtroppo subire processi di smagnetizzazione a causa
dellinfluenza di magneti, antenne, cellulari, cavi elettrici non schermati ed altri
agenti con conseguente perdita in termini di qualit di registrazione/riproduzione.
I nastri hanno uno spessore tale da renderli molto fragili e sono per questo soggetti ad al-
terazioni fisiche che possono generare distorsione e irregolarit di trascinamento del nastro.
Nonostante le tecnologie sempre pi evolute, il problema del rumore di fondo (fru-
scio), dovuto soprattutto al trascinamento del nastro, non mai stato del tutto eliminato
senza incidere sulla qualit della riproduzione.
Rispetto ai sistemi digitali i supporti analogici hanno limiti di risposta in frequenza
dettati dalla composizione chimica del nastro utilizzato.
.
I supporti richiedono inoltre particolari condizioni di conservazione: temono le con-
dizioni ambientali (se troppo umido il nastro pu ammuffire) e soprattutto il calore e i
raggi del sole (il nastro si pu incollare rompendosi alla prima riproduzione successiva).
Occorre inoltre molta attenzione e abilit nel maneggiare i supporti per non danneggiar-
li68. Altro elemento da non trascurare il rischio di sovrascriverli (nel caso delle cassette
e delle microcassette possibile prevenire questa evenienza rompendo lapposita lin-
guetta di sicurezza alla base del supporto stesso).
A differenza dei supporti ottici (CD e DVD) anche se si graffiano, o se non vengono
conservati in condizioni ottimali, entro certi limiti la registrazione su di essi conservata
resta ancora utilizzabile dopo molti anni.
Infine, se il nastro si rompe o si spezza sempre, o comunque nella maggior parte dei
casi, possibile ripararlo con apposite tecniche di ripristino recuperando la registrazione
con la perdita della sola porzione tagliata o sovrapposta per incollare e ristabilire lo scor-
rimento e quindi la funzionalit del nastro.
Sebbene si tratti di un supporto a nastro molto simile alla musicassetta (che as-
somiglia per la sua forma ad una videocassetta VHS in miniatura) e quindi di tipo
analogico, la registrazione viene convertita e incisa direttamente in digitale: ad ogni
riproduzione viene quindi riprodotto un clone (una versione identica) del segnale ac-
quisito. Le cassette DAT utilizzano un nastro largo 3.81 mm racchiuso in un involucro
dalle dimensioni di 72.5 mm x 53.5 mm x 10.34 mm e possono registrare fino a 2 ore
di audio che, rallentando la velocit e diminuendo la frequenza di campionamento,
arrivano fino a 6 ore. Ci sono 3 modalit di registrazione e quindi di riproduzione:
48000 Hz 16 bit e 44100 Hz 16 bit in modalit SP (short play) con una velocit di
scorrimento del nastro di 8.15 mm/s, e 32000 Hz 16 bit in LP (long play) ad una ve-
locit di 4.075 mm/s.
Il DAT consente, inoltre, di marchiare linizio di ogni brano tramite apposite start
ID (dei veri e propri marker): ci consente, durante la riproduzione, di spostarsi da una
parte allaltra del nastro posizionandosi esattamente allinizio di ciascun brano (cosa
impossibile con gli altri supporti di tipo analogico).
Anche per questa tipologia di supporto presente una linguetta di sicurezza,
come quella presente negli oramai desueti floppy disc da 3.5 pollici, che permette di
proteggere il supporto da sovrascrittura accidentale.
5.5.2.4. Il MiniDisc
Uno dei maggiori pregi del supporto digitale consiste nella possibilit di scambiare
dati anche tra utenti a grande distanza e in modo abbastanza rapido. Non si rendono
necessarie operazioni di digitalizzazione in quanto il segnale gi in formato digitale.
Garantiscono una elevata efficienza a bassi costi con conseguente risparmio sullo spazio
per larchiviazione.
Analogamente, per, la rapida evoluzione della tecnologia porta in tempi ridotti
allobsolescenza dellhardware, dei formati digitali e dei supporti. Uno dei maggiori
problemi riguarda inoltre il formato di registrazione che influenza frequenza di campio-
namento (sample rate) e bit di quantizzazione (bit depth).
Per concludere, va ricordato che il file non subisce alterazioni dovute allinvecchia-
mento. Su questultimo aspetto ci sono per pareri discordanti che attribuiscono ai sup-
porti digitali/ottici una bassa aspettativa di vita oltre al fatto che anche loro temono gli
urti, i campi magnetici e sono spesso preda di virus informatici!
Prima di orientarci ad una brevissima descrizione delle pi comuni tecniche per gli
interventi di filtraggio di segnali audio, a questo punto necessario introdurre alcune
nozioni teoriche sul concetto di filtro.
Un filtro un dispositivo che opera una trasformazione sulla struttura spettrale di un
segnale, trasmettendone o amplificandone una parte ed attenuandone o eliminandone al-
tre. Grazie a questa propriet, esso ha la capacit di agire sullampiezza delle componenti
di un segnale lasciandone inalterata la frequenza106.
Le modalit tipiche per trasformare un segnale con unoperazione di filtraggio sono
essenzialmente quattro:
Le tecniche qui descritte sono nella maggior parte dei casi disponibili in quasi tutti
i software di audio editing sotto forma di plug-in. Descriveremo solo quelli pi comuni
che se utilizzati senza la pretesa di fare miracoli, possono sicuramente migliorare e age-
volare lascolto di una registrazione sonora.
Durante le fasi di ascolto approfondito di una conversazione pu accadere che si percepi-
sca la presenza di porzioni di segnale con maggiore o minore intensit. Il ricorso ad un filtro
di normalization in questi casi pu essere di aiuto per portare e livellare lintensit di tutto il
segnale ad una soglia di riferimento impostata dalloperatore che, come risultato finale del
procedimento, d allascoltatore la sensazione, definita anche loudness, di ascoltare un segna-
le sempre con la stessa intensit. Il processo di normalizzazione, quindi, non fa altro che nor-
malizzare lintensit di un segnale sonoro portandolo ad un livello prestabilito e per questo
non ha carattere selettivo: aumenta, infatti, anche lintensit di eventuali rumori di fondo e ci
indifferentemente dalla distanza del microfono che ha captato il segnale. Se tale operazione
da un lato pu agevolare e migliorare lascolto di maggiori porzioni di segnale, dallaltro ha
linconveniente di rimuovere quelle che sono le variazioni di intensit nel segnale dovute alla
maggiore o minore distanza della sorgente sonora dal punto di captazione provocando un
appiattimento del segnale e la perdita della spazialit o quel poco che come abbiamo visto ne
rimane. Lapplicazione di questo filtro in modo indiscriminato con limpostazione di valori
elevati pu causare saturazione della dinamica del segnale, oltre che costituire un notevole
rischio per il nostro udito che verrebbe esposto segnali troppo intensi108.
Unalternativa valida al processo di normalizzazione , invece, laumento della di-
namica. In questo caso il filtro, spesso impostabile attraverso uninterfaccia grafica, evi-
denzia ed accentua la differenza tra il segnale periodico ed il segnale aperiodico,
aumen- tando lintensit del primo e riducendo quella del secondo. Rispetto alla
normalizzazione quella dellaumento della dinamica pu essere considerata un
operazione di tipo seletti- vo in quanto accentua la differenza tra due soglie di intensit
individuate dalloperatore: tutto ci che sta sopra o sotto una certa soglia viene affetto
dal filtro.
Un altro plug-in spesso disponibile nei software di audio editing, creato prevalen-
temente per il filtraggio dei dischi in vinile il de-click col quale vengono rimossi quei
fastidiosi effetti, dovuti a rumori di tipo impulsivo e di brevissima durata, udibili nella
riproduzione del disco e causati da polvere o righe nei solchi del disco in vinile su cui
scorre la testina del giradischi producendo graffi e bruschi scatti109. Questa tecnica di
filtraggio interviene sul segnale nel dominio del tempo. Accenniamo in questa sede a
questo tipo di plug-in in quanto spesso attraverso la sua applicazione, entro certi limiti,
possibile ridurre anche i disturbi introdotti dal fruscio del vento sulla membrana del
microfono che capta la registrazione, come ad esempio in una intercettazione ambientale
in macchina in cui uno o pi finestrini aperti fanno s che laria, specie a veicolo in movi-
mento, colpisca la membrana microfonica della microspia. Questo tipo di intervento ha il
vantaggio di rendere la registrazione con determinati disturbi meno fastidiosa allascolto.
Si badi che le tecniche sino ad ora descritte non operano trasformazioni o modifiche
sul contenuto in frequenza del segnale.
Lintervento nel dominio delle frequenze attenuando o sottraendo determinate com-
ponenti spettrali a tutto il segnale o a porzioni di esso avviene attraverso particolari
processi di filtraggio detti di Noise Reduction. Nella maggior parte dei software di au-
dio editing possibile selezionare unimpronta o un calco del rumore da una piccola
porzione del segnale per poi estenderla con un procedimento di riduzione di intensit o
di sottrazione delle frequenze individuate ad una parte o a tutto il segnale di nostro inte-
resse. I risultati di questo tipo di filtraggio sono pressoch nulli se non addirittura dan-
nosi per il segnale se il rumore da rimuovere non ha un contenuto spettrale ben definito
e non si mantiene costante nel tempo. Anche in questo caso, perci, impostazioni troppo
accentuate, associate a tipi di rumore altamente variabili sia nel dominio del tempo
che nel dominio della frequenza, invece che andare a vantaggio di una percezione pi
naturale del segnale possono introdurre alterazioni e artifici sgradevoli chiaramente udi-
bili: interventi di de-noising troppo drastici risultano in segnali che vengono percepiti
come metallici o robotici in quanto insieme alle frequenze del rumore, specie se
questo non , come gi detto, stazionario ma esteso su tutta la gamma delle frequenze
del segnale, vengono intaccate anche le frequenze utili, ovvero quelle frequenze che
interessano la gamma di suoni che caratterizza il parlato.
possibile anche creare dei filtri personalizzati specificando la conformazione del
filtro da usare sia in termini di composizione spettrale sia in termini di intensit di cia-
scuna componente spettrale. uno di questi il filtro detto di de-hum che elimina il conte-
nuto in frequenza di segnali di tipo armonico come ad esempio il ronzio introdotto nella
registrazione dalla corrente elettrica utilizzata come alimentazione delle apparecchiature
adoperate che, di norma, si situa attorno ai 50 Hz.
Infine, pu accadere che durante lascolto di un segnale ci si accorga che lo stesso
risulta essere distorto per un effetto detto di saturazione. Un segnale sonoro va incontro
a saturazione, risultando quindi percettivamente distorto, quando il segnale in entrata
(input) supera e va oltre una determinata soglia che corrisponde allampiezza massima
consentita e preimpostata sul dispositivo di captazione. Ogni qualvolta questa soglia110
viene superata, il segnale in ingresso viene registrato in maniera distorta e pertanto non
lineare. Il risultato, oltre che essere udibile, perfettamente visibile dalla forma donda
(oscillogramma) del segnale acquisito: ispezionando il grafico riportato in Figura 5.11
si noter, infatti, che londa del segnale risulta letteralmente tagliata in corrispondenza
dellampiezza massima consentita111. Questo tipo di distorsione noto anche con il te-
mine di clipping.
Il clipping produce i suoi danni soprattutto sulla qualit sonora del segnale. Nei casi
in ci si verifica, e qualora il clipping non sia cos elevato, pu risultare utile migliorare
il segnale in oggetto con unoperazione detta di de-clipping. Applicando un processo di
de-clipping specifici algoritmi di calcolo individuano le porzioni di segnale saturato e
sulla base del contenuto frequenziale della porzione individuata la parte saturata viene
sostituita con unaltra ricostruita.
Figura 5.11: Esempio di clipping in unonda di tipo sinusoidale (un caso estremo)
Note al capitolo Aspetti tecnici sulle intercettazioni: analisi dei segnali e dei
supporti
1
Cfr. Aristotele (2002), Problemi, Milano, Bompiani, pag. 185.
2
A titolo esemplificativo possiamo pensare ad unaltalena che oscilla in avanti e in dietro, oppure ancora ad un
pendolo appeso ad una estremit che se urtato o sollecitato da una forza deformante inizia ad oscillare per
ritornare al suo punto di partenza non appena la forza che ha innescato il movimento si sar dispersa. La
deformazione che mette in moto un oggetto o un mezzo elastico direttamente proporzionale alla forza
deformante.
3
Questa una delle ragioni che, come vedremo pi avanti, rendono molto delicate e complesse le
operazioni di filtraggio: alle caratteristiche acustiche del segnale di interesse per il trascrittore,
costituito prevalentemente dai suoni della parola, si aggiungono una serie di fenomeni e disturbi le cui
caratteristiche si sommano a quelle del segnale di interesse del trascrittore o, per usare un termine
pi esemplificativo, letteralmente si spalmano su di esse (la citazione del prof. Luciano Romito).
4
Tuttavia, come avremo modo di vedere pi avanti, anche alcuni suoni della parola (le consonanti) hanno
caratteristiche di aperiodicit.
5
Le onde di questo tipo vengono prodotte solo in laboratorio e si ripetono teoricamente allinfinito.
6
Ad ampiezze maggiori corrispondono, a livello percettivo, volumi pi alti.
7
Il decibel si pu considerare una misura relativa. Il bel non una quantit di suono; una relazione tra due suoni:
1 bel = rapporto di 10 a 1 tra due intensit (1 dB = 1/10 Bel). Ci sono per certi casi in cui tale
misura si pu immaginare assoluta. Questo avviene quando al denominatore si pone una misura
stabilita per convenzione internazionale. Un esempio di misura assoluta in decibel quella
dellintensit sonora (W/m2) espressa, per convenzione, in riferimento alla soglia di udibilit (0 dB):
parliamo in tal caso di Sound Pressure Level (SPL) o livello di pressione sonora.
8
Normalmente lunit di tempo adottata un secondo (1 s).
9
A livello percettivo la frequenza ci fornisce la sensazione di altezza o gravit di suono (come ad es. la fine
sinistra e la fine destra su una tastiera che produce suoni bassi a sinistra e suoni alti o acuti a destra). I
suoni percepiti dalluomo comprendono frequenze fra i 20 e i 20000 Hz (o 20 kHz). Oltre questi limiti i
suoni esistono ma non vengono percepiti dal nostro sistema uditivo: i segnali sotto i 20 Hz
vengono detti infrasuoni, mentre quelli sopra i 20 kHz vengono detti ultrasuoni.
10
Ma lo stesso vale per due punti identici e consecutivi allinterno di uno stesso ciclo.
11
Poich unonda sonora si propaga ad una velocit finita che dipende dal mezzo in cui si propaga, un soggetto
che si trova ad una certa distanza percepir il suono prodotto da una sorgente sonora in funzione
della sua frequenza: il ritardo con cui il suono verr percepito dipende dalla sua frequenza in quanto la
lunghezza donda inversamente proporzionale ad essa. Ad esempio, nel caso di un suono con
frequenza elevata (che quindi vibra con maggiore velocit) la lunghezza donda sar ridotta e il suono
verr percepito prima rispetto ad un suono avente frequenza inferiore (che vibra cio ad una velocit
minore) e la cui lunghezza donda maggiore. Semplificando ulteriormente, possiamo dire che i suoni acuti
viaggiano in un mezzo con velocit maggiori rispetto ai suoni gravi.
12
Il parametro percettivo che meglio corrisponde alla rappresentazione grafica della forma donda il timbro.
13
Definito anche spettrogramma o spettro a righe.
14
Prendendo ad esempio gli strumenti musicali, va fatto notare come nessuno strumento emetta una singola
frequenza. Quando uno strumento emette, per esempio, un la, corrispondente a 440 Hz, emette in realt
molte altre frequenze multiple della frequenza fondamentale, note come armoniche (880, 1320, e 1760
Hz ad esempio). proprio la diversa distribuzione di queste frequenze, nonch la loro differente intensit,
che distingue il la prodotto da un violino da quello prodotto da un piano. La frequenza centrale, cio
larmonica fondamentale, sia per il violino che per il piano sempre 440 Hz. La stessa cosa accade per
le vocali su cui ritorneremo pi approfonditamente nel prosieguo: la diversificazione delle vocali da un
punto di vista acustico-percettivo non dipende solo da una singola formante, ma dallinsieme di tutti i
valori formantici e dalla configurazione spettrale degli stessi. Mentre le armoniche sono per
definizione multipli interi della frequenza fondamentale, le formanti lo sono raramente, ovvero solo in
quei casi in cui il rafforzamento avviene in corrispondenza di una singola armonica. Per chiarezza,
anticipiamo che la frequenza delle formanti differente dalla F poich dipende strettamente dalle cavit
dellapparato fonatorio, o meglio, dalle cavit che stanno al di sopra della glottide. Le cavit soprastanti la
glottide hanno quindi funzione di filtri o di casse di risonanza che risuonano a determinate frequenze che,
rafforzando una serie di armoniche danno origine a quelle che nel parlato vengono definite formanti.
15
Con il sonogramma infatti possibile studiare levoluzione delle frequenze nel tempo, mentre con
loscillogramma lenergia.
16
Non a caso, tali organi sono comuni anche ad altri animali, solo che gli esseri umani, nel corso della
loro evoluzione rispetto ad altre specie, hanno impiegato vecchie e preesistenti strutture per
assolvere ad una nuova funzione.
17
Il termine egressivo viene utilizzato in contrapposizione al flusso daria detto ingressivo la cui direzione
va, invece, dallesterno verso linterno.
18
Figura tratta ed adattata da http://www.yorku.ca/earmstro/journey/larynx.html
19
La frequenza con cui queste vibrano misurabile e viene definita frequenza fondamentale.
20
Figura adattata da Mioni (1986), pag. 71. La parte contrassegnata da colore scuro rappresenta il canale di
passaggio del flusso daria proveniente dal meccanismo pneumatico.
21
Per questa ragione queste strutture vengono a pieno titolo considerate come dei filtri o dei risuonatori.
22
Per maggiori approfondimenti si rimanda a Whiteside (1996), Helfrich (1979), Braun (1995) e N Chasaide,
Gobl (1997).
23
Solo nel caso di un tono puro la frequenza formante coincide con larmonica principale.
24
Mentre le armoniche sono per definizione multipli interi della frequenza fondamentale, le formanti lo sono
raramente, ovvero solo in quei casi in cui il rafforzamento avviene in corrispondenza di una singola
armonica.
25
Figura tratta ed adattata da Ferrero et al. (1979).
26
Generalmente indicata con F1 , F2 , F3 e cosi via.
27
La teoria proposta da Fant anche nota come teoria sorgente-filtro in quanto la parola vista come il
prodotto delle modifiche apportate al segnale - relativamente indifferenziato - emesso da una
sorgente di suono, ad opera di un determinato filtro acustico complesso. Cfr. Ferrero et al.
(1979), pag. 69.
28
Cfr. ibidem, pp. 6974. Le donne hanno generalmente un tratto vocale meno esteso, di conseguenza frequenze
formantiche pi alte. Vedi a questo proposito Diehl, Lindblom, Hoemeke, Fahey (1996).
29
Fonte: http://hyperphysics.phy.astr.gsu.edu/HBASE/music/fant.html (data consultazione: 18 novembre
2009).
30
Le transizioni formantiche consistono in deviazioni nella struttura formantica visibili su un tracciato
sonografico e rappresentano la variazione della conformazione del condotto vocale dovuta al movimento
degli articolatori mobili.
31
Per una descrizione completa e pi dettagliata di tali elementi consonantici, sia livello articolatorio
che acustico, si veda Albano Leoni, F., Maturi, P. (2002), Manuale di Fonetica, Roma, Carocci
Editore. A livello grafico tutti i suoni del linguaggio vengono rappresentati con un apposito alfabeto,
lInternational Phonetic Alphabet (IPA): lIPA un alfabeto fonetico internazionale utilizzato per la
trascrizione fonetica che, per convenzione, consente di attribuire in modo univoco uno specifico segno
grafico a ciascun suono del linguaggio, risolvendo quelle che sono le differenze tra la comune grafia e i
suoni concretamente prodotti.
32
Anche in questo caso, come gi segnalato altrove in questo paragrafo, verranno di seguito forniti soltanto alcuni
accenni agli elementi pi salienti e generali utili a comprendere e a caratterizzare alcune differenze
legate alla produzione dei diversi foni consonantici. Per questa ragione, data la superficialit e
lincompletezza delle informazioni fornite, per una trattazione pi completa (che in questa sede si
renderebbe assai prolissa) si rimanda ai pi diffusi manuali didattici attualmente disponibili.
33
Quello del VOT un elemento molto diffuso e presente soprattutto in lingue come linglese e il tedesco con
caratteristiche di sistematicit. Nel tedesco pu accadere, infatti, che in una sequenza che inizia per
consonante sonora leffetto del VOT faccia s che lattivit laringea non inizi al costituirsi
dellostacolo (catastasi), ma inizi con ritardo provocando una parziale o totale desonorizzazione
della consonante stessa: per esempio nella parola Bein gamba [b en].
34
Per maggiori dettagli e approfondimenti si veda Ferrero, F. E., Magno Caldognetto, E. (1986), Elementi di
fonetica acustica, in Trattato di Foniatria e Logopedia, (L. Croatto, a cura di), Padova, La Garangola,
pp. 172178.
35
A titolo esemplificativo possiamo pensare alle lancette di un orologio in cui le stesse per passare da un punto
allaltro del quadrante percorrono in modo continuo lo spazio che le separa.
36
La mancata osservazione di questo teorema con un sottocampionamento del segnale analogico nel
dominio del tempo comporta, nel dominio delle frequenze, la produzione di frequenze spurie non proprie
del segnale originario (alias, da qui il fenomeno detto di aliasing).
37
Ad esempio, per ricostruire perfettamente un segnale audio con frequenze tra 0 e 22050 Hz, necessario
effettuare un campionamento a 44100 Hz (ovvero rilevare 44100 campioni al secondo); ci che si fa
per digitalizzare musica con estrema fedelt.
38
Mentre noi umani contiamo con 10 dita, il computer ne usa solo 2.
39
La codifica dei segnali intercettati su linea telefonica fissa a commutazione di circuito avviene proprio con
codifica ALaw basata su PCM con una frequenza di campionamento pari a 8 kHz e 8 bit di
quantizzazione. Esiste anche un altro tipo di codifica molto simile al metodo ALaw, la codifica
muLaw, diffusa negli USA. Entrambe sono anche note come codifica G.711 che rappresenta uno
standard ITU (International Telecommunication Union), ovvero il settore della Unione
Internazionale delle Telecomunicazioni che regola e fornisce raccomandazioni sulle telecomunicazioni
telefoniche e telegrafiche. Fino al 1992 lITU era noto come CCITT (Comit consultatif
international tlphonique et tlgraphique) sigla che caratterizza anche la codifica dei file audio: ad
es. CCITT ALaw.
40
Registrare 60 secondi di audio stereofonico richiede quindi 10584000 bytes (pari a 10.584 MB) di spazio
disponibile su un supporto di registrazione (hard disk o CDROM).
41
Integrated Services Digital Network, o ISDN, lattuale rete fissa di telecomunicazione che trasmette in
formato digitale e che fornisce supporto a servizi di voce e di trasferimento dati. La rete fissa di tipo
analogico tradizionale era invece chiamata Public Switched Telephone Network (PSTN).
42
possibile quindi che vengano eliminate componenti spettrali che, essendo troppo vicine a suoni forti,
non risultano udibili allorecchio umano.
43
Un esempio oramai ampiamente diffuso quello dellMp3 a cui accenneremo pi avanti.
44
http://www.etsi.org
45
http://www.iso.org
46
http://www.ansi.org
47
http://www.aes.org
48
http://www.itu.int
49
Le aziende operanti nel settore delle intercettazioni nel fornire gli impianti forniscono anche i software per la
gestione dei bersagli (termine tecnico che indica le utenze sottoposte a intercettazione) aventi per formati,
ovvero estensione dei file, di tipo chiuso e proprietario.
50
Gli encoder sono i programmi che eseguono questo tipo di codifica e sono denominati Mp3 encoder.
51
Ad esempio un segnale sonoro di 5 minuti che in formato *.wav occupa circa 50 MB pu essere ridotto a soli 4
MB.
52
Il formato comunque pi diffuso il formato Mp3. Per quanto riguarda la possibilit di leggere formati
proprietari cambiando lestensione troviamo estensioni come MCR (della ditta AREA S.p.A.) che di
fatto contiene il segnale audio codificato in formato ALaw.
53
Purtroppo in molti casi, come vedremo ad esempio nelle intercettazioni di colloqui tra presenti in
carcere, la sovrapposizione delle voci un fatto addirittura volontario (come pure quello
dellintroduzione di rumori o disturbi) al fine di rendere inintelligibile il contenuto delle conversazioni tra
detenuto e familiari dello stesso.
54
Anche se, come vedremo pi avanti, la questione non sempre cos semplice (si veda ad es. il caso
del MiniDisc che nonostante operi una registrazione su supporto digitale applica in fase di incisione
una compressione di tipo lossy).
55
Il procedimento che sta alla base della registrazione analogica su un supporto analogico
relativamente semplice. I suoni, catturati da un microfono, arrivano alla testina di registrazione composta da
unelettrocalamita: si tratta di un componente elettromagnetico composto da una piccolissima
bobina avvolta su un anello in metallo amagnetico, il quale presenta una sottilissima fessura, detta traferro,
che il punto esatto in cui avviene la magnetizzazione del nastro che viene fatto scorrere davanti ed aderente
ad esso. Il nastro passando davanti al traferro si magnetizza in rapporto al flusso di corrente indotto dalla
testina di registrazione sotto forma di campo magnetico: le particelle chimiche del nastro vengono cos
orientate in funzione dellampiezza e della frequenza del segnale indotto dal campo magnetico. Il nastro
di norma composto da una base plastica ricoperta da uno strato di materiale ferromagnetico (composto da
ossido di ferro nel maggior parte dei casi). La magnetizzazione del nastro possibile grazie alla
propriet e alla capacit che tali materiali hanno di mantenere una magnetizzazione se sottoposti ad
un campo magnetico esterno. Per la riproduzione, invece, il nastro magnetizzato viene fatto passare
nellintraferro di un altro elettromagnete, detto testina di riproduzione, che modulando le variazioni di
corrente, opportunamente amplificate, vengono inviate ad un altoparlante. Solitamente presente una terza
testina che ha il compito di cancellare il nastro nellistante del procedimento di registrazione. La
testina di cancellazione precede quella di registrazione e, attraverso una corrente detta di
premagnetizzazione ristabilisce eventuali orientamenti magnetici preesistenti cancellando eventuali
vecchie registrazioni contenute nel nastro.
56
Tuttavia, ancora oggi vengono conferiti incarichi peritali aventi come oggetto conversazioni da
trascrivere o da analizzare registrate su bobine.
57
Loperazione di stampa di tale striscetta resa possibile grazie ad una piccolissima stampante termica
integrata nel registratore.
58
Il brogliaccio non altro che un verbale, anchesso cartaceo, a firma delloperatore di PG addetto e
responsabile del turno e del servizio di intercettazione. Su di esso veniva annotato quanto accadeva
durante le operazioni di ascolto: oltre alle informazioni riportate anche sulla striscetta loperatore
di PG riportava una trascrizione sommaria della comunicazione ascoltata ed eventuali segnalazioni
utili a fini investigativi. Questa operazione ancora valida, sebbene il tutto venga oggi gestito sotto
forma di informazioni digitali strutturate in un database relazionale.
59
1 pollice corrisponde a 2.54 centimetri.
60
Lavvolgimento del nastro su una bobina aperta espone lo stesso ad una serie di rischi. Se si considera che il
nastro va posizionato manualmente nel registratore facendolo passare tra le testine di lettura/scrittura e
avvolgendolo su unaltra bobina, la pi diretta conseguenza di incauto maneggiare quella dello
srotolamento e laggrovigliamento del nastro con effetti a dir poco disastrosi.
61
Ad una maggior velocit del nastro corrisponde, infatti, una maggiore qualit della registrazione: nel primo caso
ci si pu permettere, per cos dire, una perdita di qualit scrivendo, ad esempio, un secondo di
registrazione su 2.38 cm di nastro; al contrario, nel secondo caso, si preferisce scrivere la stessa quantit
di registrazione su una porzione doppia di nastro per guadagnarne in termini di dettaglio e qualit (il
concetto equiparabile a quello pi sopra riportato riguardo il numero di bit usati nel processo di
quantizzazione di un segnale ).
62
Fattore che lo rende particolarmente sensibile a rotture accidentali e sbalzi di tipo termico.
63
La International Electrotechnical Commission (IEC) unorganizzazione not-for-profit e non-
governativa fondata nel 1906 e si prefigge di fornire standard e valutazioni di conformit internazionali nel
campo delle tecnologie elettriche ed elettroniche ed ambiti correlati (cfr. http://www.iec.ch/).
64
Venivano e vengono ancora oggi utilizzate anche per la registrazione di interrogatori di testimoni e
indagati ad opera degli inquirenti, ma anche ad opera di privati cittadini per la registrazione di
telefonate minatorie in arrivo sul proprio telefono.
65
Nei casi che spesso si verificano, in cui la registrazione stata effettuata occultando il registratore allinterno di
borse o tasche di indumenti, questa risulta ancora pi degradata: la membrana del microfono
incorporato venendo a contatto con superfici estranee rileva e introduce nel segnale rumori da frizione
rendendo la registrazione ovattata.
66
Si tratta nella maggior parte dei casi di registrazioni ad opera di privati cittadini e quindi non contemplate in
quelle che Nazzaro (2010) definisce intercettazioni legali. Va tuttavia detto che in passato non era
insolito il ricorso da parte dellautorit giudiziaria a questa tipologia di registrazione, come ad
esempio nel caso di intercettazioni effettuate con lausilio di un informatore (munito di registratore)
presente ad un incontro sottoposto a sorveglianza. In questultimo caso il miglioramento delle
tecniche di trasmissione dei segnali e la disponibilit delle microspie ha di fatto soppiantato questo modo di
procedere per evidenti ragioni di praticit e sicurezza, soprattutto per linformatore.
67
A differenza dei supporti digitali, esiste per i supporti analogici un unico formato di registrazione e i nastri e le
cassette sono perci sempre compatibili con qualsiasi registratore, a prescindere da marca e modello.
68
Ci vero soprattutto per le bobine aperte che ad ogni riproduzione richiedono lintervento
delloperatore che, come detto, la deve posizionare sullapparato facendo passare il nastro attraverso le
testine di lettura dello stesso avviando manualmente lavvolgimento del nastro sulla spira vuota:
unoperazione che richiede sicuramente una certa esperienza affiancata ad una buona abilit manuale.
69
Tra le principali aziende attive in questo settore ricordiamo a titolo esemplificativo la gi menzionata Radio Trevisan
S.p.A. (http://www.radiotrevisan.com), la SIO S.p.A. (http://www.siospa.it/ita/index.php), la AREA
S.p.A. (http://www.area.it/), la RCS S.p.A. (http://www.rcslab.it/it/index.html), la INNOVA S.r.l.
(http://www.innovatrieste.it/) e diverse altre.
70
Spesso le informazioni sul sistema che ha generato la registrazione non vengono fornite o non sono del tutto
evidenti sicch, se il supporto proviene da un sistema RT6000 lo stesso sar illeggibile ad un sistema
DREC e viceversa.
71
Viene qui usato il termine archiviare in quanto la registrazione avviene nelle moderne
apparecchiature direttamente su disco rigido.
72
Il MiniDisc stato introdotto nel 1992 dalla Sony.
73
Questo perch non tutti gli apparecchi, soprattutto i primi e quelli di basso profilo, consentono di trasferire il
segnale in formato digitale con uscite dedicate.
74
Per le registrazioni analogiche, invece, il problema della copia solo un problema tecnico.
75
Quando la testina di registrazione e/o di cancellazione si avvicina o si allontana dal nastro, quindi
prima o dopo aver raggiunto la perfetta aderenza ad esso, questa produce dei campi magnetici che vengono
trasmessi al nastro sotto forma di bruschi impulsi aventi una escursione e una durata identificabile e
misurabile. Lispezione del nastro alla ricerca di eventuali manomissioni, o dei fenomeni appena descritti,
possibile con opportune tecniche di visualizzazione dei campi magnetici presenti sul nastro o
attraverso lanalisi della forma donda del segnale dopo aver digitalizzato la registrazione.
76
Per maggiori dettagli e per un approfondimento sulla firma digitale che possibile apporre ai segnali sonori e
sulle possibili soluzioni in tale ambito si rimanda a Romito, L., Tucci, M., Cavarretta, G. A. (2008),
Verso un formato standard nelle intercettazioni: archiviazione, conservazione, consultazione e validit
giuridica della registrazione sonora, AIDAinformazioni, Vol. 26, n. 1-2, pp. 149-164.
77
Solitamente gli impianti sono collocati presso le sale di ascolto situate allinterno degli uffici della Procura
che ne ha ordinato lattuazione.
78
Con il termine registrazione viene anche contemplato il procedimento di archiviazione delle
comunicazioni intercettate.
79
GSM lacronimo di Global System for Mobile Communications (in principio la sigla significava Groupe
spcial mobile), e rappresenta lo standard 2G (di seconda generazione) di telefonia mobile cellulare ed
attualmente il pi diffuso al mondo.
80
UMTS lacronimo di Universal Mobile Telecommunications System, e rappresenta lo standard di
telefonia mobile cellulare 3G (di terza generazione), evoluzione del GSM.
81
Va evidenziato, inoltre, che raramente si assiste a cadute di segnale o a disturbi nel canale di
trasmissione in una intercettazione di telecomunicazioni in cui entrambi gli interlocutori chiamano
da un apparecchio collegato alla rete telefonica fissa; al contrario, se uno degli interlocutori chiama da rete
mobile allora i disturbi nel canale di trasmissione aumentano cos come le interferenze, le cadute di
segnale e le alterazioni di segnale dovute ad una cattiva ricezione del apparecchio utilizzato o ad
una scarsa copertura di rete nella zona in cui si trova il chiamante/ricevente da rete mobile.
82
http://www.etsi.org/WebSite/Technologies/LawfulInterception.aspx
83
http://www.3gpp.org/SA3Security
84
Per una descrizione pi dettagliata ed esaustiva del predetto modello di riferimento rimandiamo il lettore al
secondo capitolo del recente volume di Nazzaro (2010).
85
Queste non rientrano per nelle intercettazioni di tipo legale.
86
Tra gli operatori di polizia il traslatore veniva anche chiamato borchia.
87
Lo scopo del sistema telefonico tradizionale su rete fissa PSTN (Public Switched Telephone Network)
era ed quello di stabilire e mantenere una comunicazione audio tra due punti A e B,
chiamante e ricevente.
88
Il codice IMSI ha una lunghezza massima di 15 cifre: 3 identificano il Mobile Country Code (MCC),
ovvero il prefisso internazionale che identifica la nazione di appartenenza (lItalia ha codice 222); 2 o 3
cifre indicano il Mobile Network Code (MNC), ovvero il codice che identifica la rete radiomobile
nella nazione individuata dal MCC); e un massimo di 10 cifre indicano lutente allinterno della rete del
proprio operatore attraverso il Mobile Subscriber Identification Number (MSIN).
89
Nel caso di unautovettura, sebbene un modello comune possa ospitare fino a cinque occupanti, non da
escludere che possa intervenire uno scambio degli interlocutori dovuto a persone che scendono
dallautovettura e altre che salgono, o persone che si avvicinano alla macchina momentaneamente
ferma, o si pensi ancora a persone che si incontrano nei pressi dellautovettura intercettata (la casistica
naturalmente molto ampia e variegata).
90
Analogo discorso vale anche per abitazioni private o altri luoghi sottoposti a controllo come uffici o
celle che ospitano i detenuti nelle carceri.
91
Spesso viene associato anche un sistema di rilevamento della posizione terrestre attraverso sistemi GPS (Global
Positioning System) per documentare gli spostamenti effettuati dal soggetto intercettato.
92
Si tratta in poche parole di un cellulare senza tutti gli accessori e le applicazioni che siamo abituati ad
avere sui nostri apparecchi.
93
Nel caso di luoghi chiusi diversi dai veicoli, come ad es. case o uffici, troviamo solo il secondo tipo di
sensore di attivazione della registrazione.
94
Si tratta di un sistema di codifica di codici numerici sotto forma di segnali sonori: ad ogni numero sulla tastiera
del telefono corrisponde un segnale sonoro costituito dalla trasmissione contemporanea di due toni aventi
frequenze diverse (da qui multifrequenza).
95
Nei luoghi chiusi questi disturbi possono essere individuati ad es. in un televisore acceso che
trasmette ci che va in onda al momento, scarichi di acqua, rumori da cantiere ecc.
96
In genere i colloqui in carcere, e quindi lintercettazione degli stessi, hanno una durata che non quasi
mai inferiore ad unora.
97
Questa tipologia di intercettazione presenta pi delle altre quello che pi sopra abbiamo definito come effetto
cocktail party.
98
Se da un lato la disponibilit di una sequenza videoregistrata comporta una serie di vantaggi, come ad
esempio nellidentificare gli interlocutori, un inconveniente di non poco conto pu essere dato
dallassenza di informazioni sul sistema di acquisizione che ha generato la registrazione: si vedano a
tal proposito le osservazioni fatte pi sopra per i supporti analogici o per la codifica dei file nel caso di
supporti digitali che per quel che concerne la parte audio valgono anche nel presente caso.
99
Per certi aspetti, per la qualit della registrazione e per le modalit adottate per la sua creazione, la si pu
tranquillamente equiparare ad una registrazione di tipo amatoriale.
100
Spesso il mondo ci presenta pi suoni contemporaneamente. Il nostro cervello automaticamente si assume il
compito di distinguerli e di concentrare lattenzione su quelli di maggiore importanza.
101
Righini P., Righini G. U., Il suono, Milano, Tamburini Ed., 1974, pag. 121.
102
In prossimit di ogni conduttore in cui scorre corrente presente un campo magnetico
proporzionale alla corrente stessa.
103
Vedi a questo proposito Cosi P., Il restauro digitale del segnale audio, in La voce come bene culturale,
edited by A. De Dominicis, Carocci Editore, Roma 2002, pp. 189199.
104
Abbiamo gi accennato al fatto che le onde complesse, quelle presenti nella vita di tutti i giorni, siano il
risultato della somma algebrica di due o pi segnali sinusoidali, ciascuno di data frequenza ed intensit, e
di come alle caratteristiche acustiche del segnale di interesse per il trascrittore si aggiungano
(spalmandosi) le caratteristiche di una serie di fenomeni e disturbi compresenti.
105
Ricordiamo ancora una volta che non sempre un segnale filtrato che si presenta di buona qualit allascolto (e
quindi gradevole e intelligibile) lo sia anche a livello spettrale per le ragioni che abbiamo gi
esposto.
106
La produzione dei suoni del linguaggio avviene attraverso una serie di casse di risonanza allinterno del
nostro apparato fonatorio (come cavit orale e nasale) che possono essere considerate filtri.
107
Il telefono, o meglio la linea telefonica, per trasmettere il segnale della nostra conversazione opera un processo di
filtraggio passabanda limitando il passaggio alle sole frequenze comprese tra i 300 e i 3400 Hz.
108
Ritorneremo sul concetto di saturazione pi avanti.
109
Per rendere ancora meglio lidea possiamo anche pensare ai click dovuti alla pressione dei pulsanti del
mouse o di tasti in genere
110
In termini tecnici si dice che va in overdrive.
111
I picchi dellonda sonora vengono appiattiti: per intenderci e per dare unidea di ci che accade, come
se tagliassimo o limassimo i denti appuntiti di una sega trasformandoli in punte quadre.
5.6. Bibliografia
Albano Leoni F., Maturi P., Manuale di Fonetica, Roma, Carocci Editore, 2002.
Aprile E., Spiezia F., Le intercettazioni telefoniche ed ambientali, Giuffr Editore, 2004.
Aristotele, Problemi, Milano, Bompiani, 2002.
Braun A., Fundamental frequency how speakerspecific is it?, in A. Braun, J. P. Koster
(eds.), Studies in Forensic Phonetics, Trier, Wissenschaftlicher Verlag Trier, pp. 923,
1995.
Canazza S., Restauro Materiale Audio, disponibile on-line allindirizzo http://www-dsp.
elet.polimi.it/ispg/images/pdf/audio/materiale/restauro_canazza.pdf, 1998.
Cosi P., Semplici considerazioni sulle tecniche di restauro del segnale vocale, in Pro-
ceedings XII Giornate di Studio del G.F.S., Macerata, Italy, December 13-15, 2001,
pp. 263-266, 2001.
Cosi, P., Il restauro digitale del segnale audio, in La voce come bene culturale, a cura di
De Dominicis A., pp. 189199, Carocci Editore, Roma, 2002.
Diehl R.L., Lindblom B., Hoemeke K.A., Fahey R. P., On explaining certain malefemale
differences in the phonetic realization of vowel categories, Journal of Phonetics, 24:
187208, 1996.
Fant G., Acoustic theory of speech production, Mouton, The Hague, 1960.
Ferrero, F., Genre A., Boe L.J., Contini M., Nozioni di Fonetica Acustica, Torino, Ed.
Omega, 1979.
Ferrero F.E., Magno Caldognetto E., Elementi di fonetica acustica, in Trattato di Fonia-
tria e Logopedia, (L. Croatto, a cura di), pp. 155196, Padova, La Garangola, 1996.
Helfrich H., Age markers in speech, in K. Scherer, H. Giles (eds.), Social markers in spe-
ech, pp. 63107, Cambridge, Cambridge University Press, 1979.
Nazzaro G., Le intercettazioni sulle reti cellulari, Mattioli 1885, Fidenza, 2010.
N Chasaide A., Gobl C., Voice source variation, in W. J. Hardcastle, J. Laver (eds.). The
Handbook of Phonetic Sciences, pp. 427461, Oxford, Blackwell,1997.
Paoloni A., Zavattaro, D., Intercettazioni telefoniche e ambientali. Metodi, limiti e svi-
luppi nella trascrizione e verbalizzazione, Centro Scientifico Editore, 2007.
Petrizzelli S., Appunti di reti di telecomunicazioni: cenni alla rete GSM, disponibile on
line allindirizzo http://users.libero.it/sandry/UMTS/sistemaGSM.pdf, 2000.
Righini P., Righini G.U., Il suono, Milano, Tamburini Ed., 1974.
Romito L., Manuale di Fonetica articolatoria, acustica e forense, Universit degli Studi
della Calabria, Centro Editoriale e Librario, 2000.
Romito L., Le intercettazioni, in Cultura della Legalit, Caligiuri M. (a cura di), Vol.
2, pp. 207217, Centro di Documentazione Scientifica sullintelligence, Rubettino
Editore, 2010.
Romito L., Scullari V., Un protocollo delle procedure di restauro allinterno dellArchi-
vio sonoro calabrese. Atti del 4 Convegno AISV, Cosenza Universit della Cala-
bria, 35 dicembre, 2007, (a cura di) Romito L., Lio R., Galat V., Torriana (RN),
EDK Editore, Vol. 4, pp. 560574, 2009.
Romito L., Tucci M. (2009), Verso un formato standard nelle intercettazioni e una pro-
posta per larchiviazione e la conservazione delle registrazioni. Atti del 4 Convegno
AISV, Cosenza Universit della Calabria, 35 dicembre, 2007, (a cura di) Romito
L., Lio R., Galat V., Torriana (RN), EDK Editore, Vol. 4, pp. 621631, 2009.
Romito L., Tucci M., Cavarretta G.A., Verso un formato standard nelle intercettazioni:
archiviazione, conservazione, consultazione e validit giuridica della registrazione
sonora, AIDAinformazioni, Vol. 26, n. 12, pp. 149164, 2008.
Rugo M., Intercettazioni e Microspie, Linvestigazione Elettronica e lOperazione Tec-
nica di Polizia Giudiziaria, Pisa, Il Campano, 2009.
Whiteside S.P., Temporalbased acousticphonetic patterns in read speech: some evi-
dence for speaker sex differences, Journal of the International Phonetic Association,
26(1): 23-40, 1996.
6. La Linguistica Forense
Luciano Romito
Laboratorio di Fonetica, Universit della Calabria
6.1. Introduzione
La linguistica forense una disciplina recente che attiene alla Linguistica Generale,
in particolare alla Linguistica Applicata1, e alle scienze forensi in genere. Oggi una
disciplina con una propria autonomia sia metodologica che procedurale 2 e si occupa di
ogni testo scritto, registrato o anche solo prodotto oralmente, che sia in qualche modo
coinvolto in un procedimento legale, penale o in un contesto criminale: literally any
test is somehow implicated in a legal or criminal context then it is a forensic text []
(J. Ollson 1996: 1 e 2004).
Lesperto di Linguistica Forense dovendo analizzare un parlato spontaneo registrato
deve possedere competenze in ambiti e discipline diverse che oscillano dalla lingui-
stica alla psicologia e dallinformatica allanalisi del segnale3. Tra queste rientrano la
Fonetica e la Fonologia necessarie per lo studio del sistema articolatorio dei suoni del
linguaggio umano, dellinventario dei suoni di una lingua o di un dialetto e delle regole
che governano gli aggiustamenti e i cambiamenti che avvengono nel parlato sponta-
neo4; la Morfologia per lo studio delle unit minime della lingua dotate di un signi-
ficato, lorganizzazione e lo studio della struttura interna della parola; la Sintassi per
le regole che governano la struttura interna delle frasi, come ed in che modo le parole
possono combinarsi per creare frasi che abbiano un significato e che siano linguistica-
mente accettabili; la Semantica, per lo studio del significato, le relazioni di significato
tra le parole e il complesso studio del significato frasale frutto di reinterpretazione5;
1
La Linguistica Applicata lapplicazione delle conoscenze della linguistica generale in uno spe-
cifico ambito. Si veda ad esempio la glottodidattica nellambito dellinsegnamento o la logopedia a fini
riabilitativi. proprio secondo questa indicazione che possibile inserire la Linguistica Forense nel
novero della Linguistica Applicata.
2
G. McMenamin, 2002.
3
Chaski C. and A. Daubert, 1998, 2001a e 2001b.
4
In un recente caso giudiziario la mancata competenza di linguistica, di fonetica e fonologia da
parte del consulente del Pubblico Ministero ha portato a confondere una registrazione di spagnolo sud
americano con uno spagnolo iberico e al conseguente arresto di un innocente (p.p. 10061/11, nei con-
fronti di Oscar Sanchez, Corte di Appello, 7^ Sezione Penale, Tribunale di Napoli).
5
Vedi esempi tipo ma sei fuori come un balcone?
la Pragmatica per luso reale della lingua nelle normali conversazioni, e in tutti i
tipi di interazioni e di dialogo6; la Linguistica Storica per lo studio evolutivo di una
lingua, come e quali sono i cambiamenti possibili e prevedibili, quali le regole per
una corretta conversazione; la Sociolinguistica, per la lingua usata dalle comunit di
parlanti, lo studio delle variabili della lingua in relazione a differenze di religione, di
classe sociale e culturale, di livelli di istruzione, di sesso, di luogo di residenza (citt
versus campagna, montagna versus mare), linterazione e linterferenza tra lingue di-
verse e tra lingua e dialetto, le produzioni mistilingue; la Dialettologia, per la corretta
identificazione dei dialetti, le variabili dialettali locali e regionali e il loro confine,
lidentificazione di isoglosse7 o di isofone8; la Dialettometria, per studiare le distanze
tra dialetti e le loro regolarit interne9; la Psicolinguistica, per comprendere come il
sistema psicologico e mentale processa il linguaggio umano; la Neurolinguistica, per
la conoscenza del sistema nervoso delluomo e il funzionamento neuroanatomico del
cervello; la Linguistica Computazionale o Informatica, per la conoscenza di software
e tools che aiutano lesperto nellanalisi della lingua e nello studio e approfondimento
di alcune performance di singoli parlanti; la Statistica, per analizzare i risultati di una
analisi linguistica, descrivere i fenomeni e fornire risposte oggettive; la Fonetica Acu-
stica e il Signal analysis per analizzare il segnale sonoro acusticamente e individuare
tratti caratteristici, per filtrare segnali rumorosi, per identificare parlatori anonimi, per
supportare la trascrizione di particolari segnali sonori registrati e di bassa qualit; e,
infine, anche il Diritto, per agire nel rispetto delle regole processuali e dibattimentali
e nel rispetto delle parti in gioco.
La definizione presente nella Linguistics Encyclopedia riporta che la Linguistica Fo-
rense collabora con la giustizia rispondendo a tre domande: cosa dice il testo, cosa signi-
fica e chi lo ha scritto10 confermando linteresse iniziale per i testi scritti. Il primo studio
infatti risale a Bryant nel 1930 e tratta della funzione delle parole nel linguaggio legale.
Nel 1960 Wetter pubblica un interessante lavoro sullo stile linguistico e sui i significati
intrinseci delle sentenze scritte dai Giudici. Il lavoro di Danet del 1980 verte, invece, sul
linguaggio della controversia e della discussione in aula di Tribunale e presto diventa
un vero caposaldo per le arringhe, mentre Levi nel 1982 pubblica la prima bibliografia
ragionata sullargomento segno che le ricerche di Linguistica Forense sono, almeno in
Gran Bretagna e negli Stati Uniti, aumentate esponenzialmente.
La Linguistica Forense viene fattivamente utilizzata in unaula di Tribunale,
come strumento di ricerca della prova, per la prima volta nel 1968, quando Jan Svar-
tvik pubblicando The statements: a case for Forensic Linguistic11 dimostra come
uno stile grammaticale pu essere misurato e diventare prova in un caso giudiziario.
Grazie alle sue analisi linguistiche, infatti, Timothy Evans viene scagionato dalle
accuse per lomicidio della propria moglie. Questo caso giudiziario, e soprattutto la
pubblicazione di Svartvik, ufficializzarono di fatto la nascita della nuova disciplina
che giunse alla ribalta del mondo intero con larresto di UnAbomber nel 1996 in un
bosco del Montana. UnAbomber12 aveva inviato un manifesto contro la societ in-
dustriale e capitalistica ad alcuni importanti quotidiani americani (obbligandone la
pubblicazione a fronte di una minaccia di un nuovo attentato). Un lettore leggendo
larticolo si accorse che molte espressioni utilizzate dallo scrivente anonimo erano le
stesse di quelle utilizzate dal proprio fratello Theodore Kaczynski. Questa scoperta
lo turb molto e dopo alcuni tentennamenti rifer i suoi dubbi ad alcuni agenti della
FBI. Vista limportanza del caso e lattenzione dei Media, il processo vide da una
parte il perito della difesa Robin Lakoff dellUniversit di Berkeley e per quanto
riguarda laccusa invece lincarico fu affidato a Donald Foster 13 professore di Lette-
ratura alla Vassar University of New York. Il processo si concluse con la condanna
di UnAbomber e con linaspettata scoperta della Linguistica Forense. Foster riusc a
dimostrare alla giuria che oltre al DNA, ai proiettili e alle impronte digitali, anche le
parole e il loro uso possono identificare, o essere daiuto ad identificare, lautore di un
crimine. Lopinione pubblica rimase affascinata da queste nuove teorie e ci stimol
molti linguisti a pubblicare idee e opinioni nuove. Coulthard basandosi sul processo
UnAbomber scrisse Author Identification, Idiolect and Linguistic Uniqueness, che
fu pubblicato, non per caso, sulla rivista di Linguistica Applicata Americana (Applied
Linguistics) nel 200414.
Le prime identificazioni sono, quindi, avvenute sui testi scritti. Tale specializzazione
oggi ha un approccio di tipo quantitativo e uno di tipo qualitativo. Nel primo si utiliz-
zano metodiche statistiche, si calcolano gli indici di stile attraverso la stilometria, si
calcola lindice di leggibilit, lindice di lunghezza della frase, la frequenza delle parole
utilizzate, la ricchezza lessicale ecc. mentre nel secondo si utilizzano metodi basati sulla
struttura sintattica, sulla punteggiatura e soprattutto sullanalisi degli errori di gramma-
tica e di ortografia.
Da allora, sempre pi spesso, esperti linguisti e fonetisti hanno collaborato con la
giustizia in tutte le indagini che riguardano voci registrate o testi scritti.
Sullonda di questo entusiasmo, come spesso accade, molti lavori furono pub-
blicati, molte ricerche finanziate e soprattutto venne riposta molta fiducia, anche a
livello istituzionale, a questa nuova scienza. Si inizi a parlare di DNA linguistico,
di idioletto15 e in correlazione con la tecnica del Fingerprint 16, Kersta scrisse per
la prima volta che possibile rilevare un Voiceprint17 di una persona: Voiceprint
identification is a method by which people can be identified from a spectrographic
examination of their voice. Closely analogous to fingerprint identification, which uses
the unique features found in peoples fingerprints, voiceprint identification uses the
unique features found in their utterances (Kersta 1962). Lidea viene riportata anche
da Nash18, As each one of the ridges of your fingers or on the palm of your hand
differ from each other, so do all of the other parts of your body. They are unique to
you including your voice mechanism. Linteresse e lattenzione fu tale che si svi-
lupparono addirittura due diversi protocolli, il primo fu realizzato da VIAAS19 (Voice
Identification and Acoustic Analysis SubCommittee) della International Association
for Identification e il secondo proprio dalla FBI20.
In Hollien21 si pu leggere che almeno fino al 1990 le Corti degli Stati Uniti dAmerica
accettarono, almeno il 50% delle volte, lutilizzo di tali protocolli nonostante Nolan22 gi
dal 1983 evidenziava i propri dubbi sullutilizzo dei voiceprints per lidentificazione del
parlante. Di fatto si dovette aspettare molto per ottenere la sentenza dello Stato della Cali-
fornia che recita: That the aural spectrographic analysis of the human voice for the pur-
poses of forensic identification has failed to find acceptability and reliability in the relevant
scientific community, and that therefore, there exists no foundation for its admissibility into
evidence in this hearing pursuant to the law of California. Quindi fino ad allora la capacit
espositiva e di convincimento di singoli professori universitari di linguistica ha dettato
legge nelle aule dei Tribunali Americani. Oggi, grazie anche alla sentenza della Suprema
corte USA nel caso Daubert versus Merrel Dow Pharmaceuticals Inc 1993, ogni nuova
teoria deve soddisfare i criteri di scientificit che sono: qualunque teoria o tecnica utiliz-
zata deve essere testata, pubblicata o sottomessa ad un peer review23; deve prevedere e
dichiarare il potenziale errore; e infine deve essere accettata in larga misura dalla comu-
nit scientifica24. Anche se la discussione sui metodi ancora molto aperta, soprattutto in
Italia, facile intuire che il XX secolo pu essere definito il periodo storico caratterizzato
dallincontro tra diverse competenze e discipline, il periodo che potremmo definire delle
interfacce. Insieme agli analisti informatici altamente specializzati in linguaggi macchi-
na e algoritmi, nascono categorie di esperti che creano sistemi operativi, interfacce tra
esperti e utenti. Questo vale in tutti i campi, compreso la Linguistica Generale che vede
il proliferare di specializzazioni come la Psicolinguistica, la Neurolinguistica, la Pato-
logia del Linguaggio e la Logopedia, la Psicoacustica ecc. La Linguistica Forense un
esempio di interfaccia e condivisione di competenze e metodi che attengono al Diritto,
alle scienze linguistiche e soprattutto a discipline una volta inconciliabili come la Fisica
Acustica, lAnalisi del Segnale, la Statistica, lInformatica, la Scienza delle Telecomuni-
cazione e addirittura la Filosofia del linguaggio.
Oggi, dopo 50 anni di proficua attivit, il consesso scientifico e la letteratura interna-
zionale specializzata tentano di differenziare i compiti della Linguistica Forense affidan-
do a questultima lo studio dei testi scritti e alla Fonetica Forense lo studio di produzioni
orali. Di fatto in Europa la divisione non cos netta. La International Association for
Forensic Phonetics and Acoustics (IAFPA), lassociazione europea che si occupa di voce
in ambito forense, ha nel suo nome la specifica della fonetica, ma di fatto composta
da linguisti e si occupa anche di testi scritti, di individuazione di lingue e dialetti25. In
Spagna la Sociedad Espaola de Acstica Forense riflette gi nel nome un aspetto pi
tecnico, ha tra le proprie finalit la divulgazione delle conoscenze scientifiche e tecniche
dellAcustica Forense intesa come branca della criminalistica. Anche in Francia lAFPC
(Association Francophone de la Comunication Parle) si occupa in generale della voce
in ambito forense, anche se lapproccio pi orientato verso le discipline umanistiche
e psicologiche. Oggi con levoluzione delle telecomunicazioni sempre pi probabile
trovarsi ad analizzare una voce registrata rispetto ad una dichiarazione scritta. Cionono-
stante, volendo enunciare i compiti della Linguistica Forense differenziandoli in base
alloggetto di studio, potremmo affermare che unanalisi testuale prevede: lo studio del
significato, anche sotto il profilo psicolinguistico; la corretta interpretazione linguistica
di statuti, regolamenti e contratti; la traduzione giurata e tutto ci che concerne lin-
terpretariato; lattribuzione di un testo e quindi lidentificazione dellautore; lauten-
ticazione di un testo, in relazione alle parole o costruzioni sintattiche e morfologiche
ricorrenti.
Le analisi possibili su una registrazione sonora riguardano lidentificazione di un
suono o di un rumore; la determinazione delloriginalit o della genuinit di un nastro,
di un supporto o di una registrazione in generale; il filtraggio del segnale vocale, la
riduzione del rumore presente o lenfatizzazione di una voce e in generale laumento
dellintelligibilit; lidentificazione di una voce modificata; la caratterizzazione del par-
lante; il confronto e la comparazione percettiva tra due voci; lidentificazione mediante
metodi oggettivi del parlante; la trascrizione di intercettazioni o registrazioni e lanalisi
del significato in relazione a registrazioni degradate e poco intelligibili e registrazioni
definite official recording, cio di ottima qualit.
La situazione italiana riguardo i compiti e lidentificazione delle discipline di riferi-
mento ancora oggi molto controversa. La Linguistica o la Fonetica Forense 26 non esiste
nellordinamento universitario e non presente in alcun corso di laurea o corso istitu-
zionale. Non possibile, quindi, stabilire se essa attiene alla Criminalistica, alle Scienze
Investigative o alla Linguistica Applicata e quindi alle Scienze Umane come negli altri
paesi. Inoltre lattivit scientifica in ambito accademico su tematiche legate alla Lin-
guistica Forense non riscontra un grande interesse. Non vengono finanziati progetti di
ricerca 27 o organizzati convegni scientifici specifici. Lentusiasmo registrato negli Stati
Uniti ed in Gran Bretagna agli albori, nel nostro paese, dopo una prima fiammata avuta
negli anni 70-80 andato via via scemando. Il primo, e ad oggi uno dei pochi convegni,
dal titolo Lidentificazione della persona per mezzo della voce, stato organizzato da un
fisico prestato alla Linguistica (Franco Ferrero) nel 1979 28. In quegli anni casi giudiziari
molto eclatanti come i sequestri di Lancia, di Getty e di Moro o la strage di Peteano,
richiamarono lattenzione di esperti americani, stimolando la discussione e la nascita di
un movimento di studiosi con competenze e background scientifici molto diversi tra loro
come Ingegneri delle Telecomunicazioni, Fisici Acustici, Linguisti, Dialettologi e anche
alcuni Musicisti avanguardisti. Ogni perizia era una vera e propria ricerca scientifica con
apporti provenienti da tutte le discipline accademiche 29 Si svilupparono tecniche e studi
di Natural Language Processing (NLP) allinterno delle facolt umanistiche con apporti
scientifici di linguisti, dialettologi e psicologi, mentre contemporaneamente, nelle fa-
colt di Ingegneria e di Fisica, si iniziarono le prime ricerche di speech processing. La
necessit di utilizzare modelli statistici per la valutazione dei dati prodotti da entrambi
i filoni di ricerca ha incentivato un humus scientifico molto produttivo e coinvolgente.
Alcuni linguisti hanno abbandonato associazioni storiche come la Societ di Linguistica
Italiana (SLI) o la Societ di Glottologia Italiana (SIG) per incontrarsi annualmente con
i propri colleghi Fisici e Ingegneri allinterno dei congressi annuali dellAssociazione
italiana di Acustica (AIA) promuovendo anche la nascita del Gruppo di Fonetica Speri-
mentale (GFS) 30.
La miopia delle istituzioni universitarie nel non ipotizzare corsi di studi volti allap-
profondimento sia dellNLP che dello Speech Processing con percorsi misti a cavallo tra
la Linguistica, la Psicologia, la Fisica e lInformatica, come anche linadeguatezza delle
commissioni preposte a finanziamenti per ricerche cos interdisciplinari, ha ricostituito
loriginaria divisione tra le scienze umane e quelle tecnologiche. Ne sono prova le com-
missioni di valutazione della ricerca proposte dalla riforma universitaria Gelmini che
non premiano linterdisciplinariet presentando al contrario una chiusura settoriale lega-
ta alle aree CUN 31 delimitate per Decreto (Area 10 in Scienze dellantichit, filologico-
letterarie e storico-artistiche dove trova collocazione anche la Glottologia e Linguistica
e invece Area 01 in Scienze matematiche e informatiche o 02 in Scienze fisiche dove tro-
vano collocazione la Fisica e lInformatica) o ai settori scientifico disciplinari nei quali
sono incardinati i concorsi per ricercatori e per professori e i progetti di ricerca 32. Una
specializzazione in Linguistica Forense costruita con un percorso didattico umanistico e
tecnologico non sarebbe spendibile in Italia n allinterno di una carriera universitaria o
di ricerca n in prospettive lavorative.
Oggi, vengono affidati esclusivamente incarichi di trascrizione di registrazioni e di
identificazione del parlatore anonimo (nulla viene richiesto riguardo ai testi scritti). I pe-
riti non collaborano pi tra loro e sono diplomati, ragionieri, ingegneri, linguisti, tecnici
del suono, medici ecc.33, mai uno stesso compito stato affidato a persone con percorsi
scientifici cos diversi tra loro. Tale calo di competenza dellesperto si accompagna ad un
aumento di competenza pseudo tecnica che trasforma una perizia nella mera applicazio-
ne di sequenze e passi procedurali privi di qualunque interpretazione o valutazione34. Ci
giustifica laffidamento da parte di giudici di incarichi peritali ad esperti fonici o esperti
del suono pi che ad esperti fonetisti, cio esperti dei suoni della lingua, rendendo, di
fatto, il perito non un esperto ma bens un supporto tecnico per il giudice.
Prima di addentrarci nel focus di questo capitolo, necessaria una premessa riguar-
do ai diversi codici comunicativi. di fondamentale importanza ribadire la sostanziale
differenza tra il codice orale, quello relativo alla lingua parlata e il codice scritto. Essi
sono governati da regole e procedure molto diverse tra loro. Trascrivere un parlato orale
significa tradurre, interpretando, un codice in un altro. In questo paragrafo, tratteremo
largomento linguisticamente, soffermandoci sulle caratteristiche e sulle differenze tra i
due diversi codici comunicativi, senza approfondire il concetto della trascrizione.
Il testo orale per sua definizione volatile, si fruisce nel momento stesso in cui
prodotto e non permanente (anche i latini riconoscono tale caratteristica con il modo
di dire Verba volant, scripta manent). Non possibile ripetere un testo orale identico a
s stesso, ma possibile sostituirlo con una produzione simile che contenga gli stessi
contenuti. Quando ripetiamo una frase non produciamo mai esattamente gli stessi suoni
con la stessa intonazione, ogni volta sempre un nuovo atto linguistico, ogni atto
unico e irripetuto35. Il parlato lineare, si snoda una volta sola nel tempo e richiede di
essere decodificato durante la sua stessa produzione. Ci prevede un maggiore coinvol-
gimento da parte di entrambi gli interlocutori e una certa ripetitivit, un ritornare sulle
cose dette, magari dicendole con parole diverse o affrontando largomento da differenti
punti di vista. Questa strategia tende a rendere pi permanente il contenuto della comu-
nicazione di quanto non lo sia di per s, cosa che invece la scrittura ha come caratteristi-
ca principale. Il testo orale ha solo una fase processuale, nel momento in cui parliamo,
pensiamo, organizziamo, progettiamo e processiamo il prodotto stesso, cos latto di
esecuzione e il suo risultato coincidono perfettamente. Una caratteristica importante
che differenzia il parlato dallo scritto la condivisione del contesto di fruizione e di
elaborazione. La situazione allinterno della quale lemittente elabora e produce il parla-
to e il ricevente o destinatario elabora a sua volta e decodifica i contenuti del messaggio,
coincidono e condizionano sia la produzione che la ricezione del messaggio stesso.
Le caratteristiche relative ad una comunicazione orale sono:
Quando parlo dovete ascoltare soprattutto le mie pause. Dicono pi delle mie parole50,
questa frase tratta dal libro di Heg esprime la complessit della percezione nella comu-
nicazione.
Un atto comunicativo un passaggio di informazioni da un emittente ad uno o pi
riceventi. Una tale definizione non rende per giustizia al ruolo fortemente attivo che
viene svolto dal ricevente. In questa sede proponiamo di aggiungere alla definizione:
un atto comunicativo linterpretazione da parte di un ricevente di uninformazione
prodotta da un emittente.
Il processo percettivo pu essere suddiviso in due fasi ben distinte, la prima della
quale riguarda lestrapolazione dellinformazione acustica del segnale percepito, liden-
tificazione dei segmenti e il raggruppamento di questi in unit astratte superiori come
sillabe, parole e frasi; e la seconda fase, forse la pi complessa, detta di accesso lessicale,
dove le parole vengono riconosciute attuando il processo di comprensione/interpreta-
zione del(lintero) messaggio ricevuto. Gi oltre un secolo fa Wundt51 distingueva nella
percezione i fatti esterni, legati alla produzione ed alla percezione dei singoli suoni
linguistici, dai fatti interni che riguardano i fenomeni del pensiero.
Per occuparci di entrambi i livelli necessario dimostrare il ruolo fortemente attivo
dellascoltatore nel processo di percezione e in accordo con tutti i sostenitori delle teorie
linguistiche attive (cfr. successivi) ritenere che percevoir le discours, nest pas chose
passive et automatique. Celui qui aperoit assume une fonction slective en rpondant
certains aspects de la situation globale et non dautres il rpond aux stimuli selon une
organisation quil leur impose. Et il remplace la stimulation absente au contradictoire
dune manire compatible avec ses besoins et son exprience passe 52.
Quanto detto ci spinge a considerare ancora pi attivo (nel senso interpretativo/im-
maginativo) il ruolo di una persona esterna allatto comunicativo, che redige in tempi a
volte diversi e a volte molto lontani dal momento in cui latto avvenuto, una trascrizio-
ne letterale su carta di un atto registrato (o intercettato) nato per essere orale e soprattutto
avvenuto tra interlocutori diversi e sconosciuti.
Mentre gli aspetti segmentali della comunicazione, il punto di vista meccanico e
funzionale, vengono studiati da molti anni ormai 53, ci che fa parte della percezione del
linguaggio oggetto di studio solo da poco tempo allinterno di discipline come la psi-
colinguistica, la psicoacustica 54, lacustica psicologica e la fonetica percettiva.
6.3.1. La percezione
Le sensazioni non sono una rappresentazione fedele della realt e la conseguente atti-
vit percettiva non ci presenta il mondo come oggettivamente ma bens come lo interpre-
tiamo in base alle nostre esigenze e alle nostre convinzioni. Percepiamo in base alla nostra
esperienza, alle nostre letture, alle nostre idee e ci fa s che ogni individuo abbia un pro-
prio e personale modo di percepire la realt esterna oggettiva e unica. Questa affermazione
rappresenta il fondamento e la struttura portante di questo lavoro in quanto la sensazione
soggettiva 58.
unipotesi svolge nella testa, una volta che vi si insediata o addirittura, vi nata, una vita
che somiglia a quella di un organismo, in quanto dal mondo esterno assimila soltanto ci che le
gioviale e omogeneo e respinge ci che le eterogeneo e nocivo, oppure, se non pu assoluta-
mente fare a meno di accoglierlo, lo espelle poi tale e quale59.
Il perito e la competenza del perito sta proprio nel fatto di non far nascere nella
propria testa unipotesi.
La realt fisica esterna non viene mai colta nella sua interezza ma solo nelle parti
di essa che sono recepite dagli organi di senso. I nostri organi di senso sono capaci di
far passare 60 soltanto alcuni dei segnali provenienti dallesterno escludendone altri ed
inoltre essi stabiliscono anche la quota della realt da trasformare in segnale sensoria-
le 61. Un esempio basato sulludito quello del campo di udibilit. Un suono caratte-
rizzato da una frequenza molto bassa (10 Hz) o molto alta (26 kHz) non induce alcuna
risposta nei nostri recettori uditivi e quindi nessuna percezione. Tali suoni presenti
nella realt e percepiti da animali come il cane o il pipistrello risultano per luomo
essere inesistenti. Questo esempio dimostra che le nostre sensazioni corrispondono
soltanto ad una parte della realt. La nostra capacit uditiva limitata acusticamente a
segnali sonori con una certa frequenza (16-16000 Hz) con una certa intensit e con una
certa durata (> 20 ms). In tutti gli altri casi, cio con segnali sonori con caratteristiche
diverse, non percepiamo nulla.
Per spiegare la differenza tra realt fisica e realt sensoriale, la psicologia ricorre
ai concetti di stimolo distale e stimolo prossimale. Il primo indica lenergia di sti-
molazione proveniente dallambiente esterno e che perviene al recettore sensoriale
mentre il secondo quella parte di tale energia che i recettori possono effettivamente
raccogliere ed , quindi, avvertita come stimolo dallorganismo. Lo stimolo prossi-
male opera una vera e propria selezione e tale selezione diversa per ogni specie (es.
la realt sensoriale uditiva delluomo, del cane o del pipistrello). Ogni specie ha una
propria realt sensoriale soggettiva perch traduce la realt fisica oggettiva secondo
un codice stabilito dallarchitettura dei propri recettori sensoriali. Questo ci porta
ad introdurre due nuovi concetti: la soglia sensoriale assoluta e la soglia sensoriale
differenziale.
6.3.2.1. Soglia sensoriale assoluta e differenziale
Parlando di sensazione, non possiamo non affrontare il concetto di soglia. La soglia asso-
luta fisiologica e correlata a parametri meccanici mentre la soglia personale o differenziale
correlata a parametri psicologici. La definizione fornita dalla psicofisica o dalla psicofisiologia
delle sensazioni si basa sulla relazione fra gli stimoli distali fisici e la sensazione risultante.
La soglia assoluta indica la minima quantit di energia capace di produrre una sen-
sazione, un confine estremo delle nostre capacit sensoriali. Un confine che non deve
essere inteso come un valore unico o netto ma decisamente sfumato e fluttuante: ad
esempio nelluomo la frequenza minima percepita oscilla da 16 a 22Hz e la massima da
16000 a 22000 Hz, inoltre cos come tutti gli altri organi, anche quello delludito risente
dellinvecchiamento riducendo i limiti fissati e peggiorando la sua performance 62.
Di seguito presentiamo una tabella dei livelli di energia relativi allo stimolo neces-
sario per evocare una risposta sensoriale (almeno nel 50% delle prove in condizioni
ottimali) relativa ai cinque sensi 63.
Sensi Risposte
la luce di una candela a 45 Km di distanza, in una notte buia
VISTA
e con aria limpida
il ticchettio di un orologio da polso a 5-6 m di distanza, in
UDITO
ambiente insonorizzato e perfettamente silenzioso
un cucchiaino di zucchero diluito in circa 10 l di acqua
GUSTO
oligominerale perfettamente insapore e non fredda
lirregolarit di trama superficiale di circa 10 micron a
TATTO contatto con il polpastrello dellindice destro, con carta ben
tesa e cute asciutta
un ml di profumo vaporizzato nel volume daria di un
OLFATTO
appartamento di tre vani
I recettori sensoriali 65 sono delle cellule nervose specializzate collocate allestremit degli
organi di senso con il compito di raccogliere i segnali esterni e di trasmetterli al sistema nervoso
centrale. Lesperienza sensoriale e quindi la percezione, come gi detto, non di competenza dei
recettori sensoriali o in generale delle parti periferiche del sistema nervoso ma, come tutto ci
che riguarda la coscienza, di competenza esplicita di alcuni neuroni della corteccia cerebrale.
Volendo semplificare lo schema del sistema sensoriale e percettivo potremmo immaginare la
sua architettura. I recettori specializzati (uditivo, visivo, tattile, olfattivo e gustativo) registrano
lo stimolo esterno e lo trasmettono attraverso le vie nervose alle aree specializzate della cor-
teccia. Il segnale trasmesso grazie alle connessioni intermedie poste lungo il suo percorso tra i
recettori e le aree corticali, riesce, contemporaneamente a diffondersi per altre strade. proprio
attraverso questi percorsi paralleli e associati che il segnale sensoriale pu essere memorizza-
.
to, confrontato con altre esperienze memorizzate in precedenza, acquisire una connotazione
affettiva ecc. Anche la corteccia cerebrale, essendo composta da una decina di strati di cellule
collegate fra loro sia verticalmente che orizzontalmente, si comporta come una rete attraverso
la quale i segnali possono essere diffusi in diverse regioni ed associati tra loro 66.
Tra tutti i segnali che la sensazione uditiva pu captare, in questa sede daremo mag-
giore rilevanza a quelli linguistici e a quelli che si trovano alla base del processo comu-
nicativo tra gli esseri umani. Il meccanismo della ricezione del segnale fonico-acustico
consta di due differenti fasi: la prima periferica in cui il segnale viene raccolto, trasfor-
mato nellorecchio e poi inviato al cervello e la seconda centrale dove il risultato della
prima fase viene interpretato dallascoltatore ed in cui viene compreso il significato del
segnale ricevuto realizzando appieno la percezione.
Le tappe nella fase periferica sono le seguenti 6 7:
Nella fase centrale gli impulsi nervosi arrivati al cervello raggiungono la corteccia
uditiva (cio quella parte della corteccia cerebrale situata in ciascun lobo temporale del
cervello) dove ha luogo la conversione (gli originali suoni) in rappresentazioni mentali e
dove si realizza lassociazione ad un significato.
Lapparato uditivo comprende lorecchio, il nervo acustico (che rientra nel sistema
nervoso) e la corteccia uditiva. Lorecchio convenzionalmente suddiviso in esterno,
medio ed interno. Lorecchio esterno costituito dal padiglione auricolare e dal condotto
uditivo esterno. Il primo visibile esternamente e la sua particolare forma intercetta i
suoni nellambiente, favorisce la localizzazione della sorgente sonora e incanala il suo-
no verso lorecchio medio attraverso un canale lungo circa 25 mm che si chiude con
la membrana timpanica. Da qui ha inizio lorecchio medio costituito dalla membrana
timpanica (un sottile organo di forma circolare e sezione conica) e dalla catena dei tre
ossicini martello, incudine e staffa i cui nomi richiamano la loro particolare forma. Qui
le vibrazioni dellaria che colpiscono il timpano vengono trasformate in vibrazioni mec-
caniche di un corpo solido. Lultimo ossicino della catena, la staffa, si muove verso una
membrana della finestra ovale che trasmette la vibrazione amplificata al fluido della
coclea presente nellorecchio interno. La vibrazione ancora una volta trasformata da
vibrazione di corpi solidi in vibrazione di corpi liquidi. La parte pi interna dellorecchio
costituita dalla coclea totalmente immersa in un ambiente liquido. La coclea presenta
un insieme di strutture parallele disposte a spirale di due giri e tre quarti che conferiscono
il tipico aspetto di chiocciola. Linterno della coclea comprende lorgano sensoriale o
organo del Corti (dal nome del suo scopritore). Ad esso affidato il compito pi impor-
tante e delicato della sensazione uditiva: trasformare le vibrazioni di un corpo liquido
in impulsi nervosi da inviare al cervello. Lorgano del Corti costituito da uno strato di
cellule alcune delle quali dette ciliate che svolgono la funzione sensoriale. Vengono dette
ciliate proprio perch allestremit presentano numerosi filamenti sottili simili a delle
ciglia. Lestremit inferiore delle cellule ciliate interne collegata con i prolungamenti
periferici dei neuroni del nervo acustico. Il meccanismo prevede che lo spostamento del-
le cellule ciliate provocato dalla vibrazione del liquido, produce uneccitazione elettrica
che si trasmette prima ai neuroni del nervo acustico e successivamente viene propagata
verso il sistema nervoso centrale dove raggiunge la corteccia uditiva, ovvero quellarea
del cervello che presiede alla ricezione delle sensazioni uditive.
Il suono, come molti altri fenomeni naturali, pu essere analizzato sia dal punto di
vista delle sensazioni che provoca nelluomo, sia da un punto di vista fisico e oggetti-
vo. Una canzone pu essere studiata osservando le sensazioni emotive che stimola in
ognuno di noi, oppure acusticamente analizzando le sue frequenze e le sue intensit.
Nonostante la complessit dei meccanismi che consentono di captare il suono, di tra-
sformarlo in movimenti meccanici, di codificarlo in impulsi nervosi e di trasmetterli al
cervello, non si deve avere lingenua convinzione che esista una relazione automatica
tra le caratteristiche oggettive dei suoni nellatto della produzione e le sensazioni che
lascoltatore riceve: non vi unesatta corrispondenza tra il suono prodotto e quello
percepito. Al contrario, il rapporto tra lacustica e la psicologia molto complesso e
viene studiato da una branca della psicologia detta psicoacustica o dalla fonetica per-
cettiva. Tali scienze mirano a delimitare i confini tra linsieme dei fenomeni acustici
che possono essere percepiti dalluomo e linsieme dei fenomeni non udibili (soglia
assoluta). Esse mirano inoltre a individuare le possibilit delluomo nel cogliere le
differenze tra suoni diversi (soglia differenziale) e a stabilire una relazione tra gran-
dezze oggettive e grandezze soggettive (cio le sensazioni che un suono pu indurre
nellascoltatore).
Come gi detto, la soglia assoluta stabilisce il limite inferiore e superiore di inten-
sit al di sotto e al di sopra del quale non si ha alcuna sensazione uditiva del segnale
sonoro: soglia delludito, soglia del dolore (cfr. tabella 6.1). Tuttavia bisogna precisare
che lintensit della soglia delludito e della soglia del dolore non uguale per tutti i
suoni poich varia in funzione della frequenza e delle caratteristiche fisico-anatomiche
dellascoltatore soprattutto in relazione allet. Si hanno diverse soglie per diverse fre-
quenze e un valore medio di soglia in base ai diversi ascoltatori. Riassumendo affinch
un suono venga percepito dalla membrana timpanica necessario che la sorgente sonora
vibri ad una frequenza compresa tra 16 e 16.000 Hz 68. Lorecchio infatti percepisce un
suono e lo trasmette al cervello solo se la frequenza rientra in questa gamma (definito
campo di udibilit) e se le onde sinusoidali causate dalla vibrazione della sorgente e via
via dallo spostamento dellaria, hanno unampiezza sufficiente ad eccitare e far vibrare
la membrana timpanica 69. Una variabile parimenti importante nella percezione la di-
stanza dal punto di origine del suono: pi ci si allontana dalla sorgente e pi il suono si
sente meno forte. In ogni punto del fronte dellonda lintensit sonora minore di quella
inizialmente presente alla sorgente e diminuisce proporzionalmente al quadrato della
distanza dalla sorgente 70.
Di seguito presentiamo alcuni valori che ben definiscono la relazione tra intensit,
pressione sonora ed effetto sulluomo.
Intensit Pressione sonora PA Livello di Pressione (dB) Condizioni ambientali Effetto sulluomo
(w/m2)
100 200 140 soglia del dolore lesioni dellorecchio
10 130 martello pneumatico
1 20 120 forte clacson a 1 m pericolo di sordit
0,1 110 musica pop
0,01 2 100 nella metropolitana stato di affaticamento
0,001 90 nellautobus
0,0001 0,2 80 traffico medio
0,00001 70 conversazione a 1 m stato di riposo
(diurno)
0,000001 0,02 60 in un ufficio
0,0000001 50 in casa (di giorno)
0,00000001 0,002 40 in biblioteca stato di riposo
(notturno)
0,000000001 30 in casa (di notte)
0,0000000001 0,0002 20 sala di registrazione
0,00000000001 10
0,000000000001 0,00002 0 soglia delludito
Tabella 6.1 Tavola di corrispondenza tra intensit, pressione sonora ed effetti sulluomo71
Un ascoltatore, quindi, non percepisce tutti i suoni presenti nella realt ma solo quel-
li che ricadono nel campo di udibilit, ovvero linsieme dei suoni udibili dallorecchio di
un soggetto normo-udente. Questo campo di udibilit presenta sullasse delle ascisse la
frequenza espressa in Hertz e sulle ordinate, lintensit espressa in dB. Come presenta la
figura seguente, affinch un suono venga percepito dalluomo, deve avere una frequenza
di vibrazione compresa tra 16-20 Hz e 16-20 kHz, mentre lintensit in relazione alla
frequenza. Un suono di 3000 Hz viene percepito dallorecchio umano se caratterizzato
da un livello di pressione sonora di circa 0,5 dB mentre un suono di 300 Hz per essere
percepito dallo stesso ascoltatore deve avere un livello di pressione di circa 20 dB. A
queste caratteristiche deve anche essere aggiunta la durata che deve essere superiore a
10-20 ms7 2 .
La soglia differenziale in termini acustici la minima differenza rilevabile nei va-
lori di un dato parametro (ad esempio intensit o frequenza) di due stimoli acustici. Per
quanto riguarda la soglia differenziale dintensit, essa varia tra 0,5 e 1 dB. Quindi se un
soggetto riceve due segnali rispettivamente di 40 dB e di 40,3 dB non percepir alcuna
differenza di intensit dal momento che la differenza di 0,3 dB si trova al di sotto della
soglia differenziale 73.
Per quanto riguarda invece la soglia differenziale della frequenza, semplificando molto
la questione, riportiamo che il sistema uditivo umano non ha un andamento lineare alla
risposta ma bens logaritmico74. Cos suoni con bassa frequenza hanno un potere di discri-
minazione maggiore rispetto a suoni ad alta frequenza. Ad esempio, una differenza di 1Hz
viene riconosciuta tra due toni di 100 e 101 Hz, ma non tra due toni di 2000 e 2001 Hz 75.
La scuola psicologica della Gestalt deve essere ricordata per lenorme mole di studi
dedicati alla percezione delle cosiddette figure ambigue. Gli studi sperimentali si ba-
sano sullanalisi delle risposte di un grande numero di soggetti riguardo alcune immagini
visive che prevedono due diverse interpretazioni. I soggetti istintivamente forniscono
una prima interpretazione che per sono pronti immediatamente a rigettare e disconos-
cere quando loperatore fornisce loro una diversa chiave di lettura. Esperimenti simili
sono stati effettuati, recentemente, anche su materiale sonoro e lattenzione stata rivolta
soprattutto sul fenomeno definito effetto Mondegreen. Ad ognuno di noi sar capitato
di ascoltare una canzone in una lingua straniera e percepire acusticamente una o pi frasi
in modo errato, ovvero essere convinti di percepire una precisa frase nonostante il testo
riporti un contenuto molto diverso. La stessa parola Mondegreen frutto di unerrata
percezione di un verso di una ballata scozzese 79, la cui corretta trascrizione : Ye High-
lands and Ye Lawlands/ Oh Where haeyebeen?/ They hae slay the Earl of Murray / and
he laid him on the green. Sylvia Wright nel 1954, collaboratrice di Harpers Magazine,
racconta in un articolo intitolato The Death of Lady Mondegreen che la mamma da
bambina le cantava sempre una ballata scozzese che la scrittrice aveva percepito e rein-
terpretato in maniera completamente differente, immaginando una Lady Mondegreen,
bionda e bellissima che muore a fianco del suo grande amore il duca Amurray 80. Il suo
articolo si basa proprio sulla considerazione di come unerrata o una nuova ricostruzione
sintattica di una frase percepita, possa far nascere e sviluppare nuove fantasie nella men-
te di una bambina o di una persona in genere. La pubblicazione di questo articolo con-
sacr la nascita del termine effetto Mondegreen81 e qualche anno dopo William Safire
editorialista del New York Times in un lavoro dal titolo On Language (1980) propone
una differenziazione e una classificazione dei diversi effetti mondegreen.
Quando le parole percepite vengono divise in modo differente rispetto alloriginale,
si ha un effetto chiamato Metanalisi: ad esempio interpretare il nome proprio Gorvey
Doll invece di Gore Vidal, oppure in latino (in alcune scritture come lOnciale 82, spesso
non sono presentati gli spazi soprattutto nei codici pi antichi) INDIEBUSILLIS inter-
pretato come IN DIE BUSILLIS invece di IN DIEBUS ILLIS.
Se invece le parole vengono modificate nel passaggio da una cultura ad unaltra lef-
fetto si chiama The Law of Hobson-Jobson8 3 . Il nome dato a questo effetto, indica in
Anglo-Indian English, un festival o qualunque tipo di intrattenimento ma soprattutto la
cerimonia del Mourning of Muharram (ricordo del lutto di Muharram). Originariamente
il termine Yasan! Yosain! stato male interpretato dai militari inglesi. I devoti
ripetevano gridando per tutta la processione una forma gi interpretata e parzialmente
convertita rispettivamente negli anni Hosseen Gosseen Hossy Gossy Hossein Jossen,
fino ad arrivare ad Hobson-Jobson. Altri esempi del passaggio e della interpretazione
lessicale dalla lingua Hindi allinglese sono il termine Bandanna da Bandhna, benda che
copriva la testa o Shampoo da chmpo, imperativo del verbo chmpn che significa mas-
saggiare con un olio i muscoli e soprattutto la testa prima di fare il bagno. Anche molti
nomi di uccelli sono stati reinterpretati da ornitologi inglesi su base linguistica Hindi.
Un ulteriore effetto il Malapropismo, o il mutamento semantico indotto da una
cattiva comprensione. Il termine lo si deve agli errori di Mrs. Malaprop, un personaggio
del testo teatrale The Rivals di Richard Sheridan (1775). Alcuni esempi sono: the bronze
Lullaby invece di the Brahms lullaby. In Italia Antonio De Curtis in arte Tot utiliz-
za questo effetto in alcune delle sue scenette come in Toto contro Maciste (Fernando Cer-
chio, 1962) quando ripete Perch abbiamo portato le armi a questo cimento?,Perche
questo un cimento armato.
Pi eclatante leffetto registrato nelle canzoni come mostrano gli esempi nelle
tabelle seguenti.
Autore Titolo Originale Mal percepito
Bob Dylans Blowin In the Wind The answer, my friend, is... The ants are my friends, is
Creedence Bad Moon Rising Theres a bad moon on the rise Theres a bathroom on the
Clearwater Revivals right
Jimi Hendrix Purple Haze Excuse me while I kiss the sky Excuse me while I kiss this
guy 1
Originale dallInno In The Garden And He walks with me Andy walks with me
the Lords Prayer hallowed be thy name Harold be Thy name
Beatles Let it be Let it be Lady D.
Elisa Scent of dried flowers, and and Im talking to the phone,
Im walkin through the fog, talking to the phone
walkin through the fog
Tabella 6.4 Esempi tratti dalla lingua italiana (gli esempi sono tratti da alcune chat 85)
Molti linguisti negli anni, hanno creato nuove classificazioni e assegnato nuovi nomi
a questi fenomeni come omofonia, paronomasia involontaria o anche agnominatio
ma mondegreen rimane la definizione pi nota 86.
Tutti i casi appena citati di ambiguit nella percezione acustica si verificano con se-
gnali caratterizzati da unalta qualit acustica, immaginiamo quanto tali fraintendimenti
possano diventare pi frequenti, e forse anche giustificabili, in casi particolari di segnali
degradati, o corrotti e sporcati da un rumore di fondo. Tuttavia noto (cfr. successivi)
che le strategie messe in atto dallascoltatore durante il processo di percezione sono sor-
prendenti. Appena il cervello stabilisce che un segnale sonoro percepito una voce, mette
in atto diverse tecniche finalizzate al raggiungimento della migliore percezione o quanto
meno, quella pi vicina alla realt. Ovviamente se al rumore associamo la poca cono-
scenza della lingua da percepire, si pu giungere ad un vero e proprio assurdo percettivo.
Si pu intendere un testo in lingua straniera come un testo prodotto nella propria lingua,
oppure, grazie ad una particolare abilit del cervello umano, percepire come linguaggio
parlato, segnali sonori che in realt rappresentano tuttaltro come rumori o ricorrenze 87.
Molti sono gli studi di linguistica, fonetica e psicologia orientati alla comprensione
dei meccanismi che stanno alla base della percezione del linguaggio umano. La stessa
espressione percezione del parlato, ha bisogno di una ulteriore differenziazione in per-
cezione prima e riconoscimento della parola dopo.
Partendo dallesposizione ad un determinato segnale acustico, la percezione avviene
riconoscendo le varie unit fonologiche presenti che vengono raggruppate in unit su-
periori quali sillabe, parole e frasi; nel riconoscimento della parola anche detto accesso
lessicale, si collega il segnale sonoro segmentato ed etichettato con i significati ad esso
correlati. Tale processo avviene parola per parola giungendo in seguito alla comprensio-
ne dellintero messaggio ricevuto.
Il meccanismo della percezione del parlato implica, quindi, diverse fasi di analisi che
interessano differenti livelli della lingua come quello fonetico, fonologico, lessicale, sin-
tattico e semantico 88. Questi meccanismi di elaborazione e di interpretazione del segnale
sonoro si trovano in precise aree della corteccia cerebrale.
Solo negli ultimi anni la ricerca si concentrata sulla fonetica percettiva, differen-
ziandola da quella articolatoria e acustica e questo ha permesso di poter sviluppare di-
versi modelli e teorie sui meccanismi in atto nel processo percettivo linguistico. Fino
a qualche hanno fa, infatti, tutti gli studi erano concentrati sulla produzione e quindi
sullemittente pi che sulla percezione e sul ricevente o ascoltatore. Questo nuovo punto
di vista evidenzia le posizioni diametralmente opposte delle teorie passive e attive che
privilegiano rispettivamente la produzione e la percezione.
Forse il motivo principale dellopposizione tra il parlante e lascoltatore (presente
anche in Saussure) e di questo sbilanciamento di interesse nei confronti del parlante si
comprende meglio se si considerare la differenza tra il parlare e ludire. Il parlato ester-
no, percepibile (anche dal parlante stesso), analizzabile e registrabile; ludire invece un
processo interno, interiore, soggettivo e invisibile, che richiede competenze non necessa-
riamente linguistiche e tecniche e metodi di osservazione molto lontani dalla linguistica
classica.
Nonostante ritenga che solo una teoria attiva della percezione possa aiutare la com-
prensione del meccanismo percettivo, di seguito illustrer alcuni concetti base quali lin-
varianza, la percezione categoriale e la percezione di segmenti vocalici e consonantici
che hanno caratterizzato il nostro secolo.
Uno dei maggiori problemi per chi studia la percezione del parlato, sicuramente
quello della mancanza di invarianza 89 acustico-fonetica del segnale prodotto dal parlan-
te90. Le analisi sperimentali, condotte dai fonetisti sul segnale acustico, mostrano come
ogni blocco di parlato (gruppo di respiro) sia in realt un continuum e non una sequenza
di elementi discreti (fonemi, sillabe, parole). diffusa la convinzione (soprattutto nel
mondo occidentale dove si utilizza la scrittura alfabetica), che il parlato, cos come la
scrittura, sia una sequenza regolare di elementi discreti e differenti ed inoltre, che ogni
unit, anche se prodotta foneticamente, sia sempre uguale a se stessa. Ovviamente questa
concezione della produzione del linguaggio molto ingenua: tutti gli studi effettuati sul-
la co-articolazione91 provano in maniera imprescindibile che il parlato non facilmente
segmentabile e che i fonemi (i suoni da realizzare) vengono co-prodotti, causando una
sovrapposizione sullasse immaginario del tempo. Nel continuum sopra accennato risulta,
quindi, difficilmente identificabile stabilire i confini dei singoli foni (suoni realizzati) e
inoltre ogni singolo fono presenta una notevole mancanza di invarianza visto che adatta
la sua produzione ai foni che lo precedono e che lo seguono, diminuendo e attenuando le
proprie differenze. Per poter rendere il processo della produzione del linguaggio veloce e
continuo e soprattutto per ridurre al minimo lo sforzo, il parlante mette in atto una strategia
per accomodare la produzione dei segmenti vicini rendendo pi morbide le transizioni. Il
processo concepito come linfluenza di un segmento linguistico sui segmenti adiacenti,
quasi una diffusione delle caratteristiche di un dato segmento suoi contorni e conseguente-
mente di un accomodamento dei suoni adiacenti. Dunque ogni volta che si parla i singoli
fonemi vengono co-articolati e la loro realizzazione non rispecchia mai quella degli stessi
suoni prodotti isolatamente. Pronunciando la parola bande, notiamo che i singoli suo-
ni si accomodano articolatoriamente. Inizialmente lapparato articolatorio si atteggia
per produrre il suono [b], quindi labbra completamente chiuso chiuse ed aria bloccata
allinterno della bocca, ma subito dopo le labbra si aprono predisponendosi per la pro-
duzione della vocale [a] quindi labbra completamente aperte e aria libera di uscire.
Questo meccanismo di impostazioni non mantenute e accomodate continua fino alla
fine della parola, dura per tutto il continuum fonico rallentando la sua esecuzione solo
durante la produzione delle vocali e soprattutto della vocale [a] caratterizzata dallac-
cento92. Inoltre il suono /n/ trovandosi prima del suono [d] prodotto con la punta della
lingua ai denti, accomoda la sua produzione nello stesso luogo del segmento seguente
diventando anchesso dentale (si noti la differenza del luogo di articolazione del suono
/n/ in parole come anfora angelo o ancora). Quindi nella parola bande molto del mate-
riale prodotto consiste di transizioni da un suono allaltro, da un segmento precedente a
quello successivo producendo come risultato un continuum costituito da suoni assoluta-
mente variabili. Il compito della percezione sar proprio di far corrispondere alla varia-
bilit acustica uninvariabilit percettiva. Lascoltatore, infatti, riesce a riconoscere ed
individuare elementi precisi, riconosciuti ogni volta come identici e unici, nonostante
gli effetti di co-articolazione. Egli categorizza i suoni linguistici percepiti (effettua una
percezione categorica), in grado di dividere il continuum fisico in categorie nettamen-
te separate riconoscendo le diverse unit fonologiche. Riconosce porzioni discrete nel
continuum della produzione fonetica costituita da bersagli non raggiunti, impostazioni
non mantenute e realizzazione di forme allofoniche e variabili (cfr. Introduzione alla
Linguistica, di A. Mendicino).
La ricerca oggi concentra la propria attenzione sui processi neurolinguistici attivati
nel processo di categorizzazione. In alcune ipotesi di ricerca, il cervello umano ha la
capacit di concentrarsi su precisi tratti distintivi del segnale e di confrontare in tempo
reale questi elementi con la propria esperienza linguistica giungendo a previsioni e infe-
renze sul riconoscimento dei singoli suoni discreti.
Una teoria quindi di tipo top-down, che si muove da un livello alto degli schemi
neuro-motori codificati internamente dallascoltatore ad un livello basso della decodifica
del segnale, ovvero il riconoscimento dei segmenti da parte dellascoltatore.
La teoria definita Analysis-by-synthesis fu elaborata da Stevens e Halle a partire
dal 1967 e segue sostanzialmente il principio della teoria motoria diventandone quindi
unevoluzione. Il modello di analisi-attraverso-sintesi, in sintonia con quanto postulato
da Liberman (op. cit.), conferma lesistenza di profonde connessioni tra il meccanismo
di produzione e quello di percezione, spiegando il collegamento tra linvarianza percet-
tiva e linvarianza neuro-motoria, attraverso alcune regole generative della percezione
usate anche nella fase produttiva del linguaggio.
Ogni volta che lascoltatore esposto ad un determinato segnale acustico sviluppa
un primo livello di analisi uditiva del segnale in base al quale identifica le caratteristiche
fisiche e stabilisce, approssimativamente, unipotesi interpretativa del segmento fonico
di ingresso. In altre parole, durante la percezione, lascoltatore elabora una sintesi, o
replica, di ci che ha udito. Successivamente chi ascolta non deve fare altro che confron-
tare questa sintesi con la sequenza fonica conservata in memoria. Operato tale confronto,
se le due versioni (la sintesi ed il segnale memorizzato) coincidono, lanalisi operata
inizialmente si rivela positiva e dunque la sintesi pu essere accettata come uninterpre-
tazione corretta del segnale di ingresso; in caso contrario, sono necessari pi raffinati
processi di analisi fino ad ottenere la sintesi esatta.
Secondo tale modello nel processo percettivo di decodifica, lanalisi del dato acustico
deve condurre ad una rappresentazione astratta dei segmenti, uguale a quella generata nella
fase di produzione. Le regole che operano sui tratti e che trasformano le rappresentazioni
astratte in istruzioni concrete, sono immagazzinate nella memoria di ogni parlante-ascoltatore.
Negli ultimi anni la ricerca ha rivolto la propria attenzione alle informazioni, sia in-
terne che esterne al segnale, che concorrono al processo della percezione. La percezione
del parlato non dipende solo dallanalisi acustica del segnale sonoro ma dal concorso in-
formativo del contesto fonico e situazionale in cui i suoni sono emessi, delle conoscenze
e delle aspettative dellascoltatore e della lingua usata dal parlante.
Supponiamo per esempio che due soggetti stiano ascoltando un parlante inglese ma
che solo uno dei due conosca la lingua inglese. Solo lui potr effettuare una corretta ana-
lisi del segnale acustico e quindi giungere ad una corretta percezione 104.
Durante il processo percettivo per, lascoltatore non si basa solo sulla conoscenza della
lingua ma su molti fattori esterni al segnale che aiutano nel predire ci che potrebbe essere
stato detto. Un esempio nel quale ognuno di noi potrebbe imbattersi nella vita quotidiana
potrebbe essere quello di due colleghi che conversano durante una pausa lavorativa al bar e
uno dei due produce una frase del tipo: Vedo che il lavandino ritornato al suo solito posto!,
lascoltatore riesce a percepire e disambiguare la frase solo se a conoscenza del fatto che
recentemente in quel locale si era verificato un problema allimpianto idraulico, a causa del
quale il lavandino era stato rimosso. Senza la conoscenza dei fatti antecedenti sarebbe impos-
sibile qualunque tipo di comprensione della frase anche perch la stessa semanticamente
incoerente, il lavandino non essendo animato non pu essere soggetto del verbo ritornare.
Senza voler in questa sede spingerci oltre affermando la secondaria importanza del
segnale acustico, possiamo affermare che lascoltatore sceglie di volta in volta di com-
pletare una frase giungendo ad una corretta comprensione avvalendosi di informazioni
acustiche o di informazioni extralinguistiche o di entrambe.
Questo atteggiamento il fondamento della Hyper- and Hypospeech Theory, nota
pi semplicemente come H&H Theory ipotizzata da Lindblom (1990).
La teoria postula limportanza, nella percezione del parlato, di due tipi di informazio-
ne, quella interna al segnale (informazione fonetica e signal dependent) e quella esterna
fornita dal contesto linguistico ed extra-linguistico (signal independent). Lindblom ritie-
ne che nella percezione del parlato intervenga una sorta di calcolo di previsione da parte
dellascoltatore 105. Sulla base delle proprie conoscenze, della conoscenza del suo interlocu-
tore, del focus della conversazione, della sintassi, del lessico, del sistema fonologico e del-
lo stile di eloquio usato dallinterlocutore, il ricevente o ascoltatore si aspetta, ad un certo
punto, una precisa parola o una parola allinterno di una gamma ristrettissima di alternative
possibili. Lascoltatore non dovr che confermare e verificare le proprie ipotesi percettive.
Nel parlato spontaneo il contributo esterno al segnale necessario soprattutto poich
esso generalmente ipo-articolato (hypo-speech) e caratterizzato da fenomeni quali la mag-
giore velocit di eloquio, il forte aumento degli effetti di coarticolazione, e quindi della va-
riabilit, la sostituzione o perdita di alcuni tratti fonetici e talvolta di interi suoni e sillabe, la
riduzione della durata vocalica soprattutto in contesti sillabici del tipo CVC ecc. Il risultato
un parlato che richiede poco impegno allemittente e molti problemi a chi ascolta. Lindblom
suggerisce che in casi simili il solo dato fisico del segnale acustico non sufficiente per una
corretta percezione e che quindi bisogna integrarlo con dati extralinguistici 106.
Ci rende il parlare un processo estremamente flessibile dove il parlante capace di
variare, quasi per una selezione naturale, la sua produzione lungo un continuum che va
dallhyper-speech (parlato molto accurato e perfettamente scandito), allhypo-speech ap-
pena descritto, a seconda del contesto comunicativo-situazionale. Scegliendo la modalit
ipo-articolata (informale e trascurata), il parlante ripone molta fiducia nel ruolo del desti-
natario durante il processo percettivo, ritenendo che egli abbia informazioni sufficienti
per percepire e disambiguare il segnale acustico.
La mancanza di invarianza del segnale sonoro una diretta conseguenza di questa or-
ganizzazione adattativa del parlante. In particolar modo da imputare alla scelta del parlato
ipo-articolato 107 la variazione fonetica, ovvero quellinsieme di modificazioni precedente-
mente citate, subite dai segmenti fonici al fine di una maggiore economia e una maggiore
velocit nel processo produttivo del linguaggio. In questo caso sono proprio i dati esterni
al segnale di cui dispone il ricevente a risolvere il problema della mancanza di invarianza.
Lesatto contrario si ottiene nel parlato iper-articolato (hyper-speech): lo stile utiliz-
zato durante una conferenza, o quello di un presentatore o di un annunciatore. Si tratta
evidentemente di un parlato che appare artificiale (es. ho detto RobertO e non RobertA),
dove il controllo motorio altissimo ed i movimenti articolatori sono mirati ed orientati
verso un preciso bersaglio che spesso viene raggiunto. Si richiede molto impegno a chi
parla, mentre il compito dellascoltatore quasi inesistente dato che unarticolazione
iper-corretta risolve quasi del tutto il problema della mancanza di invarianza. In questi
casi assume valore quanto affermato nelle teorie percettive passive. Si riceve il segnale
acustico, lo si traduce in segmenti invarianti e lo si percepisce.
Un ulteriore tassello nel percorso della percezione del parlato riguarda la correlazione
tra significante o forma acustica prodotta e percepita e significato o concetto e idea. Tale
correlazione necessita di un approfondimento del concetto di lessico mentale 108.
Il lessico mentale risiede nella memoria a lungo termine delluomo ed una specie di
deposito che contiene le rappresentazioni mentali corrispondenti alle parole di una lingua.
Lascoltatore si serve della rappresentazione fonologica di una parola per ricercare in-
formazioni riguardo al suo significato, la sua categoria ed il tipo di struttura in cui essa pu
comparire. Il lessico mentale organizzato in base a determinati principi, ovvero laccesso
ad una determinata parola influenzato da diverse variabili come ad esempio la frequenza di
occorrenza. Secondo questo punto di vista le parole pi utilizzate avrebbero un accesso pi
veloce, sarebbero anche quelle pi brevi proprio per economizzare sia il processo produttivo
che quello percettivo (vedi articoli o nomi di uso comune)109. Una seconda ipotesi invece
propone di correlare la velocit di accesso al lessico mentale alluso pi o meno recente di
una parola. Laccesso sarebbe pi veloce con le entrate lessicali utilizzate pi di recente.
Anche sullorganizzazione del lessico mentale le teorie non sono del tutto concor-
danti, la pi immediata e di facile intuizione prevede che siano le propriet fonologiche
della parola a guidare il processo di accesso al lessico, mentre la teoria riportata da autori
come Forster (1976-1979) presuppone lesistenza di un solo grande lessico contenente
tutte le informazioni concernenti le parole, chiamato archivio centrale organizzato in
base alle caratteristiche fonologiche e degli archivi daccesso periferici organizzati in
base a propriet sintattiche, semantiche ecc.
Ritornando al riconoscimento di parola, la ricerca scientifica si divide in due grandi fi-
loni, la linea autonoma, per cui il riconoscimento di parola un processo seriale o modulare
dove i diversi livelli di analisi non interagiscono tra di loro e la linea interattiva che prevede
unintegrazione dei diversi livelli di analisi. La linea interattiva ultimamente sembra essere la
teoria pi accredita producendo due importanti modelli definiti della Coorte e Trace.
Il modello della Coorte fu elaborato da Marslen-Wilson e Tyler 110 intorno alla seconda
met degli anni 80 e presuppone che il riconoscimento della parola sia articolato in tre
diverse fasi, le prime delle quali appartengono ad un livello definito prelessicale.
Nella fase 1 o di accesso, le informazioni acustiche vengono usate per attivare item
lessicali e si genera un set di candidati per il riconoscimento, detto appunto coorte; nella
fase 2 o della selezione, si sceglie uno solo dei candidati giungendo al punto di unicit;
nella fase 3 o della integrazione, si usano ulteriori informazioni di tipo sintattico e se-
mantico per completare il processo percettivo.
Ad esempio se il parlante produce la parola elefante, lascoltatore effettuer i se-
guenti procedimenti:
la /e/ iniziale presente in ben 3465 parole;
la /el/ inziale invece in 401 parole;
/ele/ iniziale in 183 parole;
/elef/ in 6 parole
/elefa/ in 6 parole
/elefan/ in 6 parole
/elefant/in 6 parole
/elefante/ in una sola parola, raggiungendo lassociazione segnale acustico-parola pre-
sente nel lessico mentale.
6.5.5.3. Modello Trace
Elman e McClelland 111 ideatori del Modello Trace, postulano che nellorganizzazione
del lessico mentale esistono diversi nodi, o sistemi di unit, costituiti da tratti come quel-
lo consonantico, vocalico, sonoro; fonemi come /a/, /u/, /b/; e parole come viaggio, albe-
ro o mare. I nodi sono tra loro interconnessi attraverso relazioni eccitatorie bidirezionali
quando i livelli sono diversi. Ad esempio il nodo fonetico eccita quello della parola e
viceversa e relazioni inibitorie bidirezionali quando i nodi si trovano allo stesso livello
come ad esempio quando lattivazione di un dato fonema inibisce quella di un altro.
La sequenza di eccitazioni ed inibizioni attraverso i nodi forma nella memoria
dellascoltatore una sorta di traccia (da cui il nome del modello) che porta al riconosci-
mento della parola.
6.5.6. Riassumendo
In tutte le teorie percettive presentate il maggior problema resta quello della mancanza
di invarianza nel parlato spontaneo. Probabilmente la proposta pi realistica quella pro-
posta da Lindblom in cui lascoltatore si basa oltre che su informazioni acustiche anche e
forse soprattutto su informazioni compensative presenti su livelli indipendenti dal segnale
ed extra-linguistiche. Gli altri modelli presentati risultano essere funzionali solo ed esclu-
sivamente nei casi di parlato ipertaricolato (molto raro nella vita quotidiana), dove per la
natura stessa del segnale il problema della variabilit fonetica non si pone. Infine il ricono-
scimento di parola, al di la dei modelli presentati, immediato, quasi meccanico e semplice
nonostante la conclamata variabilit presente a tutti i livelli della lingua. Gli studi presenta-
ti si concentrano sulla complessit del parlato spontaneo e sulla difficolt nellidentificare
il significato solo ed esclusivamente nelle parole. A questo proposito, Wittgenstein112 riflet-
tendo sul parlato spontaneo, si chiede se urlare mentre si a tavola pane!, sia una forma
ridotta di per favore mi passi il pane? dove la prosodia, lintonazione e le informazioni
extralinguistiche avranno il compito di supplire e riempire i vuoti, oppure se la forma
per favore mi passi il pane? ad essere una forma espansa e ridondante. Quindi la normale
comunicazione sarebbe costituita da forme ridotte corredate da informazioni extralinguisti-
che. Come quando rispondendo ad una domanda chi ? al citofono diremo deitticamente
io! affidando il nostro riconoscimento non allinformazione lessicale e linguistica ma
solo ed esclusivamente alle caratteristiche acustiche della propria voce e alla convinzione
che il nostro interlocutore possa esplicitarle avvenendo ad un corretto riconoscimento113.
Altro invece linformazione globale del parlato che non include esclusivamente il
significato delle singole parole. Secondo Schultz, 2007:54 esiste una serie di informazioni
che possono essere dedotte dal parlato secondo una precisa tassonomia di seguito riportata:
Caratteristiche del parlante
fisiologiche psicologiche
identit
et genere comuni
salute
ruolo
individuali Rapporti socioletto
personali
Vocali e consonanti prima, sillabe e parole dopo, tutte insieme si raggruppano, si adatta-
no per formare un unico atto linguistico. La psicolinguistica e la neurolinguistica, soprat-
tutto negli ultimi anni e grazie ad alcune tecniche strumentali molto sofisticate, ha appro-
fondito il problema del riconoscimento delle parole, della comprensione delle frasi, del
testo o del discorso. La prova indiscutibile che esiste una comprensione a livelli separati
e soprattutto a livello superiore, data dal fatto che alla fine di un discorso, il soggetto
non ricorda lesatta sequenza delle parole ascoltate, ma un riassunto, una rielaborazione,
una comprensione di fatto superiore rispetto a quella relativa alle singole vocali, sillabe,
parole o frasi.
Una comunicazione orale avviene sempre in un preciso contesto, in una determinata situa-
zione, tra specifiche persone, utilizzando un preciso codice e grazie ad una certa cooperazione
tra emittente e ricevente che si avvale dellapporto di tutta una serie di conoscenze condivise.
Secondo Firth (1957) la conversazione un rituale, molto di pi di quanto si pensi. [...] non
siete liberi di dire quello che volete (ndr. il contesto e linterlocutore condiziona). Siamo nati
individui, ma per soddisfare le nostre esigenze dobbiamo diventare persone sociali.
La maggior parte degli atti comunicativi e quindi degli scambi conversazionali, sem-
bra fondarsi sullassunto che i partecipanti cooperano tra loro, collaborano alla buona
riuscita della conversazione. Questo principio stato stigmatizzato da Grice (1975) in
quattro massime: il tuo contributo alla conversazione sia tale quale richiesto, allo sta-
dio in cui avviene, dallo scopo o orientamento accettato dallo scambio linguistico in cui
sei impegnato. Le massime identificate sono:
1) quantit d un contributo tanto informativo quanto richiesto, n pi n meno
di quanto richiesto;
2) qualit non dire ci che credi falso o ci per cui non hai prove;
3) relazione sii pertinente;
4) modo sii chiaro, breve e ordinato.
Lo scambio sarebbe privo di senso e la risposta non sarebbe coerente alla domanda
posta se non ci fosse la cooperazione. Infatti grazie ad essa la risposta data assume il
significato inequivocabile di rifiuto. Per linterlocutore la risposta cos formulata, grazie
al principio di cooperazione, diventa pertinente e informativa e comprende unimplica-
tura124.
Una discussione orale coinvolge molto di pi di quanto possa coinvolgere una co-
municazione scritta. Lemittente portato sempre a verificare landamento della discus-
sione e il destinatario pu favorirne il successo utilizzando segnali etichettati come back-
channels ad es. mmh o si ti seguo, si, si, o ancora esatto; tali segnali possono anche
essere inviati attraverso il codice cinesico, cio con il movimento del capo, o con la
chiusura degli occhi o in tantissimi altri modi che dipendono dalla cultura di apparte-
nenza dellemittente e del destinatario e dal contesto in cui si sta svolgendo linterazione
linguistica. I segnali di conferma stimolano lemittente a proseguire la conversazione,
in mancanza di questi, lemittente pu tornare indietro e riformulare il proprio pensiero
in modo da renderlo pi comprensibile (usando per esempio parafrasi), rendendolo pi
accettabile, pu eliminare parti ritenute troppo ostiche; a volte per raggiungere lo scopo
che va al di l del significato dellatto linguistico, pu addirittura cambiare completa-
mente versione dicendo esattamente il contrario di quanto aveva detto precedentemente
(si pensi ad esempio alla conversazione tra due amanti, o tra un impiegato ed il proprio
datore di lavoro e in tutte quelle situazioni di subalternit o di relazioni asimmetriche).
Un atto comunicativo quindi un progetto e come tale subisce il condizionamento di
alcune variabili come125: il numero dei partecipanti ad una discussione (un emittente ed un
ricevente come un dialogo o una conversazione telefonica; un emittente e un pubblico come
una conversazione, una lezione o una conferenza); la forma; il contenuto e i risultati che si in-
tendono raggiungere; la situazione (intesa come luogo, come scena e stato psicologico sia del
parlante che del ricevente); il canale (la scelta da parte dellemittente, una lettera scritta, una
comunicazione orale in presenza o una telefonata); e il codice scelto tra tutti quelli conosciuti
dallemittente e dal ricevente come litaliano o linglese o diafasicamente diversi come la lin-
gua standard, il dialetto regionale, il gergo, un codice nascosto o cifrato126.
La situazione riguarda sia il parlante che il ricevente. In una comunicazione il par-
lante il centro, tutto ruota intorno a lui, lo spazio organizzato in funzione della sua
posizione, il tempo in base al tempo del parlante (es. deissi spaziali e temporali)127.
La lingua deve quindi essere intesa come un processo, un mezzo di interazione allin-
terno di una situazione e di un contesto. Il mezzo attraverso il quale il parlante definisce il
suo stato sociale, le sue sensazioni, tutte cose che si situano al di sopra della lingua128 e che
lascoltatore sa ben decifrare, latto linguistico assume cos una duplice funzione comuni-
cativa, quella interna o intrinseca alle parole stesse e quella esterna o estrinseca alle parole,
quella che si riferisce ai sentimenti, alle impressioni e alle aspettative del parlante.
Una ulteriore variabile costituita dalle conoscenze condivise. Ogni atto comuni-
cativo, ogni interazione orale fa riferimento a delle conoscenze condivise tra parlante
ed ascoltatore. inutile sottolineare che tali conoscenze non vengono veicolate sul
piano segmentale della comunicazione linguistica (es. quale significato potremmo
mai dare ad una frase del tipo ma gniccognacco lha comprato il pincopalla?). Di
una frase cos prodotta pu essere percepito il segnale acustico ma nessuna interpre-
tazione pu essere possibile se non si hanno le conoscenze condivise del parlante e
dellascoltatore.
Una conversazione e quindi la produzione di un atto linguistico, il frutto di una
collaborazione voluta, di una ricerca e di un lavoro che coinvolge sia lemittente sia il
destinatario, il loro intervento tra cooperazione, condivisione e avvicendarsi di turni, si
fondono senza pi differenziarsi tra loro e fornendo un unico prodotto che la conver-
sazione. Tutto questo non si evince da una analisi del solo piano segmentale. Erronea-
mente quindi, si potrebbe ritenere che lintero atto linguistico preveda semplicemente
un parlante che traduca in parole i propri pensieri ed un ascoltatore che, avvalendosi di
un mero processo passivo, compia una decodifica acustica dei suoni emessi. In realt i
meccanismi che stanno alla base della comunicazione umana sono molto pi complicati,
al punto tale da non essere stati ancora del tutto compresi. Il processo percettivo pu e
deve essere definito, come gi detto in precedenza, un processo attivo, dove chi ascolta
non si serve esclusivamente di informazioni interne al segnale (suoni emessi) ma anche
e soprattutto, di dati ad esso del tutto esterni quali conoscenze ed aspettative dellascol-
tatore sulla lingua usata dal parlante e sullambiente e circostanze in cui si colloca il testo
stesso, ovvero contesto linguistico (o verbale) nel primo caso e contesto extralinguisti-
co 129 (o situazionale) nel secondo.
In letteratura sono presenti diversi modelli di comunicazione i pi noti sono quello di
Di Berlo (1960) che prevede una sorgente S costituita da abilit, attitudini, conoscenza,
sistema sociale e cultura; un messaggio M che contiene elementi, struttura e contenuto e
codice; un canale C costituito dalla vista, dalludito, dal tatto dallodorato e dal gusto ed
infine un ricevente R che prevede abilit, attitudini, riconoscimento e di nuovo sistema
sociale e cultura.
Come abbiamo gi detto, nella conversazione non esiste nessun meccanismo presta-
bilito che prescriva lordine e il contenuto dei turni o la loro distribuzione. Nonostante
ci, sappiamo che i parlanti organizzano le loro azioni in modo metodico, sistematico e
sequenziale. Da ci, ovviamente, deriva limportanza della registrazione, dellascolto e
dellosservazione anche del dettaglio pi insignificante.
Lorganizzazione sequenziale del discorso riguarda il modo in cui lazione di uno dei
partecipanti finisce sempre per condizionare lazione successiva del suo interlocutore;
Sacks (1972) riporta che ogni conversazione ha un inizio, un mentre ed una fine e si svol-
ge quindi nel tempo134. Fele (2007:101) riporta un esempio molto chiarificatore rispetto
alla sequenzialit e alla sequenza di prospettive, di retrospettive e di relative aspettative
se la strada che il viaggiatore sta seguendo considerata corrispondente alla strada se-
gnata nel pacchetto di istruzioni, ci sar nella sequenza descritta dalle istruzioni un punto
di riferimento successivo atteso. Questo punto di riferimento comporta delle conseguen-
ze per il precedente e il successivo punto di riferimento perch una sequenza richiede
lapparizione di pi di un componente per essere una sequenza. Lapparizione di un solo
componente di per se non stabilisce una sequenza, in quanto il viaggiatore pu essere
diretto in una direzione sbagliata quando il punto di riferimento viene avvistato. Ma
lapparizione di un secondo punto di riferimento retrospettivamente fornisce al primo (o
al precedente) la propriet di essere effettivamente il precedente rispetto al successivo,
proprio come lapparizione del successivo punto di riferimento d un senso al suo essere
un successivo piuttosto che una occorrenza slegata isolata. Ci che importante che
una sequenza prevede il realizzarsi di alcuni eventi, ma al contempo stimola la nascita
di una aspettativa lapparizione del primo punto di riferimento orienta il viaggiatore al
successivo nella sequenza e stabilisce una aspettativa, cio una volta che il primo viene
notato esso recede nello sfondo e non viene pi cercato. Laspettativa scivola verso il
non ancora visibile o avvistato successivo nella sequenza. Nello stesso modo quando si
incontra il secondo successivo anchesso recede nello sfondo. Lelemento aggiunto che
lo sguardo retrospettivo fornisce, dopo che sono stati trovati due componenti, consiste
nel fatto che gli elementi sono collegati nellordine previsto dal pacchetto di istruzioni:
la relazione dordine, cio, di tipo sequenziale, e si ritiene che la serie di apparizioni
implichino che uno sta procedendo adeguatamente verso la destinazione135.
Gli atti linguistici mostrano che ogni azione condizionata da ci che avvenuto
e da ci che avverr, e ci ci permette di introdurre il concetto di coppia adiacente. La
coppia adiacente identifica lazione di uno dei parlanti con lazione subito successiva e
quindi concatenata, di un altro partecipante allevento linguistico.
Esempi comuni di coppie adiacenti (cfr. segg.) possono essere:
domanda risposta;
saluto risposta al saluto;
richiesta esaudimento o non esaudimento della stessa;
invito accoglimento o non accoglimento della proposta;
accusa giustificazione.
stato dimostrato che le singole procedure non sono inventate al momento durante
la conversazione, ma tendono a ripetersi con il ripresentarsi di situazioni simili. Si attiva
una specie di memoria situazionale e si ripropone sia lo schema linguistico che la sua
struttura. Tali procedure risultano stabili e uniformi allinterno di una determinata cultura.
Pertanto, nel momento in cui si procede allanalisi del frammento che si configura di un
certo interesse, quasi indispensabile che se ne tenga conto. Va aggiunto che, in unanalisi
che si rispetti, molto importante la scelta del metodo da utilizzare. Infatti, se si concorda
nel dire che la conversazione un evento basato su delle procedure culturalmente e social-
mente condivise, ci significa che la cosa alla quale ci si deve riferire prima di ogni altra
quello che viene definito oggi come senso comune. Esso rappresenta quel mondo che, chi
si pone lobiettivo di analizzare uno scambio linguistico, deve condividere con i parlanti.
Poich si tratta di uninterazione verbale, necessario, inoltre, che lo studioso abbia
la stessa lingua madre degli interlocutori.
Le ulteriori procedure generiche sono:
Si definisce turno di parola quella azione in cui uno dei partecipanti alla conversa-
zione produce atti linguistici senza che gli altri interlocutori lo interrompano. Si possono
distinguere, per, secondo quanto sostengono Sacks, Schegloff e Jefferson (1974), dei
fatti tipici ricorrenti, ovvero:
Secondo Fele (2007), il turno pu essere definito come una realizzazione contin-
gente di quello che fanno i parlanti mentre realizzano una conversazione. Il turno
determinato interattivamente, ed costituito da elementi non sempre riducibili a quelli
identificati linguisticamente, raggruppati in unit costitutive di turno come singole pro-
posizioni, frasi o anche singole parole alle quali, per, nellambito dellinterazione, i
parlanti attribuiscono un senso compiuto.
Ogni turno detto tripartito, in quanto avr una parte che fa riferimento al turno
precedente, (detta retrospettiva), una parte sar riferita al contenuto del turno stesso
(detta attuale), ed una sar prospettiva, poich prefigura un corso di azioni a venire.
In genere il parlante che seleziona chi dovr prendere la parola dopo di lui at-
traverso delle domande o strategie simili. Linterlocutore selezionato potr intervenire
solo quando il primo avr concluso. Il tempo che intercorre tra la fine di un turno e
linizio del successivo, viene detto punto di rilevanza transazionale. Tuttavia, potrebbe
anche capitare che il parlante non indichi il prossimo interlocutore lasciando in qual-
che modo libert, al termine della propria unit costitutiva di turno, la presa di turno
da parte di chiunque. Nel caso in cui, invece, nessuno prenda la parola, allora, il
primo parlante che allunga il proprio turno continuando o migliorando e chiarendo
la propria esposizione.
In generale, nei momenti in cui avviene il passaggio fra un turno e laltro, si pos-
sono verificare delle pause, ovvero dei silenzi; questi saranno tanto pi lunghi quanto i
parlanti avranno problemi nellidentificazione del punto di transizione: Pi le opzioni
vengono lasciate cadere, pi il silenzio si allunga. [...] il silenzio che si genera tra due
persone che sono impegnate in una conversazione ma che in quel particolare momento
rinunciano entrambe a parlare un silenzio rumoroso, dove il rumore costituito dalla
continua rotazione delle opportunit di parola che momento dopo momento, continua
ad essere resa disponibile a turno ai partecipanti: o parla uno, o parla laltro, e cos via,
alternativamente di seguito, finch qualcuno non riprende effettivamente a parlare (Fele,
2007).
- completamento sintattico;
- completamento semantico-lessicale;
- definizione di un profilo intonativo;
- sguardo;
- gestualit.
Per capire se verr o meno aggiunto dellaltro materiale al turno, possibile considera-
re anche il criterio del tempo: se la velocit di eloquio dellenunciato aumenta, questo
potrebbe essere percepito come linizio di un nuovo contorno, quindi un deterrente alla
presa del turno da parte del parlante successivo, poich, evidentemente, il parlante che
detiene la parola avr lintenzione di comunicare ancora qualcosa.
Anche il loudness 138 svolge una funzione simile, relativamente allidentificazione
dei confini frasali: laumento del valore di loudness corrisponde generalmente al punto
di maggiore informativit dellenunciato, quindi, sar difficile che un turno termini con
un livello di loudness pi alto, rispetto a quello medio utilizzato dal parlante, durante il
mantenimento del turno; al contrario, un livello di loudness decrescente, si riscontra in
prossimit della fine dellenunciato.
In conclusione, combinando i due valori, potremmo dire che un maggiore livello di
loudness ed una diminuzione della velocit di eloquio saranno associati ad uninforma-
zione pi rilevante, mentre un minore livello di loudness ed un aumento nella velocit di
eloquio saranno riservate ad informazioni meno prominenti.
Alcuni studi di fonetica acustica e di prosodia hanno dimostrato che in situazioni
molto competitive il parlante che vuole mantenere il proprio turno, alla fine di un con-
testo sintattico (che permetterebbe allascoltatore di auto selezionarsi) aumenta notevol-
mente la velocit di articolazione e lintensit, una volta conquistato il turno e evitato
lintromissione di un eventuale ascoltatore il parlante rallenta notevolmente la propria
velocit e riduce anche lintensit della voce.
6.7.5. Pause
Il confine fra due contorni, quindi la fine di un enunciato, pu essere talvolta identi-
ficato dalla presenza di una pausa; ma le pause ricorrono anche allinterno dello stesso
contorno. Auer (1996) sostiene che per discriminare le pause interne al contorno, rispetto
a quelle conclusive, sia necessario considerare anche le informazioni attribuite alla ge-
stualit. Una pausa conclusiva sar infatti caratterizzata dallassenza di movimenti arti-
colatori, i quali compariranno invece in associazione ad una pausa interna al contorno.
6.7.6. Ritmo
Il contributo del ritmo nello stabilire la fine del turno, pu essere compreso solo fa-
cendo riferimento al concetto di isocronia, cui abbiamo accennato precedentemente. In
particolare, sappiamo che lisocronia di tipo sillabico, in lingue come litaliano, prevede
la ricorrenza alternata di accenti forti, definiti ictus, ai quali si affiancano sillabe con ac-
centi medi o deboli. Di conseguenza, il parlante sar in grado, a livello frasale, di capire,
facendo riferimento a questi criteri, quando sar il caso di intervenire nella conversazio-
ne, senza spezzare il ritmo nel parlato del proprio interlocutore: ovvero, laddove volesse
intervenire ma laltro parlante fosse in una fase ritmica incentrata sulle sole sillabe de-
boli, sarebbe in grado di prevedere la ricorrenza necessaria di un elemento forte, quindi
eviterebbe linterruzione. Tuttavia c da precisare che il valore degli elementi prosodici
sempre molto legato al contesto comunicativo, di conseguenza soggetto a forti livelli
di interpretazione.
In generale, potremmo dire che lintenzione di proseguire nel mantenimento del pro-
prio turno, pu essere identificata attraverso la percezione della sinergia di tutti questi
elementi, quindi:
Considerando gli elementi citati, Auer (1996) sostiene che la prosodia agisca da fil-
tro fra la sintassi e la presa del turno. Essa viene utilizzata dal parlante come conferma,
per discriminare o identificare il completamento sintattico rispetto al completamento del
turno. Questa idea presuppone che sia tra laltro possibile stabilire una corrispondenza
fra landamento della curva del pitch nella parte finale del contorno e il punto di comple-
tamento sintattico, allo scopo di rilevare il punto di transizione fra parlanti.
Talvolta, tra i due enunciati che costituiscono una sequenza complementare, possono esse-
re inserite altre sequenze di questo tipo, dette sequenze inserto. In questi casi, bisogner com-
pletare prima gli inserti, e solo in seguito si potr completare la sequenza iniziale (uno degli
esempi pi noti quello della richiesta incassata), che corrisponde alla tipica situazione in cui
si risponde ad una domanda con una nuova domanda, per cui sar necessario rispondere prima
alla domanda incassata, per poter poi procedere al completamento della sequenza iniziale.
a. Minime: quando linterlocutore anticipa ci che il parlante sta per dire dimo-
strandosi attento e capace di comprendere le cose di cui si sta discutendo;
b. e Interruzioni vere e proprie che possono essere riparate (quando si in presen-
za di scuse) o non riparate (nel caso in cui sorgono conflitti).
Laltra strategia, messa in moto durante una normale conversazione, quella definita
repair 142.
Il termine, coniato da Goffman143, identifica una sorta di riparazione ad un errore o
un possibile disturbo creatosi durante il turno di uno dei parlanti. Quindi una correzio-
ne intersoggettiva, il parlante pu auto correggersi nel momento in cui nota che qualcosa
non va nel suo enunciato, oppure linterlocutore a richiedere la riparazione tramite una
domanda o la ripetizione di qualche parola.
Ovviamente con il termine di correzione non si indica sempre un errore ma anche la
riformulazione di qualcosa che stato prodotto in maniera non completamente compren-
sibile. Durante una interazione si tende, quindi, a risolvere immediatamente il problema
e prevenire difficolt maggiori che potrebbero emergere.
Goffman, nel dettagliare le procedure di repair identifica alcuni passaggi (anche se i
pi frequenti sono i primi due):
riparazione;
conforto;
apprezzamento;
minimizzazione144.
Nel cambio di turno, abbiamo gi detto che necessario rispettare delle regole anche se
questo non implica necessariamente che si sempre daccordo. Il litigio un caso spe-
cifico di alternanza. Ci si sovrappone e non si lascia spazio a vicenda, le soluzioni alle
regole infrante sono di due tipi: a) si accorciano i turni al limite, si alza la voce e si pu
arrivare come un vortice fino alla violenza; b) si attiva lexit cio la constatazione che
le regole sono state infrante, non si ha pi fiducia nellarchitettura e nellorganizzazione
dello scambio e nella sua finalit, non si ha pi passaggio di informazioni e crescita
personale. In questi casi si esce dalla conversazione, si sbatte il telefono in faccia, ci si
allontana e non si partecipa pi. Si perde quella dose empatica che permette lo svilup-
parsi di una conversazione e si mette in atto una schermaglia di incomprensioni. Nessuna
strategia di repair viene messa in atto.
Un altro fenomeno da approfondire quello della politeness, o coinvolgimento ne-
gativo alla conversazione. Gli atti linguistici (vicino allinsulto e causa di litigio) ven-
gono definiti face threading acts 147. Raramente questi devono essere considerati come
dei reali attacchi, e spesso, infatti, attraverso lironia e lintroduzione di qualche battuta
si riesce a ridurre laggressivit, sgonfiando e svuotando il significato dei face threading
acts. In questi casi limportanza del valore linguistico di quanto viene detto assume un
grande peso. Ad esempio, non devono essere utilizzati verbi allimperativo, non si rifiuta
o non si esprime dissenso in modo brusco. Respingere in maniera aperta, in molte cultu-
re, considerato una minaccia da parte dellinterlocutore che lo riceve.
Cristiano Castelfranchi148 sostiene che la teoria secondo la quale il litigio, il diver-
bio, vengono trattati come conversazioni per il semplice fatto che ci sono parlanti che si
sentono e dibattono su qualcosa, si dimostra abbastanza debole. Lo studioso propone una
differenza tra conversazioni aggressive e cooperative e considera i litigi come degli
eventi linguistici a tutti gli effetti alla pari di quelli cooperativi. Perci, a suo avviso,
sarebbe opportuno non basare un modello dellinterazione sociale su quello delle con-
versazioni di tipo cooperativo in quanto ci sottovaluta sia i rapporti di dipendenza tra i
parlanti sia il problema relativo al modo in cui colui che parla cerca di influenzare gli al-
tri che lo ascoltano nelle loro reazioni/risposte. Questo ha portato, infatti, a vedere negli
scambi linguistici di tipo cooperativo che si relazionano anche alle strategie di repair, il
conflitto come qualcosa che si studia per sanarlo o per ricondurlo ad una collaborazione,
non riconoscendogli una forma autonoma di interazione a s stante. In generale, ci che
distingue un diverbio da una conversazione cooperativa il fatto che i partecipanti non
saranno impegnati ad aderire allinterazione n a far capire che lo si fa.
Non superfluo ricordare che quasi impossibile redigere delle regole certe e preci-
se per ogni cultura linguistica. Questo il motivo per il quale si preferisce adottare regole
di cortesia generali che vanno legate ed individuate allinterno del contesto nel quale
avviene lo scambio linguistico.
Per la lingua italiana, esiste una categorizzazione ben definita riguardo alle doman-
de, ovvero alla formulazione delle frasi interrogative. Il parlante generalmente conosce
questi schemi e li identifica senza troppe difficolt. Nei PRT (punto di rilevanza transi-
zionale) adiacenti a questi enunciati, lintonazione gioca, evidentemente, un ruolo fon-
damentale. Giacch le frasi interrogative si distinguono dalle semplici dichiarative per
linnalzamento tonale nella parte terminale dellenunciato, chiaro che linterlocutore
sar in grado di capire facilmente se il parlante pone una domanda, a prescindere dal
fatto che si tratti di una domanda reale o fittizia, e fornir pertanto la propria risposta. Il
completamento preferenziale ad una domanda sar quindi una risposta adatta a soddisfa-
re lintenzione del parlante, e quindi a dare o confermare le informazioni che preludo-
no alla formulazione dellinterrogativa. Ma, come per tutte le sequenze complementari,
esiste anche in questo caso la possibilit che linterlocutore dia un completamento non
preferenziale. Egli potr:
- rifiutare espressamente di rispondere, negando per altro, in questo caso, non solo
il principio di cooperazione, ma anche la massima griceiana della quantit (per
la quale allinterno di un enunciato necessario sempre dare il giusto numero di
informazioni);
- rispondere con il silenzio, che in questo caso sar interpretato come fortemente
significativo; questo potr essere inteso o come la mancata conoscenza della ri-
sposta alla domanda posta, o come la decisione di non collaborare allo scambio
comunicativo, interrompendolo bruscamente, in modo del tutto non preferenziale
ed estremamente marcato.
Come gi detto la tipica situazione in cui si risponde ad una domanda con una nuova
domanda, per cui sar necessario rispondere prima alla domanda che fa parte della sequenza
incassata, per poter poi procedere al completamento della sequenza complementare iniziale.
Nella conversazione ordinaria, i partecipanti possono in modo reciproco commen-
tare quanto hanno ascoltato nellenunciato appena precedente. Enunciati di questo tipo,
quando compaiono in una struttura sequenziale domanda/risposta, non costituiscono
linizio di una nuova coppia, ma occupano piuttosto una posizione particolare, un terzo
turno dopo la risposta, in cui chi ha fatto la domanda pu, senza interferire, eseguire
varie azioni: esternare il proprio accordo o disaccordo con quanto sostenuto dallinterlo-
cutore, sollecitare ulteriori informazioni, o dimostrare semplicemente di ascoltare. Que-
sto stesso sistema si pu riscontrare anche in varie situazioni istituzionalizzate, come nel
contesto scolastico. In questo caso il commento dellinsegnante a seguito della risposta
del proprio alunno, verr percepito come valutazione; lalunno sapr di doversi aspettare
questo terzo turno al termine del proprio, tanto che, nei casi in cui questo non venga in-
serito, lo interpreter come valutazione negativa, e cercher di aggiungere informazioni
al proprio intervento. In generale, infatti, una valutazione positiva chiude la sequenza,
mentre una negativa o lassenza di valutazione lasciano linterscambio aperto.
Normalmente la frase interrogativa viene formulata quando il parlante vuole porre
una domanda. Questo presuppone che il parlante in questione, non conoscendo deter-
minate informazioni, cerchi di acquisirle attraverso la risposta del proprio interlocutore.
Come abbiamo gi avuto modo di osservare precedentemente, Grice 149 sostiene che
in base al principio di cooperazione, che sta alla base della conversazione, affinch la
domanda venga ritenuta valida, necessario, nel rispetto della massima di qualit, che
il parlante dimostri sinceramente di voler acquisire queste informazioni non conoscendo
la risposta. Durante una concreta e reale conversazione, per, questo criterio non viene
sempre rispettato. In base alle diverse violazioni possibile effettuare una prima catego-
rizzazione delle frasi interrogative italiane in interrogative reali (composte da una do-
manda vera, e dove il parlante non conosce la risposta) ed interrogative fittizie (composte
al contrario da una domanda falsa, cio di cui il parlante conosce, o crede di conoscere
gi la risposta).
Tutte le interrogative presentate finora sono costituite da frasi autonome e non dipendenti
da altri enunciati allinterno della struttura. Inoltre tutte vengono pronunciate o scritte
nello stesso momento e nello stesso luogo in cui vengono riportate. Per questo motivo
vengono definite interrogative dirette.
Esistono per altri tipi di interrogative, che, al contrario di quelle presentate, compa-
iono sempre in forma subordinata e si riferiscono ad un momento o un luogo differente
da quello in cui vengono riportate. Queste interrogative indirette non vengono segnalate
con una particolare punteggiatura nello scritto e n con un andamento del tono di tipo
ascendente nel parlato. Esempi di interrogative indirette sono: Non so se rimanere,
Mi chiedo cosa fare, ecc.
Anche allinterno della classe di interrogative indirette possibile identificare dei
sottotipi come le interrogative indirette totali introdotte dalla congiunzione se (es. Non
so se dirlo anche a Claudia); le interrogative indirette parziali, che al pari delle corri-
spettive dirette, vengono generalmente introdotte da avverbi, aggettivi o pronomi inter-
rogativi (es. Vorrei chiedergli quando verr a trovarmi); le interrogative indirette alter-
native, in cui il primo termine sempre introdotto dalla congiunzione se, ed il secondo,
cio quello relativo alla alternativa, dalle congiunzioni disgiuntive o, oppure (es. Mi
piacerebbe sapere se scherzi o dici sul serio).
6.7.12.4. Il contesto
Con lavvento dei primi registratori a rulli di cera stato possibile fermare, docu-
mentare e rendere duraturo quello che finora abbiamo definito essere un evento evane-
scente: il parlato. La registrazione (vedi di Galat) un filtro che non documenta la co-
municazione nel suo complesso, ma predilige e sceglie esclusivamente il canale acustico
omettendo quindi fatti cinesici, prossemici ecc.
Ottenuta la registrazione, possibile redigere un verbale del parlato sonoro anche a di-
stanza di tempo e con modalit differenti. , quindi, possibile tradurre un atto non duraturo,
prodotto attraverso un mezzo con proprie e specifiche regole, in un codice diverso, molto
pi restrittivo, con regole e potenzialit differenti: la scrittura. indubbio che la trascrizio-
ne di un parlato risulta essere un atto innaturale, come fare passare un sasso da un setaccio,
molta informazione presente nel segnale acustico non viene documentata dalla trascrizione
dello stesso segnale. Anche la migliore trascrizione non altro che una astrazione frutto di
precise scelte da parte del trascrittore su cosa inserire e cosa invece omettere tra le infor-
mazioni possibili e presenti nel segnale sonoro, su cosa evidenziare e cosa invece celare.
La convinzione che la trascrizione sia un verbale completo e obiettivo del parlato
nasce dal considerare il parlato come una versione sonora dello scritto. Il parlato un
codice cos come lo la scrittura, ed essi sono tra loro molto differenti, ci comporta
che non tutte le registrazioni possono diventare un testo scritto. vero che al concetto di
trascrizione possibile associare il concetto di documento, di memoria, di atto del ricor-
dare, di promemoria cos come vero che spesso nella nostra quotidianit effettuiamo
trascrizioni come la lista della spesa elencata da una persona diversa, un indirizzo sug-
gerito al telefono, come anche un nome, un numero di telefono, un titolo di una canzone,
una indicazione stradale, ecc. Nella maggior parte di questi casi non trascriviamo inte-
gralmente lintero segnale percepito ma esclusivamente linformazione che riteniamo
importante utile per il nostro scopo. Un sonoro telefonico del tipo:
Moglie caro mi compri dei panini, ma non come quelli della volta scorsa, era-
no troppo cotti e bruciacchiati, lo sai che non amo che facciano tante molliche e
briciole, tanto poi tocca sempre a me pulire, come se fosse una regola o una legge
scritta su qualche tavola sacra, ecc.
La trascrizione ordinaria invece comprende tutti quei casi in cui avviene una trascri-
zione fedele per quanto possibile del parlato o dellintervento. Ad esempio un consiglio
di amministrazione, una riunione di un condominio o anche una udienza in Tribunale.
La differenza tra la trascrizione ordinaria e quella forense si riscontra innanzitutto
nella qualit della registrazione e in secondo luogo in riferimento allo status che entram-
be ricoprono. In particolare, la trascrizione di udienza, un verbale di una registrazione
che per verr validato e approvato da parte degli stessi parlanti registrati e trascritti, al
contrario nella trascrizione di una intercettazione forense non esiste il contraddittorio.
Mentre nel primo caso vi la volont di esplicitare i contenuti, chiarendo le so-
vrapposizioni con altre voci o lallontanamento dal microfono, nel secondo invece il
trascrittore tenta di ricostruire una realt volutamente mantenuta nascosta dagli inter-
locutori registrati. Nella registrazione di udienza un contenuto importante viene reso
ancora pi esplicito rallentando leloquio, aumentando lintensit del segnale e a volte
sillabando singole parole, al contrario in una registrazione forense un contenuto impor-
tante si tenta di nasconderlo coprendo la bocca con la mano, sussurrando e strascicando
le parole tentando di dire il meno possibile e di essere compreso pur essendo poco
esplicito e supportando le parole con la mimica e il codice gestuale.
Il trascrittore di udienza non ha alcuna responsabilit perch sa che il suo lavoro
verr validato e approvato dagli stessi interlocutori registrati e trascritti. Non si soffer-
ma troppo sui casi ambigui perch sar il parlante a disambiguarli in udienza. Il parlante
in udienza prima di iniziare a parlare si presenta per favorire lattribuzione dei ruoli e
dei turni (es. sono lavvocato Rossi per la difesa di Bianchi. Signor Giudice...). Inoltre
le trascrizioni di udienza oggi hanno alcune standardizzazioni come il livello di qualit,
la procedura di consegna, i tempi e i pagamenti; nulla di tutto ci vale per le trascrizioni
di intercettazioni a scopo forense. Ci rende possibile considerare la trascrizione di
udienza una operazione di tipo tecnico-manuale155 il trascrittore un semplice operatore.
La trascrizione di una intercettazione invece una operazione molto complessa poich
ricostruisce un fatto accaduto, una verit, un indizio e una prova e ci implica che il
trascrittore debba necessariamente essere un esperto. Egli infatti mette in atto tutte le
tecniche e le metodiche di un approccio scientifico alloperazione di trascrizione e le
sue ipotesi richiederanno una analisi e una valutazione sullaccuratezza e sulla coerenza
del risultato. Sulla base della qualit e della quantit di dati e di informazioni in suo
possesso stimer il grado di certezza e di obiettivit del proprio lavoro.
Le due trascrizioni quindi possono essere considerate due estremi di ununica operazio-
ne. Da una parte abbiamo segnale di qualit ottima, volont nel farsi capire e riconoscere e
possibilit da parte del parlante registrato di controllare quanto stato trascritto, dalla parte
opposta avviene tutto il contrario. Lungo questi due estremi vi una lunghissima sequenza
di tipi di conversazioni differenti. Spesso invece le due trascrizioni vengono confuse cos
come vengono confusi gli esperti trascrittori affidando in maniera indifferenziata incarichi
di trascrizione di udienza e di registrazioni intercettate. Lunica cosa che hanno in comune
le trascrizioni di udienza e le trascrizioni forensi cos come le cooperative di trascrizione
con gli esperti trascrittori il luogo in cui si consegnano i verbali e in cui si procede agli
incarichi, cio il Tribunale. Anche se il prodotto di entrambe le operazioni sempre una
trascrizione, i dati di partenza e le competenze richieste sono completamente differenti156.
Lincertezza sui ruoli, sulle competenze, sulle professionalit rende inattendibile e
poco oggettiva la prova voce registrata. Non raggiungendo standard elevati di compe-
tenza linguistica nella trascrizione di intercettazioni ambientali, lo stesso valore di prova
della trascrizione, da una parte verr demandato allabilit delle parti, quindi alle possi-
bilit economiche, (oggi la maggior parte dei linguisti universitari vengono contattati e
nominati dalla difesa, che in molti casi ha una maggiore disponibilit economica rispetto
al Tribunale o alle Procure) alla competenza della difesa o dellaccusa e dallaltra la cat-
tiva competenza rende sempre pi debole e basso il valore della prova stessa. Una non
chiara metodologia e una non chiara figura professionale, nel tempo render inaffidabile
tutte le trascrizioni, sia quelle buone che quelle cattive.
Un discorso a parte deve essere fatto per la trascrizione fonetica157. Innanzitutto essa
pu avere diversi livelli di precisione e di profondit e quindi pu essere larga, stretta,
prosodica, metrica, ecc., viene usata esclusivamente in ambiti scientifici come la foneti-
ca, la fonologia, la sociolinguistica, la dialettologia, la logopedia e in maniera normativa
la troviamo anche nei dizionari. La trascrizione fonetica una operazione molto com-
plessa, usata solo da specialisti e non si sofferma sui significati n parziali n globali
dei segnali sonori ma esclusivamente sui significanti, cio sui singoli suoni prodotti. Sof-
fermandosi su un livello della lingua parlata quello acustico articolatorio quindi molto
diversa rispetto alle trascrizioni che abbiamo presentato finora. Potrebbe essere utilizzata
nei casi di trascrizione forense o di disputed utterance quando sia necessario rilevare e
cercare coerenze fonetiche e articolatorie.
La trascrizione fonetica serve per rendere scritto un qualsiasi enunciato orale e per far
s che lo stesso enunciato possa essere letto da diversi esperti esattamente come stato pro-
dotto (almeno sotto il profilo fisico-acustico). Gli alfabeti scritti spesso (anche nelle lingue
neolatine come litaliano) non conoscono una corrispondenza biunivoca tra il grafema e
il fonema. Ne sono la prova parole come /glicine/ dove il nesso gl viene letto in maniera
diversa rispetto allo stesso nella parola /figlio/. Gli esempi di questo tipo sono tanti anche in
italiano, una lingua in cui la distanza tra la scrittura e la produzione orale veramente mi-
nima. Se questo succede allinterno della stessa lingua, nel confronto tra lingue differenti le
differenze sono molto pi evidenti. A livello grafico il suono della prima sillaba di scena
in italiano reso con il nesso sc davanti a vocale /i/ ed /e/ e il nesso sci davanti alle altre
vocali, in francese invece per lo stesso suono si utilizza il nesso ch chien cane, in tede-
sco con il nesso sch Schiff nave, e in inglese il nesso utilizzato sh ship nave. Com
facile notare questi nessi o forme grafiche cos differenti tra loro, producono lo stesso iden-
tico suono cio una fricativa pre-palatale sorda che foneticamente possiamo trascrivere [].
Esempi tendenzialmente opposti dimostrano che lo stesso identico grafema pu pro-
durre fonemi o forme acustiche (foni) molto diversi tra di loro. Si consideri per esempio
il gruppo consonantico ch gi considerato. In italiano produrr suoni come nella parola
chilo, cio una occlusiva velare sorda che foneticamente sar [k] (identica per altro a quel-
la che noi troviamo in cane o in quello ecc.); in francese il gruppo ch come abbiamo
potuto notare produce una fricativa pre-palatale sorda [], in tedesco come esemplificato
nella parola ich produce una fricativa palatale sorda [] mentre in inglese lo stesso gruppo
produce una affricata palatale sorda [t]. Inoltre nella stessa lingua lo stesso grafema in di-
pendenza alla provenienza geografica pu essere prodotto diversamente: bacio in alcuni
casi invece di essere prodotto con il fono affricato palatale sordo [t] pu presentare solo la
fricativa pre-palatale [] (si pensi allitaliano parlato a Roma). O ancora il nesso /tr/ o /str/
in italiano meridionale pu essere prodotto come retroflesso e cio [] o [] o ancora [].
Da queste considerazioni nasce la necessit di sviluppare un alfabeto unico interna-
zionale con il quale trascrivere tutti i diversi suoni in modo differente. Un alfabeto che
abbia una corrispondenza biunivoca tra simbolo usato e fono prodotto158, e quindi utilizza-
bile per descrivere tutte le lingue e tutti i dialetti del mondo. Chi conosce tale alfabeto, pu
trascrivere e leggere senza commettere alcun errore anche una lingua che non conosce.
Lalfabeto prevede anche un sezione per il parlato patologico e una serie di diacritici che
permettono di riprodurre su carta anche piccole caratteristiche personali ed individuali.
La prima versione dellAlfabeto Internazionale Fonetico 159 risale al 1888, la sua
ultima rivisitazione invece del 2005.
La trascrizione fonetica larga una trascrizione che si rapporta ai fonemi prodotti
identificando i tratti distintivi caratteristici di ogni singolo suono prodotto. La trascrizio-
ne fonetica stretta molto pi coerente, identifica caratteristiche e peculiarit del singolo
interlocutore, riporta tratti sovra segmentali come accenti primari e secondari, lunghez-
ze, pause e intonazioni. Ad esempio, la trascrizione fonetica larga della parola italiana
concio [konto] mentre la rappresentazione in trascrizione fonetica stretta potrebbe160
essere [knto] annotando la nasalit [ ] dellelemento /o/ in contesto nasale, il primo
elemento del fono affricato [t] prodotto come dentale [t] invece di palatale161. La trascri-
zione di un testo oltre che alle singole parole e ai singoli suoni prevede anche la trascri-
zione dei fatti non puramente segmentali come le pause brevi [] o le pause lunghe [],
gli accenti primari [] o secondari [], la durata maggiore [] o minore [] di un segmento
ecc. Un esempio di trascrizione fonetica larga la seguente:
[ra ummondodadulti esizbaava daprofessjonisti] era un mondo di adulti
e si sbagliava da professionisti 162 mentre invece un esempio di trascrizione fonetica
stretta po- trebbe essere [la jetsadeneralizatsjoneamadoraddne il
igwaddo]
la scienza generalizzazione a maggior ragione il linguaggio163.
Una trascrizione pu anche avere esclusivamente finalit intonative e in tal caso si
presenter come negli esempi seguenti (Trager e Smith 1951)164:
Usually1 //2 John goes to 3London1#
2
Im ging 3 home1#
I numeri in esponente identificano laltezza del pitch differenziata in 4 gradi: basso,
medio-basso, medio-alto e alto. Il simbolo # indica la giuntura discendente, il simbolo //
quella ascendente (altri simboli non presenti nellesempio sono \ che indica una giuntura
sospensiva e il simbolo \+\ che indica una giuntura interna).
La trascrizione fonetica quindi una cosa nettamente diversa dalla trascrizione normal-
mente intesa. Trascrivere foneticamente non vuol dire necessariamente conoscere la lingua o
il dialetto da trascrivere o comprendere il significato delle singole parole, ma portare su carta
in modo inequivocabile, utilizzando lalfabeto IPA, ci che viene acusticamente percepito, un
po come potrebbe essere fatto per la musica ascoltata e riportata su un spartito.
Una trascrizione fonetica di una telefonata o di una conversazione, per uso forense
sarebbe impossibile, perch poco fruibile dagli addetti ai lavori anche se riteniamo che
alcuni tratti sovrasegmentali dovrebbero essere annotati. Molti trascrittori utilizzano i
simboli grafici di interpunzione come il punto interrogativo /?/ per una intonazione inter-
rogativa o le virgole per le pause e i tre puntini per una frase sospensiva. Riteniamo che
ci sia improprio primo perch vengono utilizzati gli stessi simboli per descrivere due
piani differenti della comunicazione, secondo perch cos facendo si porter il lettore
della trascrizione a trattare il documento che ha davanti gli occhi come un documento
scritto e non come la trascrizione di una conversazione orale 165.
Prima di addentrarci nellultimo tipo di trascrizione identificato cio quella forense ci
preme sottolineare che la trascrizione forense un tipo di scrittura molto speciale. La scrit-
tura di una lettera o di un libro concentrata sulla comunicazione di un significato. La
trascrizione forense invece si concentra sul significante (la forma grafica dei significati),
lintento rappresentare su carta il significante nel modo pi accurato possibile, spesso al-
lontanandosi dal vero obiettivo della comunicazione orale che di trasmettere un significato
e lasciando il compito di interpretazione al lettore sia esso un avvocato o un giudice. Non
infatti assolutamente raro sentire io trascrivo solo ci che sento. Spesso per noi percepiamo
significati anche di cose che non sentiamo come ad esempio un uhm o una pausa pi lunga
del normale: mi porti quelle PAUSA scarpe!. La percezione e la comprensione del signifi-
cato completamente diversa dalla comprensione del solo significante, infatti ci porta a de-
durre che linterlocutore non vuole affatto delle scarpe ma qualcosa di diverso noto per ad
entrambi. Quindi trascrivere solo ci che sento vale per una trascrizione di udienza ma non
per una trascrizione di una intercettazione. Inoltre mentre da un lato le trascrizioni forensi
riportano solo ci che si sente, quando il parlato dialettale, si riporta una trascrizione ita-
liana traducendo ed interpretando il segnale. In tutto ci vi una intrinseca contraddizione:
la trascrizione deve essere dei significanti (e allora molto vicino alla trascrizione fonetica) o
dei significati? per questo motivo che la trascrizione deve essere affrontata come un serio
problema prima teorico ed in seguito pratico. Esso infatti non facilmente risolvibile con un
aggiunta di un commento o di una interpretazione. Deve essere la migliore approssimazione
della realt. Una approssimazione scientificamente accettata, esplicitamente e rigorosamen-
te standardizzata senza per essere talmente tecnica da poter essere usata da pochi esperti
come per esempio la trascrizione fonetica. Oggi la trascrizione mettere su carta, in seguito
ad ascolti ripetuti i significanti grafici dei significati sonori ascoltati parola per parola, per-
dendo di vista il contenuto ed il significato globale di quanto viene ascoltato.
La trascrizione forense, fin dalla sua prima apparizione nelle aule dei Tribunali,
stata considerata un procedimento cos semplice da non richiedere studi approfonditi o
specializzazioni proprie 166. Non essendo necessario in questo caso luso di particolari
metodiche o di sofisticata strumentazione, invalsa la prassi che chiunque, purch mu-
nito di registratore, cuffia e buon orecchio, possa espletare soddisfacentemente qualsiasi
trascrizione. In realt trascrivere una comunicazione orale comporta una serie di proble-
mi che solo un esperto riesce ad intuire e controllare.
Il parlare, comunicare, colloquiare, dialogare un atto che coinvolge tantissimi
aspetti tra i quali quelli linguistici segmentali e sovrasegmentali, quelli paralinguistici,
extralinguistici come quelli cinesici ed influenzato da tanti canali paralleli di comu-
nicazione come quello gestuale e intonativo, fortemente condizionato dal rumore di
canale, di contesto. Il trascrittore, dal canto suo, si trova in una posizione di estranei-
t rispetto la situazione comunicativa, non riceve completamente latto comunicativo
nella sua interezza ma solo il canale sonoro ed inoltre deve tradurre in caratteri (gra-
femi) e trasporre su carta una comunicazione nata per essere orale composta di pause,
innalzamenti di voce, cambi di intonazione, cambi di accento, cambio di stile (ironico,
scherzoso, canzonatorio, serio) e sentimenti come ira, felicit, ilarit sdegno, avendo a
disposizione per tutti questi fatti sovrasegmentali solo qualche segno di punteggiatura
(interpunzione).
Lesperto dovrebbe sapere che ogni parola trascritta su un foglio la possibile rico-
struzione di una realt e che come tale avr conseguenze importanti nella ricostruzione
della verit o nella soluzione di un mistero. Ecco perch con coscienza e professionalit,
compito dellesperto definire una porzione di segnale sonoro non trascrivibile piutto-
sto che fornire soluzioni dubbie di possibili trascrizioni. Quando le diverse trascrizioni
della stessa porzione di segnale sono tutte parimenti plausibili e quando la scelta det-
tata esclusivamente da una propria personale e soggettiva interpretazione allora bisogna
dichiarare il segnale inintelligibile167 o quanto meno stimare la certezza o laffidabilit
della trascrizione consegnata.
In Bellucci 1994 si legge nellintercettazione ambientale, il perito si trova nellin-
solita esperienza che non esito a definire eccitante per un sociolinguista di parteci-
pare da fantasma alla situazione168 Romito (2000) aggiunge ma un fantasma cieco
che perde tutti gli elementi visivi. Il trascrittore si trova allesterno del circuito comuni-
cativo, del contesto e del cotesto della conversazione, non percepisce la comunicazione
fatta di gesti, di occhiate, di posture del corpo, di movimenti della testa, delle mani e non
condivide le conoscenze pregresse degli attori della conversazione.
Il trascrittore percepisce solo una parte della complessa rete della comunicazione: la
parte acustica. La comunicazione in presenza per una rete complessa di canali paral-
leli, un evento che abbraccia tutti coloro che vi partecipano e che devono condividere
alcune conoscenze sullambiente, sulla loro posizione spazio-temporale, sulla loro posi-
zione sociale e questo prima che levento avvenga169.
Nella trascrizione, qualsiasi parola si trascriva, questa deve conformarsi non solo al
modello del segnale percepito ma anche, e forse soprattutto, ad un modello di alternative
(legate al contesto) presenti nel vocabolario e nel lessico del soggetto ascoltatore- tra-
scrittore. Le parole possono quindi essere adattate soprattutto se chi trascrive possiede
un setaccio fonologico differente (per esempio parla un altro dialetto) e il problema non
solo lessicale ma di frammenti fonetici. il modello che svolge il ruolo decisivo nelle
trascrizioni e nella risposta che deve essere la pi probabile possibile. Cos il trascrittore
oscilla tra un segnale acustico e un modello che ha nella propria testa, e cerca (conscia-
mente o inconsciamente) di accoppiare frammenti fonetici a probabili risposte secondo il
proprio modello. La risposta determinata principalmente dalla scelta personale tra una
gamma di alternative considerate possibili 170.
Il punto di partenza quindi, che ogni trascrizione necessariamente una astrazio-
ne, il parlato contiene una quantit infinita di informazioni di differenti specie e livelli:
culturale, economico, emotivo. Ci viene esplicitato da tutti i linguisti che si occupano
di analisi del parlato, si veda nello specifico laffermazione di Laver 1994:2What is a
Voice? The voice is the very emblem of the speaker, indelibly woven into the fabric of
speech. In this sense, each of our utterances of spoken language carries not only its own
message, but through accent, tone of voice and habitual voice quality it is at the same
time an audible declaration of our membership of particular social and regional groups,
of our individual physical and psychological identity, and of our momentary mood.
Questi diversi livelli non possono essere rappresentati in un unico canale come quello
della scrittura.
La voce molto pi di una semplice sequenza di suoni, essa intrinsecamente
complessa e gran parte della sua complessit legata ai rapporti tra le singole variabili
che operano al suo interno come il senso, il significato, le intenzioni, lo stato di salute, lo
stato sociale, il livello di autostima e di scolarizzazione ecc.
Ogni trascrizione quindi un punto di vista rivolto al significante, al significato
globale, allo stile, al dialetto ed importante ricordare che ogni trascrizione non un
testo scritto, non nasce per essere un testo scritto, ma una rappresentazione grafica di
un testo parlato. In assurdo come descrivere a parole un quadro. Le regole da utilizzare
quindi sono e devono essere, quelle del parlato non quelle dello scritto.
La percezione e lortografia implicano inevitabilmente un componente top-down.
Ogni trascrizione dipende inevitabilmente dalla percezione e dallortografia. Questo si-
gnifica che non esiste una trascrizione interamente oggettiva. La trascrizione ortografica
pu risultare utile ma con pochissima possibilit di avere dettagli. Esistono trascrizioni
ortografiche specializzate con legende che aggiungono particolari; si pensi allanalisi
conversazionale dove diversi simboli segnalano le pause, gli intercalari, i riempitivi (ah,
oh), le sovrapposizioni, le risate, i colpi di tosse.
La trascrizione pu anche essere effettuata parola per parola, anche se il parlato non
organizzato e progettato per essere cos. Il parlato spontaneo confuso e molti gesti
articolatori si sovrappongono, anche il concetto stesso di parola ha definizioni differenti
per il parlato e per lo scritto. Nel parlato le parole sono fonologiche cio con un unico
accento e delimitate da due respiri es. lacasemmia. Nello scritto invece ogni singola
parola identificata da due spazi bianchi la casa mia.
Traducendo lesempio adoperando il senso della vista, unico senso utilizzabile in un
testo scritto, come interpretare una ricetta medica (la scrittura sarebbe paragonabile ad
un segnale rumoroso e degradato).
Anche percettivamente vi molta differenza. Non ascoltiamo parola per parola (vedi
precedenti) la conversazione orale molto meno ingabbiata dalla grammatica, gli ac-
cordi non vengono tutti effettuati, si hanno false partenze e riformulazione di idee, frasi
come quello che volevo dire, insomma per farla breve prevede cancellazioni, riduzioni
e cattive produzioni nelle porzioni ritenute ridondanti. Nello scritto le cancellazioni ven-
gono segnalate da una apocope Anto, o da un apostrofo unaltra?
Il linguaggio fatto di significanti che rappresentano dei significati e non una sempli-
ce opposizione di suoni e di acustica. Questo un grande problema quando il trascrittore
inesperto o un non linguista, perch si occuper esclusivamente di aspetti sonori ed
acustici.
Seguendo la Fraser (2003) come guardare un cielo stellato, se non conosci le costel-
lazioni vedi solo delle stelle nel cielo, e a ci potrebbe essere aggiunto e interpretando luci
e posizioni ricostruisci forme, animali e costellazioni inesistenti.
Una trascrizione a scopo forense la rappresentazione grafica, scritta, di una con-
versazione orale tra due o pi persone registrate (intercettate) in modo coatto attraverso
il telefono, una microspia in macchina o altro, che viene utilizzata come prova, meglio
evidenza di una prova, o rappresentazione materiale di una realt astratta ed effimera
in un caso giudiziario. Le registrazioni sono spesso di cattiva qualit e quindi spesso in
aula laccusa e la difesa dibattono sulla attendibilit di una versione e sulla trascrizio-
ne ambigua o diversa di una parola o di una intera frase. Le prove sonore e quindi le
registrazioni utilizzate come prove, hanno conosciuto in questi ultimi anni un grande
aumento cos come anche le dispute in aula tra le parti sulla interpretazione e la cor-
retta trascrizione di singole parole, o di frasi incriminate o incriminanti. Ci ha portato
alla nascita in ambito scientifico di una sottospecificazione e nuova classificazione di
disputed utterances.
Si tratta di singole frasi o parole dibattute in aula sulle quali linterpretazione delle
singole parti controversa e differente. Si veda lesempio seguente:
Considerato quanto detto fin qui, possiamo affermare che la trascrizione una analisi
linguistica complessa. La registrazione pu al massimo essere una parziale fotografia
della realt. Ma la trascrizione una lettura una interpretazione personale frutto di una
complessa analisi inconscia. Il trascrittore mette in atto la competenza chomskiana o me-
glio quelle strategie linguistiche inconsce frutto solo della propria personale esperienza.
Il rapporto tra la lingua orale e il codice scritto molto complesso e molti sono i
fattori che influenzano o possono influenzare la traduzione di un canale in un altro. In
questo paragrafo la nostra attenzione si concentra sui fattori che influenzano una trascri-
zione ed esplicitando i passi necessari partiamo dalla registrazione e quindi da una sor-
gente sonora. Nel caso in specie la sorgente sonora di nostro interesse la voce e quindi
il primo fattore del nostro elenco sar:
Ognuno di questi fattori ha grande peso nella buona riuscita di una trascrizione e solo
conoscendone le influenze e le potenzialit si pu giungere ad una buona rappresenta-
zione della realt.
6.8.2. Il parlante intercettato
Il parlante intercettato la sorgente sonora della nostra registrazione. Sar lui quindi ad
effettuare molte scelte che influenzeranno la nostra registrazione. Sceglier largomento,
il codice da utilizzare (italiano o dialetto), lo stile (informale o molto colloquiale), il tono
(amichevole, adirato), il volume (alto o basso). Ma innanzitutto parler con specifiche
e personali caratteristiche. Esistono voci naturalmente pi chiare di altre (si pensi alle
voci, scelte proprio per la loro naturale chiarezza, degli speakers radiofonici o televisivi),
sar personale il grado di coarticolazione (labitudine a mangiarsi le vocali o addirittura
le sillabe intere), sar personale il meccanismo articolatorio, cio lo strumento musicale
utilizzato per produrre i suoni linguistici, quindi personali e uniche le caratteristiche
anatomiche come labbra, lingua, collo troppo grosso o troppo sottile, corto o lungo,
spessore delle corde vocali ecc. personali sono anche alcune caratteristiche volontarie ed
involontarie come grossi baffi, o troppo fumo di sigarette174.
Possiamo definire la qualit della voce come la somma della configurazione del trat-
to vocale, dellanatomia laringale e una componente appresa. Ovviamente alcuni degli
elementi citati sono determinati geneticamente (rammentiamo per che alcune categorie
di parlanti come i cantanti professionisti, riescono a modificare questi tratti per miglio-
rare le proprie prestazioni vocali), altri invece sono appresi e fanno parte delle abitudini
del parlante. Queste abitudini sono sicuramente riconducibili a caratteristiche individuali
ma risentono anche del registro, del contesto situazionale e di altri fattori (il ritmo, la
velocit di eloquio ecc.).
Laver (1980) definisce la qualit della voce come il colore uditivo caratteristico
della voce di un particolare individuo. La qualit della voce pu essere assimilata al tim-
bro e quindi alle caratteristiche individuali del parlante sia a breve che a lungo termine.
Infatti essa pu variare in base allo stato danimo o di salute; in base al registro o alla
situazione in cui ci si trova. Al contrario invece, le caratteristiche che dipendono dalla
anatomia e dal sesso dellindividuo, sono immutabili (almeno generalmente).
La qualit della voce ultimamente stata molto studiata soprattutto per differenziare
le tipologie di voce. Studi medici, psicologici e ingegneristici (sintesi vocale e robotica
o software per il riconoscimento delle emozioni) analizzano la qualit della voce a fini
applicativi.
Ciononostante lo studio della qualit della voce in relazione allintelligibilit
non ha ricevuto molte attenzioni dal mondo scientifico e ancora oggi non conoscia-
mo in che misura la qualit di una voce influisca sullintelligibilit del segnale. Si-
curamente alcune voci sono pi comprensibili di altre anche con un rapporto S/N 175
(segnale rumore) molto basso, ma ad oggi, non si conoscono ancora quali siano le
caratteristiche acustiche che rendono una voce percettivamente pi comprensibile di
unaltra.
6.8.3. Lalterazione volontaria
In questo caso linterlocutore B produce laggettivo bello con una intonazione dis-
cendente, alterando il normale modello intontivo, perch vuole indicare che il film non
stato magnifico ma discreto se non sufficiente. Avrebbe potuto sfruttare la ricchezza de-
gli aggettivi in italiano utilizzando ad esempio: insufficiente, scarso, limitato, mediocre,
scadente, dozzinale, banale, insignificante, sufficiente, discreto ecc. invece conferisce
una gradualit a bello attraverso un preciso modello intonativo.
Esempio Trascrizione 2:
Al contrario una intonazione ascendente dello stesso aggettivo indica che il film
stupendo, magnifico. Nellesempio in trascrizione 1, B non suggerisce la visone del film
al contrario invece di quanto avviene nellesempio in trascrizione 2.
Questa gradualit viene utilizzata dai parlanti in molti casi e non solo con gli agget-
tivi ma anche con i nomi e con i verbi.
A: Hai mangiato?
B: si!
A: cosa?
B: degli3spaghetti1# (oppure degli spaghetti).
Anche in questo caso una intonazione discendente indica che la qualit degli spaghetti
mangiati appena sufficiente mentre una intonazione ascendente come nellesempio 4)
indica il contrario.
A: Hai mangiato?
B: si!
A: cosa?
B: degli1spaghetti3// (oppure degli spaghetti );
Esempio verbi Trascrizione 5:
Anche in questo caso linterlocutore avrebbe potuto utilizzare altri termini, altri
verbi o esplicitare il proprio pensiero, invece sceglie la strada del modello intonativo181.
Esempio Trascrizione 7:
Esempio Trascrizione 8:
6.8.4. Il Parlato
Abbiamo gi molto parlato del contesto. In questo paragrafo tratteremo solo il fattore
contesto ai fini della trascrizione di una intercettazione.
Il contesto della situazione il luogo fisico in cui avviene la conversazione e ci
che osservabile. Esso pu essere implicito o esplicito da parte dei parlanti-ascoltatori
creando seri problemi ai trascrittori assenti.
Una frase del tipo con questa riesco a farne due dosi, chiara ed esplicita solo per chi
presente e vede il parlante indicare qualche cosa, invece risulta essere ambigua e con diverse
possibili interpretazioni a chi deve trascrivere avendo a disposizione solo il segnale acustico.
Ne sono prova le tante perizie affidate ed effettuate proprio su comunicazioni ambigue.
Il Magistrato affida una perizia linguistica o di trascrizione nella maggior parte dei
casi, non sulla base dellascolto del flusso sonoro delle registrazioni ma sul significato
frasale che si deduce dai verbali redatti dagli operatori di PG (Polizia Giudiziaria), o su
indicazione degli stessi. Nella maggior parte dei casi le informative cio le trascrizioni
in fase investigativa, sono parziali e riportano solo alcune frasi a-contestuali incrimi-
nanti come per esempio si sente passami la pistola o ancora potessi vederti morto
ammazzato, traduzione italiana di o chimma te viju mortu ammazzatu (dialetto catan-
zarese) che oltre al significato frasale e quindi alla traduzione letterale da intendersi
come semplice interazione, un saluto, lesternazione di una preoccupazione al pari di
tammazzera (dialetto catanzarese) it. ti ammazzerei 187. ormai nota, nel processo de-
nominato no global, laccusa basata sulla sola trascrizione della frase fatti sta sparata
subba Genova (dialetto cosentino) interpretata come premeditazione o organizzazione
di un eventuale attentato. La corretta interpretazione di ci che devi dire ma fallo mol-
to velocemente. Queste frasi e queste comunicazioni, senza una precisa ed esauriente
definizione del contesto sociale, culturale, situazionale e del cotesto verbale risultano
essere sicuramente incriminanti, ma con una valenza giuridica decisamente ambigua.
Una trascrizione parziale o ambigua, mina alle fondamenta il concetto di comunicazione
verbale multidimensionale.
Con questo non si vuole affermare che loperatore di PG non possiede una compe-
tenza acquisita, ma spesso lintuizione dellascoltatore scaturita dallascolto complessivo
del flusso sonoro, porta a mettere in rilievo una frase o una porzione di frase, lintuizione
pu essere scaturita da un rumore, da unintonazione, da una inflessione particolare nel
parlare, o nel rispondere, ma loperatore non ha gli strumenti per mettere su carta questa
intuizione, non ha la competenza per tradurre in scritto una interazione orale, quindi sar
costretto a limitarsi al significato molto superficiale delle parole o della frase. In qualche
modo chi verbalizza, il filtro tra la registrazione ed il magistrato, produce di fatto una
gerarchia per ordine di importanza, ci implica che detto filtro abbia la competenza lin-
guistica, dialettologica, pragmatica e fonetica adeguata.
Il contesto esterno invece il contesto storico e sociale della conversazione. Alcuni
aspetti del parlante possono essere estremamente importanti per una corretta trascrizione.
In alcuni casi questi possono anche essere verificati prima di effettuare una trascrizione.
La situazione riguarda lo stato sia del parlante che del ricevente. Il parlante il cen-
tro e tutto ruota intorno a lui, lo spazio (si veda luso delle deissi spaziali) organizzato
in funzione della sua posizione, quindi prendi quel giornale l sta ad indicare un l a parti-
re dalla sua posizione. Anche il tempo (si veda luso delle deissi temporali) organizzato
in base al tempo del parlante, torno tra un ora indica un ora a partire dal momento in cui
il parlante ha prodotto latto linguistico ecc.
Riguardo il canale necessario premettere che esso pu essere sia scritto che ora-
le. In questa sede ci soffermiamo esclusivamente su quello orale ed in particolar modo
su quello intercettato. Le intercettazioni possono essere differenziate in almeno due tipi
canonici (e alcuni sottotipi): le intercettazioni telefoniche e le intercettazioni ambientali.
Le intercettazioni telefoniche sono delle particolari interazioni orali che hanno un inizio
ben preciso, segnalato da uno squillo, e una fine spesso segnalata da un saluto e da una
chiusura dellapparecchio. La comunicazione si svolge tra due persone (o con scambi
di interlocutori segnalati da frasi ben precise come te lo passo), nella maggior parte dei
casi si rispetta il turno (cio vi poca sovrapposizione di voci e questo perch ci si affida
esclusivamente al canale sonoro omettendo quello visivo), la distanza dalla fonte sonora
alla cornetta (cio al microfono) costante, i rumori sono situati alle spalle dellinterlocu-
tore e lontani dalla conversazione, le informazioni sono tutte affidate al canale e soprat-
tutto alla nostra fiducia nel canale (per esempio il nostro modo di interagire differente
al telefono fisso rispetto al telefono cellulare)188. Durante una comunicazione in presenza,
o frontale (intercettazione ambientale), i canali si moltiplicano, le interazioni sono pi
complesse, i rumori assumono nuovi significati, completano spesso lo scambio verbale, si
trovano tra la fonte sonora e il microfono, i turni non vengono rispettati gli interlocutori
sono due o anche di pi, la distanza tra la fonte sonora ed il microfono non mai la stes-
sa, inoltre una conversazione in presenza non ha mai un inizio ed una fine ben definite.
Nellintercettazione segnalata da un numero progressivo che per viene inserito ogni
59 minuti di registrazione. Cosicch un progressivo di una registrazione ambientale,
non identifica una precisa conversazione, ma un tempo preciso registrato, allinterno
del quale pu essere contenuto parte di una pi ampia conversazione, o al contrario
molteplici conversazioni.
Lintercettazione ambientale pu avvenire in un luogo chiuso o in un luogo aper-
to. Oggi qualunque tipo di intercettazione si effettua attraverso una rete telefonica (si
veda ad esempio lintercettazione in automobile) a tal fine importante differenziare
non lo strumento ma la situazione comunicativa che viene intercettata. In questa sede
al di l dello strumento utilizzato si identifica una intercettazione telefonica quando la
conversazione avviene in assenza e una intercettazione ambientale quando essa avviene
in presenza. Tra le intercettazioni ambientali per possono essere identificati dei sottotipi
in base alle caratteristiche della situazione del luogo fisico o in base ad alcune variabili
come ad esempio il movimento degli interlocutori. In una intercettazione in automobile
gli interlocutori hanno poco movimento e anche solo dal tono e dalla distanza della voce
pi facile lattribuzione dei turni, cos durante una intercettazione di un colloquio in
carcere189, al contrario invece di quanto avviene in una intercettazione in un bar o in uf-
ficio. Altra caratteristica per differenziare i sottotipi sono il riverbero, la grandezza dello
spazio, i rumori presenti, il numero degli interlocutori. Il canale influenza, ovviamen-
te, molto il numero dei partecipanti alla discussione, il telefono normalmente prevede
2 interlocutori, una conversazione ambientale pu invece interessare molte persone. Il
numero dei partecipanti pu rimanere costante dallinizio alla fine della conversazione,
o pu variare oppure qualche interlocutore pu essere sostituito da un altro. Per un tra-
scrittore importante avere piena consapevolezza dellargomento trattato nella conver-
sazione concentrando lattenzione inizialmente sul significato190 pi che sul significante
e sulle singole parole da trascrivere. Tale procedura ovviamente aiuta la corretta attri-
buzione di ogni produzione di voce al singolo parlante senza confondere le attribuzioni.
Per quanto riguarda il contesto interno o linguistico questa una scelta che compete
al parlante. Una comunicazione orale influenzata fortemente dalla situazione; questa
infatti, normalmente, non pianificata, non perenne, quindi se il destinatario non sente
o perde una parte del messaggio, non potr pi recuperarla (nella scrittura basta rileggere
il brano). ormai riconosciuto da tutti che il contesto per una buona interpretazione di
un atto linguistico una delle variabili pi importanti. A questo proposito Duranti nel
1992 ha scritto: Pi recentemente, soprattutto a partire dalla fine degli anni Sessanta, un
crescente numero di linguisti ha cominciato a sostenere, sulla base di numerose ricerche
empiriche, la necessit di andare al di l della frase come unit danalisi. In particolare,
essi hanno dimostrato che certi fenomeni linguistici quali, ad esempio, lordine delle
parole, la flessione verbale e nominale possono esser meglio compresi se si analizza il
contesto linguistico al di l della frase in cui tali fenomeni appaiono. E ancora sempre
Duranti op. cit. Le persone coinvolte in uninterazione hanno dei modi per far sapere
agli altri partecipanti (siano essi presenti o assenti) la chiave di lettura o dinterpretazio-
ne di quello che dicono. Molto spesso la chiave interpretativa per una data espressione
linguistica viene data da comportamenti non verbali, che vanno quindi presi in consi-
derazione nellanalisi del parlato: una scrollata di spalle, una smorfia, unalzata delle
sopracciglia, uno strizzare docchio, un gesto con le mani.( 2.6, p.5).
La lingua deve essere intesa come un processo, un mezzo di interazione allinterno
di una certa situazione e di un certo contesto. Il mezzo attraverso il quale il parlante defi-
nisce il suo stato sociale, le sue sensazioni, i suoi sentimenti, tutte cose che non sono fa-
cilmente trascrivibili o traducibili in grafemi o segni grafici. Il parlante dal canto suo mi-
sura la sua produzione linguistica in base al luogo, per esempio in base al rumore stimer
la propria intensit (effetto Lombard), in base al rimbombo, la sua chiarezza, in base alla
presenza assenza di altri interlocutori il suo volume (effetto Romito), il suo codice ecc. Il
tipo di voce pu cambiare anche in base alla temperatura, infatti il forte freddo o il forte
caldo pu influire sulle caratteristiche acustiche e sulla stessa organizzazione sintattica
delle frasi costruite (si pensi al tremolio della mandibola per il freddo o al parlare sof-
fiando ripetutamente tra le mani). Il trascrittore non pu omettere informazioni di questo
tipo nella stima del parlato che dovr percepire e poi trascrivere.
Anche lo stato sociale ed i rapporti vengono definiti in base allo status ed al ruolo
che riveste il parlante in quellistante (rapporti simmetrici e asimmetrici). Un parlante
ritenuto (giustamente o ingiustamente) appartenere ad una scala sociale, culturale o di
potere superiore, difficilmente verr interrotto durante il suo eloquio che quindi potr
essere lento e con pause ripetute.
In ogni conversazione a due o tra molti, esistono sempre due posizioni, una domi-
nante ed una dominata. La valutazione della posizione non qualitativa ma sociale e
frutto di considerazioni e deduzioni soggettive dei singoli interlocutori. Un professore
ed uno studente in aula avranno dei ruoli stabili per default cos come una conversazione
tra un padre ed un figlio. Negli altri casi (compreso quello tra marito e moglie) sono le
schermaglie iniziali che definiscono di volta in volta il ruolo dominante e quello domi-
nato. Il dominante non viene interrotto, sovrappone la sua voce, ha lunghe pause, parla
con voce sostenuta, fa riferimento a conoscenze e implicazioni, al contrario il dominato
subisce le caratteristiche del dominante. In una riunione di una associazione criminale
attraverso una approfondita analisi conversazionale si potrebbe stabilire il ruolo che ogni
singolo interlocutore assume nellorganigramma della stessa associazione.
non so di preciso lora ma posso forse aiutarti dandoti come informazione il fatto
che, se oggi Michele ha lallenamento di Basket, allora potrebbe arrivare solo quando
questo sar terminato.
Ovviamente lassoluta mancanza di conoscenze da parte di un ascoltatore esterno
come potrebbe essere un trascrittore non consente assolutamente una corretta perce-
zione ed interpretazione del segnale acustico prodotto.
Abbiamo gi trattato largomento della presa del turno nel paragrafo relativo
allanalisi conversazionale, in queste pagine ci concentriamo solo sullavvicendamen-
to dei turni in ambito di intercettazioni e quindi di trascrizioni.
Qualsiasi conversazione, effettuata in presenza o in assenza (per telefono) carat-
terizzata dallavvicendamento dei turni, cio dal passaggio dallo status di destinatario
a quello di emittente e viceversa. In una conversazione, soprattutto telefonica, lo scam-
bio di turni avviene in maniera ordinata. ovvio per che nella norma e maggiormente
nelle conversazioni in presenza spesso si verificano interruzioni e sovrapposizioni di
turni. Gli interlocutori pretendono di parlare nello stesso momento (in questo caso si
parla di avvicendamento non morbido). In casi come questi pu essere molto impor-
tante per linquirente sapere chi dei due riuscir ad imporre il proprio turno, visto che
ci indicher (soprattutto in alcuni ambienti) colui che detiene uno status sociale rite-
nuto pi alto. Su questo argomento molti sono i lavori da consultare (Sacks, Schegloff,
Jefferson, 1974, Duncan 1972), che affrontano il problema dellavvicendamento dei
turni schematizzandolo con regole comportamentali abbastanza ferree: noto che il
rispetto del turno di parola pi basso quanto pi bassa lestrazione socioculturale
degli interlocutori, quanta pi alta la confidenza che lega, quanta pi intensa la
partecipazione emotiva prodotta dallinterazione comunicativa in atto (per cui sono
prevedibili i picchi di sovrapposizione proprio in corrispondenza ad argomenti perti-
nenti alle indagini, dato che i reati sono per loro natura emozionalmente non neutri195.
6.8.7. La registrazione
Tabella 6.5 Tabella che riporta la misura del rapporto segnale rumore (S/N) e del rap-
porto segnale informativo segnale disturbante (I/D) in due precise porzioni di tempo
Gli studi sulla psicologia della percezione uditiva in relazione ai processi cognitivi
associati di riconoscimento ed interpretazione del segnale, hanno avuto tra i propri inte-
ressi anche il potere che fattori quali memoria ed attenzione forniscono nella percezione
dei suoni.
La memoria quel fattore cognitivo che permette allindividuo di usufruire della
propria esperienza passata in modo da rispondere appropriatamente allesperienza in
atto. Quando si in presenza di determinati stimoli, le informazioni che ne derivano,
vengono registrate dallascoltatore nella memoria a breve termine, ed alcune di esse,
in seguito, vengono trasferite nella memoria a lungo termine. La prima gioca un ruolo
molto importante durante la comunicazione linguistica: permette infatti allascoltatore
di ricordare le prime parole di una frase o di un discorso, fino alla fine dellinterazione
cos che possa essere interpretata lintera performance. La memoria a breve termine ha
risorse limitate ed in grado di conservare sequenze non pi lunghe di sette elementi,
tuttavia, grazie al processo di ri-decodifica capace di registrare molte pi informazioni
rispetto allo stimolo reale. La memoria a lungo termine invece immagazzina informa-
zioni che hanno lunga durata nella memoria degli individui e corrisponde molto di pi al
concetto ingenuo che ognuno di noi ha del termine memoria.
Ogni aspetto del linguaggio umano influenzato dallesperienza passata e tutte le
volte che ascoltiamo un suono entra in funzione un meccanismo mnemonico. Londa
sonora in ingresso incontra il lessico presente nella nostra memoria per poter essere as-
sociato ad una precisa parola. Lascoltatore automaticamente riceve ed elabora i segnali
acustici in modo da poterne ricavare una rappresentazione interna. Quando si ascoltano
parole note quindi gi percepite in altri luoghi e tempi, il cervello umano fa ricorso pro-
prio ad una memoria implicita 228 per economizzare il processo percettivo 229. Si forma
cos un istantaneo schema mentale in cui si confronta il modello acustico del momento
con qualcun altro, depositato in memoria, che sia il pi simile possibile. Ci costituisce
una vera e propria selezione che si realizza nella memoria a breve termine. Se il dato in
entrata corrisponde totalmente a ci che stato precedentemente depositato in memoria,
il processo termina e la comprensione facilitata proprio grazie a questa sorta di familia-
rit col segnale, altrimenti sar necessario creare un nuovo modello.
Per quanto riguarda lattenzione, essa consiste nella capacit cognitiva che lascolta-
tore usa per concentrare la propria attivit mentale su un particolare aspetto dello stimolo
percepito. Tale fattore pu svilupparsi e migliorare col tempo e con un opportuno adde-
stramento delle competenze nella fonetica percettiva 230. Particolare importanza riveste
soprattutto la cosiddetta attenzione selettiva, ovvero ci che ci permette di selezionare
soltanto alcuni degli input che riceviamo dallesterno ignorando tutti gli altri.
Il fattore attenzione sembra essere quello pi limitato; in molti casi, durante il rico-
noscimento del parlato nel caso di segnali con sovrapposizione di voci, lascoltatore deve
porre attenzione ad una sola fonte di stimoli; altrettanto noto che la sua capacit di com-
prensione 231 decade inevitabilmente di fronte a pi parlanti. Alcuni studi 232, effettuati con
lausilio della risonanza magnetica, hanno investigato il ruolo del processo pre-attentivo
ed attentivo nei confronti dello stimolo udito. Emerge, anche in soggetti senza alcun ad-
destramento specifico, limportanza del meccanismo dellattenzione selettiva nella per-
cezione. Lorganismo reagisce concentrando le sue limitate risorse percettive in modo
vantaggioso al fine di scoprire ed analizzare solo ed unicamente lo stimolo target (si veda
a questo proposito quanto gi detto riguardo leffetto cocktail party).
6.8.10. Il Trascrittore dalla competenza alla inintelligibilit
A volte invece il dialetto viene tradotto parola per parola, letteralmente giungendo a
sintassi e morfologie errate per la lingua di arrivo come nellesempio seguente tratto da
una trascrizione effettuata per conto del Tribunale di Crotone, Procedimento nr. 5995/01
mod. 21 DDA:
Durante una trascrizione si deve evitare di operare (anche solo inconsciamente) una
preselezione delle informazioni e di effettuare analisi sugli interlocutori che possano
produrre aspettative nel trascrittore. La trascrizione di un parlato deve contenere ripeti-
zioni, errori, false partenze e tutto ci che differenzia il parlato dallo scritto. necessario
identificare lintero turno con un inizio e una fine; analizzarne la composizione non solo
riguardo le parole ma anche rispetto tutti quegli elementi discorsivi e paratestuali come
eh, non, uhm, ti volevo dire; le sovrapposizioni, i silenzi devono ricevere la stessa
attenzione delle parole e dei rumori; rammentiamo che alcune frasi hanno grammaticali-
t potenziale, hanno senso solo allinterno di un preciso contesto che non pu e non deve
essere omesso.
Se la registrazione un primo livello dalla realt la trascrizione sicuramente un
secondo livello, il pi importante e incisivo poich rendiamo digitale, spaziale e visivo
un atto che continuo e uditivo. La trascrizione dovrebbe rispondere fondamentalmente
a tre criteri: affidabilit, validit e sensitivit.
Per facilit di esposizione dividiamo la trascrizione in due livelli, quello alto che
riguarda lattendibilit, la linearit, il commento ecc., e un livello che potremmo definire
segmentale che riguarda la trascrizione di pause, di variazioni fonetiche volontarie ecc.
La trascrizione di un segnale sonoro o di una registrazione normalmente viene ef-
fettuata da chi non conosce levento originale o la conversazione e non conosce gli in-
terlocutori e sente le loro voci per la prima volta, non conosce neppure loggetto della
discussione, non possiede conoscenze condivise e pregresse, n il loro grado di intimit
e di conoscenza. La trascrizione per, verr letta da chi conosce i fatti e i nomi ed ha
alcune aspettative sulla produzione.
6.9.1. Lattendibilit
Per ci che riguarda lattendibilit, il trascrittore deve cercare per quanto possibile
di annullare la propria interpretazione riportando solo ci che presente nelloriginale.
Un secondo problema riguarda il riconoscimento e lattribuzione delle voci che con-
sciamente o inconsciamente vengono effettuate durante una trascrizione. Loperatore di
Polizia Giudiziaria riconosce una voce e lattribuisce senza nessuna incertezza ad una
persona (dandole quindi un nome ed un cognome) effettuando di fatto una comparazio-
ne. Questo problema risulta essere ancora pi grande quando si tratta di intercettazioni
ambientali (oggi diffusissime) dove il numero degli interlocutori variabile e pu essere
anche molto alto, dove la distanza dal microfono non mai costante e le variabili in
gioco sono veramente tante. In questi casi le note informative possono e devono aiutare,
sar poi in udienza che le parti richiederanno, ove lo ritenessero necessario una compa-
razione fonica oggettiva. indubbiamente pi comodo e pi facile leggere delle trascri-
zioni con interlocutori nominati piuttosto che riferirsi ad Uomo1 e Uomo2.
Un ultimo punto riguardo lattendibilit sicuramente il concetto di trascrizione
integrale.
Il nuovo Codice di Procedura Penale (1988 libro III cap. IV) introducendo la re-
gistrazione ambientale, specifica (al comma 7) che il giudice dispone la trascrizione
integrale (ndr. grassetto nostro) delle registrazioni da acquisire236. Integrale, come
gi detto in precedenza, necessita di una interpretazione: si intende intero e cio tutto
ci che compreso nella registrazione includendo rumori, borbottii, silenzi, colpi di
tosse, radio in sottofondo ecc. o indica esclusivamente tutte le parole comprese nella
registrazione? Ovviamente questa seconda ipotesi (quella pi accreditata in ambito
giudiziario) la meno corretta e riduce la comunicazione alla sola parola, al solo
significante. Tutto quanto scritto in questo volume dimostra che la comunicazione
tutto, le parole non sono che una piccolissima parte della interazione, quindi ridurre
alla trascrizione delle sole parole vorrebbe dire effettuare una trascrizione parziale e
ristretta delle registrazioni in oggetto e non integrale come comprende il Codice di
Procedura Penale.
6.9.2. La linearit
Esempio Trascrizione 9:
A- si ma tu
B- no
A- dovevi portarmi
B- si
A- quei soldi
B- ma va be
A- e invece non me li hai
B- come vuoi tu
A- proprio portati
B- ma cche dici
A- si ma tu +no* dovevi portarmi +si* quei soldi +ma va be* e invece non me li hai
+come vuoi tu* proprio portati +ma che dici*
Tali informazioni sono necessarie per una corretta interpretazione del testo e solo
loperatore pu percepire il cambio di intensit di B che si allontana dalla cornetta tele-
fonica e si rivolge allinterno.
Riguardo la chiave di lettura invece, loperatore pu aggiungere informazioni sovra-
segmentali come nellesempio seguente:
Le pause possono essere di tre tipi: piene, vuote (senza alcun materiale linguistico, in
alcuni casi si pu sentire il respiro che spesso viene trascritto con h) 237 e di cambio di
turno (cio finisce di parlare linterlocutore A e interviene linterlocutore B).
Le pause piene vengono spesso trascritte con ehm, uhm, indicano la programmazione
del parlato o fungono da conferma da parte dellascoltatore di partecipazione e di condivisio-
ne. Normalmente non pongono seri problemi. Le pause vuote invece devono essere differen-
ziate al loro interno in base alla durata in brevi, medie e lunghe, e potrebbero essere segnate
per esempio con (-), (--) e (---) rispettivamente. Segnalare le pause molto importante.
Esempio Trascrizione 13 238:
Nel caso appena presentato la presenza delle pause fornisce una diversa chiave di let-
tura. Se nella colonna di sinistra un lettore interpreta nellinterazione lo scambio di un paio
di scarpe, nella colonna di destra la presenza delle pause in precise posizioni fornisce al let-
tore/ascoltatore informazioni importanti riguardo una diversa interpretazione. Ci che a li-
vello segmentale viene riportato come scarpe deve essere interpretato come qualcosaltro.
La pausa presente durante il cambio di turno pu essere lunga ma anche ridotta a zero,
e i due turni potrebbero sembrare come ununica produzione. Linterpretazione potrebbe
essere ad esempio una risposta impulsiva rispetto ad una risposta frutto di una riflessione.
Lassenza di pausa durante un cambio di turno potrebbe essere segnalata con il simbolo (=).
Lesempio seguente indica che tra la fine della produzione linguistica dellinterlocuto-
re A e linizio dellinterazione di B non trascorre alcun tempo.
La pausa nei cambi di turno segnala tipi diversi di giunture. Questa mobilit di oc-
correnza delle pause rafforza lidea che esse abbiano un doppio ruolo legato sia alla
pianificazione che alla struttura del discorso.
6.9.5. La coerenza
Altri casi che sicuramente vanno menzionati sono la mancata coerenza in alcune
trascrizioni nei confronti di alcuni simboli. il caso di cosa ho detto prodotto in dia-
letto chaju dittu e glielho detto/ lho detto a lui trascritto nello stesso modo chaju
dittu. La trascrizione fonetica userebbe due simboli diversi [kk] per ['kkaju'dittu] e [t]
per [tajudittu]. In una trascrizione per uso forense potremmo risolvere il problema
aggiungendo una - j - come nel seguente esempio e quindi trascrivere /cj'haju dittu/
per lho detto a lui e /chaju dittu/ per che cosa ho detto riportando in legenda che il
simbolo c esemplifica una occlusiva velare sorda [k] come nella parola cane ed il
simbolo cj esemplifica una affricata palatale sorda [t] come nella parola cinema.
Un altro esempio riguarda i tre puntini sospesivi che spesso vengono inseriti per
unintonazione sospensiva, per una parola non compresa, per una imprecazione o per
un tratto di parlato non importante. La non uniformit crea delle inesattezze e debolezze
interne alla trascrizione.
Riguardo laumento dellintensit che crea prominenza e quindi modifica in parte il
significato o lo dettaglia e specifica, si possono seguire gli esempi seguenti:
1) A- mi devi dare [alza il volume] cento milioni.
La parte dove il volume maggiore potrebbe essere scritta in maiuscolo:
2) A- mi devi dare CENTO MILIONI.
Si potrebbe stabilire un grado di altezza per esempio da zero a tre e quindi in base
allaltezza del volume scrivere:
3) A- mi devi dare [alto +2] cento milioni.
Il problema si ripropone, esattamente al contrario, quando linterlocutore abbassa il
livello del volume fino ad arrivare a sussurrare.
1a) A- mi devi dare [abbassa il volume] cento milioni.
Oppure
2a) A- mi devi dare (cento milioni).
O ancora
3a) A- mi devi dare [basso -2] cento milioni.
linterlocutore A potrebbe voler rimarcare il fatto che a dare i soldi proprio il desti-
natario del messaggio. Quindi la trascrizione potrebbe essere:
- relativi allidentificazione dei parlanti coinvolti (in particolar modo nel caso
delle conversazioni ambientali, dove quasi sempre i parlanti non sono nominati
esplicitamente);
- di rappresentazione del testo, in particolare per quel che concerne la resa in
forma scritta di tratti sovrasegmentali (intonazione, pause, ritmo, variazione di
timbro e di velocit di eloquio), e di tratti paralinguistici (ovvero segnali non
verbali quali gesti e movimenti di parti del corpo);
- di traduzione di tratti dialettali e gergali, dove pi che una semplice traduzione
letterale spesso occorre una vera e propria interpretazione (ancora oggi i Giudici
continuano a dare incarichi identificando un dialetto come calabrese, nono-
stante linguisticamente tale dialetto sia inesistente. La Calabria come regione
ha moltissimi dialetti ognuno dei quali caratterizzati da un proprio lessico
ed una propria struttura morfologica e sintattica. Si pensi solo che la parte
meridionale della Calabria ha un sostrato greco che ha molto influenzato i
dialetti parlati oggi, mentre la parte settentrionale della Calabria ha un sostrato
latino239).
- alla comprensione del testo, ovvero alla ricostruzione della situazione comuni-
cativa (totalmente estranea al trascrittore che dovr conseguentemente ricoprire
un ruolo particolarmente attivo di ascoltatore) in cui si realizzato latto lin-
guistico in questione. Il trascrittore deve intuire il contesto extra-linguistico, il
tempo ed il luogo, i ruoli esibiti dagli interlocutori e le loro conoscenze in merito
al tema della discussione ecc.;
- infine lintelligibilit del segnale registrato. indispensabile fissare concorde-
mente dei limiti al di sotto dei quali, con modalit analoghe a quelle delle prove
dattiloscopiche, viene dichiarata la non utilit del segnale ai fini della trascrizio-
ne. Avere laudio di una registrazione sicuramente positivo ma ci non rende
la trascrizione pi oggettiva e pi obiettiva.
Valutare una trascrizione come accurata o affidabile una opinione e mai una certez-
za. Non spetta agli inquirenti o alle parti in causa valutare una trascrizione anche se una
trascrizione senza note, senza commenti e senza una relazione che accompagni la lettura,
porta il lettore a desumere che quella che legge sia obbiettivamente e oggettivamente
lunica trascrizione possibile del segnale registrato.
ovvio che una trascrizione accurata preferibile ad una non accurata, ma difficile
definire e misurare laccuratezza. Una trascrizione non pu, in nessun caso, riportare
tutte le informazioni necessarie e presenti nel segnale; essa un punto di vista quindi una
trascrizione pi che essere accurata potr risultare convincente.
Quindi una trascrizione pi accurata di unaltra solo se si analizza lo stesso
punto di vista ad esempio considerando lintonazione e i tratti sovrasegmentali ( una
accuratezza relativa). La trascrizione A pu risultare pi accurata della B per le se-
gnalazioni prosodiche e intonative. Anche se accurata non significa obbiettiva e tanto
meno leggibile, infatti, la trascrizione A pi accurata sotto il profilo intonativo pu
risultare molto meno leggibile della trascrizione B e quindi veicolare un minor carico
informativo.
Si vedano le seguenti trascrizioni presentate per gradi di accuratezza fonetica
iditek odiauvitsjodiffitil
i dite ke odda u vitsjodiffitil
Gli dice che oggi ha un vizio
difficile
Gli dice che oggi, ha un vizio difficile
Gli dice (in sottofondo si sente un bambino urlare) che oggi (lungo sospiro) ha un
vizio difficile (lultima parola viene pronunciata con un volume molto pi alto).