Manuale Di Linguistica Forense

5.
Aspetti tecnici sulle intercettazioni:

analisi dei segnali e dei supporti
Vincenzo Galat
Istituto di Ricerche sulle Attivit Terziarie, Napoli & Istituto di Scienze e
Tecnologie della Cognizione, Padova Consiglio Nazionale delle Ricerche
5.1. Introduzione
Introdurremo il tema di questa sezione sullanalisi dei segnali e dei supporti che
vengono originati da operazioni di intercettazione richiamando due recenti definizio-
ni. La prima, di Nazzaro (2010: 14), definisce il concetto di intercettazione legale in
termini di captazione delle comunicazioni effettuate dallutente posto sotto intercetta-
zione dalloperatore di telecomunicazione sulla propria rete su richiesta dellAutorit
Giudiziaria; la seconda, di Paoloni & Zavattaro (2007: 81), definisce lintercettazione
come un operazione di [] captazione, con opportuni dispositivi elettronici, di con-
versazioni o comunicazioni che si svolgono a distanza mediante telefono o altro mezzo
(intercettazione di telecomunicazioni), o tra persone presenti in un determinato contesto
ambientale (intercettazione tra presenti) ad opera di un terzo che non partecipe al col-
loquio n destinatario delle comunicazioni intercettate. Solo da queste due definizioni
risulta evidente come le competenze richieste a colui che chiamato ad operare su ci
che potremmo definire il prodotto finale di un intercettazione, sia esso un semplice se-
gnale sonoro contenente la conversazione intercettata o il supporto su cui questultima
stata registrata, vadano ben oltre la semplice capacit o abilit di ascoltare e trasporre in
forma scritta il contenuto di una comunicazione.
Nella prassi giudiziaria, al perito a cui viene conferito un incarico avente come og-
getto una comunicazione intercettata, viene solitamente consegnata una registrazione
contenente la traccia sonora di un segnale intercettato: il contenuto della registrazione su
cui il perito dovr operare costituito nella maggior parte dei casi da comunicazioni o
conversazioni tra due o pi soggetti, disturbate e frammiste ad altri suoni delle pi sva-
riate tipologie (rumori, voci estranee e quantaltro). Inoltre, poich la captazione delle
conversazioni o anche intercettazioni, come vedremo pi avanti, pu essere di diversa
natura per le modalit con cui essa viene eseguita, e poich tali conversazioni altro non
sono che segnali sonori registrati su un supporto, risulta fondamentale che colui che
chiamato ad operare su di esse possegga una serie di competenze sulla natura dei suoni
in generale, competenze che ricadono nel dominio dellAcustica; a queste si aggiungo-
no anche competenze pi specifiche che riguardano la produzione e la natura dei suoni
della parola, ambiti di cui si interessano, rispettivamente, la Fonetica Articolatoria e la
Fonetica Acustica. Infine, non possono naturalmente mancare ulteriori conoscenze di
tipo tecnico riguardanti nella fattispecie le varie modalit di intercettazione che danno
origine a questi segnali e le diverse tipologie di supporti su cui questi vengono incisi,
archiviati e custoditi.
Per questa ragione, prima di affrontare aspetti tecnici e pi specifici inerenti le inter-
cettazioni nel loro complesso, sar opportuna una breve digressione sulla natura fisica
ed acustica del suono e, come accennato, ai suoni della parola: solo cos si potranno
affrontare e comprendere tutte quelle problematiche e tutte quelle questioni che rendono
il variegato mondo delle intercettazioni tanto affascinante quanto insidioso (dal punto di
vista tecnico, naturalmente).
5.2. Cenni di Acustica: il suono e le sue caratteristiche
LAcustica quel ramo della fisica che si occupa del suono come entit o fenomeno
fisico. Si tratta di una disciplina antica: i primi tentativi di studiare fenomeni acustici
risalgono addirittura a Pitagora e ai suoi discepoli, ovviamente con scarsissimi risultati
data la conoscenza e gli strumenti del tempo. Aristotele, al contrario, era gi a conoscenza
del fatto che il suono fosse il risultato dellurto di un corpo in moto nellaria: La causa
che il suono prodotto dallaria in movimento: come ci che mette in movimento laria
provoca per primo un suono, cos occorre che faccia a sua volta laria, via via in parte
muovendone altra e in parte essendo mossa. Perci il suono continuo, perch le forze
in gioco si succedono fino a che si esauriscano [].1
In tempi pi recenti, invece, furono in tanti ad interessarsi al modo con cui si genera
e si propaga un suono: si tratta soprattutto di studiosi della fisica, tra cui figurano nomi
quali Isaac Newton o Daniel Bernoulli per citarne qualcuno. per durante gli anni a ca-
vallo della prima guerra mondiale che lacustica si sviluppa come scienza in quanto tale,
un salto di qualit reso possibile prima grazie ai trasduttori elettrici e poi agli amplifica-
tori elettronici che permisero di convertire i suoni in impulsi elettrici e contestualmente
di misurare e di produrre suoni di qualsiasi intensit e frequenza.
Ma che cos il suono? Con il termine suono viene indicata la sensazione percepita
dallorecchio umano dovuta alle onde meccaniche che si propagano nellaria o in altri
mezzi elastici. Con altro significato, suono indica il fenomeno sonoro prodotto dalla
voce umana, da strumenti musicali o anche da apparecchi di segnalazione acustica: si
parla del suono della voce, del pianoforte o del violino, ma anche del suono delle cam-
pane, del clacson, della sveglia.
Il suono, come gi Aristotele aveva intuito, quindi uno stato vibratorio di un mezzo
elastico capace di vibrare. Un mezzo, o un corpo, si definisce elastico quando, al cessare
della causa deformante, lo stesso ritorna al suo stato originario, cosiddetto di quiete o
di riposo. Nella produzione dei suoni si ha, pertanto, propagazione di moto (o energia)
attraverso un mezzo elastico. Le particelle daria (il mezzo elastico) attraverso le quali
si propaga unonda sonora non si allontanano dal loro punto di inerzia abbandonandolo,
ma oscillano con un movimento vibratorio attorno al loro punto di equilibrio nella di-
rezione opposta alla forza deformante, al quale ritornano dopo aver urtato la particella
successiva e non appena la forza che le ha messe in moto sar cessata2. Il movimento
innescato nelle particelle del corpo elastico produce variazioni di pressione dove zone
di compressione, in cui le particelle sono molto vicine tra loro, si susseguono a zone di
rarefazione, in cui le particelle sono alla loro massima distanza: lalternarsi di queste
variazioni di pressione indotte dallenergia trasmessa a far s che unonda sonora si ori-
gini e si propaghi nel mezzo. Tuttavia, poich non tutti i corpi reagiscono ad una forza
deformante allo stesso modo, la velocit di propagazione del suono varia al variare del
mezzo elastico attraverso il quale viaggia, velocit che maggiore nei solidi e minore nei
gas (cfr. Tabella 5.1 a seguire).
Tabella 5.1 Velocit di propagazione del suono nei diversi corpi a determinate con-
dizioni atmosferiche
Occorre a questo punto introdurre una distinzione fondamentale tra onde complesse
e onde semplici. Ci che differenzia le une dalle altre la loro periodicit. Il suono una
perturbazione di tipo periodico che, a causa di ulteriori fattori che si sommano allonda
sonora semplice, la trasformano in unonda sonora complessa. A causa del mezzo di
propagazione, dellambiente circostante e per una serie di effetti acustici che si som-
mano allonda semplice, questa si trasforma in unonda complessa, frutto della
somma algebrica di due o pi segnali sinusoidali, ciascuno di data frequenza ed
intensit3. per questo motivo che praticamente impossibile trovare in natura delle
onde semplici perfettamente periodiche che sono, di fatto, delle onde complesse. Si
tratta tuttavia di una distinzione che sta alla base, prevalentemente, della Fonetica
Acustica su cui ci soffermeremo pi avanti: per convenzione si tende infatti a
considerare la forma donda di un suono linguistico come sinusoidale o quasi
periodico, che si riproduce in maniera
identica (o quasi) ad intervalli di tempo identici, in contrapposizione ad unonda sonora
a-periodica in cui il suo andamento vibratorio imprevedibile e altamente transiente,
ovvero diverso ad ogni istante4.
Come abbiamo visto, propagandosi nellaria un suono viaggia sotto forma di
onde sonore aventi caratteristiche fisiche misurabili in termini di tempo (t) espresso in
secondi (s), e ampiezza delle oscillazioni indotte dalla forza deformante.
Per affrontare gli altri concetti legati al suono che di seguito verranno esaminati, per
comodit e per maggiore semplicit faremo riferimento a unonda sonora di tipo sinusoi-
dale o periodica come quella riprodotta in Figura 5.1: la rappresentazione grafica, detta
oscillogramma, si riferisce allonda di un tono puro, o suono ideale5.
Figura 5.1 Rappresentazione grafica (oscillogramma) di unonda sinusoidale
I punti A, C, E, G ed I, rappresentano il punto di quiete o di riposo, mentre i punti

B, D, F ed H rappresentano il massimo punto di allontanamento dal punto di quiete
definito ampiezza delloscillazione. Lampiezza ci fornisce linformazione di quanto
le particelle daria messe in movimento si discostano dalla propria posizione di equili-
brio. Riguardo lampiezza possiamo dire che maggiore sar la distanza dalla particella
rispetto alla posizione di equilibrio, maggiore sar lintensit sonora6. Esistono due
tipi di misura per lampiezza: la prima una misura di tipo assoluto ed detta am-
piezza di picco (espressa in Watt, W) che misura effettivamente il punto in cui londa
ha ampiezza massima, ovvero la potenza di unonda sonora; in modo analogo in Watt
al metro quadrato (W/m2) viene indicata lintensit acustica, che mette in rapporto la
potenza di unonda sonora con larea della superficie perpendicolare alla direzione
dellonda da cui viene attraversata; la seconda , al contrario della prima, una misura
sullampiezza per come viene percepita dal nostro orecchio. Si parla in questo caso di
ampiezza efficace detta anche intensit (I) e lunit di misura comunemente adottata
il decibel (dB) che esprime, secondo una scala logaritmica in base 10, il rapporto fra
due grandezze omogenee e ci fornisce informazioni sullenergia con la quale un corpo
elastico vibra7.
Dal punto A al punto E londa compie unoscillazione completa che viene definita
con il termine periodo (T). Il numero di oscillazioni completate in una unit di tem-
po8 determina la frequenza (F) di un dato suono, espressa in Hertz (Hz), e corrisponde
allinverso del periodo che, come detto, la quantit di tempo impiegata per compiere
unoscillazione completa (F = 1/T). Unonda di frequenza pari a 5 Hz compie 5 cicli ogni
secondo. Un maggiore numero di cicli, determiner frequenze pi alte e quindi suoni pi
alti9.
La distanza tra una cresta e laltra, rappresentati in Figura 5.1 dai punti B ed F
corrispondenti ai due massimi punti consecutivi di allontanamento dal punto di
riposo10, ci fornisce la lunghezza donda espressa con il simbolo lambda () e consiste
nella distanza percorsa da un onda nel tempo impiegato dalla stessa per completare un
periodo11.
Con il trascorrere del tempo, al cessare della forza deformante, ogni suono va in-
contro ad un fenomeno detto di smorzamento: la sua ampiezza decresce fino ad arrivare
al punto di equilibrio e di conseguenza il suono si attenua fino al silenzio (vedi Figura
5.2). Questo fenomeno porta ad avere sempre onde aperiodiche, ma dal momento che
lo smorzamento prevedibile e si pu misurare per convenzione si tende a considerarle
ugualmente come periodiche.
Figura 5.2 Esempio di smorzamento di unonda sonora
Lanalisi di un suono avviene pertanto sulla base di grafici che lo rappresentano. Pu

essere rappresentato come in Figura 5.1 e Figura 5.2,, per mezzo di assi cartesiani e
allora prender il nome di oscillogramma attraverso il quale si studia landamento
dellonda in riferimento al tempo e allampiezza. La forma donda (waveform)
rappresentata per mezzo delloscillogramma ci che caratterizza il modo in cui una
specifica sorgente vibra: a parit di ampiezza e frequenza la forma donda che ci fa
distinguere un suono dallaltro12.
Sempre attraverso loscillogramma possibile studiare e caratterizzare una sorgente
sonora individuando in generale quattro fasi che verranno realizzate in modo differente
dalle varie sorgenti sonore (vedi schematizzazione in Figura 5.3):
1. attacco (attack): lampiezza varia da zero al punto massimo;

2. decadimento (decay): lampiezza diminuisce fino ad un certo livello;
3. sostegno (sustain): lampiezza rimane pressappoco costante;
4. estinzione (release): lampiezza diminuisce fino a zero (silenzio).
Oppure pu essere effettuata lanalisi di una porzione dellonda dove la sua ener-
gia viene espressa in funzione della frequenza (posta sullasse delle ascisse) e prender
quindi il nome di spettro di potenza13 rappresentato nella Figura 5.4 di seguito riportata.
Figura 5.3 Le quattro fasi che caratterizzano una sorgente sonora
Figura 5.4 Rappresentazione di uno spettro di potenza

Lanalisi di unonda (come quella in Figura 5.4 relativa ad unonda complessa)
si basa sulla sua scomposizione nelle onde semplici che la compongono. Si tratta di
unanalisi matematica denominata analisi di Fourier che consente di isolare le onde
semplici che, sommate tra di loro, approssimano londa complessa. Questo tipo di ana-
lisi permette di ottenere informazioni sulla frequenza fondamentale, sulle armoniche e
sullampiezza di un dato suono o segnale. Nella rappresentazione dello spettro in Figura
5.4 anche visibile una linea che congiunge tutte le sommit delle frequenze che viene
definita inviluppo spettrale. La caratteristica di questa raffigurazione sta nellassenza
della dimensione temporale, il che permette, a chi esegue lanalisi, di selezionare una
piccola porzione di segnale (detta anche finestra di analisi) ritenuta utile e di poterla
analizzare e risalire alla componente spettrale di un suono che costituita dallinsieme
delle componenti sinusoidali che lo compongono (armoniche)14.
Una ulteriore espressione grafica del suono data dal sonogramma, rappresentato
in Figura 5.5, che fornisce una visione tridimensionale del suono riportante in ascissa
lunit di misura tempo e in ordinata lunit di misura frequenza, mentre il livello
energetico del segnale dato dal maggiore o minore annerimento del tracciato sono-
grafico.
Figura 5.5 Rappresentazione grafica di un sonogramma con in alto il relativo oscillo

gramma
Esiste comunque una sostanziale differenza, alla quale si accennava pi sopra, tra lo
spettro di potenza e le altre due rappresentazioni grafiche qui delineate. Lassenza della
dimensione del tempo nello spettro di potenza lo rende infatti statico a differenza degli
altri due che sono dinamici per effetto della loro analisi in funzione del tempo15.
5.3. Cenni di Fonetica Articolatoria ed Acustica: i suoni della parola
Come precedentemente annunciato apriremo qui una breve parentesi sui suoni della
parola.
La Fonetica Articolatoria quella branca della Fonetica che si occupa dello studio
e della descrizione dei meccanismi di produzione dei suoni della parola da un punto di
vista fisiologico. Il suo principale oggetto di studio quello che viene comunemente de-
finito come apparato fonatorio, per descrivere il quale si ricorre essenzialmente a disci-
pline come lanatomia, la fisiologia, la foniatria, la neurologia e lotorinolaringoiatria. La
Fonetica Acustica si occupa, invece, dei singoli suoni del linguaggio indagandone le loro
caratteristiche fisiche, con particolare attenzione a quelli che vengono pi propriamente
detti foni, cio ai fonemi concretamente prodotti, avvalendosi delle leggi e dei principi
della fisica acustica ed a cui abbiamo gi accennato sopra.
Nellessere umano la generazione dei suoni della parola avviene attraverso una serie
di processi e meccanismi legati allapparato fonatorio. Si tratta di un complesso apparato
composto da pi organi con funzioni primarie prettamente fisiologiche come la masti-
cazione, la deglutizione, la respirazione e cos via. In realt, lapparato fonatorio non
altro che ladattamento allo scopo comunicativo di organi preposti ad altre funzioni16.
Ricorrendo alla definizione data da Ladefoged (1975), lapparato fonatorio pu es-
sere suddiviso in quattro grossi meccanismi che sono: il meccanismo pneumatico (che
comprende tutto il sistema deputato alla respirazione: polmoni, diaframma, bronchi e
trachea); il meccanismo glottidale (ovvero la parte superiore della laringe, compren-
dente la glottide nel suo insieme); il meccanismo articolatorio (che comprende tutta
quella parte che dalla glottide si estende fino alle labbra: epiglottide, cavit faringea,
ugola, palato duro, lingua ecc.); il meccanismo oronasale (comprendente le cavit
nasali e il velo). Nella Figura 5.6, a seguire, si evidenziano schematicamente le com-
ponenti di ciascun meccanismo che, nel loro insieme, compongono e costituiscono
lapparato fonatorio.
Figura 5.6 Una descrizione schematica dellapparato fonatorio con i quattro meccani-
smi deputati alla produzione dei suoni della parola
Per analogia, e per maggiore semplicit, si pu pensare allapparato fonatorio come

ad uno strumento musicale a fiato, mentre i suoni prodotti dalluomo, chiamati foni, pos-
sono essere assimilati alle note prodotte dallo strumento stesso. Data questa analogia si
pu tranquillamente affermare che luomo suona il proprio strumento a fiato respirando
ed respirando che vengono generati i suoni della parola. Nulla di pi semplice e natu-
rale che parlare respirando, al punto che quasi non ce ne rendiamo conto.
Nelluomo il suono vero proprio nasce al livello della glottide grazie ad un flusso
daria, detto anche egressivo17, generato dal meccanismo pneumatico che la attraversa
in quella che viene definita fase di espirazione. La glottide , pertanto, la prima sorgente
sonora: le pliche vocali, vibrando, traducono lenergia trasmessa dal meccanismo pneu-
matico in un vero e proprio suono.
La glottide posizionata nella parte superiore della laringe che, allo stesso tempo,
la comprende. La laringe una particolare struttura cartilaginea avvolta da una serie di
fasce muscolari ed caratterizzata da un rivestimento mucoso interno che va a
costituire un organo cavo: la sua funzione primaria quella di mettere in
comunicazione la trachea, in basso, con la faringe, in alto. La glottide rappresenta
lelemento pi importante e delicato di quello che pi sopra stato definito uno
strumento a fiato che comprende, come evidenziato nella Figura 5.7, le corde o pliche
vocali.
Figura 5.7 La glottide vista dallalto18
Durante la normale respirazione le pliche vocali restano separate e rilassate, mentre

durante la produzione dei suoni possono contrarsi e tendersi, avvicinandosi o accostan-
dosi luna allaltra, regolando in tal modo il flusso daria che risale dal meccanismo
pneumatico riducendone, o addirittura bloccandone, il normale passaggio. Durante il
passaggio del flusso daria le pliche vocali si mettono in movimento vibrando, alter-
nando cicli rapidissimi di chiusura e apertura causati dalla maggiore o minore pressione
dellaria messa in movimento dallinterno verso lesterno19. Per questa ragione, quando
le pliche vocali sono accostate, il flusso daria che proviene dai polmoni le mette in vi-
brazione, producendo un rumore che caratterizza i suoni sonori; quando queste sono
aperte laria passa tra le due membrane senza provocare altro rumore se non un lievissi-
mo fruscio con cui vengono prodotti i suoni detti sordi.
Il suono generato dalle vibrazioni delle pliche vocali viene successivamente mo-
dificato in vari modi con lausilio dei meccanismi articolatorio e oro-nasale, deputati
alla vera e propria modificazione e differenziazione dei suoni generati dal meccanismo
glottidale sotto la spinta dellaria proveniente dal meccanismo pneumatico. Gli organi
che intervengono in questa fase, responsabili delle differenze nei suoni prodotti dal
parlante e percepiti dallascoltatore, possono essere raggruppati in organi mobili e
organi fissi.
Vengono definiti organi mobili le labbra, la mandibola, la lingua e le pliche vocali,
chiamati anche organi articolatori, o semplicemente articolatori grazie alla loro capaci-
t e libert di movimento. Variando la posizione di questi elementi, il parlante modifica
Figura 5.8 La glottide vista dallalto nella posizione di 1) normale respirazione, 2)
respirazione forzata, 3) produzione di foni sordi, 4) mormoro, 5) produzione di foni
sonori, 6) laringalizzazione, 7) produzione dellocclusiva glottidale, 8) bisbiglio20
il flusso daria polmonare intervenendo sulla struttura delle cavit attraverso le quali
passa (per esempio, cavit faringea, orale e nasale), creando delle vere e proprie casse di
risonanza che differenziano, in base alla loro conformazione, il suono che ne viene gene-
rato21. Sono invece organi fissi i denti, la radice dei denti, il palato duro e il palato molle,
elementi che fungono in vari modi da supporto o appoggio agli articolatori mobili. In
tal caso il suono subisce modificazioni in base allentit della frizione impartita dagli
articolatori mobili contro gli articolatori fissi restringendo o ostruendo il varco di uscita
dellaria. Ogni modificazione intervenuta e realizzata in questa fase al di sopra della
glottide a carico dei due meccanismi articolatorio e oro-nasale in base ai contatti operati
dagli articolatori mobili e fissi, produce cambiamenti e differenze nella qualit e nel tipo
di suono che viene prodotto dal parlante e percepito dallascoltatore.
Lapparato fonatorio sostanzialmente uguale sia negli uomini che nelle donne e
nei bambini, a parte alcune piccole differenze che rendono le voci chiaramente distin-
guibili luna dallaltra, sia per i diversi sessi che per le varie fasce det. Queste diver-
sit sono desumibili soprattutto dai valori di frequenza fondamentale (dora in poi F0 )
che dipendono dalle caratteristiche anatomofisiologiche dellindividuo quali et, peso,
sesso e sono direttamente legati alle caratteristiche delle pliche vocali quali elasticit,
grossezza e lunghezza.
La frequenza fondamentale la frequenza dellonda generata dalla glottide, comune-
mente identificata con la vibrazione delle pliche vocali, e viene calcolata con un apposito
algoritmo (Cepstrum) che consente di rilevare il suo valore anche in situazioni di segnale
disturbato. Poich le frequenze di un suono sono collegate tra di loro in modo armonico,
il valore di F0 corrisponde alla frequenza pi bassa tra le componenti di un suono definite
armoniche. Ogni armonica multiplo intero di F0 , pertanto la seconda armonica ha un
valore di 2F0, la terza di 3F0 e cos via. Il parlato , in questi termini, il risultato dellunione
di pi onde modificate dal nostro apparato fonatorio a formare onde complesse con F 0 e
armoniche proprie e variabili. Londa complessa che viene originata, infine, varia al variare
dellimpostazione che lapparato fonatorio assume nella produzione dei singoli foni.
La diversit maggiore tra uomo e donna sta nella differenza di altezza di F 0 (essa
varia orientativamente da 80 a 200 Hz per gli uomini e da 100 a 300 Hz per le donne).
Luomo medio ha una laringe pi larga, di conseguenza pi adatta a produrre suoni con
frequenza pi bassa rispetto alla donna media dotata di una laringe pi stretta. Nei bam-
bini questi valori sono ancora pi alti rispetto agli adulti22.
La conformazione fisica del nostro apparato fonatorio risulta essere determinante nella
morfologia del segnale vocale. I suoni linguistici che grazie ad esso vengono realizzati,
vengono comunemente divisi in due classi: vocali, ovvero suoni prodotti senza che via sia
frapposizione di ostacoli al flusso daria nellarea che compresa fra la glottide e il termi-
ne del percorso dellaria, caratterizzate dalla presenza di vibrazione delle pliche vocali; e
consonanti, ovvero suoni prodotti con lausilio della frapposizione di un ostacolo, parziale
o totale, al passaggio dellaria in un qualche punto del percorso al di sopra della glottide.
Le vocali risultano generate grazie allemissione costante del flusso sonoro prodotto a
livello glottidale. Poich i suoni generati con concomitante vibrazione delle pliche vocali
sono detti sonori, le vocali sono normalmente e per loro natura tutte sonore. Le vocali sono
in genere gli elementi pi frequenti nel parlato e possiedono unenergia intrinseca maggio-
re rispetto a tutti gli altri foni. Per questa ragione le vocali risentono meno delle alterazioni
e delle influenze indotte dal rumore. La loro differenziazione nella lingua parlata avviene
sulla base di valori acustici detti valori formantici che sono strettamente connessi alla di-
mensione delle cavit sopraglottidali che fungono da casse di risonanza. Le vocali possie-
dono, quindi, una tipica struttura spettrale caratterizzata dalla presenza di formanti. Come
pi volte detto, i suoni prodotti dal nostro apparato fonatorio sono caratterizzati dallavere
una determinata F0 che domina su una serie di armoniche. Le formanti sono, perci, dei
rafforzamenti di energia di alcune armoniche in un determinato punto dello spettro. Questi
picchi di energia corrispondono ai punti di maggiore annerimento sul tracciato sonografico
(vedi Figura 5.5 pi sopra riportata) o ai picchi dellinviluppo spettrale (vedi Figura 5.9).
Le formanti non coincidono necessariamente con unarmonica23. Una formante pu,
infatti, contenere o dominare su pi di unarmonica. Ne consegue che in assenza di
armoniche da rinforzare non vi pu essere formante che, per essere considerata tale, ne-
cessita di una determinata banda formantica o di un insieme di armoniche da rinforzare24.
necessario sottolineare, inoltre, che la diversificazione delle vocali da un punto di
vista acusticopercettivo non dipende solo da una singola formante, ma dallinsieme di
Figura 5.9 Spettro con inviluppo spettrale delle prime cinque formanti di una vocale25
tutti i valori formantici e dalla configurazione spettrale degli stessi. Ovviamente i valori for-
mantici non sono sempre uguali, ma possono variare allinterno di un certo intervallo defini-
to area di esistenza vocalica. Per questo motivo, nonostante la variabilit dei valori forman-
tici, un ascoltatore sar comunque in grado di identificarle. La frequenza delle formanti26
differente dalla F 0 poich dipende strettamente dalle cavit dellapparato fonatorio, o meglio,
dalle cavit che stanno al di sopra della glottide. Le cavit soprastanti hanno quindi funzione
di filtri o di casse di risonanza che risuonano a determinate frequenze che, rafforzando una
serie di armoniche danno origine a quelle che qui sono state definite formanti.
Si tratta, in breve, di quella che nota come la teoria acustica di produzione della
parola attualmente e quasi universalmente riconosciuta, elaborata e sviluppata da Gun-
nar Fant (1960)27, che approssima la configurazione del condotto vocale a un condotto
acustico a simmetria radiale, asse rettilineo e sezione trasversa di area variabile: secondo
tale teoria le frequenze formantiche rappresentano una funzione del condotto vocale28.
Come gi detto, la differenziazione delle vocali viene operata sulla base dei valori formantici, dove F1
inversamente proporzionale allinnalzamento/abbassamento della lingua (pi la lingua alta, pi il
valore di F1 basso; analogamente, pi la lingua bassa, pi il valore di F1 alto); mentre F2 , al
contrario, direttamente proporzionale allavanzamento/arretramento della lingua (ci significa che,
pi la lingua anteriore, pi F2 alta, mentre pi la lingua posteriore, pi F2 bassa). Da quanto
detto sinora,
Figura 5.10 Schematizzazione del condotto vocale con relativa funzione darea secon-
do Fant (1960)29
disponendo dei valori di F1 e F2 , sar possibile individuare e definire le aree di
esistenza vocalica per ciascuna vocale. Solitamente, per classificare le vocali, si utilizzano
soltanto le prime tre formanti in quanto le altre formanti risultano essere troppo deboli, nella
maggior parte dei casi impossibili da visualizzare e misurabili solo in condizioni di
laboratorio.
Va inoltre ricordato che la produzione delle vocali, e quindi la loro composizione spettra-
le, viene fortemente influenzata dai foni che seguono o che precedono per il cosiddetto effetto
di coarticolazione, dando origine a quelle che vengono definite transizioni formantiche30.
Se una vocale viene definita come un suono risultante dal passaggio libero del flusso
dellaria attraverso le cavit orali, senza che vi sia attrito o impedimento, le consonanti
vengono generate grazie ad interruzioni localizzate di tale flusso. Una consonante viene
presentata come un suono che implica o un arresto (occlusione), che impedisce al flusso
dellaria di fuoriuscire (in tal caso si originano foni di tipo occlusivo), o una
costrizione di questo flusso tale da farne percepire una certa frizione (foni di tipo
fricativo). In base allimpedimento o al restringimento del passaggio del flusso daria,
che pu essere istantaneo o completo, si determina il modo di articolazione della
consonante riconducibile alla disposizione degli articolatori mobili nella cavit orale.
Poich abbastanza facile percepire lavvicinarsi di un organo mobile ad uno fisso,
oppure il loro contrario, da un punto di vista qualitativo i suoni consonantici sono pi
facili da descrivere di quelli vocalici. Contrariamente alle vocali che sono state
definite come naturalmente sonore, le consonanti possono, invece, essere sia sonore
che sorde, a seconda che vi sia o meno vibrazione delle pliche vocali.
Nella fonetica articolatoria, la composizione dei suoni consonantici, come anche la
loro descrizione, viene indicata elencando il modo e il luogo di articolazione, rispettiva-
mente occlusivo, nasale, trill o polivibrante, tap o monovibrante, fricativo, fricativo late-
rale, approssimante, approssimante laterale e bilabiale, labiodentale, dentale, alveolare,
postalveolare, retroflesso, palatale, velare, uvulare, faringale, glottidale31.
A livello qualitativo le consonanti presentano sostanziali differenze dovute al loro
modo di articolazione, differenze riscontrabili e misurabili a livello acustico32.
Da un punto di vista articolatorio le occlusive sono caratterizzate da tre fasi ben di-
stinte che prendono il nome di catastasi, la fase in cui gli articolatori si preparano per il
raggiungimento del target articolatorio; tenuta, la fase di occlusione o di restringimento
del flusso daria; metastasi, la fase di rilascio e allontanamento repentino degli articola-
tori dal punto di occlusione. A livello acustico e spettroacustico la fase di catastasi non
produce alcun effetto udibile o visibile. Al contrario, invece, ci che comunemente viene
percepito il momento della metastasi che consiste in una vera e propria esplosione
prodotta dal rilascio degli articolatori e che a livello spettroacustico risulta caratterizzato
dalla presenza di bursts o spikes (striature verticali visibili sul sonogramma). In alcuni
casi, a livello spettroacustico, si pu anche rilevare, nel fono successivo a quello occlu-
sivo, un ritardo dellattacco dellattivit della laringe che viene indicato con il termine
VOT (Voice Onset Time, o ritardo dellattacco della sonorit)33. Si tratta di un fenome-
no (misurabile a livello temporale) contraddistinto dallassenza di quella che sul tracciato
sonografico viene definita barra di sonorit e che consente di distinguere a livello visivo di
ispezione dello stesso, foni sonori da foni sordi. Per quello che concerne lidentificazione
del luogo di articolazione delle occlusive sul tracciato sonografico ci si affida alle transizio-
ni formantiche degli elementi vocalici attigui. A seconda del luogo di articolazione del fono
occlusivo le transizioni formantiche (che rappresentano ladattamento della struttura delle
cavit orali) tenderanno verso un punto o un valore di frequenza ideale definito locus34.
Per quel che concerne le fricative bisogna distinguere tra sorde e sonore che a livello
spettroacustico producono effetti diversi. Nelle prime, le sorde, si ha un annerimento verti-
cale diffuso e continuo sul tracciato sonografico dato dalla frizione esercitata dagli artico-
latori mobili contro quelli fissi. in base allestensione della frequenza di tale rumore, che
varia a seconda del luogo di articolazione, che si distinguono i diversi foni di tipo fricativo.
Nel caso di foni fricativi sonori si ha, invece, oltre a quella che stata definita barra di so-
norit, una sostanziale riduzione degli effetti dellattrito con una conseguente ed evidente
riduzione di striature verticali sul sonogramma al posto delle quali si rileva, invece, una
struttura formantica ben definita.
Le affricate possono, molto sommariamente, essere descritte come lunione di un fono
occlusivo e di un fono fricativo avente, per ciascuna delle sue componenti, le caratteristiche
che sino ad ora sono state esaminate.
Le nasali, invece, presentano una struttura formantica molto simile a quella delle vo-
cali e sono caratterizzate dallavere una intensit pi debole rispetto ad esse. La F1 dei foni
nasali tende generalmente ad avere valori di frequenza alquanto fissi e stabili per ciascun
parlatore (per effetto dellabbassamento del velo si ha una parziale fuoriuscita dellaria
attraverso le cavit nasali che non sono modificabili), mentre la F 2 presenta variazioni a
seconda del luogo di articolazione del nesso nasale prodotto.
Le vibranti realizzate con repentine e ripetute interruzioni del flusso daria egressivo,
si presentano costituite, a livello spettroacustico, dalla presenza di una barra di sonorit a
cui si sovrappongono una serie di brevi fasi di silenzio (date dallocclusione degli articola-
tori) seguite da brevissimi spikes (dati dal rilascio degli articolatori).
Per concludere, le consonanti laterali vengono realizzate attraverso una parziale chiusu-
ra del flusso daria e presentano per questa ragione una struttura formantica molto simile a
quella delle vocali, la cui intensit si trova a cavallo tra queste ultime e le consonanti nasali.
Le caratteristiche qui presentate sono chiaramente osservabili nel parlato iperartico-
lato (prodotto in laboratorio). Tuttavia, anche per le consonati, come per le vocali, si ve-
rificano fenomeni di coarticolazione che ne complicano le indagini nel parlato continuo.
5.4. Dallanalogico al digitale
Il passaggio da un sistema analogico ad uno digitale rappresenta una naturale con-

seguenza dettata dal progresso, scientifico e tecnologico, che impone un cambiamento
e un adeguamento nel modo di rappresentare lo stato delle cose, ivi compreso il suono.
Il termine analogico indica il sistema di riproduzione e registrazione sonora tradi-
zionale (elettromagnetico o elettromeccanico), nel quale il segnale sonoro trasformato
in un segnale elettrico modulato o continuo il cui andamento idealmente simile (e
quindi analogo) a quello del segnale dorigine. In altre parole, la curva continua nel tem-
po costituita dalle variazioni di ampiezza dellonda di pressione acustica, viene rappre-
sentata da unanaloga curva continua nel tempo i cui punti sono le variazioni di tensione
elettrica o di voltaggio (espresse in Volt). Il segnale analogico pertanto una funzione
del tempo definita su di un insieme continuo di valori35.
Il termine digitale indica, invece, il sistema numerico nel quale il segnale sonoro
trasformato in sequenze discontinue di numeri elementari (0 e 1) che ne memorizzano
il contenuto. Il segnale digitale , in questo caso, funzione del tempo che pu assumere
solo un insieme discreto di valori.
I vantaggi del codice o di un segnale digitale, costituito da una sequenza finita di
dati, sono innumerevoli. I segnali digitali consentono di dimensionare opportunamente
i supporti di memorizzazione. Non inducono fenomeni di degradazione del segnale du-
rante le operazioni di riproduzione o copia del segnale stesso: riproducendo o copiando
ripetutamente lo stesso segnale analogico si ottiene una degradazione sempre maggiore
della qualit del segnale (loperazione di riproduzione o copia deve nuovamente ap-
prossimare con una curva continua la curva che era stata memorizzata in precedenza e
questo introduce sempre pi errori). Al contrario, riprodurre o fare una copia di numeri
non comporta alcun errore: la curva memorizzata in precedenza in forma numerica ri-
mane sempre la stessa e quindi non subisce alterazioni nella riproduzione o nella copia.
Le operazioni di processing e di editing del segnale digitale sono operazioni aritmetiche
che comportano il cambiamento di alcuni numeri: semplificando, se si vuole incremen-
tare lintensit di un suono sar sufficiente moltiplicare i suoi numeri per il fattore di
amplificazione desiderato. Invece, nel corrispondente caso analogico, bisogna utilizzare
un dispositivo elettronico (amplificatore) per accrescere lampiezza della curva in que-
stione.
Tuttavia, la rappresentazione digitale di un segnale audio ha, se cos si pu dire, an-
che i suoi svantaggi. , infatti, necessaria la realizzazione di uninterfaccia di
comunicazione tra linterno e lesterno dellelaboratore, costituita tipicamente da una
scheda audio che ospita i convertitori A/D (analogico-digitale) e D/A (digitale-
analogico): i processi di conversione inducono approssimazioni del segnale e per avere
una qualit del segnale comparabile con quella dei migliori sistemi analogici occorrono
grandi capacit di memoria, di calcolo e di velocit di trasmissione per la
memorizzazione, la manipolazione e il trasferimento del segnale.
5.4.1. Conversione di un segnale da analogico a digitale (A/D) o viceversa
La conversione di un suono di tipo analogico in uno di tipo digitale (A/D) caratte-

rizzata da due operazioni di discretizzazione, operazione di campionamento e operazione
di quantizzazione, in cui delle grandezze continue vengono ad assumere valori discreti e i
valori letti trasformati a loro volta in forma numerica o sequenza di numeri.
Il passaggio di un segnale da digitale ad analogico (D/A) , invece, un problema in-
verso rispetto a quello appena menzionato: si tratta di costruire un segnale reale a partire
dalla sua rappresentazione numerica. I convertitori D/A (digitale-analogico) convertono i
valori numerici in altrettanti valori di tensione (Volt): data una frequenza di riproduzione
(lanaloga della frequenza di campionamento) il sistema crea, campione per campione, un
segnale ampio quanto dettato dalla sequenza numerica. ci che si verifica ogni qualvolta
ascoltiamo o riproduciamo un segnale sonoro digitalizzato.
5.4.1.1. Campionamento
Il campionamento rappresenta la discretizzazione del segnale analogico nel tempo (de-

finito anche discretizzazione temporale). Con il campionamento si considerano solamente i
valori che il segnale assume in istanti di tempo prefissati abbastanza ravvicinati tra loro. Pi
il segnale varia rapidamente pi i valori noti devono essere vicini tra loro, cos che tra un
campione e laltro non possano verificarsi variazioni imprevedibili. La distanza tra due suc-
cessivi valori noti del segnale chiamato passo o periodo di campionamento e i valori assunti
dal segnale in ogni passo vengono chiamati campioni del segnale. Poich la rapidit di va-
riazione di un segnale legata al suo contenuto in frequenza, la scelta del passo deve essere
legata alla banda di frequenze occupate dal segnale. Il valore del periodo o del passo viene
scelto in base al teorema del Campionamento (o Teorema di ShannonNyquist): il numero di
campioni nellunit di tempo (Sample Rate) deve essere almeno pari al doppio della frequen-
za massima del segnale che si vuol digitalizzare36. Quindi, se nel segnale vi sono componenti
frequenziali a 10000 Hz, occorre prelevare almeno 20000 campioni per secondo. Il numero
di campioni detto frequenza di campionamento e descrive il numero di volte che un segnale
audio in ingresso deve essere misurato o campionato in un dato periodo di tempo37.
Una volta campionato per il segnale non pu ancora essere ricostruito, perch questo
richiederebbe una memoria infinita. Normalmente non percepiamo tutti i valori assunti ma
possiamo accontentarci di valori approssimati, che si avvicinano al valore reale: questa limi-
tazione del numero delle differenze rilevate viene definita quantizzazione.
5.4.1.2. Quantizzazione
La quantizzazione rappresenta la discretizzazione del segnale analogico nellam-

piezza (o discretizzazione dei livelli). Per quantizzazione si intende il processo di ridu-
zione a valori discreti di una grandezza che cambia in maniera continua senza soluzione
di continuit.
Dal momento che operiamo nel dominio digitale, la questione nodale quella di
esprimere le informazioni in termini gestibili da parte del computer o del dispositivo elet-
tronico. In ambito digitale la precisione con la quale avviene il processo di campionamento
dipende perci dal numero di bit impiegati per descrivere questi valori: il computer parla
un linguaggio fatto di sole 2 cifre che sono 0 (zero) e 1 (uno), o stati del BIT (da By-
nary DigIT)38. Il principale insieme di bit il byte: un gruppo di 8 bit detto byte. Il fatto
che in un byte siano presenti 8 bit significa che ogni byte contiene 8 cifre (fatte solo di zero
e uno): quindi, se 1 byte corrisponde a 8 bit, ciascuno dei quali pu trovarsi in due distinti
stati (zero o uno), il numero totale delle combinazioni diverse di tali stati allinterno di un
byte pari a 28 (due allottava potenza), corrispondente a 256 possibili combinazioni.
In un sistema a 16 bit, invece, ciascun campione rappresentato come una parola
binaria lunga 16 cifre. Poich ciascuna di queste 16 cifre pu essere costituita, come
precedentemente detto, da uno zero o da un uno, sono possibili 65536 valori per ciascun
campione (216, due elevato alla sedicesima potenza). Parole pi lunghe permettono la
rappresentazione di una serie pi ampia di numeri, e quindi misurazioni pi accurate e
riproduzioni pi fedeli di un segnale (minor distorsione e maggior dinamica). Tuttavia,
anche se si ricorre ad un numero alto di bit vi sempre una perdita di segnale, mentre ci
non avviene per il campionamento. La profondit di bit determina laccuratezza con la
quale effettuata ciascuna misurazione o ciascun campione.
5.4.2. La codifica digitale del segnale audio
Il nome generico per il sistema di registrazione e di codifica digitale il Pulse Code

Modulation (PCM). Per ottenere una riproduzione fedele di un segnale audio, la codifica
PCM mira ad effettuare unaccurata lettura della forma donda del segnale. Il
campionamento a 44100 Hz e 16 bit (la cosiddetta qualit audio CD) prende proprio
il nome di PCM ed usato in tutti i moderni e attuali campionatori, registratori digitali ed
interfacce audio per computer.
I suoni codificati attraverso questo sistema PCM vengono definiti Wave (onda), e
assumono lestensione *.wav (il formato *.wav stato introdotto con Windows 3.1 come
formato standard per il suono).
Una versione pi efficiente del PCM lADPCM (Adaptive Differential Pulse Code
Modulation) che, invece di trasmettere i campionamenti PCM, trasmette le differenze tra
due campionamenti successivi, cos da ottenere una maggiore compressione. La codifica
ALaw un metodo di codifica del segnale utilizzato, particolarmente in Europa ed in
Asia, per diminuire la dinamica audio di segnali audio con ampiezza di banda fino a 4
kHz passando da campioni a 12 bit a campioni a 8 bit utilizzando una trasformazione non
lineare dei valori campionati39.
Tralasciando per il momento questo aspetto che approfondiremo pi avanti quando
introdurremo i formati audio e gli algoritmi di compressione audio, proviamo a renderci
conto delle dimensioni di una registrazione, ovvero di un singolo file, con codifica PCM
ricorrendo a una semplice operazione aritmetica. Considerato che ogni secondo di mu-
sica (qualit audio CD) viene campionato 44100 volte (44100 Hz), che ognuno di questi
campioni viene definito da 2 byte, e che si tratta di musica stereofonica (che prevede
luso di due canali, destro e sinistro), loperazione da effettuare la seguente: 44100 x 2
x 2 = 176400 byte pari a 176.4 kb40.
Per quanto riguarda la digitalizzazione della voce nel sistema telefonico, per rico-
struire un segnale voce con una gamma di frequenze di circa 4000 Hz, necessario rile-
vare 8000 campioni al secondo con una risoluzione di 8 bit ciascuno (PCM). Ne deriva,
quindi, che un canale digitale in grado di trasportare la voce debba avere unampiezza di
banda digitale di 8000 campioni x 8 bit = 64000 bit per secondo (64 kbps), che costitui-
sce la dimensione del canale alla base dei moderni sistemi telefonici digitali (la
capacit del singolo canale ISDN41 infatti proprio di 64 kbps).
5.4.2.1. La compressione di segnali audio
Nel precedente paragrafo abbiamo menzionato il termine compressione: vediamo

di cosa si tratta pi nel dettaglio. Molto di ci che udiamo nel corso della giornata non
viene da noi considerato poich alcuni suoni pi importanti ne mascherano altri.
Il mascheramento avviene quando un suono rende non udibile un altro suono. I tipi di
mascheramento possono essere sostanzialmente di due tipi:
mascheramento nel dominio della frequenza: si ha quando una frequenza debo-

le, pu essere benissimo mascherata, cio risultare inudibile, da una frequenza
anche lontana qualche centinaio di Hz, se questultima sufficientemente for-
te, avente cio una intensit alta42.
mascheramento nel tempo: il mascheramento temporale nel dominio del tempo,
gioca un ruolo importante nella percezione uditiva. Esso si verifica quando due
suoni si manifestano entro un breve intervallo di tempo. Il segnale pi forte pu
mascherare il pi debole anche se il mascherato precede temporalmente il ma-
scherante.
Leffetto complessivo del mascheramento comporta quindi la non udibilit di molti

toni perch collocati nel dominio della frequenza e del tempo troppo vicino a toni forti.
Tenendo conto della sensibilit dellorecchio e del fenomeno del mascheramento
quindi possibile eliminare dallo spettro del segnale una quantit molto alta di informa-
zioni inutili, perch non udibili dallorecchio umano. In virt di quanto appena detto
sono stati creati dalluomo specifici algoritmi di compressione di segnali sonori.
Compito specifico dellalgoritmo di compressione quello di trasformare la sequen-
za di byte che costituisce un file in una differente sequenza pi breve (ci comporta una
riduzione dello spazio di memoria occupato e una riduzione dei tempi di trasmissione ad
es. via web). Comprimere un file vuol dire eliminare tutte le informazioni ridondanti e
ogni file compresso pu, a seconda del tipo di compressione adottato, in seguito essere
ricostruito con o senza perdita di informazioni.
La compressione/codifica comporta una perdita di informazione o una possibi-
le alterazione delle caratteristiche del segnale audio. La compressione/codifica del
segnale pu avvenire in diversi momenti e in diversi modi: pu essere operata diret-
tamente sul segnale analogico in entrata su un dispositivo, ad esempio nel caso dei
sistemi per il controllo automatico del guadagno, o dei limitatori di livello; sul canale
di trasmissione del segnale, ad esempio sulla linea telefonica, sulla rete GSM ecc.; du-
rante la memorizzazione dei dati, ad esempio nella creazione di file in formato Mp3 tra
i pi diffusi. La compressione mira ad un giusto compromesso tra qualit e percezione.
Per tutti gli operatori di telecomunicazione, di entertainment, per i manifatturieri ecc.
la qualit di un segnale legata essenzialmente alla percezione: per assurdo, se la
qualit percepita ottima, non ha importanza ci che di fatto succede al segnale (e ai
suoi parametri ancor meno).
Gli algoritmi di compressione si differenziano in due grandi famiglie: quelli di tipo
lossless e quelli di tipo lossy.
Nelle compressioni lossless, cio senza perdita di segnale, al momento della decom-
pressione, i dati originali possono essere ripristinati esattamente comerano. Esempi di tali
compressioni sono quelle utilizzate da software come WinZip e WinRar. Essendo notevol-
mente accurate e impedendo la perdita di dati, non sono idonee alla compressione audio
(programmi come, ad esempio, WinZip riescono a ridurre i dati audio al massimo del 50%).
Nelle compressioni lossy, cio con perdita di segnale, al momento della compres-
sione, i file perdono dei dati che vengono considerati poco significativi (in questo caso,
dunque, non c la decompressione). Gli schemi di compressione di tipo percettivo
comprimono il segnale eliminando quelle parti che il nostro sistema uditivo non per-
cepirebbe comunque. In pratica, questi schemi, sfruttano le debolezze del nostro
apparato uditivo nel percepire i segnali audio in presenza di fenomeni di
mascheramento. Sono per questa ragione molto pi efficaci in quanto, a margine di
una riduzione di qualit quasi impercettibile, riducono la dimensione (file size) di un
segnale audio fino a 12 volte43.
5.4.2.2. Il Formato audio
Il formato audio in diretta relazione ed strettamente collegato a ci che sin qui ab-
biamo definito come codifica digitale di un segnale audio. Con formato ci si riferisce,
infatti, al modo di disporre i dati e, per estensione, di codificarli. Esistono varie tipologie
di formato, le pi importanti sono due:
formati che contengono effettivamente laudio sotto forma di onda sonora cam-
pionata che viene riprodotta mediante un convertitore D/A e un semplice pro-
gramma in grado di inviare i campioni al convertitore (la qualit della riprodu-
zione, quindi, dipende solo dal sistema di conversione);
formati che non contengono laudio, ma solo i dati di controllo per crearlo. Il
suono vero e proprio viene, poi, creato in locale da un sintetizzatore esterno o
residente sulla scheda audio, oppure da un sintetizzatore virtuale (emulato via
software). Di questa categoria fanno parte, ormai, solo i MIDI file.
Possiamo poi operare una ulteriore suddivisione in:
formati ufficiali (standard): sono i pi importanti e dovrebbero essere

sempre utilizzati, anche se molto difficile districarsi in questo ampio,
dinamico e mol- to tecnico universo. Tra gli enti che definiscono gli standard
ricordiamo a livello europeo lo European Telecommunications Standards
Institute (ETSI)44, mentre a livello internazionale ricordiamo la International
Organization for Standardi- zation (ISO)45, lAmerican National Standards
Institute (ANSI)46, la Audio En- gineering Society (AES)47, la International
Telecommunication Union (ITU)48;
formati commerciali: sono quelli che maggiormente riescono ad imporsi sul
mercato e che spesso riescono anche a guidare nuovi standard ufficiali (Apple,
Microsoft ecc.). Sebbene in alcuni casi, fortunatamente rari, i formati commer-
ciali risultino incompatibili con il resto del mondo, nella maggior parte dei casi
i sistemi commerciali permettono di utilizzare degli standard ufficiali e nel
caso migliore anche un interscambio tra i diversi formati commerciali. Fanno
inoltre parte di questa categoria quelli che vengono anche definiti formati pro-
prietari privati come nel caso che si verifica con le intercettazioni49.
In alcuni casi tutte le informazioni sul formato sono contenute nel file audio mede-
simo, ed quindi possibile interpretare correttamente tutto ci che serve; per il modo
con cui queste informazioni sono memorizzate non univoco e si possono avere errori
in lettura, o addirittura il file audio potrebbe essere scritto erroneamente.
In altri casi, invece, tali informazioni sono contenute nella documentazione associata, ed
demandato esplicitamente alloperatore la scelta del formato: non ci pu essere un control-
lo software sulla corretta lettura (si va ad orecchio, ma ci pone evidenti limiti). Lascolto,
nel caso di problemi di formato, pu solamente darci indicazioni sulla corretta interpretazio-
ne. Se si hanno alcune indicazioni di formato e se provandole esaustivamente si ha una sola
soluzione corretta allascolto ci si pu fidare. Nel caso siano ignoti tutti i valori del formato
non possibile con il solo ascolto risalire ad una corretta interpretazione del formato.
Tralasciamo in questa sede il formato *.wav che rappresenta uno standard internazio-
nale e a cui abbiamo gi dedicato ampio spazio (si rammenti a tal proposito quanto detto
anche per la codifica PCM e ALaw), per dare pi spazio ad altri tipi di formati audio pi
diffusi come lMp3.
Sul finire degli anni Ottanta lISO (International Organization for Standardization)
e lIEC (International Electrotechnical Commission) si misero al lavoro con lo scopo di
sviluppare gli standard per la riproduzione, la codifica e lelaborazione digitale di audio
e video. Furono 25 i membri provenienti da entrambe le organizzazioni che si riunirono
sotto il nome di MPEG (Moving Picture Experts Groups) e diedero vita, aglinizi degli
anni 90, al primo di questi standard, ossia lMPEG. Lo standard MPEG si divide in tre
modalit operative: MPEG 1 Layer I (il termine Layer indica il livello di compressione);
MPEG 1 Layer II; MPEG 1 Layer III (questultimo altro non che il noto formato Mp3).
Questultima tecnologia legata allMp3 si avvale di due importanti caratteristiche:
Bit Rate: ossia la quantit di bit per campione. Maggiore il Bit Rate, migliore
sar la qualit. Solitamente negli encoder50 questo parametro viene impostato a
128 kbps (questa compressione occupa circa 1 MB/min);
Tag ID3: importante soprattutto in ambito musicale, si tratta di una tecnologia
attraverso cui il file Mp3 in grado di contenere, oltre alla musica, informazioni
accessorie che riguardano il nome dellautore del brano, lalbum di cui fa parte e
la data di pubblicazione.
Il formato Mp3 correntemente usato in alcune applicazioni che dispongono di poche

risorse (in termini di banda e memoria): collegamenti audio tramite ISDN, radio digitale
via satellite, audio su internet ecc. Con la codifica Mp3 infatti possibile comprimere i
file audio senza alcuna rilevante perdita di qualit, arrivando addirittura a rapporti di com-
pressione di 12:151. Naturalmente, con i suoi pregi ma anche i suoi difetti, il formato Mp3
stato adottato anche per le intercettazioni telefoniche ed ambientali.
In merito ai formati di tipo proprietario adottati dalle ditte che forniscono supporto
e strumentazioni per le intercettazioni, non insolito imbattersi in formati in cui basta
cambiare lestensione del file in *.wav per poterli riprodurre e ascoltare (fermo restando
la presenza delle problematica gi esposte) e formati criptati dove le cose non si
risolvono a meno che non si disponga della chiave di decriptazione e del software
proprietario che deve essere necessariamente fornito dalla ditta a cui lAutorit
Giudiziaria si affidata52.
5.5. Caratteristiche di una registrazione
Spesso e volentieri in sede di conferimento di incarico al perito viene consegnato un sup-

porto o un file contenente una registrazione. Appare ovvio porsi, a questo punto, una serie di
quesiti sulle caratteristiche possedute dalla registrazione, sulle modalit che lhanno originata
ecc. La risposta, come sar facile intuire, tuttaltro che semplice: i fattori che influenzano e
caratterizzano una registrazione possono essere molteplici e a volte addirittura ignoti.
Riguardo gli aspetti che qui tratteremo, la prima osservazione che a livello
globale possiamo senzaltro fare riguarda ci che in una registrazione sicuramente
non riscon- treremo. La registrazione di un segnale comporta, in primis, la perdita di
una serie di caratteristiche che durante una comunicazione in presenza o dal vivo ci
aiuterebbero a meglio decifrare il contenuto di una conversazione. A meno che non
venga operata una registrazione in formato stereofonico (cosa assai rara se non
addirittura assente nelle intercettazioni) si perdono innanzitutto lascolto binaurale
con la conseguente perdita della spazialit e della direzionalit dei suoni (ovvero della
loro provenienza e la loro distanza nello spazio circostante), gli effetti e le
caratteristiche dellambiente in cui si svolge la comunicazione. Abbiamo anche detto
che spesso il mondo ci presenta pi suoni contemporaneamente e che il nostro
cervello automaticamente si assume il compito di distinguerli e di concentrare
lattenzione su quelli di maggiore importanza (sebbene molti di questi suoni abbiano
caratteristiche spettrali sovrapposte e spalma- te le une sulle altre). Purtroppo per,
nel caso di una registrazione questa capacit di discriminare e isolare i suoni,
soprattutto nel caso in cui siano presenti pi voci in una stessa stanza o in uno stesso
ambiente, viene del tutto vanificata dando luogo a quello che viene comunemente
definito con il termine di effetto cocktail party, un mix di suoni indistinti e
indecifrabili che, soprattutto se sottoposti ad un ascolto prolungato, risultano anche
notevolmente fastidiosi. Ma naturalmente non finisce tutto qui.
In linea generale, si pu affermare che la qualit o le caratteristiche di una registra-
zione dipendono da ogni singolo elemento che interviene nella catena o nel processo
della registrazione stessa. Avremo, pertanto, componenti fisiche/materiali e caratteristi-
che ad esse connesse come: il microfono, i cablaggi o il canale, il registratore (in tal
caso, nel dominio dellanalogico avranno la loro importanza il tipo di nastro utilizzato,
la velocit di scorrimento del nastro, la banda passante del nastro, mentre nel dominio
digitale soprattutto il tipo di codifica con frequenza di campionamento e numero di bit);
e componenti estranee o esterne indipendenti dalla volont di chiunque e assolutamente
imprevedibili, come ad esempio: la distanza dal microfono, linizio e la fine della regi-
strazione, lo scambio dei ruoli nella conversazione, la sovrapposizione di voci, le fonti
di rumore presenti nellambiente circostante53. Il grado di bont e la qualit tecnica della
registrazione sono strettamente connessi alle componenti e agli stadi della catena che
lha originata e le caratteristiche globali del segnale registrato dipendono dallelemento
della catena avente la qualit peggiore, sia esso microfono, nastro magnetico o
registratore (senza ovviamente trascurare il canale di trasmissione).
Introduciamo a questo punto unaltra distinzione: una registrazione (ivi inclusa lin-
tercettazione) tecnicamente pu essere magnetica o digitale.
Abbiamo visto come nel caso dellanalogico ( il caso dei registratori con supporto
analogico) sul segnale in entrata venga operata una trasformazione in un segnale elet-
trico modulato o continuo il cui andamento idealmente simile (analogo) a quello
del segnale dorigine, mentre nel caso del digitale il segnale sonoro viene trasformato
in sequenze discontinue di numeri elementari (zero e uno) che ne memorizzano il
contenuto. In entrambi i casi, il segnale viene catturato e captato attraverso un apparato
microfonico che trasferisce il segnale (con o senza cavi di interconnessione) allapparec-
chiatura deputata alla sua registrazione o acquisizione.
Ma le caratteristiche della registrazione dipendono soprattutto e anche dal processo
che ha portato alla sua creazione. Prendiamo ad esempio le registrazioni che ci vengono
presentate gi sotto forma di file: la registrazione contenuta nel file pu essere frutto di
una conversione da analogico a digitale, ovvero pu essere stata originariamente incisa su un
supporto di tipo analogico e successivamente digitalizzata per esigenze che possono essere
le pi varie (vale in tal caso quanto gi detto pi sopra); o ancora dipendono dal tipo di codifica
audio utilizzata per la creazione del file sonoro (ad esempio una codifica di tipo compresso
o non compresso); o ancora dal formato del file (che pu essere proprietario versus non
proprietario) da cui dipende il rapporto tra la frequenza di campionamento e il numero dei bit
associati.
Le caratteristiche della registrazione dipendono sicuramente anche da ci che al pe-
rito viene di norma consegnato, ovvero dal tipo di supporto su cui la registrazione stata
incisa (analogico o digitale). Se il supporto digitale vale quanto detto prima per i file54.
Se il supporto analogico, assumono notevole importanza il tipo e la composizione
chimica del nastro, la velocit di scorrimento del nastro, la larghezza di banda del nastro
(anche in questo caso ci sono diverse eccezioni). Affronteremo gli aspetti relativi ai sup-
porti nel prossimo paragrafo.
5.5.1. Registrazioni di tipo analogico
Le registrazioni di tipo analogico sono per lo pi conservate e archiviate su supporti

di tipo magnetico e molte delle caratteristiche della registrazione dipendono in questo
caso dalla composizione chimica del nastro, dalla velocit di scorrimento del nastro, dal
numero di tracce presenti sul nastro e dallapparecchio utilizzato55. I supporti a nastro
pi comuni sono in tal caso supporti come bobine, musicassette, microcassette. Dopo
una descrizione dei pi comuni supporti magnetici affronteremo la questione dei
pregi e dei difetti ad essi connessi mettendo in rilievo vantaggi e svantaggi derivanti
dal loro utilizzo.
5.5.1.1. La bobina
I registratori che normalmente venivano utilizzati dalle Procure, erano del tipo
UHER modello RT2000 (introdotto nel 1988) e RT4000, delle apparecchiature che re-
gistrano su bobina e che ora non sono pi in uso (o quasi)56. Queste apparecchiature
erano dotate di un dispositivo per lattivazione automatica della registrazione (chiamato
Trevisan) e presentavano linconveniente di scrivere sul nastro, nella banda di frequen-
za di 2138 Hz, tutte le informazioni relative alla telefonata intercettata (ora, giorno e
anno, numero di telefono selezionato, numero di progressivo ecc.). In molti casi era di-
sponibile uno scontrino cartaceo (denominato anche striscetta) su cui venivano stam-
pate le medesime informazioni impresse nella banda di frequenza sopra menzionata e
che spesso, ma non sempre, accompagnano la bobina. Uno degli inconvenienti legati a
questi scontrini consiste nel fatto che gli stessi siano costituiti da un certo tipo di carta
(carta termica): le informazioni, incise sulla carta con un procedimento di trasferimento
termico (annerimento della patina superiore della carta), col passare del tempo svani-
scono diventando illeggibili57. Questa striscetta di carta rappresenta di fatto un secon-
do brogliaccio58 e le informazioni riportate su di esso sono costituite da riferimenti
temporali (ora, giorno, mese e anno di registrazione), numero di telefono in entrata e in
uscita sulla linea intercettata, numero progressivo della conversazione, numero di pista o
traccia e numero di giri della bobina allinizio e alla fine della registrazione.
Le bobine sono dei nastri magnetici avvolti su una bobina aperta e possono essere di
diversi tipi e dimensioni con caratteristiche e composizioni chimico/fisiche assai diffe-
renti. Per quello che attiene alle intercettazioni veniva usato un nastro magnetico largo
1/4 di pollice59 avvolto su una bobina aperta del diametro di 5 pollici60. Normalmente la
velocit di scorrimento del nastro era fissata a 2.38 cm/s per le intercettazioni di tipo te-
lefonico: a tale velocit possibile registrare su una bobina fino a 5 ore di conversazioni
telefoniche. Per le intercettazioni di tipo ambientale, invece, era pi comune una velocit
di scorrimento del nastro pari a 4.76 cm/s per un totale di massimo 2 ore e mezzo di re-
gistrazione. La differenza di velocit dettata dalla necessit di economizzare e quindi
registrare pi conversazioni possibili sullo stesso nastro: poich la qualit delle con-
versazioni telefoniche su rete fissa di norma migliore (assenza di disturbi e di rumori
ambientali), ammissibile una minore precisione di registrazione rispetto alle ambientali
che sono intrinsecamente pi degradate dalla presenza di molteplici fonti di rumore61.
In questa fase storica delle intercettazioni veniva registrato su doppia bobina, la
registrazione veniva cio effettuata in parallelo e contemporaneamente su due differenti
registratori aventi le medesime caratteristiche. Le bobine, denominate bobina AG (desti-
nata allautorit giudiziaria) che era copia della bobina denominata originale PG (polizia
giudiziaria), nonostante la dicitura (bobina AG identificata come copia della bobina ori-
ginale denominata PG) erano di fatto due originali a tutti gli effetti. Lunica
differenza tra le due bobine consiste nel numero di piste di registrazione utilizzate:
durante le operazioni di intercettazione era possibile che nei momenti in cui non
arrivavano conversazioni loperatore effettuasse un riascolto di qualche conversazione
di maggiore interesse. Poteva accadere, tuttavia, che durante il riascolto
sopraggiungesse una chiamata: non potendo al momento trovare il punto dellultima
conversazione registrata (bisognava far
scorrere la bobina fino al punto esatto) loperatore registrava la conversazione su unaltra
pista: questa era appunto la bobina PG, mentre la bobina AG registrava le conversazioni
una di seguito allaltra.
5.5.1.2. La musicassetta
La musicassetta (o compact cassette), supporto di tipo analogico a nastro, fu in-

trodotta nel 1963 dalla Philips con lintento di risolvere i problemi di maneggevolezza
legati alluso delle bobine. La musicassetta ebbe enorme successo ed ampia
diffusione soprattutto per la sua economicit e semplicit duso: oltre ad avere un
basso costo, il nastro protetto da un involucro in plastica che lo contiene e lo protegge
fisicamente (vi inoltre la possibilit di proteggere il nastro da sovrascritture o
cancellazioni accidentali
rimuovendo una linguetta di protezione alla base dellinvolucro). Le dimensioni del
supporto sono di 100.4 mm x 63.8 mm x 12 mm. Il nastro, della larghezza di 0.15 pollici
(3.81 mm), contenuto e protetto allinterno dellinvolucro in plastica avvolto su due bo-
bine, sicch non necessaria alcuna manipolazione del nastro da parte delloperatore (al
contrario delle bobine dove, invece, richiesto lintervento manuale delloperatore). La
velocit di scorrimento del nastro normalmente fissata a 4.76 cm/s e la lunghezza del
nastro viene contrassegnata da sigle come C45, C60, C90 e C120, dove il numero indica
la quantit (espressa in minuti) di segnale registrabile. A maggiori durate del supporto
corrisponde per un minore spessore del nastro62. La qualit della registrazione non ec-
celsa: questa dipende prevalentemente dal nastro, ovvero dalla sua composizione chimi-
ca e, come detto, dal suo spessore. In particolare la qualit delle cassette stabilita dalle
norme IEC 63 in funzione del tipo di ossido magnetico utilizzato. Per quanto riguarda le
compact cassette esistono 4 tipi principali di nastro:
IEC1 Ossido di ferro (Normal), licenziatario BASF, con una banda passante
di 300 8300 Hz;
IEC2 Biossido di cromo / cromo equivalenti (High), licenziatario BASF, con
una banda passante di 300 14300 Hz;
IEC3 Doppio strato ferro cromo, licenziatario SONY, con una banda passante
di 300 14300 Hz;
IEC4 Metal, licenziatario TDK, con una banda passante di 300 14300 Hz;
Allinterno di questo genere di supporto si ritrovano per lo pi registrazioni di collo-

qui in carcere, ma non sono da escludere altre tipologie di intercettazioni 64.
5.5.1.3. La microcassetta
Rappresenta una versione in miniatura della musicassetta con una larghezza del nastro
di 3.175 mm, ma con dimensioni complessive di ca. un quarto pi ridotte (50 mm x 32 mm
x 7 mm). Si rilevano per questa tipologia di supporto due velocit di scorrimento del nastro:
una velocit di ca. 2.4 cm/s (anche nota come SP, short play) e laltra di ca. 1.2 cm/s (LP,
long play). I supporti sono contrassegnati anche in questo caso da sigle come per la musicas-
setta, questa volta con laggiunta di una lettera m di microcassetta: MC15, MC30, MC60,
MC90. I registratori di questi supporti sono, per questioni legate alle dimensioni molto ri-
dotte, privi di capstan, un sistema di trasporto del nastro che ne regola lo scorrimento e la
tensione. Per questa ragione nella riproduzione della registrazione sono udibili fluttuazioni
nel segnale dovute allassenza di tale elemento presente, invece, nelle compact cassette. Il
nastro ha una risposta in frequenza molto ridotta con una banda passante che va da 300 a
4000 Hz (nel caso di registratori professionali e microcassette di ottima qualit non si su-
perano comunque i 250 6300 Hz). Spesso la registrazione effettuata presenta effetti legati
alla presenza del sistema attivazione vocale VOR (Voice Operated Recording), che arresta il
nastro ogni qualvolta il segnale in ingresso scende al di sotto di una certa soglia di intensit
(che nei registratori pi evoluti pu essere preimpostata) per economizzare sulla durata del
nastro. La registrazione che ne scaturisce ha caratteristiche qualitative di basso livello anche
in virt del fatto che il microfono risulta essere incorporato nel registratore con la possibilit
di settarne i parametri solo in apparecchiature di profilo medioalto65.
il supporto pi utilizzato nel caso di intercettazioni di tipo amatoriale e comun-
que fuori dagli schemi classici delle intercettazioni: dato questultimo aspetto non da
escludere che spesso e volentieri supporti di questo tipo rientrino per ragioni che non ci
interessano come elemento di prova in un procedimento giudiziario diventando possibile
oggetto di incarico di consulenza66.
Anche nelle microcassette presente una linguetta di protezione alla base del sup-
porto che se rimossa ne impedisce la sovrascrittura.
5.5.1.4. Pregi e difetti dei supporti analogici/magnetici
Accanto alla possibilit di poter sempre e comunque leggere i supporti di tipo ana-
logico su un qualsiasi altro registratore/lettore assimilabile a quello che lo ha genera-
to67, i supporti magnetici possono purtroppo subire processi di smagnetizzazione a causa
dellinfluenza di magneti, antenne, cellulari, cavi elettrici non schermati ed altri
agenti con conseguente perdita in termini di qualit di registrazione/riproduzione.
I nastri hanno uno spessore tale da renderli molto fragili e sono per questo soggetti ad al-
terazioni fisiche che possono generare distorsione e irregolarit di trascinamento del nastro.
Nonostante le tecnologie sempre pi evolute, il problema del rumore di fondo (fru-
scio), dovuto soprattutto al trascinamento del nastro, non mai stato del tutto eliminato
senza incidere sulla qualit della riproduzione.
Rispetto ai sistemi digitali i supporti analogici hanno limiti di risposta in frequenza
dettati dalla composizione chimica del nastro utilizzato.
.
I supporti richiedono inoltre particolari condizioni di conservazione: temono le con-
dizioni ambientali (se troppo umido il nastro pu ammuffire) e soprattutto il calore e i
raggi del sole (il nastro si pu incollare rompendosi alla prima riproduzione successiva).
Occorre inoltre molta attenzione e abilit nel maneggiare i supporti per non danneggiar-
li68. Altro elemento da non trascurare il rischio di sovrascriverli (nel caso delle cassette
e delle microcassette possibile prevenire questa evenienza rompendo lapposita lin-
guetta di sicurezza alla base del supporto stesso).
A differenza dei supporti ottici (CD e DVD) anche se si graffiano, o se non vengono
conservati in condizioni ottimali, entro certi limiti la registrazione su di essi conservata
resta ancora utilizzabile dopo molti anni.
Infine, se il nastro si rompe o si spezza sempre, o comunque nella maggior parte dei
casi, possibile ripararlo con apposite tecniche di ripristino recuperando la registrazione
con la perdita della sola porzione tagliata o sovrapposta per incollare e ristabilire lo scor-
rimento e quindi la funzionalit del nastro.
5.5.2. Registrazioni di tipo digitale
Passando dalla registrazione di tipo magnetico alla registrazione di tipo digitale si

passati alla gestione dellintera procedura di intercettazione ad opera di software dedicati
con la stampa delle informazioni non pi sulle striscette di carta come avveniva per gli
RT2000 ed RT4000, ma su file di tipo *.txt (e quindi in formato numerico/digitale). A segui-
re negli anni, grazie soprattutto al rapido e crescente sviluppo tecnologico ed informatico,
i sistemi si sono ulteriormente evoluti rendendo possibile la gestione e archiviazione delle
intercettazioni in formato digitale con tutte le informazioni codificate sotto forma di databa-
se e gestite da parte di un software (proprietario). Va inoltre aggiunto che grazie alle nuove
soluzioni informatiche oggi possibile, una volta terminate le operazioni di intercettazione,
anche la consultazione, lascolto, lesportazione delle registrazioni anche in remoto69.
Nei segnali digitali i campioni del segnale audio digitale possono essere registrati su una
moltitudine di supporti, con caratteristiche fisiche e logiche diverse. Da un punto di vista fisico
possono essere: magnetici, ottici, elettronici. Da un punto di vista logico ciascun supporto
caratterizzato, in termini di struttura dei dati, da uno standard proprio. Due sono le caratteri-
stiche rilevanti dal punto di vista dellaudio digitale: la capacit di contenere i dati; la velocit
di scrittura e la lettura dei dati in modo da garantire una corretta registrazione/riproduzione.
Le registrazioni digitali oltre a trovarsi in forma digitale e quindi sotto forma di file
su supporti fisici come MiniDisc, CDRom, DVDRom, dischi ottici e unit di memoria
varie, possono anche essere registrate su supporti analogici come accade nel caso delle
cassette DAT e DAT DDS.
5.5.2.1. La Cassetta DAT (Digital Audio Tape)
Sebbene si tratti di un supporto a nastro molto simile alla musicassetta (che as-
somiglia per la sua forma ad una videocassetta VHS in miniatura) e quindi di tipo
analogico, la registrazione viene convertita e incisa direttamente in digitale: ad ogni
riproduzione viene quindi riprodotto un clone (una versione identica) del segnale ac-
quisito. Le cassette DAT utilizzano un nastro largo 3.81 mm racchiuso in un involucro
dalle dimensioni di 72.5 mm x 53.5 mm x 10.34 mm e possono registrare fino a 2 ore
di audio che, rallentando la velocit e diminuendo la frequenza di campionamento,
arrivano fino a 6 ore. Ci sono 3 modalit di registrazione e quindi di riproduzione:
48000 Hz 16 bit e 44100 Hz 16 bit in modalit SP (short play) con una velocit di
scorrimento del nastro di 8.15 mm/s, e 32000 Hz 16 bit in LP (long play) ad una ve-
locit di 4.075 mm/s.
Il DAT consente, inoltre, di marchiare linizio di ogni brano tramite apposite start
ID (dei veri e propri marker): ci consente, durante la riproduzione, di spostarsi da una
parte allaltra del nastro posizionandosi esattamente allinizio di ciascun brano (cosa
impossibile con gli altri supporti di tipo analogico).
Anche per questa tipologia di supporto presente una linguetta di sicurezza,
come quella presente negli oramai desueti floppy disc da 3.5 pollici, che permette di
proteggere il supporto da sovrascrittura accidentale.
5.5.2.2. La Cassetta DAT DDS (Digital Data Storage)
Si tratta di un supporto identico a quello DAT precedentemente illustrato che nella

versione DDS (Digital Data Storage) era utilizzato come sistema di backup in ambito
informatico. La sua capacit in termini di gigabyte (GB) dipende dalla lunghezza del
nastro (in metri): i pi diffusi in questo ambito sono di 60 m con capienza di 1.3 GB, 90
m con capienza di 2 GB, 120 m con capienza 4 GB.
Lavvento del digitale, con la registrazione ad opera di apparecchiature come
lRT6000 (introdotto nel 1995 che registrava su una cassetta di tipo DAT DDS) ha rimos-
so sia linconveniente del taglio di banda, sia tutti gli altri inconvenienti legati alla re-
gistrazione magnetica. Poich alcuni sistemi di intercettazione vengono gestiti da unin-
terfaccia software da postazioni hardware dedicate registrando le intercettazioni diretta-
mente in forma di segnali digitali (e quindi in formato numerico), luso di tali supporti
stato adottato anche in questo ambito come sistema di memorizzazione di registrazioni
di intercettazioni. I sistemi che utilizzano questa modalit di registrazione e memorizza-
zione sono il gi citato RT6000 e il DAT DREC (versioni 3000 e 3500). Si tratta perci
di registrazioni interamente digitali con interfaccia software proprietaria per la ricerca, la
consultazione e lesportazione delle informazioni associate ai file delle intercettazioni70.
I file sono registrati ad una frequenza di 8000 Hz o 9600 Hz ad 8 o 16 bit, e un sup-
porto pu contenere fino a 54 ore di registrazione.
5.5.2.3. Il Cd-Rom o Compact Disc
Si tratta di uno dei supporti di registrazione attualmente tra i pi diffusi. Il CDRom

ha un diametro di 120 mm con un foro centrale di 15 mm ed uno spessore di soli 1.2 mm.
Archiviano su questa tipologia di supporto sistemi come lRT8000, RT8100, RTUno, tra
i pi noti, ma lofferta in questo settore veramente ampia71.
Il Compact Disc, nato allinizio degli anni 80 da una collaborazione tra Sony e
Philips, il supporto tipico dellaudio digitale, ed ha eliminato quasi del tutto il mercato
dellaudio analogico.
Anche se la maggior parte degli audiofili non ne gradisce la resa sonora e
preferisce il vecchio disco analogico (disco in vinile), innegabile che tale supporto
presenta grossi vantaggi, fra i quali possiamo citare: maggiore robustezza e
manovrabilit, assenza di problemi di trazione, possibilit di contenere oltre 74 minuti
di segnali sonori senza interruzione (voce o musica di qualit elevata a 44100 Hz 16
bit stereo). Naturalmente, data la decisamente minore qualit di registrazione delle
intercettazioni, su un unico supporto il materiale contenuto sotto forma di dati e quindi
di semplici file digitali aumenta
notevolmente. Analogo discorso vale per i supporti DVD (Digital Versatile Disc) dove
la capacit di archiviazione aumenta notevolmente.
5.5.2.4. Il MiniDisc
Per le sue caratteristiche il Miniature Compact Disc, noto come MiniDisc72, un

supporto che si colloca a cavallo tra DAT, Musicassetta e CdRom. Il disco, di tipo
magneto-ottico del diametro di 64 mm e con uno spessore di soli 1.2 mm, su cui viene
incisa la registrazione, racchiuso in una protezione di plastica rigida di 68 mm x 72
mm con uno spessore di soli 5 mm e una finestrella scorrevole di accesso al disco simile
a quella dellinvolucro del disco floppy da 3.5 pollici. Ha capacit del tutto assimilabili a
quella del CDRom e registra al massimo 74 minuti di audio. Nella registrazione e nella
codifica del segnale viene per operata una compressione di tipo lossy (si gi accennato
a questo aspetto pi sopra). Il sistema di compressione utilizzato nei MiniDisc (MD) si
chiama ATRAC (Adaptive TRansform Acoustic Coding) che rimuove tutte le informa-
zioni relative a quella parte di suoni che il nostro orecchio non pu percepire. In fase di
acquisizione il segnale viene suddiviso in intervalli di tempo regolari di 20 millisecondi,
scomposto nelle sue componenti spettrali mediante una trasformata rapida di Fourier per
poi applicare al segnale audio cos analizzato lalgoritmo di compressione che elimina
tutti i segnali ritenuti non udibili allorecchio umano e perci superflui per la registra-
zione. Nella fase di riproduzione del MiniDisc, dopo che il decodificatore ATRAC ha ri-
composto le varie componenti del segnale audio ed i diversi segmenti di 20 millisecondi,
il segnale digitale viene trattato con un normale convertitore D/A a 16 bit.
A seconda dellapparecchio MiniDisc con cui stato registrato il supporto occorre
riversare (ovvero digitalizzare e ri-campionare) il segnale per le successive operazioni da
effettuare sulle registrazioni di interesse73.
5.5.2.5. Dischi ottici e supporti di memoria
Qui la tecnologia impiegata decisamente molto varia e ampia. Ci baster sapere

che molti altri sistemi di intercettazione archiviano i dati (ovvero le registrazioni e in-
formazioni annesse) direttamente su disco rigido per poi trasferire i dati su altri supporti
di memoria come unit compresse (supporti Iomega, zip, jaz) e supporti magnetoottici
(dischi ORB).
Questi tipi di supporto hanno capacit elevate ed altamente variabili.
5.5.2.6. Pregi e difetti dei supporti digitali/ottici
Uno dei maggiori pregi del supporto digitale consiste nella possibilit di scambiare
dati anche tra utenti a grande distanza e in modo abbastanza rapido. Non si rendono
necessarie operazioni di digitalizzazione in quanto il segnale gi in formato digitale.
Garantiscono una elevata efficienza a bassi costi con conseguente risparmio sullo spazio
per larchiviazione.
Analogamente, per, la rapida evoluzione della tecnologia porta in tempi ridotti
allobsolescenza dellhardware, dei formati digitali e dei supporti. Uno dei maggiori
problemi riguarda inoltre il formato di registrazione che influenza frequenza di campio-
namento (sample rate) e bit di quantizzazione (bit depth).
Per concludere, va ricordato che il file non subisce alterazioni dovute allinvecchia-
mento. Su questultimo aspetto ci sono per pareri discordanti che attribuiscono ai sup-
porti digitali/ottici una bassa aspettativa di vita oltre al fatto che anche loro temono gli
urti, i campi magnetici e sono spesso preda di virus informatici!
5.6. Il problema delloriginale e della copia nel passaggio dallanalogico al digitale
Abbiamo sino ad ora trascurato ed omesso qualsiasi accenno alla manomissione di

una registrazione o di un supporto in quanto strettamente collegato ad uno degli aspetti
attualmente pi controversi ed irrisolti (anche e soprattutto dal punto di vista normativo)
derivante dal passaggio dallanalogico al digitale che riguarda il concetto di originale
e il concetto di copia.
Prima di approfondire la questione appare doveroso riportare qui una nota della Cas-
sazione Penale Sez. V, la n. 38842 del 24/10/2002, che recita: In tema di intercettazioni
di conversazioni o comunicazioni telefoniche, la prova costituita dalle bobine conte-
nenti le registrazioni [...].
A leggere quanto riportato sembra che la giurisprudenza non sia a conoscenza delle in-
novazioni tecnologiche degli ultimi anni. Ma la questione paradossalmente pi delicata di
quel che pu apparire. Ai tempi in cui si registrava su supporto analogico, si veda il caso delle
bobine o comunque di tutti quei supporti di tipo analogico, vi era la certezza del supporto
originale che a fine operazioni di intercettazione veniva chiuso in un plico sul quale veniva
apposto un sigillo in ceralacca con il timbro e la firma del repertante. Nellera in cui tutto viene
acquisito e custodito in digitale, come per altro accade per le stesse intercettazioni che vengono
oggi registrate direttamente su disco rigido sotto forma di file per poi essere trasferite in
copia (sempre sotto forma di file) su altro supporto digitale, sorge un problema di non poca
banalit che quello dellidentificazione formale delloriginale che, in assenza di tale
requisito, perde la sua validit giuridica74. Fare la copia di un file audio digitale vuol dire fare
una copia di numeri (dal punto di vista acustico e qualitativo hanno caratteristiche
assolutamente identiche) e non comporta alcuna variazione rispetto a quella che, invece, se
ne avrebbe facendo la copia di una registrazione incisa su supporto analogico in cui, lo
ricordiamo, il segnale sonoro trasformato in un segnale elettrico modulato o continuo il
cui andamento idealmente simile e quindi analogo a quello del segnale dorigine. Nel
dominio del digitale lautenticit e linte- grit sarebbe di per s garantita anche in caso di
copia, ma distinguere la copia dalloriginale praticamente impossibile in assenza di specifici
indicatori o marcatori. In aggiunta a ci, ac- certare una manomissione su una registrazione
digitale tuttaltro che cosa facile: individuare la manomissione su una registrazione di tipo
analogico , al contrario, cosa assai pi semplice e fattibile dal momento che ad essere
alterata non la registrazione in s bens il supporto che la contiene. Qualsiasi tipo di
intervento (cancellazione, sovrascrittura o danneggiamento) sar individuabile, misurabile e
documentabile poich gli stessi eventi che ne alterano loriginalit (intesa in termini di ci
che in origine era stato inciso) sono presenti sul supporto, sulla bobina che la giurisprudenza
identifica appunto come prova75.
Spesso e sempre pi frequentemente, in sede di conferimento di incarico al perito
viene consegnato un supporto digitale (nella maggior parte dei casi un CdRom o un
DVD contenente dei file) da cui non mai palese se si tratti di copie o di originali (che
nel caso del digitale, lo ribadiamo, coincidono) e le cui informazioni sul formato e le
caratteristiche mai vengono esplicitate (a parte lindicazione del numero di registro di
intercettazione e del procedimento penale nellambito del quale lintercettazione ricade).
Per ovviare a questo problema sarebbe sufficiente apporre una firma digitale alle re-
gistrazioni generate da sistemi digitali per evitare che queste possano venire manomesse
o alterate a fine operazioni o durante la copia e il trasferimento delle registrazioni su altri
supporti. Lutilizzo di una firma digitale farebbe inoltre s che loriginale venga certifi-
cato escludendo a-priori il ricorso e la contrapposizione di questultimo al concetto di
copia in quanto nel mondo digitale i due termini coincidono76.
5.7. Tipi e modalit di intercettazione
Le modalit attraverso cui le conversazioni di interesse per gli inquirenti vengono

captate o intercettate sono anchesse assai variegate. Il processo tecnico alla base di una
intercettazione pu tuttavia essere schematizzato in una sequenza che prevede: la capta-
zione della comunicazione, la trasmissione della stessa verso gli impianti di registrazio-
ne77 e la sua registrazione78. Nella tripartizione appena fornita sono i primi due processi
di questa sequenza che caratterizzano la tipologia di intercettazione. In linea di principio,
per le caratteristiche qualitative della registrazione e per le modalit con cui vengono
attuate, possibile differenziare le intercettazioni in due tipi:
intercettazioni di telecomunicazioni (in gergo settoriale definite di tipo telefoni-

co) effettuate per mezzo della rete fissa o rete mobile di tipo GSM79 o UMTS80;
intercettazioni tra presenti (in gergo intercettazioni ambientali) effettuate in
macchina, in carcere, in abitazioni, in uffici, o in un ambiente qualsiasi sotto-
posto a controllo attraverso rete telefonica fissa, rete mobile o con lausilio di
mezzi diversi da quelli telefonici (registrazioni a distanza con microfoni dire-
zionali, microtrasmettitori occultati materialmente con trasmissione attraverso
ponti radio, microregistratori nascosti ecc.).
Esaminiamo di seguito le varie modalit di intercettazione nel dettaglio con le carat-

teristiche ad esse connesse.
5.7.1. Intercettazione di telecomunicazioni
Lintercettazione di telecomunicazioni, o intercettazione telefonica, viene definita

come tale ogni qualvolta viene messa in atto la captazione di una comunicazione effettuata
in assenza o a distanza: gli interlocutori non sono perci in grado di vedersi e sono fisica-
mente e materialmente lontani luno dallaltro. Lo scenario delle intercettazioni apparte-
nenti a questa categoria pu essere descritto, molto sommariamente, nei seguenti termini:
hanno un inizio preciso (segnalato da uno o pi squilli), e una fine identificabile da uno o
pi segnali acustici di caduta della linea; gli interlocutori sono nella maggior parte dei casi
due (lingresso nella conversazione di interlocutori aggiuntivi segnalato da frasi molto
chiare e precise come ad es. ti passo tizio); il turno viene di norma rispettato (vi per-
tanto poca sovrapposizione di voci); le interazioni tra i due interlocutori sono molto chiare
e lineari, e le espressioni verbali pronunciate hanno quasi sempre un senso compiuto; i ru-
mori ambientali sono per lo pi assenti (soprattutto nelle conversazioni telefoniche su rete
fissa) e qualora presenti sono situati alle spalle dellinterlocutore o comunque lontano dal
raggio di azione della fonte di registrazione (il microfono della cornetta o del telefonino); la
distanza tra la fonte sonora (il parlante) e la fonte di registrazione (il microfono allinterno
della cornetta del telefono o del telefonino) sempre costante; le informazioni sono tutte
affidate al canale e alla fiducia che in esso viene riposta. Riguardo questultimo aspetto va
osservato come il nostro modo di interagire differente al telefono di rete fissa rispetto al
telefono cellulare. Nel caso della telefonia fissa, la consapevolezza che ci sia un filo a col-
legare gli apparecchi, o lesperienza nelle innumerevoli conversazioni gi avute rende pi
tranquilli gli interlocutori. Nel caso della telefonia mobile, gli abbassamenti di intensit, i
rumori improvvisi, lesperienza di molte conversazioni interrotte da cadute di linea porta
gli interlocutori a fare abbondante uso della funzione fatica della lingua con interazioni
del tipo ci sei? o mi senti? al fine di mantenere il contatto con il proprio interlocuto-
re, oppure alzando notevolmente il volume della voce (come se ci servisse a risolvere i
problemi di ricezione del segnale e a far sentire meglio ci che viene detto allaltro interlo-
cutore)81. Altra caratteristica peculiare delle intercettazioni telefoniche che quasi sempre
uno degli interlocutori, se non addirittura entrambi, noto (o perch titolare dellutenza
telefonica intercettata, o perch ha in uso lutenza, o semplicemente perch si presenta al
telefono appena laltro interlocutore risponde allaltro capo della linea telefonica).
A livello prettamente tecnico le intercettazioni attraverso la rete di telecomunicazione
pubblica sono regolate, oltre che da leggi nazionali, anche da standard di tipo internazio-
nale. Tra questi ricordiamo il 3rd Generation Partnership Project (3GPP) un consorzio
nato nel 1998 con un accordo di collaborazione tra diverse organizzazioni tra cui anche lo
European Telecommunications Standards Institute (ETSI). In ambito europeo la standar-
dizzazione di tipo tecnico come pure la pubblicazione di documenti contenenti un insieme
di linee guida e di regole sul modello di riferimento per le intercettazioni legali portato
avanti dal comitato tecnico Lawful Interception (LI) di ETSI82 in collaborazione col gruppo
di lavoro subWG SA3LI83 del 3GPP che si occupa di sicurezza e di intercettazioni legali84.
5.7.1.1. Intercettazione telefonica su rete fissa
Lintercettazione telefonica pu avvenire secondo due modalit: ad iniziativa personale,

posizionando un microfono sulla cornetta del proprio telefono e registrando solo le telefo-
nate di minaccia o di tentata estorsione ecc. o comunque tutte quelle telefonate di interesse
dellintercettando85; ad iniziativa delle forze dellordine che, previa ovviamente autorizzazio-
ne del Giudice, danno luogo alle operazioni di intercettazione di unutenza telefonica con il
supporto tecnico degli operatori di telefonia (con una deviazione del flusso delle chiamate): in
questo caso vengono registrate tutte le telefonate sia in entrata che in uscita su quella precisa
utenza.
Grazie allo sviluppo e allintroduzione di nuove tecnologie in ambito di telecomunica-
zioni, oggi la voce non viene pi trasportata dal sistema telefonico sotto forma di segnale
analogico (sotto forma di variazione di ampiezza di una tensione elettrica), ma viene tra-
sportata in forma digitale grazie ad una tecnica chiamata PCM (Pulse Code Modulation) pi
sopra descritta. La digitalizzazione PCM, lo ricordiamo in questa sede, avviene registrando
lampiezza del segnale analogico ad intervalli regolari (campioni o samples) e rappresentan-
do poi tale valore misurato utilizzando un certo numeri di bit (il numero di bit utilizzati viene
definito risoluzione di campionamento o sampling resolution).
In passato lintercettazione era possibile grazie ad un traslatore86 posizionato sulla linea
telefonica da controllare che inviava il segnale intercettato alla sala di ascolto della Procura
inquirente dove risiedevano gli apparati di registrazione. Questa modalit operativa poneva
per una serie di limiti che con le nuove tecnologie e con il passaggio al digitale sono state in
parte se non del tutto superate. Lintercettazione prevedeva, infatti, linstallazione materiale
(ad opera di un tecnico) di tale dispositivo con lattivazione di una linea telefonica dedicata
di tipo analogico: oltre ai ritardi legati allinstallazione e allattivazione, questa tipologia di
intercettazione produceva una perdita in termini qualitativi dovuta principalmente alla rispo-
sta in frequenza delle apparecchiature e dei supporti utilizzati, del rapporto segnale rumore,
dallimmissione nella registrazione di una componente stazionaria in bassa frequenza (attor-
no ai 50 Hz) dovuta alla corrente elettrica utilizzata come alimentazione delle apparecchia-
ture adoperate.
Oggi, invece, grazie allevoluzione dei servizi di comunicazione e al passaggio dalla rete
PSTN alla rete digitale ISDN87, lintercettazione avviene ora sul numero dellutente inter-
cettato, indipendentemente dal filo utilizzato, effettuando tutte le operazioni di istradamento
del traffico telefonico da intercettare direttamente allinterno delle centrali di commutazione
numerica, rendendo le stesse operazioni di intercettazione di fatto pi sicure con la possibilit
di avere in tempo reale tutti i dati associati alla linea e alle chiamate che transitano su di essa.
5.7.1.2. Intercettazione su rete mobile (Rete GSM)
Un dispositivo di comunicazione mobile, pi comunemente chiamato telefono cellulare,

in pratica un ricetrasmittente che in Italia opera sulle bande di frequenza 450 MHz 900
MHz. Per permettere ad un dispositivo ricetrasmittente di piccola potenza (pi o meno un
Watt) di collegarsi alla frequenza di 900 MHz con la stazione radio base, necessario che que-
sto sia molto vicino (ovviamente la distanza dipende dalla morfologia del territorio). In citt
dove gli ostacoli sono identificati nei grandi stabili e nelle grandi costruzioni, la distanza pu
essere anche solo di un chilometro, negli spazi aperti, invece, come in una pianura o al mare,
la distanza pu anche arrivare a 10 o 20 Km. per questo motivo che il territorio nazionale
stato suddiviso in celle (con una copertura a nido dape) ognuna delle quali contiene una
stazione radio base denominata BTS (Base Transceiver Station). Per poter inviare e/o
ricevere una comunicazione il telefono cellulare si connette attraverso le stazioni radio base
denominate BTS alle centrali fisse (BSC Base Site Controller) che rappresentano il vero
e proprio cervello della rete GSM. Una volta impegnata la centrale, tramite rete telefonica
tradizionale si raggiunge il numero desiderato, stabilendo cos il collegamento. Se il numero
chiamato un cellulare, allora anche il tratto terminale della connessione avverr tramite
ricetrasmittente.
Durante un tentativo di chiamata, il cellulare A si connette con la BTS pi vicina e chiede
lautorizzazione del canale lasciandosi autenticare attraverso linvio dellIMEI. Il codice IMEI
(International Mobile Equipment Identity) un codice indelebile che serve ad identificare il
singolo terminale mobile o apparecchio e viene memorizzato e inserito direttamente dal co-
struttore. LIMEI un codice numerico formato da 15 cifre: 6 caratterizzanti il modello (TAC,
Type Approval Code), 2 identificano il paese di costruzione (FAC, Final Assembly Code) e 6
identificano il numero seriale (SNR, Serial Number). Ogni stazione BTS possiede un siste-
ma di interconnessione chiamato MSC (Mobile Switching Center), un terminale che connette
lutente con la rete (ovvero al BSC Base Site Controller): ciascun operatore di rete GSM ne
possiede di propri, disseminati sul territorio nazionale. Allinterno dellMSC risiedono i data-
base che contengono i dati relativi allabbonato mobile e i dati necessari per il trattamento delle
chiamate, come lHLR (Home Location Register) che contiene tutte le informazioni relative
a ciascun abbonato autorizzato alluso della rete delloperatore di telefonia mobile, e il VLR
(Visitor Location Register), uno per ogni MSC, che contiene una copia di quasi tutte le infor-
mazioni presenti nellHLR e relative ai soli abbonati attivi nellarea gestita dal corrispondente
MSC e solo per poco tempo insieme ad una serie di altri dati come: larea geografica (Local
Area Identity, LAI) in cui si trova la cella (ogni VLR controlla molte Location Area e quan-
do un abbonato si sposta da una LA allaltra ne viene tenuta traccia nel VLR); il Temporary
Mobile Subscriber Identity (TMSI), un numero didentit dellabbonato utilizzato per ragioni
di sicurezza (il VLR li gestisce e li controlla notificandoli allHLR); il Mobile Subscriber Roa-
ming Number (MSRN), che rappresenta il numero utilizzato da un abbonato non appartenente
alla rete delloperatore GSM, a cui appartiene lMSC; lo stato del terminale mobile (spento,
occupato ecc.).
Quindi, la BTS riceve una richiesta di autorizzazione da un cellulare, lMSC rileva
alcune informazioni dalla SIM (Subscriber Identity Module, modulo didentit dellab-
bonato, pi comunemente identificato con il termine scheda) residente nel cellulare sotto
forma di numerazione IMSI (International Mobile Subscriber Identity)88, autorizza luso
del canale e connette la base mobile con la base di livello superiore e via di seguito.
Rilevando lautorizzazione dellMSC possibile identificare la cella di partenza della
chiamata telefonica. nellMSC che fisicamente hanno inizio le intercettazioni. Nelle
strutture degli operatori di rete dedicate allevasione delle richieste della Magistratura
vengono aggiornati gli elenchi dei numeri telefonici da intercettare (compresi gli IMEI
dei cellulari per tutti quei casi in cui lindagato utilizzi pi SIM sullo stesso
telefono). Questi elenchi vengono trasmessi per via telematica agli MSC, andando ad
aggiornare a distanza gli elenchi corrispondenti di tutti i RES.
Allinterno degli MSC il sistema RES (Remote Control Equipment Subsystem) invia
la comunicazione, tramite una linea dedicata protetta di tipo ISDN, ad un server della Pro-
cura della Repubblica che ha richiesto il flusso di dati e dove tramite apposite strumenta-
zioni il segnale intercettato viene registrato ed archiviato in forme che possono variare da
Procura a Procura (si veda quanto pi sopra detto riguardo i formati e i supporti utilizzati).
5.7.2. Intercettazione tra presenti
Le intercettazioni di conversazioni tra presenti, comunemente note anche come am-

bientali, vengono definite in termini di captazione di una comunicazione effettuata in
presenza, o frontale (gli interlocutori sono fisicamente vicini). I luoghi in cui questa pu
essere effettuata sono innumerevoli: a titolo esemplificativo citiamo le autovetture, abi-
tazioni private, uffici, sale colloquio delle carceri, celle dei detenuti ecc.
Lo scenario che ci si presenta in questo caso nettamente diverso da quello illustrato
per le intercettazioni di telecomunicazioni. In questi casi, infatti, sebbene la registrazione
risulti marcata da una data e unora di inizio, la conversazione che viene intercettata non
ha, di fatto, mai un inizio ed una fine ben definiti (la conversazione tra gli interlocutori
potrebbe essere iniziata in un posto differente da quello controllato o intercettato); gli
interlocutori vanno da un minimo di uno ad un numero ipoteticamente indefinito89; i tur-
ni di avvicendamento non vengono mai rispettati (si hanno moltissime sovrapposizioni
di voci che ne rendono incomprensibili gli scambi verbali); le interazioni verbali degli
interlocutori sono pi complesse e confuse (spesso vengono scambiati gesti, cenni o
sguardi al posto delle parole); gli innumerevoli rumori (che si trovano tra il/i parlante/i e
la microspia, senza trascurare quelli legati allambiente in cui la conversazione si svol-
ge) completano e aggiungono informazioni agli scambi verbali ma al contempo li com-
plicano e li rendono incomprensibili; la distanza tra gli interlocutori e la microspia
altamente variabile (gli intercettati possono trovarsi, come detto, dentro o fuori dalla
macchina, possono trovarsi seduti sui sedili posteriori della macchina, possono trovarsi
in una stanza o in un locale attiguo ecc.); le informazioni vengono affidate alla vicinanza
e alla conoscenza che si ha dellinterlocutore. Va anche osservato come nel caso delle
intercettazioni ambientali gli interlocutori sono spesso anonimi (non noti) a meno che
non si chiamino per nome.
5.7.2.1. Intercettazioni ambientali su autovetture
In passato per lintercettazione di conversazioni tra presenti sulle autovetture veniva

usato un sistema di intercettazione in radiofrequenza che, sfruttando una frequenza radio
catturata mediante un ricevitore posto ad una distanza ragionevole e comunque allinterno
di un determinato raggio di azione, trasmetteva in modo continuo laudio intercettato e
rielaborato alla centrale telefonica e da qui, attraverso un traslatore, alla sala di ascolto90.
Lintercettazione ambientale in macchina avviene oggi attraverso rete mobile91. Per
questa ragione vale il discorso gi fatto per lintercettazione sulla rete mobile, in quanto
nella macchina viene occultato un apparato dotato di microfono e antenna: la micro-
spia installata sullautovettura non altro che un piccolissimo cellulare con una SIM
(e quindi una sua numerazione telefonica) e una piccola antenna che si alimenta dalla
corrente della macchina intercettata e che trasmette il segnale intercettato sotto forma di
telefonata92.
A differenza delle intercettazioni telefoniche classiche, nelle ambientali di questo
tipo lattivazione della telefonata pu avvenire o attraverso un sensore di movimento
(shock sensor) o un sensore audio (sound sensor, in gergo chiamato anche sensore Vox).
Nel primo caso la telefonata e quindi la registrazione viene attivata se viene rilevato un
movimento sul veicolo su cui installato lapparato; nel secondo caso lattivazione av-
viene se un determinato suono o rumore supera la soglia di sensibilit impostata93.
Nelle intercettazioni ambientali importante notare come tutta una serie di parametri
come il volume della periferica, lo shock sensor, il sound sensor e altre eventuali caratte-
ristiche impostabili che dipendono dai modelli utilizzati, possono essere regolati e gestiti
in remoto attraverso linvio alla periferica di comandi attraverso luso di SMS o codici
numerici codificati in DTMF (dual-tone multifrequency)94.
Inutile, infine, accennare ai tipi di disturbo ambientale che possono affliggere la re-
gistrazione che dallintercettazione ne scaturisce e che possono essere attribuiti alle pi
svariate cause o condizioni: finestrini aperti, strada sconnessa, motore rumoroso,
stereo acceso, pioggia battente ecc95.
5.7.2.2. Intercettazioni ambientali di colloquio in carcere
Un discorso a parte meritano, invece, le intercettazioni dei colloqui in carcere tra

un detenuto e i suoi familiari. Si tratta, anche in questo caso di una intercettazione
ambientale, ovvero della captazione di una comunicazione effettuata in
presenza, o frontale. Tuttavia, le dinamiche e le caratteristiche osservabili in un
colloquio in carcere sono solo in parte assimilabili ad esse.
Contrariamente alle intercettazioni ambientali, lintercettazione di un colloquio
in carcere ha un inizio ed una fine ben definita (segnalata dallingresso e dalluscita
del detenuto e dei suoi familiari nella sala colloqui del carcere)96. Gli interlocutori
sono due o di pi (le sale colloqui sono spessissimo affollate in quanto possono es-
sere presenti nella stessa sala anche altri detenuti con i propri familiari); il luogo in
cui avvengono i colloqui solo eccezionalmente garantisce una buona registrazione
(presenza di riverbero, rumori di fondo di condizionatori o ventilatori, disturbi vari
ecc.); i turni di avvicendamento degli interlocutori nella conversazione non
vengono mai rispettati (vi sono molte sovrapposizioni di voci, a cui spesso si
aggiungono volontarie e contemporanee discussioni con gli altri detenuti e
familiari eventual- mente presenti nella sala); la conversazione raramente
lineare (continuo cambio di argomentazioni); le interazioni tra gli interlocutori
sono molto complesse e rese volutamente confusionarie; i rumori (che si trovano
tra gli interlocutori e la fonte di registrazione) vengono introdotti allo scopo di
coprire e disturbare lo scambio verbale; la distanza tra gli interlocutori e lo
strumento di captazione variabile in quanto questultimo viene collocato in
posizioni che possono essere assai diversificate (sotto il banco che separa detenuti e
familiari, sopra i conversanti allinterno di plafoniere, a distanza ecc.)97.
Da diversi anni, grazie anche alle nuove tecnologie disponibili, lintercettazione
dei colloqui in carcere viene sempre pi associata a videoriprese che documentano
meglio le interazioni verbali (e non solo) tra il detenuto e suoi familiari98.
In conclusione, questa tipologia di intercettazione forse lunica in cui si assiste
allutilizzo di una variet di tecniche e di supporti di registrazione ed forse lunica
tipologia di intercettazione in cui lintera operazione viene affidata ad un operatore
giudiziario alluopo addetto che, di fatto, da avvio e monitora la registrazione fino
alla sua conclusione 99.
5.8. Tecniche di riduzione del rumore nei segnali audio
Anche in questo caso, prima di iniziare qualsiasi discussione ed esposizione riguardo

le operazioni di filtraggio, o pi propriamente di riduzione del rumore, sar opportuno
fare delle premesse e delle distinzioni riguardo la possibilit di sottoporre a filtraggio un
dato segnale sonoro.
Il termine rumore usato in modo vago per indicare tutti i suoni che non appar-
tengono al parlato, sebbene alcuni suoni del linguaggio siano intrinsecamente costituiti
da rumore. Con rumore ci si riferisce specialmente a quei suoni non organizzati, non
piacevoli, o non voluti solitamente considerati come elementi o fonte di disturbo100.
Una definizione alquanto curiosa di rumore quella fornita dal prof. Brk, direttore
del Laboratorio di elettroacustica del Politecnico di Monaco di Baviera: il rumore
quello che fanno gli altri101. Nulla di pi vero, ad esempio, se consideriamo tutti quei
casi in cui in una intercettazione (come nel caso dei colloqui in carcere su cui ci siamo
soffermati pi sopra) le voci di nostro interesse risultano disturbate da rumori ad opera
di persone terze presenti alla conversazione.
I rumori o disturbi presenti nei segnali audio, come facile immaginare sono tanti
quante le possibili fonti di rumore, e vanno dai disturbi elettromagnetici, alle
distorsioni dovute alle funzioni di trasferimento delle apparecchiature elettroniche, alla
degradazione dei supporti dovuta al tempo, allincuria ecc.
Per comodit, possiamo distinguere il rumore in due categorie: rumore a banda stret-
ta e rumore a banda larga.
Il rumore a banda stretta occupa una banda di frequenza limitata. Fonti di rumore di
questo tipo sono: riscaldamenti, condizionatori, ventilatori che introducono ronzii; emis-
sioni elettromagnetiche, interferenze, vibrazioni e tutta una serie di disturbi che vengono
definiti di tipo armonico aventi una frequenza pi o meno ben definita. Le emissioni elet-
tromagnetiche sono generate dalle apparecchiature elettriche/elettroniche come monitor di
computer, cellulari, televisori e altri elettrodomestici ma sono anche generate dai cavi di
corrente: maggiore lamperaggio che scorre nel cavo, maggiore sar lemissione elettro-
magnetica nelle sue vicinanze102. Questi disturbi possono deteriorare il segnale audio perch
captate dai microfoni in fase di registrazione o perch inducono una frequenza aggiuntiva
nella corrente elettrica utilizzata come alimentazione delle apparecchiature (di norma a 50
Hz, detto anche ronzio, in inglese hum). Anche apparecchi che si accendono e si spengono
durante la registrazione o la riproduzione possono introdurre disturbi anche molto vistosi e
detti anche disturbi impulsivi, e di brevissima durata, come click e scratch. Vi sono poi ru-
mori da elettro-modulazione costituiti da quel classico rumore che udiamo dalle casse acu-
stiche del nostro stereo ogni volta che riceviamo una telefonata sul nostro cellulare GSM.
Il rumore a banda larga viene solitamente descritto attraverso un colore (es. rumore
bianco, rumore rosa ecc.) e interessa tutto lo spettro teorico delle frequenze udibili (da 20
a 20000 Hz). un rumore a banda larga il rumore bianco che presenta la stessa forza a tutte
le frequenze: non rappresentato da una serie armonica, ma da combinazioni di sinusoidi
a tutte le frequenze. E ci che si ascolta alla radio o alla TV tra le stazioni. In generale il
rumore bianco viene usato per i test su componenti di tipo elettronico: lobiettivo quello di
ottenere un segnale in uscita mediamente costante a tutte le frequenze che sta a significare
che il componente affidabile a tutte le frequenze. Vi sono poi il rumore rosa, comunemente
utilizzato per la taratura di sistemi di rinforzo sonoro dove il rumore bianco risulta essere un
segnale non rappresentativo del segnale audio che alimenter il sistema di rinforzo stesso:
questo dovuto al fatto che un segnale audio ha un contenuto di energia sulle alte frequenze
minore rispetto alle basse frequenze e dunque viene mal rappresentato dal rumore bianco in
cui lenergia associata ad ogni ottava doppia rispetto allottava precedente.
Unaltra classificazione possibile dei tipi di rumore pu essere espressa in termini di:
rumori di tipo additivo e rumori di tipo convolutivo.
Fanno parte della prima classificazione tutti quei rumori generati da sorgenti indi-
pendenti che si sommano al segnale di interesse primario: tra questi troviamo sia i rumori
a banda stretta che rumori a banda larga.
Sono, invece, rumori di tipo convolutivo tutti quei rumori che interagiscono in
modo dinamico con il segnale di interesse per effetto dellambiente circostante: un
classico effetto di rumore di tipo convolutivo leco e il riverbero, rumori che si
originano in am-
bienti e spazi chiusi e di medie e mediograndi dimensioni per effetto di riflessioni e riso-
nanze (si pensi ad esempio a stanze di uffici con pochi arredamenti, sale, capannoni ecc.).
Ma veniamo alle tecniche di riduzione del rumore. Le tecniche di riduzione del ru-
more nascono prevalentemente per esigenze diverse da quelle qui presentate: infatti
linteresse per il patrimonio culturale legato gli archivi di materiale sonoro relativi a
registrazioni musicali, discorsi storici o altro materiale audio che ha fatto del Digital
Audio Restoration (DAR) e del ripristino delle sorgenti degradate un campo di ricerca
sempre pi attraente ed importante103. Come facile immaginare gli obiettivi nel caso
del DAR e nel caso della riduzione dei rumori nelle intercettazioni sono sostanzialmente
diversi per approccio e finalit.
Un processo di filtraggio un delicato processo che pu essere inteso come un ripulire
il segnale di nostro interesse da un rumore di fondo pi o meno intenso. Va notato che la
possibilit o meno di sottoporre un segnale a filtraggio non dipende dalla maggiore o mi-
nore intensit del rumore da eliminare, ma dalla maggiore o minore periodicit del rumore
che si vuole sottrarre al segnale utile. Lefficacia di un filtraggio pu essere infatti tale sol-
tanto in quei casi in cui il rumore di fondo abbia una conformazione spettrale ben definita,
che abbia una certa periodicit e che di conseguenza si mantenga costante nel tempo.
Il filtraggio va assolutamente evitato nei casi in cui debbano essere effettuate sul segnale
sonoro misurazioni ed analisi di tipo acustico, come avviene ad esempio nelle comparazioni
foniche tendenti al riconoscimento del parlatore. Qualunque tipo di filtraggio rappresenta
sempre una manipolazione del segnale sonoro, nel senso che in esso vengono inevitabil-
mente intaccati anche indici acustici a noi utili, quali sono per esempio quelli del segnale
vocale, falsando al contempo qualsiasi eventuale risultato frutto di analisi e misurazioni
acustiche. Durante un processo di filtraggio infatti, accanto alle frequenze del rumore o del
segnale disturbante che vengono eliminate o attenuate, si verifica anche una parziale perdita
ed attenuazione di elementi spettrali appartenenti al segnale utile104. Se da un lato simili per-
dite non producono sostanziali differenze a livello percettivo e a livello di intelligibilit del
segnale (anzi la migliorano), dallaltro, come gi detto, le misurazioni e le analisi acustiche
da esso estrapolabili potrebbero venire seriamente e irreparabilmente alterate e falsate.
Per le operazioni di filtraggio esistono in commercio ottimi programmi con
appositi plugin che permettono di ottenere buoni risultati. Va per sottolineato che
nonostante ci, filtraggi troppo drastici o senza una preliminare analisi del segnale ed
individuazione delle caratteristiche frequenziali del rumore o degli elementi di
disturbo da eliminare, possono notevolmente danneggiare il segnale sonoro. Dette
alterazioni producono nel segnale artifici sgradevoli e chiaramente udibili (morphing)
con conseguenze che possono portare ad una possibile ed inevitabile eliminazione
e/o modificazione (parziale o totale) del segnale utile che si intendeva sottoporre a
miglioria.
Per evitare che il processo del filtraggio si riveli un inutile spreco di tempo e di
risorse con risultati del tutto insoddisfacenti se non addirittura peggiorativi dellintelli-
gibilit del segnale, occorre essere consapevoli delle possibilit e soprattutto dei limiti
di simili procedure. Oltre a sottolineare la necessit di una ferrata competenza in ma-
teria di acustica, quello del filtraggio deve essere un processo effettuato a piccoli passi
con accorgimenti di volta in volta diversi: analisi del segnale, individuazione della fre-
quenza del rumore disturbante, costruzione di un filtro digitale ad hoc, applicazione di
detto filtro sul segnale con lieve riduzione di intensit in dB, aumento della dinamica e
verifica mediante ascolto ed analisi del segnale risultante, riapplicazione dei passi ap-
pena enunciati e cos via, fino al raggiungimento del risultato desiderato. Sar in ogni
caso lo stesso perito a valutare e stabilire se un filtraggio, inteso nellaccezione pi so-
pra data, sia possibile, o quanto meno utile, ed in che misura. Qualora costui ritenga o
ha modo di ritenere, sulla base delle proprie competenze e delle proprie valutazioni del
segnale oggetto di incarico, che gli effetti del filtraggio possano avere esito benefico e
migliorativo della intelligibilit del contenuto della registrazione, allora sar possibile
procedere scegliendo di intervenire nelle modalit che di volta in volta si renderanno
pi adatte fermo restando i limiti di cui sopra105.
5.8.1. Nozioni teoriche sui filtri
Prima di orientarci ad una brevissima descrizione delle pi comuni tecniche per gli
interventi di filtraggio di segnali audio, a questo punto necessario introdurre alcune
nozioni teoriche sul concetto di filtro.
Un filtro un dispositivo che opera una trasformazione sulla struttura spettrale di un
segnale, trasmettendone o amplificandone una parte ed attenuandone o eliminandone al-
tre. Grazie a questa propriet, esso ha la capacit di agire sullampiezza delle componenti
di un segnale lasciandone inalterata la frequenza106.
Le modalit tipiche per trasformare un segnale con unoperazione di filtraggio sono
essenzialmente quattro:
a. se il filtro trasmette solo le armoniche aventi frequenza inferiore alla frequenza

di taglio (f t), avremo un filtraggio di tipo passabasso;
b. se vengono trasmesse le armoniche di frequenza superiore a quella di taglio, si
avr un filtraggio passaalto;
c. se le armoniche trasmesse sono quelle di frequenza comprese tra due frequenze
di taglio, il filtraggio sar di tipo passabanda107;
d. si parla, invece, di filtraggio eliminabanda, quando vengono eliminate le armo-
niche di frequenza compresa fra le due frequenze di taglio.
Le trasformazioni spettrali appena descritte vengono realizzate da filtri ideali:

un filtro ideale trasmette, in corrispondenza della frequenza di taglio e a seconda del
filtro adottato, tutte le frequenze senza attenuazione. In realt, i filtri ideali non esi-
stono: ogni filtro reale inizia ad attenuare (leggermente) in prossimit della frequenza
di taglio e dopo questa opera unattenuazione progressiva (e non un taglio drastico).
La frequenza di taglio viene, infatti, definita come quella frequenza alla quale il fil-
tro attenua di 3 dB il livello di ampiezza massimo. Il tasso di attenuazione dopo la
frequenza di taglio viene chiamato pendenza e si misura in dB per ottava (dB/oct). In
tal caso, maggiore sar la pendenza di un filtro reale, tanto pi esso si avvicina ad un
filtro ideale.
Nel caso di un filtro passabanda, alle due frequenze di taglio si preferisce il parame-
tro larghezza di banda o banda passante, equivalente alla differenza fra le due frequenze
di taglio stesse. Inoltre, nel caso di un filtro passabanda simmetrico, un ulteriore para-
metro la frequenza centrale (f c), definita come la media delle due frequenze di taglio.
Il filtro passabanda assume notevole importanza nella tecnica sperimentale dellana-
lisi armonica di un segnale, al quale si ricorre ogni qualvolta lapplicazione di uno spe-
cifico metodo di calcolo analitico risulta inattuabile per limpossibilit di descrivere il
segnale stesso con una determinata funzione matematica. questo il caso specifico dei
suoni della parola e delle analisi che su di essi vengono eseguite. Condizione essenziale,
affinch il filtro passabanda estragga ciascuna armonica singolarmente, che la larghez-
za di banda sia inferiore allintervallo che separa due armoniche adiacenti: in tal caso si
parler di filtro a banda stretta. Qualora la larghezza di banda maggiore della frequenza
del segnale, per cui si misurano contemporaneamente due o pi armoniche del segnale,
si parler di filtro a banda larga.
5.8.2. Tecniche di Filtraggio o di Riduzione dei Disturbi
Le tecniche qui descritte sono nella maggior parte dei casi disponibili in quasi tutti
i software di audio editing sotto forma di plug-in. Descriveremo solo quelli pi comuni
che se utilizzati senza la pretesa di fare miracoli, possono sicuramente migliorare e age-
volare lascolto di una registrazione sonora.
Durante le fasi di ascolto approfondito di una conversazione pu accadere che si percepi-
sca la presenza di porzioni di segnale con maggiore o minore intensit. Il ricorso ad un filtro
di normalization in questi casi pu essere di aiuto per portare e livellare lintensit di tutto il
segnale ad una soglia di riferimento impostata dalloperatore che, come risultato finale del
procedimento, d allascoltatore la sensazione, definita anche loudness, di ascoltare un segna-
le sempre con la stessa intensit. Il processo di normalizzazione, quindi, non fa altro che nor-
malizzare lintensit di un segnale sonoro portandolo ad un livello prestabilito e per questo
non ha carattere selettivo: aumenta, infatti, anche lintensit di eventuali rumori di fondo e ci
indifferentemente dalla distanza del microfono che ha captato il segnale. Se tale operazione
da un lato pu agevolare e migliorare lascolto di maggiori porzioni di segnale, dallaltro ha
linconveniente di rimuovere quelle che sono le variazioni di intensit nel segnale dovute alla
maggiore o minore distanza della sorgente sonora dal punto di captazione provocando un
appiattimento del segnale e la perdita della spazialit o quel poco che come abbiamo visto ne
rimane. Lapplicazione di questo filtro in modo indiscriminato con limpostazione di valori
elevati pu causare saturazione della dinamica del segnale, oltre che costituire un notevole
rischio per il nostro udito che verrebbe esposto segnali troppo intensi108.
Unalternativa valida al processo di normalizzazione , invece, laumento della di-
namica. In questo caso il filtro, spesso impostabile attraverso uninterfaccia grafica, evi-
denzia ed accentua la differenza tra il segnale periodico ed il segnale aperiodico,
aumentando lintensit del primo e riducendo quella del secondo. Rispetto alla
normalizzazione quella dellaumento della dinamica pu essere considerata un
operazione di tipo selettivo in quanto accentua la differenza tra due soglie di intensit
individuate dalloperatore: tutto ci che sta sopra o sotto una certa soglia viene affetto
dal filtro.
Un altro plug-in spesso disponibile nei software di audio editing, creato prevalen-
temente per il filtraggio dei dischi in vinile il de-click col quale vengono rimossi quei
fastidiosi effetti, dovuti a rumori di tipo impulsivo e di brevissima durata, udibili nella
riproduzione del disco e causati da polvere o righe nei solchi del disco in vinile su cui
scorre la testina del giradischi producendo graffi e bruschi scatti109. Questa tecnica di
filtraggio interviene sul segnale nel dominio del tempo. Accenniamo in questa sede a
questo tipo di plug-in in quanto spesso attraverso la sua applicazione, entro certi limiti,
possibile ridurre anche i disturbi introdotti dal fruscio del vento sulla membrana del
microfono che capta la registrazione, come ad esempio in una intercettazione ambientale
in macchina in cui uno o pi finestrini aperti fanno s che laria, specie a veicolo in movi-
mento, colpisca la membrana microfonica della microspia. Questo tipo di intervento ha il
vantaggio di rendere la registrazione con determinati disturbi meno fastidiosa allascolto.
Si badi che le tecniche sino ad ora descritte non operano trasformazioni o modifiche
sul contenuto in frequenza del segnale.
Lintervento nel dominio delle frequenze attenuando o sottraendo determinate com-
ponenti spettrali a tutto il segnale o a porzioni di esso avviene attraverso particolari
processi di filtraggio detti di Noise Reduction. Nella maggior parte dei software di au-
dio editing possibile selezionare unimpronta o un calco del rumore da una piccola
porzione del segnale per poi estenderla con un procedimento di riduzione di intensit o
di sottrazione delle frequenze individuate ad una parte o a tutto il segnale di nostro inte-
resse. I risultati di questo tipo di filtraggio sono pressoch nulli se non addirittura dan-
nosi per il segnale se il rumore da rimuovere non ha un contenuto spettrale ben definito
e non si mantiene costante nel tempo. Anche in questo caso, perci, impostazioni troppo
accentuate, associate a tipi di rumore altamente variabili sia nel dominio del tempo
che nel dominio della frequenza, invece che andare a vantaggio di una percezione pi
naturale del segnale possono introdurre alterazioni e artifici sgradevoli chiaramente udi-
bili: interventi di de-noising troppo drastici risultano in segnali che vengono percepiti
come metallici o robotici in quanto insieme alle frequenze del rumore, specie se
questo non , come gi detto, stazionario ma esteso su tutta la gamma delle frequenze
del segnale, vengono intaccate anche le frequenze utili, ovvero quelle frequenze che
interessano la gamma di suoni che caratterizza il parlato.
possibile anche creare dei filtri personalizzati specificando la conformazione del
filtro da usare sia in termini di composizione spettrale sia in termini di intensit di cia-
scuna componente spettrale. uno di questi il filtro detto di de-hum che elimina il conte-
nuto in frequenza di segnali di tipo armonico come ad esempio il ronzio introdotto nella
registrazione dalla corrente elettrica utilizzata come alimentazione delle apparecchiature
adoperate che, di norma, si situa attorno ai 50 Hz.
Infine, pu accadere che durante lascolto di un segnale ci si accorga che lo stesso
risulta essere distorto per un effetto detto di saturazione. Un segnale sonoro va incontro
a saturazione, risultando quindi percettivamente distorto, quando il segnale in entrata
(input) supera e va oltre una determinata soglia che corrisponde allampiezza massima
consentita e preimpostata sul dispositivo di captazione. Ogni qualvolta questa soglia110
viene superata, il segnale in ingresso viene registrato in maniera distorta e pertanto non
lineare. Il risultato, oltre che essere udibile, perfettamente visibile dalla forma donda
(oscillogramma) del segnale acquisito: ispezionando il grafico riportato in Figura 5.11
si noter, infatti, che londa del segnale risulta letteralmente tagliata in corrispondenza
dellampiezza massima consentita111. Questo tipo di distorsione noto anche con il te-
mine di clipping.
Il clipping produce i suoi danni soprattutto sulla qualit sonora del segnale. Nei casi
in ci si verifica, e qualora il clipping non sia cos elevato, pu risultare utile migliorare
il segnale in oggetto con unoperazione detta di de-clipping. Applicando un processo di
de-clipping specifici algoritmi di calcolo individuano le porzioni di segnale saturato e
sulla base del contenuto frequenziale della porzione individuata la parte saturata viene
sostituita con unaltra ricostruita.
Figura 5.11: Esempio di clipping in unonda di tipo sinusoidale (un caso estremo)
Note al capitolo Aspetti tecnici sulle intercettazioni: analisi dei segnali e dei
supporti
1
Cfr. Aristotele (2002), Problemi, Milano, Bompiani, pag. 185.
2
A titolo esemplificativo possiamo pensare ad unaltalena che oscilla in avanti e in dietro, oppure ancora ad un
pendolo appeso ad una estremit che se urtato o sollecitato da una forza deformante inizia ad oscillare per
ritornare al suo punto di partenza non appena la forza che ha innescato il movimento si sar dispersa. La
deformazione che mette in moto un oggetto o un mezzo elastico direttamente proporzionale alla forza
deformante.
3
Questa una delle ragioni che, come vedremo pi avanti, rendono molto delicate e complesse le
operazioni di filtraggio: alle caratteristiche acustiche del segnale di interesse per il trascrittore,
costituito prevalentemente dai suoni della parola, si aggiungono una serie di fenomeni e disturbi le cui
caratteristiche si sommano a quelle del segnale di interesse del trascrittore o, per usare un termine
pi esemplificativo, letteralmente si spalmano su di esse (la citazione del prof. Luciano Romito).
4
Tuttavia, come avremo modo di vedere pi avanti, anche alcuni suoni della parola (le consonanti) hanno
caratteristiche di aperiodicit.
5
Le onde di questo tipo vengono prodotte solo in laboratorio e si ripetono teoricamente allinfinito.
6
Ad ampiezze maggiori corrispondono, a livello percettivo, volumi pi alti.
7
Il decibel si pu considerare una misura relativa. Il bel non una quantit di suono; una relazione tra due suoni:
1 bel = rapporto di 10 a 1 tra due intensit (1 dB = 1/10 Bel). Ci sono per certi casi in cui tale
misura si pu immaginare assoluta. Questo avviene quando al denominatore si pone una misura
stabilita per convenzione internazionale. Un esempio di misura assoluta in decibel quella
dellintensit sonora (W/m2) espressa, per convenzione, in riferimento alla soglia di udibilit (0 dB):
parliamo in tal caso di Sound Pressure Level (SPL) o livello di pressione sonora.
8
Normalmente lunit di tempo adottata un secondo (1 s).
9
A livello percettivo la frequenza ci fornisce la sensazione di altezza o gravit di suono (come ad es. la fine
sinistra e la fine destra su una tastiera che produce suoni bassi a sinistra e suoni alti o acuti a destra). I
suoni percepiti dalluomo comprendono frequenze fra i 20 e i 20000 Hz (o 20 kHz). Oltre questi limiti i
suoni esistono ma non vengono percepiti dal nostro sistema uditivo: i segnali sotto i 20 Hz
vengono detti infrasuoni, mentre quelli sopra i 20 kHz vengono detti ultrasuoni.
10
Ma lo stesso vale per due punti identici e consecutivi allinterno di uno stesso ciclo.
11
Poich unonda sonora si propaga ad una velocit finita che dipende dal mezzo in cui si propaga, un soggetto
che si trova ad una certa distanza percepir il suono prodotto da una sorgente sonora in funzione
della sua frequenza: il ritardo con cui il suono verr percepito dipende dalla sua frequenza in quanto la
lunghezza donda inversamente proporzionale ad essa. Ad esempio, nel caso di un suono con
frequenza elevata (che quindi vibra con maggiore velocit) la lunghezza donda sar ridotta e il suono
verr percepito prima rispetto ad un suono avente frequenza inferiore (che vibra cio ad una velocit
minore) e la cui lunghezza donda maggiore. Semplificando ulteriormente, possiamo dire che i suoni acuti
viaggiano in un mezzo con velocit maggiori rispetto ai suoni gravi.
12
Il parametro percettivo che meglio corrisponde alla rappresentazione grafica della forma donda il timbro.
13
Definito anche spettrogramma o spettro a righe.
14
Prendendo ad esempio gli strumenti musicali, va fatto notare come nessuno strumento emetta una singola
frequenza. Quando uno strumento emette, per esempio, un la, corrispondente a 440 Hz, emette in realt
molte altre frequenze multiple della frequenza fondamentale, note come armoniche (880, 1320, e 1760
Hz ad esempio). proprio la diversa distribuzione di queste frequenze, nonch la loro differente intensit,
che distingue il la prodotto da un violino da quello prodotto da un piano. La frequenza centrale, cio
larmonica fondamentale, sia per il violino che per il piano sempre 440 Hz. La stessa cosa accade per
le vocali su cui ritorneremo pi approfonditamente nel prosieguo: la diversificazione delle vocali da un
punto di vista acustico-percettivo non dipende solo da una singola formante, ma dallinsieme di tutti i
valori formantici e dalla configurazione spettrale degli stessi. Mentre le armoniche sono per
definizione multipli interi della frequenza fondamentale, le formanti lo sono raramente, ovvero solo in
quei casi in cui il rafforzamento avviene in corrispondenza di una singola armonica. Per chiarezza,
anticipiamo che la frequenza delle formanti differente dalla F poich dipende strettamente dalle cavit
dellapparato fonatorio, o meglio, dalle cavit che stanno al di sopra della glottide. Le cavit soprastanti la
glottide hanno quindi funzione di filtri o di casse di risonanza che risuonano a determinate frequenze che,
rafforzando una serie di armoniche danno origine a quelle che nel parlato vengono definite formanti.
15
Con il sonogramma infatti possibile studiare levoluzione delle frequenze nel tempo, mentre con
loscillogramma lenergia.
16
Non a caso, tali organi sono comuni anche ad altri animali, solo che gli esseri umani, nel corso della
loro evoluzione rispetto ad altre specie, hanno impiegato vecchie e preesistenti strutture per
assolvere ad una nuova funzione.
17
Il termine egressivo viene utilizzato in contrapposizione al flusso daria detto ingressivo la cui direzione
va, invece, dallesterno verso linterno.
18
Figura tratta ed adattata da http://www.yorku.ca/earmstro/journey/larynx.html
19
La frequenza con cui queste vibrano misurabile e viene definita frequenza fondamentale.
20
Figura adattata da Mioni (1986), pag. 71. La parte contrassegnata da colore scuro rappresenta il canale di
passaggio del flusso daria proveniente dal meccanismo pneumatico.
21
Per questa ragione queste strutture vengono a pieno titolo considerate come dei filtri o dei risuonatori.
22
Per maggiori approfondimenti si rimanda a Whiteside (1996), Helfrich (1979), Braun (1995) e N Chasaide,
Gobl (1997).
23
Solo nel caso di un tono puro la frequenza formante coincide con larmonica principale.
24
Mentre le armoniche sono per definizione multipli interi della frequenza fondamentale, le formanti lo sono
raramente, ovvero solo in quei casi in cui il rafforzamento avviene in corrispondenza di una singola
armonica.
25
Figura tratta ed adattata da Ferrero et al. (1979).
26
Generalmente indicata con F1 , F2 , F3 e cosi via.
27
La teoria proposta da Fant anche nota come teoria sorgente-filtro in quanto la parola vista come il
prodotto delle modifiche apportate al segnale - relativamente indifferenziato - emesso da una
sorgente di suono, ad opera di un determinato filtro acustico complesso. Cfr. Ferrero et al.
(1979), pag. 69.
28
Cfr. ibidem, pp. 6974. Le donne hanno generalmente un tratto vocale meno esteso, di conseguenza frequenze
formantiche pi alte. Vedi a questo proposito Diehl, Lindblom, Hoemeke, Fahey (1996).
29
Fonte: http://hyperphysics.phy.astr.gsu.edu/HBASE/music/fant.html (data consultazione: 18 novembre
2009).
30
Le transizioni formantiche consistono in deviazioni nella struttura formantica visibili su un tracciato
sonografico e rappresentano la variazione della conformazione del condotto vocale dovuta al movimento
degli articolatori mobili.
31
Per una descrizione completa e pi dettagliata di tali elementi consonantici, sia livello articolatorio
che acustico, si veda Albano Leoni, F., Maturi, P. (2002), Manuale di Fonetica, Roma, Carocci
Editore. A livello grafico tutti i suoni del linguaggio vengono rappresentati con un apposito alfabeto,
lInternational Phonetic Alphabet (IPA): lIPA un alfabeto fonetico internazionale utilizzato per la
trascrizione fonetica che, per convenzione, consente di attribuire in modo univoco uno specifico segno
grafico a ciascun suono del linguaggio, risolvendo quelle che sono le differenze tra la comune grafia e i
suoni concretamente prodotti.
32
Anche in questo caso, come gi segnalato altrove in questo paragrafo, verranno di seguito forniti soltanto alcuni
accenni agli elementi pi salienti e generali utili a comprendere e a caratterizzare alcune differenze
legate alla produzione dei diversi foni consonantici. Per questa ragione, data la superficialit e
lincompletezza delle informazioni fornite, per una trattazione pi completa (che in questa sede si
renderebbe assai prolissa) si rimanda ai pi diffusi manuali didattici attualmente disponibili.
33
Quello del VOT un elemento molto diffuso e presente soprattutto in lingue come linglese e il tedesco con
caratteristiche di sistematicit. Nel tedesco pu accadere, infatti, che in una sequenza che inizia per
consonante sonora leffetto del VOT faccia s che lattivit laringea non inizi al costituirsi
dellostacolo (catastasi), ma inizi con ritardo provocando una parziale o totale desonorizzazione
della consonante stessa: per esempio nella parola Bein gamba [b en].
34
Per maggiori dettagli e approfondimenti si veda Ferrero, F. E., Magno Caldognetto, E. (1986), Elementi di
fonetica acustica, in Trattato di Foniatria e Logopedia, (L. Croatto, a cura di), Padova, La Garangola,
pp. 172178.
35
A titolo esemplificativo possiamo pensare alle lancette di un orologio in cui le stesse per passare da un punto
allaltro del quadrante percorrono in modo continuo lo spazio che le separa.
36
La mancata osservazione di questo teorema con un sottocampionamento del segnale analogico nel
dominio del tempo comporta, nel dominio delle frequenze, la produzione di frequenze spurie non proprie
del segnale originario (alias, da qui il fenomeno detto di aliasing).
37
Ad esempio, per ricostruire perfettamente un segnale audio con frequenze tra 0 e 22050 Hz, necessario
effettuare un campionamento a 44100 Hz (ovvero rilevare 44100 campioni al secondo); ci che si fa
per digitalizzare musica con estrema fedelt.
38
Mentre noi umani contiamo con 10 dita, il computer ne usa solo 2.
39
La codifica dei segnali intercettati su linea telefonica fissa a commutazione di circuito avviene proprio con
codifica ALaw basata su PCM con una frequenza di campionamento pari a 8 kHz e 8 bit di
quantizzazione. Esiste anche un altro tipo di codifica molto simile al metodo ALaw, la codifica
muLaw, diffusa negli USA. Entrambe sono anche note come codifica G.711 che rappresenta uno
standard ITU (International Telecommunication Union), ovvero il settore della Unione
Internazionale delle Telecomunicazioni che regola e fornisce raccomandazioni sulle telecomunicazioni
telefoniche e telegrafiche. Fino al 1992 lITU era noto come CCITT (Comit consultatif
international tlphonique et tlgraphique) sigla che caratterizza anche la codifica dei file audio: ad
es. CCITT ALaw.
40
Registrare 60 secondi di audio stereofonico richiede quindi 10584000 bytes (pari a 10.584 MB) di spazio
disponibile su un supporto di registrazione (hard disk o CDROM).
41
Integrated Services Digital Network, o ISDN, lattuale rete fissa di telecomunicazione che trasmette in
formato digitale e che fornisce supporto a servizi di voce e di trasferimento dati. La rete fissa di tipo
analogico tradizionale era invece chiamata Public Switched Telephone Network (PSTN).
42
possibile quindi che vengano eliminate componenti spettrali che, essendo troppo vicine a suoni forti,
non risultano udibili allorecchio umano.
43
Un esempio oramai ampiamente diffuso quello dellMp3 a cui accenneremo pi avanti.
44
http://www.etsi.org
45
http://www.iso.org
46
http://www.ansi.org
47
http://www.aes.org
48
http://www.itu.int
49
Le aziende operanti nel settore delle intercettazioni nel fornire gli impianti forniscono anche i software per la
gestione dei bersagli (termine tecnico che indica le utenze sottoposte a intercettazione) aventi per formati,
ovvero estensione dei file, di tipo chiuso e proprietario.
50
Gli encoder sono i programmi che eseguono questo tipo di codifica e sono denominati Mp3 encoder.
51
Ad esempio un segnale sonoro di 5 minuti che in formato *.wav occupa circa 50 MB pu essere ridotto a soli 4
MB.
52
Il formato comunque pi diffuso il formato Mp3. Per quanto riguarda la possibilit di leggere formati
proprietari cambiando lestensione troviamo estensioni come MCR (della ditta AREA S.p.A.) che di
fatto contiene il segnale audio codificato in formato ALaw.
53
Purtroppo in molti casi, come vedremo ad esempio nelle intercettazioni di colloqui tra presenti in
carcere, la sovrapposizione delle voci un fatto addirittura volontario (come pure quello
dellintroduzione di rumori o disturbi) al fine di rendere inintelligibile il contenuto delle conversazioni tra
detenuto e familiari dello stesso.
54
Anche se, come vedremo pi avanti, la questione non sempre cos semplice (si veda ad es. il caso
del MiniDisc che nonostante operi una registrazione su supporto digitale applica in fase di incisione
una compressione di tipo lossy).
55
Il procedimento che sta alla base della registrazione analogica su un supporto analogico
relativamente semplice. I suoni, catturati da un microfono, arrivano alla testina di registrazione composta da
unelettrocalamita: si tratta di un componente elettromagnetico composto da una piccolissima
bobina avvolta su un anello in metallo amagnetico, il quale presenta una sottilissima fessura, detta traferro,
che il punto esatto in cui avviene la magnetizzazione del nastro che viene fatto scorrere davanti ed aderente
ad esso. Il nastro passando davanti al traferro si magnetizza in rapporto al flusso di corrente indotto dalla
testina di registrazione sotto forma di campo magnetico: le particelle chimiche del nastro vengono cos
orientate in funzione dellampiezza e della frequenza del segnale indotto dal campo magnetico. Il nastro
di norma composto da una base plastica ricoperta da uno strato di materiale ferromagnetico (composto da
ossido di ferro nel maggior parte dei casi). La magnetizzazione del nastro possibile grazie alla
propriet e alla capacit che tali materiali hanno di mantenere una magnetizzazione se sottoposti ad
un campo magnetico esterno. Per la riproduzione, invece, il nastro magnetizzato viene fatto passare
nellintraferro di un altro elettromagnete, detto testina di riproduzione, che modulando le variazioni di
corrente, opportunamente amplificate, vengono inviate ad un altoparlante. Solitamente presente una terza
testina che ha il compito di cancellare il nastro nellistante del procedimento di registrazione. La
testina di cancellazione precede quella di registrazione e, attraverso una corrente detta di
premagnetizzazione ristabilisce eventuali orientamenti magnetici preesistenti cancellando eventuali
vecchie registrazioni contenute nel nastro.
56
Tuttavia, ancora oggi vengono conferiti incarichi peritali aventi come oggetto conversazioni da
trascrivere o da analizzare registrate su bobine.
57
Loperazione di stampa di tale striscetta resa possibile grazie ad una piccolissima stampante termica
integrata nel registratore.
58
Il brogliaccio non altro che un verbale, anchesso cartaceo, a firma delloperatore di PG addetto e
responsabile del turno e del servizio di intercettazione. Su di esso veniva annotato quanto accadeva
durante le operazioni di ascolto: oltre alle informazioni riportate anche sulla striscetta loperatore
di PG riportava una trascrizione sommaria della comunicazione ascoltata ed eventuali segnalazioni
utili a fini investigativi. Questa operazione ancora valida, sebbene il tutto venga oggi gestito sotto
forma di informazioni digitali strutturate in un database relazionale.
59
1 pollice corrisponde a 2.54 centimetri.
60
Lavvolgimento del nastro su una bobina aperta espone lo stesso ad una serie di rischi. Se si considera che il
nastro va posizionato manualmente nel registratore facendolo passare tra le testine di lettura/scrittura e
avvolgendolo su unaltra bobina, la pi diretta conseguenza di incauto maneggiare quella dello
srotolamento e laggrovigliamento del nastro con effetti a dir poco disastrosi.
61
Ad una maggior velocit del nastro corrisponde, infatti, una maggiore qualit della registrazione: nel primo caso
ci si pu permettere, per cos dire, una perdita di qualit scrivendo, ad esempio, un secondo di
registrazione su 2.38 cm di nastro; al contrario, nel secondo caso, si preferisce scrivere la stessa quantit
di registrazione su una porzione doppia di nastro per guadagnarne in termini di dettaglio e qualit (il
concetto equiparabile a quello pi sopra riportato riguardo il numero di bit usati nel processo di
quantizzazione di un segnale ).
62
Fattore che lo rende particolarmente sensibile a rotture accidentali e sbalzi di tipo termico.
63
La International Electrotechnical Commission (IEC) unorganizzazione not-for-profit e non-
governativa fondata nel 1906 e si prefigge di fornire standard e valutazioni di conformit internazionali nel
campo delle tecnologie elettriche ed elettroniche ed ambiti correlati (cfr. http://www.iec.ch/).
64
Venivano e vengono ancora oggi utilizzate anche per la registrazione di interrogatori di testimoni e
indagati ad opera degli inquirenti, ma anche ad opera di privati cittadini per la registrazione di
telefonate minatorie in arrivo sul proprio telefono.
65
Nei casi che spesso si verificano, in cui la registrazione stata effettuata occultando il registratore allinterno di
borse o tasche di indumenti, questa risulta ancora pi degradata: la membrana del microfono
incorporato venendo a contatto con superfici estranee rileva e introduce nel segnale rumori da frizione
rendendo la registrazione ovattata.
66
Si tratta nella maggior parte dei casi di registrazioni ad opera di privati cittadini e quindi non contemplate in
quelle che Nazzaro (2010) definisce intercettazioni legali. Va tuttavia detto che in passato non era
insolito il ricorso da parte dellautorit giudiziaria a questa tipologia di registrazione, come ad
esempio nel caso di intercettazioni effettuate con lausilio di un informatore (munito di registratore)
presente ad un incontro sottoposto a sorveglianza. In questultimo caso il miglioramento delle
tecniche di trasmissione dei segnali e la disponibilit delle microspie ha di fatto soppiantato questo modo di
procedere per evidenti ragioni di praticit e sicurezza, soprattutto per linformatore.
67
A differenza dei supporti digitali, esiste per i supporti analogici un unico formato di registrazione e i nastri e le
cassette sono perci sempre compatibili con qualsiasi registratore, a prescindere da marca e modello.
68
Ci vero soprattutto per le bobine aperte che ad ogni riproduzione richiedono lintervento
delloperatore che, come detto, la deve posizionare sullapparato facendo passare il nastro attraverso le
testine di lettura dello stesso avviando manualmente lavvolgimento del nastro sulla spira vuota:
unoperazione che richiede sicuramente una certa esperienza affiancata ad una buona abilit manuale.
69
Tra le principali aziende attive in questo settore ricordiamo a titolo esemplificativo la gi menzionata Radio Trevisan
S.p.A. (http://www.radiotrevisan.com), la SIO S.p.A. (http://www.siospa.it/ita/index.php), la AREA
S.p.A. (http://www.area.it/), la RCS S.p.A. (http://www.rcslab.it/it/index.html), la INNOVA S.r.l.
(http://www.innovatrieste.it/) e diverse altre.
70
Spesso le informazioni sul sistema che ha generato la registrazione non vengono fornite o non sono del tutto
evidenti sicch, se il supporto proviene da un sistema RT6000 lo stesso sar illeggibile ad un sistema
DREC e viceversa.
71
Viene qui usato il termine archiviare in quanto la registrazione avviene nelle moderne
apparecchiature direttamente su disco rigido.
72
Il MiniDisc stato introdotto nel 1992 dalla Sony.
73
Questo perch non tutti gli apparecchi, soprattutto i primi e quelli di basso profilo, consentono di trasferire il
segnale in formato digitale con uscite dedicate.
74
Per le registrazioni analogiche, invece, il problema della copia solo un problema tecnico.
75
Quando la testina di registrazione e/o di cancellazione si avvicina o si allontana dal nastro, quindi
prima o dopo aver raggiunto la perfetta aderenza ad esso, questa produce dei campi magnetici che vengono
trasmessi al nastro sotto forma di bruschi impulsi aventi una escursione e una durata identificabile e
misurabile. Lispezione del nastro alla ricerca di eventuali manomissioni, o dei fenomeni appena descritti,
possibile con opportune tecniche di visualizzazione dei campi magnetici presenti sul nastro o
attraverso lanalisi della forma donda del segnale dopo aver digitalizzato la registrazione.
76
Per maggiori dettagli e per un approfondimento sulla firma digitale che possibile apporre ai segnali sonori e
sulle possibili soluzioni in tale ambito si rimanda a Romito, L., Tucci, M., Cavarretta, G. A. (2008),
Verso un formato standard nelle intercettazioni: archiviazione, conservazione, consultazione e validit
giuridica della registrazione sonora, AIDAinformazioni, Vol. 26, n. 1-2, pp. 149-164.
77
Solitamente gli impianti sono collocati presso le sale di ascolto situate allinterno degli uffici della Procura
che ne ha ordinato lattuazione.
78
Con il termine registrazione viene anche contemplato il procedimento di archiviazione delle
comunicazioni intercettate.
79
GSM lacronimo di Global System for Mobile Communications (in principio la sigla significava Groupe
spcial mobile), e rappresenta lo standard 2G (di seconda generazione) di telefonia mobile cellulare ed
attualmente il pi diffuso al mondo.
80
UMTS lacronimo di Universal Mobile Telecommunications System, e rappresenta lo standard di
telefonia mobile cellulare 3G (di terza generazione), evoluzione del GSM.
81
Va evidenziato, inoltre, che raramente si assiste a cadute di segnale o a disturbi nel canale di
trasmissione in una intercettazione di telecomunicazioni in cui entrambi gli interlocutori chiamano
da un apparecchio collegato alla rete telefonica fissa; al contrario, se uno degli interlocutori chiama da rete
mobile allora i disturbi nel canale di trasmissione aumentano cos come le interferenze, le cadute di
segnale e le alterazioni di segnale dovute ad una cattiva ricezione del apparecchio utilizzato o ad
una scarsa copertura di rete nella zona in cui si trova il chiamante/ricevente da rete mobile.
82
http://www.etsi.org/WebSite/Technologies/LawfulInterception.aspx
83
http://www.3gpp.org/SA3Security
84
Per una descrizione pi dettagliata ed esaustiva del predetto modello di riferimento rimandiamo il lettore al
secondo capitolo del recente volume di Nazzaro (2010).
85
Queste non rientrano per nelle intercettazioni di tipo legale.
86
Tra gli operatori di polizia il traslatore veniva anche chiamato borchia.
87
Lo scopo del sistema telefonico tradizionale su rete fissa PSTN (Public Switched Telephone Network)
era ed quello di stabilire e mantenere una comunicazione audio tra due punti A e B,
chiamante e ricevente.
88
Il codice IMSI ha una lunghezza massima di 15 cifre: 3 identificano il Mobile Country Code (MCC),
ovvero il prefisso internazionale che identifica la nazione di appartenenza (lItalia ha codice 222); 2 o 3
cifre indicano il Mobile Network Code (MNC), ovvero il codice che identifica la rete radiomobile
nella nazione individuata dal MCC); e un massimo di 10 cifre indicano lutente allinterno della rete del
proprio operatore attraverso il Mobile Subscriber Identification Number (MSIN).
89
Nel caso di unautovettura, sebbene un modello comune possa ospitare fino a cinque occupanti, non da
escludere che possa intervenire uno scambio degli interlocutori dovuto a persone che scendono
dallautovettura e altre che salgono, o persone che si avvicinano alla macchina momentaneamente
ferma, o si pensi ancora a persone che si incontrano nei pressi dellautovettura intercettata (la casistica
naturalmente molto ampia e variegata).
90
Analogo discorso vale anche per abitazioni private o altri luoghi sottoposti a controllo come uffici o
celle che ospitano i detenuti nelle carceri.
91
Spesso viene associato anche un sistema di rilevamento della posizione terrestre attraverso sistemi GPS (Global
Positioning System) per documentare gli spostamenti effettuati dal soggetto intercettato.
92
Si tratta in poche parole di un cellulare senza tutti gli accessori e le applicazioni che siamo abituati ad
avere sui nostri apparecchi.
93
Nel caso di luoghi chiusi diversi dai veicoli, come ad es. case o uffici, troviamo solo il secondo tipo di
sensore di attivazione della registrazione.
94
Si tratta di un sistema di codifica di codici numerici sotto forma di segnali sonori: ad ogni numero sulla tastiera
del telefono corrisponde un segnale sonoro costituito dalla trasmissione contemporanea di due toni aventi
frequenze diverse (da qui multifrequenza).
95
Nei luoghi chiusi questi disturbi possono essere individuati ad es. in un televisore acceso che
trasmette ci che va in onda al momento, scarichi di acqua, rumori da cantiere ecc.
96
In genere i colloqui in carcere, e quindi lintercettazione degli stessi, hanno una durata che non quasi
mai inferiore ad unora.
97
Questa tipologia di intercettazione presenta pi delle altre quello che pi sopra abbiamo definito come effetto
cocktail party.
98
Se da un lato la disponibilit di una sequenza videoregistrata comporta una serie di vantaggi, come ad
esempio nellidentificare gli interlocutori, un inconveniente di non poco conto pu essere dato
dallassenza di informazioni sul sistema di acquisizione che ha generato la registrazione: si vedano a
tal proposito le osservazioni fatte pi sopra per i supporti analogici o per la codifica dei file nel caso di
supporti digitali che per quel che concerne la parte audio valgono anche nel presente caso.
99
Per certi aspetti, per la qualit della registrazione e per le modalit adottate per la sua creazione, la si pu
tranquillamente equiparare ad una registrazione di tipo amatoriale.
100
Spesso il mondo ci presenta pi suoni contemporaneamente. Il nostro cervello automaticamente si assume il
compito di distinguerli e di concentrare lattenzione su quelli di maggiore importanza.
101
Righini P., Righini G. U., Il suono, Milano, Tamburini Ed., 1974, pag. 121.
102
In prossimit di ogni conduttore in cui scorre corrente presente un campo magnetico
proporzionale alla corrente stessa.
103
Vedi a questo proposito Cosi P., Il restauro digitale del segnale audio, in La voce come bene culturale,
edited by A. De Dominicis, Carocci Editore, Roma 2002, pp. 189199.
104
Abbiamo gi accennato al fatto che le onde complesse, quelle presenti nella vita di tutti i giorni, siano il
risultato della somma algebrica di due o pi segnali sinusoidali, ciascuno di data frequenza ed intensit, e
di come alle caratteristiche acustiche del segnale di interesse per il trascrittore si aggiungano
(spalmandosi) le caratteristiche di una serie di fenomeni e disturbi compresenti.
105
Ricordiamo ancora una volta che non sempre un segnale filtrato che si presenta di buona qualit allascolto (e
quindi gradevole e intelligibile) lo sia anche a livello spettrale per le ragioni che abbiamo gi
esposto.
106
La produzione dei suoni del linguaggio avviene attraverso una serie di casse di risonanza allinterno del
nostro apparato fonatorio (come cavit orale e nasale) che possono essere considerate filtri.
107
Il telefono, o meglio la linea telefonica, per trasmettere il segnale della nostra conversazione opera un processo di
filtraggio passabanda limitando il passaggio alle sole frequenze comprese tra i 300 e i 3400 Hz.
108
Ritorneremo sul concetto di saturazione pi avanti.
109
Per rendere ancora meglio lidea possiamo anche pensare ai click dovuti alla pressione dei pulsanti del
mouse o di tasti in genere
110
In termini tecnici si dice che va in overdrive.
111
I picchi dellonda sonora vengono appiattiti: per intenderci e per dare unidea di ci che accade, come
se tagliassimo o limassimo i denti appuntiti di una sega trasformandoli in punte quadre.
5.6. Bibliografia
Albano Leoni F., Maturi P., Manuale di Fonetica, Roma, Carocci Editore, 2002.
Aprile E., Spiezia F., Le intercettazioni telefoniche ed ambientali, Giuffr Editore, 2004.
Aristotele, Problemi, Milano, Bompiani, 2002.
Braun A., Fundamental frequency how speakerspecific is it?, in A. Braun, J. P. Koster
(eds.), Studies in Forensic Phonetics, Trier, Wissenschaftlicher Verlag Trier, pp. 923,
1995.
Canazza S., Restauro Materiale Audio, disponibile on-line allindirizzo http://www-dsp.
elet.polimi.it/ispg/images/pdf/audio/materiale/restauro_canazza.pdf, 1998.
Cosi P., Semplici considerazioni sulle tecniche di restauro del segnale vocale, in Pro-
ceedings XII Giornate di Studio del G.F.S., Macerata, Italy, December 13-15, 2001,
pp. 263-266, 2001.
Cosi, P., Il restauro digitale del segnale audio, in La voce come bene culturale, a cura di
De Dominicis A., pp. 189199, Carocci Editore, Roma, 2002.
Diehl R.L., Lindblom B., Hoemeke K.A., Fahey R. P., On explaining certain malefemale
differences in the phonetic realization of vowel categories, Journal of Phonetics, 24:
187208, 1996.
Fant G., Acoustic theory of speech production, Mouton, The Hague, 1960.
Ferrero, F., Genre A., Boe L.J., Contini M., Nozioni di Fonetica Acustica, Torino, Ed.
Omega, 1979.
Ferrero F.E., Magno Caldognetto E., Elementi di fonetica acustica, in Trattato di Fonia-
tria e Logopedia, (L. Croatto, a cura di), pp. 155196, Padova, La Garangola, 1996.
Helfrich H., Age markers in speech, in K. Scherer, H. Giles (eds.), Social markers in spe-
ech, pp. 63107, Cambridge, Cambridge University Press, 1979.
Nazzaro G., Le intercettazioni sulle reti cellulari, Mattioli 1885, Fidenza, 2010.
N Chasaide A., Gobl C., Voice source variation, in W. J. Hardcastle, J. Laver (eds.). The
Handbook of Phonetic Sciences, pp. 427461, Oxford, Blackwell,1997.
Paoloni A., Zavattaro, D., Intercettazioni telefoniche e ambientali. Metodi, limiti e svi-
luppi nella trascrizione e verbalizzazione, Centro Scientifico Editore, 2007.
Petrizzelli S., Appunti di reti di telecomunicazioni: cenni alla rete GSM, disponibile on
line allindirizzo http://users.libero.it/sandry/UMTS/sistemaGSM.pdf, 2000.
Righini P., Righini G.U., Il suono, Milano, Tamburini Ed., 1974.
Romito L., Manuale di Fonetica articolatoria, acustica e forense, Universit degli Studi
della Calabria, Centro Editoriale e Librario, 2000.
Romito L., Le intercettazioni, in Cultura della Legalit, Caligiuri M. (a cura di), Vol.
2, pp. 207217, Centro di Documentazione Scientifica sullintelligence, Rubettino
Editore, 2010.
Romito L., Scullari V., Un protocollo delle procedure di restauro allinterno dellArchi-
vio sonoro calabrese. Atti del 4 Convegno AISV, Cosenza Universit della Cala-
bria, 35 dicembre, 2007, (a cura di) Romito L., Lio R., Galat V., Torriana (RN),
EDK Editore, Vol. 4, pp. 560574, 2009.
Romito L., Tucci M. (2009), Verso un formato standard nelle intercettazioni e una pro-
posta per larchiviazione e la conservazione delle registrazioni. Atti del 4 Convegno
AISV, Cosenza Universit della Calabria, 35 dicembre, 2007, (a cura di) Romito
L., Lio R., Galat V., Torriana (RN), EDK Editore, Vol. 4, pp. 621631, 2009.
Romito L., Tucci M., Cavarretta G.A., Verso un formato standard nelle intercettazioni:
archiviazione, conservazione, consultazione e validit giuridica della registrazione
sonora, AIDAinformazioni, Vol. 26, n. 12, pp. 149164, 2008.
Rugo M., Intercettazioni e Microspie, Linvestigazione Elettronica e lOperazione Tec-
nica di Polizia Giudiziaria, Pisa, Il Campano, 2009.
Whiteside S.P., Temporalbased acousticphonetic patterns in read speech: some evi-
dence for speaker sex differences, Journal of the International Phonetic Association,
26(1): 23-40, 1996.
6. La Linguistica Forense
Luciano Romito
Laboratorio di Fonetica, Universit della Calabria
6.1. Introduzione
La linguistica forense una disciplina recente che attiene alla Linguistica Generale,
in particolare alla Linguistica Applicata1, e alle scienze forensi in genere. Oggi una
disciplina con una propria autonomia sia metodologica che procedurale 2 e si occupa di
ogni testo scritto, registrato o anche solo prodotto oralmente, che sia in qualche modo
coinvolto in un procedimento legale, penale o in un contesto criminale: literally any
test is somehow implicated in a legal or criminal context then it is a forensic text []
(J. Ollson 1996: 1 e 2004).
Lesperto di Linguistica Forense dovendo analizzare un parlato spontaneo registrato
deve possedere competenze in ambiti e discipline diverse che oscillano dalla lingui-
stica alla psicologia e dallinformatica allanalisi del segnale3. Tra queste rientrano la
Fonetica e la Fonologia necessarie per lo studio del sistema articolatorio dei suoni del
linguaggio umano, dellinventario dei suoni di una lingua o di un dialetto e delle regole
che governano gli aggiustamenti e i cambiamenti che avvengono nel parlato sponta-
neo4; la Morfologia per lo studio delle unit minime della lingua dotate di un signi-
ficato, lorganizzazione e lo studio della struttura interna della parola; la Sintassi per
le regole che governano la struttura interna delle frasi, come ed in che modo le parole
possono combinarsi per creare frasi che abbiano un significato e che siano linguistica-
mente accettabili; la Semantica, per lo studio del significato, le relazioni di significato
tra le parole e il complesso studio del significato frasale frutto di reinterpretazione5;
1
La Linguistica Applicata lapplicazione delle conoscenze della linguistica generale in uno spe-
cifico ambito. Si veda ad esempio la glottodidattica nellambito dellinsegnamento o la logopedia a fini
riabilitativi. proprio secondo questa indicazione che possibile inserire la Linguistica Forense nel
novero della Linguistica Applicata.
2
G. McMenamin, 2002.
3
Chaski C. and A. Daubert, 1998, 2001a e 2001b.
4
In un recente caso giudiziario la mancata competenza di linguistica, di fonetica e fonologia da
parte del consulente del Pubblico Ministero ha portato a confondere una registrazione di spagnolo sud
americano con uno spagnolo iberico e al conseguente arresto di un innocente (p.p. 10061/11, nei con-
fronti di Oscar Sanchez, Corte di Appello, 7^ Sezione Penale, Tribunale di Napoli).
5
Vedi esempi tipo ma sei fuori come un balcone?
la Pragmatica per luso reale della lingua nelle normali conversazioni, e in tutti i
tipi di interazioni e di dialogo6; la Linguistica Storica per lo studio evolutivo di una
lingua, come e quali sono i cambiamenti possibili e prevedibili, quali le regole per
una corretta conversazione; la Sociolinguistica, per la lingua usata dalle comunit di
parlanti, lo studio delle variabili della lingua in relazione a differenze di religione, di
classe sociale e culturale, di livelli di istruzione, di sesso, di luogo di residenza (citt
versus campagna, montagna versus mare), linterazione e linterferenza tra lingue di-
verse e tra lingua e dialetto, le produzioni mistilingue; la Dialettologia, per la corretta
identificazione dei dialetti, le variabili dialettali locali e regionali e il loro confine,
lidentificazione di isoglosse7 o di isofone8; la Dialettometria, per studiare le distanze
tra dialetti e le loro regolarit interne9; la Psicolinguistica, per comprendere come il
sistema psicologico e mentale processa il linguaggio umano; la Neurolinguistica, per
la conoscenza del sistema nervoso delluomo e il funzionamento neuroanatomico del
cervello; la Linguistica Computazionale o Informatica, per la conoscenza di software
e tools che aiutano lesperto nellanalisi della lingua e nello studio e approfondimento
di alcune performance di singoli parlanti; la Statistica, per analizzare i risultati di una
analisi linguistica, descrivere i fenomeni e fornire risposte oggettive; la Fonetica Acu-
stica e il Signal analysis per analizzare il segnale sonoro acusticamente e individuare
tratti caratteristici, per filtrare segnali rumorosi, per identificare parlatori anonimi, per
supportare la trascrizione di particolari segnali sonori registrati e di bassa qualit; e,
infine, anche il Diritto, per agire nel rispetto delle regole processuali e dibattimentali
e nel rispetto delle parti in gioco.
La definizione presente nella Linguistics Encyclopedia riporta che la Linguistica Fo-
rense collabora con la giustizia rispondendo a tre domande: cosa dice il testo, cosa signi-
fica e chi lo ha scritto10 confermando linteresse iniziale per i testi scritti. Il primo studio
infatti risale a Bryant nel 1930 e tratta della funzione delle parole nel linguaggio legale.
Nel 1960 Wetter pubblica un interessante lavoro sullo stile linguistico e sui i significati
intrinseci delle sentenze scritte dai Giudici. Il lavoro di Danet del 1980 verte, invece, sul
linguaggio della controversia e della discussione in aula di Tribunale e presto diventa
un vero caposaldo per le arringhe, mentre Levi nel 1982 pubblica la prima bibliografia
ragionata sullargomento segno che le ricerche di Linguistica Forense sono, almeno in
Gran Bretagna e negli Stati Uniti, aumentate esponenzialmente.
La Linguistica Forense viene fattivamente utilizzata in unaula di Tribunale,
come strumento di ricerca della prova, per la prima volta nel 1968, quando Jan Svar-
tvik pubblicando The statements: a case for Forensic Linguistic11 dimostra come
uno stile grammaticale pu essere misurato e diventare prova in un caso giudiziario.
Grazie alle sue analisi linguistiche, infatti, Timothy Evans viene scagionato dalle
accuse per lomicidio della propria moglie. Questo caso giudiziario, e soprattutto la
pubblicazione di Svartvik, ufficializzarono di fatto la nascita della nuova disciplina
che giunse alla ribalta del mondo intero con larresto di UnAbomber nel 1996 in un
bosco del Montana. UnAbomber12 aveva inviato un manifesto contro la societ in-
dustriale e capitalistica ad alcuni importanti quotidiani americani (obbligandone la
pubblicazione a fronte di una minaccia di un nuovo attentato). Un lettore leggendo
larticolo si accorse che molte espressioni utilizzate dallo scrivente anonimo erano le
stesse di quelle utilizzate dal proprio fratello Theodore Kaczynski. Questa scoperta
lo turb molto e dopo alcuni tentennamenti rifer i suoi dubbi ad alcuni agenti della
FBI. Vista limportanza del caso e lattenzione dei Media, il processo vide da una
parte il perito della difesa Robin Lakoff dellUniversit di Berkeley e per quanto
riguarda laccusa invece lincarico fu affidato a Donald Foster 13 professore di Lette-
ratura alla Vassar University of New York. Il processo si concluse con la condanna
di UnAbomber e con linaspettata scoperta della Linguistica Forense. Foster riusc a
dimostrare alla giuria che oltre al DNA, ai proiettili e alle impronte digitali, anche le
parole e il loro uso possono identificare, o essere daiuto ad identificare, lautore di un
crimine. Lopinione pubblica rimase affascinata da queste nuove teorie e ci stimol
molti linguisti a pubblicare idee e opinioni nuove. Coulthard basandosi sul processo
UnAbomber scrisse Author Identification, Idiolect and Linguistic Uniqueness, che
fu pubblicato, non per caso, sulla rivista di Linguistica Applicata Americana (Applied
Linguistics) nel 200414.
Le prime identificazioni sono, quindi, avvenute sui testi scritti. Tale specializzazione
oggi ha un approccio di tipo quantitativo e uno di tipo qualitativo. Nel primo si utiliz-
zano metodiche statistiche, si calcolano gli indici di stile attraverso la stilometria, si
calcola lindice di leggibilit, lindice di lunghezza della frase, la frequenza delle parole
utilizzate, la ricchezza lessicale ecc. mentre nel secondo si utilizzano metodi basati sulla
struttura sintattica, sulla punteggiatura e soprattutto sullanalisi degli errori di gramma-
tica e di ortografia.
Da allora, sempre pi spesso, esperti linguisti e fonetisti hanno collaborato con la
giustizia in tutte le indagini che riguardano voci registrate o testi scritti.
Sullonda di questo entusiasmo, come spesso accade, molti lavori furono pub-
blicati, molte ricerche finanziate e soprattutto venne riposta molta fiducia, anche a
livello istituzionale, a questa nuova scienza. Si inizi a parlare di DNA linguistico,
di idioletto15 e in correlazione con la tecnica del Fingerprint 16, Kersta scrisse per
la prima volta che possibile rilevare un Voiceprint17 di una persona: Voiceprint
identification is a method by which people can be identified from a spectrographic
examination of their voice. Closely analogous to fingerprint identification, which uses
the unique features found in peoples fingerprints, voiceprint identification uses the
unique features found in their utterances (Kersta 1962). Lidea viene riportata anche
da Nash18, As each one of the ridges of your fingers or on the palm of your hand
differ from each other, so do all of the other parts of your body. They are unique to
you including your voice mechanism. Linteresse e lattenzione fu tale che si svi-
lupparono addirittura due diversi protocolli, il primo fu realizzato da VIAAS19 (Voice
Identification and Acoustic Analysis SubCommittee) della International Association
for Identification e il secondo proprio dalla FBI20.
In Hollien21 si pu leggere che almeno fino al 1990 le Corti degli Stati Uniti dAmerica
accettarono, almeno il 50% delle volte, lutilizzo di tali protocolli nonostante Nolan22 gi
dal 1983 evidenziava i propri dubbi sullutilizzo dei voiceprints per lidentificazione del
parlante. Di fatto si dovette aspettare molto per ottenere la sentenza dello Stato della Cali-
fornia che recita: That the aural spectrographic analysis of the human voice for the pur-
poses of forensic identification has failed to find acceptability and reliability in the relevant
scientific community, and that therefore, there exists no foundation for its admissibility into
evidence in this hearing pursuant to the law of California. Quindi fino ad allora la capacit
espositiva e di convincimento di singoli professori universitari di linguistica ha dettato
legge nelle aule dei Tribunali Americani. Oggi, grazie anche alla sentenza della Suprema
corte USA nel caso Daubert versus Merrel Dow Pharmaceuticals Inc 1993, ogni nuova
teoria deve soddisfare i criteri di scientificit che sono: qualunque teoria o tecnica utiliz-
zata deve essere testata, pubblicata o sottomessa ad un peer review23; deve prevedere e
dichiarare il potenziale errore; e infine deve essere accettata in larga misura dalla comu-
nit scientifica24. Anche se la discussione sui metodi ancora molto aperta, soprattutto in
Italia, facile intuire che il XX secolo pu essere definito il periodo storico caratterizzato
dallincontro tra diverse competenze e discipline, il periodo che potremmo definire delle
interfacce. Insieme agli analisti informatici altamente specializzati in linguaggi macchi-
na e algoritmi, nascono categorie di esperti che creano sistemi operativi, interfacce tra
esperti e utenti. Questo vale in tutti i campi, compreso la Linguistica Generale che vede
il proliferare di specializzazioni come la Psicolinguistica, la Neurolinguistica, la Pato-
logia del Linguaggio e la Logopedia, la Psicoacustica ecc. La Linguistica Forense un
esempio di interfaccia e condivisione di competenze e metodi che attengono al Diritto,
alle scienze linguistiche e soprattutto a discipline una volta inconciliabili come la Fisica
Acustica, lAnalisi del Segnale, la Statistica, lInformatica, la Scienza delle Telecomuni-
cazione e addirittura la Filosofia del linguaggio.
Oggi, dopo 50 anni di proficua attivit, il consesso scientifico e la letteratura interna-
zionale specializzata tentano di differenziare i compiti della Linguistica Forense affidan-
do a questultima lo studio dei testi scritti e alla Fonetica Forense lo studio di produzioni
orali. Di fatto in Europa la divisione non cos netta. La International Association for
Forensic Phonetics and Acoustics (IAFPA), lassociazione europea che si occupa di voce
in ambito forense, ha nel suo nome la specifica della fonetica, ma di fatto composta
da linguisti e si occupa anche di testi scritti, di individuazione di lingue e dialetti25. In
Spagna la Sociedad Espaola de Acstica Forense riflette gi nel nome un aspetto pi
tecnico, ha tra le proprie finalit la divulgazione delle conoscenze scientifiche e tecniche
dellAcustica Forense intesa come branca della criminalistica. Anche in Francia lAFPC
(Association Francophone de la Comunication Parle) si occupa in generale della voce
in ambito forense, anche se lapproccio pi orientato verso le discipline umanistiche
e psicologiche. Oggi con levoluzione delle telecomunicazioni sempre pi probabile
trovarsi ad analizzare una voce registrata rispetto ad una dichiarazione scritta. Cionono-
stante, volendo enunciare i compiti della Linguistica Forense differenziandoli in base
alloggetto di studio, potremmo affermare che unanalisi testuale prevede: lo studio del
significato, anche sotto il profilo psicolinguistico; la corretta interpretazione linguistica
di statuti, regolamenti e contratti; la traduzione giurata e tutto ci che concerne lin-
terpretariato; lattribuzione di un testo e quindi lidentificazione dellautore; lauten-
ticazione di un testo, in relazione alle parole o costruzioni sintattiche e morfologiche
ricorrenti.
Le analisi possibili su una registrazione sonora riguardano lidentificazione di un
suono o di un rumore; la determinazione delloriginalit o della genuinit di un nastro,
di un supporto o di una registrazione in generale; il filtraggio del segnale vocale, la
riduzione del rumore presente o lenfatizzazione di una voce e in generale laumento
dellintelligibilit; lidentificazione di una voce modificata; la caratterizzazione del par-
lante; il confronto e la comparazione percettiva tra due voci; lidentificazione mediante
metodi oggettivi del parlante; la trascrizione di intercettazioni o registrazioni e lanalisi
del significato in relazione a registrazioni degradate e poco intelligibili e registrazioni
definite official recording, cio di ottima qualit.
La situazione italiana riguardo i compiti e lidentificazione delle discipline di riferi-
mento ancora oggi molto controversa. La Linguistica o la Fonetica Forense 26 non esiste
nellordinamento universitario e non presente in alcun corso di laurea o corso istitu-
zionale. Non possibile, quindi, stabilire se essa attiene alla Criminalistica, alle Scienze
Investigative o alla Linguistica Applicata e quindi alle Scienze Umane come negli altri
paesi. Inoltre lattivit scientifica in ambito accademico su tematiche legate alla Lin-
guistica Forense non riscontra un grande interesse. Non vengono finanziati progetti di
ricerca 27 o organizzati convegni scientifici specifici. Lentusiasmo registrato negli Stati
Uniti ed in Gran Bretagna agli albori, nel nostro paese, dopo una prima fiammata avuta
negli anni 70-80 andato via via scemando. Il primo, e ad oggi uno dei pochi convegni,
dal titolo Lidentificazione della persona per mezzo della voce, stato organizzato da un
fisico prestato alla Linguistica (Franco Ferrero) nel 1979 28. In quegli anni casi giudiziari
molto eclatanti come i sequestri di Lancia, di Getty e di Moro o la strage di Peteano,
richiamarono lattenzione di esperti americani, stimolando la discussione e la nascita di
un movimento di studiosi con competenze e background scientifici molto diversi tra loro
come Ingegneri delle Telecomunicazioni, Fisici Acustici, Linguisti, Dialettologi e anche
alcuni Musicisti avanguardisti. Ogni perizia era una vera e propria ricerca scientifica con
apporti provenienti da tutte le discipline accademiche 29 Si svilupparono tecniche e studi
di Natural Language Processing (NLP) allinterno delle facolt umanistiche con apporti
scientifici di linguisti, dialettologi e psicologi, mentre contemporaneamente, nelle fa-
colt di Ingegneria e di Fisica, si iniziarono le prime ricerche di speech processing. La
necessit di utilizzare modelli statistici per la valutazione dei dati prodotti da entrambi
i filoni di ricerca ha incentivato un humus scientifico molto produttivo e coinvolgente.
Alcuni linguisti hanno abbandonato associazioni storiche come la Societ di Linguistica
Italiana (SLI) o la Societ di Glottologia Italiana (SIG) per incontrarsi annualmente con
i propri colleghi Fisici e Ingegneri allinterno dei congressi annuali dellAssociazione
italiana di Acustica (AIA) promuovendo anche la nascita del Gruppo di Fonetica Speri-
mentale (GFS) 30.
La miopia delle istituzioni universitarie nel non ipotizzare corsi di studi volti allap-
profondimento sia dellNLP che dello Speech Processing con percorsi misti a cavallo tra
la Linguistica, la Psicologia, la Fisica e lInformatica, come anche linadeguatezza delle
commissioni preposte a finanziamenti per ricerche cos interdisciplinari, ha ricostituito
loriginaria divisione tra le scienze umane e quelle tecnologiche. Ne sono prova le com-
missioni di valutazione della ricerca proposte dalla riforma universitaria Gelmini che
non premiano linterdisciplinariet presentando al contrario una chiusura settoriale lega-
ta alle aree CUN 31 delimitate per Decreto (Area 10 in Scienze dellantichit, filologico-
letterarie e storico-artistiche dove trova collocazione anche la Glottologia e Linguistica
e invece Area 01 in Scienze matematiche e informatiche o 02 in Scienze fisiche dove tro-
vano collocazione la Fisica e lInformatica) o ai settori scientifico disciplinari nei quali
sono incardinati i concorsi per ricercatori e per professori e i progetti di ricerca 32. Una
specializzazione in Linguistica Forense costruita con un percorso didattico umanistico e
tecnologico non sarebbe spendibile in Italia n allinterno di una carriera universitaria o
di ricerca n in prospettive lavorative.
Oggi, vengono affidati esclusivamente incarichi di trascrizione di registrazioni e di
identificazione del parlatore anonimo (nulla viene richiesto riguardo ai testi scritti). I pe-
riti non collaborano pi tra loro e sono diplomati, ragionieri, ingegneri, linguisti, tecnici
del suono, medici ecc.33, mai uno stesso compito stato affidato a persone con percorsi
scientifici cos diversi tra loro. Tale calo di competenza dellesperto si accompagna ad un
aumento di competenza pseudo tecnica che trasforma una perizia nella mera applicazio-
ne di sequenze e passi procedurali privi di qualunque interpretazione o valutazione34. Ci
giustifica laffidamento da parte di giudici di incarichi peritali ad esperti fonici o esperti
del suono pi che ad esperti fonetisti, cio esperti dei suoni della lingua, rendendo, di
fatto, il perito non un esperto ma bens un supporto tecnico per il giudice.
6.2. Orale e scritto
Prima di addentrarci nel focus di questo capitolo, necessaria una premessa riguar-
do ai diversi codici comunicativi. di fondamentale importanza ribadire la sostanziale
differenza tra il codice orale, quello relativo alla lingua parlata e il codice scritto. Essi
sono governati da regole e procedure molto diverse tra loro. Trascrivere un parlato orale
significa tradurre, interpretando, un codice in un altro. In questo paragrafo, tratteremo
largomento linguisticamente, soffermandoci sulle caratteristiche e sulle differenze tra i
due diversi codici comunicativi, senza approfondire il concetto della trascrizione.
Il testo orale per sua definizione volatile, si fruisce nel momento stesso in cui
prodotto e non permanente (anche i latini riconoscono tale caratteristica con il modo
di dire Verba volant, scripta manent). Non possibile ripetere un testo orale identico a
s stesso, ma possibile sostituirlo con una produzione simile che contenga gli stessi
contenuti. Quando ripetiamo una frase non produciamo mai esattamente gli stessi suoni
con la stessa intonazione, ogni volta sempre un nuovo atto linguistico, ogni atto
unico e irripetuto35. Il parlato lineare, si snoda una volta sola nel tempo e richiede di
essere decodificato durante la sua stessa produzione. Ci prevede un maggiore coinvol-
gimento da parte di entrambi gli interlocutori e una certa ripetitivit, un ritornare sulle
cose dette, magari dicendole con parole diverse o affrontando largomento da differenti
punti di vista. Questa strategia tende a rendere pi permanente il contenuto della comu-
nicazione di quanto non lo sia di per s, cosa che invece la scrittura ha come caratteristi-
ca principale. Il testo orale ha solo una fase processuale, nel momento in cui parliamo,
pensiamo, organizziamo, progettiamo e processiamo il prodotto stesso, cos latto di
esecuzione e il suo risultato coincidono perfettamente. Una caratteristica importante
che differenzia il parlato dallo scritto la condivisione del contesto di fruizione e di
elaborazione. La situazione allinterno della quale lemittente elabora e produce il parla-
to e il ricevente o destinatario elabora a sua volta e decodifica i contenuti del messaggio,
coincidono e condizionano sia la produzione che la ricezione del messaggio stesso.
Le caratteristiche relative ad una comunicazione orale sono:
la cooperazione fra gli interlocutori il destinatario interpreta in presenza

dellemittente e, attraverso i suoi interventi di allineamento e i suoi segnali di
feedback (movimento del capo, degli occhi ecc.), permette allemittente di cor-
reggere e chiarire, anche modificando, la propria produzione al fine di facilitare
e di migliorare la comprensione;
la contrattualit durante una conversazione necessaria una permanente ve-
rifica tra i rapporti che intercorrono tra significante e significato in modo da
favorire la comprensione da parte del destinatario;
il contributo inferenziale le deduzioni che ci si aspetta che entrambi gli inter-
locutori facciano. Lemittente inserir delle pause nel suo parlato lasciando dei
vuoti che il destinatario dovr in qualche modo colmare;
lo scambio dei ruoli ovvio che chi parla pu diventare chi ascolta e viceversa.
Lo scambio dei ruoli gestito da chiare e ferree regole comportamentali;
diffusione ridotta e limitata il parlato ha una diffusione ridotta e limitata ai soli
presenti, la sua pianificazione a breve gittata. Il tempo destinato allorganizza-
zione e alla correzione dellemissione molto limitato, tanto da poter affermare
che spesso il tutto avviene in tempo reale. Ci induce lemittente ad utilizzare
un lessico generico, strutture semplici, a limitare i segnali di coesione, a sfruttare
ci che implicito (inferenze) e utilizzare in maniera anche eccessiva le ellissi.
Il parlato comprende un complesso di codici paralleli e concorrenti. Vi , infatti, la

possibilit di utilizzare codici paralinguistici come il volume della voce, il tono, linto-
nazione, il ritmo, il silenzio; il codice cinesico o cinestesico con i movimenti del corpo,
le espressioni del viso, degli occhi, delle mani36; il codice prossemico con la gestione
dello spazio e quindi la posizione del corpo e la distanza tra gli interlocutori37; il codice
aptico38 attraverso il contatto fisico come la stretta di mano, il bacio sulle guance come
saluto ad amici e parenti, un abbraccio, una pacca sulla spalla ecc.
In un lavoro di Mehrabian viene dimostrato che la percezione di un messaggio vo-
cale pu essere suddivisa percentualmente in un 55% di movimenti del corpo soprattutto
espressioni facciali, 38% di aspetto vocale come volume, tono, ritmo ecc. e infine solo
per il 7 % di aspetto verbale, cio le parole 39.
La percezione e la corretta interpretazione di un messaggio dipende in minima par-
te dal significato letterale di ci che viene detto ed molto influenzato da tutti i codici
relativi alla comunicazione non verbale. Questi codici sono tutti di natura sociale e
culturale e indicano il tipo di relazione che intercorre fra gli interlocutori. Normalmen-
te si sta pi vicini quando vi maggiore confidenza, e ci influenza diafasicamente il
parlato. Una minore confidenza produrr una maggiore relazione verbale di tipo isti-
tuzionale.
Tra gli elementi positivi della comunicazione orale annoveriamo una maggiore sem-
plicit frasale e lessicale che permette un transito pi immediato dei contenuti informati-
vi. Una maggiore iconicit 40 e marcatezza 41 suscita immagini mentali che accuratamente
scelte (in pubblicit in forme non comuni) creano un impatto sullattenzione (es. la sua
scioglievolezza ti rapir oppure noi la chiamiamo morbistenza).
Il testo orale si avvale di una semiosi 42 di primo grado, ovvero simbolizza qualcosa
attraverso un significante strettamente collegato ad un significato (es. il suono [torta] ri-
porta immediatamente allidea e al concetto mentale della torta); il testo scritto invece si
avvale di una semiosi di secondo grado per cui le lettere dellalfabeto (grafemi) possono
essere considerati simboli di altri simboli essendo, infatti, simboli grafici che rimandano
a simboli sonori che a loro volta rimandano al concetto mentale (cos la scritta torta
rimanda al suono [torta] e rimanda al concetto mentale della torta). Tra laltro questo
rapporto tra lo scritto e il sonoro pu essere trasparente nel caso in cui ad ogni grafema
corrisponde uno ed un solo suono come ad esempio la lettera p che corrisponde sempre
al suono [p] (rapporto unitario grafema/fonema) o opaco quando invece la lettera (il
grafema) corrisponde a pi suoni come ad esempio la g che corrisponde ai suoni [g] di
gatto e [d] di gelato, o la lettera s che corrisponde al suono [s] di scalzo, al suono
[z] di sgarbo e al suono [] di sci (rapporto multiplo grafema/fonema), o ancora quan-
do un suono unico viene rappresentato con due lettere (grafemi) come nel caso del suono
[] di gnomo che si realizza con le lettere gn o il suono [] di figlio che si realizza
con le lettere gl (rapporto stabile grafema/fonema) o ancora, quando lunico suono [k]
di casa si realizza con diversi grafemi come c, davanti a vocali (a,o,u), ch davanti
alle vocali (i, e), qu o qqu (come in soqquadro), k come in Kit kat o supermarket ecc.
(rapporto instabile grafema/fonema).
Il testo scritto pu essere definito una sostanziazione secondaria della lingua, una
trasposizione visiva della sostanza fonica. Di fatto scrivere non altro che rivestire la
sostanza fonica di un abito che possa essere visto oltre che udito. Essendo una semiosi
di secondo grado, come gi detto, richiediamo un ulteriore impegno sia allemittente che
al ricevente.
La scrittura, comunicando contenuti in forma visiva, un codice semiologico au-
tonomo, parallelo e assolutamente non subordinato a quello linguistico orale. Si defini-
scono scrittura tutti i codici di comunicazione che utilizzano il piano grafico. Essa non
si estende in una sequenza temporale, ma bens spaziale e ha una fisicit diversa rispetto
al testo orale poich questultimo acustico e quindi non direttamente tangibile, mentre
il testo scritto ha una fisicit visiva dunque materiale che gli permette di perdurare nel
tempo, di essere duraturo, di offrire la possibilit di un utilizzo ripetuto.
Il testo scritto diventa cos un documento, sostituendosi alla parola (prima forma di
comunicazione) introducendo la documentalit, il valore intrinseco della cosa scritta, il
perdurare, il rimanere intatto cos come quando stato prodotto, progettato e creato (es.
le lingue morte come il latino sono considerate morte perch non pi parlate ma ancora
documentate dalla loro forma scritta). La scrittura in questa visione il congelamento di
una cosa viva e in continua mutazione come la lingua parlata.
Il testo scritto non permette la cooperazione, lo scrittore non ha di fronte un interlo-
cutore che permette di correggere o rivedere la propria programmazione, costringendo
una realizzazione proiettiva. necessario per chi scrive, immaginare un potenziale letto-
re, un modello virtuale di interlocutore dei propri contenuti. Ovviamente questi possono
variare nella forma a seconda del modello immaginato. Lo scritto non permette una
contemporaneit tra il processo di codifica e il processo di decodifica. Lo scrittore, lau-
tore, perde il controllo del suo prodotto e non ha la possibilit di spiegare, di dettagliare,
di migliorare quanto ha appena scritto. Il prodotto un testo chiuso e questo costringe
lautore ad elaborarlo nella maniera pi compiuta possibile riducendo al minimo le in-
formazioni implicite.
Nel testo scritto mancano gli apporti inferenziali richiesti al destinatario (ad es. con
riferimento ad un cartello con scritto torno tra cinque minuti; il lettore non conoscenza
di quando siano iniziati i 5 minuti). Il testo scritto per sua necessit deve essere molto
pi esplicito del testo orale, lautore ha a disposizione solo il codice grafico, con il quale
esprimere tutte le esigenze comunicative: per questo motivo che la scrittura ha inven-
tato le interpunzioni (punti esclamativi, interrogativi, puntini di sospensione, rimando a
capo, virgole ecc.). Questi espedienti grafici permettono di introdurre, entro certi limiti,
alcuni segnali di quella che la componente espressiva, e a volte emotiva, che nel testo
orale parte integrante della comunicazione 43.
Il testo scritto esposto ad una circolazione molto pi ampia di quello orale, i lettori
sono eterogenei e questo crea un maggiore impegno per lautore in quanto il documento
scritto potrebbe essere letto da destinatari non previsti.
Per una ricostruzione efficace dei contenuti necessario usare le forme linguistiche
pi corrette, che non lascino dubbi o incertezze nel lettore; le strutture sintattiche possono
anche essere pi articolate. Il lettore pu rileggere, tornare indietro, fermare il tempo e
riflettere su quanto ha letto. Bloccare il flusso delle informazioni e poi riprendere la lettura
anche dopo molto tempo, cosa invece impossibile durante una conversazione. La lettura
dello stesso testo scritto fatta in momenti diversi distanziati nel tempo pu stimolare sensa-
zioni ed emozioni differenti anche sullo stesso lettore.
Landamento del periodo deve manifestare tutte le strutture logiche nascoste a livello
di contenuto e il lessico deve essere pi preciso. Pi preciso il lessico, meno incerto il
rapporto tra significante e significato.
Infine, i collegamenti superficiali devono essere abbondanti poich utilizzati dal
lettore nellinterpretazione dei contenuti. Nel testo scritto non presente solo la com-
ponente strettamente linguistica, ma anche altri elementi che sono utilizzati da entrambi
gli attori della comunicazione e che servono per favorire la comprensione. Nella scrit-
tura il paratesto (cio linsieme degli elementi non testuali che favoriscono la compren-
sione del testo44) comprende tutto lapparato editoriale che di norma non viene prodotto
dallautore come gli elementi tipografici, la distribuzione e lorganizzazione delle varie
parti testuali, le prefazioni, le note editoriali, gli indici, i titoli dei capitoli, le illustra-
zioni, limpaginazione, le appendici e gli allegati. Tutti questi strumenti sono utili alla
decodifica di un testo ma anche alla comprensione della sua tipologia. Risulta esse-
re sempre meno importante la distinzione fra strutture testuali e strutture paratestuali
allinterno di un testo, soprattutto per noi occidentali che vediamo ormai nella scrittura
una forma di comunicazione molto simile al parlato e non unoperazione successiva,
un codice diverso (vedi gli scritti nelle chat e negli sms). La presenza degli elementi
paratestuali agevolano la lettura, la distinzione in capitoli, limpaginazione, la presenza
di illustrazioni e di indici favoriscono la gestione e la lettura del testo e soprattutto, evi-
denziano le informazioni costituendo uno dei fondamenti sui quali si basa il testo scrit-
to. Le informazioni possono essere evidenziate in tanti modi dalle strutture paratestuali,
attraverso caratteri grafici come grassetto, corsivo, sottolineatura ecc. tutti segnalano la
struttura tematica, permettono di distinguere quali sono i nuclei concettuali importanti
attorno ai quali si raccolgono le parti del testo (vedi i titoli dei capitoli, dei sottocapitoli,
dei paragrafi ecc.) favorendo anche la memorizzazione.
Nel testo orale invece i paratesti comprendono tutte le parti non contenutistiche come
le premesse e i preamboli che non fanno parte del testo e il cui scopo la preparazione
per larrivo dei contenuti che intendiamo comunicare: le pause sono un elemento impor-
tante nella comunicazione orale in quanto possono significare un momento di riflessione
al quale noi invitiamo il nostro interlocutore o a una perplessit, o alla comunicazione di
incredulit ecc.; i fatismi, cio tutte le forme linguistiche di per s semanticamente vuote
ma utili a richiamare lattenzione dellinterlocutore sullapertura e sul funzionamento
del canale, ad esempio quando allinizio di una comunicazione linterlocutore produce
niente...ti volevo dire, o si tratta di..., o ancora quello che voglio dire... ecc. Queste
forme cos come tutte le forme che non hanno una valenza linguistica lessicale stretta-
mente visibile, non devono essere considerate inutili. La valenza appartiene al piano
comunicazionale, serve semplicemente per richiamare lattenzione attraverso un segnale
paratestuale.
Altri elementi paratestuali nel testo orale sono i costituenti prosodici come il tono,
lintonazione, il ritmo dellespressione vocale, la durata (delle singole vocali come es.
nooooo), la velocit di eloquio ecc. A questi devono poi essere aggiunti tutti gli elementi
legati alla comunicazione non verbale (costituenti prossemici, cinesici ecc.).
La lingua orale si impara naturalmente, in giovane et e in poco tempo nonostante la
logica richiesta sia grandissima, la scrittura al contrario deve essere insegnata iniziando
dalla competenza grafica (es. cerchi e linee verticali). La scrittura risulta essere, di fatto,
una forzatura. I due codici, orale e scritto, non si evolvono di pari passo, la scrittura
statica, non viva e mutevole come la lingua parlata.
In questo capitolo la nostra attenzione sar rivolta maggiormente sulla comunica-
zione orale tradotta in forma scritta: la trascrizione. Anche solo il fare esempi risulter
difficile in quanto saremo costretti a scrivere il parlato e a riferirci al parlato attraverso
la scrittura. Dovremo tradurre in un codice non adatto (la scrittura) qualcosa di pi com-
pleto e sfaccettato come appunto la comunicazione orale (si veda lesempio noooo
riportato sopra).
Durante una comunicazione orale il parlante confeziona dei blocchi di diversa gran-
dezza formati da frasi o parole o frammenti di frasi; questi sono poi organizzati al loro
interno con diversi accenti, con intonazioni differenti, con una velocit di eloquio stabili-
ta, con intensit che evidenzia una parola rispetto alle altre o una sillaba allinterno della
parola. Questi tratti vengono definiti tratti prosodici 45 o sovrasegmentali e non hanno
corrispettivi caratteri grafici, infatti, come potrebbe essere trascritta una accelerazione
improvvisa delleloquio o un innalzamento del volume della voce 46.
La scrittura rispetto alla produzione orale, come codice comunicativo, risulta essere
incompleto e a nulla valgono i tentativi di alcuni segni ortografici come ? ! per riprodurre
un certo andamento intonativo 47.
In una frase come ho detto che stasera andiamo al cinema oltre allinformazione
contenutistica, segmentale e semantica (cio la decisione di andare al cinema), attraverso
il supporto dellintonazione si potrebbe porre lenfasi sulla parte ho detto intendendo
che io ho detto che stasera andremo al cinema, oppure su stasera sottolineando il
fatto che vorrei andare al cinema stasera e non domani 48. Nei fumetti o in alcune scritture
questo potrebbe essere evidenziato scrivendo in maiuscolo o in grassetto 49.
Nel mettere in atto, nel progettare una produzione linguistica, un parlante deve sti-
mare una serie di parametri e di variabili che condizionano il progetto stesso. Ci viene
realizzato in tempo reale e anche mentre le stesse condizioni mutano: il parlato adat-
tativo.
Una comunicazione orale prevede quindi un individuo che organizza un parlato e
uno o pi ascoltatori che percepiscono e interpretano il segnale orale ascoltato. Il proces-
so segue i passi appena descritti, quindi prima di addentarci nel problema della trascri-
zione necessario affrontare i problemi della percezione e dellinterpretazione soprattut-
to perch un trascrittore innanzitutto un parlante/ascoltatore e solo successivamente un
traduttore di codici e quindi un trascrittore.
6.3. I problemi della percezione
Quando parlo dovete ascoltare soprattutto le mie pause. Dicono pi delle mie parole50,
questa frase tratta dal libro di Heg esprime la complessit della percezione nella comu-
nicazione.
Un atto comunicativo un passaggio di informazioni da un emittente ad uno o pi
riceventi. Una tale definizione non rende per giustizia al ruolo fortemente attivo che
viene svolto dal ricevente. In questa sede proponiamo di aggiungere alla definizione:
un atto comunicativo linterpretazione da parte di un ricevente di uninformazione
prodotta da un emittente.
Il processo percettivo pu essere suddiviso in due fasi ben distinte, la prima della
quale riguarda lestrapolazione dellinformazione acustica del segnale percepito, liden-
tificazione dei segmenti e il raggruppamento di questi in unit astratte superiori come
sillabe, parole e frasi; e la seconda fase, forse la pi complessa, detta di accesso lessicale,
dove le parole vengono riconosciute attuando il processo di comprensione/interpreta-
zione del(lintero) messaggio ricevuto. Gi oltre un secolo fa Wundt51 distingueva nella
percezione i fatti esterni, legati alla produzione ed alla percezione dei singoli suoni
linguistici, dai fatti interni che riguardano i fenomeni del pensiero.
Per occuparci di entrambi i livelli necessario dimostrare il ruolo fortemente attivo
dellascoltatore nel processo di percezione e in accordo con tutti i sostenitori delle teorie
linguistiche attive (cfr. successivi) ritenere che percevoir le discours, nest pas chose
passive et automatique. Celui qui aperoit assume une fonction slective en rpondant
certains aspects de la situation globale et non dautres il rpond aux stimuli selon une
organisation quil leur impose. Et il remplace la stimulation absente au contradictoire
dune manire compatible avec ses besoins et son exprience passe 52.
Quanto detto ci spinge a considerare ancora pi attivo (nel senso interpretativo/im-
maginativo) il ruolo di una persona esterna allatto comunicativo, che redige in tempi a
volte diversi e a volte molto lontani dal momento in cui latto avvenuto, una trascrizio-
ne letterale su carta di un atto registrato (o intercettato) nato per essere orale e soprattutto
avvenuto tra interlocutori diversi e sconosciuti.
Mentre gli aspetti segmentali della comunicazione, il punto di vista meccanico e
funzionale, vengono studiati da molti anni ormai 53, ci che fa parte della percezione del
linguaggio oggetto di studio solo da poco tempo allinterno di discipline come la psi-
colinguistica, la psicoacustica 54, lacustica psicologica e la fonetica percettiva.
6.3.1. La percezione
Lindividuo vive costantemente in un ambiente fisico che invia e diffonde continua-

mente unenorme variet di stimoli. Questi, sottoforma di energia o eventi fisici, vengo-
no recepiti dagli organi di senso suscitando una risposta, volontaria o involontaria, di un
preciso recettore sensoriale 55.
Con il termine sensazione 56 si intende leffetto immediato, elementare e semplice,
che scaturisce dal contatto tra i recettori sensoriali e i segnali provenienti dal mondo
esterno. Ci rende coincidenti lo studio delle sensazioni con lo studio della funzionalit
dei recettori e rende possibile lutilizzo di strumenti e conoscenze della fisiologia e degli
organi di senso.
Quanto detto rende evidente lo stretto legame tra il concetto di sensazione e il con-
cetto di percezione. La percezione, infatti, corrisponde allorganizzazione ed allelabo-
razione dei dati sensoriali ed ha luogo nella mente cio nel cervello delluomo. A diffe-
renza di quanto riportato per le sensazioni, per, lo studio della percezione fortemente
psicologico e affronta la complessa analisi del funzionamento della mente.
Un evento fisico produce, attraverso una stimolazione dei recettori sensoriali, una
sequenza di eventi fisiologici definiti sensazione, mentre durante le fasi terminali degli
eventi fisiologici, e nel livello centrale dellorganizzazione cerebrale, si ha levento psi-
chico della percezione.
Sensazione e percezione costituiscono linterfaccia fra il soggetto e la realt esterna,
la chiave di lettura e di interpretazione della realt. In particolare, la percezione quel
processo mentale che in base alle sensazioni provenienti dallesterno e ricevute per mez-
zo dei vari apparati sensoriali, elabora, processa e identifica la realt esterna.
In linea con la psicologia classica, possiamo definire il processo percettivo come:
lorganizzazione immediata, dinamica e significativa delle informazioni sensoriali, cor-
rispondenti ad una data configurazione di stimoli, delimitata nello spazio e nel tempo57.
Lindividuo umano capace di rispondere in maniera selettiva alle stimolazioni pro-
venienti dallambiente. La mente umana possiede una serie di competenze percettive
capaci di selezionare, contemporaneamente, gli stimoli in unit discrete e in unit globali
dotate di significato, attraverso un processo di segmentazione del flusso continuo delle
stimolazioni spaziali e temporali, ci dimostra che lindividuo non ha la capacit di
gestire un continuum ininterrotto di stimolazioni e che per giungere ad una percezione
corretta necessario selezionare il continuum in porzioni definite, discrete e quindi
utilizzabili.
Generalmente luomo compie lelaborazione percettiva dei singoli stimoli in modo
del tutto inconsapevole e ci produce in noi la convinzione di vedere e sentire ci che
vediamo e sentiamo, semplicemente perch cos; viva in noi lidea che vi sia una
completa e totale sovrapposizione tra il percepito e la realt oggettiva fuori di noi. In
molti casi tale sovrapposizione pu essere corretta ma generalmente la nostra perce-
zione non una fotocopia fedele della realt e questo per molti motivi che nel corso
di questa sezione affronteremo. A volte possibile avere, a livello fisico, uno stimolo
che non compare a livello percettivo e al contrario possibile avere sul piano per-
cettivo stimoli che non esistono nella realt fisica. La percezione, pu a volte indurci
in errore creando delle configurazioni percettive illusorie come nel caso della stima
della grandezza della luna. Questa, infatti, viene percepita pi grande quando si trova
allorizzonte di quanto invece non venga stimata quando si trova in pieno cielo aperto
e questo senza alcun riscontro con la realt oggettiva, visto che la grandezza della luna
non variabile e che la sua distanza dalla terra nei due casi approssimativamente
la stessa. La nostra diversa percezione imputabile esclusivamente ad unillusione
percettiva. La stima di una grandezza avviene percettivamente sempre a seguito di
una comparazione relativa. La luna allorizzonte, comparata con oggetti della terra pi
vicini, risulter essere molto pi grande di quando questultima si trover in cielo e
lontana da ogni cosa.
Quanto affermato per gli stimoli visivi, e la discrepanza che si registra tra realt
fisica-oggettiva e percezione, ovviamente, vale anche per tutti gli altri stimoli, compre-
so quello uditivo. Questo aspetto molto importante per un trascrittore, verr affrontato
approfonditamente nei paragrafi successivi, basti ora sottolineare che il rapporto che si
viene a creare tra realt fisica-oggettiva e realt percepita il risultato di un complesso
processo di elaborazione delle informazioni provenienti dallesterno e di informazioni
legate alla nostra esperienza e aspettativa. Percepiamo a volte solo ci che ci fa piacere
selezionando gli stimoli esterni. quindi necessario un atteggiamento molto critico, una
particolare attenzione ai fenomeni percettivi, senza cadere nellerrore di confondere ci
che si sa con ci che si vede o che si sente (confondendo di fatto dati percettivi con dati
concettuali), o di attribuire alla realt propriet che sono invece esclusive della percezione.
6.3.2. La realt, la sensazione e la percezione
Le sensazioni non sono una rappresentazione fedele della realt e la conseguente atti-
vit percettiva non ci presenta il mondo come oggettivamente ma bens come lo interpre-
tiamo in base alle nostre esigenze e alle nostre convinzioni. Percepiamo in base alla nostra
esperienza, alle nostre letture, alle nostre idee e ci fa s che ogni individuo abbia un pro-
prio e personale modo di percepire la realt esterna oggettiva e unica. Questa affermazione
rappresenta il fondamento e la struttura portante di questo lavoro in quanto la sensazione
soggettiva 58.
unipotesi svolge nella testa, una volta che vi si insediata o addirittura, vi nata, una vita
che somiglia a quella di un organismo, in quanto dal mondo esterno assimila soltanto ci che le
gioviale e omogeneo e respinge ci che le eterogeneo e nocivo, oppure, se non pu assoluta-
mente fare a meno di accoglierlo, lo espelle poi tale e quale59.
Il perito e la competenza del perito sta proprio nel fatto di non far nascere nella
propria testa unipotesi.
La realt fisica esterna non viene mai colta nella sua interezza ma solo nelle parti
di essa che sono recepite dagli organi di senso. I nostri organi di senso sono capaci di
far passare 60 soltanto alcuni dei segnali provenienti dallesterno escludendone altri ed
inoltre essi stabiliscono anche la quota della realt da trasformare in segnale sensoria-
le 61. Un esempio basato sulludito quello del campo di udibilit. Un suono caratte-
rizzato da una frequenza molto bassa (10 Hz) o molto alta (26 kHz) non induce alcuna
risposta nei nostri recettori uditivi e quindi nessuna percezione. Tali suoni presenti
nella realt e percepiti da animali come il cane o il pipistrello risultano per luomo
essere inesistenti. Questo esempio dimostra che le nostre sensazioni corrispondono
soltanto ad una parte della realt. La nostra capacit uditiva limitata acusticamente a
segnali sonori con una certa frequenza (16-16000 Hz) con una certa intensit e con una
certa durata (> 20 ms). In tutti gli altri casi, cio con segnali sonori con caratteristiche
diverse, non percepiamo nulla.
Per spiegare la differenza tra realt fisica e realt sensoriale, la psicologia ricorre
ai concetti di stimolo distale e stimolo prossimale. Il primo indica lenergia di sti-
molazione proveniente dallambiente esterno e che perviene al recettore sensoriale
mentre il secondo quella parte di tale energia che i recettori possono effettivamente
raccogliere ed , quindi, avvertita come stimolo dallorganismo. Lo stimolo prossi-
male opera una vera e propria selezione e tale selezione diversa per ogni specie (es.
la realt sensoriale uditiva delluomo, del cane o del pipistrello). Ogni specie ha una
propria realt sensoriale soggettiva perch traduce la realt fisica oggettiva secondo
un codice stabilito dallarchitettura dei propri recettori sensoriali. Questo ci porta
ad introdurre due nuovi concetti: la soglia sensoriale assoluta e la soglia sensoriale
differenziale.
6.3.2.1. Soglia sensoriale assoluta e differenziale
Parlando di sensazione, non possiamo non affrontare il concetto di soglia. La soglia asso-
luta fisiologica e correlata a parametri meccanici mentre la soglia personale o differenziale
correlata a parametri psicologici. La definizione fornita dalla psicofisica o dalla psicofisiologia
delle sensazioni si basa sulla relazione fra gli stimoli distali fisici e la sensazione risultante.
La soglia assoluta indica la minima quantit di energia capace di produrre una sen-
sazione, un confine estremo delle nostre capacit sensoriali. Un confine che non deve
essere inteso come un valore unico o netto ma decisamente sfumato e fluttuante: ad
esempio nelluomo la frequenza minima percepita oscilla da 16 a 22Hz e la massima da
16000 a 22000 Hz, inoltre cos come tutti gli altri organi, anche quello delludito risente
dellinvecchiamento riducendo i limiti fissati e peggiorando la sua performance 62.
Di seguito presentiamo una tabella dei livelli di energia relativi allo stimolo neces-
sario per evocare una risposta sensoriale (almeno nel 50% delle prove in condizioni
ottimali) relativa ai cinque sensi 63.
Sensi Risposte
la luce di una candela a 45 Km di distanza, in una notte buia
VISTA
e con aria limpida
il ticchettio di un orologio da polso a 5-6 m di distanza, in
UDITO
ambiente insonorizzato e perfettamente silenzioso
un cucchiaino di zucchero diluito in circa 10 l di acqua
GUSTO
oligominerale perfettamente insapore e non fredda
lirregolarit di trama superficiale di circa 10 micron a
TATTO contatto con il polpastrello dellindice destro, con carta ben
tesa e cute asciutta
un ml di profumo vaporizzato nel volume daria di un
OLFATTO
appartamento di tre vani
La soglia differenziale invece rappresenta la minima differenza percepibile fra

due stimoli. Tale misura viene effettuata presentando al soggetto uno stimolo di ri-
ferimento standard (ad esempio un peso di 100 gr.) ed uno stimolo di confronto (ad
esempio un peso di 90 gr.) chiedendo se lo stesso avverte una differenza di peso ed
in quale direzione. Lo stimolo di confronto viene gradualmente avvicinato a quello
standard (92, 94, 96 gr.) fino a quando il soggetto non pi in grado di notare la
differenza. La stessa tecnica viene utilizzata anche per gli altri sensi. Ad esempio
per ludito si esamina indipendentemente lintensit, il timbro, la direzione della
fonte sonora ecc. Nel 1956, Stanley Smith Stevens cerc di quantificare la soglia
differenziale attraverso il metodo della stima di grandezza. Il ricercatore sommini-
str dapprima uno stimolo sonoro comunicando lintensit allascoltatore, in seguito
somministr altri stimoli ad intensit diverse chiedendo di stimarne lintensit per
confronto con quella del primo stimolo. Lascoltatore avrebbe dovuto rispondere afferman-
do di percepire un suono con intensit dimezzata o raddoppiata rispetto allo stimolo di rife-
rimento. Calcolando la media delle risposte di molti soggetti ascoltatori, Stevens formul la
legge che venne chiamata della potenza S=k Ib dove S il giudizio sensoriale del soggetto,
I lintensit dello stimolo e k una costante che dipende dallunit di misura scelta e b la
potenza a cui bisogna elevare I e che differisce a seconda delle dimensioni sensoriali. Al
variare di b, si ottengono differenti curve a seconda dello stimolo somministrato. Nel caso
in cui b minore di 1, le relazioni tra intensit e sensazione sono simili a quelle della legge
di Weber-Fechner anche se la legge di Stevens risulta essere pi generale permettendo di
includere in ununica legge, gli andamenti Sensazione/Intensit anche di altri stimoli; se b
uguale a 1, la sensazione direttamente proporzionale allintensit; se b maggiore di
1, il giudizio sensoriale del soggetto aumenta sempre pi velocemente al crescere dellin-
tensit (ottenendo un andamento opposto rispetto a quello postulato dalla legge di Weber-
Fechner 64).
Questa relazione tra sensazione e stimolo, complicata dal fatto che non tutti gli
stimoli fisici vengono percepiti dallindividuo. Uno stimolo deve raggiungere una de-
terminata grandezza per essere percepito da un organo di senso (soglia assoluta) e deve
essere abbastanza diverso in intensit per poter essere discriminato da un altro, simile per
grandezza (soglia differenziale). Una volta recepito come informazione sensoriale, lo sti-
molo fisico pu essere elaborato cognitivamente grazie al meccanismo della percezione.
importante sottolineare che ricerche recenti hanno dimostrato che la vista e ludito,
presentano una soglia differenziale che non migliora con laddestramento e con leserci-
zio al contrario di quanto avviene invece con gli altri sensi.
6.3.2.2. I recettori sensoriali e la conduzione del segnale
I recettori sensoriali 65 sono delle cellule nervose specializzate collocate allestremit degli
organi di senso con il compito di raccogliere i segnali esterni e di trasmetterli al sistema nervoso
centrale. Lesperienza sensoriale e quindi la percezione, come gi detto, non di competenza dei
recettori sensoriali o in generale delle parti periferiche del sistema nervoso ma, come tutto ci
che riguarda la coscienza, di competenza esplicita di alcuni neuroni della corteccia cerebrale.
Volendo semplificare lo schema del sistema sensoriale e percettivo potremmo immaginare la
sua architettura. I recettori specializzati (uditivo, visivo, tattile, olfattivo e gustativo) registrano
lo stimolo esterno e lo trasmettono attraverso le vie nervose alle aree specializzate della cor-
teccia. Il segnale trasmesso grazie alle connessioni intermedie poste lungo il suo percorso tra i
recettori e le aree corticali, riesce, contemporaneamente a diffondersi per altre strade. proprio
attraverso questi percorsi paralleli e associati che il segnale sensoriale pu essere memorizza-
.
to, confrontato con altre esperienze memorizzate in precedenza, acquisire una connotazione
affettiva ecc. Anche la corteccia cerebrale, essendo composta da una decina di strati di cellule
collegate fra loro sia verticalmente che orizzontalmente, si comporta come una rete attraverso
la quale i segnali possono essere diffusi in diverse regioni ed associati tra loro 66.
Figura 6.1 SPECT o Single Photon Emission Computed Tomography
6.4. Il senso delludito e lorecchio
Tra tutti i segnali che la sensazione uditiva pu captare, in questa sede daremo mag-
giore rilevanza a quelli linguistici e a quelli che si trovano alla base del processo comu-
nicativo tra gli esseri umani. Il meccanismo della ricezione del segnale fonico-acustico
consta di due differenti fasi: la prima periferica in cui il segnale viene raccolto, trasfor-
mato nellorecchio e poi inviato al cervello e la seconda centrale dove il risultato della
prima fase viene interpretato dallascoltatore ed in cui viene compreso il significato del
segnale ricevuto realizzando appieno la percezione.
Le tappe nella fase periferica sono le seguenti 6 7:
1. le vibrazioni acustiche del mezzo (laria) che costituiscono il segnale vengono

captate dallorecchio esterno;
2. trasformate in impulsi meccanici, cio in vibrazioni di particolari strutture ana-
tomiche presenti nellorecchio medio;
3. queste vibrazioni, a loro volta, vengono convertite, nellorecchio interno, in vi-
brazioni di un mezzo liquido;
4. e vengono trasformate in impulsi nervosi, ossia elettrici, dall Organo del Corti
che rappresenta il vero e proprio organo sensoriale con sede nellorecchio interno;
5. infine gli impulsi nervosi vengono trasmessi lungo il nervo acustico fino al cer-
vello, attraverso vari centri intermedi.
Nella fase centrale gli impulsi nervosi arrivati al cervello raggiungono la corteccia
uditiva (cio quella parte della corteccia cerebrale situata in ciascun lobo temporale del
cervello) dove ha luogo la conversione (gli originali suoni) in rappresentazioni mentali e
dove si realizza lassociazione ad un significato.
Figura 6.2 Schema dellorecchio esterno, medio e interno
Lapparato uditivo comprende lorecchio, il nervo acustico (che rientra nel sistema
nervoso) e la corteccia uditiva. Lorecchio convenzionalmente suddiviso in esterno,
medio ed interno. Lorecchio esterno costituito dal padiglione auricolare e dal condotto
uditivo esterno. Il primo visibile esternamente e la sua particolare forma intercetta i
suoni nellambiente, favorisce la localizzazione della sorgente sonora e incanala il suo-
no verso lorecchio medio attraverso un canale lungo circa 25 mm che si chiude con
la membrana timpanica. Da qui ha inizio lorecchio medio costituito dalla membrana
timpanica (un sottile organo di forma circolare e sezione conica) e dalla catena dei tre
ossicini martello, incudine e staffa i cui nomi richiamano la loro particolare forma. Qui
le vibrazioni dellaria che colpiscono il timpano vengono trasformate in vibrazioni mec-
caniche di un corpo solido. Lultimo ossicino della catena, la staffa, si muove verso una
membrana della finestra ovale che trasmette la vibrazione amplificata al fluido della
coclea presente nellorecchio interno. La vibrazione ancora una volta trasformata da
vibrazione di corpi solidi in vibrazione di corpi liquidi. La parte pi interna dellorecchio
costituita dalla coclea totalmente immersa in un ambiente liquido. La coclea presenta
un insieme di strutture parallele disposte a spirale di due giri e tre quarti che conferiscono
il tipico aspetto di chiocciola. Linterno della coclea comprende lorgano sensoriale o
organo del Corti (dal nome del suo scopritore). Ad esso affidato il compito pi impor-
tante e delicato della sensazione uditiva: trasformare le vibrazioni di un corpo liquido
in impulsi nervosi da inviare al cervello. Lorgano del Corti costituito da uno strato di
cellule alcune delle quali dette ciliate che svolgono la funzione sensoriale. Vengono dette
ciliate proprio perch allestremit presentano numerosi filamenti sottili simili a delle
ciglia. Lestremit inferiore delle cellule ciliate interne collegata con i prolungamenti
periferici dei neuroni del nervo acustico. Il meccanismo prevede che lo spostamento del-
le cellule ciliate provocato dalla vibrazione del liquido, produce uneccitazione elettrica
che si trasmette prima ai neuroni del nervo acustico e successivamente viene propagata
verso il sistema nervoso centrale dove raggiunge la corteccia uditiva, ovvero quellarea
del cervello che presiede alla ricezione delle sensazioni uditive.
6.4.1. La percezione uditiva del suono
Il suono, come molti altri fenomeni naturali, pu essere analizzato sia dal punto di
vista delle sensazioni che provoca nelluomo, sia da un punto di vista fisico e oggetti-
vo. Una canzone pu essere studiata osservando le sensazioni emotive che stimola in
ognuno di noi, oppure acusticamente analizzando le sue frequenze e le sue intensit.
Nonostante la complessit dei meccanismi che consentono di captare il suono, di tra-
sformarlo in movimenti meccanici, di codificarlo in impulsi nervosi e di trasmetterli al
cervello, non si deve avere lingenua convinzione che esista una relazione automatica
tra le caratteristiche oggettive dei suoni nellatto della produzione e le sensazioni che
lascoltatore riceve: non vi unesatta corrispondenza tra il suono prodotto e quello
percepito. Al contrario, il rapporto tra lacustica e la psicologia molto complesso e
viene studiato da una branca della psicologia detta psicoacustica o dalla fonetica per-
cettiva. Tali scienze mirano a delimitare i confini tra linsieme dei fenomeni acustici
che possono essere percepiti dalluomo e linsieme dei fenomeni non udibili (soglia
assoluta). Esse mirano inoltre a individuare le possibilit delluomo nel cogliere le
differenze tra suoni diversi (soglia differenziale) e a stabilire una relazione tra gran-
dezze oggettive e grandezze soggettive (cio le sensazioni che un suono pu indurre
nellascoltatore).
Come gi detto, la soglia assoluta stabilisce il limite inferiore e superiore di inten-
sit al di sotto e al di sopra del quale non si ha alcuna sensazione uditiva del segnale
sonoro: soglia delludito, soglia del dolore (cfr. tabella 6.1). Tuttavia bisogna precisare
che lintensit della soglia delludito e della soglia del dolore non uguale per tutti i
suoni poich varia in funzione della frequenza e delle caratteristiche fisico-anatomiche
dellascoltatore soprattutto in relazione allet. Si hanno diverse soglie per diverse fre-
quenze e un valore medio di soglia in base ai diversi ascoltatori. Riassumendo affinch
un suono venga percepito dalla membrana timpanica necessario che la sorgente sonora
vibri ad una frequenza compresa tra 16 e 16.000 Hz 68. Lorecchio infatti percepisce un
suono e lo trasmette al cervello solo se la frequenza rientra in questa gamma (definito
campo di udibilit) e se le onde sinusoidali causate dalla vibrazione della sorgente e via
via dallo spostamento dellaria, hanno unampiezza sufficiente ad eccitare e far vibrare
la membrana timpanica 69. Una variabile parimenti importante nella percezione la di-
stanza dal punto di origine del suono: pi ci si allontana dalla sorgente e pi il suono si
sente meno forte. In ogni punto del fronte dellonda lintensit sonora minore di quella
inizialmente presente alla sorgente e diminuisce proporzionalmente al quadrato della
distanza dalla sorgente 70.
Di seguito presentiamo alcuni valori che ben definiscono la relazione tra intensit,
pressione sonora ed effetto sulluomo.
Intensit Pressione sonora PA Livello di Pressione (dB) Condizioni ambientali Effetto sulluomo
(w/m2)
100 200 140 soglia del dolore lesioni dellorecchio
10 130 martello pneumatico
1 20 120 forte clacson a 1 m pericolo di sordit
0,1 110 musica pop
0,01 2 100 nella metropolitana stato di affaticamento
0,001 90 nellautobus
0,0001 0,2 80 traffico medio
0,00001 70 conversazione a 1 m stato di riposo
(diurno)
0,000001 0,02 60 in un ufficio
0,0000001 50 in casa (di giorno)
0,00000001 0,002 40 in biblioteca stato di riposo
(notturno)
0,000000001 30 in casa (di notte)
0,0000000001 0,0002 20 sala di registrazione
0,00000000001 10
0,000000000001 0,00002 0 soglia delludito
Tabella 6.1 Tavola di corrispondenza tra intensit, pressione sonora ed effetti sulluomo71
Un ascoltatore, quindi, non percepisce tutti i suoni presenti nella realt ma solo quel-
li che ricadono nel campo di udibilit, ovvero linsieme dei suoni udibili dallorecchio di
un soggetto normo-udente. Questo campo di udibilit presenta sullasse delle ascisse la
frequenza espressa in Hertz e sulle ordinate, lintensit espressa in dB. Come presenta la
figura seguente, affinch un suono venga percepito dalluomo, deve avere una frequenza
di vibrazione compresa tra 16-20 Hz e 16-20 kHz, mentre lintensit in relazione alla
frequenza. Un suono di 3000 Hz viene percepito dallorecchio umano se caratterizzato
da un livello di pressione sonora di circa 0,5 dB mentre un suono di 300 Hz per essere
percepito dallo stesso ascoltatore deve avere un livello di pressione di circa 20 dB. A
queste caratteristiche deve anche essere aggiunta la durata che deve essere superiore a
10-20 ms7 2 .
La soglia differenziale in termini acustici la minima differenza rilevabile nei va-
lori di un dato parametro (ad esempio intensit o frequenza) di due stimoli acustici. Per
quanto riguarda la soglia differenziale dintensit, essa varia tra 0,5 e 1 dB. Quindi se un
soggetto riceve due segnali rispettivamente di 40 dB e di 40,3 dB non percepir alcuna
differenza di intensit dal momento che la differenza di 0,3 dB si trova al di sotto della
soglia differenziale 73.
Per quanto riguarda invece la soglia differenziale della frequenza, semplificando molto
la questione, riportiamo che il sistema uditivo umano non ha un andamento lineare alla
risposta ma bens logaritmico74. Cos suoni con bassa frequenza hanno un potere di discri-
minazione maggiore rispetto a suoni ad alta frequenza. Ad esempio, una differenza di 1Hz
viene riconosciuta tra due toni di 100 e 101 Hz, ma non tra due toni di 2000 e 2001 Hz 75.
Figura 6.4 (a) funzione logaritmica e (b) funzione lineare

La relazione tra gli aspetti soggettivi delle sensazioni uditive e le caratteristiche fi-
siche e quindi oggettive dellonda sonora molto importante. La sensazione indotta da
un suono pu essere valutata da differenti punti di vista come lintensit, lacutezza o
altezza, il timbro e la durata; tutti parametri che possono essere messi a confronto con i
loro corrispondenti fisici. Lintensit della sensazione uditiva, ad esempio, corrisponde al
parametro fisico dellintensit di pressione acustica, o allampiezza. Lintensit oggettiva
e quella soggettiva si riferiscono ad aspetti diversi del suono, infatti, la prima esprime la
grandezza fisica del suono di stimolazione del sistema uditivo mentre la seconda esprime
la grandezza della sensazione uditiva da questo indotta, costituendo in altre parole un
attributo psicologico del suono. La misura dellintensit oggettiva (o della pressione so-
nora), implica quindi una misurazione fisica, molto pi agevole e diretta della quantifica-
zione della sensazione psicologica (ovvero dellintensit soggettiva). Confermato dalla
ricerca scientifica che la risposta psicologica funzione della grandezza dello stimolo,
bisogna precisare che lintensit soggettiva funzione anche della frequenza dello sti-
molo. Abbiamo gi riportato (trattando la soglia delludito) che il minimo livello dinten-
sit (o pressione) acustica percepibile funzione della frequenza; risulta comprensibile
allora presumere che unanaloga dipendenza dalla frequenza sussista anche per stimoli i
cui valori di intensit rientrano tra i limiti tracciati per il campo di udibilit.
Il parametro sensoriale dellaltezza (o qualit tonale) soggettiva dei suoni invece,
corrisponde al parametro fisico della frequenza misurata ed espressa in Hz. Laltezza
quella sensazione in base alla quale un ascoltatore riesce ad ordinare un insieme di
suoni secondo una scala che va dal pi grave o basso al pi acuto o alto. Lascoltatore
in grado di attribuire unaltezza anche a suoni non musicali come quello di una campa-
na o di un suono linguistico. A dimostrazione del fatto che quasi mai si ha una perfetta
coincidenza tra realt sensoriale e realt fisica, ricordiamo che la sensazione di altezza
del sistema uditivo opera una compressione della gamma di frequenza da cui pu essere
eccitato. Inoltre vero che la frequenza di un suono la causa principale della sensazio-
ne di altezza ma lo anche la variazione dellintensit del suono.
Non stato possibile creare una tavola di corrispondenza fra il timbro o qualit di un
suono (parametro sensoriale) e linviluppo spettrale dello stesso (parametro oggettivo).
comunque noto nella scienza fonetica che la caratteristica frequenziale dellandamento
temporale del segnale sonoro (lo spettro) d luogo alla sensazione denominata timbro. A
differenza dei due precedenti parametri sensoriali trattati (intensit ed altezza), il timbro
dipende da molti fattori e viene definito grandezza multidimensionale.
Anche in questo caso, semplificando, potremmo riportare che il timbro pu essere
correlato alla composizione spettrale del suono e nello specifico allampiezza relativa
delle frequenze parziali che lo compongono.
Riguardo al parametro sensoriale della durata di un suono, questo coincide con quel-
lo della durata oggettiva e cresce con la durata effettiva dei suoni. Come gi detto per
la durata di uno stimolo influenza anche la sensazione di intensit e di altezza. A parit
di ampiezza, un suono verr giudicato tanto meno intenso quanto minore sar la sua
durata. Analogamente affinch si possa stimare laltezza di un suono in modo corretto
necessario che esso abbia anche una certa durata minima, che secondo alcuni autori,
come gi detto, si aggira attorno ai 10-20 ms. Una durata di emissione troppo breve viene
percepita dallorecchio come un semplice clic qualunque sia la sua frequenza.
Altezza Freq
Timbro uenz
Spett
aro
Durata Dura
ta
Tabella 6.2 Tabella comparativa tra i parametri sensoriali e i corrispondenti parametri fisici
6.5. Teorie percettive
La percezione diventa cos il fondamento di alcune teorie linguistiche gi a partire dal

secolo scorso. Tra quelle che hanno destato maggiore interesse riportiamo sicuramente la
teoria empirico-associazionista secondo la quale le ripetute esperienze con la realt
ambientale e lapprendimento che ne consegue forniscono un prezioso contributo alla
percezione degli oggetti. Le sensazioni vengono integrate ad altre informazioni ed
elaborate nel processo percettivo secondo meccanismi di associazione ed esperienza. Il
punto debole di questa concezione risiede nellequivalenza riconosciuta tra lafferenza
sensoriale e lelaborazione percettiva ed inoltre viene presentata unidea troppo
elementare della percezione teorizzata come semplice somma delle singole parti.
Uno tra i modelli pi studiati e citati sicuramente quello ipotizzato da Hermann Ludwig
Ferdinand von Helmholtz (1821-1894). Lautore, fu il primo ad evidenziare limportanza
dellesperienza nella percezione. Questa concezione associazionista o empirista pone le
sue basi sulla necessit di considerare lesperienza e le conoscenze che lindividuo ha
degli stimoli che sta elaborando. Nasce cos, anche a seguito degli approfonditi studi
effettuati sulla vista da Johannes Mller la teoria delle inferenze inconsce.
Questa teoria postula che un determinato recettore sottoposto a stimolazioni diverse pu
produrre identiche sensazioni e viceversa che lo stesso stimolo su individui differenti o
in momenti differenti produce sensazioni diverse. Alle sensazioni correlate agli stimoli
presenti sui recettori, si sovrappone una rappresentazione che fa capo allesperienza
pregressa dellindividuo. Tale rappresentazione integra le informazioni contenute nel
semplice modello sensoriale. Il soggetto esercita un giudizio e un processo inferenziale,
rapidissimo e inconscio (inferenza inconscia) sul materiale sensoriale e rappresentativo.
Durante il processo di percezione, le conoscenze che il soggetto possiede fanno si che la
dimensione percettiva delloggetto sia inserita, inconsciamente, in un progetto percettivo
stimato e basato sullesperienza passata. Il meccanismo della percezione avviene
integrando le sensazioni e ampliandole con lesperienza dellindividuo. Ad ogni
elemento percepito, secondo questa teoria, saranno assegnate delle precise caratteristiche
basate sullesperienza dellindividuo. In base allesperienza della realt il soggetto
corregge e integra le informazioni provenienti dalla sensazione.
Il processo percettivo, secondo Helmholtz, prevede due differenti fasi: analitica (gli
organi sensoriali analizzano gli stimoli in entrata) e sintattica (si sintetizzano gli stimoli
sensoriali ricevuti, per formare la rappresentazione percettiva delloggetto). Questa te-
oria pone le basi del costruttivismo cognitivo applicato alla percezione. Secondo questa
teoria i processi cognitivi coinvolgono quelle che si chiamano inferenze induttive o
problem solving intelligenti e i processi percettivi tentano di costruire una descrizione
che meglio si adatta alla situazione, usando ad esempio i contesti percettivi dello stimolo.
La teoria elaborata dalla scuola psicologica della Gestalt 77 (it. forma) costituita in
Germania allinizio del XX secolo da Von Ehrenfels, Koffka, Lewin e Wertheimer si
contrappone alla teoria associazionista ed empirista. Gli autori della Gestalt superano il
principio empirista dellesperienza passata, ritenendo che le leggi che regolano la per-
cezione sono presenti nelluomo sin dalla nascita. La percezione diventa un processo
dinamico, primario ed immediato non legato al concorso di fattori esterni (associazioni,
inferenze o giudizi) ma organizzato secondo principi strutturali autonomi. Il principio
base della scuola della Gestalt pu essere riassunto nella concezione della propriet del
tutto, larticolazione degli elementi in unit percettive non dipende dalle caratteristiche
e dalle qualit dei singoli elementi ma dallorganizzazione totale e generale della confi-
gurazione degli elementi. Le unit percettive si presentano come totalit definite, chiuse,
organizzate e dotate di un alto valore di coesione interna.
Queste idee innovative e questo nuovo metodo di analisi su base sperimentale, forni-
scono spiegazioni plausibili ai fenomeni dellillusione percettiva sia visiva che uditiva 78.
Successivamente si afferma (negli anni 60) il Movimento definito New Look of Per-
ception (fondato da J.S. Bruner, L. Postman ed E. Mc Ginnies ) come reazione a tutte le
vecchie teorie. Il movimento classifica i processi percettivi in base ai bisogni, alle emo-
zioni e alle motivazioni del soggetto che percepisce. La percezione un processo che si
basa in gran parte sulle aspettative del soggetto che identifica lo stimolo e lo inserisce in
alcune categorie. In questa teoria risulta essere molto importante il peso dellesperienza e
delle aspettative e la percezione intesa come un incontro tra gli stimoli che provengono
dallesterno e le nostre attese interiori, i nostri valori, e cosa molto importante, i nostri
interessi. Lascoltatore diventa cos parte attiva del processo comunicativo e costruisce
le proprie esperienze percettive. Quando percepisce un segnale sonoro complesso mette
in atto un processo di categorizzazione, seziona e spacchetta il segnale identificandolo
e categorizzandolo in base a indizi, dati e relazioni che costituiscono il proprio bagaglio
di esperienze personali.
A tale movimento partecip attivamente Jerome Seymour Bruner, psicologo statu-
nitense, che contribu con linnovativo concetto di set cognitivo ponendo le basi della
psicologia cognitiva (J. S. Bruner, Beyond the Information Given). Bruner basa la sua
teoria sulla capacit della mente di essere dinamica sia quando percepisce che quando
apprende in contrapposizione, quindi, con la concezione statica della Gestalt. Il set co-
gnitivo non altro che un filtro, in continuo aggiornamento e mutamento, che seleziona
solo alcuni elementi della realt nellatto della percezione. Anche la Gestalt ipotizzava
una organizzazione e una struttura intrinseca della percezione, ma il set cognitivo di
Bruner aggiunge il movimento, lautoregolazione, la mutevolezza dettata e influenzata
dalle esperienze passate, dai propri bisogni dai propri interessi e dalle proprie preferenze.
Cos un ascoltatore percepisce un segnale sonoro in base alle strutture mentali interne e
a come queste strutture filtrano e selezionano il segnale. Inoltre tali strutture sono mute-
voli, in continua evoluzione e cambiamento e possono accomodarsi, cambiare anche ra-
dicalmente in conseguenza di nuove esperienze vissute dal soggetto ascoltatore. Questa
teoria rivoluziona completamente il concetto statico e passivo della mente immaginato
e proposto dai comportamentisti. La mente non pi lo specchio della realt ma parte
attiva della realt stessa e partecipa dinamicamente alla sua percezione interagendo con
la realt. La mente cos nellatto della percezione utilizza ogni sua parte, lesperienza, il
profumo, i ricordi ecc.: come disse il filosofo francese Jean Paul Sartre, la mente come
un faro che illumina la realt e nullifica ci che della realt lindividuo non riesce a (o
non vuole) percepire.
A seguire nasce la Teoria ecologica o diretta di J.J. Gibson (1966) in cui la perce-
zione non motivazionale o globale. Le informazioni si trovano gi negli stimoli perce-
piti dallascoltatore che deve solo raccoglierle senza ulteriori elaborazioni. Lascoltatore
non deve integrare, rielaborare ma solo cogliere le informazioni (affordances) presenti
nellambiente circostante.
Sulla stessa linea anche la Teoria del ciclo percettivo proposta da U. Neisser che
si differenzia sostanzialmente perch questultima prevede lesistenza, nella mente
dellascoltatore, di precisi schemi o strutture che in qualche modo guidano lattenzione
dellambiente e della realt stimolando delle anticipazioni, delle aspettative, preparando
lascoltatore alla ricezione di determinati tipi di informazione cogliendo solo quelli pi
pertinenti per i propri scopi.
6.5.1. Le illusioni e le ambiguit percettive
La scuola psicologica della Gestalt deve essere ricordata per lenorme mole di studi
dedicati alla percezione delle cosiddette figure ambigue. Gli studi sperimentali si ba-
sano sullanalisi delle risposte di un grande numero di soggetti riguardo alcune immagini
visive che prevedono due diverse interpretazioni. I soggetti istintivamente forniscono
una prima interpretazione che per sono pronti immediatamente a rigettare e disconos-
cere quando loperatore fornisce loro una diversa chiave di lettura. Esperimenti simili
sono stati effettuati, recentemente, anche su materiale sonoro e lattenzione stata rivolta
soprattutto sul fenomeno definito effetto Mondegreen. Ad ognuno di noi sar capitato
di ascoltare una canzone in una lingua straniera e percepire acusticamente una o pi frasi
in modo errato, ovvero essere convinti di percepire una precisa frase nonostante il testo
riporti un contenuto molto diverso. La stessa parola Mondegreen frutto di unerrata
percezione di un verso di una ballata scozzese 79, la cui corretta trascrizione : Ye High-
lands and Ye Lawlands/ Oh Where haeyebeen?/ They hae slay the Earl of Murray / and
he laid him on the green. Sylvia Wright nel 1954, collaboratrice di Harpers Magazine,
racconta in un articolo intitolato The Death of Lady Mondegreen che la mamma da
bambina le cantava sempre una ballata scozzese che la scrittrice aveva percepito e rein-
terpretato in maniera completamente differente, immaginando una Lady Mondegreen,
bionda e bellissima che muore a fianco del suo grande amore il duca Amurray 80. Il suo
articolo si basa proprio sulla considerazione di come unerrata o una nuova ricostruzione
sintattica di una frase percepita, possa far nascere e sviluppare nuove fantasie nella men-
te di una bambina o di una persona in genere. La pubblicazione di questo articolo con-
sacr la nascita del termine effetto Mondegreen81 e qualche anno dopo William Safire
editorialista del New York Times in un lavoro dal titolo On Language (1980) propone
una differenziazione e una classificazione dei diversi effetti mondegreen.
Quando le parole percepite vengono divise in modo differente rispetto alloriginale,
si ha un effetto chiamato Metanalisi: ad esempio interpretare il nome proprio Gorvey
Doll invece di Gore Vidal, oppure in latino (in alcune scritture come lOnciale 82, spesso
non sono presentati gli spazi soprattutto nei codici pi antichi) INDIEBUSILLIS inter-
pretato come IN DIE BUSILLIS invece di IN DIEBUS ILLIS.
Se invece le parole vengono modificate nel passaggio da una cultura ad unaltra lef-
fetto si chiama The Law of Hobson-Jobson8 3 . Il nome dato a questo effetto, indica in
Anglo-Indian English, un festival o qualunque tipo di intrattenimento ma soprattutto la
cerimonia del Mourning of Muharram (ricordo del lutto di Muharram). Originariamente
il termine Yasan! Yosain! stato male interpretato dai militari inglesi. I devoti
ripetevano gridando per tutta la processione una forma gi interpretata e parzialmente
convertita rispettivamente negli anni Hosseen Gosseen Hossy Gossy Hossein Jossen,
fino ad arrivare ad Hobson-Jobson. Altri esempi del passaggio e della interpretazione
lessicale dalla lingua Hindi allinglese sono il termine Bandanna da Bandhna, benda che
copriva la testa o Shampoo da chmpo, imperativo del verbo chmpn che significa mas-
saggiare con un olio i muscoli e soprattutto la testa prima di fare il bagno. Anche molti
nomi di uccelli sono stati reinterpretati da ornitologi inglesi su base linguistica Hindi.
Un ulteriore effetto il Malapropismo, o il mutamento semantico indotto da una
cattiva comprensione. Il termine lo si deve agli errori di Mrs. Malaprop, un personaggio
del testo teatrale The Rivals di Richard Sheridan (1775). Alcuni esempi sono: the bronze
Lullaby invece di the Brahms lullaby. In Italia Antonio De Curtis in arte Tot utiliz-
za questo effetto in alcune delle sue scenette come in Toto contro Maciste (Fernando Cer-
chio, 1962) quando ripete Perch abbiamo portato le armi a questo cimento?,Perche
questo un cimento armato.
Pi eclatante leffetto registrato nelle canzoni come mostrano gli esempi nelle
tabelle seguenti.
Autore Titolo Originale Mal percepito
Bob Dylans Blowin In the Wind The answer, my friend, is... The ants are my friends, is
Creedence Bad Moon Rising Theres a bad moon on the rise Theres a bathroom on the
Clearwater Revivals right
Jimi Hendrix Purple Haze Excuse me while I kiss the sky Excuse me while I kiss this
guy 1
Originale dallInno In The Garden And He walks with me Andy walks with me
the Lords Prayer hallowed be thy name Harold be Thy name
Beatles Let it be Let it be Lady D.
Elisa Scent of dried flowers, and and Im talking to the phone,
Im walkin through the fog, talking to the phone
walkin through the fog
Tabella 6.3. Esempi tratti dalla lingua inglese
Autore Titolo Originale Mal percepito

Battisti - Mogol Io vorrei...non vorrei...ma se E da allora solo oggi non E da allora solo oggi non fa il
vuoi! In il mio canto libero farnetico pi/ a guarirmi chi fu medico pi / a guarirmi chi fu
(1972)
Ligabue Anime in plexiglass Prende quota il ritmo della c quel movimento
notte fra tamburi e canti di clandestino di canti nel blues
guru e sotto, [] c quel
movimento clandestino di
cantine blues
Enzo Jannacci Vengo anchio, no tu no! e vedere di nascosto leffetto e vedere di nascosto le fette
che fa! che fa!
Claudio Baglioni Ufo Robot Si trasforma in un razzo Si trasforma in un altro
missile... Lancia razzi che missile... La girandola che
sembran fulmini senza fulmini
Franco Battiato Shock in My Town Latenti shock addizionali, Sveglia, sveglia contadini,
shock addizionali. Sveglia, sveglia contadini
sveglia kundalini, sveglia
kundalini
I Cavalieri del re Uomo Tigre Difende i buoni sa cos Difende i buoni sa cos
lamore, il nostro eroe mai si lamore, il nostro eroe mai si
perder fermer
Tabella 6.4 Esempi tratti dalla lingua italiana (gli esempi sono tratti da alcune chat 85)
Molti linguisti negli anni, hanno creato nuove classificazioni e assegnato nuovi nomi
a questi fenomeni come omofonia, paronomasia involontaria o anche agnominatio
ma mondegreen rimane la definizione pi nota 86.
Tutti i casi appena citati di ambiguit nella percezione acustica si verificano con se-
gnali caratterizzati da unalta qualit acustica, immaginiamo quanto tali fraintendimenti
possano diventare pi frequenti, e forse anche giustificabili, in casi particolari di segnali
degradati, o corrotti e sporcati da un rumore di fondo. Tuttavia noto (cfr. successivi)
che le strategie messe in atto dallascoltatore durante il processo di percezione sono sor-
prendenti. Appena il cervello stabilisce che un segnale sonoro percepito una voce, mette
in atto diverse tecniche finalizzate al raggiungimento della migliore percezione o quanto
meno, quella pi vicina alla realt. Ovviamente se al rumore associamo la poca cono-
scenza della lingua da percepire, si pu giungere ad un vero e proprio assurdo percettivo.
Si pu intendere un testo in lingua straniera come un testo prodotto nella propria lingua,
oppure, grazie ad una particolare abilit del cervello umano, percepire come linguaggio
parlato, segnali sonori che in realt rappresentano tuttaltro come rumori o ricorrenze 87.
6.5.2. Leggi della Gestalt sulla percezione dei suoni
La scuola di Gestalt a seguito di molti studi sulla percezione uditiva ha prodotto 6

principi fondamentali che di seguito presenteremo.
Principio della Vicinanza

I suoni ravvicinati (nel tempo) possono essere raggruppati in ununica sequenza.
Quattro suoni che si alternano possono essere giudicati come facenti parte di ununica
sequenza o di due sequenze distinte in base alla vicinanza delle singole frequenze 95. Ad
esempio se si fanno alternare suoni con frequenze di 800, 900, 1000 e 1100 Hz questi
verranno percepiti come ununica successione di suoni se invece si alternano dei suoni di
frequenze di 400 e 500 Hz vengono percepiti come due gruppi di suoni.
Principio della Similarit

Elementi che hanno caratteristiche in qualche modo similari vengono percepiti come
correlati. Nel caso della percezione uditiva, due suoni vengono percepiti simili e corre-
lati quando hanno la stessa frequenza.
Principio della Continuit

Elementi che presentano una transizione morbida tra loro vengono percepiti in rela-
zione. Quando il passaggio da un suono allaltro avviene in maniera continua i due suoni
vengono percepiti come correlati.
Principio del Destino Comune

Elementi che presentano la medesima evoluzione temporale vengono percepiti come
correlati. Ad esempio due suoni formati dagli stessi toni puri se attenuati simultanea-
mete vengono percepiti come unico mentre invece se lattenuazione non simultanea
allora vengono percepiti come due suoni differenti.
Principio della Familiarit

Si tende a correlare suoni per i quali abbiamo acquisito una precedente esperienza.
Quindi anche somiglianze minime con un suono che ci familiare, possono indurci a
unerrata classificazione. Rumori semplici con una frequenza di vocali maschili posso-
no, se presentati in un segnale sonoro degradato (con un rapporto S/N vicino allo 0),
essere percepiti come suoni vocalici. Vale lo stesso per lascolto di una lingua straniera
non riconosciuta come tale e interpretata e percepita come lingua propria.
Principio della Chiusura

provata sperimentalmente una tendenza a completare forme incomplete. Una frase
del tipo si ma poi non hai te viene completata con non hai telefonato, oppure lal-
ternarsi di un suono sinusoidale con brevi tratti di rumore percepito come un suono
continuo, coperto a tratti dal rumore.
6.5.3. Teorie Linguistiche sulla percezione del parlato
Molti sono gli studi di linguistica, fonetica e psicologia orientati alla comprensione
dei meccanismi che stanno alla base della percezione del linguaggio umano. La stessa
espressione percezione del parlato, ha bisogno di una ulteriore differenziazione in per-
cezione prima e riconoscimento della parola dopo.
Partendo dallesposizione ad un determinato segnale acustico, la percezione avviene
riconoscendo le varie unit fonologiche presenti che vengono raggruppate in unit su-
periori quali sillabe, parole e frasi; nel riconoscimento della parola anche detto accesso
lessicale, si collega il segnale sonoro segmentato ed etichettato con i significati ad esso
correlati. Tale processo avviene parola per parola giungendo in seguito alla comprensio-
ne dellintero messaggio ricevuto.
Il meccanismo della percezione del parlato implica, quindi, diverse fasi di analisi che
interessano differenti livelli della lingua come quello fonetico, fonologico, lessicale, sin-
tattico e semantico 88. Questi meccanismi di elaborazione e di interpretazione del segnale
sonoro si trovano in precise aree della corteccia cerebrale.
Solo negli ultimi anni la ricerca si concentrata sulla fonetica percettiva, differen-
ziandola da quella articolatoria e acustica e questo ha permesso di poter sviluppare di-
versi modelli e teorie sui meccanismi in atto nel processo percettivo linguistico. Fino
a qualche hanno fa, infatti, tutti gli studi erano concentrati sulla produzione e quindi
sullemittente pi che sulla percezione e sul ricevente o ascoltatore. Questo nuovo punto
di vista evidenzia le posizioni diametralmente opposte delle teorie passive e attive che
privilegiano rispettivamente la produzione e la percezione.
Forse il motivo principale dellopposizione tra il parlante e lascoltatore (presente
anche in Saussure) e di questo sbilanciamento di interesse nei confronti del parlante si
comprende meglio se si considerare la differenza tra il parlare e ludire. Il parlato ester-
no, percepibile (anche dal parlante stesso), analizzabile e registrabile; ludire invece un
processo interno, interiore, soggettivo e invisibile, che richiede competenze non necessa-
riamente linguistiche e tecniche e metodi di osservazione molto lontani dalla linguistica
classica.
Nonostante ritenga che solo una teoria attiva della percezione possa aiutare la com-
prensione del meccanismo percettivo, di seguito illustrer alcuni concetti base quali lin-
varianza, la percezione categoriale e la percezione di segmenti vocalici e consonantici
che hanno caratterizzato il nostro secolo.
6.5.4. Invarianza e percezione categoriale
Uno dei maggiori problemi per chi studia la percezione del parlato, sicuramente
quello della mancanza di invarianza 89 acustico-fonetica del segnale prodotto dal parlan-
te90. Le analisi sperimentali, condotte dai fonetisti sul segnale acustico, mostrano come
ogni blocco di parlato (gruppo di respiro) sia in realt un continuum e non una sequenza
di elementi discreti (fonemi, sillabe, parole). diffusa la convinzione (soprattutto nel
mondo occidentale dove si utilizza la scrittura alfabetica), che il parlato, cos come la
scrittura, sia una sequenza regolare di elementi discreti e differenti ed inoltre, che ogni
unit, anche se prodotta foneticamente, sia sempre uguale a se stessa. Ovviamente questa
concezione della produzione del linguaggio molto ingenua: tutti gli studi effettuati sul-
la co-articolazione91 provano in maniera imprescindibile che il parlato non facilmente
segmentabile e che i fonemi (i suoni da realizzare) vengono co-prodotti, causando una
sovrapposizione sullasse immaginario del tempo. Nel continuum sopra accennato risulta,
quindi, difficilmente identificabile stabilire i confini dei singoli foni (suoni realizzati) e
inoltre ogni singolo fono presenta una notevole mancanza di invarianza visto che adatta
la sua produzione ai foni che lo precedono e che lo seguono, diminuendo e attenuando le
proprie differenze. Per poter rendere il processo della produzione del linguaggio veloce e
continuo e soprattutto per ridurre al minimo lo sforzo, il parlante mette in atto una strategia
per accomodare la produzione dei segmenti vicini rendendo pi morbide le transizioni. Il
processo concepito come linfluenza di un segmento linguistico sui segmenti adiacenti,
quasi una diffusione delle caratteristiche di un dato segmento suoi contorni e conseguente-
mente di un accomodamento dei suoni adiacenti. Dunque ogni volta che si parla i singoli
fonemi vengono co-articolati e la loro realizzazione non rispecchia mai quella degli stessi
suoni prodotti isolatamente. Pronunciando la parola bande, notiamo che i singoli suo-
ni si accomodano articolatoriamente. Inizialmente lapparato articolatorio si atteggia
per produrre il suono [b], quindi labbra completamente chiuso chiuse ed aria bloccata
allinterno della bocca, ma subito dopo le labbra si aprono predisponendosi per la pro-
duzione della vocale [a] quindi labbra completamente aperte e aria libera di uscire.
Questo meccanismo di impostazioni non mantenute e accomodate continua fino alla
fine della parola, dura per tutto il continuum fonico rallentando la sua esecuzione solo
durante la produzione delle vocali e soprattutto della vocale [a] caratterizzata dallac-
cento92. Inoltre il suono /n/ trovandosi prima del suono [d] prodotto con la punta della
lingua ai denti, accomoda la sua produzione nello stesso luogo del segmento seguente
diventando anchesso dentale (si noti la differenza del luogo di articolazione del suono
/n/ in parole come anfora angelo o ancora). Quindi nella parola bande molto del mate-
riale prodotto consiste di transizioni da un suono allaltro, da un segmento precedente a
quello successivo producendo come risultato un continuum costituito da suoni assoluta-
mente variabili. Il compito della percezione sar proprio di far corrispondere alla varia-
bilit acustica uninvariabilit percettiva. Lascoltatore, infatti, riesce a riconoscere ed
individuare elementi precisi, riconosciuti ogni volta come identici e unici, nonostante
gli effetti di co-articolazione. Egli categorizza i suoni linguistici percepiti (effettua una
percezione categorica), in grado di dividere il continuum fisico in categorie nettamen-
te separate riconoscendo le diverse unit fonologiche. Riconosce porzioni discrete nel
continuum della produzione fonetica costituita da bersagli non raggiunti, impostazioni
non mantenute e realizzazione di forme allofoniche e variabili (cfr. Introduzione alla
Linguistica, di A. Mendicino).
La ricerca oggi concentra la propria attenzione sui processi neurolinguistici attivati
nel processo di categorizzazione. In alcune ipotesi di ricerca, il cervello umano ha la
capacit di concentrarsi su precisi tratti distintivi del segnale e di confrontare in tempo
reale questi elementi con la propria esperienza linguistica giungendo a previsioni e infe-
renze sul riconoscimento dei singoli suoni discreti.
6.5.5. Teorie passive ed attive sulla percezione linguistica
Ritornando alle teorie della percezione, presentiamo di seguito un breve excursus su

alcune delle diverse teorie percettive linguistiche passive e attive 93.
Le teorie di tipo passivo considerano la percezione un processo allinterno del quale
il ruolo assegnato allascoltatore meramente passivo, ovvero di semplice decodifica del
segnale acustico. proprio dal segnale acustico, infatti, che possibile estrapolare, me-
diante lanalisi uditiva, tutti i dati necessari per una corretta decodifica. Secondo queste
teorie non richiesta alcuna mediazione da parte dellascoltatore.
La teoria passiva pi accreditata e conosciuta sicuramente la Teoria Acustica pro-
posta da Gunnar Fant 94.
Secondo questa teoria, le strutture sensoriali periferiche e centrali dellascoltatore,
possono riconoscere nel segnale acustico, le caratteristiche fisiche corrispondenti ai di-
versi tratti distintivi sufficienti a trasmettere tutta linformazione relativa alla sequenza
ascoltata (ad esempio la presenza di periodicit nel segnale acustico indica la sonori-
t). Una volta individuate le caratteristiche distintive, si procede alla ricostruzione dei
singoli segmenti (i foni) e in seguito alla ricostruzione delle unit superiori come le
sillabe, i morfemi e le parole attraverso un procedimento di tipo bottom-up95. Lascolto
essenzialmente considerato un semplice meccanismo sensorio.
Secondo la teoria passiva conosciuta come Fuzzy-logical model 96 presentata du-
rante la fine degli anni 70 da Dominic W. Massaro lintero processo percettivo non
altro che una ricerca prototipica di riconoscimento di determinati andamenti. Dallo
stimolo acustico possibile estrapolare i diversi parametri relativi ad un particolare
contrasto fonetico e combinarli attraverso regole di integrazione logica su un insieme
di tratti non chiaramente definiti (da qui laggettivo fuzzy).
Questo modello di tipo probabilistico e focalizza lattenzione sul continuum dei
tratti estrapolati assegnando ad ognuno di essi un valore di probabilit (da 0 ad 1) se-
gnalando cos il grado con cui ogni tratto presente nel segnale acustico. Infine ogni
tratto presente con un proprio grado viene utilizzato per richiamare precise rappresen-
tazioni prototipiche (fonetiche) conservate nella memoria, grazie alle quali si completa
il processo di riconoscimento.
Le critiche mosse nei confronti delle teorie passive si basano soprattutto sulla
mancanza di spiegazioni accettabili di invarianza acustico-fonetica del segnale, come
ad esempio lidentificazione di parametri specifici in un parlato poco accurato di uno
stile molto informale (ad esempio ipoarticolato) caratterizzato da variabilit dei confi-
ni tra foni adiacenti, processi di coarticolazione, riduzione della durata dei segmenti,
sovrapposizioni di segnale, riduzione dellintensit e della chiarezza dellandamento
formantico delle sillabe atone ecc.
Una percentuale molto alta del segnale acustico sar fortemente degradato, al pun-
to da rendere molto difficoltosa la percezione se basata esclusivamente sul dato acusti-
co. Il fatto che anche in presenza di segnali simili si riesca a percepire ed interpretare
il segnale, una chiara dimostrazione della scarsa attendibilit delle teorie passive a
fronte di una partecipazione attiva dellascoltatore nel meccanismo della percezione
linguistica.
Molti esperimenti hanno dimostrato che per lidentificazione dei fonemi non basta
la sola informazione contenuta nel segnale acustico. La percezione resa possibile
solo da unintegrazione di diverse fonti di conoscenza 97. Ne sono prova i riconoscitori
automatici e i trascrittori automatici. Questi, infatti, basando il riconoscimento delle
singole parole solo ed esclusivamente su informazioni acustiche hanno una bassa af-
fidabilit 98
Le teorie attive quindi riconoscono grande importanza allascoltatore nel processo
di interpretazione. La percezione non dipende solo ed unicamente dalle propriet del se-
gnale acustico ma anche dal ricevente, dalle conoscenze e dalle informazioni depositate
nella propria memoria99.
Nel panorama delle teorie attive, una tra le pi note la Teoria Motoria100 proposta
da Liberman negli anni 60. Questa si basa su alcuni presupposti fondamentali come
lassunto che lascoltatore sia anche parlante e quindi che il processo della percezione e
quello della produzione sono intimamente collegati nella competenza linguistica di un
soggetto101 o che la variazione dei singoli fonemi dipende dal contesto ma anche dal-
lo stile e naturalmente dalle caratteristiche sociolinguistiche del parlante. Lascoltatore
opera un confronto tra le caratteristiche acustiche del segnale ed i gesti articolatori sta-
bili102 necessari per produrre un segnale analogo. Una volta che lascoltatore ricostruisce
interiormente (ed inconsciamente) gli elementi articolatori capace di identificare cor-
rettamente il segmento fonico. Questo approccio presuppone che la conoscenza dellar-
ticolazione da parte dellascoltatore pu mediare il segnale acustico e la percezione.
La variabilit acustica viene riconosciuta e ben interpretata perch lascoltatore cor-
rela linvarianza percettiva con linvarianza motoria e precisamente con precisi schemi
neuro-motori. Secondo questa teoria, infatti, diverse realizzazioni di uno stesso fonema
(ad es. in contesti differenti), pur presentando differenze fisico-acustiche, sono, in realt,
conseguenza degli stessi comandi neuro-motori da parte del sistema nervoso centrale. In
accordo con i risultati ottenuti in molti esperimenti effettuati nel campo delle neuroscien-
ze, si concorda sullesistenza nel cervello di un processo fonologico astratto, una sorta
di inventario invariante composto da singoli movimenti articolatori stabili collegati a
comandi di natura neuro-motoria.
Liberman103 identifica gli intended phonetic gestures, ovvero movimenti articolatori
intenzionali di chi produce un segnale sonoro linguistico. Questi vengono rappresentati
nel cervello sottoforma di comandi motori invarianti, che regolano i movimenti degli
organi addetti allarticolazione dei suoni. Il termine intenzionali viene utilizzato per di-
verse ragioni come ad esempio per la spiegazione degli effetti coarticolatori dove i mo-
vimenti non si manifestano mai nel segnale acustico.
La sostanziale differenza quindi rispetto alle teorie passive della percezione sareb-
be che il flusso delle informazioni non ha origine dallanalisi del segnale acustico per
poi giungere al fonema percepito, andando da un livello di grande variabilit ad uno di
completa invarianza, ma al contrario, dai comandi neuro-motori si giunge al fonema
percepito, passando, quindi, direttamente da uno stadio di invarianza ad un altro ugual-
mente invariante. Saltando lo stadio intermedio del segnale fisico la cui variabilit viene
spiegata muscolarmente in funzione delle restrizioni meccaniche e fisiologiche e delle
sovrapposizioni temporali di comandi successivi.
Il modello della percezione proposto dalla teoria motoria il seguente:
stimolo acustico (fornito dal parlante)

surrogato neurale dellarticolazione (che avviene nellascoltatore)

percezione (da parte dellascoltatore).
Una teoria quindi di tipo top-down, che si muove da un livello alto degli schemi
neuro-motori codificati internamente dallascoltatore ad un livello basso della decodifica
del segnale, ovvero il riconoscimento dei segmenti da parte dellascoltatore.
La teoria definita Analysis-by-synthesis fu elaborata da Stevens e Halle a partire
dal 1967 e segue sostanzialmente il principio della teoria motoria diventandone quindi
unevoluzione. Il modello di analisi-attraverso-sintesi, in sintonia con quanto postulato
da Liberman (op. cit.), conferma lesistenza di profonde connessioni tra il meccanismo
di produzione e quello di percezione, spiegando il collegamento tra linvarianza percet-
tiva e linvarianza neuro-motoria, attraverso alcune regole generative della percezione
usate anche nella fase produttiva del linguaggio.
Ogni volta che lascoltatore esposto ad un determinato segnale acustico sviluppa
un primo livello di analisi uditiva del segnale in base al quale identifica le caratteristiche
fisiche e stabilisce, approssimativamente, unipotesi interpretativa del segmento fonico
di ingresso. In altre parole, durante la percezione, lascoltatore elabora una sintesi, o
replica, di ci che ha udito. Successivamente chi ascolta non deve fare altro che confron-
tare questa sintesi con la sequenza fonica conservata in memoria. Operato tale confronto,
se le due versioni (la sintesi ed il segnale memorizzato) coincidono, lanalisi operata
inizialmente si rivela positiva e dunque la sintesi pu essere accettata come uninterpre-
tazione corretta del segnale di ingresso; in caso contrario, sono necessari pi raffinati
processi di analisi fino ad ottenere la sintesi esatta.
Secondo tale modello nel processo percettivo di decodifica, lanalisi del dato acustico
deve condurre ad una rappresentazione astratta dei segmenti, uguale a quella generata nella
fase di produzione. Le regole che operano sui tratti e che trasformano le rappresentazioni
astratte in istruzioni concrete, sono immagazzinate nella memoria di ogni parlante-ascoltatore.
Negli ultimi anni la ricerca ha rivolto la propria attenzione alle informazioni, sia in-
terne che esterne al segnale, che concorrono al processo della percezione. La percezione
del parlato non dipende solo dallanalisi acustica del segnale sonoro ma dal concorso in-
formativo del contesto fonico e situazionale in cui i suoni sono emessi, delle conoscenze
e delle aspettative dellascoltatore e della lingua usata dal parlante.
Supponiamo per esempio che due soggetti stiano ascoltando un parlante inglese ma
che solo uno dei due conosca la lingua inglese. Solo lui potr effettuare una corretta ana-
lisi del segnale acustico e quindi giungere ad una corretta percezione 104.
Durante il processo percettivo per, lascoltatore non si basa solo sulla conoscenza della
lingua ma su molti fattori esterni al segnale che aiutano nel predire ci che potrebbe essere
stato detto. Un esempio nel quale ognuno di noi potrebbe imbattersi nella vita quotidiana
potrebbe essere quello di due colleghi che conversano durante una pausa lavorativa al bar e
uno dei due produce una frase del tipo: Vedo che il lavandino ritornato al suo solito posto!,
lascoltatore riesce a percepire e disambiguare la frase solo se a conoscenza del fatto che
recentemente in quel locale si era verificato un problema allimpianto idraulico, a causa del
quale il lavandino era stato rimosso. Senza la conoscenza dei fatti antecedenti sarebbe impos-
sibile qualunque tipo di comprensione della frase anche perch la stessa semanticamente
incoerente, il lavandino non essendo animato non pu essere soggetto del verbo ritornare.
Senza voler in questa sede spingerci oltre affermando la secondaria importanza del
segnale acustico, possiamo affermare che lascoltatore sceglie di volta in volta di com-
pletare una frase giungendo ad una corretta comprensione avvalendosi di informazioni
acustiche o di informazioni extralinguistiche o di entrambe.
Questo atteggiamento il fondamento della Hyper- and Hypospeech Theory, nota
pi semplicemente come H&H Theory ipotizzata da Lindblom (1990).
La teoria postula limportanza, nella percezione del parlato, di due tipi di informazio-
ne, quella interna al segnale (informazione fonetica e signal dependent) e quella esterna
fornita dal contesto linguistico ed extra-linguistico (signal independent). Lindblom ritie-
ne che nella percezione del parlato intervenga una sorta di calcolo di previsione da parte
dellascoltatore 105. Sulla base delle proprie conoscenze, della conoscenza del suo interlocu-
tore, del focus della conversazione, della sintassi, del lessico, del sistema fonologico e del-
lo stile di eloquio usato dallinterlocutore, il ricevente o ascoltatore si aspetta, ad un certo
punto, una precisa parola o una parola allinterno di una gamma ristrettissima di alternative
possibili. Lascoltatore non dovr che confermare e verificare le proprie ipotesi percettive.
Nel parlato spontaneo il contributo esterno al segnale necessario soprattutto poich
esso generalmente ipo-articolato (hypo-speech) e caratterizzato da fenomeni quali la mag-
giore velocit di eloquio, il forte aumento degli effetti di coarticolazione, e quindi della va-
riabilit, la sostituzione o perdita di alcuni tratti fonetici e talvolta di interi suoni e sillabe, la
riduzione della durata vocalica soprattutto in contesti sillabici del tipo CVC ecc. Il risultato
un parlato che richiede poco impegno allemittente e molti problemi a chi ascolta. Lindblom
suggerisce che in casi simili il solo dato fisico del segnale acustico non sufficiente per una
corretta percezione e che quindi bisogna integrarlo con dati extralinguistici 106.
Ci rende il parlare un processo estremamente flessibile dove il parlante capace di
variare, quasi per una selezione naturale, la sua produzione lungo un continuum che va
dallhyper-speech (parlato molto accurato e perfettamente scandito), allhypo-speech ap-
pena descritto, a seconda del contesto comunicativo-situazionale. Scegliendo la modalit
ipo-articolata (informale e trascurata), il parlante ripone molta fiducia nel ruolo del desti-
natario durante il processo percettivo, ritenendo che egli abbia informazioni sufficienti
per percepire e disambiguare il segnale acustico.
La mancanza di invarianza del segnale sonoro una diretta conseguenza di questa or-
ganizzazione adattativa del parlante. In particolar modo da imputare alla scelta del parlato
ipo-articolato 107 la variazione fonetica, ovvero quellinsieme di modificazioni precedente-
mente citate, subite dai segmenti fonici al fine di una maggiore economia e una maggiore
velocit nel processo produttivo del linguaggio. In questo caso sono proprio i dati esterni
al segnale di cui dispone il ricevente a risolvere il problema della mancanza di invarianza.
Lesatto contrario si ottiene nel parlato iper-articolato (hyper-speech): lo stile utiliz-
zato durante una conferenza, o quello di un presentatore o di un annunciatore. Si tratta
evidentemente di un parlato che appare artificiale (es. ho detto RobertO e non RobertA),
dove il controllo motorio altissimo ed i movimenti articolatori sono mirati ed orientati
verso un preciso bersaglio che spesso viene raggiunto. Si richiede molto impegno a chi
parla, mentre il compito dellascoltatore quasi inesistente dato che unarticolazione
iper-corretta risolve quasi del tutto il problema della mancanza di invarianza. In questi
casi assume valore quanto affermato nelle teorie percettive passive. Si riceve il segnale
acustico, lo si traduce in segmenti invarianti e lo si percepisce.
6.5.5.1. Riconoscimento di parola
Un ulteriore tassello nel percorso della percezione del parlato riguarda la correlazione
tra significante o forma acustica prodotta e percepita e significato o concetto e idea. Tale
correlazione necessita di un approfondimento del concetto di lessico mentale 108.
Il lessico mentale risiede nella memoria a lungo termine delluomo ed una specie di
deposito che contiene le rappresentazioni mentali corrispondenti alle parole di una lingua.
Lascoltatore si serve della rappresentazione fonologica di una parola per ricercare in-
formazioni riguardo al suo significato, la sua categoria ed il tipo di struttura in cui essa pu
comparire. Il lessico mentale organizzato in base a determinati principi, ovvero laccesso
ad una determinata parola influenzato da diverse variabili come ad esempio la frequenza di
occorrenza. Secondo questo punto di vista le parole pi utilizzate avrebbero un accesso pi
veloce, sarebbero anche quelle pi brevi proprio per economizzare sia il processo produttivo
che quello percettivo (vedi articoli o nomi di uso comune)109. Una seconda ipotesi invece
propone di correlare la velocit di accesso al lessico mentale alluso pi o meno recente di
una parola. Laccesso sarebbe pi veloce con le entrate lessicali utilizzate pi di recente.
Anche sullorganizzazione del lessico mentale le teorie non sono del tutto concor-
danti, la pi immediata e di facile intuizione prevede che siano le propriet fonologiche
della parola a guidare il processo di accesso al lessico, mentre la teoria riportata da autori
come Forster (1976-1979) presuppone lesistenza di un solo grande lessico contenente
tutte le informazioni concernenti le parole, chiamato archivio centrale organizzato in
base alle caratteristiche fonologiche e degli archivi daccesso periferici organizzati in
base a propriet sintattiche, semantiche ecc.
Ritornando al riconoscimento di parola, la ricerca scientifica si divide in due grandi fi-
loni, la linea autonoma, per cui il riconoscimento di parola un processo seriale o modulare
dove i diversi livelli di analisi non interagiscono tra di loro e la linea interattiva che prevede
unintegrazione dei diversi livelli di analisi. La linea interattiva ultimamente sembra essere la
teoria pi accredita producendo due importanti modelli definiti della Coorte e Trace.
6.5.5.2. Modello della Coorte
Il modello della Coorte fu elaborato da Marslen-Wilson e Tyler 110 intorno alla seconda
met degli anni 80 e presuppone che il riconoscimento della parola sia articolato in tre
diverse fasi, le prime delle quali appartengono ad un livello definito prelessicale.
Nella fase 1 o di accesso, le informazioni acustiche vengono usate per attivare item
lessicali e si genera un set di candidati per il riconoscimento, detto appunto coorte; nella
fase 2 o della selezione, si sceglie uno solo dei candidati giungendo al punto di unicit;
nella fase 3 o della integrazione, si usano ulteriori informazioni di tipo sintattico e se-
mantico per completare il processo percettivo.
Ad esempio se il parlante produce la parola elefante, lascoltatore effettuer i se-
guenti procedimenti:
la /e/ iniziale presente in ben 3465 parole;

la /el/ inziale invece in 401 parole;

/ele/ iniziale in 183 parole;

/elef/ in 6 parole

/elefa/ in 6 parole

/elefan/ in 6 parole

/elefant/in 6 parole

/elefante/ in una sola parola, raggiungendo lassociazione segnale acustico-parola pre-
sente nel lessico mentale.
6.5.5.3. Modello Trace
Elman e McClelland 111 ideatori del Modello Trace, postulano che nellorganizzazione
del lessico mentale esistono diversi nodi, o sistemi di unit, costituiti da tratti come quel-
lo consonantico, vocalico, sonoro; fonemi come /a/, /u/, /b/; e parole come viaggio, albe-
ro o mare. I nodi sono tra loro interconnessi attraverso relazioni eccitatorie bidirezionali
quando i livelli sono diversi. Ad esempio il nodo fonetico eccita quello della parola e
viceversa e relazioni inibitorie bidirezionali quando i nodi si trovano allo stesso livello
come ad esempio quando lattivazione di un dato fonema inibisce quella di un altro.
La sequenza di eccitazioni ed inibizioni attraverso i nodi forma nella memoria
dellascoltatore una sorta di traccia (da cui il nome del modello) che porta al riconosci-
mento della parola.
6.5.6. Riassumendo
In tutte le teorie percettive presentate il maggior problema resta quello della mancanza
di invarianza nel parlato spontaneo. Probabilmente la proposta pi realistica quella pro-
posta da Lindblom in cui lascoltatore si basa oltre che su informazioni acustiche anche e
forse soprattutto su informazioni compensative presenti su livelli indipendenti dal segnale
ed extra-linguistiche. Gli altri modelli presentati risultano essere funzionali solo ed esclu-
sivamente nei casi di parlato ipertaricolato (molto raro nella vita quotidiana), dove per la
natura stessa del segnale il problema della variabilit fonetica non si pone. Infine il ricono-
scimento di parola, al di la dei modelli presentati, immediato, quasi meccanico e semplice
nonostante la conclamata variabilit presente a tutti i livelli della lingua. Gli studi presenta-
ti si concentrano sulla complessit del parlato spontaneo e sulla difficolt nellidentificare
il significato solo ed esclusivamente nelle parole. A questo proposito, Wittgenstein112 riflet-
tendo sul parlato spontaneo, si chiede se urlare mentre si a tavola pane!, sia una forma
ridotta di per favore mi passi il pane? dove la prosodia, lintonazione e le informazioni
extralinguistiche avranno il compito di supplire e riempire i vuoti, oppure se la forma
per favore mi passi il pane? ad essere una forma espansa e ridondante. Quindi la normale
comunicazione sarebbe costituita da forme ridotte corredate da informazioni extralinguisti-
che. Come quando rispondendo ad una domanda chi ? al citofono diremo deitticamente
io! affidando il nostro riconoscimento non allinformazione lessicale e linguistica ma
solo ed esclusivamente alle caratteristiche acustiche della propria voce e alla convinzione
che il nostro interlocutore possa esplicitarle avvenendo ad un corretto riconoscimento113.
Altro invece linformazione globale del parlato che non include esclusivamente il
significato delle singole parole. Secondo Schultz, 2007:54 esiste una serie di informazioni
che possono essere dedotte dal parlato secondo una precisa tassonomia di seguito riportata:
Caratteristiche del parlante
fisiologiche psicologiche
identit
et genere comuni
salute
ruolo
individuali Rapporti socioletto
personali
Stato Background geografico

emotivo
dialetto
Stato attentivo
lingua
idioletto
Figura 6.5. Tassonomia presentata da Schultz, 2007
6.5.7. La percezione delle parole
Oltre a quanto gi accennato nei paragrafi precedenti, il segnale vocale caratterizzato

da fattori come lintelligibilit (intesa come la caratteristica percettiva che definisce il
livello di comprensione del segnale trasmesso), la naturalezza, la gradevolezza e lac-
cettabilit. Il processo percettivo pu essere influenzato da ognuna delle caratteristiche
appena riportate.
Lascoltatore durante un processo di percezione muove la sua attenzione, come lago
di una bilancia, tra il livello acustico delle informazioni segmentali e il livello del si-
stema cio della ricostruzione, dellesperienza e delle conoscenze extralinguistiche. Il
segnale mancante viene interpretato o ricostruito in base allindice della predicibilit,
allindice acustico e della conoscenza. Molta informazione risiede nel segnale che costi-
tuisce lo stimolo scatenante per il processo percettivo ma contestualmente le aspettative
dellascoltatore modificano la percezione ricercando nel segnale solo ci che garantisce
e supporta la propria originaria ipotesi. La percezione quindi frutto del complesso
rapporto di analisi bottom-up da una parte (dal segnale verso la percezione) e top-down
dallaltra (cio dalle aspettative dellascoltatore verso il segnale).
Sicuramente la frequenza duso facilita una corretta percezione. Una parola pi
frequente pi viene riconosciuta anche in situazioni di rumore. Gi negli anni 60 alcuni
lavori riportano che la frequenza doccorrenza di una parola influenza il tempo neces-
sario al suo accesso nel lessico. In generale le parole pi frequenti vengono trovate pi
rapidamente e vengono identificate pi facilmente in condizioni precarie dascolto. A
tale affermazione possiamo anche aggiungere la convinzione che le parole pi frequenti
sono quelle che con maggiore probabilit si trovano nella conoscenza di tutti i parlanti
del codice in questione114.
In secondo ordine il contesto: una parola o un suono inserito in un contesto ap-
propriato pi facilmente riconoscibile115 rispetto alla stessa parola o allo stesso suono
presente in contesti differenti116.
Alcuni esperimenti hanno provato che oltre alla frequenza delle parole riveste una note-
vole importanza la grandezza del vocabolario. Lintelligibilit del discorso in una situazione
di ascolto rumorosa aumenta moltissimo se il discorso costruito con un vocabolario molto
ristretto, a patto che lascoltatore sia a conoscenza dellestrema riduzione del vocabolario.
come se la scelta tra le diverse opportunit di interpretare una parola sia molto ridotta
e quindi sia pi facile interpretare correttamente un intero discorso. In alcuni esperimenti
condotti su liste di parole sporcate da rumore stato evidenziato che appena lascoltatore si
accorge che il campo semantico della lista ristretto e se il campo appena identificato alla
sua portata, la comprensione e la capacit di indovinare tutte le parole ascoltate aumenta in
maniera esponenziale. Ad esempio avendo intuito il campo semantico della lista di parole
lascoltatore si appiglia ad un indizio fonetico, ad una illusione acustica come la vocale
iniziale o finale, una consonante uno schema accentuale, la durata della parola ed infine in
base alla propria conoscenza indovina o interpreta la parola ascoltata. Questo meccanismo,
questo salto di qualit non avviene ovviamente in tutti gli ascoltatori nello stesso istante ma
appena nellascoltatore (trascrittore) nasce o si forma la consapevolezza della restrizione
contestuale e se la restrizione alla sua portata, allora il numero delle parole riconosciute,
nonostante il rumore, aumenta immediatamente. Quando il contesto vario invece, per rag-
giungere lo stesso risultato, necessario che il livello del rumore sia molto basso in modo da
far veicolare la maggior parte dellinformazione sul piano segmentale ed acustico. Ad esem-
pio nella comprensione e trascrizione di una lista di nomi e di cognomi non utile il contesto
o la conoscenza ma esclusivamente linformazione veicolata dal canale fisico-acustico.
Ricapitolando maggiore il livello del rumore presente in un segnale, pi frequente sar
laccesso al sistema e alle proprie conoscenze per giungere ad una possibile interpretazione.
6.5.7.1. La percezione di segmenti vocalici e consonantici
Classificare ed identificare le vocali di una lingua da un punto di vista acustico

abbastanza semplice. Essendo le vocali dei suoni con una componente armonica ben
definita, sufficiente misurare i valori delle frequenze formantiche per riconoscere esat-
tamente il suono prodotto e indirettamente per ricostruire lapparato vocale e quindi
limpostazione articolatoria che ha prodotto quel suono 117. anche facile costruire un
grafico che rappresenti i valori formantici citati evidenziando il sistema vocalico di una
data lingua, e le relative opposizioni fonologiche. Il grafico evidenzia un preciso spazio
acustico vocalico certamente continuo utilizzato dalla lingua analizzata. Muovendoci,
anche di pochi millimetri (articolatoriamente) e di pochi Hz (acusticamente), lungo le
coordinate possiamo evidenziare tutti i possibili valori di frequenze formantiche e quindi
gli infiniti suoni vocalici possibili.
Il percorso percettivo dei segmenti vocalici deve invece essere differenziato in discri-
minazione e identificazione. Secondo alcuni esperimenti condotti da Ladefoged (1975) ri-
guardo la qualit fonetica e la qualit personale dei suoni linguistici, si desume che quando
un soggetto ascolta due suoni vocalici caratterizzati da frequenze formantiche differenti
ma allinterno di un confine percettivo definito, questi vengono percepiti come diverse
realizzazioni della stessa vocale; quando invece gli stessi suoni presentano frequenze for-
manti che si trovano a cavallo di un punto critico di confine percettivo, allora lascoltatore
percepisce la differenza ed identifica due diverse vocali. Quindi, differentemente dalla di-
scriminazione, lidentificazione vocalica categorica (e non continua) e identifica i singoli
suoni vocalici non in base alla distanza dei valori formantici ma esclusivamente in base a
veri e propri confini percettivi.
Inoltre nellidentificazione del singolo suono vocalico gioca un ruolo importante
lesperienza linguistica dellascoltatore. Egli, infatti, categorizza tutti i suoni vocalici
ascoltati (anche quelli relativi a lingue straniere) in base ad una specie di interiorizza-
zione dei confini presenti nel sistema vocalico della propria lingua materna. Un esempio
pu essere quello del sistema vocalico dellitaliano settentrionale rispetto a quello me-
ridionale. Come noto litaliano settentrionale caratterizzato da un sistema a sette vo-
cali118 opponendo una vocale aperta // ad una vocale chiusa /e/ (in maniera simmetrica
avviene lo stesso per le vocali posteriori // e /o/), al contrario invece litaliano meridio-
nale caratterizzato da un sistema a 5 vocali e non riconosce la differenza fonologica tra le
vocali medie aperte e le vocali medie chiuse. Facendo ascoltare ad un italiano settentrio-
nale e ad un italiano meridionale la stessa sequenza di parole psca e psca si otterranno
due risposte differenti. Il soggetto settentrionale riconosce la differenza fonologica tra i
due suoni vocalici / ed /e/ ed attribuisce, di conseguenza, alle due parole ascoltate due
differenti significati (rispettivamente il frutto e III pers. sing. pres. ind. del verbo pescare);
il soggetto meridionale riconosce la differenza sonora (o fonetica) dei due suoni vocalici
ascoltati ma non la loro differenza fonologica. Percepisce una variabilit allinterno dello
stesso confine vocalico e quindi attribuisce i due suoni alla stessa vocale e di conseguenza
riconosce un unico significato.
Quindi lascoltatore percepisce ogni singolo segmento acustico, ma la percezione dei
singoli suoni influenzata da decisioni che vengono prese a livelli superiori di anali-
si del segnale. La percezione di singoli suoni influenza o pu influenzare la percezione-
interpretazione di singole parole (es. se sono a conoscenza di un mio appuntamento al
parcheggio, mi baster ascoltare ci vediamo al XXXXeggio e questo non creer nessun
fraintendimento con Reggio, o sorteggio). Riguardo invece la percezione di un nome o di
un toponimo o comunque di una porzione di segnale svincolata dal contesto, la percezione
affidata esclusivamente alla qualit del segnale acustico o alla ricostruzione della stessa
in base a delle illusioni percettive, allascolto di una sequenza acustica di alcune conso-
nanti o di alcune vocali.
Nella percezione e nellidentificazione di un atto acustico non pu essere selezionata
una singola parte del segnale sonoro. Cos come la visione macroscopica, la percezione
globale. Un segnale sonoro registrato non pu essere ascoltato per piccoli pezzi, per
parti di parole confidando solo ed esclusivamente sulla percezione segmentale ed acu-
stica, ma lascolto deve essere globale sfruttando sia laspetto acustico che quello non
linguistico.
In lingue di tipo flessivo come litaliano, il maggior carico informativo viene in-
dubbiamente veicolato dalle vocali che trasportano informazioni relative alla categoria
grammaticale, al numero e al genere. Tali informazioni sono affidate a suffissi vocalici
posti per lo pi alla fine della parola. Diversa invece la situazione di lingue di tipo
isolante come linglese, dove normalmente, per cambiare categoria grammaticale di un
nome da singolare in plurale sufficiente aggiungere un suono /s/. Ad esempio boy
ragazzo diventer al plurale /boy/+/s/ cio ragazzi. Per litaliano invece ogni parola
prodotta deve avere una precisa categoria grammaticale, inoltre il suffisso da aggiunge-
re contiene pi informazioni. Ad esempio il suffisso /o/ in /ragazz-o/ in italiano, veicola
linformazione grammaticale del numero singolare ma anche quella del genere maschi-
le. Quanto detto vale anche per la categoria dei verbi. Si pensi ad esempio alle frasi
ha ucciso Marco?, ha ucciso Marco! e ho ucciso Marco?, ho ucciso Marco!; la
differenza sostanziale, sotto il profilo grammaticale ma soprattutto sotto quello seman-
tico, risiede nellopposizione ha/ho del verbo e in una leggera intonazione ascendente
nelle frasi interrogative rispetto alle frasi affermative. In inglese la stessa opposizione
si presenta molto pi evidente e viene realizzata con Has he killed Marco?, He has
killed Marco! e Have I killed Marco?, I have killed Marco! con la presenza del
soggetto he/I, lopposizione di has/have nel verbo e la posposizione del pronome nelle
frasi interrogative119.
Le vocali nella teoria classica vengono anche chiamate sonanti e questo spiega i seg-
menti che con essi formano una sillaba o un suono complesso cio le con+sonanti, i suo-
ni prodotti insieme alle sonanti. Ad esempio nel caso dei suoni occlusivi, se da una parte
il riconoscimento del modo consonantico immediato grazie alla presenza di una fase di
silenzio seguita da una rapida esplosione, identificare il luogo di articolazione e quindi la
singola consonante, pone seri problemi percettivi120. Non possibile basarci sul silenzio
per differenziare una /p/ da una /t/ poich i silenzi sono uguali, e non possibile basarsi
sullesplosione dato che, nonostante lo spettro acustico risulti diverso da consonante a
consonante, il rumore prodotto troppo debole per influire sulle decisioni percettive. Al-
cuni esperimenti di fonetica acustica dimostrano che il vero indice dato dalle transizioni
formantiche tra il suono prodotto e le vocali ad esso adiacenti. Un ascoltatore riconosce
ed identifica un preciso suono consonantico occlusivo (bilabiale /b/, dentale /d/, velare /g/
ecc.) effettuando il contrario del processo di categorizzazione e soffermando la propria
attenzione proprio su quella porzione di segnale che segna il passaggio da un suono
allaltro e quindi che evidenzia la variabilit delle parti invarianti (per approfondimenti
si veda la teoria dei loci consonanti)121.
Altri suoni consonantici pongono meno problemi come i suoni fricativi122. Il cervello
si basa sulle caratteristiche spettrali del rumore e sulla sua intensit. Procedimenti pi o
meno simili valgono anche per tutti gli altri suoni consonantici.
Per quanto riguarda le intercettazioni, in un segnale degradato sar facile percepire
dei suoni armonici come le vocali rispetto a dei rumori come le consonanti coperti da
rumore123.
6.6. Latto Comunicativo
Vocali e consonanti prima, sillabe e parole dopo, tutte insieme si raggruppano, si adatta-
no per formare un unico atto linguistico. La psicolinguistica e la neurolinguistica, soprat-
tutto negli ultimi anni e grazie ad alcune tecniche strumentali molto sofisticate, ha appro-
fondito il problema del riconoscimento delle parole, della comprensione delle frasi, del
testo o del discorso. La prova indiscutibile che esiste una comprensione a livelli separati
e soprattutto a livello superiore, data dal fatto che alla fine di un discorso, il soggetto
non ricorda lesatta sequenza delle parole ascoltate, ma un riassunto, una rielaborazione,
una comprensione di fatto superiore rispetto a quella relativa alle singole vocali, sillabe,
parole o frasi.
Una comunicazione orale avviene sempre in un preciso contesto, in una determinata situa-
zione, tra specifiche persone, utilizzando un preciso codice e grazie ad una certa cooperazione
tra emittente e ricevente che si avvale dellapporto di tutta una serie di conoscenze condivise.
Secondo Firth (1957) la conversazione un rituale, molto di pi di quanto si pensi. [...] non
siete liberi di dire quello che volete (ndr. il contesto e linterlocutore condiziona). Siamo nati
individui, ma per soddisfare le nostre esigenze dobbiamo diventare persone sociali.
La maggior parte degli atti comunicativi e quindi degli scambi conversazionali, sem-
bra fondarsi sullassunto che i partecipanti cooperano tra loro, collaborano alla buona
riuscita della conversazione. Questo principio stato stigmatizzato da Grice (1975) in
quattro massime: il tuo contributo alla conversazione sia tale quale richiesto, allo sta-
dio in cui avviene, dallo scopo o orientamento accettato dallo scambio linguistico in cui
sei impegnato. Le massime identificate sono:
1) quantit d un contributo tanto informativo quanto richiesto, n pi n meno
di quanto richiesto;
2) qualit non dire ci che credi falso o ci per cui non hai prove;
3) relazione sii pertinente;
4) modo sii chiaro, breve e ordinato.
Sicuramente ognuno di noi ha pi volte sperimentato la mancata applicazione del

principio di cooperazione. In realt nutriamo, inconsciamente, la consapevolezza della
correttezza di questi principi sui quali si fondano le nostre aspettative sulla conversazio-
ne e tale consapevolezza emerge in espressioni comuni quali cercher di essere sintetico
o per farla breve riconducibili alla massima della quantit, oppure per quanto ne so...,
non vorrei sbagliare..., questo quello che so... o che mi stato detto riconducibili alla
massima della qualit ecc. Il rispetto del principio di cooperazione da parte dei parlanti
fondamentale per poter interpretare enunciati a prima vista incomprensibili come:
domanda: Vai tu?

risposta: Sono in ritardo!
Lo scambio sarebbe privo di senso e la risposta non sarebbe coerente alla domanda
posta se non ci fosse la cooperazione. Infatti grazie ad essa la risposta data assume il
significato inequivocabile di rifiuto. Per linterlocutore la risposta cos formulata, grazie
al principio di cooperazione, diventa pertinente e informativa e comprende unimplica-
tura124.
Una discussione orale coinvolge molto di pi di quanto possa coinvolgere una co-
municazione scritta. Lemittente portato sempre a verificare landamento della discus-
sione e il destinatario pu favorirne il successo utilizzando segnali etichettati come back-
channels ad es. mmh o si ti seguo, si, si, o ancora esatto; tali segnali possono anche
essere inviati attraverso il codice cinesico, cio con il movimento del capo, o con la
chiusura degli occhi o in tantissimi altri modi che dipendono dalla cultura di apparte-
nenza dellemittente e del destinatario e dal contesto in cui si sta svolgendo linterazione
linguistica. I segnali di conferma stimolano lemittente a proseguire la conversazione,
in mancanza di questi, lemittente pu tornare indietro e riformulare il proprio pensiero
in modo da renderlo pi comprensibile (usando per esempio parafrasi), rendendolo pi
accettabile, pu eliminare parti ritenute troppo ostiche; a volte per raggiungere lo scopo
che va al di l del significato dellatto linguistico, pu addirittura cambiare completa-
mente versione dicendo esattamente il contrario di quanto aveva detto precedentemente
(si pensi ad esempio alla conversazione tra due amanti, o tra un impiegato ed il proprio
datore di lavoro e in tutte quelle situazioni di subalternit o di relazioni asimmetriche).
Un atto comunicativo quindi un progetto e come tale subisce il condizionamento di
alcune variabili come125: il numero dei partecipanti ad una discussione (un emittente ed un
ricevente come un dialogo o una conversazione telefonica; un emittente e un pubblico come
una conversazione, una lezione o una conferenza); la forma; il contenuto e i risultati che si in-
tendono raggiungere; la situazione (intesa come luogo, come scena e stato psicologico sia del
parlante che del ricevente); il canale (la scelta da parte dellemittente, una lettera scritta, una
comunicazione orale in presenza o una telefonata); e il codice scelto tra tutti quelli conosciuti
dallemittente e dal ricevente come litaliano o linglese o diafasicamente diversi come la lin-
gua standard, il dialetto regionale, il gergo, un codice nascosto o cifrato126.
La situazione riguarda sia il parlante che il ricevente. In una comunicazione il par-
lante il centro, tutto ruota intorno a lui, lo spazio organizzato in funzione della sua
posizione, il tempo in base al tempo del parlante (es. deissi spaziali e temporali)127.
La lingua deve quindi essere intesa come un processo, un mezzo di interazione allin-
terno di una situazione e di un contesto. Il mezzo attraverso il quale il parlante definisce il
suo stato sociale, le sue sensazioni, tutte cose che si situano al di sopra della lingua128 e che
lascoltatore sa ben decifrare, latto linguistico assume cos una duplice funzione comuni-
cativa, quella interna o intrinseca alle parole stesse e quella esterna o estrinseca alle parole,
quella che si riferisce ai sentimenti, alle impressioni e alle aspettative del parlante.
Una ulteriore variabile costituita dalle conoscenze condivise. Ogni atto comuni-
cativo, ogni interazione orale fa riferimento a delle conoscenze condivise tra parlante
ed ascoltatore. inutile sottolineare che tali conoscenze non vengono veicolate sul
piano segmentale della comunicazione linguistica (es. quale significato potremmo
mai dare ad una frase del tipo ma gniccognacco lha comprato il pincopalla?). Di
una frase cos prodotta pu essere percepito il segnale acustico ma nessuna interpre-
tazione pu essere possibile se non si hanno le conoscenze condivise del parlante e
dellascoltatore.
Una conversazione e quindi la produzione di un atto linguistico, il frutto di una
collaborazione voluta, di una ricerca e di un lavoro che coinvolge sia lemittente sia il
destinatario, il loro intervento tra cooperazione, condivisione e avvicendarsi di turni, si
fondono senza pi differenziarsi tra loro e fornendo un unico prodotto che la conver-
sazione. Tutto questo non si evince da una analisi del solo piano segmentale. Erronea-
mente quindi, si potrebbe ritenere che lintero atto linguistico preveda semplicemente
un parlante che traduca in parole i propri pensieri ed un ascoltatore che, avvalendosi di
un mero processo passivo, compia una decodifica acustica dei suoni emessi. In realt i
meccanismi che stanno alla base della comunicazione umana sono molto pi complicati,
al punto tale da non essere stati ancora del tutto compresi. Il processo percettivo pu e
deve essere definito, come gi detto in precedenza, un processo attivo, dove chi ascolta
non si serve esclusivamente di informazioni interne al segnale (suoni emessi) ma anche
e soprattutto, di dati ad esso del tutto esterni quali conoscenze ed aspettative dellascol-
tatore sulla lingua usata dal parlante e sullambiente e circostanze in cui si colloca il testo
stesso, ovvero contesto linguistico (o verbale) nel primo caso e contesto extralinguisti-
co 129 (o situazionale) nel secondo.
In letteratura sono presenti diversi modelli di comunicazione i pi noti sono quello di
Di Berlo (1960) che prevede una sorgente S costituita da abilit, attitudini, conoscenza,
sistema sociale e cultura; un messaggio M che contiene elementi, struttura e contenuto e
codice; un canale C costituito dalla vista, dalludito, dal tatto dallodorato e dal gusto ed
infine un ricevente R che prevede abilit, attitudini, riconoscimento e di nuovo sistema
sociale e cultura.
Figura 6.6 Modello di comunicazione tratto da Di Berlo (1960 ) in Vigan (2003)
Un altro modello quello di Slama-Cazacu (1973) in cui in maniera inclusiva il

contesto totale comprende il contesto implicito che a sua volta comprende il contesto
esplicito che costituito dal contenuto verbale di forma linguistica e dal contenuto extra-
linguistico costituito da componenti aggiuntivi come gesti, mimica ecc.
Figura 6.7 Modello di comunicazione tratto da Slama-Cazacu (1973)

Ma il modello della comunicazione, sicuramente pi conosciuto e studiato, quello
di Dell Hymes pubblicato nel 1974 e denominato SPEAKING, un acronimo per descrive-
re gli elementi che compongono qualsiasi discorso S= Situation, P= participants, E= ends,
A= acts, K= keys, I= Instruments, N= norms, G= genres.
Nel dettaglio si ha una situazione determinata in modo oggettivo che prevede una
ambientazione (setting), un tempo, una costrizione normativa esterna e una scena (sce-
ne). La scena quella condivisa dai partecipanti, i confini esterni sono quelli delleven-
to come un tutto, un insieme, mentre i confini interni sono le scansioni e spesso sono
indicatori di identit; riguardo lo spazio invece i confini possono essere delimitati in
modo non visibile, possono essere manipolati (sappiamo che gli aspetti convenzionali
dei luoghi diventano materia simbolica attraverso la quale si pu comunicare: aula, chie-
sa, parco ecc.; latto semiotico pu assumere valore di codice allinterno di uno spazio
significativo); il tempo ha anchesso dei confini che possono essere esterni e quindi nor-
mativi come lorario e le convenzioni (si pensi ai saluti ad esempio) ed interni come le
fasi della propria attivit locutoria ecc.
I partecipanti una categoria che comprende il parlante o emittente (speaker, sen-
der), lascoltatore o mittente (addressor), il ricevente, o destinatario (addressee) e un
uditorio (hearer, receiver, audience). La scelta dello stile di eloquio del lessico e di tutti
quei canali paralinguistici quasi sempre sono determinati dal destinatario. Parlare con un
amico ben diverso che parlare con un giudice o con un medico.
Altro elemento lo scopo o i risultati (ends) presenti nella conversazione e di cui il
parlante non sempre o almeno totalmente cosciente di esprimere.
Gli atti sottoforma di messaggio (message form) e di contenuto del messaggio
(message content) sono quelle azioni linguistiche e non, che caratterizzano una con-
versazione.
La chiave (key) riguarda invece la variabile emotiva o diafasica come un parla-
to ironico, serio, importante, casuale, confidenziale; in questi diversi stili partecipano i
tratti prosodici come il ritmo o il volume e gli aspetti paralinguistici come il bisbiglio,
il falsetto o limitazione. Come noto sia la prosodia che gli aspetti paralinguistici in
genere non hanno un significato generalmente accettato e neppure dei correlati stabili e
universalmente riconosciuti, quindi non possono essere studiati isolatamente n tanto
meno possibili classificarli.
Gli strumenti come il canale (channel) o le diverse forme di parlato (forms of spe-
ech) identificano i mezzi di trasmissione come un testo scritto, delle immagini o il parla-
to, mentre invece per forme di parlato si intende la variet linguistica come il baby talk,
il burocratese, il linguaggio calcistico, il linguaggio quotidiano o scientifico, una confe-
renza pianificata e preparata o un discorso improvvisato ecc. ricordiamo che un parlante
ha una grande gamma di strumenti comunicativi tra cui scegliere.
Le norme di interazione (norms of interaction), di interpretazione (norms of inter-
pretation), sono strettamente legate al sistema socioculturale e alle norme vigenti nel
contesto specifico in cui avviene una conversazione.
E infine il genere che comprende il tipo di discorso, il modo di costruirlo sia sotto
il profilo della forma che del contenuto (una battuta, un racconto, una conferenza).
Ovviamente ognuno di essi regolato da precise norme di esecuzione e di interpre-
tazione.
6.7. Lanalisi conversazionale
Avendo analizzato latto comunicativo, la percezione e i modelli di comunicazione

giungiamo naturalmente alla sezione relativa alla analisi della conversazione.
Lanalisi conversazionale lo studio tecnico-scientifico dellinterazione verbale e
di tutti quei fenomeni correlati allo scambio comunicativo in atto. Ha come oggetto di
studio le interazioni faccia-a-faccia ed esamina il comportamento dei singoli partecipanti
sia a livello individuale che collettivo. Linterazione comunicativa rappresenta un mo-
mento di co-produzione, in cui la comunicazione viene costruita passo-passo dai parlan-
ti, nel perseguimento di quel principio di cooperazione griceiano, che li porter a tentare
di raggiungere lobiettivo ultimo della comunicazione, ovvero la comprensione, espressa
attraverso la conoscenza reciproca delle intenzioni dei singoli parlanti.
Durante la negoziazione messa in atto tramite la conversazione, i parlanti, inevitabil-
mente, condividono tutta una serie di elementi, legati al cotesto linguistico, al contesto
comunicativo e situazionale, alle credenze/conoscenze ed aspettative comuni, alla cono-
scenza enciclopedica e ai rapporti sociali presenti tra essi; per questo che la conversa-
zione diventa il luogo pragmatico per eccellenza, dove tutte le informazioni scambiate
durante latto comunicativo, sono inevitabilmente legate ad un determinato contesto,
valide, quindi comprensibili solo in quellappropriata circostanza, messe in gioco spon-
taneamente e interpretate tramite processi di inferenza, che stanno alla base di tutti i
concetti pragmatici connessi agli atti illocutori come le presupposizioni e le implicature.
per tutte queste ragioni che la conversazione viene definita come un sistema a
gestione locale, che non si basa su processi convenzionalizzati o prestabiliti, ma si co-
struisce sulle basi dellappropriatezza alla circostanza.
Rispetto allanalisi linguistica, lanalisi conversazionale mira a dimostrare quanto i
dettagli pi semplici e, allapparenza insignificanti, dellevento linguistico nel suo insie-
me, possono risultare rilevanti per i parlanti che vi prendono parte.
Ogni volta che facciamo quattro chiacchiere definiamo il nostro ruolo nella societ,
il grado della nostra relazione sociale, il nostro stato danimo. Esiste la necessit o forse
il fascino e lesigenza di differenziare nella comunicazione, la sfera linguistico-seman-
tica da quella pragmatica e funzionale nel definire il modo in cui usiamo il linguaggio.
Cos, il linguaggio, diventa la manifestazione e la presentazione conscia o inconscia di
noi stessi. Il mezzo attraverso il quale ci presentiamo come siamo o come vorremmo es-
sere percepiti (anche se in questultimo caso il tempo di controllo ha una breve e limitata
escursione). Laspetto polivalente e ambiguo del linguaggio permette una grande e varie-
gata possibilit di rapportarsi, di essere parte di un sociale, di un contesto, di essere parte
condividendo, partecipando o contrastando ma comunque di esserci e di prendere parte.
Il linguaggio azione, ogni volta che parliamo modifichiamo e alteriamo la realt
esterna, assumiamo una precisa posizione e costringiamo i nostri interlocutori a valutare,
a scegliere e a loro volta ad assumere una precisa posizione. Il nostro parlare (anche sotto
il profilo formale come il modo) influenzer il comportamento del nostro interlocutore
e questo anche al di l dei contenuti e dei significati segmentali e linguistici, cos come
il nostro interlocutore influenzer noi e il nostro modo di parlare. Cos il linguaggio non
serve solo per dire qualche cosa ma anche e forse soprattutto per fare qualcosa. Il lin-
guaggio un atto, una azione sociale e come tale va analizzato nel suo uso non come un
sistema astratto composto di regole e funzioni. Un atto linguistico non solo un signi-
ficante ed un significato ma molto di pi. La conversazione quindi non deve e non pu
essere analizzata esclusivamente con tecniche linguistiche o con regole interne. Spesso
per spiegare alcuni fatti necessario utilizzare informazioni che provengono dallesterno
e che niente hanno a che fare con la conversazione stessa. Durante una conversazione, gli
interlocutori non solo parlano e si scambiano informazioni ma fanno tante altre cose130
e gi Malinowski nel 1966:361 scriveva che le parole non sono solo mezzi di espressio-
ne ma efficaci modi di azione131.
Prima di addentrarci nellanalisi della conversazione necessario definire cosa sia
una conversazione. Secondo il noto modello di Sacks, Schegloff e Jefferson132 la con-
versazione si basa su due caratteristiche: un sistema di gestione locale dei turni (local
management) ed gestito interazionalmente (interactionally managed). In questa visione
il sistema locale, prevede dei turni quindi almeno due interlocutori, ed gestito dai par-
tecipanti che definiscono criteri e rilevanze per una corretta gestione (gridare, interrom-
persi, gesticolare o semplicemente discutere). Lunit di base della conversazione non
ununit lessicale ma un TCU, Turn Construction Unit o Unit Componente del Turno.
Quindi la conversazione una attivit estremamente complessa ma coordinata e re-
golamentata, non un insieme caotico di frasi sovrapposte. I partecipanti contribuiscono
e devono contribuire innanzitutto dimostrando uno allaltro di essere attenti, di seguire
e di aver capito. Entrambi lavorano insieme e collaborano affinch la conversazione si
sviluppi nel modo migliore.
Gi Sacks individuava lesistenza di una regolarit nellinterazione verbale lapparen-
te fluire caotico della conversazione se analizzato nei fini dettagli, senza escludere nulla, dai
silenzi, alle risate, ai borbottii di riempimento, mostra delle sistematicit ricorrenti, frutto del
lavoro interazionale degli interagenti: ci sono regole che governano lalternanza dei parlanti,
criteri di predicibilit dello sviluppo sequenziale della conversazione, procedure comuni-
cative per aprire e chiudere il rapporto sociale133. Questo significa che se osserviamo un
talkshow o un dibattito televisivo, anche se immediatamente si viene colpiti dalla caoticit,
dalla confusione e dal disordine, sappiamo che tutto ci solo apparente e superficiale.
Infatti se si analizza correttamente lo scambio linguistico, si scoprir che la conversazione
una procedura molto metodica e risponde sempre a regole ferree e severe. Nella fonetica
moderna riconosciamo che i singoli suoni nel parlato non si sommano come le perle di una
collana uno dietro laltro per produrre una parola ma bens si coproducono, si accavallano, si
allungano e si accorciano, si accomodano (si coarticolano). La stessa cosa accade nella con-
versazione e nella gestione dei turni. Cos come nel parlato processi fonologici si mettono in
atto per aggiustare sequenze o nessi consonantici, cos nella conversazione, per correggere
o rivedere alcune produzioni, si mettono in atto meccanismi di riparazione.
Per riassumere, la conversazione un atto sociale che avviene almeno tra due per-
sone. Essa non pu essere analizzata con le sole tecniche linguistiche ma necessario
utilizzare metodi e tecniche proprie della pragmatica.
Le caratteristiche pi importanti nella conversazione sono lo scambio dei turni, la
sequenzialit e il contesto.
In sostanza, lanalisi della conversazione tende a descrivere linsieme delle azioni
sociali che i partecipanti a quel determinato evento comunicativo eseguono attraverso la
pratica del parlarsi. Con lespressione azione sociale si considera qualunque tipo di azio-
ne messa in atto dagli interlocutori in una conversazione sia ordinaria che informale. La
parola azione non legata alla produzione di comportamenti non verbali che potrebbero
mettersi in atto contemporaneamente a quelli verbali. Allude, piuttosto, a ci che si dice
e al modo in cui lo si fa tramite il sistema linguistico.
Il settore identificato sicuramente di non facile analisi visto che non esiste una corri-
spondenza biunivoca tra le azioni e le pratiche linguistiche per mezzo delle quali le prime
si trovano sempre espresse. Ci vuol dire che una stessa azione pu essere eseguita tramite
lutilizzo di pratiche linguistiche differenti, allo stesso modo in cui una certa espressione
linguistica, pu portare a compimento azioni differenti in situazioni e contesti distinti. Non
si pu, perci, stabilire con certezza quali comportamenti verbali attuino determinate azioni.
Nonostante ci, sulla base di trascrizioni molto dettagliate di registrazioni di con-
versazioni audio e video, stato possibile rilevare alcune caratteristiche generali che
compaiono con una certa regolarit nelle interazioni come lorganizzazione sequenziale
delle azioni, il sistema della presa dei turni, la sovrapposizione di parole, il repair.
6.7.1. Lorganizzazione sequenziale delle azioni
Come abbiamo gi detto, nella conversazione non esiste nessun meccanismo presta-
bilito che prescriva lordine e il contenuto dei turni o la loro distribuzione. Nonostante
ci, sappiamo che i parlanti organizzano le loro azioni in modo metodico, sistematico e
sequenziale. Da ci, ovviamente, deriva limportanza della registrazione, dellascolto e
dellosservazione anche del dettaglio pi insignificante.
Lorganizzazione sequenziale del discorso riguarda il modo in cui lazione di uno dei
partecipanti finisce sempre per condizionare lazione successiva del suo interlocutore;
Sacks (1972) riporta che ogni conversazione ha un inizio, un mentre ed una fine e si svol-
ge quindi nel tempo134. Fele (2007:101) riporta un esempio molto chiarificatore rispetto
alla sequenzialit e alla sequenza di prospettive, di retrospettive e di relative aspettative
se la strada che il viaggiatore sta seguendo considerata corrispondente alla strada se-
gnata nel pacchetto di istruzioni, ci sar nella sequenza descritta dalle istruzioni un punto
di riferimento successivo atteso. Questo punto di riferimento comporta delle conseguen-
ze per il precedente e il successivo punto di riferimento perch una sequenza richiede
lapparizione di pi di un componente per essere una sequenza. Lapparizione di un solo
componente di per se non stabilisce una sequenza, in quanto il viaggiatore pu essere
diretto in una direzione sbagliata quando il punto di riferimento viene avvistato. Ma
lapparizione di un secondo punto di riferimento retrospettivamente fornisce al primo (o
al precedente) la propriet di essere effettivamente il precedente rispetto al successivo,
proprio come lapparizione del successivo punto di riferimento d un senso al suo essere
un successivo piuttosto che una occorrenza slegata isolata. Ci che importante che
una sequenza prevede il realizzarsi di alcuni eventi, ma al contempo stimola la nascita
di una aspettativa lapparizione del primo punto di riferimento orienta il viaggiatore al
successivo nella sequenza e stabilisce una aspettativa, cio una volta che il primo viene
notato esso recede nello sfondo e non viene pi cercato. Laspettativa scivola verso il
non ancora visibile o avvistato successivo nella sequenza. Nello stesso modo quando si
incontra il secondo successivo anchesso recede nello sfondo. Lelemento aggiunto che
lo sguardo retrospettivo fornisce, dopo che sono stati trovati due componenti, consiste
nel fatto che gli elementi sono collegati nellordine previsto dal pacchetto di istruzioni:
la relazione dordine, cio, di tipo sequenziale, e si ritiene che la serie di apparizioni
implichino che uno sta procedendo adeguatamente verso la destinazione135.
Gli atti linguistici mostrano che ogni azione condizionata da ci che avvenuto
e da ci che avverr, e ci ci permette di introdurre il concetto di coppia adiacente. La
coppia adiacente identifica lazione di uno dei parlanti con lazione subito successiva e
quindi concatenata, di un altro partecipante allevento linguistico.
Esempi comuni di coppie adiacenti (cfr. segg.) possono essere:
domanda risposta;
saluto risposta al saluto;
richiesta esaudimento o non esaudimento della stessa;
invito accoglimento o non accoglimento della proposta;
accusa giustificazione.
stato dimostrato che le singole procedure non sono inventate al momento durante
la conversazione, ma tendono a ripetersi con il ripresentarsi di situazioni simili. Si attiva
una specie di memoria situazionale e si ripropone sia lo schema linguistico che la sua
struttura. Tali procedure risultano stabili e uniformi allinterno di una determinata cultura.
Pertanto, nel momento in cui si procede allanalisi del frammento che si configura di un
certo interesse, quasi indispensabile che se ne tenga conto. Va aggiunto che, in unanalisi
che si rispetti, molto importante la scelta del metodo da utilizzare. Infatti, se si concorda
nel dire che la conversazione un evento basato su delle procedure culturalmente e social-
mente condivise, ci significa che la cosa alla quale ci si deve riferire prima di ogni altra
quello che viene definito oggi come senso comune. Esso rappresenta quel mondo che, chi
si pone lobiettivo di analizzare uno scambio linguistico, deve condividere con i parlanti.
Poich si tratta di uninterazione verbale, necessario, inoltre, che lo studioso abbia
la stessa lingua madre degli interlocutori.
Le ulteriori procedure generiche sono:
il sistema della presa di turno, legato a chi pu parlare e quando pu farlo;

il repair, secondo il quale ogni parlante, durante la conversazione, deve con-
trollare se lascoltatore percepisce ed interpreta nel modo corretto il parlato,
nel caso contrario dovr ricorrere a strategie di riparazione per giungere nel pi
breve tempo possibile alla risoluzione del problema insorto.
6.7.2. Il sistema della presa di turno
Si definisce turno di parola quella azione in cui uno dei partecipanti alla conversa-
zione produce atti linguistici senza che gli altri interlocutori lo interrompano. Si possono
distinguere, per, secondo quanto sostengono Sacks, Schegloff e Jefferson (1974), dei
fatti tipici ricorrenti, ovvero:
il cambiamento dei parlanti si ripete pi volte;

di solito, si parla uno alla volta;
possono manifestarsi casi di sovrapposizione, in cui i parlanti prendono la paro-
la contemporaneamente, ma sono sempre fenomeni di breve durata;
la maggior parte delle transizioni caratterizzata da sovrapposizione o da pic-
coli fenomeni di silenzio;
lordine nella successione dei turni non fisso, ma variabile;
n la lunghezza, n il contenuto della conversazione sono stabiliti in anticipo;
il numero dei parlanti pu variare;
esistono tecniche di allocazione del turno;
i turni possono essere costituiti da unit differenti, anche da una sola parola;
esistono dei meccanismi di riparazione, o repair, qualora si commettessero degli
errori o delle violazioni durante la presa del turno.
Secondo Fele (2007), il turno pu essere definito come una realizzazione contin-
gente di quello che fanno i parlanti mentre realizzano una conversazione. Il turno
determinato interattivamente, ed costituito da elementi non sempre riducibili a quelli
identificati linguisticamente, raggruppati in unit costitutive di turno come singole pro-
posizioni, frasi o anche singole parole alle quali, per, nellambito dellinterazione, i
parlanti attribuiscono un senso compiuto.
Ogni turno detto tripartito, in quanto avr una parte che fa riferimento al turno
precedente, (detta retrospettiva), una parte sar riferita al contenuto del turno stesso
(detta attuale), ed una sar prospettiva, poich prefigura un corso di azioni a venire.
In genere il parlante che seleziona chi dovr prendere la parola dopo di lui at-
traverso delle domande o strategie simili. Linterlocutore selezionato potr intervenire
solo quando il primo avr concluso. Il tempo che intercorre tra la fine di un turno e
linizio del successivo, viene detto punto di rilevanza transazionale. Tuttavia, potrebbe
anche capitare che il parlante non indichi il prossimo interlocutore lasciando in qual-
che modo libert, al termine della propria unit costitutiva di turno, la presa di turno
da parte di chiunque. Nel caso in cui, invece, nessuno prenda la parola, allora, il
primo parlante che allunga il proprio turno continuando o migliorando e chiarendo
la propria esposizione.
In generale, nei momenti in cui avviene il passaggio fra un turno e laltro, si pos-
sono verificare delle pause, ovvero dei silenzi; questi saranno tanto pi lunghi quanto i
parlanti avranno problemi nellidentificazione del punto di transizione: Pi le opzioni
vengono lasciate cadere, pi il silenzio si allunga. [...] il silenzio che si genera tra due
persone che sono impegnate in una conversazione ma che in quel particolare momento
rinunciano entrambe a parlare un silenzio rumoroso, dove il rumore costituito dalla
continua rotazione delle opportunit di parola che momento dopo momento, continua
ad essere resa disponibile a turno ai partecipanti: o parla uno, o parla laltro, e cos via,
alternativamente di seguito, finch qualcuno non riprende effettivamente a parlare (Fele,
2007).
6.7.3. Punto di rilevanza transizionale (PRT) e prosodia
In una normale conversazione faccia-a-faccia di tipo non istituzionale, i parlanti

prendono la parola secondo uno schema di alternanze del tipo parlante A- parlante B,
parlante A- parlante B e cos via, senza sovrapposizioni o interruzioni. Ci significa, che,
generalmente, ogni parlante sa quando pu o quando deve prendere la parola e riesce
ad evincerlo grazie allindividuazione del cosiddetto punto di rilevanza transizionale, o
PRT. Il PRT si situa tra un turno e laltro e corrisponde alla confluenza di pi elemen-
ti, che contribuiscono a determinare la fine del turno precedente, e la possibilit per il
parlante successivo di prendere la parola. Secondo gli studi di Couper-Kuhlen e Selting
(1996) 136, il PRT si compone dei seguenti elementi:
- completamento sintattico;
- completamento semantico-lessicale;
- definizione di un profilo intonativo;
- sguardo;
- gestualit.
6.7.3.1. Il ruolo dellintonazione
Lidentificazione di profili intonativi, o tone e melodie tipicamente associate a de-

terminati enunciati, pu essere determinante nellidentificazione della fine del turno, e
quindi giocare un ruolo fondamentale nellavvicendamento. Pi specificatamente, sareb-
be necessario identificare in ogni struttura laccento frasale, che determiner quindi il
punto iniziale, o probabilmente, quello finale, di un contorno ascendente o discendente,
che pu quindi designare un movimento del pitch, associato ad un contorno intonativo.
Lintonazione 137 un elemento non sempre di facile previsione, ma, le conoscenze con-
divise dei parlanti, relative soprattutto al sistema linguistico del proprio repertorio, fun-
gono da punto di ancoraggio per lidentificazione dei profili pi convenzionali e meno
marcati da variet di tipo diatopico.
6.7.4. Velocit di eloquio e loudness
Per capire se verr o meno aggiunto dellaltro materiale al turno, possibile considera-
re anche il criterio del tempo: se la velocit di eloquio dellenunciato aumenta, questo
potrebbe essere percepito come linizio di un nuovo contorno, quindi un deterrente alla
presa del turno da parte del parlante successivo, poich, evidentemente, il parlante che
detiene la parola avr lintenzione di comunicare ancora qualcosa.
Anche il loudness 138 svolge una funzione simile, relativamente allidentificazione
dei confini frasali: laumento del valore di loudness corrisponde generalmente al punto
di maggiore informativit dellenunciato, quindi, sar difficile che un turno termini con
un livello di loudness pi alto, rispetto a quello medio utilizzato dal parlante, durante il
mantenimento del turno; al contrario, un livello di loudness decrescente, si riscontra in
prossimit della fine dellenunciato.
In conclusione, combinando i due valori, potremmo dire che un maggiore livello di
loudness ed una diminuzione della velocit di eloquio saranno associati ad uninforma-
zione pi rilevante, mentre un minore livello di loudness ed un aumento nella velocit di
eloquio saranno riservate ad informazioni meno prominenti.
Alcuni studi di fonetica acustica e di prosodia hanno dimostrato che in situazioni
molto competitive il parlante che vuole mantenere il proprio turno, alla fine di un con-
testo sintattico (che permetterebbe allascoltatore di auto selezionarsi) aumenta notevol-
mente la velocit di articolazione e lintensit, una volta conquistato il turno e evitato
lintromissione di un eventuale ascoltatore il parlante rallenta notevolmente la propria
velocit e riduce anche lintensit della voce.
6.7.5. Pause
Il confine fra due contorni, quindi la fine di un enunciato, pu essere talvolta identi-
ficato dalla presenza di una pausa; ma le pause ricorrono anche allinterno dello stesso
contorno. Auer (1996) sostiene che per discriminare le pause interne al contorno, rispetto
a quelle conclusive, sia necessario considerare anche le informazioni attribuite alla ge-
stualit. Una pausa conclusiva sar infatti caratterizzata dallassenza di movimenti arti-
colatori, i quali compariranno invece in associazione ad una pausa interna al contorno.
6.7.6. Ritmo
Il contributo del ritmo nello stabilire la fine del turno, pu essere compreso solo fa-
cendo riferimento al concetto di isocronia, cui abbiamo accennato precedentemente. In
particolare, sappiamo che lisocronia di tipo sillabico, in lingue come litaliano, prevede
la ricorrenza alternata di accenti forti, definiti ictus, ai quali si affiancano sillabe con ac-
centi medi o deboli. Di conseguenza, il parlante sar in grado, a livello frasale, di capire,
facendo riferimento a questi criteri, quando sar il caso di intervenire nella conversazio-
ne, senza spezzare il ritmo nel parlato del proprio interlocutore: ovvero, laddove volesse
intervenire ma laltro parlante fosse in una fase ritmica incentrata sulle sole sillabe de-
boli, sarebbe in grado di prevedere la ricorrenza necessaria di un elemento forte, quindi
eviterebbe linterruzione. Tuttavia c da precisare che il valore degli elementi prosodici
sempre molto legato al contesto comunicativo, di conseguenza soggetto a forti livelli
di interpretazione.
In generale, potremmo dire che lintenzione di proseguire nel mantenimento del pro-
prio turno, pu essere identificata attraverso la percezione della sinergia di tutti questi
elementi, quindi:
- il parlante aggiunger elementi al contorno ritmico;

- continuer ad utilizzare, grossomodo, lo stesso livello di loudness e di velocit
di eloquio;
- eviter di inserire pause di lunghezza considerevole.
Considerando gli elementi citati, Auer (1996) sostiene che la prosodia agisca da fil-
tro fra la sintassi e la presa del turno. Essa viene utilizzata dal parlante come conferma,
per discriminare o identificare il completamento sintattico rispetto al completamento del
turno. Questa idea presuppone che sia tra laltro possibile stabilire una corrispondenza
fra landamento della curva del pitch nella parte finale del contorno e il punto di comple-
tamento sintattico, allo scopo di rilevare il punto di transizione fra parlanti.
6.7.7. Le sequenze complementari
Esistono nella conversazione delle sequenze di turni costituite da coppie di turni

adiacenti, in cui la presenza del primo turno implica necessariamente il suo comple-
tamento con lelemento della coppia corrispondente: questo il caso delle cosiddette
sequenze complementari, o coppie adiacenti. Le sequenze complementari:
- sono per lo pi adiacenti;

- sono prodotte da parlanti diversi;
- contengono sempre un enunciato iniziale e un completamento finale;
- sono tipicizzate.
Le sequenze complementari o adiacenti si manifestano seguendo uno schema ben

preciso, per cui data lenunciazione del primo elemento della coppia, questa dovr essere
conclusa con linserimento della parte complementare, pronunciata da un parlante diffe-
rente. Per questo motivo esse vengono definite tipicizzate, dal momento che sono entrate
a far parte di forme convenzionalizzate, che caratterizzano le coppie domanda/risposta,
saluti/saluti, offerta/accettazione, scuse/minimizzazione.
Una sequenza complementare avr quindi una realizzazione positiva, ovvero riuscita,
laddove venga inserito il completamento previsto dallenunciato di partenza. Questo av-
viene nel rispetto della tipicizzazione delle coppie, che segue quel principio di rilevanza
condizionata, per cui dato un determinato enunciato che segnala la presenza dellinizio
della sequenza, ci si aspetter di trovare solo un determinato tipo di completamento, che
sar atteso, in quanto preferenziale. Il concetto di preferenzialit definisce quindi un enun-
ciato complementare di tipo non marcato, quello cio che ci aspetteremmo normalmente di
trovare in quella determinata situazione; ma non sempre la risposta alla sequenza rispetta
tale massima. In alcuni casi di risposta alle richieste, si pu trovare un rifiuto e non necessa-
riamente laccettazione prevista dalla coppia. Tale risposta rappresenter una scelta di tipo
non preferenziale, ovvero marcata, poich non risulta essere una scelta prevista o attesa.
Risposta preferenziale Non marcata Accettazione (positiva)
Risposta non preferenziale Marcata Rifiuto (negativa).
Talvolta, tra i due enunciati che costituiscono una sequenza complementare, possono esse-
re inserite altre sequenze di questo tipo, dette sequenze inserto. In questi casi, bisogner com-
pletare prima gli inserti, e solo in seguito si potr completare la sequenza iniziale (uno degli
esempi pi noti quello della richiesta incassata), che corrisponde alla tipica situazione in cui
si risponde ad una domanda con una nuova domanda, per cui sar necessario rispondere prima
alla domanda incassata, per poter poi procedere al completamento della sequenza iniziale.
6.7.8. Il topic setting
possibile identificare la caratteristica detta content management, ossia la gestione

dei contenuti dellinterazione che contiene al suo interno le caratteristiche di topic set-
ting (legate agli argomenti della conversazione) e di topic shifting 139 (che riguardano il
cambio di argomento).
Tra le competenze della content management si evidenzia, oltre allabilit di com-
prendere ci di cui si sta parlando, quella di determinare frasi di argomento diverso
rispetto al tema della conversazione vera e propria e, quindi, frasi il cui argomento prin-
cipale viene temporaneamente sostituito con uno secondario. Questo permette allinter-
locutore di cambiare il contenuto o parte di esso della conversazione in base a quanto
accade durante linterazione. Potrebbe avvenire un cambio di contesto della situazione
nella quale si sta agendo stimolando il ricentraggio della conversazione 140. Tale strategia
mira infatti a ricentrare, spostare e riportare il discorso su aspetti non ancora considerati
ma ritenuti importanti. A volte per possibile che il parlante abbia volontariamente
spostato largomento della discussione e in questi casi il ricentraggio viene preceduto da
una serie di strategie che approfondiremo di seguito.
Largomento della conversazione pu essere cambiato ma necessario impiegare delle
energie supplementari applicando dei misplacement markers come a proposito.. ecc. 141.
Riassumendo, se il sistema viene rispettato non dovrebbero sorgere problemi, in

caso contrario, si attivano piani di repair, o di riparazione delle regole violate. Quelle
non riparate determineranno il conflitto o lasimmetria fra i parlanti.
In genere le violazioni vengono definite:
a. Minime: quando linterlocutore anticipa ci che il parlante sta per dire dimo-
strandosi attento e capace di comprendere le cose di cui si sta discutendo;
b. e Interruzioni vere e proprie che possono essere riparate (quando si in presen-
za di scuse) o non riparate (nel caso in cui sorgono conflitti).
Quindi un parlante conquista il turno ed ha il diritto di completarlo, un intervento

da parte di B sarebbe una violazione del diritto di A il quale parla fino al completamento
(first possible completation) del proprio turno. In questo momento mentre si nella tran-
sition relevance place, gli altri interlocutori possono intervenire.
I cambi possono avvenire secondo tre procedure:
- A sceglie B (attraverso una domanda o una richiesta);

- A lascia il turno a chiunque sia in grado di intervenire;
- B si autoseleziona.
6.7.9. Sovrapposizioni di parola
In alcuni casi possibile considerare un caso di violazione dellalternanza del turno di

parola solo come violazione apparente poich lascoltatore dimostra una conoscenza e un ri-
spetto delle regole stesse nel momento in cui le viola. Cos possiamo identificare delle insor-
genze transazionali quando il parlante parte subito dopo il punto di rilevanza transazionale,
nello stesso momento in cui colui che ha la parola non ha ancora terminato il suo turno; delle
insorgenze di riconoscimento quando linterlocutore parte prima che il parlante abbia termi-
nato il suo turno, riconoscendo il completamento dello stesso; delle insorgenze progressive
se linterlocutore aiuta il parlante a completare la sua unit costitutiva transazionale.
Bisogna, tuttavia, precisare che tali alternanze nel sistema della presa di turno hanno
valore sia per la conversazione ordinaria che per quella informale. In contesti istituziona-
li pi formali, infatti, tali regole vengono solo leggermente modificate in base alla parti-
colare situazione nella quale si interagisce. Ad esempio, linterlocutore prima di parlare,
potrebbe, sfruttando la comunicazione non verbale, fare dei gesti (come alzare la mano),
volti a far capire che vorrebbe intervenire senza per interrompere chi sta parlando.
6.7.10. Il fenomeno del repair
Laltra strategia, messa in moto durante una normale conversazione, quella definita
repair 142.
Il termine, coniato da Goffman143, identifica una sorta di riparazione ad un errore o
un possibile disturbo creatosi durante il turno di uno dei parlanti. Quindi una correzio-
ne intersoggettiva, il parlante pu auto correggersi nel momento in cui nota che qualcosa
non va nel suo enunciato, oppure linterlocutore a richiedere la riparazione tramite una
domanda o la ripetizione di qualche parola.
Ovviamente con il termine di correzione non si indica sempre un errore ma anche la
riformulazione di qualcosa che stato prodotto in maniera non completamente compren-
sibile. Durante una interazione si tende, quindi, a risolvere immediatamente il problema
e prevenire difficolt maggiori che potrebbero emergere.
Goffman, nel dettagliare le procedure di repair identifica alcuni passaggi (anche se i
pi frequenti sono i primi due):
riparazione;
conforto;
apprezzamento;
minimizzazione144.
Le tecniche di repair sono importantissime per una buona conversazione, se man-

cassero non si raggiungerebbe lo scopo dellinterazione e si potrebbe anche giungere al
litigio (categoria che affronteremo in seguito).
Quando lo stesso interlocutore a riparare si parla di self initiation e se completa la
riparazione nel turno diremo self repair. Se invece laltro interlocutore a riparare, avre-
mo other initiation e se la riparazione viene completata nel turno avremo other repair.
Quando ci troviamo di fronte ad un other initiation, tutta la sequenza e lorganizzazione
dellinterazione si blocca ed il parlante A deve riparare immediatamente in seguito alla
richiesta esplicita dellinterlocutore B (other). La riparazione da parte dellinterlocuto-
re B pu essere di tipo eterotipo o asimmettrico. Questultimo molto frequente nelle
conversazioni tra genitori e figli, insegnanti e scolari, parlanti di lingua materna (o L1) e
di lingua appresa (o L2)145. Nella conversazione eterotipa, cio tra pari quando la ripara-
zione avviene in maniera esplicita lintenzione di offendere consapevolmente e di sfida
dimostrando il pieno disaccordo e questo pu essere linizio di un litigio. Le relazioni
possono essere simmetriche o asimmetriche e ovviamente hanno regole differenti sia nel
caso del repair che nel cambio di turno.
Secondo Hymes (1974), a volte, le incomprensioni durante una conversazione sono
dovute al mancato rispetto di alcune regole definite sociolinguistiche. Alcune di queste
sono universali e presenti in tutte le culture come ad esempio il rispondere ad una do-
manda, altre invece sono fortemente legate a culture specifiche, come portare del riso se
si invitati, mangiare con le mani o portare zucchero e caff ad un funerale. Goffman
(1971) dimostra che la presenza di tali rituali permette di considerare una persona cor-
tese e affidabile o, in caso contrario, scortese e inaffidabile; e in base a tali parametri
possibile distinguere una low context culture e una high context culture 146. La prima,
generalmente, propria della cultura occidentale dove non si rileva una particolare asim-
metria tra i partecipanti alla conversazione, si veda luso del tu che prevale sul lei. Nel
secondo caso invece ci si riferisce a quelle culture, e quindi lingue, che privilegiano il
rispetto delle distanze e dei ruoli e la preferenza ad utilizzare contesti formali.
Dunque, se nelle prime sono presenti frasi o interi discorsi diretti, nelle seconde si d
maggiore spazio allallusione e ad un tono di voce quasi bisbigliato.
Recentemente alcune indagini di analisi conversazionale hanno evidenziato una se-
rie di markers pragmatici da utilizzare per analizzare dettagliatamente il coinvolgimento
dei parlanti nellinterazione. Tali markers misurano la gestione emotiva dellinterazione
e il livello di coinvolgimento degli interlocutori. Seguendo le indicazioni di Marina Ca-
stagneto (2008:103) possibile differenziare tre differenti tipi di markers:
1. quelli che testimoniano la presenza di un coinvolgimento da parte dei parlanti

anche in relazione alloggetto del dialogo, il cosiddetto map task. Rientrano in
questa categoria la negoziazione allinizio e alla fine dellinterazione, la sua lun-
ghezza e quella dei turni conversazionali, la presenza o meno di sovrapposizioni
di parola allinterno del dialogo;
2. quelli che indicano un coinvolgimento rispetto al map task e, quindi, la presenza
di deittici o figure del discorso;
3. quelli che testimoniano solo il coinvolgimento tra i due interlocutori.
Soffermandoci ad esempio sul marker 3 si rileva che in interazioni in cui i parlanti

sono particolarmente coinvolti, forte la presenza dei pronomi di I e II persona singola-
re, e luso della I persona plurale per dare la sensazione di essere inclusi in quanto viene
detto. Da qui riconosciamo il grado di formalit o informalit attraverso cui condotta la
conversazione e le formule di cortesia.
Ovviamente si possono rilevare anche diversi stili di comunicazione a cui un par-
lante pu aderire e in linea con le dimensioni che Tannen (1987:105) ha indicato come
considerateness e involvement, possibile distinguere i parlanti che fanno uso di uno
stile di high-considerateness da quelli che invece utilizzano uno stile high-involvement.
I parlanti con uno stile high-considerateness utilizzeranno, durante levento linguistico-
comunicativo una forma nella quale emerge rispetto reciproco e distacco, evitando so-
vrapposizioni, rispettando il proprio turno ed avvalendosi di un ritmo pi o meno lento.
Nel caso invece di parlanti che utilizzano lo stile high-considerateness, troveremo mag-
giore coinvolgimento, con maggiore propensione allinterruzione e al parlare in maniera
molto veloce, enfatizzando linvolvement emotivo.
6.7.11. Un caso: il litigio
Nel cambio di turno, abbiamo gi detto che necessario rispettare delle regole anche se
questo non implica necessariamente che si sempre daccordo. Il litigio un caso spe-
cifico di alternanza. Ci si sovrappone e non si lascia spazio a vicenda, le soluzioni alle
regole infrante sono di due tipi: a) si accorciano i turni al limite, si alza la voce e si pu
arrivare come un vortice fino alla violenza; b) si attiva lexit cio la constatazione che
le regole sono state infrante, non si ha pi fiducia nellarchitettura e nellorganizzazione
dello scambio e nella sua finalit, non si ha pi passaggio di informazioni e crescita
personale. In questi casi si esce dalla conversazione, si sbatte il telefono in faccia, ci si
allontana e non si partecipa pi. Si perde quella dose empatica che permette lo svilup-
parsi di una conversazione e si mette in atto una schermaglia di incomprensioni. Nessuna
strategia di repair viene messa in atto.
Un altro fenomeno da approfondire quello della politeness, o coinvolgimento ne-
gativo alla conversazione. Gli atti linguistici (vicino allinsulto e causa di litigio) ven-
gono definiti face threading acts 147. Raramente questi devono essere considerati come
dei reali attacchi, e spesso, infatti, attraverso lironia e lintroduzione di qualche battuta
si riesce a ridurre laggressivit, sgonfiando e svuotando il significato dei face threading
acts. In questi casi limportanza del valore linguistico di quanto viene detto assume un
grande peso. Ad esempio, non devono essere utilizzati verbi allimperativo, non si rifiuta
o non si esprime dissenso in modo brusco. Respingere in maniera aperta, in molte cultu-
re, considerato una minaccia da parte dellinterlocutore che lo riceve.
Cristiano Castelfranchi148 sostiene che la teoria secondo la quale il litigio, il diver-
bio, vengono trattati come conversazioni per il semplice fatto che ci sono parlanti che si
sentono e dibattono su qualcosa, si dimostra abbastanza debole. Lo studioso propone una
differenza tra conversazioni aggressive e cooperative e considera i litigi come degli
eventi linguistici a tutti gli effetti alla pari di quelli cooperativi. Perci, a suo avviso,
sarebbe opportuno non basare un modello dellinterazione sociale su quello delle con-
versazioni di tipo cooperativo in quanto ci sottovaluta sia i rapporti di dipendenza tra i
parlanti sia il problema relativo al modo in cui colui che parla cerca di influenzare gli al-
tri che lo ascoltano nelle loro reazioni/risposte. Questo ha portato, infatti, a vedere negli
scambi linguistici di tipo cooperativo che si relazionano anche alle strategie di repair, il
conflitto come qualcosa che si studia per sanarlo o per ricondurlo ad una collaborazione,
non riconoscendogli una forma autonoma di interazione a s stante. In generale, ci che
distingue un diverbio da una conversazione cooperativa il fatto che i partecipanti non
saranno impegnati ad aderire allinterazione n a far capire che lo si fa.
Non superfluo ricordare che quasi impossibile redigere delle regole certe e preci-
se per ogni cultura linguistica. Questo il motivo per il quale si preferisce adottare regole
di cortesia generali che vanno legate ed individuate allinterno del contesto nel quale
avviene lo scambio linguistico.
6.7.12. Un caso: la domanda
Per la lingua italiana, esiste una categorizzazione ben definita riguardo alle doman-
de, ovvero alla formulazione delle frasi interrogative. Il parlante generalmente conosce
questi schemi e li identifica senza troppe difficolt. Nei PRT (punto di rilevanza transi-
zionale) adiacenti a questi enunciati, lintonazione gioca, evidentemente, un ruolo fon-
damentale. Giacch le frasi interrogative si distinguono dalle semplici dichiarative per
linnalzamento tonale nella parte terminale dellenunciato, chiaro che linterlocutore
sar in grado di capire facilmente se il parlante pone una domanda, a prescindere dal
fatto che si tratti di una domanda reale o fittizia, e fornir pertanto la propria risposta. Il
completamento preferenziale ad una domanda sar quindi una risposta adatta a soddisfa-
re lintenzione del parlante, e quindi a dare o confermare le informazioni che preludo-
no alla formulazione dellinterrogativa. Ma, come per tutte le sequenze complementari,
esiste anche in questo caso la possibilit che linterlocutore dia un completamento non
preferenziale. Egli potr:
- rifiutare espressamente di rispondere, negando per altro, in questo caso, non solo
il principio di cooperazione, ma anche la massima griceiana della quantit (per
la quale allinterno di un enunciato necessario sempre dare il giusto numero di
informazioni);
- rispondere con il silenzio, che in questo caso sar interpretato come fortemente
significativo; questo potr essere inteso o come la mancata conoscenza della ri-
sposta alla domanda posta, o come la decisione di non collaborare allo scambio
comunicativo, interrompendolo bruscamente, in modo del tutto non preferenziale
ed estremamente marcato.
Allinterno delle sequenze domanda/risposta, capita spesso di trovare incassate delle

sequenze dello stesso tipo; abbiamo gi accennato alla presenza delle sequenze inserto,
quelle cio che si inseriscono tra i due enunciati complemento di una coppia adiacente:
parlante A : enunciato (domanda);

parlante B: enunciato1 (domanda);
parlante A: complemento1 (risposta);
parlante B: complemento (risposta).
Come gi detto la tipica situazione in cui si risponde ad una domanda con una nuova
domanda, per cui sar necessario rispondere prima alla domanda che fa parte della sequenza
incassata, per poter poi procedere al completamento della sequenza complementare iniziale.
Nella conversazione ordinaria, i partecipanti possono in modo reciproco commen-
tare quanto hanno ascoltato nellenunciato appena precedente. Enunciati di questo tipo,
quando compaiono in una struttura sequenziale domanda/risposta, non costituiscono
linizio di una nuova coppia, ma occupano piuttosto una posizione particolare, un terzo
turno dopo la risposta, in cui chi ha fatto la domanda pu, senza interferire, eseguire
varie azioni: esternare il proprio accordo o disaccordo con quanto sostenuto dallinterlo-
cutore, sollecitare ulteriori informazioni, o dimostrare semplicemente di ascoltare. Que-
sto stesso sistema si pu riscontrare anche in varie situazioni istituzionalizzate, come nel
contesto scolastico. In questo caso il commento dellinsegnante a seguito della risposta
del proprio alunno, verr percepito come valutazione; lalunno sapr di doversi aspettare
questo terzo turno al termine del proprio, tanto che, nei casi in cui questo non venga in-
serito, lo interpreter come valutazione negativa, e cercher di aggiungere informazioni
al proprio intervento. In generale, infatti, una valutazione positiva chiude la sequenza,
mentre una negativa o lassenza di valutazione lasciano linterscambio aperto.
Normalmente la frase interrogativa viene formulata quando il parlante vuole porre
una domanda. Questo presuppone che il parlante in questione, non conoscendo deter-
minate informazioni, cerchi di acquisirle attraverso la risposta del proprio interlocutore.
Come abbiamo gi avuto modo di osservare precedentemente, Grice 149 sostiene che
in base al principio di cooperazione, che sta alla base della conversazione, affinch la
domanda venga ritenuta valida, necessario, nel rispetto della massima di qualit, che
il parlante dimostri sinceramente di voler acquisire queste informazioni non conoscendo
la risposta. Durante una concreta e reale conversazione, per, questo criterio non viene
sempre rispettato. In base alle diverse violazioni possibile effettuare una prima catego-
rizzazione delle frasi interrogative italiane in interrogative reali (composte da una do-
manda vera, e dove il parlante non conosce la risposta) ed interrogative fittizie (composte
al contrario da una domanda falsa, cio di cui il parlante conosce, o crede di conoscere
gi la risposta).
6.7.12.1. Interrogative reali
A loro volta le interrogative reali possono essere differenziate in interrogative totali,

parziali ed alternative.
Le interrogative reali totali, definite anche yes/no questions, sono quelle che com-
prendono linsieme della frase e non hanno contrassegni particolari, ma, come per tutte
le interrogative italiane saranno segnalate dal segno di interpunzione interrogativo (?)
nella lingua scritta, mentre nel parlato saranno evidenziate da un determinato profilo in-
tonativo di tipo ascendente (segnalato con il simbolo oppure / in trascrizione fonetica).
Questo tipo di interrogativa pu essere parafrasata con una frase del tipo vero che...?,
o possono essere precedute dal verbo sapere: sa dirmi se...?, mi sai dire se...?, ecc. Le
possibili risposte che linterlocutore pu fornire alle interrogative totali sono quattro: s,
no, forse, (non) lo so (da qui la denominazione di yes/no questions).
Le interrogative reali parziali si concentrano sullidentit di uno dei referenti, inve-
stendo solo su uno degli elementi della frase, dando per scontata la verit della restante
parte. Nellesempio a che ora sei arrivato?, non si mette in dubbio che tu sia realmente
arrivato, ma si vuole conoscere lora precisa dellarrivo. Un avverbio, un aggettivo o un
pronome interrogativo, che specifica qual il punto su cui verte la domanda (chi, quale,
quando, come ) introduce queste interrogative; quando fanno parte di un sintagma pre-
posizionale, laggettivo e il pronome sono preceduti da una preposizione (Di quali,
A chi, Con che, ecc.)150.
Le interrogative reali alternative sono quelle domande definite anche disgiuntive,
cio con la proposta di unalternativa. Queste vengono formulate attraverso la presenza
di congiunzioni disgiuntive come o, oppure (es. Preferisci una cola o del succo daran-
cia?).
6.7.12.2. Interrogative Fittizie
Le interrogative fittizie hanno diversi scopi e di norma il parlante le formula per

orientare la risposta dellinterlocutore; per ragioni di cortesia; per fare una richiesta in
forma attenuata per esempio non sarebbe bello se non esistesse la fame nel mondo?;
per spiegare qualcosa; per raccontare. Tra queste interrogative troviamo anche quelle
rivolte a se stessi che ovviamente non richiedono risposta ma perch sono cos timido?.
In alcuni casi il parlante ritiene di conoscere la risposta affermativa o negativa e ne
chiede solo la conferma allinterlocutore attraverso una domanda, che in un certo senso
prevede ununica risposta. In questo caso le interrogative vengono definite fittizie a
risposta orientata e sono considerate delle domande su affermazioni introdotte da for-
mule quali forse, forse che, forse non o immediatamente seguite da parole o frasi
come vero?, non vero?, non cos?, non credi?. Queste interrogative sono
anche conosciute come domande retoriche. In alcuni casi una risposta ad una domanda
retorica pu creare sconcerto nel parlante (vuoi mandarmi in rovina? Si!).
Tra le interrogative fittizie dobbiamo includere anche quelle definite di cortesia.
Queste generalmente sono presenti in situazioni formali con lo scopo di dare inizio, in
modo cordiale, ad una conversazione, oppure di mantenere la comunicazione aperta
con il proprio interlocutore (come va?, bella giornata, vero?, anche lei qui?.
Secondo la massima del tatto di Leech (1983) , basilare regola della cortesia, le
interrogative di richiesta attenuata sono tipiche nei contesti in cui il parlante calibra
i propri enunciati con il fine di mantenere la conversazione come base dei rapporti
sociali. La richiesta la situazione tipica in cui il parlante introduce un elemento
di svantaggio per linterlocutore. Tale elemento dovr essere mascherato sotto la
forma del massimo beneficio. In queste specifiche interrogative non si utilizzano le
forme delle richieste previste dalla nostra lingua come ad esempio luso di un modo
imperativo o di un congiuntivo esortativo. Limperativo nelle richieste si configura
come modo poco cortese, ad eccezione di quei casi in cui non venga utilizzato in si-
tuazioni vantaggiose per linterlocutore (Prendi un altro pezzo di torta?). Per questo
motivo nelle interrogative di richiesta attenuata, la richiesta spesso mascherata
sotto la forma di interrogativa, con forza illocutoria implicita nella richiesta stessa
senza ledere il principio di cortesia dellinterlocutore. Cos limperativo o il congiun-
tivo esortativo vengono sostituiti dal condizionale o dallindicativo, soprattutto con
i verbi potere o volere che agiranno da mitigatori (potresti passarmi il sale?). Queste
interrogative hanno anche una valenza pragmatica quando non veicolano una richie-
sta che prevede una risposta ma bens agiscono sul destinatario per ottenere qualcosa
(mi presti 20 euro?, mi passi il pane?).
Le interrogative per spiegare sono tipiche delle lezioni, delle conferenze e nello
scritto dei libri o degli articoli. Lo scopo principale quello di porre una domanda,
fingendo che questa venga ascoltata o letta, per introdurre una spiegazione o un chia-
rimento.
Le interrogative per raccontare compaiono soprattutto nei testi narrativi. Anche in
questo caso il parlante/scrittore rivolge una domanda a se stesso con lo scopo di attirare
lattenzione del destinatario per esempio Cammina, cammina, chi incontr Cappuccet-
to Rosso nel bosco?.
6.7.12.3. Le interrogative indirette
Tutte le interrogative presentate finora sono costituite da frasi autonome e non dipendenti
da altri enunciati allinterno della struttura. Inoltre tutte vengono pronunciate o scritte
nello stesso momento e nello stesso luogo in cui vengono riportate. Per questo motivo
vengono definite interrogative dirette.
Esistono per altri tipi di interrogative, che, al contrario di quelle presentate, compa-
iono sempre in forma subordinata e si riferiscono ad un momento o un luogo differente
da quello in cui vengono riportate. Queste interrogative indirette non vengono segnalate
con una particolare punteggiatura nello scritto e n con un andamento del tono di tipo
ascendente nel parlato. Esempi di interrogative indirette sono: Non so se rimanere,
Mi chiedo cosa fare, ecc.
Anche allinterno della classe di interrogative indirette possibile identificare dei
sottotipi come le interrogative indirette totali introdotte dalla congiunzione se (es. Non
so se dirlo anche a Claudia); le interrogative indirette parziali, che al pari delle corri-
spettive dirette, vengono generalmente introdotte da avverbi, aggettivi o pronomi inter-
rogativi (es. Vorrei chiedergli quando verr a trovarmi); le interrogative indirette alter-
native, in cui il primo termine sempre introdotto dalla congiunzione se, ed il secondo,
cio quello relativo alla alternativa, dalle congiunzioni disgiuntive o, oppure (es. Mi
piacerebbe sapere se scherzi o dici sul serio).
6.7.12.4. Il contesto
Per concludere la nostra digressione sullanalisi conversazionale tratteremo il con-

testo.
Schegloff 1991:52 si riferisce al contesto ponendo alcune domande in che modo
il fatto che il parlare avvenga in certi contesti (per esempio in ospedale) produce certe
conseguenze per la forma, la dimensione, la traiettoria, il contenuto, il carattere dellin-
terazione? E quale il meccanismo per mezzo del quale il contesto ritenuto rilevante ha
determinate conseguenze per il parlare?.
Nei diversi manuali di analisi linguistica la parola contesto ha assunto un va-
lore talmente vago da dover essere utilizzato con molta cura specificando sempre
laspetto che si ritiene interessante o che si analizza. Il contesto infatti la situazione
(anche essa da definire), la scena, il luogo fisico ambientale e architettonico in cui
si realizza la conversazione, gli interlocutori e quindi le loro restrizioni e i limi-
ti imposti consciamente e inconsciamente (un poliziotto, un professore, lamante,
un amico), i limiti posti dallinterlocutore anche spaziale (in un autobus affollato
quindi con ascoltatori passivi e involontari) o temporali, linterlocutore scende alla
prossima fermata ed ha poco tempo, le intenzioni del parlante i suoi presupposti cul-
turali ecc. Tutto ci contesto ma nel nostro caso possiamo considerare il contesto
come quellaspetto della conversazione che i partecipanti attivi riconoscono come
rilevante e significativo. Esso quindi pu essere diverso di volta in volta ed in ogni
conversazione.
Il messaggio determinato dal contesto, dalla sequenzialit ma in qualche modo
rigenerandosi e svolgendosi in una conversazione con le regole suggerite crea nuovi
scenari nuovi contesti e quindi determina a sua volta, il contesto stesso.
Sacks (1972) introduce il concetto di indessicalit, cio ogni enunciato non ha un
significato assoluto e generalizzabile ma in qualche modo assume valore localmente e
contestualmente affina e specifica la sua peculiarit nel momento in cui prodotto in
base al luogo, al tempo, allinterlocutore, ecc. Spesso alcuni enunciati hanno un senso
solo se lo si collega al contesto e allenunciato precedente 151.
Sacks per spiegare quanto appena affermato introduce la categoria di frasi processo
e frasi prodotte. Le prime sono quelle frasi che in un contesto risultano essere gramma-
ticalmente corrette ma se isolate, perdono qualunque significato diventando agrammati-
cali. Prendiamo ad esempio una conversazione in cui linterlocutore A viene interrotto;
la frase interrotta e spezzata di A ha una grammaticalit nel divenire che si realizza nel
contesto e nellinterruzione ma se isolata e decontestualizzata perde la sua potenzialit
diventando senza senso.
Alcune teorie linguistiche si pongono il problema del contesto e del significato chie-
dendosi se sia pi efficace immaginare che la comprensione e quindi il significato di un
messaggio linguistico sia il frutto della composizione del significato delle singole parti
(o parole) impostazione composizionale, oppure, il significato sarebbe dellenunciato in
un contesto preciso e le singole parole verrebbero interpretate in base a questo, imposta-
zione de-composizionale.
Un esempio esemplificativo di quanto riportato lo troviamo in Andorno 2005:14:
giochi ancora con il bradipo? potremmo capire il senso della frase ma non compren-
dere il senso che lenunciato ha nel contesto in cui stato pronunciato, che vedeva un
tecnico informatico parlare con un collega che stava lavorando a un computer in un la-
boratorio. Saputo questo, potremmo arrivare a formulare un senso diverso da quello che
avevamo ipotizzato in precedenza, e che potrebbe essere parafrasato nel modo seguente:
perdi ancora tempo a lavorare con quel computer lentissimo?.
Dopo aver accennato a concetti quali il rapporto tra scritto e parlato, la percezione,
il senso delludito, il suono, le teorie della percezione, latto comunicativo e soprattutto
lanalisi della conversazione possiamo finalmente giungere a trattare il concetto della
trascrizione.
6.8. I Tipi di trascrizione e loro finalit
Con lavvento dei primi registratori a rulli di cera stato possibile fermare, docu-
mentare e rendere duraturo quello che finora abbiamo definito essere un evento evane-
scente: il parlato. La registrazione (vedi di Galat) un filtro che non documenta la co-
municazione nel suo complesso, ma predilige e sceglie esclusivamente il canale acustico
omettendo quindi fatti cinesici, prossemici ecc.
Ottenuta la registrazione, possibile redigere un verbale del parlato sonoro anche a di-
stanza di tempo e con modalit differenti. , quindi, possibile tradurre un atto non duraturo,
prodotto attraverso un mezzo con proprie e specifiche regole, in un codice diverso, molto
pi restrittivo, con regole e potenzialit differenti: la scrittura. indubbio che la trascrizio-
ne di un parlato risulta essere un atto innaturale, come fare passare un sasso da un setaccio,
molta informazione presente nel segnale acustico non viene documentata dalla trascrizione
dello stesso segnale. Anche la migliore trascrizione non altro che una astrazione frutto di
precise scelte da parte del trascrittore su cosa inserire e cosa invece omettere tra le infor-
mazioni possibili e presenti nel segnale sonoro, su cosa evidenziare e cosa invece celare.
La convinzione che la trascrizione sia un verbale completo e obiettivo del parlato
nasce dal considerare il parlato come una versione sonora dello scritto. Il parlato un
codice cos come lo la scrittura, ed essi sono tra loro molto differenti, ci comporta
che non tutte le registrazioni possono diventare un testo scritto. vero che al concetto di
trascrizione possibile associare il concetto di documento, di memoria, di atto del ricor-
dare, di promemoria cos come vero che spesso nella nostra quotidianit effettuiamo
trascrizioni come la lista della spesa elencata da una persona diversa, un indirizzo sug-
gerito al telefono, come anche un nome, un numero di telefono, un titolo di una canzone,
una indicazione stradale, ecc. Nella maggior parte di questi casi non trascriviamo inte-
gralmente lintero segnale percepito ma esclusivamente linformazione che riteniamo
importante utile per il nostro scopo. Un sonoro telefonico del tipo:
Moglie caro mi compri dei panini, ma non come quelli della volta scorsa, era-
no troppo cotti e bruciacchiati, lo sai che non amo che facciano tante molliche e
briciole, tanto poi tocca sempre a me pulire, come se fosse una regola o una legge
scritta su qualche tavola sacra, ecc.
diventa nella trascrizione effettuata dal marito comprare panini.

La trascrizione di un testo quindi diversa in base alla sua stessa finalit e verr
realizzata in modi e con caratteristiche differenti. In questo lavoro abbiamo identificato
6 diversi macro-tipi di trascrizione152:
1) trascrizione basata sulla memoria;

2) trascrizione per appunti e note (lezione, intervista, convegno);
3) trascrizione ordinaria (riunione condominiale; consiglio di dipartimento o altro
organo deliberante; trascrizione di udienza) che pu essere ulteriormente diffe-
renziata in parziale e completa;
4) trascrizione fonetica anchessa differenziata in trascrizione fonetica stretta e tra-
scrizione fonetica larga;
5) trascrizione a scopo forense (creare unindizio, una prova) anchessa nella sua for-
ma parziale con la presenza di omissis (molto pericolosa perch si elimina o si ri-
duce il contesto situazionale) e completa o integrale (termine ovviamente ambiguo
perch spesso per integrale si intende tutto il parlato, mentre forse dovrebbe essere
tutto ci che registrato quindi anche i rumori, i cambi di intonazione ecc.);
6) le disputed utterances, o meglio singole frasi con forte e grande carico informa-
tivo e incriminante, caratterizzate da una bassa e scarsa qualit acustica e spesso
origine di differenti versioni e interpretazioni trascritte.
Il primo caso di trascrizione riguarda il riportare su carta una conversazione ascol-
tata la sera prima o il giorno prima, o comunque in un tempo precedente al momento
della trascrizione. La forma pu essere un semplice appunto di una conferenza o di una
lezione ascoltata o delle parole di una canzone sentita in metropolitana. In questo caso
la trascrizione non prevede assolutamente lutilizzo delle stesse parole del brano ascol-
tato ma una personale interpretazione. Lo scritto in questi casi pu anche essere molto
lontano dalla realt. Nel caso del processo Fortugno ad esempio il giornalista dopo aver
ascoltato lesame del teste si probabilmente recato in redazione per scrivere un articolo
di cronaca e ci spiega come abbia confuso il fatto che il consulente fosse della difesa e
non della accusa e laberrazione della traduzione effettuata153. Il giornalista ha ricordato
male il brano ascoltato, oppure i propri appunti erano molto disordinati.
La trascrizione di appunti sicuramente pi comune a tutti noi e per questo motivo pi
difficile da analizzare. necessario uno sforzo di astrazione rispetto alla nostra quotidianit.
Non bisogna infatti sottovalutarne limportanza perch essa diventa, una volta prodotta, un
documento duraturo e comparabile con altri documenti simili. Lattenzione deve essere posta
sul fatto che a volte si possono comparare due possibili rappresentazioni della realt e non due
realt diverse. Ad esempio lo studente, una volta trascritta una lezione universitaria sia essa
registrata o trascritta in tempo reale, produce una dispensa che diventa automaticamente il ver-
bale della realt, la base documentale su cui studiare. Il verbale della lezione si diffonde cos
tra gli studenti e questo viene anche confrontato con altri verbali simili e altre rappresentazioni
della stessa realt. La conoscenza e lo studio dello studente si forma e si consolida su una rap-
presentazione o meglio su una delle rappresentazioni della realt frutto dellinterpretazione di
un singolo studente, e non invece su quello realmente riferito dal docente. Lo studente infatti
non trascrive la lezione per intero, non riporta le esatte parole del docente ma solo i passaggi da
lui ritenuti pi importanti, le frasi presenti in rosso sulle slides. Questo verbale una selezione
volontaria dei concetti e dei significati ascoltati.
Esiste un esempio classico di quanto appena affermato proprio nellopera pi importante
che consacra la nascita della Linguistica Generale moderna con la pubblicazione del Cours
de Linguistique Gnrale di Ferdinand de Saussure nel 1916. Tale manuale non stato scritto
dellautore ma linsieme degli appunti degli studenti che hanno seguito un corso di Lin-
guistica Generale presso luniversit di Ginevra. La sintesi dei differenti appunti risultata
talmente difficile che la prima stampa risulta essere un libro con 6 colonne ognuna delle quali
riporta la trascrizione/interpretazione del singolo studente della stessa lezione tenuta dallo
stesso docente. Diverse rappresentazioni della stessa realt. Ogni studente ha interpretato,
selezionato e deciso cosa fermare su carta e cosa invece ritenere inutile.
Studente 1 Studente 2 Studente 3 Studente 4 Studente 5
Ma che cos la La lingua (sar per Prodotto sociale. Per noi, noi la La lingua sar il
lingua? contem- noi) il prodotto vediamo come prodotto sociale 154
poraneamente un sociale prodotto sociale
prodotto sociale nellesistenza che
della facolt del permette allindi-
linguaggio viduo di eserci-
tare la facolt del
linguaggio
La trascrizione ordinaria invece comprende tutti quei casi in cui avviene una trascri-
zione fedele per quanto possibile del parlato o dellintervento. Ad esempio un consiglio
di amministrazione, una riunione di un condominio o anche una udienza in Tribunale.
La differenza tra la trascrizione ordinaria e quella forense si riscontra innanzitutto
nella qualit della registrazione e in secondo luogo in riferimento allo status che entram-
be ricoprono. In particolare, la trascrizione di udienza, un verbale di una registrazione
che per verr validato e approvato da parte degli stessi parlanti registrati e trascritti, al
contrario nella trascrizione di una intercettazione forense non esiste il contraddittorio.
Mentre nel primo caso vi la volont di esplicitare i contenuti, chiarendo le so-
vrapposizioni con altre voci o lallontanamento dal microfono, nel secondo invece il
trascrittore tenta di ricostruire una realt volutamente mantenuta nascosta dagli inter-
locutori registrati. Nella registrazione di udienza un contenuto importante viene reso
ancora pi esplicito rallentando leloquio, aumentando lintensit del segnale e a volte
sillabando singole parole, al contrario in una registrazione forense un contenuto impor-
tante si tenta di nasconderlo coprendo la bocca con la mano, sussurrando e strascicando
le parole tentando di dire il meno possibile e di essere compreso pur essendo poco
esplicito e supportando le parole con la mimica e il codice gestuale.
Il trascrittore di udienza non ha alcuna responsabilit perch sa che il suo lavoro
verr validato e approvato dagli stessi interlocutori registrati e trascritti. Non si soffer-
ma troppo sui casi ambigui perch sar il parlante a disambiguarli in udienza. Il parlante
in udienza prima di iniziare a parlare si presenta per favorire lattribuzione dei ruoli e
dei turni (es. sono lavvocato Rossi per la difesa di Bianchi. Signor Giudice...). Inoltre
le trascrizioni di udienza oggi hanno alcune standardizzazioni come il livello di qualit,
la procedura di consegna, i tempi e i pagamenti; nulla di tutto ci vale per le trascrizioni
di intercettazioni a scopo forense. Ci rende possibile considerare la trascrizione di
udienza una operazione di tipo tecnico-manuale155 il trascrittore un semplice operatore.
La trascrizione di una intercettazione invece una operazione molto complessa poich
ricostruisce un fatto accaduto, una verit, un indizio e una prova e ci implica che il
trascrittore debba necessariamente essere un esperto. Egli infatti mette in atto tutte le
tecniche e le metodiche di un approccio scientifico alloperazione di trascrizione e le
sue ipotesi richiederanno una analisi e una valutazione sullaccuratezza e sulla coerenza
del risultato. Sulla base della qualit e della quantit di dati e di informazioni in suo
possesso stimer il grado di certezza e di obiettivit del proprio lavoro.
Le due trascrizioni quindi possono essere considerate due estremi di ununica operazio-
ne. Da una parte abbiamo segnale di qualit ottima, volont nel farsi capire e riconoscere e
possibilit da parte del parlante registrato di controllare quanto stato trascritto, dalla parte
opposta avviene tutto il contrario. Lungo questi due estremi vi una lunghissima sequenza
di tipi di conversazioni differenti. Spesso invece le due trascrizioni vengono confuse cos
come vengono confusi gli esperti trascrittori affidando in maniera indifferenziata incarichi
di trascrizione di udienza e di registrazioni intercettate. Lunica cosa che hanno in comune
le trascrizioni di udienza e le trascrizioni forensi cos come le cooperative di trascrizione
con gli esperti trascrittori il luogo in cui si consegnano i verbali e in cui si procede agli
incarichi, cio il Tribunale. Anche se il prodotto di entrambe le operazioni sempre una
trascrizione, i dati di partenza e le competenze richieste sono completamente differenti156.
Lincertezza sui ruoli, sulle competenze, sulle professionalit rende inattendibile e
poco oggettiva la prova voce registrata. Non raggiungendo standard elevati di compe-
tenza linguistica nella trascrizione di intercettazioni ambientali, lo stesso valore di prova
della trascrizione, da una parte verr demandato allabilit delle parti, quindi alle possi-
bilit economiche, (oggi la maggior parte dei linguisti universitari vengono contattati e
nominati dalla difesa, che in molti casi ha una maggiore disponibilit economica rispetto
al Tribunale o alle Procure) alla competenza della difesa o dellaccusa e dallaltra la cat-
tiva competenza rende sempre pi debole e basso il valore della prova stessa. Una non
chiara metodologia e una non chiara figura professionale, nel tempo render inaffidabile
tutte le trascrizioni, sia quelle buone che quelle cattive.
Un discorso a parte deve essere fatto per la trascrizione fonetica157. Innanzitutto essa
pu avere diversi livelli di precisione e di profondit e quindi pu essere larga, stretta,
prosodica, metrica, ecc., viene usata esclusivamente in ambiti scientifici come la foneti-
ca, la fonologia, la sociolinguistica, la dialettologia, la logopedia e in maniera normativa
la troviamo anche nei dizionari. La trascrizione fonetica una operazione molto com-
plessa, usata solo da specialisti e non si sofferma sui significati n parziali n globali
dei segnali sonori ma esclusivamente sui significanti, cio sui singoli suoni prodotti. Sof-
fermandosi su un livello della lingua parlata quello acustico articolatorio quindi molto
diversa rispetto alle trascrizioni che abbiamo presentato finora. Potrebbe essere utilizzata
nei casi di trascrizione forense o di disputed utterance quando sia necessario rilevare e
cercare coerenze fonetiche e articolatorie.
La trascrizione fonetica serve per rendere scritto un qualsiasi enunciato orale e per far
s che lo stesso enunciato possa essere letto da diversi esperti esattamente come stato pro-
dotto (almeno sotto il profilo fisico-acustico). Gli alfabeti scritti spesso (anche nelle lingue
neolatine come litaliano) non conoscono una corrispondenza biunivoca tra il grafema e
il fonema. Ne sono la prova parole come /glicine/ dove il nesso gl viene letto in maniera
diversa rispetto allo stesso nella parola /figlio/. Gli esempi di questo tipo sono tanti anche in
italiano, una lingua in cui la distanza tra la scrittura e la produzione orale veramente mi-
nima. Se questo succede allinterno della stessa lingua, nel confronto tra lingue differenti le
differenze sono molto pi evidenti. A livello grafico il suono della prima sillaba di scena
in italiano reso con il nesso sc davanti a vocale /i/ ed /e/ e il nesso sci davanti alle altre
vocali, in francese invece per lo stesso suono si utilizza il nesso ch chien cane, in tede-
sco con il nesso sch Schiff nave, e in inglese il nesso utilizzato sh ship nave. Com
facile notare questi nessi o forme grafiche cos differenti tra loro, producono lo stesso iden-
tico suono cio una fricativa pre-palatale sorda che foneticamente possiamo trascrivere [].
Esempi tendenzialmente opposti dimostrano che lo stesso identico grafema pu pro-
durre fonemi o forme acustiche (foni) molto diversi tra di loro. Si consideri per esempio
il gruppo consonantico ch gi considerato. In italiano produrr suoni come nella parola
chilo, cio una occlusiva velare sorda che foneticamente sar [k] (identica per altro a quel-
la che noi troviamo in cane o in quello ecc.); in francese il gruppo ch come abbiamo
potuto notare produce una fricativa pre-palatale sorda [], in tedesco come esemplificato
nella parola ich produce una fricativa palatale sorda [] mentre in inglese lo stesso gruppo
produce una affricata palatale sorda [t]. Inoltre nella stessa lingua lo stesso grafema in di-
pendenza alla provenienza geografica pu essere prodotto diversamente: bacio in alcuni
casi invece di essere prodotto con il fono affricato palatale sordo [t] pu presentare solo la
fricativa pre-palatale [] (si pensi allitaliano parlato a Roma). O ancora il nesso /tr/ o /str/
in italiano meridionale pu essere prodotto come retroflesso e cio [] o [] o ancora [].
Da queste considerazioni nasce la necessit di sviluppare un alfabeto unico interna-
zionale con il quale trascrivere tutti i diversi suoni in modo differente. Un alfabeto che
abbia una corrispondenza biunivoca tra simbolo usato e fono prodotto158, e quindi utilizza-
bile per descrivere tutte le lingue e tutti i dialetti del mondo. Chi conosce tale alfabeto, pu
trascrivere e leggere senza commettere alcun errore anche una lingua che non conosce.
Lalfabeto prevede anche un sezione per il parlato patologico e una serie di diacritici che
permettono di riprodurre su carta anche piccole caratteristiche personali ed individuali.
La prima versione dellAlfabeto Internazionale Fonetico 159 risale al 1888, la sua
ultima rivisitazione invece del 2005.
La trascrizione fonetica larga una trascrizione che si rapporta ai fonemi prodotti
identificando i tratti distintivi caratteristici di ogni singolo suono prodotto. La trascrizio-
ne fonetica stretta molto pi coerente, identifica caratteristiche e peculiarit del singolo
interlocutore, riporta tratti sovra segmentali come accenti primari e secondari, lunghez-
ze, pause e intonazioni. Ad esempio, la trascrizione fonetica larga della parola italiana
concio [konto] mentre la rappresentazione in trascrizione fonetica stretta potrebbe160
essere [knto] annotando la nasalit [ ] dellelemento /o/ in contesto nasale, il primo
elemento del fono affricato [t] prodotto come dentale [t] invece di palatale161. La trascri-
zione di un testo oltre che alle singole parole e ai singoli suoni prevede anche la trascri-
zione dei fatti non puramente segmentali come le pause brevi [] o le pause lunghe [],
gli accenti primari [] o secondari [], la durata maggiore [] o minore [] di un segmento
ecc. Un esempio di trascrizione fonetica larga la seguente:
[ra ummondodadulti esizbaava daprofessjonisti] era un mondo di adulti
e si sbagliava da professionisti 162 mentre invece un esempio di trascrizione fonetica
stretta potrebbe essere [la jetsadeneralizatsjoneamadoraddne il
igwaddo]
la scienza generalizzazione a maggior ragione il linguaggio163.
Una trascrizione pu anche avere esclusivamente finalit intonative e in tal caso si
presenter come negli esempi seguenti (Trager e Smith 1951)164:
Usually1 //2 John goes to 3London1#
2
Im ging 3 home1#
I numeri in esponente identificano laltezza del pitch differenziata in 4 gradi: basso,
medio-basso, medio-alto e alto. Il simbolo # indica la giuntura discendente, il simbolo //
quella ascendente (altri simboli non presenti nellesempio sono \ che indica una giuntura
sospensiva e il simbolo \+\ che indica una giuntura interna).
La trascrizione fonetica quindi una cosa nettamente diversa dalla trascrizione normal-
mente intesa. Trascrivere foneticamente non vuol dire necessariamente conoscere la lingua o
il dialetto da trascrivere o comprendere il significato delle singole parole, ma portare su carta
in modo inequivocabile, utilizzando lalfabeto IPA, ci che viene acusticamente percepito, un
po come potrebbe essere fatto per la musica ascoltata e riportata su un spartito.
Una trascrizione fonetica di una telefonata o di una conversazione, per uso forense
sarebbe impossibile, perch poco fruibile dagli addetti ai lavori anche se riteniamo che
alcuni tratti sovrasegmentali dovrebbero essere annotati. Molti trascrittori utilizzano i
simboli grafici di interpunzione come il punto interrogativo /?/ per una intonazione inter-
rogativa o le virgole per le pause e i tre puntini per una frase sospensiva. Riteniamo che
ci sia improprio primo perch vengono utilizzati gli stessi simboli per descrivere due
piani differenti della comunicazione, secondo perch cos facendo si porter il lettore
della trascrizione a trattare il documento che ha davanti gli occhi come un documento
scritto e non come la trascrizione di una conversazione orale 165.
Prima di addentrarci nellultimo tipo di trascrizione identificato cio quella forense ci
preme sottolineare che la trascrizione forense un tipo di scrittura molto speciale. La scrit-
tura di una lettera o di un libro concentrata sulla comunicazione di un significato. La
trascrizione forense invece si concentra sul significante (la forma grafica dei significati),
lintento rappresentare su carta il significante nel modo pi accurato possibile, spesso al-
lontanandosi dal vero obiettivo della comunicazione orale che di trasmettere un significato
e lasciando il compito di interpretazione al lettore sia esso un avvocato o un giudice. Non
infatti assolutamente raro sentire io trascrivo solo ci che sento. Spesso per noi percepiamo
significati anche di cose che non sentiamo come ad esempio un uhm o una pausa pi lunga
del normale: mi porti quelle PAUSA scarpe!. La percezione e la comprensione del signifi-
cato completamente diversa dalla comprensione del solo significante, infatti ci porta a de-
durre che linterlocutore non vuole affatto delle scarpe ma qualcosa di diverso noto per ad
entrambi. Quindi trascrivere solo ci che sento vale per una trascrizione di udienza ma non
per una trascrizione di una intercettazione. Inoltre mentre da un lato le trascrizioni forensi
riportano solo ci che si sente, quando il parlato dialettale, si riporta una trascrizione ita-
liana traducendo ed interpretando il segnale. In tutto ci vi una intrinseca contraddizione:
la trascrizione deve essere dei significanti (e allora molto vicino alla trascrizione fonetica) o
dei significati? per questo motivo che la trascrizione deve essere affrontata come un serio
problema prima teorico ed in seguito pratico. Esso infatti non facilmente risolvibile con un
aggiunta di un commento o di una interpretazione. Deve essere la migliore approssimazione
della realt. Una approssimazione scientificamente accettata, esplicitamente e rigorosamen-
te standardizzata senza per essere talmente tecnica da poter essere usata da pochi esperti
come per esempio la trascrizione fonetica. Oggi la trascrizione mettere su carta, in seguito
ad ascolti ripetuti i significanti grafici dei significati sonori ascoltati parola per parola, per-
dendo di vista il contenuto ed il significato globale di quanto viene ascoltato.
La trascrizione forense, fin dalla sua prima apparizione nelle aule dei Tribunali,
stata considerata un procedimento cos semplice da non richiedere studi approfonditi o
specializzazioni proprie 166. Non essendo necessario in questo caso luso di particolari
metodiche o di sofisticata strumentazione, invalsa la prassi che chiunque, purch mu-
nito di registratore, cuffia e buon orecchio, possa espletare soddisfacentemente qualsiasi
trascrizione. In realt trascrivere una comunicazione orale comporta una serie di proble-
mi che solo un esperto riesce ad intuire e controllare.
Il parlare, comunicare, colloquiare, dialogare un atto che coinvolge tantissimi
aspetti tra i quali quelli linguistici segmentali e sovrasegmentali, quelli paralinguistici,
extralinguistici come quelli cinesici ed influenzato da tanti canali paralleli di comu-
nicazione come quello gestuale e intonativo, fortemente condizionato dal rumore di
canale, di contesto. Il trascrittore, dal canto suo, si trova in una posizione di estranei-
t rispetto la situazione comunicativa, non riceve completamente latto comunicativo
nella sua interezza ma solo il canale sonoro ed inoltre deve tradurre in caratteri (gra-
femi) e trasporre su carta una comunicazione nata per essere orale composta di pause,
innalzamenti di voce, cambi di intonazione, cambi di accento, cambio di stile (ironico,
scherzoso, canzonatorio, serio) e sentimenti come ira, felicit, ilarit sdegno, avendo a
disposizione per tutti questi fatti sovrasegmentali solo qualche segno di punteggiatura
(interpunzione).
Lesperto dovrebbe sapere che ogni parola trascritta su un foglio la possibile rico-
struzione di una realt e che come tale avr conseguenze importanti nella ricostruzione
della verit o nella soluzione di un mistero. Ecco perch con coscienza e professionalit,
compito dellesperto definire una porzione di segnale sonoro non trascrivibile piutto-
sto che fornire soluzioni dubbie di possibili trascrizioni. Quando le diverse trascrizioni
della stessa porzione di segnale sono tutte parimenti plausibili e quando la scelta det-
tata esclusivamente da una propria personale e soggettiva interpretazione allora bisogna
dichiarare il segnale inintelligibile167 o quanto meno stimare la certezza o laffidabilit
della trascrizione consegnata.
In Bellucci 1994 si legge nellintercettazione ambientale, il perito si trova nellin-
solita esperienza che non esito a definire eccitante per un sociolinguista di parteci-
pare da fantasma alla situazione168 Romito (2000) aggiunge ma un fantasma cieco
che perde tutti gli elementi visivi. Il trascrittore si trova allesterno del circuito comuni-
cativo, del contesto e del cotesto della conversazione, non percepisce la comunicazione
fatta di gesti, di occhiate, di posture del corpo, di movimenti della testa, delle mani e non
condivide le conoscenze pregresse degli attori della conversazione.
Il trascrittore percepisce solo una parte della complessa rete della comunicazione: la
parte acustica. La comunicazione in presenza per una rete complessa di canali paral-
leli, un evento che abbraccia tutti coloro che vi partecipano e che devono condividere
alcune conoscenze sullambiente, sulla loro posizione spazio-temporale, sulla loro posi-
zione sociale e questo prima che levento avvenga169.
Nella trascrizione, qualsiasi parola si trascriva, questa deve conformarsi non solo al
modello del segnale percepito ma anche, e forse soprattutto, ad un modello di alternative
(legate al contesto) presenti nel vocabolario e nel lessico del soggetto ascoltatore- tra-
scrittore. Le parole possono quindi essere adattate soprattutto se chi trascrive possiede
un setaccio fonologico differente (per esempio parla un altro dialetto) e il problema non
solo lessicale ma di frammenti fonetici. il modello che svolge il ruolo decisivo nelle
trascrizioni e nella risposta che deve essere la pi probabile possibile. Cos il trascrittore
oscilla tra un segnale acustico e un modello che ha nella propria testa, e cerca (conscia-
mente o inconsciamente) di accoppiare frammenti fonetici a probabili risposte secondo il
proprio modello. La risposta determinata principalmente dalla scelta personale tra una
gamma di alternative considerate possibili 170.
Il punto di partenza quindi, che ogni trascrizione necessariamente una astrazio-
ne, il parlato contiene una quantit infinita di informazioni di differenti specie e livelli:
culturale, economico, emotivo. Ci viene esplicitato da tutti i linguisti che si occupano
di analisi del parlato, si veda nello specifico laffermazione di Laver 1994:2What is a
Voice? The voice is the very emblem of the speaker, indelibly woven into the fabric of
speech. In this sense, each of our utterances of spoken language carries not only its own
message, but through accent, tone of voice and habitual voice quality it is at the same
time an audible declaration of our membership of particular social and regional groups,
of our individual physical and psychological identity, and of our momentary mood.
Questi diversi livelli non possono essere rappresentati in un unico canale come quello
della scrittura.
La voce molto pi di una semplice sequenza di suoni, essa intrinsecamente
complessa e gran parte della sua complessit legata ai rapporti tra le singole variabili
che operano al suo interno come il senso, il significato, le intenzioni, lo stato di salute, lo
stato sociale, il livello di autostima e di scolarizzazione ecc.
Ogni trascrizione quindi un punto di vista rivolto al significante, al significato
globale, allo stile, al dialetto ed importante ricordare che ogni trascrizione non un
testo scritto, non nasce per essere un testo scritto, ma una rappresentazione grafica di
un testo parlato. In assurdo come descrivere a parole un quadro. Le regole da utilizzare
quindi sono e devono essere, quelle del parlato non quelle dello scritto.
La percezione e lortografia implicano inevitabilmente un componente top-down.
Ogni trascrizione dipende inevitabilmente dalla percezione e dallortografia. Questo si-
gnifica che non esiste una trascrizione interamente oggettiva. La trascrizione ortografica
pu risultare utile ma con pochissima possibilit di avere dettagli. Esistono trascrizioni
ortografiche specializzate con legende che aggiungono particolari; si pensi allanalisi
conversazionale dove diversi simboli segnalano le pause, gli intercalari, i riempitivi (ah,
oh), le sovrapposizioni, le risate, i colpi di tosse.
La trascrizione pu anche essere effettuata parola per parola, anche se il parlato non
organizzato e progettato per essere cos. Il parlato spontaneo confuso e molti gesti
articolatori si sovrappongono, anche il concetto stesso di parola ha definizioni differenti
per il parlato e per lo scritto. Nel parlato le parole sono fonologiche cio con un unico
accento e delimitate da due respiri es. lacasemmia. Nello scritto invece ogni singola
parola identificata da due spazi bianchi la casa mia.
Traducendo lesempio adoperando il senso della vista, unico senso utilizzabile in un
testo scritto, come interpretare una ricetta medica (la scrittura sarebbe paragonabile ad
un segnale rumoroso e degradato).
Anche percettivamente vi molta differenza. Non ascoltiamo parola per parola (vedi
precedenti) la conversazione orale molto meno ingabbiata dalla grammatica, gli ac-
cordi non vengono tutti effettuati, si hanno false partenze e riformulazione di idee, frasi
come quello che volevo dire, insomma per farla breve prevede cancellazioni, riduzioni
e cattive produzioni nelle porzioni ritenute ridondanti. Nello scritto le cancellazioni ven-
gono segnalate da una apocope Anto, o da un apostrofo unaltra?
Il linguaggio fatto di significanti che rappresentano dei significati e non una sempli-
ce opposizione di suoni e di acustica. Questo un grande problema quando il trascrittore
inesperto o un non linguista, perch si occuper esclusivamente di aspetti sonori ed
acustici.
Seguendo la Fraser (2003) come guardare un cielo stellato, se non conosci le costel-
lazioni vedi solo delle stelle nel cielo, e a ci potrebbe essere aggiunto e interpretando luci
e posizioni ricostruisci forme, animali e costellazioni inesistenti.
Una trascrizione a scopo forense la rappresentazione grafica, scritta, di una con-
versazione orale tra due o pi persone registrate (intercettate) in modo coatto attraverso
il telefono, una microspia in macchina o altro, che viene utilizzata come prova, meglio
evidenza di una prova, o rappresentazione materiale di una realt astratta ed effimera
in un caso giudiziario. Le registrazioni sono spesso di cattiva qualit e quindi spesso in
aula laccusa e la difesa dibattono sulla attendibilit di una versione e sulla trascrizio-
ne ambigua o diversa di una parola o di una intera frase. Le prove sonore e quindi le
registrazioni utilizzate come prove, hanno conosciuto in questi ultimi anni un grande
aumento cos come anche le dispute in aula tra le parti sulla interpretazione e la cor-
retta trascrizione di singole parole, o di frasi incriminate o incriminanti. Ci ha portato
alla nascita in ambito scientifico di una sottospecificazione e nuova classificazione di
disputed utterances.
Si tratta di singole frasi o parole dibattute in aula sulle quali linterpretazione delle
singole parti controversa e differente. Si veda lesempio seguente:
Uomo 1 no... invece la novantadue della beretta...

Uomo 2 comunque ora gliele ritirano le nuvantadue alla polizia...
Uomo 1 lho vista nel giornale lho vista... e quasi come la novantadue...
Uomo 2 non assai pi bella Gia (inteso come nome)... cambia un po... sembra una
pistola di plastica... [si sente il rumore di un accendino] me ne dai una? [aspira]
Uomo 1 eh... ora come ora le fanno sempre pi piccoline, ...incomprensibile...
...incomprensibile... pistole di plastica...
Uomo 2 dice che li sopra le novantotto buone non si trovano... la novantotto clock
li sotto li ha usciti tremila euro veloce, veloce...
Solo grazie ai commenti del traduttore e alla trascrizione integrale [si sente il rumore
di un accendino] e [aspira] si disambigua il fatto che lascoltatore non vuole una pistola
ma bens una sigaretta.
La trascrizione di una disputed utterance dovrebbe comprendere tutte le trascrizioni
finora trattate: trascrizione fonetica larga, stretta e metrica, analisi acustica, trascrizione
di significato, analisi dialettologica, coerenza semantica ecc. Molti sono i casi giudiziari
che dipendono da una singola parola o anche solo da una singola vocale 171.
Normalmente le frasi sono disputed perch le registrazioni sono rumorose o degra-
date 172 e i contesti ambigui. Per questo motivo non si dovrebbe seguire la prassi normale
delle trascrizioni forensi e di conseguenza non dovrebbero essere affidate a persone che
normalmente effettuano le trascrizioni ordinarie di udienza ma esclusivamente ad esperti
linguisti. Di fatto ogni tipo di trascrizione dovrebbe essere affrontato con metodi e pro-
cedure differenti. Al contrario invece, quello che oggi si registra una commistione di
metodi e competenze; il trascrittore di udienza utilizza lo stesso metodo per le trascri-
zioni di udienza, per le conversazioni ambientali e telefoniche intercettate, per i rumori
e per le parole, per il segnale iperarticolato e per le disputed utterances, uniformando
e livellando la complessit del parlato. Questo fa si che il documento prodotto risulti
alterato e non vero, cos come risulta di conseguenza alterata e non vera la realt che
tale documento dovrebbe rappresentare. Heisemberg nel primo principio afferma che
anche la sola osservazione o studio di un problema altera il problema stesso e questo vale
anche per la trascrizione. Losservazione e linterpretazione del sonoro altera la sua rap-
presentazione. Solo un esperto di analisi della conversazione e del linguaggio dovrebbe
curare questi aspetti. Un segnale sonoro relativo alla registrazione di un terremoto viene
letto e interpretato da un geologo, un segnale su carta di un elettrocardiogramma o di un
elettroencefalogramma viene letto e interpretato rispettivamente da un cardiologo e da
un neurologo. Essi sono deputati dalla societ stessa a rappresentare la realt nel modo
migliore grazie alla competenza ed alla esperienza nelle diverse discipline. Non avviene
per la stessa cosa per il segnale sonoro registrato. Questo infatti pu essere letto e in-
terpretato da chiunque nonostante Associazioni internazionali come IAFPA nelle proprie
risoluzioni al primo punto riportino Forensic speech analysis should be undertaken only
by those with an academic training and qualifications in phonetics/speech science 173.
6.8.1. Il complesso rapporto tra il testo orale e la sua trasformazione scritta
Considerato quanto detto fin qui, possiamo affermare che la trascrizione una analisi
linguistica complessa. La registrazione pu al massimo essere una parziale fotografia
della realt. Ma la trascrizione una lettura una interpretazione personale frutto di una
complessa analisi inconscia. Il trascrittore mette in atto la competenza chomskiana o me-
glio quelle strategie linguistiche inconsce frutto solo della propria personale esperienza.
Il rapporto tra la lingua orale e il codice scritto molto complesso e molti sono i
fattori che influenzano o possono influenzare la traduzione di un canale in un altro. In
questo paragrafo la nostra attenzione si concentra sui fattori che influenzano una trascri-
zione ed esplicitando i passi necessari partiamo dalla registrazione e quindi da una sor-
gente sonora. Nel caso in specie la sorgente sonora di nostro interesse la voce e quindi
il primo fattore del nostro elenco sar:
1) il parlante, le sue caratteristiche personali quali naturalezza e chiarezza della

voce o stato emotivo, stato fisico, difetti di pronuncia, competenza linguistica,
ricchezza lessicale ecc;
2) di seguito avremo il parlato e quindi il codice, lo stile, il luogo in cui avviene la
conversazione, il contesto, la situazione ecc.
3) il parlante in un preciso contesto ed in una certa situazione si rivolge ad un
ascoltatore, i fattori collegati saranno relativi allascoltatore;
4) parlante ed ascoltatore dovranno necessariamente condividere alcune conoscen-
ze, dovranno cooperare e avvicendarsi nei turni scambiandosi il ruolo da ascol-
tatore in parlante e viceversa. I fattori saranno linguistici;
5) la conversazione verr registrata. I fattori collegati saranno relativi alla qualit
della registrazione, agli strumenti, alla presenza di rumore ecc.;
6) la registrazione deve essere trascritta. I fattori collegati saranno quelli relativi al
trascrittore e alla sua competenza;
7) il trascrittore produrr un verbale. I fattori collegati saranno legati alla trascri-
zione e alla sua attendibilit;
8) infine un ultimo fattore riguarda il lettore di una trascrizione: il giudice, un av-
vocato e il giudizio sulla attendibilit.
Ognuno di questi fattori ha grande peso nella buona riuscita di una trascrizione e solo
conoscendone le influenze e le potenzialit si pu giungere ad una buona rappresenta-
zione della realt.
6.8.2. Il parlante intercettato
Il parlante intercettato la sorgente sonora della nostra registrazione. Sar lui quindi ad
effettuare molte scelte che influenzeranno la nostra registrazione. Sceglier largomento,
il codice da utilizzare (italiano o dialetto), lo stile (informale o molto colloquiale), il tono
(amichevole, adirato), il volume (alto o basso). Ma innanzitutto parler con specifiche
e personali caratteristiche. Esistono voci naturalmente pi chiare di altre (si pensi alle
voci, scelte proprio per la loro naturale chiarezza, degli speakers radiofonici o televisivi),
sar personale il grado di coarticolazione (labitudine a mangiarsi le vocali o addirittura
le sillabe intere), sar personale il meccanismo articolatorio, cio lo strumento musicale
utilizzato per produrre i suoni linguistici, quindi personali e uniche le caratteristiche
anatomiche come labbra, lingua, collo troppo grosso o troppo sottile, corto o lungo,
spessore delle corde vocali ecc. personali sono anche alcune caratteristiche volontarie ed
involontarie come grossi baffi, o troppo fumo di sigarette174.
Possiamo definire la qualit della voce come la somma della configurazione del trat-
to vocale, dellanatomia laringale e una componente appresa. Ovviamente alcuni degli
elementi citati sono determinati geneticamente (rammentiamo per che alcune categorie
di parlanti come i cantanti professionisti, riescono a modificare questi tratti per miglio-
rare le proprie prestazioni vocali), altri invece sono appresi e fanno parte delle abitudini
del parlante. Queste abitudini sono sicuramente riconducibili a caratteristiche individuali
ma risentono anche del registro, del contesto situazionale e di altri fattori (il ritmo, la
velocit di eloquio ecc.).
Laver (1980) definisce la qualit della voce come il colore uditivo caratteristico
della voce di un particolare individuo. La qualit della voce pu essere assimilata al tim-
bro e quindi alle caratteristiche individuali del parlante sia a breve che a lungo termine.
Infatti essa pu variare in base allo stato danimo o di salute; in base al registro o alla
situazione in cui ci si trova. Al contrario invece, le caratteristiche che dipendono dalla
anatomia e dal sesso dellindividuo, sono immutabili (almeno generalmente).
La qualit della voce ultimamente stata molto studiata soprattutto per differenziare
le tipologie di voce. Studi medici, psicologici e ingegneristici (sintesi vocale e robotica
o software per il riconoscimento delle emozioni) analizzano la qualit della voce a fini
applicativi.
Ciononostante lo studio della qualit della voce in relazione allintelligibilit
non ha ricevuto molte attenzioni dal mondo scientifico e ancora oggi non conoscia-
mo in che misura la qualit di una voce influisca sullintelligibilit del segnale. Si-
curamente alcune voci sono pi comprensibili di altre anche con un rapporto S/N 175
(segnale rumore) molto basso, ma ad oggi, non si conoscono ancora quali siano le
caratteristiche acustiche che rendono una voce percettivamente pi comprensibile di
unaltra.
6.8.3. Lalterazione volontaria
Il parlante pu ovviamente alterare volontariamente la propria voce sia sotto il pro-

filo segmentale che sovrasegmentale.
Lalterazione segmentale riguarda i singoli suoni o coppie di suoni. Quindi produrre
parole con suoni alterati, rallentati, sibilati, mosci, invertiti ecc.
Lalterazione sovrasegmentale invece interessa lintonazione nel suo insieme di una
parola e di una frase. Prima di introdurre degli esempi specifici necessario introdurre
largomento relativo allintonazione e ai suoi correlati acustici nel parlato.
Possiamo affrontare molto superficialmente il concetto di intonazione individuando
il livello delle microstrutture e delle macrostrutture prosodiche.
Tra le microstrutture prosodiche, ricordiamo la sillaba, la durata, laccento e il tono,
mentre invece tra le macrostrutture prosodiche ricordiamo il ritmo, i contorni intonativi,
le pause e le tonie o melodie.
Dare una definizione di sillaba non sicuramente facile. In questa sede possiamo
affermare che la sillaba un costituente sovraordinato corrispondente ad un unico input
muscolare e un unico stimolo respiratorio, ed il momento di massima tensione delle
corde vocali. La struttura interna della sillaba costituita da un attacco e una rima a sua
volta composta da un nucleo vocalico (elemento sonoro, maggiormente percepibile, di
massima intensit, normalmente vocalico o comunque sillabico ed imprescindibile per
lesistenza della sillaba stessa) e una coda. Sia lattacco che la coda non sono necessari
per la buona formazione di una sillaba. Da un punto di vista acustico, la sillaba rappre-
senta un picco di intensit, generalmente associato ad una prominenza, quindi ad una
maggiore frequenza ed una maggiore durata; queste caratteristiche influenzeranno le ma-
crostrutture prosodiche dalle quali dipende lintonazione.
La durata delle sillabe e delle vocali che ne costituiscono il nucleo regolata, da un
principio generale di isocronia. Secondo il principio dellisocronia, tutte le lingue orga-
nizzano la catena fonica in unit di uguale durata (le lingue, cio, mantengono isocroni gli
intervalli compresi fra attacchi di unit successive); nelle lingue definite da Pike (1943)
syllable-timed o ad isocronia sillabica, lunit controllata la sillaba. In queste lingue
come litaliano, il francese o lo spagnolo, il ritmo si basa sulla ricorrenza regolare delle
sillabe toniche ed atone, a cui sarebbe sempre assegnato lo stesso tempo relativo (un tem-
po per le sillabe atone, e uno differente ma altrettanto stabile per quelle toniche)176.
La durata rappresenta la lunghezza di tempo per larticolazione dei segmenti che
costituiscono le sillabe, le parole e gli enunciati. Dal punto di vista fonetico, la durata
incide sulla struttura sillabica delle varie lingue: in italiano, le sillabe accentate sono, in
genere, pi lunghe rispetto a quelle atone; inoltre le sillabe toniche chiuse, prevedono un
allungamento dellelemento consonantico finale, mentre le sillabe toniche aperte preve-
dono un generale allungamento dellelemento vocalico.
Laccento una caratteristica sovrasegmentale e percettivamente si identifica in una pro-
minenza uditiva. Questa a livello fisico, risulta essere correlata a tre caratteristiche acustiche:
lintensit o la forza dellaria emessa dai polmoni, la lunghezza o la durata nel tempo e lal-
tezza tonale o laumento della frequenza di vibrazione nelle corde vocali. La distribuzione di
queste caratteristiche determina la differenziazione dello stress accent e del pitch accent.
Nello stress accent, o accento dinamico, laltezza tonale poco utilizzata rispetto ai
correlati acustici dellintensit e della lunghezza 177 e assume importanza solo a livello
sintagmatico (in pap vs ppa, lidentificazione della vocale accentata avviene sul piano
sintagmatico per comparazione della vocale tonica rispetto alla vocale atona); al contrario
invece di quanto accade nel pitch accent, o accento musicale, dove laltezza tonale assu-
me una estrema importanza dal punto di vista paradigmatico (in cinese mandarino, M
madre [tono alto], M canapa [tono alto-ascendente], M cavallo [tono discendente-
ascendente], M rimproverare [tono alto-discendente]) lidentificazione di un tono alto
o basso avviene in riferimento al valore standard prestabilito di tono alto o basso.
Il tono laltezza e la variazione melodica del parlato. Nelle lingue ad accento mu-
sicale, dette lingue tonali, la variazione della frequenza fondamentale (o delle corde
vocali), associata allaltezza tonale, riveste una rilevanza linguistica in quanto interviene
nella differenziazione dei significati. La stessa sillaba con toni diversi espliciter signifi-
canti differenti. Al contrario, nelle lingue ad accento dinamico o intensivo, come litalia-
no, il tono assume una funzione contrastiva e paralinguistica.
Sulla scorta di quanto appena affermato possiamo, riprendendo Nespor (1993), so-
stenere che lintonazione la ricorrenza di determinate successioni di altezze tonali
diverse, detti contorni (o profili) intonativi.
Lintonazione, quindi, risulta essere strettamente legata alla frequenza di vibrazione
delle corde vocali acusticamente definita Frequenza Fondamentale o F0.
Fisiologicamente la F0 dipende strettamente dal sesso, dallet, dalla corporatura,
dallaltezza, dal peso, dalla conformazione fisica delle corde vocali (che possono essere
pi lunghe per gli uomini, pi corte per le donne e ancora di pi per i bambini o variare
in grossezza ed elasticit) dalle abitudini del parlante (fumatore, sportivo) ecc. Diatopi-
camente dipender invece dalla provenienza geografica nonch dal sistema linguistico,
per questo che, come sostiene Ferrero (1976), risulta spesso difficile isolare dei profili
intonativi neutri, che non siano contaminati da fattori personali ed emozionali.
Quindi lintonazione veicola importanti informazioni relative alla singola persona,
alla sua provenienza geografica, alla lingua parlata, nonch informazioni linguistiche e
paralinguistiche che consentono allascoltatore di percepire uno specifico atteggiamento
del parlante, il suo stato emozionale, di distinguere una dichiarazione da una domanda o
da unesclamazione e di individuare una parola preminente rispetto alle altre. Secondo
Canepari (1985) lintonazione, addirittura, non ha nessun legame con la struttura sintat-
tica degli enunciati ma dipende dalla logica e dalla psicologia prima ancora che dalla
semantica. Nella sua scala dallimpressione allespressione, la composizione intonativa
precede lorganizzazione grammaticale.
Sotto il profilo acustico vi una precisa corrispondenza fra lintonazione e laccen-
tuazione. Esaminando, a livello frasale, nei punti di innalzamento e di picchi di pitch la
relativa durata dei segmenti, si nota spesso che lintonazione aumenta, proporzionalmen-
te alla crescita di tali valori allinterno della sillaba. Secondo Cruttenden (1986) invece,
i parametri intonativi sono molti di pi e devono essere presenti in contesti pi lunghi,
rispetto alla singola parola a o alla frase. Le caratteristiche prosodiche di riferimento
relative allintonazione sono secondo Cruttenden il pitch, il loudness e la lenght.
Il pitch la caratteristica prosodica maggiormente coinvolta nellintonazione e di-
pende dalla frequenza delle vibrazione delle corde vocali. Tale frequenza, fisiologica-
mente condizionata dalla lunghezza e dallo spessore delle stesse corde, mentre in-
vece la tensione viene controllata dai muscoli della laringe. La velocit di vibrazione
corrisponde alla frequenza fondamentale cio al numero di cicli completi di apertura
e chiusura della glottide in un secondo. Convenzionalmente, il valore del pitch viene
associato allandamento melodico della Frequenza Fondamentale (F0 ), misurato in Hertz
e percettivamente identifica la qualit di un suono e consente ad un ascoltatore di iden-
tificarlo come pi alto o pi basso. Tale identificazione per non lineare, infatti spesso
un tono ritenuto alto il doppio rispetto ad un altro, pu corrispondere in realt a picchi di
frequenza assoluta anche quattro volte pi alti.
La lunghezza (lenght) corrisponde alla durata nel tempo della presenza di un preciso
correlato acustico. A livello frasale una maggiore lunghezza si riscontra nelle sillabe
toniche o nellultima sillaba che precede una pausa, mentre esaminando la lunghezza
a livello intonativo, questa risulta spesso arbitraria, poich influenzata dal punto in cui
il parlante decide di attirare lattenzione dellascoltatore, evidenziando un elemento
dellenunciato piuttosto che un altro.
Il loudness rappresenta la forza utilizzata nella realizzazione del suono che, acusti-
camente, corrisponde al valore dellintensit.
Lassunto da cui parte Cruttenden che non vi sia sempre una diretta corrispondenza
tra acustica e percezione e che alcuni elementi prosodici possono essere utilizzati per
diversi scopi contemporaneamente: a livello linguistico o puramente arbitrario.
Secondo Canepari 178 lintonazione linguistica il risultato delle varie componenti
prosodiche miscrostrutturali (tonalit, accento e durata), quando vengono sovrapposte e
combinate ai timbri dei foni che costituiscono le sillabe, producendo cos le macrostrut-
ture prosodiche.
Tra le macrostrutture prosodiche abbiamo il ritmo, un elemento fondamentale della
delineazione del ritmo la prominenza che rappresenta il grado in cui una sillaba emerge
dalle altre in un enunciato. Il ritmo il risultato della ricorrenza regolare di sillabe promi-
nenti nella catena parlata. Un gruppo ritmico una ricorrenza di accenti forti, definiti
ictus, ai quali si affiancano sillabe con accenti medi o deboli. Bertinetto (1981) sostiene
che la struttura ritmica di una parola rispecchia le caratteristiche dellaccento lessicale e
che litaliano pu essere considerato una lingua a ritmo sillabico, in cui le sillabe toniche
risultano essere pi lunghe e pi intense rispetto a quelle atone, che subiranno un leggero
accorciamento.
Il sintagma intonativo il dominio su cui si estende un contorno intonativo facendo
riferimento alla ricorrenza di toni e punti di prominenza allinterno di un enunciato 179.
Allinterno di un contorno intonativo si registrano picchi di frequenza in corrisponden-
za di ogni sillaba che reca accento; tuttavia una di esse mostra un picco pi alto delle
altre ed il segmento intonativo che la contiene assume, per questo, salienza particolare.
In linea generale, i limiti di un contorno intonativo sono caratterizzati da un cambio
di altezza tonale e da una differente lunghezza. La sillaba iniziale del sintagma tende
sempre ad essere pronunciata pi velocemente; la sillaba finale, al contrario, spesso
allungata. Nespor identifica una declinazione che si realizza allinterno del contorno
intonativo, dove le sillabe atone sono pi alte allinizio dellenunciato e vanno via, via
scemando sino a risalire nellincipit del sintagma successivo. La lunghezza del sintag-
ma determinata in parte dal fiato che il parlante ha a disposizione. Se si parla lenta-
mente, il materiale lessicale che forma il sintagma sar inferiore, in termini di sillabe,
rispetto a quando si parla velocemente. I contorni intonativi pi facilmente identificabili
sono quelli legati a costituenti come le frasi relative e le parentetiche, che obbligatoria-
mente delimitano linizio e la fine di un contorno. Esiste inoltre, una sorta di gerarchia
che determina e classifica la variazione di contorni intonativi, basata sui gruppi clitici
(che non alterano laccentuazione della parola ma semplicemente vi si aggiungono, en-
trando a far parte del contorno in cui inclusa la parola), il sintagma fonologico (che
il dominio su cui si applica il raddoppiamento sintattico 180), il sintagma intonativo (che
definisce i confini del contorno intonativo) e lenunciato (che corrisponde alla frase
costituente del contorno).
La presenza di pause, nel caso della lingua parlata, pu aiutare ad identificare le deli-
mitazioni dei contorni intonativi: Canepari (1985) definisce le pause come momentanee
interruzioni del parlare, dovute a motivi fisiologici, semantici, strutturali e psicologici,
che possono essere misurate in durata, identificando il numero di sillabe, che potreb-
bero riempire tale silenzio (saranno quindi brevi, medie o lunghe). I gruppi pausali si
collocano tra un sintagma intonativo e laltro, rappresentando spesso gli elementi di
congiunzione fra i vari enunciati. Le pause possono essere vuote, se identificate in un si-
lenzio, oppure piene, quando si identificano in una sillaba o prolungamento della sillaba
in finale di parola. Fra queste distinguiamo a loro volta le pause sistematiche, che fanno
parte della competenza di un parlante nativo, e quelle accidentali, realizzazione fisica
delle esitazioni.
La tona (Canepari,1985) o melodia (Nespor, 1993) rappresenta una variazione
della frequenza fondamentale lungo lasse temporale, che a livello acustico coincide
con la variazione di altezza tonale. La ricorrenza di alcune variazioni tonali, quindi,
costituisce un profilo intonazionale o una melodia. Le tone sono tante quanti i tipi
di frasi esistenti nella lingua italiana: conclusive, sospensive, vocative, dichiarative,
assertive, etc.
Questa lunga digressione necessaria per poter meglio capire, interpretare e quin-
di trascrivere le alterazioni volontarie sovrasegmentali e intonative, infatti, pur non
essendo litaliano una lingua tonale, indubbio che un particolare modello intonativo
pu aggiungere o modificare il significato segmentale e lessicale di una parola o di una
intera frase.
Esempio Trascrizione 1:
A: Hai visto lultimo film di Woody Allen?

B: si!
A: Come era?
B: 3Bello1# (oppure Bello )
In questo caso linterlocutore B produce laggettivo bello con una intonazione dis-
cendente, alterando il normale modello intontivo, perch vuole indicare che il film non
stato magnifico ma discreto se non sufficiente. Avrebbe potuto sfruttare la ricchezza de-
gli aggettivi in italiano utilizzando ad esempio: insufficiente, scarso, limitato, mediocre,
scadente, dozzinale, banale, insignificante, sufficiente, discreto ecc. invece conferisce
una gradualit a bello attraverso un preciso modello intonativo.
A: Hai visto il film di Woody Allen?

B: si!
A: Come era?
B: 1Bello3// (oppure Bello o ancora Bello=)
Al contrario una intonazione ascendente dello stesso aggettivo indica che il film
stupendo, magnifico. Nellesempio in trascrizione 1, B non suggerisce la visone del film
al contrario invece di quanto avviene nellesempio in trascrizione 2.
Questa gradualit viene utilizzata dai parlanti in molti casi e non solo con gli agget-
tivi ma anche con i nomi e con i verbi.
Esempio nomi Trascrizione 3:
A: Hai mangiato?
B: si!
A: cosa?
B: degli3spaghetti1# (oppure degli spaghetti).
Anche in questo caso una intonazione discendente indica che la qualit degli spaghetti
mangiati appena sufficiente mentre una intonazione ascendente come nellesempio 4)
indica il contrario.
Esempio nomi Trascrizione 4:
A: Hai mangiato?
B: si!
A: cosa?
B: degli1spaghetti3// (oppure degli spaghetti );
Esempio verbi Trascrizione 5:
A: Hai preso la macchina dal meccanico?

B: si!
A: lha riparata?
B: 3riparata1# (oppure riparata)
Linterlocutore B conferisce sempre una accezione negativa utilizzando una inton-

azione discendente. Potremmo esplicitare il riparata con non che abbia fatto proprio
un buon lavoro oppure definire la macchina riparata forse una esagerazione.
Esempio verbi Trascrizione 6:
A: Hai preso la macchina dal meccanico?

B: si!
A: lha riparata?
B: riparata
Anche in questo caso linterlocutore avrebbe potuto utilizzare altri termini, altri
verbi o esplicitare il proprio pensiero, invece sceglie la strada del modello intonativo181.
Oltre allintonazione, anche la prominenza pu essere alterata volontariamente, ad

esempio, in un punto preciso della catena fonica, per dar maggiore rilievo ad una spe-
cifica porzione di segnale.
Linterlocutore potrebbe mettere in evidenza (prominenza) una parte della frase, cam-
biando lintensit ad esempio alzando il volume di una parola, sillabandola, rallentando, ecc.
La stessa frase mi devi dare cento milioni potrebbe essere pronunciata con diverse
prominenze come negli esempi di seguito:
Mi devi dare cento mila euro La prominenza su mi indica che sei TU a dover dare i
soldi e non altri
mi DEVI dare cento mila euro La prominenza su devi limita la libert di scelta. un
dovere, un obbligo
mi devi DARE cento mila euro La prominenza su dare indica che questa volta non
ammessa una proroga o un ritardo
mi devi dare CENTO MILA euro La prominenza su cento mila indica la cifra esatta e
non di meno
Quindi intonazione, prominenza e accenti possono essere alterati volontariamente

come nellesempio seguente.
A- sai che morto Luigi?

B- B- no /,/
La sospensione dellintonazione in questo caso indica incredulit, rimanere inter-
detto nei confronti di questa notizia e non invece una semplice negazione. La particella
no in italiano assume valore differente se utilizzato con intonazioni diverse. Pu essere
una congiunzione avversativa o una esclamazione, pu addirittura significare una affer-
mazione o un rafforzativo come nellesempio
A- ieri sei tornata tardi no?
interpretabile come so per certo che ieri sei tornata tardi.
Lesempio appena riportato ci induce a segnalare limportanza che spesso ha in italiano

la presenza di quelli che vengono definiti i marcatori pragmatici. Il loro valore funzionale
non coincide mai con il contenuto semantico, in genere sono posti in apertura di replica
ma possono trovarsi sia allinterno che alla fine di una frase. La loro trascrizione molto
problematica in quanto lintonazione che attribuisce il vero significato e non i suoni
costituenti e quindi le lettere trascritte sul foglio. La particella negativa ad esempio, spesso
non parte della semantica della proposizione che viene negata ma parte di una struttura
performativa che indica come la proposizione deve essere interpretata in rapporto a una
data presupposizione. (Poggi 1981:146-62). In alcuni studi questi vengono identificati in:
no intradiscorsivo di controllo; no interrogativo di richiesta che pu essere retorica o anche
di conferma; no olofrastico da intendere come assunzione cooperativa dellinformazione
data, espressa in qualche modo in modo recitato e come atto di sorpresa o di incredulit.
Nellesempio no, volevo solo dire la particella no deve essere interpretata come non
crediate che io non sappia gi che conviene essere brevi in un contesto simile. La volont
del parlante potrebbe anche essere quella di minimizzare non il tempo ma limportanza del
contenuto e allora linterpretazione diventa non crediate che io non sappia gi che ci che
sto per dire sia modesto.
Nellesempio no, no verissimo non deve essere interpretato come una negazione della
proposizione seguente ma al contrario come un rafforzare il concetto di verit si, si verissi-
mo. Vale quanto gi detto anche in casi come A: Ho dovuto fare cos; B: No, no hai fatto bene.
Altre strutture prevedono la particella no seguita dalla congiunzione ma utilizzata per
sottolineare la distanza o rispetto allinterlocutore o rispetto allargomento proposto; la
particella no seguita dallavverbio perch per indicare il passaggio da un livello generale
ad uno specifico.
Schutz (1979) nel suo lavoro, identifica la significanza nel senso di struttura preco-
municativa, basata sulla relazione tra le persone, significanza differente dalla semplice
significativit o verit di ci che si sta dicendo o anche dallo stesso significato letterale e
linguistico di ci che viene detto.
Oltre alle alterazioni volontarie ci sono anche le variabili diatopiche involontarie ovvero
legate alla provenienza geografica dellinterlocutore. Un nesso tr- prodotto come retroflesso
identificherebbe subito il parlante come meridionale, o ancora la sonorizzazione delle occlu-
sive sorde dopo nasale presente in quasi tutto il mezzogiorno dItalia (pronto ~ prondo), o
ancora la fricativa sonora alveolare in posizione intervocalica presente in tutto il nord Italia
([rosa] ~ [roza]) o la /r/ vibrante alveolare prodotta come uvulare /R/ alla francese in alcune
zone dellEmilia, laffricata prepalatale sorda prodotta come fricativa nella citt di Roma e in
provincia (cento, bacio ['tento 'bato] ['ento 'bao]) ecc. Trovare il simbolo relativo ad
alcuni particolari suoni sulle tastiere di un computer difficile, ma si pu ovviare inserendo
in una legenda, un simbolo come la lettera maiuscola o altro che sostituisca il particolare
suono prodotto dal parlatore (ad esempio si veda lalfabeto SAMPA).
Alla luce di quanto appena esposto, identificare e segnalare queste particolarit pu
risultare molto importante per gli inquirenti.
6.8.4. Il Parlato
Il parlante ha una propria competenza in una lingua o in un dialetto con precise

caratteristiche tipologiche (lingue flessive o isolanti, con strutture sillabiche semplici o
complesse 182) e appartenenti a precisi gruppi ritmici (diverse isocronie, lingue ad accento
fisso o variabile o a toni).
Le caratteristiche della lingua hanno una grande importanza nellesito di una buona
trascrizione.
Il codice scelto pu essere settoriale, criptato o pu addirittura essere un gergo.
compito facile trascrivere termini come scrccuwu, fare capplla o sardijre (rispetti-
vamente poliziotto e rubare 183), ma senza la conoscenza di alcuni gerghi e lingue nascoste
risulta difficile la traduzione e linterpretazione. Un marinaio conoscer molti pi termini
riferiti al mare che non alla pastorizia, mentre un pastore probabilmente non conoscer
molti termini relativi al mare, ai venti, alle maree ma distinguer, per necessit, con
termini diversi e ben codificati, i differenti gradi di crescita di un vitello; un giornalista
user un codice settoriale ad es. sportivo usando termini come zona Cesarini, punizione,
4-4-2, cross tagliente larea ecc. comprensibili solo agli appassionati di calcio. Alcuni
di questi codici possono essere ristretti cio condivisi da pochi, estremamente specializ-
zati come il linguaggio della chimica, dellinformatica, delleconomia. Incomprensibili
sono anche i linguaggi giovanili 184 (scialla, sclerato ecc.) o quelli nascosti o cifrati com-
prensibili solo dal destinatario. Nel parlato possono essere utilizzate anche alcune figure
retoriche come metonimici 185 o metaforici. Per esempio il termine scialuppe per indicare
le scarpe un termine metaforico. Mi passi quelle scialuppe indicher mi passi quelle
scarpe o meglio mi passi quelle grosse scarpe. Il significato dei due termini diverso, ma
non completamente, infatti entrambi, hanno in comune una serie di tratti come [+grande]
e [+capiente]. Quindi il nuovo significato del termine pu facilmente essere ricercato tra
i tratti caratteristici del termine usato. Vale lo stesso per i termini metonimici, dove il
rapporto di inclusione, portami una Heineken da interpretare portami una bottiglia di
birra di marca Heineken, oppure mangio un piatto e vengo. Vale la stessa considerazioni
per le sineddoche, particolari costruzioni da interpretare come quel cane ha sette inverni.
possibile anche inventare dei codici personali e decifrabili da pochi o addirittura
da sole due persone (emittente e ricevente) come i codici amorosi dove alcuni termini
vengono inventati in modo da poter essere usati anche in presenza di altri senza che il
vero significato venga svelato. In questa famiglia rientrano i codici dei bambini che pur
risultando incomprensibili ai pi, rispondono a regole precise. I bambini francesi invertono
le sillabe cos che reme indica la mre e repe indica il pre (la madre e il padre
rispettivamente). In italiano invece, i bambini, dividono la parola in sillabe e aggiungono
un complesso come /txplx/ dove /x/ rappresenta la vocale finale della sillaba precedente;
padre ad esempio sar patapl-dretepl, e gelato sar getepl-latapl-totopl.
In questi casi i codici inventati sono organizzati in base a precise regole (invertire
le sillabe, aggiungere un infisso ecc.) e il lavoro di un eventuale trascrittore risulterebbe
comunque semplice, soprattutto se il suo compito non sar quello di interpretare.
Una cosa invece di non facile soluzione luso sproporzionato della cooperazione
e delle conoscenze condivise. Cos facendo si possono sostituire i significati senza che
tutto ci sia sottoposto a regole fisse. Sia lemittente che il destinatario del messaggio
sanno di dover parlare di una certa cosa che deve essere nascosta e deve risultare incom-
prensibile senza per destare sospetti ad eventuali orecchi estranei.
Interlocutore A: arrivato il treno?

Interlocutore B: si.
Interlocutore A: allora, mi porti un chilo di spaghetti?
Interlocutore B: dove?
Interlocutore A: a scuola.
Interlocutore B: va bene.
La trascrizione di un brano come quello appena presentato, si analizza da due differenti

prospettive: la trascrizione sul piano segmentale non pone problemi ma assolutamente
ininfluente e irrilevante poich non fornisce nessuna informazione agli inquirenti, mentre in-
vece una trascrizione interpretativa potrebbe rilevare che i due interlocutori possono anche
non conoscersi, possono non avere un codice cifrato, ma hanno un appuntamento telefonico
per contrattare la vendita di qualcosa di illegale come droga per esempio. Larrivo del treno
pu corrispondere allarrivo in citt della merce e un chilo di spaghetti pu essere il carico
che normalmente viene fornito; in questo caso il carico informativo sarebbe enorme.
Il destinatario percepisce ed interpreta nella maniera corretta perch sa apriori che
si parla di droga, sa che con linterlocutore chiunque esso sia parler di droga, quin-
di qualsiasi termine verr utilizzato sar inteso e interpretato come droga. Inoltre una
frase come arrivato il treno non risulta incomprensibile e non desta alcun sospetto in
un ascoltatore estraneo. Il parlante strategicamente pu indicare a chi ascolta il cam-
bio o la sostituzione del significato del termine inviando alcuni segnali come il cambio
dellintonazione della frase, o inserire volontariamente delle pause 186, come arrivato il
(pausa) treno?, oppure arrivato il (innalzamento dellintonazione/ segnalazione con
lo sguardo) treno?. Tutto deve far si che lascoltatore non intenda con treno il mezzo di
trasporto, ma la cosa di cui entrambi devono parlare ma che non possono nominare. Tutte
queste informazioni non si trovano sul piano linguistico, ma su quello sovrasegmentale e
paralinguistico, due ambiti che normalmente una trascrizione non considera.
Dopo quanto detto risalter limportanza della competenza linguistica nelle trascri-
zioni. Loperatore di fronte a una frase del tipo senti mi porti per favore (piccola pausa)
quelle (grande pausa) scarpe dovrebbe annotare sul brogliaccio il dubbio, la inusuale
distribuzione delle pause, in modo tale che sul tavolo dellinquirente non arrivi una tra-
scrizione o peggio ancora una nota con telefonata non utile, parlano di scarpe. im-
portante considerare in una trascrizione le pause brevi, lunghe, piene e vuote e riportare
una legenda che comprenda e specifichi tutti quei segnali paralinguistici o sovrasegmen-
tali che si manifestano durante una interazione.
Ovviamente i fattori legati al parlante sono anche strettamente collegati allo scopo e
allobiettivo della produzione linguistica. Durante una lezione universitaria o unarringa
in una udienza, lobiettivo del parlante sar quello della massima chiarezza per aumen-
tare il livello della intelligibilit, quindi si dar molto affidamento allaspetto acustico
del segnale, producendo una comunicazione output-oriented. Una conversazione tra in-
tercettati che tratta di argomenti probabilmente illegali, avr caratteristiche opposte e
sar system oriented. Gli interlocutori tenderanno ad essere meno chiari e a nascondere
il messaggio. Un trascrittore deve tener conto che lobiettivo di una conversazione diffe-
renzia la produzione. Tale differenza a volte anche inconscia, si veda leffetto Lombard
e quello che in questo manuale chiameremo effetto Romito. Giornalmente anche senza
alcun pericolo di intercettazioni, ritenendo lesivo o sconveniente il contenuto della no-
stra produzione linguistica per qualcuno, come il nostro capo, il nostro collega o nostra
moglie, involontariamente ed inconsciamente abbassiamo il tono della voce.
Leffetto Lombard o (lombard reflex) scoperto da Etienne Lombard (otorinolaringoiatra
francese) nel 1909 la tendenza involontaria dei parlanti ad aumentare lintensit della
loro voce in presenza di un rumore di fondo in modo da sovrastare il rumore con la voce.
Lo sforzo e il cambiamento non riguarda solo lintensit ma anche altre caratteristiche
come il pitch o la durata sillabica. Questa compensazione ha come risultato laumento
nellascoltatore del rapporto segnale-rumore e quindi nella maggiore comprensione delle
singole parole. Tale effetto si attua anche inconsciamente.
Per effetto Romito si intende labbassamento dellintensit (anche in maniera incon-
scia) della voce al di sotto di una certa soglia in dB in relazione alla distanza dellascol-
tatore. Il suono della voce cos prodotto potr essere ascoltato solo ed esclusivamente
nel raggio di 40-50 cm. Riducendo lintensit il parlato prodotto diventa mormorato o
bisbigliato quindi con una bassissima o assente attivit delle corde vocali che assumono
una posizione definita semichiusa (corde vocali chiuse e cartilagini aritenoidee aperte).
Articolatoriamente i singoli suoni vengono realizzati parzialmente e male. Su que-
sta voce, lestrapolazione di F0 o di parametri formantici a fini comparativi produce
sicuramente un errore di valutazione, le componenti armoniche sono uguali ad un
segnale senza frequenza fondamentale di bassa intensit. Sotto il profilo percettivo, la
voce si mantiene al di sotto del livello del rumore confidando nei dati extralinguistici,
nelle conoscenze dellargomento, dei toponimi, dei nomi e della situazione da parte
dellascoltatore, che porta al completamento dellinformazione. Importante anche la
posizione che assume sia il parlante che lascoltatore. Si riduce lo spazio, si riduce il
suono per accentuare il movimento articolatorio e quindi visivo, facilitando la lettura
labiale per il completamento del segnale. Leffetto quindi opposto a quello Lombard,
riducendo il rapporto segnale-rumore sotto la soglia. Per il trascrittore privo delle in-
formazioni citate e del canale visivo, il compito risulta molto arduo. In questi casi
molto frequente imbattersi in fantasiose ricostruzioni effettuate dal trascrittore sulla
base di qualche indizio fonetico ascoltato qui e l come una consonante, una sillaba o
una semplice vocale.
6.8.5. Il contesto e la situazione
Abbiamo gi molto parlato del contesto. In questo paragrafo tratteremo solo il fattore
contesto ai fini della trascrizione di una intercettazione.
Il contesto della situazione il luogo fisico in cui avviene la conversazione e ci
che osservabile. Esso pu essere implicito o esplicito da parte dei parlanti-ascoltatori
creando seri problemi ai trascrittori assenti.
Una frase del tipo con questa riesco a farne due dosi, chiara ed esplicita solo per chi
presente e vede il parlante indicare qualche cosa, invece risulta essere ambigua e con diverse
possibili interpretazioni a chi deve trascrivere avendo a disposizione solo il segnale acustico.
Ne sono prova le tante perizie affidate ed effettuate proprio su comunicazioni ambigue.
Il Magistrato affida una perizia linguistica o di trascrizione nella maggior parte dei
casi, non sulla base dellascolto del flusso sonoro delle registrazioni ma sul significato
frasale che si deduce dai verbali redatti dagli operatori di PG (Polizia Giudiziaria), o su
indicazione degli stessi. Nella maggior parte dei casi le informative cio le trascrizioni
in fase investigativa, sono parziali e riportano solo alcune frasi a-contestuali incrimi-
nanti come per esempio si sente passami la pistola o ancora potessi vederti morto
ammazzato, traduzione italiana di o chimma te viju mortu ammazzatu (dialetto catan-
zarese) che oltre al significato frasale e quindi alla traduzione letterale da intendersi
come semplice interazione, un saluto, lesternazione di una preoccupazione al pari di
tammazzera (dialetto catanzarese) it. ti ammazzerei 187. ormai nota, nel processo de-
nominato no global, laccusa basata sulla sola trascrizione della frase fatti sta sparata
subba Genova (dialetto cosentino) interpretata come premeditazione o organizzazione
di un eventuale attentato. La corretta interpretazione di ci che devi dire ma fallo mol-
to velocemente. Queste frasi e queste comunicazioni, senza una precisa ed esauriente
definizione del contesto sociale, culturale, situazionale e del cotesto verbale risultano
essere sicuramente incriminanti, ma con una valenza giuridica decisamente ambigua.
Una trascrizione parziale o ambigua, mina alle fondamenta il concetto di comunicazione
verbale multidimensionale.
Con questo non si vuole affermare che loperatore di PG non possiede una compe-
tenza acquisita, ma spesso lintuizione dellascoltatore scaturita dallascolto complessivo
del flusso sonoro, porta a mettere in rilievo una frase o una porzione di frase, lintuizione
pu essere scaturita da un rumore, da unintonazione, da una inflessione particolare nel
parlare, o nel rispondere, ma loperatore non ha gli strumenti per mettere su carta questa
intuizione, non ha la competenza per tradurre in scritto una interazione orale, quindi sar
costretto a limitarsi al significato molto superficiale delle parole o della frase. In qualche
modo chi verbalizza, il filtro tra la registrazione ed il magistrato, produce di fatto una
gerarchia per ordine di importanza, ci implica che detto filtro abbia la competenza lin-
guistica, dialettologica, pragmatica e fonetica adeguata.
Il contesto esterno invece il contesto storico e sociale della conversazione. Alcuni
aspetti del parlante possono essere estremamente importanti per una corretta trascrizione.
In alcuni casi questi possono anche essere verificati prima di effettuare una trascrizione.
La situazione riguarda lo stato sia del parlante che del ricevente. Il parlante il cen-
tro e tutto ruota intorno a lui, lo spazio (si veda luso delle deissi spaziali) organizzato
in funzione della sua posizione, quindi prendi quel giornale l sta ad indicare un l a parti-
re dalla sua posizione. Anche il tempo (si veda luso delle deissi temporali) organizzato
in base al tempo del parlante, torno tra un ora indica un ora a partire dal momento in cui
il parlante ha prodotto latto linguistico ecc.
Riguardo il canale necessario premettere che esso pu essere sia scritto che ora-
le. In questa sede ci soffermiamo esclusivamente su quello orale ed in particolar modo
su quello intercettato. Le intercettazioni possono essere differenziate in almeno due tipi
canonici (e alcuni sottotipi): le intercettazioni telefoniche e le intercettazioni ambientali.
Le intercettazioni telefoniche sono delle particolari interazioni orali che hanno un inizio
ben preciso, segnalato da uno squillo, e una fine spesso segnalata da un saluto e da una
chiusura dellapparecchio. La comunicazione si svolge tra due persone (o con scambi
di interlocutori segnalati da frasi ben precise come te lo passo), nella maggior parte dei
casi si rispetta il turno (cio vi poca sovrapposizione di voci e questo perch ci si affida
esclusivamente al canale sonoro omettendo quello visivo), la distanza dalla fonte sonora
alla cornetta (cio al microfono) costante, i rumori sono situati alle spalle dellinterlocu-
tore e lontani dalla conversazione, le informazioni sono tutte affidate al canale e soprat-
tutto alla nostra fiducia nel canale (per esempio il nostro modo di interagire differente
al telefono fisso rispetto al telefono cellulare)188. Durante una comunicazione in presenza,
o frontale (intercettazione ambientale), i canali si moltiplicano, le interazioni sono pi
complesse, i rumori assumono nuovi significati, completano spesso lo scambio verbale, si
trovano tra la fonte sonora e il microfono, i turni non vengono rispettati gli interlocutori
sono due o anche di pi, la distanza tra la fonte sonora ed il microfono non mai la stes-
sa, inoltre una conversazione in presenza non ha mai un inizio ed una fine ben definite.
Nellintercettazione segnalata da un numero progressivo che per viene inserito ogni
59 minuti di registrazione. Cosicch un progressivo di una registrazione ambientale,
non identifica una precisa conversazione, ma un tempo preciso registrato, allinterno
del quale pu essere contenuto parte di una pi ampia conversazione, o al contrario
molteplici conversazioni.
Lintercettazione ambientale pu avvenire in un luogo chiuso o in un luogo aper-
to. Oggi qualunque tipo di intercettazione si effettua attraverso una rete telefonica (si
veda ad esempio lintercettazione in automobile) a tal fine importante differenziare
non lo strumento ma la situazione comunicativa che viene intercettata. In questa sede
al di l dello strumento utilizzato si identifica una intercettazione telefonica quando la
conversazione avviene in assenza e una intercettazione ambientale quando essa avviene
in presenza. Tra le intercettazioni ambientali per possono essere identificati dei sottotipi
in base alle caratteristiche della situazione del luogo fisico o in base ad alcune variabili
come ad esempio il movimento degli interlocutori. In una intercettazione in automobile
gli interlocutori hanno poco movimento e anche solo dal tono e dalla distanza della voce
pi facile lattribuzione dei turni, cos durante una intercettazione di un colloquio in
carcere189, al contrario invece di quanto avviene in una intercettazione in un bar o in uf-
ficio. Altra caratteristica per differenziare i sottotipi sono il riverbero, la grandezza dello
spazio, i rumori presenti, il numero degli interlocutori. Il canale influenza, ovviamen-
te, molto il numero dei partecipanti alla discussione, il telefono normalmente prevede
2 interlocutori, una conversazione ambientale pu invece interessare molte persone. Il
numero dei partecipanti pu rimanere costante dallinizio alla fine della conversazione,
o pu variare oppure qualche interlocutore pu essere sostituito da un altro. Per un tra-
scrittore importante avere piena consapevolezza dellargomento trattato nella conver-
sazione concentrando lattenzione inizialmente sul significato190 pi che sul significante
e sulle singole parole da trascrivere. Tale procedura ovviamente aiuta la corretta attri-
buzione di ogni produzione di voce al singolo parlante senza confondere le attribuzioni.
Per quanto riguarda il contesto interno o linguistico questa una scelta che compete
al parlante. Una comunicazione orale influenzata fortemente dalla situazione; questa
infatti, normalmente, non pianificata, non perenne, quindi se il destinatario non sente
o perde una parte del messaggio, non potr pi recuperarla (nella scrittura basta rileggere
il brano). ormai riconosciuto da tutti che il contesto per una buona interpretazione di
un atto linguistico una delle variabili pi importanti. A questo proposito Duranti nel
1992 ha scritto: Pi recentemente, soprattutto a partire dalla fine degli anni Sessanta, un
crescente numero di linguisti ha cominciato a sostenere, sulla base di numerose ricerche
empiriche, la necessit di andare al di l della frase come unit danalisi. In particolare,
essi hanno dimostrato che certi fenomeni linguistici quali, ad esempio, lordine delle
parole, la flessione verbale e nominale possono esser meglio compresi se si analizza il
contesto linguistico al di l della frase in cui tali fenomeni appaiono. E ancora sempre
Duranti op. cit. Le persone coinvolte in uninterazione hanno dei modi per far sapere
agli altri partecipanti (siano essi presenti o assenti) la chiave di lettura o dinterpretazio-
ne di quello che dicono. Molto spesso la chiave interpretativa per una data espressione
linguistica viene data da comportamenti non verbali, che vanno quindi presi in consi-
derazione nellanalisi del parlato: una scrollata di spalle, una smorfia, unalzata delle
sopracciglia, uno strizzare docchio, un gesto con le mani.( 2.6, p.5).
La lingua deve essere intesa come un processo, un mezzo di interazione allinterno
di una certa situazione e di un certo contesto. Il mezzo attraverso il quale il parlante defi-
nisce il suo stato sociale, le sue sensazioni, i suoi sentimenti, tutte cose che non sono fa-
cilmente trascrivibili o traducibili in grafemi o segni grafici. Il parlante dal canto suo mi-
sura la sua produzione linguistica in base al luogo, per esempio in base al rumore stimer
la propria intensit (effetto Lombard), in base al rimbombo, la sua chiarezza, in base alla
presenza assenza di altri interlocutori il suo volume (effetto Romito), il suo codice ecc. Il
tipo di voce pu cambiare anche in base alla temperatura, infatti il forte freddo o il forte
caldo pu influire sulle caratteristiche acustiche e sulla stessa organizzazione sintattica
delle frasi costruite (si pensi al tremolio della mandibola per il freddo o al parlare sof-
fiando ripetutamente tra le mani). Il trascrittore non pu omettere informazioni di questo
tipo nella stima del parlato che dovr percepire e poi trascrivere.
Anche lo stato sociale ed i rapporti vengono definiti in base allo status ed al ruolo
che riveste il parlante in quellistante (rapporti simmetrici e asimmetrici). Un parlante
ritenuto (giustamente o ingiustamente) appartenere ad una scala sociale, culturale o di
potere superiore, difficilmente verr interrotto durante il suo eloquio che quindi potr
essere lento e con pause ripetute.
In ogni conversazione a due o tra molti, esistono sempre due posizioni, una domi-
nante ed una dominata. La valutazione della posizione non qualitativa ma sociale e
frutto di considerazioni e deduzioni soggettive dei singoli interlocutori. Un professore
ed uno studente in aula avranno dei ruoli stabili per default cos come una conversazione
tra un padre ed un figlio. Negli altri casi (compreso quello tra marito e moglie) sono le
schermaglie iniziali che definiscono di volta in volta il ruolo dominante e quello domi-
nato. Il dominante non viene interrotto, sovrappone la sua voce, ha lunghe pause, parla
con voce sostenuta, fa riferimento a conoscenze e implicazioni, al contrario il dominato
subisce le caratteristiche del dominante. In una riunione di una associazione criminale
attraverso una approfondita analisi conversazionale si potrebbe stabilire il ruolo che ogni
singolo interlocutore assume nellorganigramma della stessa associazione.
6.8.6. Lascoltatore e le conoscenze condivise
Come gi pi volte riportato, la linguistica ha concentrato i propri studi sulla parti-

colare importanza che riveste il ruolo dellascoltatore nella comunicazione191. Il processo
percettivo pu essere definito come processo attivo dove chi ascolta non si serve solo
ed esclusivamente di informazioni interne al segnale (suoni emessi), ma anche di dati
ad esso del tutto esterni come conoscenze ed aspettative sulla lingua usata dal parlante,
sullambiente e circostanze in cui si colloca il testo stesso ovvero il contesto linguistico
(o verbale) ed extra-linguistico (o situazionale). Chi ascolta elabora informazioni pro-
venienti da campi paralleli ma tra loro interconnessi192. Oltre alla decodifica acustica dei
suoni ascoltati si mira a ricostruire le intenzioni di chi parla, a fare una sorta di sintesi tra
la propria enciclopedia ovvero linsieme delle informazioni e delle conoscenze dipen-
denti dalla propria esperienza e le aspettative su quanto viene udito, analizzando in modo
globale il dato linguistico. Nel meccanismo percettivo entrano in gioco diversi elementi
che lascoltatore sfrutta al meglio nel suo compito di comprensione/interpretazione del
parlato. Ad esempio parlante ed ascoltatore che comunicano in una lingua conosciuta
ad entrambi, posseggono competenze relative ai diversi livelli della lingua che presie-
dono ai processi di produzione e percezione. Si pensi al ruolo che il contesto sintattico-
semantico occupa soprattutto nella percezione dei segnali rumorosi. Si pu facilmente
intuire come una frase dotata di significato o ancora di pi un discorso connesso, siano
maggiormente intelligibili di una serie di parole presentate senza alcuna logica. La com-
petenza sintattica e soprattutto quella semantica dellascoltatore infatti riducono di tanto
il numero delle probabili risposte in quanto permettono di disambiguare il dato fisico per
mezzo di processi di ipotesi ed inferenze. Abbiamo anche gi parlato dellimportanza
nella percezione e nella comprensione di un enunciato dei tratti soprasegmentali e para-
linguistici. Duranti (1992) scrive: Molti di quelli che vengono chiamati i tratti prosodici
del parlato (lintonazione, il volume, laltezza, la velocit del parlato) sono usati come
chiave dinterpretazione per far sapere agli altri che quello che stiamo dicendo deve esse-
re interpretato come serio, scherzoso, ironico, importante, ordinario, ecc.. Cos anche il
bisbigliare, il fare la voce grossa, il falsetto, sono spesso usati come segnali che marca-
no una particolare chiave interpretativa. I tratti paralinguistici sono invece rappresentati
dagli elementi comunicativi visivi che interagiscono con la produzione del parlato: chi
parla realizza contemporaneamente una serie di gesti ai quali affida parte del suo intento
comunicativo193.
Quindi nella testa del parlante, durante la fase di progettazione di un atto linguistico,
si trovano intenzioni, pensieri, sensazioni ecc., tutte entit in s compiute che egli pro-
gramma in appositi pacchetti da spedire al destinatario. Questultimo compie le stesse
operazioni del mittente ma nella direzione contraria, filtrando la percezione e linterpre-
tazione con la propria esperienza. Quindi un processo percettivo sempre una propria e
personale interpretazione di un segnale sonoro. Una trascrizione prevede una percezione
e quindi una interpretazione.
Ci possibile grazie ad informazioni definite bottom-up (dal basso verso lalto) e
top-down (dallalto verso il basso). Quando linformazione relativa al segnale acustico
(bottom-up) oscurata da rumore o da altre caratteristiche, la percezione avviene con-
fidando nelle informazioni di una analisi top-down e cio di fatti extralinguistici e con-
testuali. La percezione linguistica non deve quindi essere intesa come la risposta auto-
matica ad uno stimolo percettivo (esempio tocco il fuoco mi brucio e ritiro la mano) ma
la risposta ad un processo interpretativo globale. Nella fase di produzione il linguaggio
costituito da una serie di elementi che si susseguono secondo uno schema temporale
mentre la percezione segue regole di decodifica molto pi complesse. Un esempio di
quanto affermato lo si evince dallimportanza che svolge il contesto quando il messaggio
orientato al sistema (o system oriented). In questo caso linformazione non viene vei-
colata completamente dai dati acustici e la parola pu essere riconosciuta grazie alla sua
occorrenza nel contesto. Ne consegue che la percezione linguistica non sempre rispetta
il principio della linearit. Si pu comprendere meglio quanto affermato prendendo ad
esempio espressioni caratterizzate da un alto livello di prevedibilit dove lascoltatore
non segue percettivamente tutti gli elementi della frase secondo una sequenza temporale.
Infatti se una parola allinterno di una frase coperta da rumore, lascoltatore sar porta-
to a tornare indietro, ricostruire mentalmente lo schema della frase e quindi indovinare la
parola in questione. Ad esempio nella frase poter XXX un pisolino (dove schiacciare
la parola celata) attraverso un controllo seguente sullintera espressione, per inferenza
si inserisce al posto della porzione inintelligibile la parola pi probabile in quel contesto
cio schiacciare. Quindi la ricostruzione della porzione mancante resa possibile solo
ed esclusivamente grazie a fattori extralinguistici come la conoscenza che un pisolino
pu essere solo schiacciato194.
Un altro fattore importante nel processo percettivo sono le conoscenze condivise.
Durante una interazione orale c sempre la possibilit di far riferimento a quelle che
vengono normalmente chiamate conoscenze condivise: Hai visto che alla fine Ranieri
ce lha fatta ad avere Tony? in un caso come quello appena citato, si da per certo che
linterlocutore seguisse da tempo la trattativa e quindi sappia che si tratta di Luca Tony
il calciatore attaccante e non di Tony Manero o altri Tony, inoltre lemittente presuppone
che il destinatario sappia che Ranieri lallenatore della Roma, che una societ calcisti-
ca e che quindi dopo una lunga trattativa Luca Tony gi in questa stagione giocher tra le
file della Roma. Vale lo stesso se avessi detto hai visto che Tony non parler pi Inglese
ma Romano, oppure Che Tony non manger pi hamburger ma pajata? ecc.
Esiste anche una enciclopedia riconosciuta, generale e non settoriale come quellin-
sieme di conoscenze che si d per scontato il proprio interlocutore possegga, in quanto
sono patrimonio comune di un parlante medio colto (come la capitale della Francia, o
la ville Lumire), o che riguardano specificatamente gli interlocutori come membri ad
esempio della stessa famiglia (per cui lo zio Giovanni non pu essere confuso con un
altro zio) oppure della stessa comunit (gli assessori regionali: es. hai visto il pescatore
solitario che ha detto? Risaputo che lassessore allambiente un verde campione di
pesca ecc.) oppure della stessa gang o gruppo criminale, (dove Gianni Gianni, il Boss
il Boss e Micu quel Domenico, o Ni sar quel Nino, cio quellAntonio ecc. (Bazzanella
1994:20-21).
Anche la situazione intesa come luogo in cui si svolge la conversazione importante
per lascoltatore. Ad esempio: una frase del tipo come andata? prodotta alluscita
di un ambulatorio dove vengono effettuati i prelievi di sangue, si riferir al prelievo e
quindi la risposta sar condizionata dalla situazione pi che dalla domanda grammati-
calmente e semanticamente incompleta. Queste informazioni non vengono veicolate sul
piano segmentale e quindi non possono essere trascritte.
Riassumendo, lascolto lineare ma linterpretazione globale. Lascoltatore registra
grandi parti di segnale acustico, lo riversa su una memoria di lavoro e solo in seguito de-
cide da dove far iniziare lanalisi acustico-interpretativa. Cos la produzione linguistica,
come la percezione, oscilla sempre tra un livello di massima ricostruzione e quindi di mas-
sima interpretazione, ed un livello senza ricostruzione. La normale produzione linguistica
frutto di un compromesso tra il segnale acustico, le conoscenze pregresse e le aspettative.
Ci che sentiamo o che percepiamo sempre frutto di una interpretazione che facciamo
senza piena consapevolezza cos come avviene per le altre abilit.
In assoluto un trascrittore che conosce o ha conoscenza delle variabili che abbiamo
appena descritto ha pi chance di interpretare accuratamente il segnale ascoltato rispetto
ad un ascoltatore qualunque. Nonostante ci per, forte la possibilit che le proprie
conoscenze possano prevaricare sulla corretta interpretazione fuorviando la percezione
soprattutto in presenza di un segnale degradato. Otterremmo quindi una interpretazione
forse molto probabile ma sicuramente non la rappresentazione oggettiva della realt:
resterebbe comunque una opinione (cfr. le illusioni percettive, le chiavi di lettura e la te-
oria della Gestalt riguardo la definizione di coppie minime come aspirina/cocaina come
coppia gestaltica). Gli esempi presenti nella realt sono infiniti.
Il perito, in primo grado, afferma che il tratto INCOMPRENSIBILE, il consulente
tecnico del P.M. sente e trascrive la frase: CHIDDHU, U CARROZZERI? mentre
la P.G. operante sente e trascrive CHIDDHU, U ZAVETTERI?, la difesa attraverso
lanalisi acustica smentisce entrambe le trascrizioni.
Lascoltatore oltre che conoscere la lingua o il dialetto da trascrivere deve anche
avere competenze di sociolinguistica. Soprattutto in Italia dove nel parlato connesso o
spontaneo spesso le frasi prodotte sono miste e contengono italiano e almeno un dialetto.
Lascoltatore/trascrittore deve conoscere le regole del code-switching e del code-mixing.
Il code-switching (o commutazione di codice) il passaggio funzionale da un sistema
linguistico ad un altro, in concomitanza con un cambiamento nella situazione comunica-
tiva, che pu essere un cambio di interlocutore o di argomento, o una pura scelta stilistica
ed espressiva. La commutazione avviene quasi sempre al confine di due frasi: per questo,
dal punto di vista sintattico, si dice che il code switching interfrasale (C. Grassi, et al. op.
cit., p. 186). La sua presenza durante un parlato pu avere diverse spiegazioni: il parlan-
te, dopo aver iniziato con un codice, si rende conto di non averne la totale padronanza e
passa ad un altro di cui ha pi competenza; il parlante pu passare da un codice A ad uno
B quando si accorge che linterlocutore ha maggiore competenza nel codice B; o ancora,
il parlante segnala il suo disaccordo con linterlocutore o con il tema o tipo di discorso.
Il code-mixing (enunciazione mistilingue) la combinazione di elementi di diverse va-
riet che danno luogo a segmenti mistilingui: nel nostro caso si tratta di mistilinguismo
dialetto-italiano. Questo processo non condizionato da cambiamenti nella situazione,
non intenzionale e non ha una funzione comunicativa precisa. anchesso interfrasale,
in quanto avviene in qualunque punto della catena parlata. Luso incrociato di due co-
dici favorito dal fatto che le strutture della lingua e di molti dialetti sono assai simili,
soprattutto a livello sintattico e quindi il parlante si muove con disinvoltura attraverso la
morfologia e il lessico dei due codici. Il prestito invece un caso pi particolare poich il
parlante prende una parola da un altro codice e la inserisce nel suo discorso, adattandola
fonologicamente e morfologicamente alla lingua che sta usando. Il parlante inserisce un
prestito nel caso in cui vi sia la mancanza, nella sua competenza linguistica, di un termi-
ne cos preciso da permettergli di esprimere chiaramente il concetto, spesso poich deter-
minati termini, ad esempio dialettali, non hanno un loro corrispondente esatto in italiano.
Il processo di trascrizione quindi prima un processo di percezione-interpretazione
e successivamente ci che si percepito e interpretato deve essere tradotto in un nuovo
codice che quello scritto. Se il percepito in una lingua diversa dalla lingua ufficiale
dello stato italiano allora prima della conversione in un codice scritto bisogna effettuare
una traduzione (cfr. a questo proposito il capitolo sulla traduzione).
La cooperazione un fattore molto importante nella conversazione sia sotto il pro-
filo della produzione che della percezione. Producendo un atto linguistico spesso con-
fidiamo molto di pi sulle conoscenze condivise che sullaspetto acustico del segnale
che stiamo producendo. Questo fa si che siano possibili produzioni superficialmente
scorrette e incoerenti come nel seguente esempio:
A: sai a che ora viene Michele?
B: non aveva basket oggi!
In questo esempio gli interlocutori si conoscono e conoscono anche le abitudini di
Michele, non hanno solo la consapevolezza di rifarsi a delle conoscenze condivise cio
lorario in cui normalmente Michele esce dal suo allenamento di basket ma addirittura la
risposta di B, che potrebbe dallesterno essere interpretata come errata o come non perti-
nente rispetto alla domanda di A, non altro che la voglia di cooperare alla discussione
attuata da A. Quindi la corretta interpretazione da dare alla risposta di B la seguente:
non so di preciso lora ma posso forse aiutarti dandoti come informazione il fatto
che, se oggi Michele ha lallenamento di Basket, allora potrebbe arrivare solo quando
questo sar terminato.
Ovviamente lassoluta mancanza di conoscenze da parte di un ascoltatore esterno
come potrebbe essere un trascrittore non consente assolutamente una corretta perce-
zione ed interpretazione del segnale acustico prodotto.
Abbiamo gi trattato largomento della presa del turno nel paragrafo relativo
allanalisi conversazionale, in queste pagine ci concentriamo solo sullavvicendamen-
to dei turni in ambito di intercettazioni e quindi di trascrizioni.
Qualsiasi conversazione, effettuata in presenza o in assenza (per telefono) carat-
terizzata dallavvicendamento dei turni, cio dal passaggio dallo status di destinatario
a quello di emittente e viceversa. In una conversazione, soprattutto telefonica, lo scam-
bio di turni avviene in maniera ordinata. ovvio per che nella norma e maggiormente
nelle conversazioni in presenza spesso si verificano interruzioni e sovrapposizioni di
turni. Gli interlocutori pretendono di parlare nello stesso momento (in questo caso si
parla di avvicendamento non morbido). In casi come questi pu essere molto impor-
tante per linquirente sapere chi dei due riuscir ad imporre il proprio turno, visto che
ci indicher (soprattutto in alcuni ambienti) colui che detiene uno status sociale rite-
nuto pi alto. Su questo argomento molti sono i lavori da consultare (Sacks, Schegloff,
Jefferson, 1974, Duncan 1972), che affrontano il problema dellavvicendamento dei
turni schematizzandolo con regole comportamentali abbastanza ferree: noto che il
rispetto del turno di parola pi basso quanto pi bassa lestrazione socioculturale
degli interlocutori, quanta pi alta la confidenza che lega, quanta pi intensa la
partecipazione emotiva prodotta dallinterazione comunicativa in atto (per cui sono
prevedibili i picchi di sovrapposizione proprio in corrispondenza ad argomenti perti-
nenti alle indagini, dato che i reati sono per loro natura emozionalmente non neutri195.
6.8.7. La registrazione
Negli ultimi anni il fenomeno delle intercettazioni si notevolmente sviluppato sia

riguardo le richieste, sia riguardo laspetto tecnologico e strumentale. Solo negli anni 90
le registrazioni avvenivano su una bobina magnetica per mezzo di un registratore analo-
gico ad una velocit molto bassa di scorrimento del nastro. Oggi gi molto difficile riu-
scire anche solo a leggere ed ascoltare quei reperti analogici, la registrazione diventata
digitale prima su nastro magnetico (cassette DDS) poi su supporti informatici (minidisk
o cd-rom) o su dischi ottici fino ad arrivare ai giorni nostri dove la registrazione avviene
su un server (lontano dal luogo della registrazione). Si cos formalmente rinunciato al
concetto di supporto perdendo loggetto della prova (e questo nonostante una nota della
Cassazione Penale Sez. V, del 11/03/2002, n 9633, si pronunci come segue: Secondo la
giurisprudenza la prova costituita dalla bobina. La trasposizione su carta del contenu-
to delle registrazioni rappresenta solo unoperazione di secondo grado).
Col termine intercettazione si intende lacquisizione, mediante particolari dispo-
sitivi elettronici, di segnale vocale (conversazioni o comunicazioni), e come gi detto
pu essere telefonica e ambientale.
Le caratteristiche della registrazione e del segnale registrato sono ovviamente in
stretta relazione con lintelligibilit dello stesso e quindi con la trascrizione, anche se
bisogna dire che la qualit delle registrazioni non sempre direttamente proporzionale
alla fedelt o alla chiarezza del segnale e quindi indirettamente della trascrizione. Come
abbiamo ripetuto ormai innumerevoli volte la comunicazione non riguarda esclusiva-
mente il canale acustico, quindi possibile avere una registrazione di ottima qualit ma
non del tutto intelligibile.
Lintelligibilit indica quella particolare caratteristica percettiva del segnale di pa-
rola che definisce la pi o meno corretta comprensione da parte dellascoltatore del
segnale stesso.
Si tratta di un fenomeno complesso legato a fattori di diversa natura e inoltre non sono
state ancora del tutto definite le modalit attraverso cui il cervello umano decodifica il parlato.
Lintelligibilit, unita ad altre caratteristiche del segnale sonoro quali intensit, na-
turalezza, gradevolezza, accettabilit e riconoscibilit del parlatore, determina la cosid-
detta qualit delle intercettazioni196. Questa normalmente, nelle registrazioni frutto di
intercettazioni (soprattutto ambientali) tendenzialmente bassa197.
Nelle registrazioni di tipo ambientale sono spesso presenti diversi tipi di rumo-
re che disturbano la qualit dellintercettazione ostacolandone anche lintelligibilit.
Possiamo ricordare quelli presenti nellambiente in cui avviene la comunicazione o
nelle immediate vicinanze, come il rumore del traffico, di passi, di eventi atmosferici,
lo sbattere di porte o di voci sovrapposte, quelli elettrici come il ronzio di rete e i toni
telefonici. Questi appena citati, costituiscono il gruppo dei cosiddetti rumori additivi.
Questi tipi di rumore possono essere sempre presenti come il rumore del motore di
un auto, occasionali come lo sbattere di una porta o ricorrenti come il segnale acustico di
una cintura di sicurezza non agganciata in auto, il motore di un frigo in una stanza ecc.
Questi segnali generati da diverse sorgenti, si aggiungono al segnale oggetto del
nostro interesse.
Altri tipi di rumori invece sono quelli legati allacustica dellambiente come la
riverberazione o leco e fenomeni di risonanza e riflessione. Questo secondo gruppo di
rumori definito convolutivo, interagisce in modo attivo con le caratteristiche del segnale
di nostro interesse.
Spesso in questi ultimi anni e soprattutto nel caso di trascrizioni di disputed utteran-
ces ci si posti il problema di misurare lintelligibilit di una registrazione in modo da
conferire maggiore obiettivit alla trascrizione proposta.
Molti studi sono stati realizzati con lo scopo di misurare con una certa accuratezza
questa complessa entit del segnale sonoro. Normalmente i test che mirano a definire
le misure di intelligibilit vengono usati per poter stimare il livello di comprensione di
segnali vocali in condizioni avverse. Tali prove risultano particolarmente utili per sup-
portare trascrizioni di registrazioni dove quasi sempre il materiale sonoro degradato e
misto a rumori sia di tipo additivo che di tipo convolutivo.
ovvio che la presenza di rumore ha una grande influenza sullesito di una corretta
trascrizione. Mentre il suono pu essere definito acusticamente come un segnale sonoro
composto da un preciso numero di frequenze fisse e ben definite, una somma di onde
semplici sinusoidali aventi caratteristiche di periodicit, il rumore invece pu avere due
differenti definizioni, una acustica ed una linguistica. In fonetica acustica il rumore pu
essere considerato come qualsiasi fenomeno acustico, generalmente irregolare, casuale e
non musicale, costituito da sovrapposizione disordinata di un numero indefinito di onde
elementari. In linguistica invece il rumore deve essere inteso come qualsiasi disturbo
esterno alla comunicazione che comprometta lintelligibilit di un segnale sonoro.
Lintelligibilit non pu essere valutata oggettivamente (i test per valutarla sono no-
toriamente soggettivi), la sua misurazione dipende dagli ascoltatori (e dalla loro capacit
uditiva, attenzione ed intuito), dal luogo scelto per realizzare la misurazione, dalla lista
usata nella prova (aperta o chiusa), dal materiale fonico scelto come test di prova, dal
livello di rumore presente, dal canale di trasmissione, dal metodo adottato e dalla qualit
della voce del locutore. La misura soggettiva dellintelligibilit, generalmente si basa su
diverso materiale fonico come fonemi, parole e frasi. Le tecniche sono diverse cos come
anche le procedure utilizzate sia riguardo la presentazione agli ascoltatori del materiale
acustico, sia riguardo la valutazione della risposta di tipo aperta o chiusa. Ad oggi quindi
non esiste un sistema unitario di misura dellintelligibilit.
Presentiamo di seguito alcuni tra i test soggettivi pi conosciuti.
Nel test con i logatomi, si costruisce una lista di parole prive di significato composte
da 2-3 foni. I gruppi possono essere scelti indipendentemente dalla lingua (es. ata, aba,
iri ecc.) pronunciati senza nessuna particolare intonazione, in modo naturale e sempre
con la medesima intensit. Tale prova particolarmente utile in quanto fa s che lascol-
tatore non subisca linfluenza di nessun altro elemento extra o paralinguistico e che dun-
que si confronti solamente con la qualit del segnale sonoro cui sottoposto. Tale dato
misura esclusivamente la capacit di un ascolto acustico dei singoli suoni senza attivare
alcun processo percettivo o interpretativo.
Nel test con parole, allascoltatore vengono presentate alcune liste di parole reali,
scelte in base a precisi criteri come quello fonetico. Ad esempio tutte le parole devono
avere un uguale numero di suoni vocalici (es. pepita, patata). Questa prova molto sem-
plice, non richiede agli operatori un periodo di addestramento specifico e si sofferma
esclusivamente sullaspetto acustico delle parole, sul significante.
Nel test con frasi, le liste sono formate da espressioni o frasi, che il soggetto dovr
trascrivere nel modo in cui sono state percepite. Le frasi hanno un significato ben defini-
to, appartengono alla stessa lingua che quella degli ascoltatori. Quasi sempre occorre
preparare una grandissima quantit di materiale sonoro poich il riconoscimento non
avviene solo ed unicamente sulla scorta della struttura acustica, le risposte potrebbero
essere influenzate da fattori di altra natura, quali quelli semantici. In questo caso la valu-
tazione dellerrore risulta particolarmente difficile.
Il metodo MRT (Modified Rhyme Test)198 prevede un test a risposta chiusa (tra 5
scelte possibili). Lascoltatore deve riconoscere la parola realmente pronunciata, allin-
terno di numerosi gruppi (suddivisi in 2 liste) ognuno dei quali contiene 5 parole rimate
e fonologicamente identiche che differiscono tra loro per il solo fonema iniziale o interno
(es. sale, vale, pale). Questa prova risulta particolarmente vantaggiosa anche per i dati
che ci fornisce riguardo i fonemi consonantici che risultano pi facilmente confondibili
tra loro, creando cos una dettagliata matrice di confusione dei suoni.
Il metodo DRT (Diagnostic Rhyme Test)199 un test a doppia scelta e consiste in 2
liste di parole rimate organizzate in coppie le cui consonanti iniziali o quelle delle sillabe
finali, si differenziano per un solo tratto distintivo. Il compito dellascoltatore sar quello
di indicare quale delle due parole stata realmente pronunciata dimostrando anche, im-
plicitamente, la sua maggiore o minore abilit nel riconoscere la caratteristica distintiva
del suono trasmesso.
Se vero che lintelligibilit pu essere valutata soltanto con misure di tipo sogget-
tivo sulla base di giudizi espressi dalloperatore umano, bisogna comunque ricordare
che la preparazione di simili prove comporta generalmente percorsi piuttosto lunghi e
laboriosi ed ha come punti deboli una scarsa ripetibilit dei giudizi soggettivi, una scarsa
efficacia diagnostica e soprattutto riguarda una stima esclusivamente acustica e non in-
terpretativa del segnale acustico ascoltato 200.
Come facile notare quindi esiste una stretta correlazione tra una corretta percezione
e la quantit di rumore presente sul segnale registrato, in altre parole il rapporto esistente
tra il segnale da percepire e il rumore presente.
Il rapporto segnale-rumore il rapporto tra la massima ampiezza utile di un segnale
e lampiezza del rumore presente. Esso di difficile misura, in quanto fluttua nel tempo
in funzione del segnale sonoro. Pu essere definito Signal/Noise Ratio (S/N o SNR) o
Rapporto Segnale/Rumore (S/R). Lammontare del disturbo 201 sulla parola pu essere
valutato in diversi modi: a) livello di interferenza di disturbo (espresso in dB 202); b) e
indice di comprensibilit anche se nel nostro caso lindice dato dal contesto e dalla
capacit di ricostruire il segnale da parte dellascoltatore.
Lintelligibilit della parola, anche secondo quanto scrive Lehmann 203 con presenza
di rumore bianco 204 o comunque di rumore a spettro continuo, massima con un rappor-
to S/R uguale o superiore a 10 dB ed invece nulla per un rapporto inferiore a -20 dB 205.
Lintelligibilit dipende quindi non solo dalla presenza ma direttamente dallinten-
sit del rumore di fondo, dalla riverberazione e dalla modalit di riflessione (cfr. Cocchi
Farina Vezzali 1980). Le uniche controversie presenti in letteratura sullargomento ri-
guardano il contributo e il peso di ogni singolo parametro. Molti sono gli esperimenti,
che provano la dipendenza dellintelligibilit dal tempo di riverberazione 206 o la relazio-
ne tra lo spettro del rumore e lintelligibilit 207.
Esiste anche la possibilit di calcolare un indice di Articolazione in base al quale
viene definita lintelligibilit di un segnale 208.
LIndice di Articolazione (AI) 209 una grandezza capace di stimare lintelligibilit di
un segnale in funzione del rapporto S/N indicato in decibel, dove N rappresenta appunto
il rumore mascherante, o meglio la sua intensit che si sovrappone a quella del segnale
S. Tale indice assume un valore che va da 0 a 1, ovvero intelligibilit nulla o massima.
Dando una definizione quantitativa si giunge ad etichettare lintelligibilit in termini di
percentuale del segnale trasmesso correttamente ricevuto. Il procedimento che misura
questo parametro consiste nellinviare allascoltatore, tramite un canale di trasmissione
prestabilito, liste di materiale sonoro lette da un parlante particolarmente addestrato. La
misura dellintelligibilit data dalla seguente relazione:
I=100 R/T (%)
dove T il numero di frasi trasmesse e R il numero dei corrispondenti elementi cor-

rettamente ricevuti. Con la rappresentazione grafica dellIndice di Articolazione di Leh-
mann, si arriva, secondo questi studi, ad una ottima approssimazione del livello di intel-
ligibilit, per una conversazione che si svolge allinterno di un ambiente insonorizzato
secondo le norme ISO e con la produzione allesterno di un rumore.
Figura 6.8 Adattata da Lehmann 1969
Per comprendere da un punto di vista linguistico il significato dellespressione rap-

porto Segnale/Rumore occorre fare una precisazione. Lintelligibilit cos misurata non
altro che una misura quantitativa della qualit del sistema di trasmissione impiegato. Lin-
telligibilit del parlato deve invece essere la somma dellinformazione fonetica, dellin-
formazione recata dal contesto linguistico ed extralinguistico la corretta percezione di un
significante e la corretta interpretazione di un significato. Riteniamo che linguisticamente
il rumore debba essere inteso come qualsiasi disturbo regolare o meno, sovrapposto al
segnale ritenuto portatore di informazione. Abbiamo volutamente parlato di segnale e non
di atto linguistico in quanto riteniamo che sia il soggetto ascoltatore a decidere di volta in
volta quale sia il segnale-informazione e quale il segnale-disturbo. Quindi un suono tale
se ha un carattere informativo, di contro un rumore sar qualunque segnale indesiderato
che disturba, compromette e maschera la percezione del suono-informazione. Il rumore
quel segnale indesiderato privo di qualsiasi contenuto informativo utile per lascoltatore. Il
problema sta nel definire quale suono sia informazione e quale invece sia rumore. Un brano
di musica classica (non classificabile tra i rumori dal punto di vista fisico-acustico) sovrap-
posto ad una voce pu essere considerato rumore se linformazione veicolata dalla voce.
Al contrario, a teatro, durante una rappresentazione lirica, una voce pu essere considerata
rumore se la percezione concentrata sulla musica.
Anche due voci sovrapposte sono lesempio di un segnale e di un rumore. Sta
allascoltatore decidere quale delle due sia da ritenere carica di contenuto informativo e
quale invece rumore disturbante 210.
Alla luce di quanto detto, il rapporto Segnale/Rumore potrebbe essere riproposto
come rapporto di intelligibilit, cio un rapporto tra lintensit del suono-informazione
(qualunque esso sia) e lintensit del suono-disturbo (qualunque esso sia) ottenendo
quindi SI/SD (segnale informazione/segnale disturbo) o pi semplicemente il rapporto
I/D. Questo rapporto cos formulato risolverebbe problemi annosi come le intercetta-
zioni in automobile con la radio a tutto volume nella registrazione (caratterizzate ogget-
tivamente da un alto valore del rapporto S/N di molto superiore alla soglia dei 10 dB ma
comunque spesso assolutamente inintelligibili). Un esempio potrebbe essere lanalisi
del segnale intercettato in una automobile allinterno del p.p. 1097/03 RG Corte di Ap-
pello di Palermo nei confronti di Bruno Contrada. Detto segnale, ad una analisi di S/N
tradizionale risulta avere un rapporto di ben 13 dB (al secondo 37.34 della registrazione
oggetto di analisi). Quindi secondo la scala di Lehmann precedentemente presentata, il
segnale da trascrivere caratterizzato da una intelligibilit superiore al 95%. Cio il 95%
delle parole verranno correttamente percepite e quindi trascritte.
Figura 6.9 Analisi del rapporto S/N sovrapposte al grafico di Lehmann

Ad una analisi approfondita, si rileva che la registrazione avvenuta in automobile e
che al parlato si sovrappone una canzone napoletana trasmessa dalla radio. Lintelligibi-
lit molto bassa, lo si evince anche dalla enorme presenza di parole incomprensibili
presenti allinterno della trascrizione presentata da diversi periti.
Figura 6.10 Sovrapposizione della trascrizione e della durata su uno oscillogramma di

una porzione di segnale registrato. Prima bozza del lavoro di trascrizione
Effettuando il calcolo I/D considerando segnale Informativo il parlato e il segnale

Disturbante la voce e la musica presente nella canzone napoletana sovrapposta, il valore
allo stesso secondo considerato per il calcolo di S/N sar di 5.54 dB giustificando la
presenza di cos tanti incomprensibili nelle trascrizioni presentate (si veda anche forma
donda nella figura precedente).
Di contro per, quando il rumore presente sul segnale un rumore acustico allora le
due analisi giungeranno allo stesso identico risultato come si evince dalla tabella seguente:
al sec S/N in dB I/D in dB

37.34 13 5.54
38.18 -6,91 -6,91
Tabella 6.5 Tabella che riporta la misura del rapporto segnale rumore (S/N) e del rap-
porto segnale informativo segnale disturbante (I/D) in due precise porzioni di tempo
Quando si ascoltano contemporaneamente due segnali, una televisione ed un parla-

tore, la voce di un amico in una sala piena di gente e di rumori, lascoltatore considera
luna fonte rumore e laltra informazione, quindi attiva un processo di selezione attiva,
cio quella capacit di selezionare un input tra tutti quelli che pervengono, ignorando gli
altri. La percezione, soprattutto se si tratta di segnali particolarmente rumorosi, non si
avvale di una meccanica decodifica acustica, lascoltatore, in modo pi o meno consa-
pevole, elabora una serie di processi mentali che contribuiscono a migliorare il livello
di intelligibilit. Ne una prova il fatto che non esiste una diretta correlazione tra il dato
prodotto e il dato percepito neppure a livello di frequenza (la grandezza dei suoni pro-
dotti lHz mentre quella dei suoni percepiti il Mel o il Bark e questo per la funzione
logaritmica della membrana timpanica gi discussa ai paragrafi precedenti).
Quanto detto pu diventare un problema quando ad effettuare una trascrizione
un tecnico ingegnere, fisico o comunque non linguista, poich concentrer tutta la sua
attenzione sullaspetto acustico della produzione omettendo le informazioni correlate.
Non certo questa la sede per affrontare il problema del filtraggio di un segnale (o
come spesso riportato negli incarichi peritali: pulitura del segnale), ma parlando di rumore
necessaria una piccola annotazione. Effettuare il filtraggio su un segnale con tutti i diversi
tipi di rumore presentati una operazione molto complessa. Loperazione deve essere ma-
nuale e il filtro costruito solo per piccole porzioni. Al contrario, la prassi peritale vuole che
il filtro sia uguale per tutti i rumori, sia digitale e precostruito, che agisca su tutto il segnale
migliorando forse la qualit ma sicuramente non lintelligibilit (o la sua misurazione).
Lesempio grafico Figura 6.11 di quanto detto aiuter sicuramente la comprensione
di queste affermazioni.
Figura 6.11 Rappresentazione grafica di un segnale sonoro. In alto viene presentata la

forma donda del segnale (a) con lintensit o ampiezza sullasse delle Y e il tempo su
quello delle X. In basso viene presentato il sonogramma dello stesso segnale (b) con la
frequenza sullasse delle Y e il tempo sullasse delle X. Il livello di intensit o ampiezza
viene presentato seconda la scala cha va dal bianco al nero
Sullasse delle Y in verticale in (b) si distribuiscono le frequenze. Il sonogramma
presenta una estensione per il parlato (oggetto di nostro interesse) da 0 a 3000 Hz e
una distribuzione delle frequenze del rumore da 0 a 5000 Hz. Se eliminiamo il rumore
presente sulle alte frequenze e cio da 3000 ad 5000 Hz (con lapplicazione di un filtro
taglia alto) avremo sicuramente migliorato la qualit acustica del segnale ma non lintel-
ligibilit, infatti, non siamo affatto intervenuti sul rumore presente nelle stesse frequenze
delle parole cio da 0 a 3000 Hz 211 (si veda la Figura seguente 6.12).
Figura 6.12 La figura rappresenta graficamente lapplicazione di un filtro taglia alto

sulle frequenze 3000-5000Hz. La zona in bianco presenta il silenzio creato (si confronti
con la Figura 6.11) la zona scura il segnale da ascoltare sul quale il filtro non ha prodotto
alcuna miglioria (si confronti con la Figura 6.11)
6.8.8. La ricostruzione del segnale
Lascolto di un segnale linguistico degradato dove porzioni pi o meno estese su-

biscono linterferenza di rumori di sottofondo, pone lascoltatore nella condizione di
non poter usufruire per la corretta percezione di informazioni acustiche. Lascoltatore
effettuer anche inconsciamente una ricostruzione del segnale mancante per giungere
comunque ad una interpretazione.
Esiste un sistema di regole che governa sia la produzione che la percezione dei mes-
saggi linguistici. Lascoltatore analizza un segnale attraverso un processo di sintesi in
cui richiama alla mente le stesse regole usate per la produzione. Dunque parlante ed
ascoltatore che comunicano in una lingua nota ad entrambi, posseggono competenze 213
che presiedono ai processi stessi di produzione e percezione.
Ogni livello della lingua dal fonologico al semantico presuppone precise conoscenze
che contribuiscono in modo significativo a facilitare una corretta percezione in casi di
qualit particolarmente bassa. Si pensi ad esempio al ruolo che il contesto sintattico-
semantico occupa proprio nella percezione dei segnali rumorosi e ancora di pi a cosa
accade nellatteggiamento dellascoltatore quando in lui comincia a formarsi la consa-
pevolezza di una restrizione contestuale. Come gi detto, una frase pi intelligibile di
una sequenza di parole senza senso e questo proprio grazie alla competenza sintattica e
semantica dellascoltatore 214. Il cervello nel tentativo di riconoscere una parola spor-
cata da rumore e inserita in un contesto frasale ben preciso, pur non potendosi basare
sulle informazioni acustiche, cerca letteralmente di indovinare il termine in questione.
Gli baster anche solo un semplice indizio fonetico quale la vocale iniziale o finale, una
consonante, lo schema accentuale o la durata della parola per iniziare una possibile inter-
pretazione; elabora una sorta di selezione che lo condurr a ritenere che la parola scelta
lunica possibile in quel contesto. E questo avviene nonostante non ci sia nessuna
certezza sulla reale parola prodotta. Lascoltatore conta molto sulla propria conoscenza
del sistema, sulle proprie aspettative e previsioni basate sulla precedente esperienza lin-
guistica e su tutte quelle informazioni che abbiamo definito dop-down rispetto al segnale
acustico 215.
In un recente esperimento 216, durante un test dascolto, sono state presentate frasi con
un buon livello di prevedibilit del tipo I ragazzi mangiano un panino, dove la parola
mangiano stata coperta da rumore. Il compito per gli ascoltatori risultato abbastanza
semplice, la predicibilit del verbo e del contesto semantico, nonostante la quasi tota-
le inintelligibile acustica, ha contribuito in modo notevole alla corretta trascrizione 217.
Lascoltatore, sentita tutta la frase 218, in pochi millesimi di secondi in base alle proprie
competenze effettua una veloce analisi semantica ricercando un verbo i cui tratti seman-
tici siano compatibili con gli altri elementi della frase giungendo cos quasi intuitiva-
mente alla soluzione.
Questo atteggiamento ha maggiore valore con laumentare della prevedibilit della
frase, come nei proverbi e nelle frasi idiomatiche 218. talmente importante il contesto
e la prevedibilit che in proverbi o frasi idiomatiche, anche con un rapporto S/N (o I/D)
bassissimo (es.-20 dB) la percentuale di risposte esatte date dai soggetti resta comunque
altissima.
Anche le conoscenze fonologiche sono importanti nel caso di una ricostruzione lin-
guistica soprattutto in casi di segnali degradati (conversazione al telefono con voce di-
sturbata, bar, campi sportivi, discoteca ecc.). Secondo Noam Chomsky la competenza
tutto ci che lindividuo sa della propria lingua per poter parlare come parla e per poter
capire come capisce, quindi il parlante sa che pfropf 219 non un termine ammesso nel-
la lingua italiana e lascoltatore rifiuter qualunque parola che inizi o finisca col gruppo
consonantico pf . Senza effettuare una analisi linguistica o avere effettuato studi lin-
guistici, lascoltatore sembra sapere quali sequenze di suoni siano permessi nella lingua
madre e quali invece no, e usare queste informazioni per decidere ed interpretare segnali
di bassa qualit.
In un recente studio220 sono stati presentati ad alcuni soggetti alcune sillabe com-
poste da suoni sintetizzati digitalmente tra il continuum presente tra la /r/ e la /l/221. Nel
riconoscere il singolo suono lascoltatore si basato sulla presenza dei suoni precedenti
e seguenti e quindi sulle regole di restrizione fonotattiche, poich il meccanismo della
percezione tiene conto della plausibilit della sequenza di due suoni.
Nellitaliano se percepisco la presenza di un nesso consonantico iniziale di parola
ad esempio e se percepisco chiaramente la presenza di una /t/ allora la scelta della
parola sar tra tutte quelle parole italiane che iniziano per /t/ e che hanno come con-
sonante successiva una /r/ anche se questo ultimo suono non viene sentito. E questo
perch in italiano se abbiamo un nesso iniziale in cui la prima consonante una /t/
allora la seconda sar necessariamente una /r/. La scelta tra tutte le parole possibili si
ridurr a meno di un decimo dellintero vocabolario. In seguito con laiuto di informa-
zioni grammaticali (un verbo? un nome?) e con la conferma del contesto, lascoltato-
re effettua una interpretazione del segnale percepito, quanto pi possibile plausibile,
probabile.
Ovviamente linterpretazione basata su ipotesi e dati ritenuti certi, nel caso di un
ascolto di una lingua straniera ma non ritenuta tale, lascoltatore applicher le regole
della sua lingua madre giungendo a conclusioni assolutamente false e improbabili. Pro-
cedure fonologiche, morfologiche e sintattiche corrette guidano la percezione, ma se ap-
plicate su una lingua diversa con regole e restrizioni differenti portano ad eclatanti errori.
I suoni presenti su segnali di bassa qualit e quindi incompleti perch coperti
o con intensit insufficiente, possono essere ricostruiti 222 attraverso una sofisticata
capacit del cervello e in maniera inconsapevole per lascoltatore. Il fenomeno
noto come Ricostruzione fonemica (Phonemic Restoration), potente illusione uditiva
con cui si indica proprio questa sorta di sintesi percettiva dei fonemi mancanti nel
parlato.
I primi studi223 risalgono agli anni 70, quando si scopr che anche se un certo se-
gnale di disturbo (un colpo di tosse) copriva totalmente la prima /s/ di legislatures
nella frase The State governors met with their respective legislatures convening in the
Capital City, gli ascoltatori riferivano di avere sentito ugualmente il fonema masche-
rato224. Linteresse che ne deriv fu tale da creare nel tempo una serie di studi e ricerche
di natura sia linguistica che psicologica. Laspetto che incuriosisce maggiormente con-
siste proprio nella natura illusoria del fenomeno. Leffetto della ricostruzione percettiva
indica chiaramente che tutti quei suoni che lascoltatore crea nel proprio cervello e
che non sono presenti nella realt, sono copie dei suoni fisici (distorti). Si tratta fon-
damentalmente di uninterpretazione inconscia da parte dellascoltatore. Il cervello in-
fatti, ascoltata tutta la porzione di segnale, completa il tratto degradato con suoni che
dovrebbero stare in quella posizione basandosi semplicemente sui dati dedotti dal
resto del segnale percepito.
Per avere unidea della potenza di questo effetto basta dire che lascoltatore non si
accorge neppure della ricostruzione da lui attuata. Non si accorge persino di quale sia il
segmento mascherato.
Questo completamento inconscio potrebbe essere condizionato dalle aspettative del
soggetto riguardo al contenuto del messaggio. Le ricostruzioni possono quindi essere
di singoli suoni ma anche di intere parole (ricostruzione lessicale)225. Le ricostruzioni
vengono differenziate in continuit apparente e aumento di intelligibilit. Il primo tipo
si riferisce allapparente continuit di un suono distorto dalla presenza di un rumore di
sottofondo. Questa illusione di continuit uditiva si avverte solo se le caratteristiche
acustiche (spettrali, temporali e spaziali) del segnale di disturbo sono sufficienti per ma-
scherare il suono interrotto, [...]226. Questa condizione necessaria solitamente indicata
come Masking Potential Rule.
Laumentata intelligibilit invece prova del fatto che il cervello umano sfrutta al-
meno due tipi di ridondanza specifici del parlato nella ricostruzione dei segmenti man-
canti227: la coarticolazione e il contesto semantico della frase. Una ridondanza acustica,
quindi, per cui alcune caratteristiche relative allarticolazione di un segmento si sovrap-
pongono a quelle dei segmenti adiacenti, e una ridondanza semantica per cui il signifi-
cato della porzione di segnale che segue la parte mascherata pu avere un ruolo nella
ricostruzione percettiva in maniera apparentemente retroattiva (un nome dopo un verbo
transitivo ecc.).
Le abilit dellascoltatore nel percepire illusoriamente il segnale rumoroso dipendo-
no da una sequenza di processi che interagiscono tra loro.
Esistono per casi dove solo ed esclusivamente le informazioni acustiche o le aspet-
tative conducono alla ricostruzione, il caso dei toponimi, nomi di luogo, di persona. Un
segnale XXXoni stato il miglior politico italiano, pu avere diverse interpretazioni tutte
ovviamente filtrate dalla proprie convinzioni politiche (Berlusconi o Veltroni) e questo
perch si da per scontato che il nome si debba riferire ad un politico reale, ma la frase
potrebbe essere Bergonzoni, o Gattinoni ecc.
Una cosa ben diversa invece leffetto denominato priming (Byrd and Mintz
2010). Tale effetto si registra quando ad un ascoltatore viene fornita una soluzione pos-
sibile sulla eventuale ricostruzione di un segnale rumoroso. Ad esempio durante una
disputed utterance il Giudice per giungere al proprio convincimento ascolta un segnale
degradato frutto di una intercettazione ma prioritariamente legge perch presente nel
fascicolo o perch presentata in aula, una possibile trascrizione dello stesso segnale.
Questa lettura influenzer moltissimo la ricostruzione e la percezione del segnale de-
gradato a favore della trascrizione letta che inconsciamente sar utilizzata come filtro. Il
giudice ascoltatore pi che percepire o ricostruire, inconsciamente ricerca una coerenza
tra il segnale acustico ascoltato e la soluzione (possibile) gi presente nella sua memo-
ria. Una volta raggiunta una convinzione, sar difficilissimo tornare indietro e accettare
nuove versioni di possibili trascrizioni che mutino il proprio convincimento. Si crea una
forma di falsa memoria, che significativamente influenza e contamina la percezione di
una registrazione.
6.8.9. Memoria e attenzione
Gli studi sulla psicologia della percezione uditiva in relazione ai processi cognitivi
associati di riconoscimento ed interpretazione del segnale, hanno avuto tra i propri inte-
ressi anche il potere che fattori quali memoria ed attenzione forniscono nella percezione
dei suoni.
La memoria quel fattore cognitivo che permette allindividuo di usufruire della
propria esperienza passata in modo da rispondere appropriatamente allesperienza in
atto. Quando si in presenza di determinati stimoli, le informazioni che ne derivano,
vengono registrate dallascoltatore nella memoria a breve termine, ed alcune di esse,
in seguito, vengono trasferite nella memoria a lungo termine. La prima gioca un ruolo
molto importante durante la comunicazione linguistica: permette infatti allascoltatore
di ricordare le prime parole di una frase o di un discorso, fino alla fine dellinterazione
cos che possa essere interpretata lintera performance. La memoria a breve termine ha
risorse limitate ed in grado di conservare sequenze non pi lunghe di sette elementi,
tuttavia, grazie al processo di ri-decodifica capace di registrare molte pi informazioni
rispetto allo stimolo reale. La memoria a lungo termine invece immagazzina informa-
zioni che hanno lunga durata nella memoria degli individui e corrisponde molto di pi al
concetto ingenuo che ognuno di noi ha del termine memoria.
Ogni aspetto del linguaggio umano influenzato dallesperienza passata e tutte le
volte che ascoltiamo un suono entra in funzione un meccanismo mnemonico. Londa
sonora in ingresso incontra il lessico presente nella nostra memoria per poter essere as-
sociato ad una precisa parola. Lascoltatore automaticamente riceve ed elabora i segnali
acustici in modo da poterne ricavare una rappresentazione interna. Quando si ascoltano
parole note quindi gi percepite in altri luoghi e tempi, il cervello umano fa ricorso pro-
prio ad una memoria implicita 228 per economizzare il processo percettivo 229. Si forma
cos un istantaneo schema mentale in cui si confronta il modello acustico del momento
con qualcun altro, depositato in memoria, che sia il pi simile possibile. Ci costituisce
una vera e propria selezione che si realizza nella memoria a breve termine. Se il dato in
entrata corrisponde totalmente a ci che stato precedentemente depositato in memoria,
il processo termina e la comprensione facilitata proprio grazie a questa sorta di familia-
rit col segnale, altrimenti sar necessario creare un nuovo modello.
Per quanto riguarda lattenzione, essa consiste nella capacit cognitiva che lascolta-
tore usa per concentrare la propria attivit mentale su un particolare aspetto dello stimolo
percepito. Tale fattore pu svilupparsi e migliorare col tempo e con un opportuno adde-
stramento delle competenze nella fonetica percettiva 230. Particolare importanza riveste
soprattutto la cosiddetta attenzione selettiva, ovvero ci che ci permette di selezionare
soltanto alcuni degli input che riceviamo dallesterno ignorando tutti gli altri.
Il fattore attenzione sembra essere quello pi limitato; in molti casi, durante il rico-
noscimento del parlato nel caso di segnali con sovrapposizione di voci, lascoltatore deve
porre attenzione ad una sola fonte di stimoli; altrettanto noto che la sua capacit di com-
prensione 231 decade inevitabilmente di fronte a pi parlanti. Alcuni studi 232, effettuati con
lausilio della risonanza magnetica, hanno investigato il ruolo del processo pre-attentivo
ed attentivo nei confronti dello stimolo udito. Emerge, anche in soggetti senza alcun ad-
destramento specifico, limportanza del meccanismo dellattenzione selettiva nella per-
cezione. Lorganismo reagisce concentrando le sue limitate risorse percettive in modo
vantaggioso al fine di scoprire ed analizzare solo ed unicamente lo stimolo target (si veda
a questo proposito quanto gi detto riguardo leffetto cocktail party).
6.8.10. Il Trascrittore dalla competenza alla inintelligibilit
Sicuramente lelemento pi importante e lanello pi debole della catena nel proces-

so di trascrizione il trascrittore che deve percepire, interpretare e tradurre il codice orale
in codice scritto e a volte riportare un dialetto in italiano.
La prassi ascrive la percezione ad uno stimolo, ignorando il contributo personale,
il trascrittore nello svolgimento del suo compito dovr effettuare una scelta frutto di un
personale giudizio e di una propria personale esperienza.
Abbiamo pi volte riportato la difficolt nel tradurre un codice orale in uno scritto, la
competenza richiesta, la necessit di studi appropriati e soprattutto il fatto che lo scopo
della trascrizione deve essere conosciuto in anticipo. solo conoscendo in anticipo lo
scopo della trascrizione che il trascrittore potr decidere se trascrivere i rumori, o il sono-
ro di una televisione o di una radio, le titubanze, le ripetizioni, le pause, lintonazione, i
tempi di risposta ecc. frequente che un trascrittore intenda la trascrizione come la pro-
duzione di un testo scritto quindi in uno stile formale, in un italiano elegante e con una
sintassi complessa completamente assente nella registrazione orale come nellesempio
seguente dove possibile confrontare la trascrizione integrale di una registrazione e il
verbale redatto in tempo reale durante linterrogatorio:
Trascrizione integrale della registrazione Verbale redatto durante linterrogatorio

Stamattina presto andavo in cantina ad accendere la Il sottoscritto essendosi recato nelle prime ore antime-
stufa e ho trovato tutti quei fiaschi di vino dietro la cas- ridiane nei locali dello scantinato per eseguire lav-
sa del carbone. Ne ho preso uno per bermelo a cena. viamento dellimpianto termico, dichiara di essere ca-
Non ne sapevo niente che la bottiglieria di sopra era sualmente incorso nel rinvenimento di un quantitativo
stata scassinata. di prodotti vinicoli, situati in posizione retrostante al
recipiente adibito al contenimento del combustibile, e
di aver effettuato lasportazione di uno di detti articoli
nellintento di consumarlo durante il pasto pomeridia-
no non essendo a conoscenza dellavvenuta effrazione
dellesercizio soprastante.
A volte invece il dialetto viene tradotto parola per parola, letteralmente giungendo a
sintassi e morfologie errate per la lingua di arrivo come nellesempio seguente tratto da
una trascrizione effettuata per conto del Tribunale di Crotone, Procedimento nr. 5995/01
mod. 21 DDA:
Originale Traduzione presente in Perizia Traduzione corretta

n u ci cerchi e n u ci duni Ne ma gliele cerchi e ne ma gliele n di chiederglieli e n di darglieli
dai
Ma vui un vu putiti pulizzare a Ma voi non ve li potete pulire a Ma voi ve ne potete sbarazzare di
chissu (?) questi? questo (?)
Eh chi ti pulizzi (?!) E che ti pulisci Eh che ti sbarazzi (?!)
Carminuzzu sta face [#] sta facennu Carminuzzo (P.I.) sbaratta Carminuzzu sta sgomberando
u sbarattu
lArena sta cercannu i si ni escia /../ LArena sta cercando ma esce lArena sta cercando di uscirsene /../
ca po ca ncunu caccia i 1P Che poi uno (P.I.) che qualcuno toglie i 1P allIsola
allIsola
na cosa pe laccusare Una cosa per laccusare una cosa per accusarlo
In altri casi invece il trascrittore aggiunge informazioni, assenti nella registrazione,
frutto di informazioni contestuali ed extralinguistiche. In un recente esperimento la Fraser
(2003) sottopone, a due gruppi differenti di trascrittori, una registrazione sonora. Il primo
gruppo costituito da persone inesperte che per conoscono i soggetti registrati, i nomi e i
luoghi presenti nella registrazione, il secondo gruppo invece, costituito da esperti trascrit-
tori. Indubbiamente molto probabile che la trascrizione prodotta dal primo gruppo sia pi
ricca e completa di quella prodotta dal secondo gruppo, ma la probabilit di rilevare delle
ricostruzioni linguistiche e di completamento soggettivo delle informazioni molto pi
alta nel primo gruppo e ci rende, in proporzione, la trascrizione meno affidabile rispetto a
quella prodotta dal secondo gruppo composto esclusivamente da esperti trascrittori.
Il trascrittore esperto non supportato solo da strumenti tecnici professionali ma
soprattutto dalla propria competenza che lo aiuta a stimare le conseguenze linguistiche
di ogni sua scelta. Egli ha competenza nella traduzione e nella conversione del codice
orale in codice scritto (conosce infatti bene i processi di editing e convenzioni di layout
per riprodurre leffetto del parlato mantenendo comunque un alto livello di leggibilit),
non ha pregiudizi e il proprio compito non comprende esclusivamente il profilo tecnico.
In Italia la perizia viene richiesta (cfr. Nozioni giuridiche, di C. Petitto) per aiutare il
giudice a raggiungere un proprio convincimento. Nei casi dubbi sar il perito a dover for-
nire dati supplementari come una analisi di coerenza lessicale, semantica, dialettologica
per aiutare il giudice nella sua decisione o scelta. Un esperto tecnico in audio ma non in
parlato come un ingegnere o un fisico potranno sicuramente coadiuvare il trascrittore ma
non sostituirlo nel compito della percezione, della interpretazione, della comprensione
e dellanalisi linguistica 233. Lacustica fonetica molto utile nel migliorare una registra-
zione o nel ricercare una informazione che per deve essere analizzata ed interpretata da
un esperto di linguaggio 234. Inoltre lesperto sar tale se sapr valutare scientificamente
le ipotesi interpretative degli inquirenti attraverso evidenze linguistiche. Le persone con
maggiori conoscenze sul caso specifico, i verbali delle forze dellordine devono essere
coordinati da un esperto (senza paura che questi possano influenzarlo). Ogni trascrizione
una opinione e diversi esperti possono avere diverse opinioni ecco perch le analisi sup-
plementari sono necessarie per supportare la propria opinione cos come riporta Ollson
(op. cit.:14) the job of the linguist is to present an opinion and to explain that opinion235.
6.9. La Trascrizione: I due livelli della trascrizione
Durante una trascrizione si deve evitare di operare (anche solo inconsciamente) una
preselezione delle informazioni e di effettuare analisi sugli interlocutori che possano
produrre aspettative nel trascrittore. La trascrizione di un parlato deve contenere ripeti-
zioni, errori, false partenze e tutto ci che differenzia il parlato dallo scritto. necessario
identificare lintero turno con un inizio e una fine; analizzarne la composizione non solo
riguardo le parole ma anche rispetto tutti quegli elementi discorsivi e paratestuali come
eh, non, uhm, ti volevo dire; le sovrapposizioni, i silenzi devono ricevere la stessa
attenzione delle parole e dei rumori; rammentiamo che alcune frasi hanno grammaticali-
t potenziale, hanno senso solo allinterno di un preciso contesto che non pu e non deve
essere omesso.
Se la registrazione un primo livello dalla realt la trascrizione sicuramente un
secondo livello, il pi importante e incisivo poich rendiamo digitale, spaziale e visivo
un atto che continuo e uditivo. La trascrizione dovrebbe rispondere fondamentalmente
a tre criteri: affidabilit, validit e sensitivit.
Per facilit di esposizione dividiamo la trascrizione in due livelli, quello alto che
riguarda lattendibilit, la linearit, il commento ecc., e un livello che potremmo definire
segmentale che riguarda la trascrizione di pause, di variazioni fonetiche volontarie ecc.
La trascrizione di un segnale sonoro o di una registrazione normalmente viene ef-
fettuata da chi non conosce levento originale o la conversazione e non conosce gli in-
terlocutori e sente le loro voci per la prima volta, non conosce neppure loggetto della
discussione, non possiede conoscenze condivise e pregresse, n il loro grado di intimit
e di conoscenza. La trascrizione per, verr letta da chi conosce i fatti e i nomi ed ha
alcune aspettative sulla produzione.
6.9.1. Lattendibilit
Per ci che riguarda lattendibilit, il trascrittore deve cercare per quanto possibile
di annullare la propria interpretazione riportando solo ci che presente nelloriginale.
Un secondo problema riguarda il riconoscimento e lattribuzione delle voci che con-
sciamente o inconsciamente vengono effettuate durante una trascrizione. Loperatore di
Polizia Giudiziaria riconosce una voce e lattribuisce senza nessuna incertezza ad una
persona (dandole quindi un nome ed un cognome) effettuando di fatto una comparazio-
ne. Questo problema risulta essere ancora pi grande quando si tratta di intercettazioni
ambientali (oggi diffusissime) dove il numero degli interlocutori variabile e pu essere
anche molto alto, dove la distanza dal microfono non mai costante e le variabili in
gioco sono veramente tante. In questi casi le note informative possono e devono aiutare,
sar poi in udienza che le parti richiederanno, ove lo ritenessero necessario una compa-
razione fonica oggettiva. indubbiamente pi comodo e pi facile leggere delle trascri-
zioni con interlocutori nominati piuttosto che riferirsi ad Uomo1 e Uomo2.
Un ultimo punto riguardo lattendibilit sicuramente il concetto di trascrizione
integrale.
Il nuovo Codice di Procedura Penale (1988 libro III cap. IV) introducendo la re-
gistrazione ambientale, specifica (al comma 7) che il giudice dispone la trascrizione
integrale (ndr. grassetto nostro) delle registrazioni da acquisire236. Integrale, come
gi detto in precedenza, necessita di una interpretazione: si intende intero e cio tutto
ci che compreso nella registrazione includendo rumori, borbottii, silenzi, colpi di
tosse, radio in sottofondo ecc. o indica esclusivamente tutte le parole comprese nella
registrazione? Ovviamente questa seconda ipotesi (quella pi accreditata in ambito
giudiziario) la meno corretta e riduce la comunicazione alla sola parola, al solo
significante. Tutto quanto scritto in questo volume dimostra che la comunicazione
tutto, le parole non sono che una piccolissima parte della interazione, quindi ridurre
alla trascrizione delle sole parole vorrebbe dire effettuare una trascrizione parziale e
ristretta delle registrazioni in oggetto e non integrale come comprende il Codice di
Procedura Penale.
6.9.2. La linearit
Un ulteriore problema riguarda sicuramente la linearit dello scritto rispetto alla

completezza e alla contemporaneit del parlato. Durante la produzione orale di un enun-
ciato, vengono veicolate parallelamente e sovrapposte una allaltra informazioni lingui-
stiche, sovrasegmentali, paralinguistiche come gesti o movimenti del capo ecc., diffici-
le rendere questa completezza in una forma lineare come la scrittura, difficile annotare
i movimenti del capo dellinterlocutore durante la produzione di un atto linguistico,
difficile riportare le sovrapposizioni tra due interlocutori.
A- si ma tu dovevi portarmi quei soldi e invece non me li hai proprio portati.

B- no, si, ma va be come vuoi tu, ma cche dici?
In questo esempio si riporta prima lintera produzione linguistica di A portatrice

secondo il perito dellinformazione portante e di seguito lintera produzione linguistica
di B, intesa come secondaria.
Si pu facilmente notare che mentre la produzione dellinterlocutore A leggibile e
comprensibile, la produzione di B risulta essere spezzata e priva di senso.
Esempio Trascrizione 10: in cui vengono presentati linearmente e in sequenza i sin-

goli turni:
A- si ma tu
B- no
A- dovevi portarmi
B- si
A- quei soldi
B- ma va be
A- e invece non me li hai
B- come vuoi tu
A- proprio portati
B- ma cche dici
In questo caso entrambe le produzioni risultano essere difficilmente leggibili e inol-

tre non risulta ancora risolto il problema della linearit.
Esempio Trascrizione 11: Possono essere utilizzate le tecniche dellanalisi conver-

sazionale, mantenendo un turno ed una produzione come guida lineare (in questo caso
quella dellinterlocutore A), e il turno e la produzione di B come interruzioni, dove il
simbolo (+) indica linizio della interruzione da parte dellinterlocutore B e il simbolo
(*) invece ne indica la fine.
A- si ma tu +no* dovevi portarmi +si* quei soldi +ma va be* e invece non me li hai
+come vuoi tu* proprio portati +ma che dici*
Un ultimo esempio rappresentato da tecniche moderne come software dedicati
Figura 6.13 schermata del software Transcriber (softonic)

6.9.3. Il commento
Il commento del trascrittore cos come i paratesti aiuta il lettore nellinterpretazione di

un testo scritto. Il commento ovviamente personale, unopinione del trascrittore e for-
nendo un chiave di lettura al lettore condiziona la percezione e linterpretazione del testo.
Questo pu essere inserito tra parentesi quadre e contenere informazioni come [ride]
oppure [piange]. In alcuni casi tali commenti risultano importanti per la stessa compren-
sione dellatto linguistico.
A - pronto ti avevo pregato di venire subito.

B - e si si hai ragione ora vengo [rivolto verso linterno:] stai tu in negozio? [Una voce
dallinterno risponde:si e B riprende a parlare con A] mo vengo sto arrivando ciao
A - ciao
Tali informazioni sono necessarie per una corretta interpretazione del testo e solo
loperatore pu percepire il cambio di intensit di B che si allontana dalla cornetta tele-
fonica e si rivolge allinterno.
Riguardo la chiave di lettura invece, loperatore pu aggiungere informazioni sovra-
segmentali come nellesempio seguente:
A: ieri ho fatto una carneficina [in tono ironico]

Oppure loperatore pu interpretare, ma in questo caso il rischio alto:
A: [si sente rumore come di scarrellamento di una pistola].
6.9.4. Il livello segmentale della trascrizione: le pause
Passando al livello segmentale della produzione linguistica consideriamo la pro-

duzione delle pause, lalterazione volontaria di alcuni suoni, lintensit di un suono e
lintonazione di una sequenza.
Le pause possono essere di tre tipi: piene, vuote (senza alcun materiale linguistico, in
alcuni casi si pu sentire il respiro che spesso viene trascritto con h) 237 e di cambio di
turno (cio finisce di parlare linterlocutore A e interviene linterlocutore B).
Le pause piene vengono spesso trascritte con ehm, uhm, indicano la programmazione
del parlato o fungono da conferma da parte dellascoltatore di partecipazione e di condivisio-
ne. Normalmente non pongono seri problemi. Le pause vuote invece devono essere differen-
ziate al loro interno in base alla durata in brevi, medie e lunghe, e potrebbero essere segnate
per esempio con (-), (--) e (---) rispettivamente. Segnalare le pause molto importante.
Esempio Trascrizione 13 238:
Trascrizione senza pause Trascrizione con lindicazione e la stima

delle pause
B- pronto B- pronto
A- hai chiamato a coso? A- (-) hai chiamato a (--) coso?
B- no, tutto a posto poi venuto B- ( ) no, (--) tutto a posto (-) poi venuto
A- ah allora senti te lha portato il campione, il A-( ) ah (-) allora senti (--) te lha portato ... il
campione di scarpe? campione, ... il campione di scarpe? (--)
B- no, stasera lo vado a prendere io! B- ( ) no (-) stasera ... stasera lo vado a prendere!
A- a si? Allora vai a prenderlo e portamelo, si, A- a si? (-) allora (-) vai a prenderlo e (--) porta-
portami quello buono! melo (-) ... si ... portami quello buono!
B- in negozio? B- ( ) in negozio, (--)
A- eh! A- eh!
B- eh quello, quello B- eh ... quello (--) quello (--)
A- questo qui A- questo (--) qui (--)
B- ah B- ah
A- eh A- eh
B- va bo stasera ci vediamo B- va bo (--) stasera (-) ci vediamo (-)
A- va bene ciao A- va bene (-) ciao
Nel caso appena presentato la presenza delle pause fornisce una diversa chiave di let-
tura. Se nella colonna di sinistra un lettore interpreta nellinterazione lo scambio di un paio
di scarpe, nella colonna di destra la presenza delle pause in precise posizioni fornisce al let-
tore/ascoltatore informazioni importanti riguardo una diversa interpretazione. Ci che a li-
vello segmentale viene riportato come scarpe deve essere interpretato come qualcosaltro.
La pausa presente durante il cambio di turno pu essere lunga ma anche ridotta a zero,
e i due turni potrebbero sembrare come ununica produzione. Linterpretazione potrebbe
essere ad esempio una risposta impulsiva rispetto ad una risposta frutto di una riflessione.
Lassenza di pausa durante un cambio di turno potrebbe essere segnalata con il simbolo (=).
Lesempio seguente indica che tra la fine della produzione linguistica dellinterlocuto-
re A e linizio dellinterazione di B non trascorre alcun tempo.
A- ma vieni, non vieni, che vuoi fare?

=B sto venendo!
La pausa nei cambi di turno segnala tipi diversi di giunture. Questa mobilit di oc-
correnza delle pause rafforza lidea che esse abbiano un doppio ruolo legato sia alla
pianificazione che alla struttura del discorso.
6.9.5. La coerenza
Altri casi che sicuramente vanno menzionati sono la mancata coerenza in alcune
trascrizioni nei confronti di alcuni simboli. il caso di cosa ho detto prodotto in dia-
letto chaju dittu e glielho detto/ lho detto a lui trascritto nello stesso modo chaju
dittu. La trascrizione fonetica userebbe due simboli diversi [kk] per ['kkaju'dittu] e [t]
per [tajudittu]. In una trascrizione per uso forense potremmo risolvere il problema
aggiungendo una - j - come nel seguente esempio e quindi trascrivere /cj'haju dittu/
per lho detto a lui e /chaju dittu/ per che cosa ho detto riportando in legenda che il
simbolo c esemplifica una occlusiva velare sorda [k] come nella parola cane ed il
simbolo cj esemplifica una affricata palatale sorda [t] come nella parola cinema.
Un altro esempio riguarda i tre puntini sospesivi che spesso vengono inseriti per
unintonazione sospensiva, per una parola non compresa, per una imprecazione o per
un tratto di parlato non importante. La non uniformit crea delle inesattezze e debolezze
interne alla trascrizione.
Riguardo laumento dellintensit che crea prominenza e quindi modifica in parte il
significato o lo dettaglia e specifica, si possono seguire gli esempi seguenti:
1) A- mi devi dare [alza il volume] cento milioni.
La parte dove il volume maggiore potrebbe essere scritta in maiuscolo:
2) A- mi devi dare CENTO MILIONI.
Si potrebbe stabilire un grado di altezza per esempio da zero a tre e quindi in base
allaltezza del volume scrivere:
3) A- mi devi dare [alto +2] cento milioni.
Il problema si ripropone, esattamente al contrario, quando linterlocutore abbassa il
livello del volume fino ad arrivare a sussurrare.
1a) A- mi devi dare [abbassa il volume] cento milioni.
Oppure
2a) A- mi devi dare (cento milioni).
O ancora
3a) A- mi devi dare [basso -2] cento milioni.
Il cambio di intonazione, invece, normalmente viene trascritto utilizzando i normali

simboli ortografici come il punto esclamativo per una frase con intonazione discendente
o il punto interrogativo per una frase con intonazione ascendente. Molti sono i casi in
cui per lintonazione di tipo ascendente nonostante la frase non sia una domanda. In
tutti i casi comunque la scelta migliore, anche per differenziare il lato sovrasegmentale
da quello pi prettamente segmentale, utilizzare gli stessi simboli ma tra parentesi
o barre oblique. Cos una intonazione ascendente pu essere segnalata con /?/ ed una
discendente con /!/ mentre una sospensiva sar /,/ o /?!/ come nei fumetti. Nel caso pre-
cedentemente trattato:
A- mi devi dare cento milioni
linterlocutore A potrebbe voler rimarcare il fatto che a dare i soldi proprio il desti-
natario del messaggio. Quindi la trascrizione potrebbe essere:
A- [alto +2] mi /?/ devi dare cento milioni /!/.

6.9.6. Le Parole Incomprensibili
Le parole incomprensibili sono presenti in ogni trascrizione di segnale registrato di

cattiva o media qualit. Il rumore o le voci che si sovrappongono, la bassa intensit o la
velocit di eloquio sono le cause principali delle parole incomprensibili. Una trascrizio-
ne come:
A- ho detto di dargliela (Parola Incomprensibile) perch (Parola Incomprensibile)
pone una serie di problemi. Innanzitutto, la durata della parola incomprensibile. Se

incomprensibile potrebbero anche essere pi parole, o anche una frase intera, o ancora
potrebbe essere un altro interlocutore a parlare e quindi ci che segue essere una risposta.
La durata dovrebbe essere sempre segnalata (es. PI= 0,58). In questo caso il lettore sa
che una porzione di segnale della durata di oltre mezzo secondo risulta essere incom-
prensibile.
6.9.7. Intelligibilit e valutazione di una trascrizione
Una trascrizione di una conversazione di fatto una manipolazione e una selezione

effettuata dalloperatore e dal trascrittore; linquirente, lavvocato o il lettore leggendo
la trascrizione presentata effettuer una nuova interpretazione e una nuova manipola-
zione. Anche se del tutto inconsciamente, tutto ci potrebbe portare molto lontano dalla
realt. Chi trascrive ha la facolt di scegliere tra la comprensione e la specializzazione
sapendo che il suo lavoro dovr essere letto da non esperti in fatti linguistici. La scelta
pu essere quella di ridurre in qualche modo la specializzazione della trascrizione ten-
tando di mantenere il pi possibile fede alloriginale e cercando per di renderla leggi-
bile e soprattutto comprensibile. Per esempio una trascrizione dovrebbe risultare coe-
rente: un determinato simbolo deve indicare sempre la stessa cosa. Per ci che concerne
i simboli conveniente utilizzare simboli presenti sulle tastiere di un computer come le
parentesi quadre, le tonde o i puntini, i punti e virgola, ma in modo non convenzionale,
marcando il fatto che descrivono un livello superiore della comunicazione, utilizzare
segni semplici e molto diffusi facilita anche la conversione da diversi word-processor
su diversi sistemi e supporti informatici.
Generalmente i principali ostacoli che possono presentarsi ad un trascrittore sono:
- relativi allidentificazione dei parlanti coinvolti (in particolar modo nel caso
delle conversazioni ambientali, dove quasi sempre i parlanti non sono nominati
esplicitamente);
- di rappresentazione del testo, in particolare per quel che concerne la resa in
forma scritta di tratti sovrasegmentali (intonazione, pause, ritmo, variazione di
timbro e di velocit di eloquio), e di tratti paralinguistici (ovvero segnali non
verbali quali gesti e movimenti di parti del corpo);
- di traduzione di tratti dialettali e gergali, dove pi che una semplice traduzione
letterale spesso occorre una vera e propria interpretazione (ancora oggi i Giudici
continuano a dare incarichi identificando un dialetto come calabrese, nono-
stante linguisticamente tale dialetto sia inesistente. La Calabria come regione
ha moltissimi dialetti ognuno dei quali caratterizzati da un proprio lessico
ed una propria struttura morfologica e sintattica. Si pensi solo che la parte
meridionale della Calabria ha un sostrato greco che ha molto influenzato i
dialetti parlati oggi, mentre la parte settentrionale della Calabria ha un sostrato
latino239).
- alla comprensione del testo, ovvero alla ricostruzione della situazione comuni-
cativa (totalmente estranea al trascrittore che dovr conseguentemente ricoprire
un ruolo particolarmente attivo di ascoltatore) in cui si realizzato latto lin-
guistico in questione. Il trascrittore deve intuire il contesto extra-linguistico, il
tempo ed il luogo, i ruoli esibiti dagli interlocutori e le loro conoscenze in merito
al tema della discussione ecc.;
- infine lintelligibilit del segnale registrato. indispensabile fissare concorde-
mente dei limiti al di sotto dei quali, con modalit analoghe a quelle delle prove
dattiloscopiche, viene dichiarata la non utilit del segnale ai fini della trascrizio-
ne. Avere laudio di una registrazione sicuramente positivo ma ci non rende
la trascrizione pi oggettiva e pi obiettiva.
Valutare una trascrizione come accurata o affidabile una opinione e mai una certez-
za. Non spetta agli inquirenti o alle parti in causa valutare una trascrizione anche se una
trascrizione senza note, senza commenti e senza una relazione che accompagni la lettura,
porta il lettore a desumere che quella che legge sia obbiettivamente e oggettivamente
lunica trascrizione possibile del segnale registrato.
ovvio che una trascrizione accurata preferibile ad una non accurata, ma difficile
definire e misurare laccuratezza. Una trascrizione non pu, in nessun caso, riportare
tutte le informazioni necessarie e presenti nel segnale; essa un punto di vista quindi una
trascrizione pi che essere accurata potr risultare convincente.
Quindi una trascrizione pi accurata di unaltra solo se si analizza lo stesso
punto di vista ad esempio considerando lintonazione e i tratti sovrasegmentali ( una
accuratezza relativa). La trascrizione A pu risultare pi accurata della B per le se-
gnalazioni prosodiche e intonative. Anche se accurata non significa obbiettiva e tanto
meno leggibile, infatti, la trascrizione A pi accurata sotto il profilo intonativo pu
risultare molto meno leggibile della trascrizione B e quindi veicolare un minor carico
informativo.
Si vedano le seguenti trascrizioni presentate per gradi di accuratezza fonetica
iditek odiauvitsjodiffitil
i dite ke odda u vitsjodiffitil
Gli dice che oggi ha un vizio
difficile
Gli dice che oggi, ha un vizio difficile
Gli dice (in sottofondo si sente un bambino urlare) che oggi (lungo sospiro) ha un
vizio difficile (lultima parola viene pronunciata con un volume molto pi alto).
Le versioni presentate sono differenti e con diversi livelli di approfondimento e

ognuna di essa finalizzata allo scopo che la stessa trascrizione deve avere. Il livello di
accuratezza e quindi lo scopo deve essere una informazione condivisa tra il trascrittore e
il committente. Secondo la Fraser the inscape conclusion of the foregoing discussions
is that a transcript is an opinion. Of course this does not render the use of transcription
invalid or make it impossible to distinguish a good transcript from a poor one: a good
transcript is a valid opinion based on and supported by, appropriate evidence. Indeed, if
produced by an expert, it is an expert opinion240. Cos il concetto di valutazione e di ac-
curatezza, in unaula di Tribunale, assume nuovi significati. Certo si pu richiedere una
nuova trascrizione e comparare i due risultati ma senza evidenze di laboratorio restano
comunque due opinioni entrambe valide e accurate.
Dovr essere lesperto a definire il grado di attendibilit o di accuratezza di una por-
zione di segnale e nei casi dubbi definire una porzione non trascrivibile. Tale decisione
dovr essere vincolante anche nei confronti del Giudice e delle singole parti, in quanto
una opinione su un segnale degradato non ha alcun fondamento scientifico.
Note al capitolo La Linguistica Forense
1
La Linguistica Applicata lapplicazione delle conoscenze della linguistica generale in uno specifico
ambito. Si veda ad esempio la glottodidattica nellambito dellinsegnamento o la logopedia a fini
riabilitativi. proprio secondo questa indicazione che possibile inserire la Linguistica Forense
nel novero della Linguistica Applicata.
2
G. McMenamin, 2002.
3
Chaski C. and A. Daubert, 1998, 2001a e 2001b.
4
In un recente caso giudiziario la mancata competenza di linguistica, di fonetica e fonologia da parte
del consulente del Pubblico Ministero ha portato a confondere una registrazione di spagnolo sud
americano con uno spagnolo iberico e al conseguente arresto di un innocente (p.p. 10061/11, nei
confronti di Oscar Sanchez, Corte di Appello, 7^ Sezione Penale, Tribunale di Napoli).
5
Vedi esempi tipo ma sei fuori come un balcone?
6
La base etimologica del termine pragmatica la radice greca pragma che significa azione. Quindi
secondo la dicotomia saussuriana mentre la linguistica si occupa della lingua come sistema e quindi
della Langue la pragmatica si occupa della lingua nella sua realizzazione pratica e quindi della
Parole.
7
Si definisce isoglossa la linea immaginaria con la quale, mediante unipotesi metodologica, si
uniscono i punti estremi di unarea geografica caratterizzata dalla presenza di uno stesso
fenomeno linguistico (C. Grassi et al. 1997:7 nota 9).
8
Come lisoglossa, ma il fenomeno linguistico di tipo fonetico.
9
Hans Goebl (2011) definisce la dialettometria come una disciplina di stampo induttivo che tramite la
sintesi quantitativa dei dati di atlanti linguistici tradizionali cerca di studiare e individuare
regolarit - anzi leggi - spaziali nascoste nella massa dei dati dei rispettivi atlanti linguistici. Nel
quadro della Scuola dialettometrica di Salisburgo (DM-S) si d per assunto che le suddette leggi
siano lemanazione diretta di un atteggiamento speciale dei locutori dia- o basilettali rispetto allo
spazio da loro abitato, chiamato da un paio di anni dalla DM-S gestione basilettale dello spazio
da parte dellHomo loquens.
10
Linguistics Encyclopedia of The Routledge (2010), forensic linguistics help court to answer three
questions about a text what does it say, what does it mean and who wrote, typed or authored it?
11
Svarvtik J., 1968 e Fitzgerald J., 2004.
12
UnA un acronimo di Universit e Aeronautica o Aviazione obiettivi preferiti dallattentatore.
13
Foster D., 2000.
14
Per approfondire il caso delle comparazioni foniche e delle sentenze negli Stati Uniti si veda anche
Johnstone, B., 1996, 2000.
15
Idioltto s. m. [comp. di idio- e (dia)letto; cfr. ingl. idiolect]. - Lingua individuale, cio la particolare
variet duso del sistema linguistico di una comunit che propria di ogni singolo parlante. Da
www.treccani.it/vocabolario consultato il 28 marzo 2012.
16
Letteralmente impronta digitale.
17
Letteralmente impronta vocale di una persona.
18
Hollien, H., 1996.
19
VCS (Video Computer System): 1991:373-9 Ideally, the exemplar should be spoken [by the suspect] in a
manner that replicates the unknown talker, to include speech rate, accent, (whether real or feigned),
hoarseness, or any abnormal vocal effect In general, the suspect is instructed to talk at his or her
natural speaking rate: if this is markedly different from the unknown sample, efforts should be made
through recitation to appropriately adjust the speech rate of the exemplar Spoken accents or
dialects, both real and feigned should be emulated by the known speaker If any other unique aural or
spectrally displayable speech characteristics are present in the questioned voice, then attempts should
be made to include them in the exemplars. AFT Visual comparison of spectrograms involves, in general,
the examination of spectrograph features of like sounds as portrayed in spectrograms in terms of
time, frequency and amplitude Aural cues include resonance quality, pitch, temporal factors,
inflection, dialect, articulation, syllable grouping, breath pattern disguise, pathologies and other peculiar
speech characteristics.
20
Koenig, 1986:2089-90.
21
Hollien, H., 1996, 2002. Hollien, H. et al., 1995, 1982, 2000.
22
Nolan, F., 1991.
23
Per peer review si deve intendere una valutazione scientifica tra pari, o paritaria, effettuata da
membri della stessa comunit scientifica e specialisti del settore. Non si prevede una
commissione giudicatrice o un ristretto numero di persone che valutano loperato e il metodo di
liberi professionisti esterni. In qualche modo il perito necessariamente un ricercatore, uno
studioso, ed in quanto tale, valuta e verr valutato allinterno di una precisa comunit linguistica
al fine di adeguarsi ai migliori standard di qualit per la propria disciplina e ai requisiti specifici
richiesti per il proprio operato. Ci che non stato soggetto di una tale valutazione non
generalmente considerato scientificamente valido. La valutazione tra pari contribuisce allo
sviluppo della conoscenza scientifica, alla verifica dei metodi utilizzati ed una garanzia per le
parti in gioco.
24
In order for scientific evidence to be admissible, the judge must consider whether
the theory or technique is empirically testable and replicable.
the theory or technique has been subjected to peer review and publication.
the potential error rate is reported.
the theory and technique are generally accepted by the relevant scientific community.
25
Cfr. IAFPA -International Association for Forensic Phonetics and Acoustics, Language and
Determination of National Identity Cases Resolution [on line]. Disponibile da:
http://www.iafpa.net/resolution. htm [consultato il 10 marzo 2011].
26
In ambito universitario si identifica anche la Linguistica Giudiziaria il cui campo di applicazione
spazia dalla redazione di una sentenza da parte del magistrato al modo di esprimersi di testimoni
culturalmente svantaggiati o dialettofoni (si pensi ai verbali di interrogatori o solo anche di
dichiarazioni spontanee) dai problemi di traduzione delle testimonianze rese in altre lingue alla
teletrasmissione, trascrizione e pubblicizzazione del processo. Campo di applicazione anche
lesame testimoniale da parte della difesa o della Pubblica Accusa, si veda a questo proposito
uninteressante pubblicazione a firma di Patrizia Bellucci (2002) nella quale si legge La lingua
(detta, scritta, intercettata, trascritta) alla base del processo penale, dellattivit giudiziaria;
infatti nelle diverse fasi del procedimento penale emerge sempre pi limpidamente che, fra i tanti
problemi che la giustizia si trova ad affrontare, ce ne sono alcuni che sono squisitamente
linguistici.
27
Ad esempio il progetto PRIN del 2008 sottoposto al Ministero dal titolo Le intercettazioni nel
sistema giudiziario italiano: analisi dei costi, dei metodi e delle competenze. Una proposta per il
miglioramento del servizio attraverso la razionalizzazione delle spese, lottimizzazione, la
standardizzazione e la riorganizzazione dellintero sistema, pur ricevendo una valutazione di 58
su 60 non viene finanziato.
28
Ferrero F. E (1979).
29
L. Romito, (2003).
30
In seguito il Gruppo di Fonetica Sperimentale ha abbandonato lAssociazione Italiana di Acustica
ritenuta troppo tecnica e troppo settoriale divenendo un gruppo di interesse dellISCA (International
Speech Communication Association) denominato AISV (Associazione Italiana di Scienze delle Voce)
perdendo per una parte cospicua della componente Linguistica che confluita in un gruppo di
interesse della originaria SLI (Societ di Linguistica Italiana) dal nome GSCP (Gruppo di Studio sulla
Comunicazione Parlata).
31
Aree CUN: 01 Scienze matematiche e informatiche; 02 Scienze fisiche; 03 Scienze chimiche; 04
Scienze della terra; 05 Scienze biologiche; 06 Scienze mediche; 07 Scienze agrarie e veterinarie;
08 Ingegneria civile ed architettura; 09 Ingegneria industriale e informatica; 10 Scienza
dellantichit, filologico letterarie e storico artistiche; 11 Scienze storiche, filosofiche, psicologiche
e pedagogiche; 12 Scienze giuridiche; 13 Scienze economiche e statistiche; 14 Scienze politiche e
sociali.
32
sufficiente controllare le specifiche dei singoli settori scientifico disciplinari per accorgersi che il
forense e le analisi sul parlato non rientrano in nessun settore n tecnologico, n umanistico e
neppure legale.
33
Romito L., Galat V., 2008, Romito L., et al. 2008, Romito L., 2010.
34
Nel caso della perizia redatta allinterno del procedimento penale nr 22/01 del Tribunale di Santa Maria
Capua Vetere ad esempio, il perito nominato dal Giudice riporta che alcune Formanti vocaliche
hanno valore pari a 0 (cosa impossibile acusticamente: la cosa spiegabile solo se la misura viene
effettuata automaticamente senza alcun controllo da parte delloperatore), oppure la Prima
Formante di una vocale /a/ con valore pari a 5341 Hz (valore che non ha alcun fondamento
scientifico) ecc. In un altro caso, Tribunale di Patti in provincia di Messina, il perito sempre
nominato dal Giudice, e quindi non di parte, afferma che la voce anonima presenta un valore di
Frequenza Fondamentale pari a 2950 Hz, laddove la grande Callas nei suoi acuti pi famosi
raggiunge al massimo per la Frequenza Fondamentale il valore di 900 Hz.
35
Trubeckoj N. S., 1971.
36
Il codice cinesico come quasi tutti i codici non verbali molto legato alla cultura di riferimento,
infatti, lo scuotere della testa da un lato allaltro che in tutti i paesi dellest (Bulgaria, Romania
ecc.) indica una negazione, in Inghilterra denota esattamente il contrario. Vale la stessa
considerazione per lo scuotere della testa in avanti ed indietro che in Italia indica la negazione
ed in Albania indica laffermazione.
37
Mehrabian, 1972.
38
Il codice aptico fortemente influenzato da fattori culturali. notorio che i continui contatti,
abbracci e baci delle popolazioni del sud vengono interpretati come folcloristici e, se subiti, come
delle violenze della propria sfera personale dalle popolazioni del nord Europa. L dove un siciliano
saluta con un abbraccio e un bacio sulla guancia un amico per strada, un danese a distanza
chinerebbe il capo.
39
Una persona normalmente si dispone in una situazione comunicazionale solo apparentemente in
maniera casuale, in realt la sua posizione nello spazio codificata da regole sociali e culturali ben
precise. Un parlante suddivide lo spazio che lo circonda in almeno quattro zone principali. La
zona intima (con un diametro che oscilla da 0 a 50 centimetri), la zona personale (con un diametro
che oscilla da 50 cm ad 1 metro), la zona sociale (con un diametro che oscilla da 1 m a 3-4 m) e
infine la zona pubblica (con un diametro che supera i 4 m). Nel caso in cui la situazione obbliga
due persone a stare molto vicine (autobus o metropolitana molto affollata), allora i soggetti
metteranno in campo una serie di strategie e di metodi come la posizione del corpo, il gioco degli
sguardi che non prendono di mira nessuno, strane coreografie e in caso di una frenata brusca o di
un contatto involontario ci si propone immediatamente con delle scuse. Tutto ci mira
esclusivamente a dimostrare e rivelare loccasionalit dellevento e della vicinanza. I soggetti
mettono in atto procedure atte a dimostrare che la loro vicinanza non affatto indice di una
relazione sociale, ma un fatto transitorio e irripetibile (cfr. Goffman E. 1981).
40
Per iconicit intendiamo le propriet che possiede il linguaggio di raffigurare i significati e i valori
semantici come unimmagine o icona. Le propriet sono presenti in ogni livello linguistico, ad
esempio si ha iconocit fonologica nella poesia Raven di Edgard Allan Poe pubblicata per la
prima volta il 29 gennaio 1845, sul New York Evening Mirror , dove un corvo ripete in maniera
ossessiva nevermore mai pi richiamando, iconicamente, con la presenza del suono /r/, il
gracchiare del corvo. Si ha iconocit a livello morfologico nelle lingue dove il plurale si
costruisce con la duplicazione della parola prodotta al singolare ecc.
41
La marcatezza si basa sul rapporto tra due o anche pi forme linguistiche. La forma linguistica
marcata meno naturale e si contrappone alla forma non marcata, che basilare. Ad esempio
UOMO un elemento non marcato rispetto a maschio e femmina, perch si pu riferire ad
entrambi (es. luomo apparve sulla terra). Per semplificare il concetto possiamo dire che per
descrivere un elemento marcato necessario un maggior numero di informazioni: la femmina
un UOMO + il genere femminile.
42
Semisi s. f. [dallingl. semiosis, che dal gr. indicazione, der. di segnare,
indicare]. Termine con cui negli stud di semiotica si indica il processo di significazione, (cfr. il
filosofo del linguaggio Ch. Morris, 2012).
43
In Federico Albano Leoni, 2009:14-15 si legge: lo scritto deve manifestarsi in maniera
sistematicamente iperdeterminata perch deve introdurre nel testo, cio nella successione lineare
di elementi discreti per lo pi in forma di parole e in piccolissima parte in forma di punteggiatura,
ci che nel parlato si trova in canali paralleli e simultanei, e cio la prosodia, la mimica facciale
e i gesti, i rinvii al contesto, il ruolo degli interlocutori come nel caso delle deissi, dei pronomi,
dei riferimenti spaziali e temporali.
44
Questa definizione non tiene conto dei moderni testi elettronici, delle forme di scrittura presenti nelle
chat, negli sms, sui blog o sui forum che in questa sede non approfondiremo.
45
I tratti prosodici sono la durata, la quantit, lintensit, lintonazione, le pause, la variazione di tono,
di energia e di sonorit. La durata (e lintensit) come gli altri parametri viene differenziata da
quelli gi citati per la loro caratteristica relativit. Un fono analizzato singolarmente sar
caratterizzato dallavere un certo valore di durata, di intensit e di frequenza fondamentale. Lo
stesso fono pu in parte vedersi modificate le proprie caratteristiche in relazione ai foni
adiacenti e alle impostazioni prosodiche. In un parlato molto veloce una vocale della durata di
100 millisecondi pu risultare lunga, mentre la stessa in un parlato molto lento pu addirittura
risultare breve se confrontata con la durata degli altri segmenti.
46
I fumetti sono forse lunica espressione scritta che tenta di mantenere stretto il legame con il
parlato.
47
Si veda ad esempio una scenografia di unopera teatrale dove a fianco delle battute dellattore
vengono annotate informazioni riguardanti limpostazione della voce, le pause, lintonazione ecc.
Inoltre vero anche che, almeno nella nostra societ moderna, parlando si introducono elementi
normalmente usati nella grafia come per esempio tra parentesi vorrei dire che... oppure e
questo lo dico tra virgolette, o ancora vorrei sottolineare che ... ecc...
48
Nella fonologia moderna tale messa in evidenza viene definita prominenza. La prominenza il
grado di salienza percettiva assegnato ad alcune sillabe o a determinate parole dellenunciato che
risultano pertanto intonativamente accentuate (P. Sorianello, 2006:49). La prominenza un fattore
complesso, un fattore relativo, poich il parlante-ascoltatore in grado di percepire un elemento
prominente solo se questo posto a confronto con altri elementi contigui e non prominenti. Un
elemento prominente si realizza tramite lattivazione coincidente della frequenza fondamentale,
della durata, dellintensit e dellescursione frequenziale. Una parola prominente, come dimostra il
nostro esempio, viene influenzata non solo e non tanto dalla struttura sintattica dellenunciato, ma
soprattutto dal messaggio linguistico che si vuole inviare. Il parlante assegna una certa salienza
prosodica alla parte o alle parti del messaggio che desidera porre in rilievo. Nella prominenza un
ruolo importante viene svolto dal focus, lelemento prominente e focalizzato viene prodotto con
unescursione melodica e temporalmente allungato (il focus pu anche essere realizzato a livello
sintattico con dislocazioni o tropicalizzazioni o fenomeni di tema sospeso (cfr A. De Dominicis
2003:172).
49
Ultimamente sono stati condotti molti studi sulla scrittura giovanile presente nelle chat, nei forum, nei blog e
negli sms. Queste scritture definibili multidimensionali, sono quelle pi vicine al parlato utilizzando
forme fonetiche (es. 4y in inglese al posto di for you, o xk in italiano invece di perch), si utilizza il
maiuscolo per lintonazione, (es. o dtt NOOOO) le faccine per le espressioni facciali (sia smile che
composizioni come ; /). La rete lunico luogo in cui il contesto orale con tutte le sue specifiche
variabili della conversazione orale in presenza si traducono in un codice scritto (nella chat room ancora
di pi di quanto accade nei social network poich si parla solo quando si connessi quindi si dialoga in
presenza pur essendo a distanza e si usa come mezzo la lingua scritta). Luso frequente da parte dei
ragazzi di tale codice alternativo ha reso molto labile il confine tra la lingua scritta (formale) e lingua
parlata (informale), infatti, sempre pi frequente registrare gravi errori ortografici o di forma e stile
nelle produzioni scritte scolastiche (luso dellh nei verbi ho oppure ha ad esempio).
50
Peter Heg, 2003:9.
51
In L. Mecacci, 1994:117-120
52
Miller G.A, 1956:III.
53
Nello specifico settori quali la sociolinguistica, la fonetica, la fonologia ma anche la semantica
e la pragmatica.
54
Lacustica psicologica o psicoacustica un settore della psicologia che studia il suono inteso come
rappresentazione psichica di una realt esterna, esistente quindi solo nella nostra mente che lo
attribuisce a oggetti del mondo esterno, localizzandolo in determinate posizioni dello spazio.
Mentre lacustica fisica studia il modo in cui gli oggetti vibrano trasmettendo impulsi meccanici
allorecchio e lacustica fisiologica si interessa a come lorecchio trasforma questi impulsi
meccanici in impulsi nervosi, lacustica psicologica studia come leffetto di onde elastiche
sullorgano del senso delludito viene rappresentato mediante il suono, inteso come sensazione
psichica.
55
Per esempio, la luce, al contrario di altri tipi di energia elettromagnetica come i raggi X o i raggi
gamma, costituisce uno stimolo perch in grado di suscitare nella retina, come risposta, una
precisa sensazione.
56
Canestrari Godino, 2006.
57
Anolli, Legrenzi. 2009: 49.
58
Alcuni recenti studi inducono ad affermare che le sensazioni, per quanto soggettive e non misurabili, si
presentano con una variabilit trascurabile tra un soggetto e laltro in maniera tale da permettere di
affermare che le sensazioni sono almeno simili per gli esseri umani.
59
Arthur Schopenhauer.
60
I primi studi sulla sensazione erano finalizzati allindividuazione dei limiti della capacit umana
sensoriale. Come vedremo, i nostri organi recettori non sono capaci di cogliere tutti gli stimoli
provenienti dallesterno. Tali studi mirano quindi alla ricerca della soglia assoluta e dei confini
della percezione. Per determinare tale soglia esistono almeno due correnti basate sul metodo
degli aggiustamenti e sul metodo degli stimoli costanti.
61
Anolli L., Legrenzi P., op. cit.
62
Inoltre come gi detto, per i segnali sonori la soglia non unicamente legata alla frequenza ma anche
allintensit espressa in dB e alla durata espressa in ms del segnale sonoro.
63
Canestrari-Godino, 2006:89.
64
La legge di Weber-Fechner, sviluppata nella seconda met dell800 e detta anche relazione
psicofisica fondamentale, lega la sensazione soggettiva del soggetto (S) alla grandezza dello
stimolo fisico (R) offerto dallambiente S=K log R dove K una costante che dipende dal tipo di
stimolo. Tra lintensit dello stimolo e la sensazione vi una relazione che permette di ricavare
luna dallaltra.
65
Canestrari R., Godino A., op. cit. pp. 88-93
66
Gli stimoli sensoriali sono ricchi di informazioni e i sensi interagiscono tra di loro durante tutto il
processo percettivo. Gli studi moderni utilizzano differenti tecniche come quella definito di
brain imaging per rappresentare il cervello durante un processo cognitivo o la PET o Position
Emission Tomography e la SPECT o Single Photon Emission Computed Tomography e la
risonanza magnetica per rilevare il meccanismo della percezione nel nostro cervello. Molto
superficialmente, le tecniche citate osservano lafflusso del sangue alle varie aree cerebrali: le
aree che utilizzano maggiore energia richiedono maggior afflusso di glucosio e ossigeno e quindi
risultano evidenziate.
67
Leoni F.A., Maturi P.,1995.
68
Alcuni manuali riportano intervalli diversi (da 20 a 22kHz) ma ovviamente tutto dipende
dallallenamento e dallet dellascoltatore, infatti la sensibilit uditiva alle alte frequenze cala
progressivamente col progredire dellet e questo fenomeno fisiologico viene detto presbiacusia o
audizione senile; inoltre ricordiamo che tali valori riflettono delle medie percettive.
69
Volutamente tralasciamo in questa sede, pur riconoscendone limportanza, la trasmissione degli
infrasuoni e degli ultrasuoni, nonch i segnali subliminali.
70
Questo dato ci consente di introdurre sommariamente il concetto di intensit o forza. La forza misurata in
Newton (N) e lo spostamento in metri (m), lenergia misurata in Joule (J). In acustica si considera la
potenza e lintensit dove la prima il flusso di energia nellunit di tempo che viene immessa dalla
sorgente sonora e si misura in Watt (W) mentre lintensit la potenza trasmessa attraverso una
superficie unitaria perpendicolare alla direzione di propagazione dellonda stessa (W/m2). La pressione il
rapporto fra una forza e larea della superficie su cui essa si esplica (Newton/ metri2 cio N/m2) definito
Pascal (Pa). Quindi londa sonora pu essere definita come una potenza che il prodotto tra intensit e
una costante e tra la pressione e una costante cio PW=KI=hp2 per visto che la gamma di valori che
ciascuna grandezza pu assumere incredibilmente ampia (da 1 ad un milione), in fonetica si restringe la
scala utilizzando il decibel cio dieci volte il logaritmo (in base dieci) del rapporto fra il valore misurato
dellintensit ed il valore di riferimento:
71
Da Ferrero F., et. al. (1979).
72
Lehiste e Peterson G.E. 1959 e Romito, L.1993.
73
Va comunque ricordato che i risultati ottenuti sulle ricerche e sulle valutazioni della soglia
differenziale di intensit non sono tutti concordanti.
74
Riguardo la differenza tra i valori di produzione e quelli percepiti negli ultimi anni sono stati costruiti
dei grafici e delle tabelle di correlazione. I valori in Hertz vengono convertiti in Mel (o Mel
Tecnico), oppure con lausilio di una analisi percettiva in Bark.
75
Senza voler entrare nello specifico, nella funzione logaritmica aumentando i valori sullasse delle X
diminuisce la capacit di discriminare i valori sullasse delle Y corrispondenti che diventano
sempre pi vicini. In una funziona lineare invece la distanza tra due punti sullasse delle X
corrisponde sempre ed esattamente alla stessa distanza sullasse delle Y.
76
Canestrari R., Godino A., op. cit.
77
Anche detta Psicologia della forma, nasce in Germania nel 1912, quando Max Wertheimer pubblic
un articolo in cui identificava un processo percettivo unitario definito fattore phi attraverso il
quale i singoli stimoli verrebbero integrati, nel soggetto, in una forma dotata di continuit.
78
Le illusioni percettive acustiche saranno oggetto di nostro interesse nei paragrafi successivi.
79
Il titolo della ballata The Bonny Earl of Murray.
80
Il problema che si riscontra non in una errata percezione, ma bens in una errata interpretazione della
percezione avvenuta. I suoni percepiti vengono assemblati in parole errate, la segmentazione del
percepito effettuata erroneamente quindi [ld Him ne in] viene interpretata come [ldHi
mne in].
81
Di mondegreens e altri malintesi. Poetica del fraintendimento e fonetica dellidentit http://www.
highbeam.com/doc/1G1-182201807.html
82
LOnciale una scrittura molto antica di forma maiuscola. Essa stata utilizzata nel periodo che
intercorre tra il III e lVIII secolo soprattutto in quei manoscritti prodotti dagli amanuensi latini e
bizantini. Nei secoli successivi il suo uso si limita esclusivamente alle intestazioni, ai titoli e alle
iscrizioni funerarie. Quindi lonciale una precisa e specifica grafia dellalfabeto latino utilizzata
soprattutto nei casi degli epitomi, cio una sorta di riassunto, di compendio o revisione (dal greco
ep, sopra, e tom, taglio) effettuato autonomamente dagli amanuensi (si pensi che da fonti
successive come Seneca il vecchio, apprendiamo che la Storia di Roma di Tito Livio era
costituita allorigine da ben 142 libri). Tale scrittura, definita Capitale Quadrata Romana
(Capitalis quadrata o elegans), utilizzata per tutto il Medioevo e in alcuni casi ancora oggi,
presenta parole senza spazi, legature e dove i nessi sono molto rari. Solo a volte uno spazio molto
piccolo o un piccolo punto pu essere utilizzato per separare le frasi. La punteggiatura come luso
degli spazi tra le parole quasi totalmente assente cos come la distinzione tra le lettere maiuscole
e minuscole. A volte ad inizio pagina o ad inizio paragrafo si presenta una maiuscola
graficamente pi grande.
83
Hobson-Jobson,1996.
84
Nei suoi concerti Hendrix messo al corrente del continuo fraintendimento prima di iniziare
lesecuzione della canzone cercava di baciare qualcuno del suo gruppo musicale.
85
http://www.mymag.it/forum/viewtopic.php?f=18&t=28819&start=0
86
Safire, 1980: 166-72.
87
Gli esperimenti cui si allude in questa pagina e nelle seguenti sono tratti da Paoloni-Zavattaro,
2007:54-61.
88
Per decodificare il messaggio il ricevente estrae i tratti distintivi dai dati percettivi. Quanto pi ci
avviniamo alla destinazione del messaggio tanto pi accuratamente possiamo valutare
linformazione veicolata dalla catena fonica. Ci determina la gerarchia operativa dei livelli in
ordine di pertinenza decrescente: percettivo uditivo acustico motorio. Jakobson and Halle,
1956:33-34.
89
Invarianza nel senso di una propriet o di uno stato che non varia.
90
Matthei E.H., Roeper T., 1991.
91
Per un approfondimento sulla coarticolazione e sui modelli coarticolatori si veda Magno Caldognetto
E., 1980 e Romito L., 2000:167-175.
92
Ricordiamo che normalmente produciamo 20-30 suoni al secondo (Romito L., 1993).
93
In alcuni testi si parla anche di teorie non mediate, in riferimento alle passive, e teorie mediate, per
quelle attive.
94
Fant G., 1970.
95
Dallinglese: che va dal basso verso lalto.
96
Massaro D.W.,2001.
97
Si consulti Shokey-Reddy, 1974.
98
Romito L., 2012.
99
Una definizione di memoria secondo il nostro punto di vista potrebbe essere che la memoria quella
caratteristica o fattore cognitivo che permette a ognuno di noi di utilizzare la propria esperienza
passata in modo da rispondere in maniera appropriata allesperienza in atto.
100
Liberman A.M., 1967 (1985).
101
Ci conferma come la percezione linguistica, in confronto alla percezione degli altri stimoli, occupi un
posto del tutto particolare. Soltanto nel caso del linguaggio infatti il ricevente stesso in grado di
riprodurre ci che gli viene offerto come stimolo (si pensi alla musica ad esempio).
102
Si tratta in realt di comandi a livello neuro-motorio che mettono in funzione gli organi articolatori.
103
Liberman P., 1980.
104
Fraser H., 2003.
105
Ricordiamo infatti che la teoria di Lindblom annoverata tra quelle mediate o attive, dove chi
ascolta ha piena facolt di ricostruire ed interpretare il segnale vocale.
106
Interessante anche laspetto emotivo della voce: Thus, voice has a strong impact on the im-
pressions the speaker gives of him/herself, how the message is perceived or even understood, and
what kind of (emotional) feedback it evokes in the listeners Liberman P., Michaels S.B., 1962;
Addington D.W., 1968, Weaver J.C. and Anderson R.J., 1973, Blood G.W. Mahan B.W., 1979.
107
Questo tipo di parlato quello che quotidianamente utilizziamo ad esempio nelle conversazioni tra
amici, al bar, al lavoro, in famiglia ecc.
108
E. H. Matthei, T. Roeper,1991:171-179.
109
Tale processo viene spiegato attraverso la legge di Zipf che mette in relazione la frequenza di un
evento P e il suo rango i. La legge espressa come f(P )= C/i, dove i indica il rango; P indica
levento che occupa li-esimo rango; f(P ) il numero di volte che si verifica levento P e C una
costante di normalizzazione. Tale legge definita anche legge dinamica spiega come massimizzare
linformazione in un codice utilizzando preferibilmente simboli meno costosi. Un esempio
basilare potrebbe essere costituito proprio dal codice morse dove la lettera e (il cui uso molto
frequente), viene segnalata con un singolo punto (.), mentre al contrario la lettera x sicuramente
meno frequente viene rappresentata da una linea, due punti e una linea (-..-) (Zipf 1949).
110
Marslen-Wilson W.D., Tyler L.K., 2007a e 2007b.
111
McClelland J.L., Elman J.L., 1986.
112
Si veda 19-20 in Albano Leoni 2009.
113
Quanto detto vale anche per la percezione delle emozioni della voce come paura, felicit, tristezza,
ecc Emotional information perceived by more than one sense gives a more reliable conception of
the substance of the message than if the information is perceived only by one sense Van den
Stock J. et al, 2007.
114
Savin H, 1963:35.
115
Wheeler, D. D. , 1970, e 2008.
116
Si veda a questo proposito i diversi modelli definiti ad attivazione ed a ricerca (cfr. Morton 1969-
1970 op. cit. Forster, 1976 op cit. rispettivamente).
117
Ladefoged P, Broadbent D.E., 1957.
118
Questa affermazione molto generica, infatti noto che il napoletano ha un sistema vocalico
caratterizzato da sette segmenti nonostante sia meridionale. La questione sicuramente pi
complessa ed impossibile da approfondire in questa sede.
119
Liberman et al 1957, Fry et al. 1962, Studdert-kennedy et al. 1963; Stevens et al. 1963 da Robins.
120
Science 1981:212
121
Risulta ora comprensibile la difficolt di percepire la differenza tra parole come pompa e
bomba o Pino e Dino in un segnale rumoroso o in un segnale filtrato male.
122
Ad esempio la differenza tra le fricative sibilanti (/s/ di scale e /z/ di sgarbo) e le fricative a lingua
piatta (// di sciare o /v/ di vino) risiede rispettivamente nella presenza di segnale aperiodico
con una frequenza concentrata tra i 6000 e i 7000 Hz e una frequenza meno intensa distribuita su
tutta la gamma tra i 7000 e i 2000 Hz. Effettuare delle cattive registrazioni o dei cattivi filtraggi,
pu annullare le differenze tra i singoli suoni fricativi rendendoli percettivamente tutti simili e
indistinguibili.
123
In alcuni casi, quanto affermato, si esplicita in fantasiose ricostruzioni. Ad esempio se in un segnale
rumoroso si ha la certezza di aver percepito solo XXeXa, sar il cervello a sostituire le porzioni
X non percepite con consonanti possibili e coerenti con il contesto formando parole come
papera o zattera o ancora passera ecc.
124
Unimplicatura un significato implicito nella risposta. Per comprendere le implicature facciamo
appello a un retroterra di conoscenze condivise.
125
Dell Hymes, 1967.
126
Importante ricordare, per il prosieguo di quanto affermeremo in seguito, che il contesto al fine di una
buona interpretazione di un atto linguistico una delle variabili pi importanti.
127
La prova di quanto affermato sta nei cartelli che a volte leggiamo sullentrata di un negozio che
riportano torno subito, o torno tra un ora senza dare indicazioni sullinizio e sulla fine, oppure
quando guardando il nostro orologio diciamo ci vediamo esattamente alle 18.00 dando la nostra
ora come riferimento ecc.
128
Secondo quanto scrive Lyons 1977, addirittura i gesti possono trasmettere informazioni che vanno
esattamente nella direzione opposta a quelle verbali. Un esempio potrebbe essere produrre un atto
linguistico tipo buona! Vero? ed intanto con il gesto della testa o della mano, lasciar intendere
esattamente il contrario.
129
Federico Albano Leoni (op. cit.) si chiede se sia giusto chiedersi cosa sia linguistico e cosa invece
extralinguistico o paralinguistico se il fine ultimo sempre la comunicazione.
130
Fele G., 2007.
131
Malinowski B., 1966, nel suo esempio riporta il pianto di un bimbo che deve essere interpretato come
ho sete e vorrei dellacqua. Il bambino (prelinguistico) piange non per comunicare ma per
ottenere.
132
Sacks H., et al 1974.
133
Sacks H., 1972.
134
Searle J., 1992: 7-30, scrive che anche una birra ha un inizio, un mentre ed una fine ma nella
conversazione ogni azione ha un senso solo allinterno della sequenza e in rapporto con le parti;
nella birra invece no.
135
Psathas G., 1987 in Fele 2007:19.
136
Couper-Kuhlen E. & Selting M., 1996.
137
Per approfondimenti sul concetto di intonazione si vedano i succ.
138
Per loudness si intende una misura soggettiva dellintensit di un suono, cio la qualit di un suono
intesa come correlato psicologico dellampiezza acustica.
139
Trevisani- Bercelli, 2005: 48.
140
Ibidem
141
Schegloff E.A.,& Sacks H., 1973.
142
Fele, 2007:43.
143
Goffman E., 1971 e Goffman E., 1987.
144
Berruto Berretta, 1977:117.
145
In questi casi other sempre il primo interlocutore citato.
146
Trevisani Bercelli, 2005:44-45.
147
Ivi p.115.
148
Orletti, 1998: 153-154.
149
Grice H.P., 1957.
150
Fava 2001: 70; Salvi & Vanelli 2004: 209, Fava, E., 1984 e 2012.
151
Alcuni esempi in italiano potrebbero essere quelle parole come centinaio che pu assumere valore
rafforzativo: te lho detto un centinaio di volte oppure al contrario riduttivo come in erano al
massimo un centinaio.
152
Anche se a prima vista questa nota risulta essere ridondante, ho deciso di inserirla dopo aver letto
alcune relazioni di trascrizione presentate ai Tribunali di Napoli e di Santa Maria Capua Vetere e
di alcune dichiarazioni fatte in televisione. necessario differenziare la trascrizione dalla
traslitterazione. La traslitterazione quelloperazione che consiste nel trascrivere i grafemi di un
alfabeto, nei grafemi di un altro sistema di scrittura (esempio il cirillico o il greco antico in lettere
latine), in modo tale che ad uno stesso grafema o anche sequenza di grafemi della lingua di partenza
() corrisponda sempre uno stesso grafema o sequenza di grafemi del sistema di scrittura di arrivo
(d). Ovviamente questo nulla ha a che fare con la pronuncia dei due sistemi linguistici oggetto dei
nostri esempi. I due sistemi di scrittura devono essere equipollenti e quindi la traslitterazione (al
contrario della trascrizione) non pu essere ambigua. Nei casi citati invece traslitterazione viene
intesa come una trascrizione molto pi accurata.
153
Inserra, 2008: 17, [] dialoghi in dialetto, depone il perito: frasi disturbate da rumori, il perito
interpreta la frase manchi i cani signuri, ndaiu sulu u mi schifu, Dome con come i cani
andati li sono stati sparati.
154
de Saussure Ferdinad, Cours de Linguistique Gnrale, 1916 (mia la traduzione in lingua italiana).
155
Cass. pen., 1 sez., 24.4.82, n. 805: La trascrizione deve consistere [] nella mera riproduzione in
segni grafici corrispondenti alle parole registrate, []; la trascrizione consiste nella []
riproduzione integrale degli elementi fonetici raccolti nella registrazione. Oppure Cass. pen., 1
sez., 24 aprile 1982, n. 805. Pres. Fasani, est. Picininni. In tema di comunicazioni telefoniche
intercettate, la trascrizione integrale in verbali, [] deve consistere, nellipotesi normale di
messaggi telefonici in lingua italiana, nella mera riproduzione in segni grafici corrispondenti
alle parole registrate, con redazione del relativo verbale, che assumer valore di atto del
procedimento.
156
Non basta infatti saper guidare un automobile per essere pilota di Formula 1.
157
In Minissi N., 1990:3 si legge Le scritture fonetiche offrono questi simboli arbitrari ma costanti.
Tutte le norme che esse danno circa lutilizzazione dei simboli stessi riguardano la coerenza
interna del sistema di simboli, non la problematica linguistica; allo stesso modo come le
convenzioni della simbologia algebrica (per esempio [] la differente funzione dei differenti tipi
di parentesi, il diverso significato delle cifre a seconda che siano in linea o come esponenti ecc.)
costituiscono lordine grafico e non lordine concettuale dellalgebra.
158
La trascrizione e lalfabeto fonetico risponde a 4 regole fondamentali individuate da Jones W.
1788:1-56 1. I simboli devono costituire un sistema completo; 2) il rapporto tra simboli e tipi di
articolazione deve essere univoco, cos che ad ogni tipo di articolazione corrisponda un solo simbolo
monogrammatico e a ogni simbolo monogrammatico un solo tipo di articolazione; 3) il sistema deve
essere basato sullanalisi articolatoria; 4) facile da scrivere sia a mano che a stampa (da N. Minissi,
1990).
159
Tale alfabeto pu essere chiamato IPA come acronimo dellinglese International Phonetic
Association, o API dallacronimo del francese Association Phontique Internationale e cio dal
nome dellassociazione che lo ha redatto. Per indicare lalfabeto si pu anche usare: International
Phonetic Alphabet. La prima versione di un alfabeto fonetico in senso moderno fu quello redatto
nel 1855 da R. Lepsins in Das allgemeine linguistische Alphabet, Berlino. Lalfabeto viene
adottato con il termine di Alfabeto standard. Tutti quelli che verranno in futuro sono solo dei
miglioramenti e mai dei superamenti. La differenza tra i vari sistemi data dal numero e dal tipo di
caratteri articolatori presi a fondamento per lindividuazione dei processi articolatori fissati dai
simboli.
160
La trascrizione fonetica stretta una trascrizione descrittiva. Quindi necessario avere un parlato per
poterlo trascrivere. Lesempio riportato la versione dellautore di questo lavoro della produzione
orale della parola concio.
161
Bisogna per differenziare due tipi fondamentali di trascrizione. La trascrizione normativa, quella
che normalmente troviamo tra parentesi quadre accanto al lemma nei dizionari; questa trascrizione
informa come tale lemma dovrebbe essere prodotto normativamente, invece la trascrizione
descrittiva non tiene conto della norma e descrive esattamente la produzione acustica di un dato
parlante. La produzione di quanto costa per esempio prodotta da un cosentino potrebbe essere
['kwando'kosta].
162
Paolo Conte, Boogie.
163
Lesempio stato tratto da Mioni 1988.
164
Sorianello, op. cit.
165
Ci preme ricordare che come riporta Minissi op. cit.:103 un alfabeto fonetico offre solo i simboli e non
le soluzioni ai problemi della trascrizione. La trascrizione essenzialmente unoperazione linguistica
non una operazione grafica e consiste nel connotare linterpretazione fonetica o la sistemazione
fonematica dei fatti di lingua considerati mediante luso di simboli arbitrari di valore costante.
166
Si provi a immaginare la trascrizione di un dialogo tra Falcone e Don Masino come quello riportato in
Bazzanella (Nota 34 pag. 19) e ripreso da un articolo apparso sulla Repubblica del 17-11-1992:
Lui si fidava perch luomo che aveva di fronte capiva. Capiva le sue parole ma soprattutto i
suoi silenzi. E decifrava anche uno sguardo, rispondeva con una sola occhiata al movimento
impercettibile di un muscolo, alle labbra che sembravano aprirsi ma che poi improvvisamente si
chiudevano.
167
Il convincimento sar quello che il Giudice si far ascoltando direttamente laudio incriminato. In
Italia spesso trascrizioni poco accurate e affidabili di segnali poco chiari e discutibili diventano
prove in un processo soprattutto nei casi in cui la parte non abbia disponibilit economica e il CTP
non venga mai nominato. Al contrario molto frequente che chi dispone di una base economica
cospicua, nomini anche diversi esperti come linguisti e psicologi per la corretta interpretazione dei
significati delle singole parole.
168
Bellucci 1994 op. cit. Nota 11 pag 7.
169
Bellucci 1986:8 un non-linguista [...] nei fatti, ancora abituato a credere nelloggettivit del
significato di frase mentre i vertiginosi sviluppi della linguistica e delle sue subaree disciplinari
hanno ormai dimostrato in modo inoppugnabile quanto sia pericoloso separare un segmento
verbale dal cotesto e contesto in cui parte [...]. Inoltre si vedano a questo proposito una infinit di
intercettazioni dove linformazione ed il significato frase tuttaltro rispetto alla informazione
veicolata nella conversazione: mi porti le scarpe nuove, vieni ad aggiustare il cancello che
non funziona?.
170
Un esempio banale riguardo il setaccio, potrebbe essere quello relativo al gusto. Quando anni fa
comparve sulle nostre tavole il frutto kiwi, dopo il primo assaggio ognuno si chiesto che gusto
avesse. La risposta pi normale dovrebbe essere: di kiwi, il kiwi ha il gusto di kiwi, come la
mela ha il gusto di mela ecc. Eppure il gusto kiwi allepoca non faceva parte del nostro modello,
non rientrava nel nostro inventario dei gusti possibili e cos bisognava catalogare ed etichettare il
nuovo gusto con le informazioni in nostro possesso e in base al nostro setaccio, il kiwi assumeva
un gusto incrociato tra la banana e il pomodoro (gusti a noi gi noti).
171
Ad esempio in un caso dibattuto nel Tribunale di Catanzaro il perito del Giudice presenta una
trascrizione di un segnale sonoro degradato riportando per una precisa porzione la frase lhai
ammazzato il consulente tecnico della Procura trascrive la stessa porzione di segnale con la frase
lha ammazzato. La differenza la presenza o lassenza di una semplice vocale /i/ della durata di
30/40 millisecondi eppure le implicazioni semantiche sono enormi. Nel Tribunale di Torino p. p
19/10 R.G. Corte Assise Appello N.
4749/01 R.G. N.R il perito del Giudice riporta per una porzione di segnale sonoro la seguente trascrizione
Magari si mi dicevi che il cinghiale nun era da uccidere.. il consulente tecnico della difesa riporta per
la stessa porzione la seguente frase Enzu mi dicia chi cinquecento mila liri on ci dasti, il consulente
tecnico della Procura ritiene invece che nella porzione di segnale analizzata non ci sia presenza di
parlato.
172
Riguardo questo problema ovviamente molto avremmo da ridire sulle attrezzature utilizzate che portano
a registrazioni degradate. Ci limitiamo a riportare un commento di Albano Leoni e Maturi 1991 le
conseguenze della cattiva qualit della registrazione sono spesso irresolubili. Qui si apre il
problema delle dotazioni istituzionali che non ci compete direttamente. Ma una cosa chiara per il
Linguista, ed forse suo dovere anche disperdere ogni ambiguit in proposito, e cio che tempi e
costi di perizia, qualit dei risultati, sono direttamente dipendenti da quella qualit. Attualmente, se
non ci sono interventi operativi immediati, la norma del CPP che prevede la trascrizione integrale
cardine del garantismo, resta unastrazione, unutopia, una delle norme di legge esistenti ma non
praticabili. Il linguista non opera sul CPP, lavora su un nastro registrato. Pu apprezzare
profondamente il nuovo CPP e cedere le armi di fronte allo standard di qualit delle intercettazioni.
Su questo argomento si veda anche Fraser H., 2003.
173
Trad. it. Le analisi sul parlato a scopo forense devono essere effettuate solo da chi ha un esperienza
accademica ed una qualifica in scienze linguistiche e fonetiche.
174
Il fumo delle sigarette incide sullelasticit delle corde vocali e anche sul fiato che il parlante ha a
disposizione. Anche la struttura sintattica delle frasi da progettare e produrre sar influenzata,
questultime saranno molto brevi e semplici, una serie di coordinate piuttosto che frasi incassate e
subordinate che richiedono molto fiato.
175
Si vedano i segg.
176
In questa sede non si approfondisce volutamente la questione che sicuramente molto pi complicata.
Per chi volesse approfondire largomento si suggerisce la lettura dei lavori di Bertinetto P.M. o
di Romito L.
177
Alcuni studi effettuati sul piano acustico sullaccento italiano, hanno dimostrato che le vocali toniche
manifestano, difatti, una maggiore durata, seguita da una frequenza pi alta e da un incremento
dellintensit, rispetto alle vocali atone (Bertinetto P.M., 1981).
178
Canepari L., 1979.
179
Nespor, 1993.
180
Il raddoppiamento sintattico consiste nel rafforzamento di un elemento consonantico in contesto
intervocalico, laddove la vocale che precede e quella che segue siano entrambe toniche. La
consonante verr rafforzata per distanziare i due accenti, altrimenti troppo vicini (esempio
pap vcchio [pa'pav'vekkjo] ma pap vecchissimo [pa pavek'kissimo].
181
Tutti gli esempi precedenti sono frutto di una discussione avvenuta con lamico e collega Massimo
Pettorino durante un cordiale pranzo consumato a Parigi.
182
Ad esempio il polacco prevede strutture sillabiche con ben sette consonanti, mentre litaliano predilige le
strutture semplici e soprattutto le sillabe aperte (cfr.. Romito L. , et al. 2012a, 2012b, 2012c).
183
Cfr. Trumper J., 1996.
184
Il modo in cui i giovani si esprimono sicuramente fonte di ricchezza per il repertorio linguistico di
ogni comunit di parlanti, non solo per la loro capacit di arricchirlo con termini sempre nuovi, ma
anche e soprattutto per il loro modo di fondere stile formale e stile colloquiale, fino a formare quella
che gli studiosi di sociolinguistica chiamano lingua dei giovani (o linguaggio giovanile, gergo
giovanile, giovanilese, che dir si voglia Marcato, 2002:42.
185
Treccani, 2010: 881 la metonimia [...] una figura retorica, tradizionalmente inserita nei tropi, in
quanto produce il sovvertimento di significato proprio di una parola in un significato detto
figurato per effetto della sostituzione di unaltra parola. Bench spesso associato alla metafora la
metonimia [...] se ne distingue perch si basa su un rapporto di scambio tra diverse categorie e
non, come la prima su un rapporto di somiglianza. Ad es. comprare una Fiat e bere una bottiglia si
sostituisce nel primo caso il nome del produttore (Fiat, causa) col nome del prodotto lasciato
implicito (auto, effetto) e nel secondo il nome del contenuto (liquido) col nome del contenente
(bottiglia).
186
Banfi, 1999 : 36 La scarsa attenzione per il silenzio si spiega se si tiene conto che lo studio dei
processi comunicativi si focalizzato sulla concretezza della catena fonica, sottolineando il fatto
che linterazione comunicativa consiste, invece, sia di materia fonica che di vuoto fonico:
vuoto fonico non significa, ovviamente, vuoto semantico.
187
Gli esempi sono tratti da verbali reali.
188
Nel caso della telefonia fissa, il fatto che ci sia un filo a collegare gli apparecchi, o lesperienza nelle
innumerevoli conversazioni gi avute rende pi tranquilli gli interlocutori. Nel caso della telefonia
cellulare, gli abbassamenti di intensit, i rumori improvvisi, lesperienza di molte conversazioni
interrotte da cadute di linea porta gli interlocutori a fare abbondante uso della funzione ftica della
lingua con interazioni tipo ci sei?, mi ascolti?, sei li? oppure alzando notevolmente il volume
della voce.
189
Anche se poi possibile che si verifichi una conversazioni con chi sta fuori dallautomobile o in un
colloquio un cambio di uno degli interlocutori o una sovrapposizione con la postazione affianco
non intercettata ecc.
190
indubbio che lo stesso concetto pu essere espresso con diverse parole, con diverse strategie
morfologiche o sintattiche ed indubbio anche che come specificato precedentemente stato
sperimentato che una volta noto il campo semantico, la ricerca dei singoli lessemi da parte
dellascoltatore sar facilitata perch effettuata su un vocabolario ristretto. per ovvio che se il
concetto viene frainteso o interpretato erroneamente gli errori di trascrizione saranno enormi.
191
Albano Leoni op. cit.
192
Additionally, a greater activity of the cortex has been observed when attention has been
directed to the speakers voice compared with the verbal content (Belin P, et al.2000). This may be
due to fact that the processing of the human voice occurs in an auditory domain in the left human
prefrontal cortex distinct from Brocas area, which, in turn, processes syntactic and semantic
actions (Fecteau, et al. 2005a e 2005b). Moreover, the auditory cortex is species-specific to
vocalizations: nonhuman or other types of artificial stimuli or animal vocalizations do not evoke
as strong responses in this area of the brain as do human sounds.
193
Gesti e movimenti della testa tendono a coincidere con i punti di maggiore enfasi dellenunciato e
aggiungono particolari sfumature a ci che si sta dicendo.
194
Volessimo fare una lista con maggiore o minore livello di prevedibilit potremmo seguire la
sequenza: Alta prevedibilit - Interazioni, frase idiomatiche, proverbi, Mi piace . un pisolino;
Media prevedibilit parlato connesso Mi mangerei un (pane/cane) oppure Di solito
sento/mento/lento/ ecc. Bassa prevedibilit - numeri, nomi e cognomi e toponimi - Ho visto ... in via ...
numero ... con ......
195
Bazzanella C.,1994:62.
196
Ovviamente cosa ben diversa la qualit di una normale registrazione (si veda il rapporto SI/ SD
proposto nei seguenti).
197
E questo non per la qualit degli strumenti utilizzati ma per la loro impostazione spesso determinata
pi rispettando un parametro economico che di qualit.
198
Ibba G., et al. pp. 208-212.
199
Idem.
200
Per un approfondimento sullargomento si veda Romito L., et al. 2008, Romito L., 2000, 2004, 2005.
201
Il disturbo acustico si identifica con limmissione sonora, cio nellaggiunta di vibrazioni sonore a
quelle preesistenti nellambiente o come generalmente definito di fondo. Perch si possa parlare di
disturbo acustico non necessario che il livello sia elevato tanto da divenire in qualche modo
patologico, ma basta che sia uguale o superiore al livello del rumore di fondo.
202
Il bel non una quantit di suono ma una relazione tra due suoni.
203
Lehmann, 1969, Littler, 1965.
204
Il colore indica una certa banda di frequenza, ad es. il bianco indica tutte le frequenze udibili.
205
Dubno Dirks and Margon 1984, Gordon-Salant and Fitzgibbons 1995, Sueli Aparecida Caporali, Cox
and Mc Daniel 1984 e Nakatani and Dukers 1973.
206
Knudsen e Harris 1950.
207
Kryter K.D. 1989.
208
Cocchi Farina Vezzali 1980:1 alle diverse bande di frequenza in ottava o terzi di ottava, i vari livelli
di pressione di picco, opportunamente definiti vengono depurati dai corrispondenti livelli di
rumore di fondo. I contributi in tal modo determinati vengono moltiplicati per opportuni fattori di
peso, tabulati in funzione della frequenza e infine sommati per determinare il valore dellindice di
Articolazione Globale.
209
La definizione tratta da Romito L., (2004), op. cit.
210
Si pensi alle voci sovrapposte in quello che viene definito cocktail party, oppure ai suoni trasmessi dal
televisore che si sovrappongono alla voce di un interlocutore presente nella stessa stanza.
211
Inoltre necessario differenziare la qualit della intercettazione dalla qualit delle registrazione; la
prima dipende dalla intelligibilit, dalla chiarezza, dalla naturalezze ecc. e si basa soprattutto sul
parlato la seconda invece misura il rapporto tra la realt e la sua copia registrata.
212
Graffi G., Scalise S., 2002: 33-38.
213
Lindblom B.,1990:407-412.
214
possibile trovare una correlazione con la percezione visiva nellesempio seguente: da uno stiduo
dlela Uvinresti di Cmabirgde, non ha ipomrtnaza in che odrnie le leterte sinao in una proala,
luicna csoa ipomrtnatne che la pimra e lulmtia lertetasinao al psoto guitso. Il rsteo pu eresse
tolematnte sgliabato e si pu lgegere sneza polbrmei. Qetsuo prhec la mnete unama non lggee
ongi lerteta ma la proala cmoe ucnio isenmie. Il lettore basa la comprensione sullinizio e la fine
delle parole (sempre corrette) e sulla presenza (anche se confusa) degli elementi consonantici e
vocalici corretti. Il significato frasale aiuter a percepire pi facilmente la parola successiva e cos
la nostra iniziale incertezza mano a mano che si procede con la lettura diventer sempre meno
importante.
215
Romito L., 2004.
216
Fraser H, 2003:205,207.
217
Ovviamente ad inizio frase impossibile avere precisi indizi. Questi emergeranno solo quando
inizier a svilupparsi la struttura grammaticale e la selezione semantica.
218
Si verifica esattamente il contrario invece con toponimi e nomi propri dove linformazione
esclusivamente nel segnale acustico.
219
Moreton E.,1997:1.
220
Moreton E.,1997:2
221
noto che non vi una grande differenza tra i due suoni se non la produzione continua di /l/
rispetto alla produzione interrotta di /r/.
222
Soundararajan S. De Liang W., 2005
223
Sono quelli compiuti da Warren, in particolare, Warren 1970.
224
In successive prove si osserv invece che se la s veniva sostituita con del silenzio, la ricostruzione
non avveniva: il segnale risultava non naturale e non continuo.
225
Shinn-Cunningham B., Wang D., 2007.
226
Kashino M., 2006:319.
227
Kashino M., 2006: 320.
228
Si tratta della facolt di ricordare, senza per averne consapevolezza. Vi si trovano, per quanto
riguarda la rappresentazione del parlato, dati sia linguistici che extra linguistici.
229
Lachs L., et al. 2000.
230
Romito L., 2004.
231
Molto dovremmo dire sulla differenza tra la comprensione e la percezione. In breve possiamo dire che la
comprensione lattribuzione o il riconoscimento di un significato dato ad una produzione in base
ad un preciso contesto. Ad esempio se viene prodotta laffermazione verme! rivolto ad una
persona, la comprensione deve essere di giudizio negativo verso quella persona, esplicitando si
potrebbe comprendere: ti considero un essere ignobile, non ti avvicinare e non permetterti
neppure di sfiorarmi, sei una persona senza spina dorsale ecc. al contrario una affermazione del tipo
acqua! Rivolto alla stessa persona non viene esplicitato con sei un uomo liquido o altro ma
probabilmente solo con vorrei dellacqua potresti passarmi dellacqua per favore ecc. La percezione
invece in entrambi i casi noterebbe stessa intonazione e diversa sequenza di fonemi. In questi esempi
linformazioni sul significato lessicale sarebbe quindi top- down ovvero partendo dagli enunciati in
un contesto per giungere alla singola parola e non invece bottom- up, cio partendo dal significato
delle singole parole. Grice identifica a questo proposito il significato convenzionale (condiviso da una
comunit e dai parlanti) e significato conversazionale (significato modellato dalluso della lingua in
determinati contesti e soprattutto in base a precisi scopi ed intenzioni).
232
Sevostianov, A., et al. 2002:587-590.
233
Spesso alcune conclusioni peritali su trascrizioni effettuate da esperti tecnologi, pur se allapparenza
scientifiche mascherano grossi ed evidenti errori.
234
Una opinione comune ma totalmente errata che gli ascolti ripetuti possano migliorare la percezione
(in aula il Giudice o lavvocato spesso chiede quante volte stata ascoltata la singola frase o parola.
Oppure lo stesso perito rafforza la propria ipotesi affermando di avere ascoltato la porzione ad
esempio ben 40 volte). necessario affermare con assoluta fermezza che gli ascolti ripetuti non
migliorano la percezione e quindi la comprensione ma rafforzano esclusivamente lipotesi iniziale
che lascoltatore/ trascrittore ha avuto. Tribunale di Palmi pp.1265/11 RGNR 7734/11 D.D.A.
esame del teste. P.M. Ora lei mi deve togliere una curiosit, perch pu darsi pure che io abbia
problemi di udito, premettiamo questo, ma io ho sentito e fatto sentire [...]. E lho fatto sentire voglio
dire non solo ad ufficiali di P.G. che se vogliamo comparare le ore di ascolto che fanno rispetto a
quelle che ha fatto lei [...].
235
In quasi tutti i casi in cui il sottoscritto ha avuto esperienza, invece, la trascrizione un verbale senza alcun
commento, senza alcuna analisi, dove porzioni chiarissime di segnale senza alcun dubbio di
trascrizione vengono presentate nello stesso identico modo di porzioni dubbie, frutto di ricostruzione
linguistiche. Tutto ci come se il livello della qualit acustica di una registrazione sonora, la velocit di
eloquio, la qualit della voce e la sua intensit fosse sempre costante e senza lacuna variazione per
lintera registrazione
236
Esecuzione delle operazioni (art. 268 comma 7 c.p.p.). Il giudice dispone la trascrizione integrale
delle registrazioni ovvero la stampa in forma intelligibile delle informazioni contenute nei flussi
di comunicazioni informatiche o telematiche da acquisire, osservando le forme, i modi e le
garanzie previsti per lespletamento delle perizie [art 220]. Le trascrizioni o le stampe sono inserite
nel fascicolo per il dibattimento.
237
In questo caso le ricerche moderne dimostrano che il valore medio di una pausa vuota pari alla
durata media di una occlusiva pi quattro volte la varianza, quindi mediamente dovrebbe essere
pari a 180-250 ms.
238
Esempio tratto da M. Grimaldi, 1995:113-114.
239
Da Romito L., et al. 2010:643-670. Ad esempio, analizzando (sintatticamente) una registrazione
anonima di un parlante meridionale calabrese potremmo concentrare la nostra attenzione sulla
posizione che assume il pronome possessivo in alcuni particolari contesti come i nomi parentali.
Potremmo constatare che i dialetti della costa calabrese Tirrenica (per esempio: Palmi,
Delianuova) antepongono il pronome possessivo (me patre, me frate, me soru mio padre, mio
fratello, mia sorella) mentre al contrario i dialetti della costa calabrese Ionica (per esempio:
Catanzaro lido, Soverato, Siderno, Locri) post pongono il pronome con diversi esiti di
suffissazione (patrimma, fratimma, soremma o sorma mio padre, mio fratello, mia sorella).
Ipotizzando di aver identificato nella registrazione anonima una provenienza del parlante dalla
costa ionica calabrese, una seconda analisi (fonologica-fonetica) sempre sulla stessa registrazione
potrebbe riguardare lesito della doppia LL- latina nei dialetti in questione. I dialetti del
catanzarese prevedono un esito occlusivo retroflesso sonoro [] quindi ILLUM>iu lui; la
zona pi a sud sempre sulla costa Jonica come Roccella Jonica ecc. prevede un esito
approssimante palatale sonoro [j] iju lui mentre ancora pi a Sud (Badolato) lesito
monovibrante alveolare sonoro [r] iru lui. Individuata la zona si potrebbe andare ancora pi
nello specifico concentrandosi su processi metafonetici o su strutture sintattiche come luso
dellinfinito opposto al /ma, ca, u/ + verbo al presente [poter(r) cjoviri] (base latina) versus
[potera ma cjova] (base greco-bizantina) potrebbe piovere. Lincrocio e la coesistenza di una
serie di variabili (correttamente identificate) conduce alla identificazione di una precisa comunit
linguistica. Tanto precisa sar lidentificazione della comunit linguistica quanto unica e
particolare risulter essere la variabile considerata come nel caso dellesito di LL- in [] presente
solo in un piccolo paese della Calabria aspro montana o ancora il processo di trittongazione
riscontrato solo in un quartiere della citt di Reggio Calabria.
240
Fraser H., 2010.
6.10. Bibliografia
Addington D.W., The relationship of the selected vocal characteristics to personality

perception, Speech Monograph, XXXV, 492-503, 1968.
Albano Leoni F., Dei suoni e dei sensi, Il volto Fonico delle parole, Il Mulino, Saggi,
2009.
Albano Leoni F., e Maturi P, Manuale di Fonetica, Carocci Editore, Roma, 1991.
Andorno C., Che cos la pragmatica linguistica, Carocci editore, Roma, 2005.
AnolliL., P. Legrenzi, Psicologia generale, Il Mulino, 2009.
Auer, P., On the prosody and syntax of turn-continuations, in Couper-Kuhlen E. and Selting M.
(eds.), Prosody in Conversation, Cambridge, Cambridge University Press, pp 51-100, 1996.
Banfi E., (cura di), Pause, interruzioni, silenzi. Un approccio interdisciplinare, Dipar-
timento di Scienze Filologiche e Storiche, Universit degli Studi di Trento, Collana
Labirinti, Trento, 1999.
Bazzanella C., Le facce del parlare, La nuova Italia, 1994.
Belin P, Zatorre R, Lafaille P, Ahad P, and Pike B., Voice-selective areas in human
auditory cortex, Nature, 403: 309-312, 2000.
Bellucci P., A onor del vero, UTET, 2002.
Bellucci P., Note di sociolinguistica giudiziaria italiana. In: AA.VV. Studi in onore di
C.A. Mastrelli, Padova: Unipress, pp. 35-46, 1994.
Berruto G., M. Berretta, Lezioni di sociolinguistica e linguistica applicata, Liguori edi-
tore, Napoli, 1977.
Bertinetto P.M. & C. Bertini, On modeling the rhythm of natural languages, Proc. of
Speech Prosody, 2008.
Bertinetto P.M. & C. Bertini,Towards a unifiedpredictive model of speechrhythm, in
Quaderni del Laboratorio di Linguistica della SNS n.7, 2008.
Bertinetto P.M. & C. Finocchiaro, On the weakness of syllabiceffects in Italian, Extended
version, Quaderni del Laboratorio di Linguistica della SNS 3, 2002.
Bertinetto P.M., On describing tense and aspect systems. A review-article, Italian
Journal of Linguistics / Rivista di Linguistica 15: 141-171 [vers. prec. in: Quaderni
del Laboratorio di Linguistica della SNS 3, n.s./2002], 2002.
Bertinetto P.M., Strutture prosodiche dellitaliano, Firenze, Accademia della Crusca, 1981
Bertini C., Bertinetto P.M. & Zhi Na, Chinese and Italian speech rhythm. Normalization
and the CCI algorithm, Interspeech 2011, 12 Annual Conference of the Interna-
tional Speech Communication Association, Firenze 2011.
Blood G.W. Mahan BW:, Hyman M, Judging personality and appearance from voice
disorders, Journal of Communication Disorders,12: 63-68, 1979.
Bryant, M., English in the Law Courts: the Part that Articles, Prepositions and Conjunctions
Play in Legal Decisions, Frederick Ungar, New York ristampa 1962.
Canepari L., Introduzione alla fonetica, Einaudi, Torino, 1979.
Canestrari R., Godino A., Introduzione alla psicologia generale, Mondadori, 2006.
Castagneto M., La gestione dialogica dellemotivit: la dimensione socio-culturale, in
E.M. Caldognetto-F. Cavicchio, P. Cosi, (a cura di) Comunicazione parlata e mani-
festazione delle emozioni, Napoli, Liguori editore, 2008.
Cazacu Slama, Introduction to psycholinguistics, Mouton, Paris, 1973.
Cfr. Ladefoged P, Broadbent D.E., Information conveyed by vowels. J AcoustSoc Am,
29:98104, 1957
Chaski C., Daubert A., Language Based author identification techniques, International
Journal of Speech, Language and the Law, VII (1), 1-65, 2001.
Chaski C., Daubert A., Empirical evaluations of Language-based author identification tech-
nique, International Journal of Speech, Language and the Law, VIII (1), 1-65, 2001.
Chaski C., Daubert A., Inspired Assessment of Current Techniques for Language-Based
Author Identification, US National Institute of Justice, 1998.
Cocchi A., A. Farina, R. Vezzali, Valutazione dellintelligibilit della parola: metodi a
confronto, Istituto di Fisica Tecnica Facolt dIngegneria di Bologna, 1980.
Couper-Kuhlen E. & Selting M., Prosody in conversation, interactional studies, Cambridge
University Press, Cambridge, 1996.
Cruttenden, A., Intonation, Cambridge University Press, 1986.
Danet, B., Language in the legal process, Law Soc. Rev, 14:3:445-564, 1980.
de Saussure Ferdinand, Cours de Linguistique Gnrale, 1916.
Dell H. Hymes, Studies in the history of linguistics: traditions and paradigms, Indi-
ana University Press, 1974 e Foundations in Sociolinguistics: an ethnographic ap-
proach Mouton, 1974.
Dell Hymes, Models of the Interaction of Language and Social Setting, Journal of Social
Issues, Volume 23, Issue 2, 8-28, April 1967.
Dubno J.R., Dirks D.D., Morgan D.E., Effects of age and mild hearing loss on speech
recognition in noise, J. acoustic soc. Am., 76: 87-96, 1984.
Fant G., Acoustic Theory of speech production, The Hague, Mouton, 1970.
Fava E., Atti di domanda e strutture grammaticali in italiano, Verona, Libreria Univer-
sitaria Editrice, 1984.
Fava E., Tipi di atti e tipi di frasi, in L. Renzi, G. Salvi, A Cardinaletti (a cura di), Gran-
de grammatica italiana di consultazione, Vol. 3, Bologna, il Mulino, 2001
Fava, E., Il tipo interrogativo, in Renzi, Salvi & Cardinaletti, vol. 3, Tipi di frase, deissi,
formazione delle parole, pp. 70-126, 2012.
Fecteau S, Armony J.L., Joanette Y., and Belin P., Judgment of emotional non linguistic
vocalizations: age-related differences, Appl. Neuropsychol., 12: 40-48, 2005.
Fecteau S., J. L. Armony, Y. Joanette, and P. Belin, Sensitivity to Voice in Human Prefrontal
Cortex, 2253-2254, 2005.
Federico Albano Leoni Dei suoni e dei sensi. Il volto fonico delle parole, Bologna, il
Mulino, 2009.
Fele G., L analisi della conversazione, Bologna, il Mulino, 2007.
Ferrero F., A. Genre, L.S. Bo e M. Contini, Elementi di fonetica acustica, Torino, Edi-
zioni Omega, 1979.
Ferrero F.E., (a cura di) Lidentificazione della persona per mezzo della voce, Roma,
ESA, 1979.
Fitzgerald J., Using a forensic linguistic approach to track the Unabomber, in Campbell
e Denevi (eds.), Profilers. Leading investigators take you inside the criminal mind,
New York, Prometeus Book, 2004.
Forster, K.I., Accessing the mental lexicon. In Wales R.J. & Walker E. (eds.), New
Approaches to Language Mechanisms., pp. 257-287, 1976.
Foster D., Author Unknown, On the Trail of Anonymous, Henry Holt and Company,
New York, 2000.
Fraser H., Issues in transcription: factors affecting the reliability of transcripts as
evidence in legal cases, Speech, Language and Law, 2003.
Fraser H., Transcripts in the legal System in Expert Evidence, eds. Ian Freckelton and
Hugh Selby. Sydney 2010.
Goebl H., Brevissima presentazione della dialettometria, (con esempi tratti dallAIS),
(a cura di) Bombi R., DAgostino M., Dal Negro S., Franceschini R., in Atti del
10 Congresso dellAssociazione Italiana di Linguistica Applicata, vol. 9, Lingue e
culture in contatto, Guerra ed., 2011.
Goffman E., Forme del parlare, Bologna, il Mulino, 1987.
Goffman E., Il comportamento in pubblico. Linterazione sociale nei luoghi di riunio-
ne, Torino, Einaudi, 1971.
Goffman E., Relazione in pubblico. Microstudi sullordine pubblico, Milano, Bompia-
ni, 1981.
Gordon-Salant and Fitzgibbons, Recognition of Multiply Degraded Speech by Young
and Elderly Listeners, Journal of Speech and Hearing Research Vol.38 1150-1156
October 1995.
Graffi G., Scalise S., Le lingue e il linguaggio, Il Mulino, pp. 33-38, 2002.
Grassi C., A.A. Sobrero, T. Telmon, Fondamenti di dialettologia italiana, Edizioni La-
terza, 1997.
Grice H.P., Meaning, in Philological Review, 6; Grice H.P., Logical and conversation,
in P. Cole, Morgan J. L. (eds), Syntax and Semantics. Speech Acts, Academic Press,
New York, pp. 41-58, 1957.
Grimaldi M., Aspetti pragmalinguistici, caratterizzazione del parlante e attivit investi-
gativa, in Fedi F., Paoloni A. (a cura di) pp.109-120, 1995.
Hobson-Jobson, A Glossary of Colloquial Anglo-Indian Words and Phrases, and of
Kindred Terms, Etymological, Historical, Geographical and Discursive scritto da
Henry Yule e Arthur C. Burnell e pubblicato nel 1886, ristampa del 1996.
Heg P., I quasi adatti, Mondadori, 2003.
Holland e Forster, K.I., Levels of processing and the structure of the language proces-
sor. In Cooper W.E., & Walker E. (eds.), Sentence Processing: Psycholinguistic
essays presented to Merrill Garrett. Hillsdale, N.J.: Erlbaum, 1979.
Hollien H. and Schwartz, R., Aural-perceptual speaker identification: problems with
non-contemporary samples, Foren. Linguis., 7:2:199-211, 2000.
Hollien H. et al., Criteria for earwitness lineups, Foren. Linguis., 2:2:143-153,
1995.
Hollien H., Consideration of guidelines for earwitness lineups, Foren. Linguis., 3:1:14-23,
1996.
Hollien H., Forensic Voice Identification, Academic Press, 2002.
Hollien H., Majewski, W., and Doherty, E. T., Perceptual identification of voices under
normal, stress and disguise speaking conditions, J. Phonet., 10:139-148, 1982.
Ibba G, Paoloni A. De Sario N., Saverione B. Panichelli G., Valutazione dellintelligi-
bilit e della qualit dei segnali mediante test soggettivi di prove dascolto, in Rel.
FUB: 3B2987.
Inserra M., Poco chiara la telefonata tra Novella e Audino, Gazzetta del Sud, 7 maggio,
p. 17, 2008.
Jakobson and Halle, Fundamentals of language,Gravenhage, Mouton, 1956
Johnstone B., The individual voice in language, Durham, W. H., Daniel, E. V., and
Schieffelin, B., Eds., Ann. Rev. Anthropol., 29:405-446, Annual Reviews, Palo Alto,
2000.
Johnstone B., The Linguistic Individual: Self-Expression in Language and Linguistics,
New York, Oxford University Press, 1996.
Jones W., On the ortography of Asiaticwords in Roman letters, pubblicato in Asiatic
Reserches I, Calcutta, pp. 1-56, 1788 in Minissi, La scritturafonetica, NIS, Roma,
1990.
Kashino M., Phonemic Restoration: the brain creates missing speech sounds, Acoust.
Sci and Tech, 27, 6:318-321, 2006.
Kersta L.G., Voiceprint identification, Nature, 196, 1253-1257, 1962.
Knudsen & Harris, Acoustical designing in architecture, Whiley N.Y., 1950.
Kryter K.D. Methods for the calculation and use of the articulation index, JASA, 34-1964,
1989.
Lachs L., McMichael K., Pisoni D.B., Speech Perception and implicit memory: evidence
for detailed episodic encoding of phonetic events, 2000.
Ladefoged P., A Course in Phonetics, New York, Harcourt Brace Javanovich, 1975.
Laver J., Principles of Phonetics, Cambridge University Press, 1994.
Leech G., Principles of Pragmatics, London, Longman, 1983.
Lehiste& Peterson G.E., Vowel amplitude and phonemic stress in American English, J.
of the Acoustical Society of America, 31:428-35, 1959.
Lehmann, Elements de phusio- et de psycho acustique, Parigi, 1969.
Leoni F.A., Maturi P., Manuale di Fonetica, Carocci, 1995.
Levi, J.N., Linguistics, Language, and Law: a Topical Bibliography, Indiana University
Linguistics Club, Bloomington, 1982.
Liberman A. M., A Motor theory of speech perception, 1967, & Alvin M. Liberman and
Ignatius G. Mattingly, The motor theory of speech perception revised*, Cognition,
21, 1985.
Liberman P., Lorigine delle parole, Torino, Boringhieri, 1980.
Liberman P., Michaels S.B., Some aspects of fundamental frequency and envelope am-
plitude as related to the emotional content of speech, Journal of The Acoustical
Society of America, 34:7, 922-927, 1962.
Lindblom B., Explaining phonetic variation: a sketch of the H&H Theory, in Speech
Production and Speech Modelling (Hardcastle W.J. and Marchal A., editors),
Netherlands, Kluwer Acadelim Publishers, pp.403-439, 1990.
Littler, The physics of the ear, Londra, 1965.
Lyons J., Semantics, Cambridge, University Press, 1977.
Magno Caldognetto E., La coarticolazione, introduzione agli aspetti dinamici della
produzione della parola, Centro di Studio per le ricerche di fonetica del CNR, 1980.
Malinowski B., Il problema del significato nei linguaggi primitivi, in Ogden C.K. e
Richards I.A., Il significato, pp. 333-383, Milano, Il saggiatore, 1966.
Malmkiaer Kirsten (edited by), The Linguistics Encyclopedia, Routledge, 2010.
Marcato C., Lingua, dialetti e italiano, il Mulino, Bologna, 2002.
Marslen-Wilson W.D., Morphological processes in language comprehension, in Gaskell G.
(eds.) Oxford Handbook of Psycholinguistics, pp 175-193, 2007.
Marslen-Wilson W.D., Tyler L.K., Morphology, language and the brain: the decompo-
sitional substrate for language comprehension. Philosophical Transactions of the
Royal Society B: Biological Sciences 362:823-836, 2007.
Massaro D.W., Speech Perception, Lawrence Erlbaum Ass., Hillsdale, NJ., 1987.
Matthei E. H, Roeper T., Elementi di psicolinguistica, Bologna, il Mulino, 1991.
McClelland J., Mirman D., Holt L., Are there interactive processes in speech perception?,
Cognitive science, 10(8): 363-369, 2006.
McClelland J.L., Elman J.L., The TRACE model of speech perception. Cognitive Psy-
chology, 1986.
McMenamin G., Forensic Linguistics, CRC Press, Taylor & Francis Group, LLC, 2002.
Mecacci L., Introduzione alla psicologia, Bari, Laterza, 1994
Mehrabian, Non-verbal communication, 1972.
Miller G.A in Langage et communication, Parigi, III, 1956.
Minissi N., La scrittura Fonetica, La Nuova Italia Scientifica, 1990.
Mioni A.M., Elementi di fonetica, Padova, Unipress, 2001.
Moreton E., Using unconscious linguistic knowledge to perceive acoustically ambiguous
speech sounds, in Acoustical Society of America 134th meeting Lay Language Papers,
in http//www.acoustics.org/press/134th/moreton.htm, 1997.
Morton J., Interaction of information in word recognition. Psychological Review, 76,
165-178, 1969.
Nakatani, L. H., and Dukes, K. D., Sensitive Test of Speech Communication Quality, J.
Acoust. Soc. Am. 53, 1083-1092, 1973.
Nespor M., Fonologia, il Mulino, 1993.
Nolan F., Forensic phonetics, J. Linguis., 27:483-493, 1991.
Ollson J., Forensic Linguistics, Continuum, London-New York, 2004.
Ollson J., The dictation and alteration of text, Forensic Linguistics, 3:2:232-249, 1996.
Orletti F. ,(a cura di), Fra conversazione e discorso: lanalisi dellinterazione verbale,
Roma: Carocci Editore, pp.153-154, 1998.
Paoloni A., D. Zavattaro, Intercettazioni telefoniche e ambientali, Centro Scientifico
Editore, 2007.
Pike K.L., Phonetics, Ann Arbor: University of Michigan Press, 1943.
Poggi I., Le interiezioni, in Renzi, Salvi & Cardinaletti, vol. 3, Tipi di frase, deissi,
formazione delle parole, pp. 403-426, 1995.
Poggi I., Le interiezioni. Studio del linguaggio e analisi della mente, Torino, Boringhie-
ri, 1981.
Psathas G. (1987), Finding a place by following directions: A phenomenology of pedestrian
and driver wayfinding, in Man-environment System, 3-4 maggio-luglio, pp. 17, 99-103,
in Fele, 2007:19.
Reicher, G.M., Perceptual recognition as a function of meaningfulness of stimulus ma-
terial, Journal of Experimental Psychology 81 (2): 275-280, 1969
Romito L., Lio R., Perri P. F., Giordano S., Stabilit dei Parametri nello Speaker Recognition:
la variabilit intra e inter parlatore F0, durata e articulation rate, Atti del convegno
5 Convegno AISV, Universit di Zurigo, 4-6 febbraio 2009, (a cura di) Schimd S.,
Schwarzenbach M., Studer D., EDK Editore, Torriana (RN), Vol. 5, pp. 643-670, 2010.
Romito L., Manuale di Fonetica articolatoria, acustica e forense, Universit degli Stu-
di della Calabria: Centro Editoriale e Librario, 2000.
Romito L., Tarasi A., Lio R., Italian Index: rhythmical-prosodic analysis of Italian L2 spoken
by Albanian, Chinese, Polish and Romanian speakers in Fonetica Experimental, 2012.
Romito L., Tarasi A., Indice di Italianit: analisi ritmico-prosodica dellitaliano L2 in par-
lanti albanesi, polacchi e rumeni. In Eurolinguistica in progress: nuovi scenari per una
nuova Europa, Sturino D.F., Plastina A.F., Pugliese R. (a cura di), 2012.
Romito L., Tucci M. , Cavarretta G.A., Verso un formato standard nelle intercettazioni:
archiviazione, conservazione, consultazione e validit giuridica della registrazione
sonora, AIDA informazioni, Vol. 26, n. 1-2, pp. 149-164, 2008.
Romito L., Cenni sui correlati elettroacustici dellaccento in alcune variet di italiano,
in Atti del convegno IV Giornate di Studio del Gruppo di Fonetica Sperimentale
(G.F.S.), Torino, 1993.
Romito L., Galat V., Speaker Recognition in Italy: evaluation of methods used in fo-
rensic cases, Language Design, Vol. 1, pp. 229-240, 2008.
Romito L., La competenza linguistica nelle trascrizioni Forensi: lintelligibilit, log-
gettivit e il rapporto segnale/rumore, Detective And Crime, 2005.
Romito L., La misura dellintelligibilit e il rapporto segnale-rumore, Atti del convegno
AISV (Associazione Italiana di Scienze della Voce), Padova, pp. 539-566, 2004.
Romito L., Le intercettazioni, in Cultura della Legalit, Caligiuri M. (a cura di), Rubet-
tino Editore, Vol. 2, pp. 207-217, 2010.
Romito L., Presente, passato e futuro nelle analisi di SR, in Voce Canto e Parlato, Uni-
press, Padova, pp. 237-246, 2003.
Romito L., Tarasi A., Lio R., Savy R., Analisi ritmica dellitaliano L2 in parlanti albane-
si, cinesi, polacchi e rumeni in Atti del convegno AISV 2012, Roma, 24/01, 2012,
(a cura di) Paoloni A., Falcone M., Vol. VIII, pp. 10-30, Roma, Bulzoni, 2013.
Romito L., Tarasi A., Rhythmic and prosodic analysis of L2 Italian spoken by Albanian,
Polish and Rumanian speakers, In Prosodic and Rhythmic Aspects of L2 Acquisi-
tion. The case of Italian, De Meo A., Pettorino M. (a cura di), Cambridge, Scholar
Publishing, 2012.
Rose P., Forensic Speaker Identification, London,Taylor & Francis, 2002.
Sacks H., An initial investigation of the usability of conversational data for doing so-
ciology, in D. Sudnow (eds), Studies in Social interaction, pp. 31-74, New York,
Free press, 1972.
Sacks H., Schegloff E.A. e Jefferson G., A simplest systematics for the organization of
turn-taking for conversation, in Language, 50 (4, part 1), pp. 696-735, 1974
Safire W., On Language, Crown Publishing Group, 166-72, 1980.
Salvi G. & Vanelli L., Nuova grammatica italiana, Bologna, il Mulino, 2004.
Savin H, Word-frequency effect and errors in the perception of speech, Journal of the
Acoustical Society of America, 35, 1963.
Schegloff E.A., Reflections on Talk and Social Structure, in D. Boden, D Zimmerman
(eds), Talk and Social Structure, Polity Press, Cambridge, pp.44-70, 1991.
Schegloff E.A.,& Sacks H., Opening up closings in Semiotica, 8(4), pp. 289-327, 1973.
Schultz A., Speaker Characteristics, in C. Muller ed., Speaker classification 1, LNAI
4343, pp. 47-74, 2007.
Schutz A., Lo straniero, in Saggi sociologici, pp. 375-389, Torino, Utet, 1979.
Science, Vol. 212, issue 4501, pp. 1335-1420, 19 June 1981.
Searle J., Conversation, pp. 7-30, Amsterdam, John Benjamins, 1992.
Sevostianov, A., Fromm S., Nechaev V., Horwitz B, Braun A., Effect of attention on
central auditory processing: an fMRI study, pp. 587-590, 2002.
Shinn-Cunningham B., Wang D., Influences of auditory object formation on phonemic
restoration, 2007.
Shokey-Reddy, Quantitative analysis of speech perception: results from trascription of
connect speech froom unfamiliar languages, Paper presented at the Speech com-
munication seminar, Stoccolma, 1974.
Sorianello P., Prosodia, Carocci Editore, 2006.
Soundararajan S. De Liang W., A schema-based model for phonemic restoration, 2005
Stanley Smith Stevens, Handbook of experimental psychology, New York [usw.], Wiley,
1956.
SubCommittee, Voice Identification and Acoustic Analysis, in Atti del VCS 373-9, 1991.
SueliAparecidaCaporali, Cox and Mc Daniel, Measuring speech intelligibility in back-
ground noise by using psychophysical judgments in different groups, University of
San Paulo, 1984.
Svarvtik J., The Evans Statements: A Case for Forensic Linguistics, Almqvist&Wiksell,
Stockholm, 1968.
Tannen D., Repetition in conversation as spontaneous formulacity, in Text, 7(3), pp.
215-243, 1987.
Treccani, Enciclopedia dellitaliano, Tipografia Treccani, 2010 , treccani.it/vocabolario.
Trevisani D., Bercelli F. , Lanalisi della conversazione come strumento per capire e mi-
gliorare la negoziazione, in Trevisani D., Negoziazione interculturale. Comunicare
oltre le barriere culturali, Milano, FrancoAngeli, 2005.
Trubeckoj N.S., Fondamenti di Fonologia, Torino, Einaudi, 1971.
Trumper J., Una lingua nascosta, II ristampa, Rubbettino Editore, 1996.
Van den Stock J., Righart R., de Gelder B., Body expressions influence recognition of
emotions in the face and voice, Emotion 7:3, 487-494, 2007.
Vigan D., I sentieri della comunicazione: storia e teorie di, Rubbettino Editore, 2003.
Warren, Perceptual Restoration of missing speech sounds, 1970.
Weaver J.C. and Anderson R.J., Voice and personality interrelationships, The southern
Speech Communication Journal, 38, 262-278, 1973.
Wetter, J.G., The Styles of Appellate Judicial Opinions, A. W. Sythoff. Leyden, 1960.
Wheeler, D.D., Processes in word recognition, Cognitive Psychology 1 (1): 59-85, 1970.
Zipf G.K., HumanBehaviour and the Principle of Least-Effort, 1949.
Sitografia
http://psycnet.apa.org/index.cfm?fa=main.landing. Retrieved 2008-06-30.

http://www.highbeam.com/doc/1G1-182201807.html
http://www.iafpa.net/resolutions.htm
http://www.mymag.it/forum/viewtopic.php?f=18&t=28819&start=0

Manuale Di Linguistica Forense

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Manuale Di Linguistica Forense

Diunggah oleh

Hak Cipta:

Format Tersedia

5.

Aspetti tecnici sulle intercettazioni:

5.2. Cenni di Acustica: il suono e le sue caratteristiche

Figura 5.1 Rappresentazione grafica (oscillogramma) di unonda sinusoidale

I punti A, C, E, G ed I, rappresentano il punto di quiete o di riposo, mentre i punti

Figura 5.2 Esempio di smorzamento di unonda sonora

Lanalisi di un suono avviene pertanto sulla base di grafici che lo rappresentano. Pu

1. attacco (attack): lampiezza varia da zero al punto massimo;

Figura 5.4 Rappresentazione di uno spettro di potenza

Figura 5.5 Rappresentazione grafica di un sonogramma con in alto il relativo oscillo

5.3. Cenni di Fonetica Articolatoria ed Acustica: i suoni della parola

Per analogia, e per maggiore semplicit, si pu pensare allapparato fonatorio come

Durante la normale respirazione le pliche vocali restano separate e rilassate, mentre

5.4. Dallanalogico al digitale

Il passaggio da un sistema analogico ad uno digitale rappresenta una naturale con-

5.4.1. Conversione di un segnale da analogico a digitale (A/D) o viceversa

La conversione di un suono di tipo analogico in uno di tipo digitale (A/D) caratte-

Il campionamento rappresenta la discretizzazione del segnale analogico nel tempo (de-

La quantizzazione rappresenta la discretizzazione del segnale analogico nellam-

5.4.2. La codifica digitale del segnale audio

Il nome generico per il sistema di registrazione e di codifica digitale il Pulse Code

5.4.2.1. La compressione di segnali audio

Nel precedente paragrafo abbiamo menzionato il termine compressione: vediamo

mascheramento nel dominio della frequenza: si ha quando una frequenza debo-

Leffetto complessivo del mascheramento comporta quindi la non udibilit di molti

5.4.2.2. Il Formato audio

Possiamo poi operare una ulteriore suddivisione in:

formati ufficiali (standard): sono i pi importanti e dovrebbero essere

Il formato Mp3 correntemente usato in alcune applicazioni che dispongono di poche

Spesso e volentieri in sede di conferimento di incarico al perito viene consegnato un sup-

5.5.1. Registrazioni di tipo analogico

Le registrazioni di tipo analogico sono per lo pi conservate e archiviate su supporti

La musicassetta (o compact cassette), supporto di tipo analogico a nastro, fu in-

Allinterno di questo genere di supporto si ritrovano per lo pi registrazioni di collo-

5.5.1.4. Pregi e difetti dei supporti analogici/magnetici

5.5.2. Registrazioni di tipo digitale

Passando dalla registrazione di tipo magnetico alla registrazione di tipo digitale si

5.5.2.2. La Cassetta DAT DDS (Digital Data Storage)

Si tratta di un supporto identico a quello DAT precedentemente illustrato che nella

Si tratta di uno dei supporti di registrazione attualmente tra i pi diffusi. Il CDRom

Per le sue caratteristiche il Miniature Compact Disc, noto come MiniDisc72, un

5.5.2.5. Dischi ottici e supporti di memoria

Qui la tecnologia impiegata decisamente molto varia e ampia. Ci baster sapere

5.5.2.6. Pregi e difetti dei supporti digitali/ottici

5.6. Il problema delloriginale e della copia nel passaggio dallanalogico al digitale

Abbiamo sino ad ora trascurato ed omesso qualsiasi accenno alla manomissione di

Le modalit attraverso cui le conversazioni di interesse per gli inquirenti vengono

intercettazioni di telecomunicazioni (in gergo settoriale definite di tipo telefoni-

Esaminiamo di seguito le varie modalit di intercettazione nel dettaglio con le carat-

5.7.1. Intercettazione di telecomunicazioni

Lintercettazione di telecomunicazioni, o intercettazione telefonica, viene definita

5.7.1.1. Intercettazione telefonica su rete fissa

Lintercettazione telefonica pu avvenire secondo due modalit: ad iniziativa personale,

5.7.1.2. Intercettazione su rete mobile (Rete GSM)

Un dispositivo di comunicazione mobile, pi comunemente chiamato telefono cellulare,

5.7.2. Intercettazione tra presenti

Le intercettazioni di conversazioni tra presenti, comunemente note anche come am-

5.7.2.1. Intercettazioni ambientali su autovetture

In passato per lintercettazione di conversazioni tra presenti sulle autovetture veniva

Un discorso a parte meritano, invece, le intercettazioni dei colloqui in carcere tra

Anche in questo caso, prima di iniziare qualsiasi discussione ed esposizione riguardo

5.8.1. Nozioni teoriche sui filtri

a. se il filtro trasmette solo le armoniche aventi frequenza inferiore alla frequenza