Anda di halaman 1dari 61

Universit

degli Studi Roma Tre


Dipartimento di Ingegneria
Corso di Laurea di Ingegneria Informatica
Curriculum Sistemi Informatici

Analisi e progettazione di
un IVR innovativo e omnicanale



Laureando

Gianluca Colaiacomo

Relatore

Prof. Francesco Benedetto

Correlatore

Ing. Pierluigi Pace

Indice
Premessa

1 Il Call Center
1.1 Caratteristiche di un Call Center
1.2 Da Call Center a Contact Center

7
9
10

2 Analisi dellInteractive Voice Response (IVR) tradizionale


2.1 Cenni storici
2.2 Stato dellarte
2.3 Scenari di utilizzo
2.4 Panoramica di mercato

13
14
15
17
19

3 Scenari innovativi per la gestione automatica delle


interazioni via IVR
3.1 Il riconoscimento vocale
3.1.1 LASR
3.1.2 Il passaggio da ASR a NLU
3.1.3 Prodotti di mercato
3.2 La Speech Synthesis
3.2.1 Prodotti di mercato
3.3 Speaker verification
3.3.1 Prodotti di mercato
3.4 Emotion Detection
3.4.1 Prodotti di mercato
3.5 Visual IVR
3.5.1 Prodotti di mercato

23
24
24
26
27
29
30
32
37
38
40
41
45

4 VoiceXML
47
4.1 Lutilizzo del VXML per la comunicazione tra le tecnologie 49
5 Analisi e progettazione di un IVR omnicanale secondo le
nuove tecnologie
5.1 Da multicanalit a omnicanalit
5.2 Schema a blocchi Sistema IVR
5.3 Creazione dellalbero di navigazione

51
51
52
53

6 Conclusioni

57


Indice Figure

Figura 1 - Scenario di un IVR tradizionale

13

Figura 2 - Struttura di un sistema ASR

25

Figura 3 - Front-end e Back-end di un sistema TTS

29

Figura 4 - Funzionamento Speaker Verification

33

Figura 5 - Grafico soglia autenticazione

34

Figura 6 - Risultato SVM, iperpiano e margine massimo

40

Figura 7 - Esempio di un Visual IVR di un'agenzia di viaggi

41

Figura 8 - Integrazione di un Visual IVR

42

Figura 9 - Architettura basata sullo standard VoiceXML

47

Figura 10 - Piattaforma di un sistema VXML

49

Figura 11 - Schema a blocchi IVR omnicanale



52

Premessa
Questa tesi stata redatta durante un periodo di stage presso
lazienda Accenture Tecnhology Solutions, una societ del gruppo
Accenture, composta da oltre 57.000 specialisti di Information Technology
specializzata nellintegrazione di sistemi e nella consulenza direzionale
nellambito dei progetti che lazienda segue in area Call Center per grandi
imprese.

Durante il periodo dello stage sono stato inserito in un team che si
occupa della gestione di applicazioni per la creazione di alberi di
navigazione IVR e dello studio delle possibili tecnologie innovative
implementabili nel Call Center di una grande azienda italiana di
telecomunicazioni.

Questa grande azienda di telecomunicazioni ha richiesto uno studio di
fattibilit per quanto riguarda limplementazione di nuove tecnologie
mirate alla realizzazione di un sistema IVR sempre pi automatizzato e
accogliente per il cliente chiamante.

Tramite il risultato di questo studio di fattibilit, siamo arrivati
allanalisi e alla progettazione di un IVR innovativo e omnicanale. In poche
parole, si parla di un IVR ai limiti della perfezione.

La tesi intende ripercorrere il lavoro svolto durante questi tre mesi di
stage presso lazienda attraverso lo studio riguardante il mondo dei Call
Center e i loro sistemi IVR, partendo dal concetto di Call Center in
generale e arrivando allo studio dettagliato di ogni tecnologia innovativa
implementabile in un sistema vero e proprio.

Il primo capitolo lintroduzione al mondo dei Call Center: vengono
descritte le tecnologie e i sistemi integrati al loro interno e il
funzionamento vero e proprio, passando per le caratteristiche fisiche e dei
servizi che offre. Infine, viene trattato anche il passaggio dal Call Center al
Contact Center.

Il secondo capitolo riguarda lanalisi dellIVR tradizionale, ovvero
quello che troviamo nel mercato attuale. Descrive la nascita dellIVR, dove
e come nato, per passare allo stato dellarte del sistema attuale.
Verranno esaminati anche gli scenari di utilizzo attuali di un sistema
tradizionale e i vari prodotti di mercato dei principali vendor.

Il terzo capitolo si concentra sullo studio e lanalisi delle nuove


tecnologie delle interazioni via IVR. Vengono descritte le tecnologie di
riconoscimento vocale, Speech Synthesis, Speaker Verification, Emotion
Detection e Visual IVR. Per ogni tecnologia vengono descritti anche i
principali prodotti di mercato reperibili attualmente.

Il quarto capitolo un approfondimento sul linguaggio VXML, il
linguaggio principale per quanto riguarda la creazione di applicazioni
vocali e la comunicazione tra le varie tecnologie allinterno di un sistema
IVR. Necessario questo approfondimento anche per quanto riguarda
lintegrazione dei Visual IVR negli attuali sistemi tradizionali.

Il quinto capitolo intende ripercorrere il lavoro svolto durante il
tirocinio e quindi lanalisi e la progettazione di un sistema IVR innovativo e
omnicanale. Il primo paragrafo riguarda lanalisi dellevoluzione
dellassistenza clienti e il passaggio da multicanalit a omnicanalit. Il
secondo paragrafo espone come potrebbe essere questo sistema IVR
attraverso lo schema a blocchi di tutte le tecnologie che implementa. Il
capitolo conclude con la creazione degli alberi di navigazione per quanto
riguarda sia le chiamate ricevute da un ipotetico Call Center che quelle
effettuate.

Il sesto, e ultimo capitolo, espone tutte le conclusioni ricavate dallo
studio di questa tesi partendo dallo studio di fattibilit di ogni tecnologia
per arrivare al sistema omnicanale completo che viene analizzato e
progettato.

1 Il Call Center
Le imprese dei Call Center sono nate partendo da settori diversi
allinterno di grandi imprese. A un certo momento la committenza decise
che questa attivit, veniva svolta con pochissima flessibilit.

Alcuni gestori, specialmente della telefonia, decisero di avviare la
prima esternalizzazione dei servizi dando cos il via al Call Center in
outsourcing. Il primo periodo stato di crescita selvaggia con grande
flessibilit.

Negli anni 80 lincremento delle comunicazioni telefoniche e delle
innovazioni tecnologiche hanno provocato un aumento del traffico verso
numeri dedicati. Il centralino subisce perci unevoluzione verso la
distribuzione automatica delle telefonate e viene adottata la soluzione
tecnologica Automatic Call Distribution (ACD).

LAutomatic Call Distribution (ACD) un sistema che permette di
creare delle file dattesa dando priorit diverse alle telefonate. Questo
strumento per un Call Center il responsabile della distribuzione delle
chiamate, in altre parole il vero centralino. LACD permette la
distribuzione del carico di traffico telefonico mediante algoritmi che
tengono conto dei tempi medi di conversazione, di attesa, del numero di
operatori disponibili e dellevolversi della situazione nel tempo. Lutilit di
questo strumento si esprime principalmente nelle attivit inbound in cui il
traffico di chiamate in arrivo il punto critico per il mantenimento della
qualit del servizio. I sistemi ACD sono degli ottimizzatori per la ricezione
di un grande numero di chiamate telefoniche e distribuiscono le chiamate
ai posti operatore con il criterio di primo operatore libero,
indipendentemente dalle sue conoscenze e capacit comunicative.
Loperatore non ha la possibilit di decidere autonomamente se accettare
o no la chiamata, ma costretto a rispondere sempre.

Allinizio degli anni 90 levoluzione della tecnologia informatica e la
sua integrazione con le telecomunicazioni ha permesso di dotare i Call
Center del Computer Telephony Integration (CTI), ovvero un sistema che
non solo consente il passaggio di informazioni tra utente e operatore, ma
mette a disposizione di questultimo una banca dati con tutte le
informazioni necessarie per fornire risposte adeguate al cliente.

La Computer telephony integration (CTI) consente di integrare le


prestazioni del computer con quelle del telefono. Questo strumento
permette la gestione delle operazioni dopo che le chiamate sono state
trasferite dallACD al primo operatore libero. Questo, senza utilizzare
materiale cartaceo, opera con un personal computer dal quale rileva la
scheda del cliente e le informazioni relative alla sua posizione. La CTI
consente sia di fornire linformazione pi adeguata, sia di conciliare
obiettivi, anche in contrasto tra loro, come servizio pi personalizzato,
maggior fatturato, produttivit pi elevata e minori costi.

Il Call Center si trasforma cos in un nodo di comunicazione che
permette durante la conversazione di accedere a informazioni che
consentano di fornire assistenza completa allutente. Loperatore del nodo
di comunicazione dovr possedere capacit di integrazione sociale che gli
consentano di fronteggiare gli imprevisti, dal momento che non conosce i
contenuti delle telefonate e delle situazioni che si trover a gestire.

Loperatore deve, inoltre, essere in grado di sfruttare, manipolare e
condividere con altri le conoscenze in suo possesso, al fine di agevolarne
la divulgazione. In questo contesto, cambia anche la postazione fisica di
lavoro grazie allintroduzione di tecnologie che facilitano lo scambio
comunicativo con i colleghi. Siccome gli operatori sono isolati gli uni dagli
altri, dialogano virtualmente caricando i dati negli archivi. Le competenze
richieste cambiano.

Con lavvento dei software CTI, il Call Center perde la funzione
esclusiva di centro destinato ai reclami, ma diventa anche centro di
prevendita e, pi in generale, centro di assistenza e cura del cliente
finalizzato alla sua fidelizzazione e allorientamento di acquisti e consumi.

Alla fine degli anni 90 inizia unulteriore evoluzione della struttura
finora descritta, che si modifica mutando da Call Center a Contact center,
configurandosi come un sistema complesso di interazioni personalizzate
che ha come obiettivo la cura del cliente e la sua fidelizzazione. Si assiste a
una modifica degli obiettivi strategici del Call Center: da centro di costo ed
efficienza nella gestione del cliente si trasforma in nodo di vendita .

Le aziende crescono in questo periodo a ritmo esponenziale. Per
rendere pi efficace e personalizzata la relazione con il cliente, il Contact
Center si avvale ora delle tecnologie ACD e CTI che combinate con
Interactive Voice Response (IVR), e con altri strumenti di comunicazione

basati sul Web, permettono prestazioni pi avanzate per gli operatori e


vantaggi sostanziali per i client.

1.1 Caratteristiche di un Call Center


Con il termine Call Center si intende unorganizzazione che svolge,
allinterno o allesterno di aziende ed enti, servizi specializzati di
interazione mediante telefono con clienti e/o utenti (customer care) in
modo strutturato. costituito da un insieme di dispositivi, sistemi
informatici e risorse umane atti a gestire le chiamate telefoniche da e
verso unazienda.

Si possono identificare diverse tipologie di Call Center, caratterizzate
da differenti modelli di organizzazione del lavoro e di utilizzo della
flessibilit che influiscono sulle condizioni di lavoro.

Una prima classificazione viene effettuata in rapporto al
posizionamento societario:
In house: quando il Call Center interno allazienda.
Outsourcing: di grandi e di piccole dimensioni quando il servizio di
Call Center svolto allesterno.

Una seconda classificazione fatta in base alla modalit di
erogazione dei servizi che possono essere suddivisi in:

Servizi inbound: sono servizi erogati al momento della ricezione delle
chiamate in ingresso provenienti da clienti o potenziali acquirenti.
Rientrano in questultima categoria:
Servizi di Customer Care
Servizi di help desk tecnico
Servizi dacquisizione di ordini.

Servizi outbound: servizi outbound sono servizi erogati attraverso
leffettuazione di chiamate telefoniche dal Call Center verso lesterno,
dirette a specifici target di clienti. I principali servizi erogati sono:
Servizi di telemarketing e televendita
Customer satisfaction
Qualificazione di database
Invito ad eventi.

Il Call Center costituisce per le aziende un elemento di differenziazione


nei confronti della concorrenza; uno dei luoghi pi tipici del mercato del
lavoro moderno costituendo un nuovo canale distributivo, ma anche, e
soprattutto, uno strumento per aumentare il livello di qualit del servizio.
lo snodo delle informazioni che transitano dal cliente verso il marketing
e le altre funzioni aziendali.

1.2 Da Call Center a Contact Center


Un Contact Center un punto centrale in unimpresa nel quale
vengono gestisti tutti i contatti dei clienti. Esso comprende, in genere, uno
o pi Call Center online, ma pu comprendere altri tipi di contatto con i
clienti tra cui e-mail, newsletter, cataloghi per corrispondenza postale,
social networks, web chat e la raccolta di informazioni dai clienti durante
l'acquisto in un negozio online.
Cominciando con il cliente, la differenza pi evidente tra un Call
Center e un Contact Center la differenza delle possibili modalit di
contatto. In aggiunta alle telefonate dei tradizionali Call Center, i Contact
Center multimediali basati su rete-IP permettono ai clienti di contattare i
centri di assistenza attraverso nuovi canali tra cui personal computer,
palmari wireless e telefoni cellulari, aggiungendo quindi la possibilit di
utilizzare e-mail, social network, chat di testo, fax e chiamate VoIP.
Le chiamate telefoniche tradizionali sono supportate ovviamente
anche dal Contact Center multimediale. Le chiamate in entrata vengono
instradate tramite un gateway di telefonia IP che converte il circuito di
commutazione PSTN (rete fissa) in IP. Il Gateway di telefonia IP gestisce
anche i tradizionali centri front-end di chiamata come voicemail e IVR. Per
un chiamante, il passaggio alla rete digitale assolutamente trasparente.

Il server di posta elettronica gestisce sia i dati fax che le e-mail in
ingresso. Proprio le-mail, l'applicazione Internet pi utilizzata, sta
guidando molte aziende verso il passaggio al Contact Center.
Il server di interazione Web include la logica per gestire le diverse
funzioni di chat di testo, contatti VoIP in entrata, cos come le applicazioni
web interattive che permettono agli agenti di indirizzare I clienti con I
quali stanno parlando verso le pagine Web interessate.


10

Come nel caso dei Call Center, il server ACD l'elemento centrale
del Contact Center. Il ruolo dell ACD molto pi coinvolto di quanto lo sia
nei Call Center. Esso deve gestire non solo le telefonate, ma anche una
vasta gamma di media in entrata con diverse code e regole di priorit. Una
volta che il gestore di posta emana una risposta automatica, une-mail
potrebbe avere una finestra di 24 ore per la risposta; un sessione di chat
di testo potrebbe richiedere attenzione entro 30 secondi; una chiamata
VoIP in arrivo potrebbe richiedere la stessa attenzione immediata, come le
chiamate PSTN arrivano tramite il gateway e la rete aziendale.
Un elemento di particolare importanza nel diagramma l'agente
remoto (Remote Agent), collegato direttamente alla rete IP. Questo
agente solitario rappresenta uno sviluppo molto importante nel settore
dei servizi al cliente: poich tutte le comunicazioni di un Contact Center
vengono trattate su rete IP, gli agenti possono lavorare da ovunque
abbiano una connessione internet ragionevole ed una cuffia;
potenzialmente un beneficio per la fidelizzazione dei dipendenti in un
settore con un elevato turnover come nel caso dei Contact Center.
Dal punto di vista dell'agente, ci sono poche differenze a livello di
interfaccia. I progressi della CTI hanno portato i moderni Call Center al
punto in cui , se non di fatto, il telefono e il computer sembrano essere
tecnologie unificate. Il server ACD deve comunicare con sistemi Customer
Relationship Manager (CRM) per recuperare set di dati dei clienti.
Piuttosto che usare le risposte IVR per identificare i clienti e le loro
intenzioni, tuttavia, i canali multimediali abilitati per il web tentano di
capire le intenzioni di un chiamante in base a fattori quali il contenuto del
carrello della spesa (web), i modelli di utilizzo che l'utente ha visualizzato
nel sito e la pagina da cui l'utente sta avviando contatti con il servizio
clienti.

11

2 Analisi dellInteractive
tradizionale

Voice

Response

(IVR)

Nella storia dei Call Center l'esigenza di utilizzare messaggi vocali


nasce presto; da qui l'evoluzione che porta ai moderni IVR.
Il crescente utilizzo dei dispositivi mobili, le esigenze sempre pi precise
degli utenti e la necessit delle aziende di fornire servizi a costi
ragionevoli, hanno portato allo sviluppo di nuove interfacce vocali e
visuali.
Lacronimo IVR significa Interactive Voice Response, ossia risposta
vocale interattiva. Come possiamo vedere nella figura sottostante, un
sistema IVR base comunica con un utente attraverso i tasti di un telefono
(DTMF) e, a seconda dellinput ricevuto, svolge diverse operazioni.


Figura 1 - Scenario di un IVR tradizionale

LIVR, quindi, il sistema che fornisce, attraverso la telefonia, delle


funzionalit self-service recuperando in anticipo i dati identificativi del
cliente, riducendo il carico delle chiamate gestite dagli operatori e i tempi
necessari allinstradamento della chiamata. Inoltre, attraverso alcune
istruzioni vocali guida il cliente allottenimento di una serie di informazioni
registrate.

Queste funzionalit vengono rappresentate tramite nodi di un albero
di navigazione. LIVR crea un vero e proprio percorso percorribile dal
cliente attraverso la selezione di diverse opzioni disponibili recitate
durante la chiamata al call center.

13


La creazione dellalbero laspetto fondamentale per quanto
riguarda la customer experience. Creare un albero facilmente percorribile
e senza il rischio di rimanere bloccati in determinati settori, far si che il
cliente riuscir a trovare tutte le risposte che cerca o contattare
direttamente un operatore.

Il sistema IVR adattabile a tutti i tipi di Call Center, sia inbound che
outbound. Nei primi, lalbero di navigazione verr creato partendo da una
chiamata ricevuta e fornendo al cliente i servizi per i quali ha chiamato. La
seconda invece creer un albero che contatter il cliente principalmente
per operazioni di pubblicit, di valutazione dellesperienza che ha avuto
con il sistema stesso, ecc.

2.1 Cenni storici


La ricerca nelle tecnologie vocali precedette lavvento dei computer
digitali. Questa ricerca inizi presso il Bell Labs nel 1936 che produsse un
dispositivo chiamato the Voder, presentato nel 1939 alla Worlds Fair.

Dopo molti anni, precisamente nel 1961, il Bell System progett un
nuovo metodo di comunicazione basato su toni vocali, detto DTMF (DualTone Multi-Frequency), che permise ai telefoni che implementavano
questa tecnologia di trasmettere toni udibili nella stessa frequenza
occupata dalla voce umana. Ed proprio qui che nacque il progetto IVR.

Nonostante l'aumento della diffusione della tecnologia IVR negli anni
70 per automatizzare le attivit di Call Center, la tecnologia era ancora
molto complessa e costosa. I primi sistemi di risposta vocale furono basati
sulla tecnologia DSP (Digital Signal Processor), limitati a piccoli vocabolari.

Tuttavia, nei primi anni 80 un primo concorrente nel mercato
emerse quando Leon Ferber (Perception Technology) si rese conto che la
tecnologia del disco rigido (lettura/scrittura ad accesso casuale ai dati
vocali digitalizzati) aveva finalmente raggiunto un costo adeguato, quindi
un sistema avrebbe potuto memorizzare i discorsi digitalizzati sul disco,
riprodurre il messaggio appropriato ed elaborare la risposta dellutente
tramite il DTMF.

Come i Call Center cominciarono a migrare alla multimedialit alla
fine degli anni 90, le aziende iniziarono a investire nella tecnologia CTI con
i sistemi IVR.

14

LIVR divenne di vitale importanza per i Call Center che


implementarono soluzioni di routing universale per lo sviluppo del routing
intelligente, ovvero tramite il rilevamento di informazioni utili sul cliente
chiamante.

Iniziarono quindi i primi sviluppi di applicazioni per il riconoscimento
vocale in modo da sostituire la risposta tramite tastiera, ma non fu cos
semplice e la loro piena implementazione impieg molto tempo.

Nel decennio successivo, i sistemi IVR hanno iniziato a diventare pi
comuni grazie allabbassamento dei costi per limplementazione. Ci fu
dovuto alla maggiore potenza delle CPU di quel tempo e alla migrazione
delle applicazioni vocali dal codice proprietario allo standard VXML.

Vedremo nei capitoli successivi come dalla sola comunicazione
attraverso la tastiera o attraverso il riconoscimento vocale poco
sviluppato, si potuti passare a sistemi evoluti che rendono lesperienza
automatizza pi naturale possibile.

2.2 Stato dellarte


Lintegrazione con sistemi di riconoscimento e sintesi vocali rende
oggi possibile limplementazione di sistemi efficienti e a costi sempre pi
contenuti. I progressi tecnologici, in particolare in termini di interfacce
vocali pi efficienti, hanno portato ad una sempre maggiore diffusione
degli IVR: le innovazioni nel campo delle scienze informatiche, unite alla
disponibilit di elevate potenze di calcolo a costi decisamente ragionevoli,
consentono oggi di mettere a disposizione dellutente sistemi che sono
capaci di sostituirsi sotto molti aspetti allinterazione con un operatore
reale.

Gli sforzi che i produttori di sistemi IVR oggi compiono sono pi che
altro diretti verso una migliore resa dellimpatto che lutente ha con essi: i
sistemi di sintesi vocale vengono progettati per conferire un maggior
grado di umanit alla voce sintetizzata (possono anche essere conferite
delle emozioni al parlato sintetizzato) e i motori di riconoscimento vocale
consentono di garantire uninterazione quanto pi naturale possibile.

Levoluzione nel campo degli IVR sta subendo un rapido e continuo
sviluppo: ne testimonianza il fatto che il W3C ha prodotto degli standard
destinati alla gestione automatica del flusso delle telefonate e allutilizzo

15

delle interfacce vocali. Ci sono tuttavia diverse cause che ne limitano la


diffusione.

Andiamo adesso ad analizzare pi in dettaglio quali sono gli elementi
che deve possedere unarchitettura destinata alla fornitura di servizi
automatici via telefono. Tralasciamo per il momento gli aspetti legati ad
uninterazione di tipo testuale col sistema (ovvero tramite SMS o e-mail),
in quanto le difficolt maggiori da affrontare si hanno nellinterazione
vocale.

Per unagevole interazione tra luomo e la macchina, richiesta
limplementazione di opportune modalit di presentazione e interazione
vocali, denominati Voice User Interface (VUI).

Nei sistemi IVR opportuno ricorrere, ove possibile, allutilizzo di
input quali i toni DTMF, che minimizzano il rischio di errore. Tuttavia in
molte applicazioni lutilizzo delle VUI diventa assolutamente
indispensabile. Ricordiamo che un sistema IVR con caratteristiche evolute
dovr garantire la possibilit di interagire con risorse quali basi di dati e
applicazioni. Linteroperabilit con servizi quali posta elettronica ed SMS
costituisce inoltre una fonte di valore aggiunto per i servizi che si possono
fornire.

La Voice User Interface

Una Voice User Interface lo strumento attraverso il quale un
sistema di sintesi e riconoscimento del parlato pu interagire con un
utente, nello stesso modo in cui, quotidianamente, una persona comunica
con altre persone.

Il riconoscimento delle parole e dei comandi pu in un certo senso
essere associato al link delle tradizionali applicazioni Web. Come quando
si clicca su un link o su un pulsante, il browser porta ad unaltra pagina o
compie una determinata operazione, cos quando un comando vocale
viene riconosciuto dal sistema, viene presentata allutente linformazione
associata o viene svolta una determinata operazione.

Tuttavia le problematiche da affrontare nella realizzazione di servizi
IVR e quindi nellimplementazione di VUI efficienti sono ben diverse
rispetto a quelle che riguardano, ad esempio, la progettazione delle
interfacce grafiche GUI delle applicazioni.

16

Laspetto pi critico di una VUI difatti la user experience, ovvero


limpatto dellutente col sistema. Quando si parla a qualcuno per la prima
volta ci si aspetta che linterlocutore comprenda ci che gli viene detto.
Per ogni persona alla quale si rivolge la parola, non necessario un
training su cosa dire, quando parlare o quando stare in ascolto, ma
semplicemente si assume di dialogare con una persona che utilizza lo
stesso linguaggio e nello stesso modo.

Questi processi comunicativi fanno parte naturalmente di tutti i
linguaggi e di tutte le culture. Se gli attori di un dialogo seguono queste
regole implicite della comunicazione verbale, allora ogni persona pu
facilmente comunicare con unaltra.

Una buona VUI dovrebbe quindi seguire queste regole comunicative
di base, rendendo ovviamente la tecnologia trasparente allutente e
creando uninterazione tra la voce e i dati il pi possibile naturale e vicino
al dialogo quotidiano. Scendendo adesso nei dettagli implementativi,
affinch lutente possa interloquire con un sistema IVR, si rende
necessario limpiego di motori di sintesi e riconoscimento vocale.

2.3 Scenari di utilizzo


Ai giorni doggi chiunque ha avuto a che fare con un sistema IVR , in
quanto sono largamente utilizzati dalla maggior parte delle aziende per i
propri Call Center e/o centri servizi.

I server IVR interagiscono in vario modo con le risorse di sistema
locali e remote accedendo ai filesystem, ai database e alle rete, quindi
possono facilmente integrarsi in strutture e sistemi preesistenti o far parte
di architetture di server distribuiti.

I servizi realizzabili con i sistemi IVR sono molteplici, eccone qui
alcuni esempi:

Segreteria telefonica: la segreteria telefonica un servizio
telefonico di base, in genere offerto da sistemi pi semplici ed
economici rispetto ad i sistemi IVR; la realizzazione di una segreteria
telefonica con un sistema IVR offre infinite possibilit di
personalizzazione.

17

Informazioni on line: i sistemi IVR sono in grado di gestire


informazioni dinamiche che cambiamo di giorno in giorno o di ora in
ora, questo permette la creazione di servizi telefonici informativi, ad
esempio l'andamento della borsa e dei suoi titoli, le ultime notizie di
cronaca, le previsioni meteo, le offerte del giorno in supermercati o
catene di negozi, ecc.

Catalogo on line: i sistemi IVR si possono facilmente interfacciare a
database o altre banche dati (locali o su web), quindi si possono
facilmente creare servizi di catalogo in cui, attraverso una
navigazione basata su categorie, costi o ultimi arrivi, l'utente in
grado di ottenere le informazioni che desidera.

Servizio prenotazioni/acquisto: l'accesso a database e altre banche
dati dinamiche permette ai sistemi IVR di offrire servizi di
prenotazione o acquisto di beni e servizi, per esempio la
prenotazione di un posto al cinema, di un film in videoteca oppure
l'acquisto di prodotti dopo aver consultato un catalogo cartaceo o
telefonico (magari con pagamento con carte di credito o altre forme
diverse dal contante).

Servizi a pagamento: con le numerazioni a pagamento i sistemi IVR
possono realizzare servizi telefonici che includono anche il
pagamento da parte dell'utente, quindi possibile vendere beni e
servizi direttamente attraverso le linee telefoniche; in questo modo
i servizi di catalogo online e di prenotazione possono essere
completati e comprendere anche il pagamento per il servizio stesso.

Notifica eventi: i sistemi telefonici sono bidirezionali: possono sia
ricevere telefonate che farne (in modo automatico e programmato),
quindi con i sistemi IVR possibile notificare con delle chiamate in
uscita determinati eventi.




18

2.4 Panoramica di mercato


Sempre pi spesso, i sistemi IVR delle imprese vengono inclusi in una
pi ampia strategia di assistenza clienti self-service o assistita. Di
conseguenza, lintegrazione dei sistemi IVR con la vasta suite di servizio
clienti diventa sempre pi critica per le varie aziende.

Anche se il mercato dellIVR ben sviluppato, continua ad evolversi
e a crescere. LIVR self-service, rimane un pilastro centrale nella maggior
parte delle operazioni di assistenza clienti.

Nonostante levoluzione dei mezzi di comunicazione continua a fare
passi da gigante, il telefono rimane il metodo di contatto preferito per la
maggior parte dei clienti. Come risultato, i progettisti dei contact center
cercano di offrire il servizio di assistenza telefonica alla pi alta qualit
possibile, pur mantenendo sottocchio i costi.

Nel corso degli ultimi dieci anni, molti contact center hanno
concentrato i loro investimenti sui mezzi di innovazione pi innovativi, tra
cui Web-self-service (chat ed email), social media (Twitter e Facebook) e
applicazioni mobili. Senza mai abbandonare per il principale mezzo di
comunicazione per lassistenza clienti: il telefono.

I fattori chiave che incidono sul mercato dellIVR sono:

Costi e controllo di qualit - Nonostante gli investimenti in altri
mezzi di comunicazione, la mole di telefonate nella maggior parte
delle operazioni di assistenza clienti rimane alta. La soddisfazione
del cliente dipende spesso dalla qualit che hanno i servizi offerti e
nel tenere sotto controllo i costi e il controllo di qualit, gli
investimenti per il self-service rappresentano un fattore chiave.

Accettazione tecnologie vocali - i dispositivi mobili che incorporano
applicazioni di assistenti virtuali basate sul riconoscimento vocale
hanno aumentato l'accettazione generale della tecnologia stessa.
Queste soluzioni includono Apple Siri, Microsoft Cortana e Google
Now.

La tecnologia vocale avanzata per il linguaggio naturale - La
tecnologia per l'integrazione vocale nelle applicazioni mobile

19

continua a migliorare rapidamente. Questa tecnologia talvolta


indicato come "self-service conversazionale".

Riconoscimento vocale - L'uso del riconoscimento vocale consente
tassi di corretto riconoscimento pi alti, migliorando notevolmente
soddisfazione del cliente.

OmniChannel1 self-service - Storicamente, i contact center hanno


sostenuto ogni canale (di vendita, comunicazione, ecc.)
separatamente con poca o nessuna integrazione. Questo approccio
isolato rispetto agli altri spesso chiamato servizio MultiChannel.
Con OmniChannel self-service, vari canali possono essere integrati
in un'unica esperienza utente. Ad esempio, un cliente potrebbe
chiamare per verificare il proprio saldo del conto, per poi chiedere
che le informazioni vengano inviate al suo cellulare tramite un SMS.


Self-service integrato e servizio assistito La differenza tra il self
service e lassistenza assistita tramite operatore sta piano piano
svanendo grazie alla continua evoluzione dellintegrazione del selfservice. Per esempio, gli utenti su un sito web che sembrano avere
problemi possono essere indirizzati da un operatore in una
sessione di chat, per poi chiedere se hanno bisogno di assistenza.
Un utente pu credere di interagire con una operatore in carne ed
ossa, quando la prima serie di interazioni con un sistema
automatizzato che supporta il riconoscimento vocale. Allo stesso
modo, una sessione di chat pu essere avviata con un chatbot2, per
poi passare il caso a un operatore vero e proprio.

Analisi e business intelligence (BI) Lanalisi sta giocando un ruolo
sempre pi importante nellassistenza clienti in generale, cos come
all'interno del self-service, consentendo una migliore
corrispondenza e personalizzazione dei servizi. Questi strumenti
migliorano anche l'analisi e la visualizzazione dei dati e delle
tendenze. Le soluzioni attuali possono comprendere operazioni real
time, cos come lanalisi e lindicizzazione dei discorsi memorizzati.

1
Il modello OmniChannel, che si sta globalmente affermando come evoluzione del Multichannel, pu
essere rappresentato, invece, come una foce a delta: gli infiniti e intricati rami rappresentano molteplici
canali di vendita che i prodotti e i servizi scelgono quasi randomicamente per raggiungere il mercato dei
2

I chatbot sono dei programmi che simulano una conversazione tra robot e essere umano. Questi
programmi funzionano o come utenti stessi delle chat o come persone che rispondono alle FAQ (frequent
asked question) delle persone che accedono al sito.

20

Vendor Principali

Aspect Software
Societ privata che ha sede principale in Chelmsford, MA (USA).
Famosa soprattutto per le sue soluzioni rivolte al mondo dei contact
center, ha realizzato il sistema IVR di nome CXP Pro. CXP sta per Customer
Experience Platform, che prevede la creazione operazioni self-service e
incorpora la piattaforma Advanced Voice Portal (AVP) per la gestione e la
creazione di applicazioni in VXML. CXP Pro pu essere utilizzato sia in
locale che attraverso il cloud di Aspect, cos come attraverso i partner
Aspect che lo hanno implementato come un servizio.

Avaya
Societ privata con sede a Santa Clara, CA (USA), Avaya conosciuta
soprattutto per le sue soluzioni di Unified Communications (UC) e di
contact center. Avaya Aura Experience Portal offre una vasta gamma di
applicazioni self-service e di routing omnichannel. Le funzionalit
comprendono il supporto per le applicazioni attraverso la voce, i servizi
Web, il video, e-mail, SMS e mobile, cos come le applicazioni outbound.
LAvaya Aura Orchestration Designer un ambiente di sviluppo
basato su Eclipse per la creazione di operazioni self-service multicanale e
per la gestione del flusso di lavoro degli operatori. Queste operazioni
saranno disponibili per i sistemi IVR che vende come per esempio
Experience Portal, un sistema IVR basato sulla NES (Nortel Enterprise
Solutions).

Cisco
Cisco leader mondiale nelle tecnologie che trasformano il modo
con cui le persone si connettono, comunicano e collaborano, attraverso
reti intelligenti e architetture che integrano prodotti, servizi e piattaforme
software. Lazienda, fondata nel 1994, ha sede a San Jos California ed
impiega in tutto il mondo circa 70.000 dipendenti.

Genesys
Genesys una societ privata con sede a Daly City, CA (USA).
Genesys ha uffici a livello mondiale ed uno dei principali fornitori di
soluzioni globali per quanto riguarda il contact center. Per quanto riguarda
lIVR, Genesys Voice Platform (GVP) offre tutte le soluzioni per rispondere
alle esigenze di qualsiasi impresa, piccola e grande, e pu essere locale,
ibrido o cloud. Il Genesys CX Builder (in esecuzione su GVP) uno
strumento semplice per la rapida creazione e la distribuzione di

21

applicazioni IVR destinate alle piccole e medie imprese ed offerto solo


come una soluzione cloud. GVP pu operare in modo indipendente o
essere integrato nel pi ampio Genesys Business Edition.

Nuance Communications
Nuance Communications una multinazionale statunitense di
sviluppo software, con sede a Burlington, sobborgo di Boston,
Massachusetts. Lazienda sviluppa tecnologie vocali e applicazioni di
digitalizzazione. Nuance sviluppa diversi prodotti tra cui: sistemi di
riconoscimento vocale integrati, soluzioni per lassistenza dei clienti,
biometria vocale, sistemi di digitalizzazione e conversione di file, sistemi di
gestione documentale. Da pochi anni ha iniziato a fornire soluzioni che
riguardano anche i sistemi IVR completi, come ad esempio il
Conversational IVR, un sistema conversazionale basato su tutte le
tecnologie vocali che fornisce e che rendono lesperienza del cliente
automatizzata, ma pi naturale possibile.



22

3 Scenari innovativi per la gestione automatica delle


interazioni via IVR
Uno degli obiettivi principali che devono essere raggiunti durante la
creazione di un sistema IVR funzionale quello di evitare lo Zero-Out. Lo
Zero-Out non altro che la situazione che si crea quando un cliente non
riesce a trovare quello che cerca e quindi vuole a tutti costi parlare con un
operatore. Si chiama cos perch come se spingesse il tasto 0, ovvero
nessuna opzione disponibile tra tutte quelle recitate.

Grazie alle nuove tecnologie che migliorano sempre di pi
linterazione via IVR automatizzata, i moderni sistemi offrono moltissime
possibilit di successo per ogni chiamata gestita dal sistema IVR.

Come vedremo in questo capitolo, negli ultimi anni, le aziende che
devono organizzare un sistema di Call Center automatizzato cercano di
implementare le nuove tecnologie che riguardano il riconoscimento
vocale, la sintesi vocale con voci sempre pi naturali, lautenticazione
tramite la voce, la rilevazione di emozioni e la creazione di un servizio IVR
visuale.

Limplementazione di ogni tecnologia, essendo lo studio molto
avanzato, comporta sicuramente un miglioramento per quanto riguarda
lesperienza del cliente. Non subir contraccolpi il grado di accettazione
del sistema IVR, in quanto ogni tecnologia viene implementata in modo
tale da non interferire con lesperienza del cliente.

Le nuove tecnologie che vedremo in questo capitolo sono:
riconoscimento vocale, da ASR a NLU;

la Speech Synthesis, il miglioramento delle voci;

la Speaker Verification, autenticazione vocale;

lEmotion Detection, rilevazione emozioni;

il Visual IVR.

Per ogni tecnologia verr illustrato il proprio funzionamento, i vantaggi
che comporta , gli scenari di utilizzo relativi e i prodotti di mercato
migliori.

23

3.1 Il riconoscimento vocale


I sistemi di riconoscimento vocale (in inglese Speech Recognition)
costituiscono una delle modalit pi innovative per gestire l'interazione
tra attori umani e sistemi informativi. Si definisce sistema di speech
recognition ogni sistema in grado di convertire un input vocale in una
stringa digitale di parole corrispondenti. Visto da un'altra prospettiva, un
sistema di questo genere consente di fornire un input a una macchina con
il semplice uso della voce, anzich con una periferica quale potrebbe
essere una tastiera, un mouse, una penna ottica o altro.

I principali sistemi di riconoscimento vocale sono due: il primo
lASR, Automatic Speech Recognition, che ha aperto le porte verso il
riconoscimento vocale. Il secondo il Natural Language Understanding,
ovvero unevoluzione dellASR per una comprensione pi fluida e
affidabile al massimo.

3.1.1 LASR

LASR stato uno dei primi sistemi ad essere utilizzato nellambito
dei Call Center, e quindi degli IVR, per riconoscere ed elaborare la voce del
cliente al telefono.

I sistemi ASR, utilizzano due fasi: il training e il riconoscimento. La
fase di training stabilisce una memoria di referenza o un dizionario di
modelli del parlato, che sono assegnati alle etichette del testo. La fase di
riconoscimento tenta di assegnare unetichetta ai modelli di input
sconosciuti.

Per comprendere il testo recitato vocalmente dal cliente, i sistemi di
riconoscimento vocale automatico svolgono i seguenti passi:

Trattamento o analisi del parlato (front-end). In questa fase si
effettua unanalisi preliminare della voce: durante questo stadio, si
esamina il segnale vocale attraverso il tempo e si estraggono i
parametri spettrali (dopo la conversione analogica/digitale del
segnale).

Classificazione delle unit fonetiche cio modello acustico. Classifica
e identifica i segmenti di voce gi processati con dei simboli fonetici
(fonemi). A volte si pu associare una probabilit ai fonemi


24

mediante una simbologia che permette di ampliare linformazione


trasmessa allo stadio seguente.

Analisi usando delle regole del parlato dette anche modello del
linguaggio. In questultima fase si sfruttano le regole usate per
codificare il messaggio contenuto nel segnale, con lo scopo di
migliorare le performance del sistema e infine per ottenere dei
risultati migliori si ricava la conoscenza dallortografia, sintattica,
prosodica, semantica.

La struttura generale di un sistema ASR mostrata nella figura
sottostante. Lacquisizione del segnale avviene attraverso il microfono, in
grado di captare le onde sonore e di convertirle in un segnale elettrico.
Tale segnale, dopo essere stato campionato e digitalizzato, passa
attraverso un rivelatore di attivit vocale (VAD - Voice Activity Detector), il
quale stabilisce, in base ad unopportuna procedura di analisi del segnale
al suo ingresso, se stata emessa una parola o un fonema, oppure se
stata acquisita una componente esclusivamente rumorosa.

Figura 2 - Struttura di un sistema ASR

Segue il sistema di riconoscimento vocale vero e proprio, in cui il


segnale viene opportunamente elaborato al fine di riconoscere lo specifico
fonema o la parola emessa. Questo blocco composto da un estrattore di
caratteristiche, che mediante opportune elaborazioni fa corrispondere al
segnale dingresso un vettore N-dimensionale. Tale vettore viene posto in
ingresso al classificatore, che si basa su un vocabolario di riferimento
costruito durante il training, al fine di prendere una decisione conclusiva
su quale sia lespressione effettivamente pronunciata. Risulta spesso

25

presente anche un ramo di feedback che indica allutilizzatore se la parola


stata riconosciuta o se il classificatore non riuscito a lavorare
nellambito dei parametri decisionali previsti in fase di progetto.

Si possono avere ASR che funzionano solo per un parlatore o per pi
parlatori. Nel primo caso, il riconoscitore pu essere definito speaker-
dependent ed il modello vocale deve essere adattato alla voce del par-
latore. Il tutto si traduce, nella fase di addestramento, nel far leggere al
parlatore un testo specifico con voce e velocit naturali.

Nel secondo caso, il riconoscitore pu essere definito speakerindependent. In questa situazione non si legati ad un particolare testo da
recitare e si ottiene in generale una precisione inferiore rispetto alla
soluzione precedente. Tali sistemi raggiungono buoni risultati nel caso in
cui le parole pronunciate facciano parte di una lista di espressioni a
cardinalit ristretta.

In poche parole, il riconoscimento vocale automatico la soluzione
adatta per tutte quelle applicazioni che interagiscono con unutente
attraverso delle frasi e/o parole che appartengono ad un dizionario
limitato o comunque prevedibili per il sistema.

Con il passare degli anni, i punti deboli e i limiti dei sistemi ASR sono
venuti fuori sempre pi spesso. Proprio per questo si iniziato a studiare
la comprensione del linguaggio naturale che rende il processo di
riconoscimento vocale molto fluido e senza limiti, come vedremo nel
prossimo paragrafo.

3.1.2 Il passaggio da ASR a NLU

Uno dei punti deboli dellASR sicuramente la dimensione del suo
dizionario, ovvero adatto soltanto per riconoscere determinate frase
di risposta che il cliente pronuncer.

Entra in gioco quindi il Natural Language Understanding, la
comprensione del linguaggio naturale. Data una frase ha lobiettivo di
darne una rappresentazione della sua analisi, ossia del processo di
comprensione.

26

Questo processo reso particolarmente difficile e complesso a causa


delle caratteristiche intrinseche di ambiguit del linguaggio umano. Per
questo motivo lanalisi avverr in diversi modi:

analisi lessicale: scomposizione di un'espressione linguistica in
token (in questo caso le parole)

analisi grammaticale: associazione delle parti del discorso a
ciascuna parola nel testo

analisi sintattica: arrangiamento dei token in una struttura
sintattica (ad albero: parse tree)

analisi semantica: assegnazione di un significato (semantica) alla
struttura sintattica e, di conseguenza, all'espressione linguistica.
Nell'analisi semantica la procedura automatica che attribuisce
all'espressione linguistica un significato tra i diversi possibili detta
disambiguazione.

I moderni progressi nella comprensione del linguaggio naturale si
basano su dei modelli statistici delle relazioni tra le espressioni e gli intenti
durante la conversazione. L'approccio statistico ha mostrato progressi
accettabili quando applicato a compiti specifici.


3.1.3 Prodotti di mercato

Attualmente, il NLU viene applicato nei sistemi di recupero delle
informazioni, questionari e di dialogo automatizzati per il servizio clienti.
Questi sistemi sono costruiti utilizzando grandi quantit di dati raccolti da
input dell'utente e quindi richiedono un notevole lavoro specifico.
Utilizzando, quindi, i dati delle espressioni dellutente possibile
progettare un sistema di comprensione del linguaggio naturale in grado di
ottenere un tasso di successo abbastanza alto.

Nuance Communications IVR Conversazionale & Nina

Per quanto riguarda il Natural Language Understanding, Nuance ne fa
il suo punto di forza. E possibile vederlo inserito nel sistema IVR
Conversazionale, ovvero un sistema per la gestione delle interazioni tra
uomo e macchina gi pronto per essere utilizzato da qualsiasi azienda.


27

Il fiore allocchiello di Nuance sicuramente Nina. Nina un


assistente virtuale, uno dei primi, che ha avuto un successo strabiliante
negli ultimi anni. Possiamo trovarla su ogni dispositivo Apple che utilizza la
famosa applicazione Siri. In quel caso Nina non solo utilizza il Natural
Language Understanding per la comprensione vocale, ma, dopo aver
elaborato la voce in input, fornisce anche il compito di sintetizzatore
vocale (TTS).


28

3.2 La Speech Synthesis



La sintesi vocale (in inglese Speech Synthesis) la tecnica per la
riproduzione artificiale della voce umana. Un sistema usato per questo
scopo detto sintetizzatore vocale e pu essere realizzato tramite
software o via hardware.

I sistemi di sintesi vocale sono noti anche come sistemi text-tospeech (TTS) per la loro possibilit di convertire il testo in parlato. Esistono
inoltre sistemi in grado di convertire simboli fonetici in parlato.

Un sistema di sintesi vocale composto da due parti: un front-end e
un back-end. La parte front-end si occupa della conversione del testo in
simboli fonetici mentre la parte back-end interpreta i simboli fonetici e li
legge, trasformandoli cos in voce artificiale.

Figura 3 - Front-end e Back-end di un sistema TTS


Il front-end prevede due funzioni chiave: per prima cosa, viene
eseguita unanalisi del testo scritto per convertire tutti i numeri, le sigle e
le abbreviazioni in parole per esteso (ad esempio, il testo 2 viene
convertito in due).

Questa fase di pre-elaborazione viene definita come normalizzazione o
classificazione del testo. La seconda funzione consiste nel convertire ogni
parola nei suoi corrispondenti simboli fonetici e nelleseguire lanalisi
linguistica del testo rielaborato, suddividendolo in unit prosodiche, ossia
in proposizioni, frasi e periodi. Il processo di assegnazione della
trascrizione fonetica alle parole chiamato conversione da testo a fonema
o da grafema a fonema (in inglese text-to-phoneme, TTP).

29

Se le applicazioni di sintesi vocale hanno raggiunto gi un notevole


sviluppo, gli sforzi proseguono verso una resa migliore nellimpatto con
lutente: in questo campo il W3C si impegnato con la realizzazione di
standard (quali lo Speech Synthesis Markup Language) che forniscono un
miglior controllo sulle applicazioni di sintesi, per garantire un
funzionamento ottimale in contesti di tipo multilingua, e per poter
conferire al parlato sintetizzato opportune caratteristiche di intonazione,
enfasi, velocit e altro ancora.

Lavanzamento della tecnologia ha portato alla realizzazione di sistemi
sempre pi innovativi e sofisticati. Lultimo obiettivo prefissato dalle
aziende che realizzano sistemi TTS, quello di realizzare modelli di voce
sempre pi naturali e fluidi. In questo modo lutente percepir la
sensazione di non comunicare con un sistema automatizzato, bens con
una persona fisica.

3.2.1 Prodotti di mercato

Levoluzione e la diffusione dei sistemi di sintesi vocale ha avuto un
grande impatto nel mercato delle applicazioni vocali. La qualit di un
sintetizzatore vocale si valuta sulla base sia della somiglianza con la voce
umana che con il suo livello di comprensibilit. Un programma di
conversione da testo a voce con una buona resa pu avere un ruolo
importante nell'accessibilit, per esempio consentendo a persone con
problemi di vista o di dislessia di ascoltare documenti scritti sul computer.
Per questo tipo di applicazione fin dai primi anni ottanta molti sistemi
operativi includono funzioni di sintesi vocale.

Nuance Communications Vocalizer
Nuance Vocalizer il motore completo di output vocale che
permette conversazioni senza interruzioni. Vocalizer utilizzato in tutto il
mondo in pi di 40 lingue diverse. Gestisce l'audio di tutte le applicazioni,
sia dalla libreria di istruzioni statiche registrate, sia mediante la
generazione di istruzioni dinamiche grazie alla tecnologia di sintesi vocale
da testo. Fornendo agli sviluppatori una singola fonte per tutto l'output
audio, Vocalizer combina armoniosamente audio pre-registrato e
generato dal computer rendendo possibile l'automazione di pi tipi di
chiamate, il miglioramento dell'esperienza self-service dei clienti e la
riduzione dei costi operativi e di implementazione.


30

Apple Voice Over


VoiceOver un lettore di schermo incluso in Mac OS X della Apple
Computer, in iOS e nei sistemi operativi di iPod e Apple TV. Il suo scopo
migliorare l'accessibilit per gli utenti non vedenti, ipovedenti e con
problemi di dislessia: utilizzando VoiceOver, l'utente pu utilizzare il suo
dispositivo con la voce e, nel caso del Mac, anche con la tastiera. Tutto
questo utilizzando la tecnologia di sintesi vocale che rende possibile la
realizzazione di percorsi vocali che aiutino lutente durante luso del
proprio computer, smartphone, ecc.

Google Text to Speech System
La funzione Sintesi vocale di Google consente alle applicazioni di
leggere il testo sullo schermo ad alta voce. Ad esempio, questa funzione
pu essere utilizzata da: Google Play Libri per "leggere ad alta voce"
qualsiasi libro, Google Traduttore per fornire traduzioni vocali e ascoltare
cos la pronuncia, TalkBack e applicazioni di accessibilit per offrire la
funzione di lettura vocale su tutti i dispositivi. Ovviamente tutto questo si
basa su un motore di sintesi vocale sviluppato da Google che continua a
puntare molto forte su questa tecnologia.


31

3.3 Speaker verification


La Speaker Verification un processo della Speaker Recognition che
ha il compito di verificare se lo speaker veramente chi afferma di essere
tramite l'utilizzo di una semplice sequenza di parole, passphrase, che
viene confrontata con l'impronta vocale dell'utente memorizzata nel
sistema.

L'uso della voce per verificare unidentit soltanto uno dei tanti
metodi che riguardano lidentificazione biometrica. Per esempio possiamo
citare i metodi basati sull'uso di firma scritta, sulla scansione della retina e
sulla verifica dellimpronta digitale. Naturalmente per quanto riguarda le
telecomunicazioni la speaker verification lunico metodo usufruibile.

La dimensione e la forma del tratto vocale, bocca e denti, sono solo
alcune delle caratteristiche fisiche che contribuiscono a rendere unica la
nostra voce. Il riconoscimento vocale considerato tecnicamente un
ibrido tra una biometria di tipo fisico e comportamentale dal momento
che l'emissione della voce determinata sia dalla conformazione della
gola e della laringe che da aspetti legati al comportamento.

Questa tecnologia, quindi, fornisce un notevole incremento della
sicurezza per quanto riguarda i servizi della rete telefonica e inoltre rende
possibile attuare certi servizi che richiedono una sicurezza molto elevata.
Per esempio, i clienti richiedono un accesso remoto affidabile e sicuro ai
servizi a valore aggiunto di cui necessitano, ad esempio messaggi vocali, email, teleconferenze e altri servizi basati su rete che implicano il
trasferimento di informazioni private.

I principali vantaggi della Speaker Verification sono:
Il riconoscimento vocale ha forti potenzialit di crescita,
soprattutto perch non richiede alcun hardware specifico.
L'accettazione da parte degli utenti alta soprattutto grazie alla
mancanza di sensori da toccare o guardare e non ci sono particolari
problemi nella fase di registrazione.

Ma come funziona realmente un sistema di speaker verification?
Quali sono i suoi limiti?


32

Un sistema di Speaker Verification si divide in due fasi: registrazione


e verifica.

La registrazione la fase iniziale del processo che viene eseguita
una sola volta per ogni utente. Questa fase indispensabile perch,
facendo pronunciare alcune parole all`utente (passphrase), il sistema
provveder a registrare le caratteristiche della sua voce nel database delle
voci degli utenti.

La verifica esegue l`operazione di controllo che viene ripetuta
ogniqualvolta sia richiesto laccesso ad un servizio e ha lo scopo di
accettare o rifiutare lautenticazione da parte dellutente corrente.
In particolare, il sistema deve confrontare le caratteristiche della voce
dell`utente in corso di autenticazione con il modello precedentemente
creato e registrato nel database delle voci degli utenti e prendere una
decisione.

Figura 4 - Funzionamento Speaker Verification

Queste due fasi, sia la fase di registrazione che quella di verifica,


devono avvenire per mezzo di una riproduzione, da parte dellutente, di
testo. Se il testo che un utente pronuncia noto al sistema di Speaker
Recognition si parla di sistema Text-Dependent (TD), altrimenti sistema
Text-Independent (TI).

La speaker verification, come gi detto, ha quindi il compito di
accettare o meno la richiesta di autenticazione in un sistema da parte
dellutente. Ovvero, deve prendere una decisione binaria: SI o NO.

33

Nel prendere questa decisione, possono verificarsi due tipi di errori:


una falsa accettazione di un impostore che potrebbe causare danni al
servizio che si intende proteggere e un frequente falso rifiuto di un vero
utente che comporterebbe gravi disagi per lutente in questione.


Vero utente
Impostore

Falsa

Accettazione
OK
accettazione

Rifiuto
Falso rifiuto
OK


Una delle sfide principali che questa tecnologia sta tentando di
risolvere quella di trovare una soglia affidabile da usare durante il
processo decisionale.

Una soglia troppo alta rende difficile lautenticazione al sistema e
pu provocare errate valutazione di persone autentiche. Invece, una
soglia troppo bassa aumenta la possibilit di essere accettati dal sistema,
ma provoca anche lautenticazione di impostori.


Figura 5 - Grafico soglia autenticazione

Analizzando il grafico in figura, possiamo notare il punto dove i due


tassi di errore di falsa accettazione e falso rifiuto si incontrano: lEER
(equal-error-rate). Nelle telecomunicazioni si tende a scegliere una soglia
che si trovi nel rettangolo in figura, ovvero dove il tasso di falso rifiuto
un po pi basso rispetto al tasso di falsa accettazione.

34

Sicuramente la pi comune applicazione di un sistema di Speaker


Verification lautenticazione dei clienti di un Contact Center al sistema
IVR. Come detto in precedenza, ai clienti verr subito chiesto di recitare
una passphrase per essere riconosciuti e autenticarsi. Se il cliente sceglier
di parlare con un operatore, questultimo sapr subito con chi sta
parlando e sar in grado di aiutare il cliente.

La Speaker Verification deve la sua popolarit nei sistemi IVR grazie
alla poca sicurezza che si ottiene utilizzando il tipico strumento di
autenticazione: il codice PIN. Questo perch molti clienti tendono a
scegliere codici PIN facilmente compromettibili e, per quanto riguarda la
comodit, un cliente potrebbe dimenticare il suo codice.

Resistenza agli attacchi di potenziali impostori:

Domanda
di Speaker
Vulnerabilit
PIN
sicurezza
verification
Brute
attack

force Media
N/A
10%+ successo

Bassa
0.1% - 0.5%
successo

Credential
Sharing

Alta
N/A
100% successo

Bassa
0.5% -
successo

Hacking

Bassa

Bassa

Nessuna
0% successo

Phishing

Alta
72% successo

Alta
72% successo

N/A

Vhishing

Media

Media

Bassa
0.5% -
successo

Credential Reset

Alta

N/A

Bassa

Internet Search

N/A

Alta

N/A

Social
Engineering

N/A

Alta
67% successo

N/A

2%

2%

Confronto tra le tecniche di autenticazione: PIN, Domanda di sicurezza e Speaker Verification

35

Luso e la popolarit di questa tecnologia le possiamo riscontrare in


molti ambienti e scenari che ci circondano.

Per esempio, fondamentale nei servizi finanziari dove la
tecnologia di verifica dellidentit dei singoli utenti, basata sulla Speaker
Verification offre alle organizzazioni dislocate in tutto il mondo, una solida
base per la gestione efficiente dei rischi, la conformit con le stringenti
normative del settore e la possibilit di far fronte con successo alle frodi e
ai furti di identit in continuo aumento.

Con la Speaker Verification possibile integrare l'autenticazione
remota, in modo semplice e sicuro, in un'ampia gamma di applicazioni, tra
cui:
Autenticazione di operazioni bancarie tramite telefono
Reimpostazione di password
Sicurezza delle transazioni di e-Banking
Autenticazione conversazionale trasparente
Private Banking

Invece, la sfida per i fornitori di servizi sanitari garantire la
conformit alle normative sulla privacy riguardanti la salute senza incidere
eccessivamente sui costi. Sar possibile infatti gestire la sicurezza dei
contact center, garantire la riservatezza dei dati degli assistiti e la
possibilit di reimpostare la password.

I sistemi di Speaker Verification sono progettati per soddisfare le
dinamiche esigenze di sicurezza anche delle aziende odierne, per
consentire loro di ottimizzare la protezione, ridurre i costi e offrire
notevoli vantaggi nel legittimare gli utenti. Basati sull'avanzata tecnologia
di verifica tramite biometria vocale, questi sistemi consentono di
proteggere i dati privati, ottimizzare l'efficienza e migliorare l'erogazione
di servizi remoti tramite contact center e Internet.

Inoltre, i sistemi di Speaker Verification offrono la perfetta
combinazione di precisione, vantaggi ed efficienza in termini di costi
richiesti dalle forze dell'ordine e dalle agenzie di intelligence per
tenere traccia dei movimenti di detenuti, trasgressori, criminali sospetti,
terroristi e clandestini.



36

3.3.1 Prodotti di mercato



Visti i grandi passi avanti che sta facendo la tecnologia di Speaker
Verification, la richiesta dellintegrazione nei moderni e sviluppati sistemi
IVR molto richiesta. Anche per questa tecnologia una delle aziende
principali Nuance, che propone lapplicazione Vocal Password. Non la
sola per, perch la Speech Pro risponde con il VoiceKey.IVR:
unapplicazione di biometria vocale specializzato per il sistema IVR.

Nuance - Vocal Password

Nuance VocalPassword facile da mettere in opera e si integra
senza soluzione difficolt con le piattaforme IVR e VoiceXML esistenti in
modo da fornire un metodo sicuro, efficiente ed estremamente comodo
per la verifica dell'identit del parlante. Progettata esclusivamente per
soddisfare i rigorosi standard di sicurezza globale, VocalPassword ha
superato con successo tutti i controlli indipendenti della sicurezza.
Offrendo un'accuratezza di livello superiore, VocalPassword utilizzata
per proteggere l'accesso ai servizi remoti, alle applicazioni di telefonia e
Web combattendo in maniera efficace la lotta contro le frodi e i furti
d'identit, migliorando l'esperienza dell'utente.

SpeechPro VoiceKey.IVR

SpeechPro leader internazionale in tecnologia vocale e biometria
multimodale. Ha oltre 20 anni di esperienza in ricerca, sviluppo e
realizzazione in Russia e all'estero. Offre la fornitura di sistemi innovativi
nella registrazione di alta qualit, elaborazione e analisi audio e video,
sintesi e riconoscimento vocale per finire con la biometria vocale e
facciale. Il suo prodotto, VoiceKey.IVR, sta prendendo piede per quanto
riguarda la sicurezza e lautenticazione nei sistemi IVR. Fornisce un
applicazione di Speaker Verification molto affidabile.


37

3.4 Emotion Detection


LEmotion Detection amplia le possibilit di approcci tradizionali per
l'analisi del linguaggio, perch non basata esclusivamente sulle parole
utilizzate. Ogni persona si esprime in modo diverso e in questo modo, le
parole e i sentimenti non sempre sono correlati.

Le caratteristiche acustiche e prosodiche della voce vengono
analizzate per scoprire se una persona arrabbiata, neutra o felice. Se una
persona improvvisamente inizia a urlare ad un operatore, il sistema
riconosce la variazione di volume ed in grado di determinare lemozione,
attraverso vari livelli come "molto arrabbiato" o "leggermente
arrabbiato.

Tuttavia, il numero delle emozioni analizzate aumenta la probabilit
di errori, ma, con un costante sviluppo e adattamento, la precisione del
sistema potrebbe salire al novanta per cento.

Riconoscere uno stato di rabbia in un utente, in particolare, pu
fornire informazioni utili per l'operatore di un IVR e pu contribuire a
migliorare l'esperienza del cliente. Poich questo stato di rabbia pu
comportare dialoghi "problematici" tra lutente e loperatore, il
riconoscimento dello stato di rabbia utile per far si che venga messa in
atto una strategia di dialogo attua a risolvere i problemi dellutente
chiamante in breve tempo.

Affinch un sistema di Emotion Detection dia risultati affidabili e
attendibili, bisogna soffermarsi su quattro aspetti:

Il tipo di emozione al quale siamo interessati;

Estrazione delle caratteristiche che vengono ricercate nella voce a
seconda dellemozione;

Il database utilizzato per la classificazione;

Il classificatore vero e proprio.



38

Negli IVR, le espressioni pronunciate dal chiamante sono spesso molto


brevi visto che sono risposte a domande specifiche che il sistema pone o
sono scelte che riguardano le opzioni disponibili nellIVR. Pertanto,
necessario concentrarsi sulle caratteristiche a livello di espressione invece
che sulle caratteristiche a livello di parola, questo perch unespressione
completa pu far intendere pi di quanto una sola parola pu descrivere.
Per esempio, una risposta negativa no a livello di parola non comunica
lemozione con il quale viene pronunciata, ma se viene ascoltato il tono,
molto facile riconoscere lemozione di chi sta parlando.

Inoltre, viene eseguito anche il riconoscimento dellemozione a livello
di segnale, indipendentemente dalle informazioni ottenute da un
riconoscitore vocale.

Le prestazioni che il classificatore, ovvero il punto cardine di questo
sistema, ci fornir si basano pesantemente sulla qualit del database
usato per la classificazione delle emozioni attraverso la ricerca della
somiglianza con i test preregistrati nel database.

Per la registrazione dei test nel database esistono tre metodi per
catturare la voce e quindi lemozione. Il primo metodo ottiene lemozione
attraverso degli attori che registrano la propria voce in base allemozione
richiesta. Gli attori cercano di immaginare se stessi in una situazione
specifica prima di parlare. Il secondo metodo chiamato Wizard-Of-Oz
(WOZ), ovvero viene utilizzato un programma che interagisce con l'attore
e lo spinge in una situazione specifica a seconda dellemozione richiesta
per poi registrare la sua voce. Il terzo metodo, molto pi difficile da
implementare, leffettiva registrazione del mondo reale dei discorsi che
esprimono emozioni.

Dopo aver estratto le caratteristiche dalla voce dellutente in
chiamata, ora compito del classificatore determinare quale emozione sta
provando lutente. Uno dei classificatori pi usato e pi veloce il SVM
(Support Vector Machine). Il termine "macchina" deriva dal fatto che gli
SVM sono algoritmi di apprendimento automatico che utilizzano i
cosiddetti vettori di supporto. In parole semplici, un classificatore in
grado di determinare da un campione sconosciuto a quale classe
appartiene utilizzando un modello che si basa su una serie di esempi
contenuti nel database delle voci.

39

Figura 6 - Risultato SVM, iperpiano e margine massimo

Ci che rende questo classificatore migliore degli altri la separazione


degli esempi vocali presenti nel database usando gli iperpiani. Ovvero
considera gli elementi del database come punti in uno spazio vettoriale ndimensionale. Nella figura possiamo notare che liperpiano adatto tra due
classi che creer un margine massimo tra queste due descritto da un
insieme di vettori di dati originali, chiamati vettori di supporto.

3.4.1 Prodotti di mercato

Per quanto riguarda questa tecnologia, il mercato attuale non
propone prodotti affidabili e di un certo livello in quanto questa
tecnologia non facile da integrare con i sistemi attuali.

Una delle poche aziende che ha tentato lintegrazione con i propri
sistemi lHP, attraverso lo studio di fattibilit riguardante la creazione di
un sistema di Emotion Detection affidabile e di facile integrazione.

Proprio per questo, per quanto riguarda questa tecnologia non
verranno esposti prodotti di mercato dei vari vendor principali.

40

3.5 Visual IVR


Il Visual IVR praticamente l'opposto di una soluzione IVR
tradizionale. Invece di accogliere i clienti in un albero di navigazione che
elenchi tutte le possibili opzioni fornite, una sistema di Visual IVR utilizza
la potenza dell'applicazione mobile per fornire ai clienti una vista
immediata di ci che posso trovare.

Questa visualizzazione dellIVR rende lesperienza del cliente molto
pi pratica e pi veloce: il cliente visualizza direttamente il percorso
dellIVR senza dover ascolta tutte le operazioni possibili e con la possibilit
di poter tornare indietro o andare avanti molto facilmente.


Figura 7 - Esempio di un Visual IVR di un'agenzia di viaggi


Il punto cardine di un sistema IVR sicuramente la progettazione e lo
sviluppo dellapplicazione mobile o del sito web che lo accoglier. Il
normale contatto con un sistema IVR tradizionale che avviene tramite
chiamata e utilizzo della voce verr sostituito, prender il suo posto un
interfaccia grafica pulita e semplice.





41

Per realizzare un sistema di Visual IVR si avr la necessit di integrare


lalbero di navigazione esistente in una applicazione o in un browser web
ottimizzato. Questa operazione sar molto semplice in quanto tutti i
moderni sistemi implementano lintegrazione delle applicazioni VXML, che
riguardano tutti i principali alberi di navigazione vocale.


Figura 8 - Integrazione di un Visual IVR


I moderni sistemi di Visual IVR forniscono, inoltre, i VXML Connector:
sono degli strumenti che vengono implementati nel normale sistema di
IVR che render automatiche le modifiche apportate negli alberi di
navigazione vocale anche per quanto riguarda lapplicazione o il sito web
di riferimento.

Il Visual IVR quindi, fornisce alle aziende un metodo veloce, semplice
ed economicamente contenuto per razionalizzare le interazioni di
assistenza clienti. Piuttosto che lottare con i sistemi IVR tradizionali, un
cliente pu utilizzare prima il Visual IVR per cercare la soluzione: se riesce
a risolvere il problema, avr risparmiato sicuramente tempo, altrimenti
potr scegliere di essere richiamato sapendo che l'operatore incaricato
avr tutte le informazioni necessarie per aiutarlo.





42

Possiamo vedere quali sono i veri vantaggi che un Visual IVR presenta, sia
dal lato dellazienda che dal lato del cliente nella tabella sottostante.


Aziende
Clienti
Riduzione dei costi attraverso una Maggiore granularit di routing.
migliore
prevenzione
delle Migliore funzionalit, ovvero
chiamate e instradamento pi essere in grado di risolvere le loro
preciso, migliorando la risoluzione richieste senza richiedere laiuto di
delle richieste al primo contatto e un operatore o arrivare molto
diminuendo la percentuale di velocemente
alle
risorse
trasferimenti a operatore.
desiderate.
Diminuzione significativa della
Sfruttare gli investimenti IVR
difficolt del cliente di accedere ai
esistenti, senza la necessit di
servizi self-service o a contattare
eliminare o sostituire.
un operatore
Se l'operatore ha informazioni
Possibilit di riuso di script
contestuali, c' meno probabilit
esistenti riducendo i costi di
che il cliente dovr ripetere le
sviluppo
informazioni
Le
informazioni
contestuali
raccolte all'interno della sessione
Sempre pi clienti troveranno le
di Visual IVR possono essere
informazioni ricercate senza dover
trasferite agli operatori, dando
chiamare il contact center, questo
una migliore comprensione del
significa che i tempi di attesa
percorso effettuato dal cliente,
saranno inferiori per la clientela in
riducendo i tempi di gestione da
generale
parte delloperatore e la
frustrazione del cliente


Per quanto riguarda gli scenari di utilizzo, il Visual IVR adatto a
tutti quei casi che potrebbero essere risolti molto velocemente e senza il
contatto con loperatore. In questo modo diminuir sicuramente il volume
di chiamate ricevute e aumenter la soddisfazione del cliente, in quanto
otterr la soluzione al suo problema o alla sua richiesta in pochi secondi.




43

Di seguito, un elenco di possibili scenari che frequentemente


accadono in tutti i Call Center.

Attivazione prodotti
Molte aziende utilizzano il Visual IVR per semplificare il processo di
attivazione o la registrazione di prodotti, software e garanzie che
vendono. Il Visual IVR rende facile lattivazione offrendo ai clienti un
servizio semplice e veloce che viene immediatamente trasmesso al
contact center di riferimento, senza la necessit di intrattenersi con un
operatore, migliorando cos l'esperienza e la soddisfazione dei clienti.

Abbandono acquisto
Il Visual IVR pu ridurre il tasso di abbandono di un probabile acquisto su
un sito di e-commerce, facilitando la chiusura della vendita con assistenza
diretta e personalizzata attraverso un solo clic.

Promemoria Appuntamenti
Un altro utilizzo del Visual IVR riguarda le aziende che hanno la necessit
di fornire ai loro clienti un promemoria per quanto riguarda gli
appuntamenti fissati. In questo modo si riduce il volume di chiamate
rivolte agli operatori, mentre per i clienti si diminuir il tempo di
esecuzione, aumentando la loro soddisfazione.

Rinnovi abbonamento
Probabilmente offrire un servizio eccellente, ma senza promemoria per il
rinnovo di sottoscrizione, pu causare la perdita di clienti solo perch non
hanno trovato il tempo per rinnovare il servizio. Questo aumenter di
volume di chiamate in entrata per risolvere il problema, o, peggio,
direttamente la perdita di un cliente.

Tracking ordini
Nonostante la maggior parte delle aziende di spedizioni offrano sul loro
sito web il servizio di tracking per quanto riguarda gli ordini, molto
probabilmente una buona parte di chiamate ricevute riguarda proprio
questo argomento. Il Visual IVR risparmia il contatto con loperatore e
fornisce istantaneamente la risposta al cliente.

Assistenza tecnica
I problemi tecnici sono spesso difficili da comunicare attraverso la voce ad
un operatore. I clienti non possono conoscere il modo migliore per
descrivere il problema, e sono spesso tenuti a ripetere le informazioni. Il

44

Visual IVR fornisce un elenco di FAQ (Frequently Asked Question), dal


quale il cliente pu trovare la soluzione prima di dover passare al contatto
con loperatore.
3.5.1 Prodotti di mercato

Nel mercato attuale, lunico sistema di Visual IVR che merita di
essere nominato sicuramente quello di Jacada. E una soluzione
innovativa, che ancora non ha preso piede completamente nellambito dei
sistemi IVR tradizionali. Sar solo una questione di tempo, questo certo.

Jacada Visual IVR

Jacada una societ di software e servizi che fornisce
lottimizzazione dei processi per i servidi dedicati allassistenza clienti.
L'azienda, fondata da Gideon Hollander, stata costituita nel Dicembre
del 1990 in Israele: ha sede ad Atlanta, in Georgia e ha uffici in America,
Europa, Medio Oriente e nelle regioni nordiche.
Jacada consente alle aziende che implementano il suo prodotto di
fornire senza sforzo assistenza clienti di livello alto per quanto riguarda le
interazioni automatizzate implementando soluzioni di Visual IVR
allavanguardia, agenti desktop ottimizzati e strumenti per lottimizzazione
dei processi business. I clienti possono beneficiare di una migliore
esperienza in ogni punto di contatto con l'organizzazione che usa i sistemi
Jacada, sia presso il Call Center, sullapplicazione e sul sito web.


45

4 VoiceXML
Il VoiceXML (VXML), acronimo di Voice eXtensible Markup Language,
definito dal W3C, rappresenta lo standard in formato XML per la creazione
di dialoghi interattivi tra una persona e un computer. Il W3C ha rilasciato
lultima draft delledizione 3.0 di VoiceXML nellagosto 2010. La
piattaforma VoiceXML lavora in modo analogo ad un browser HTML: i
documenti VoiceXML vengono scaricati e interpretati da un server Web e
trasformati in voce da un Voice Gateway residente sul computer remoto
(o eventualmente integrato in un server PBX8).

VoiceXML un linguaggio progettato per realizzare sistemi di
presentazione e interazione vocali, denominati Voice User Interface (VUI),
usando la linea telefonica per laccesso ai dati. VoiceXML permette la
creazione di logiche di dialogo uomo-macchina in linguaggio naturale
attraverso lintegrazione con diverse tecnologie, tra cui:
Dual-Tone Multi-Frequency (DTMF).
Riconoscimento vocale.
Sintesi vocale.
Speaker Verification: ovvero possibilit di interazione con
applicazioni che garantiscono lidentificazione dellinterlocutore
tramite parametri biometrici.
Video in streaming o preregistrati.


Figura 9 - Architettura basata sullo standard VoiceXML


Il linguaggio VoiceXML espressamente concepito per operazioni e
applicazioni orientate al Web: questo consente di produrre documenti
VoiceXML anche in modo dinamico e interattivo con lutente, attraverso
linguaggi server side (quali ASP, JSP, PHP, ecc.), cos come avviene per le
pagine Web.


47

LIVR (o Voice Gateway) svolge le seguenti funzioni:



interpreta il documento VoiceXML;

produce messaggi vocale attraverso un motore di sintesi;

riceve ed interpreta i comandi dallutente (tramite la tastiera a toni,
via DTMF o tramite comandi vocali, via riconoscimento vocale);

dialoga con il server Web attraverso il protocollo HTTP. Il server
web, una volta ricevute le richieste dal Voice Gateway, rende
disponibili i documenti VoiceXML per la loro interpretazione e
conversione in voce verso lutente finale.

Il VoiceXML ha dunque il compito di guidare il sistema di sintesi e
riconoscimento vocale. Nellambito dei sistemi di Interactive Voice
Response, va integrato con un altro formato, destinato invece a
controllare il flusso della telefonata: il CCXML.

Classico Esempio Hello World!
<?xml version="1.0" encoding="UTF-8" ?>
<vxml version="2.0"
xmlns="http://www.w3.org/2001/vxml" >
<form id="primo_form">
<block>
<prompt>Hello World!</prompt>
</block>
</form>
</vxml>


48

4.1 Lutilizzo del VXML per la comunicazione tra le tecnologie


Come abbiamo visto nel capitolo precedente, lutilizzo del VXML
rende semplice ed immediata lintegrazione della visualizzazione dellIVR a
partire da un sistema tradizionale.

Oltre a questo, lutilizzo del linguaggio VXML, necessario per la
corretta comunicazione tra tutte le tecnologie implementate in un sistema
IVR: questo perch in grado di comunicare sia con i database clienti che
con le applicazioni create per le tecnologie che sono nel sistema.

Un sistema VXML sar composto da un browser ed un server:
attraverso il browser verranno create le applicazioni vocali e verranno
realizzate tutte le integrazioni con le tecnologie pi sofisticate, mentre il
server avr il compito di gestire le pagine VXML che si riferiranno alle
applicazioni da utilizzare nel sistema IVR.

Il compito del server sar anche quello di fornire alle applicazioni
tutti i dati di cui hanno bisogno per il loro corretto funzionamento. Come
vedremo nel capitolo successivo, il server deve saper reperire le
informazioni che si trovano in determinati database e dovr prontamente
fornirle alle applicazioni.

Figura 10 - Piattaforma di un sistema VXML


Nella figura 10 possiamo vedere una piattaforma di un sistema VXML
per la creazione e la gestione di applicazioni vocali che sfruttano lASR e il
TTS. Il browser mette in comunicazione le due tecnologie, la
comunicazione sar gestita dal server che acquisir una richiesta e
produrr una risposta.

49

5 Analisi e progettazione di un IVR omnicanale secondo


le nuove tecnologie

Questo capitolo riguarda lanalisi e la progettazione di un IVR
omnicanale innovativo, esaminando tutti gli aspetti che interagiranno sia
con il cliente in chiamata che con il sistema IVR stesso. Lunione di pi
tecnologie, come vedremo, render lesperienza del cliente molto
semplice e ridurr notevolmente il tempo di esecuzione delle operazioni
rispetto ai tradizionali sistemi. Ma partiamo dalla storia dellevoluzione
dellassistenza clienti.

Proviamo a immaginare questa evoluzione come divisa in tre fasi. La
fase uno lassistenza clienti del passato, la fase due ci che diventata
negli ultimi tempi e la fase tre quello che diventer in futuro.

Nella fase uno, il contact center era un luogo fisico: le conversazioni
vocali erano lo strumento principale dellassistenza e le telefonate
arrivavano a orari e in quantit prevedibili. Anche la fase due non ti
sembrer nuova. Il contact center si trasformato in un luogo virtuale. Il
cliente pu ricevere assistenza attraverso diversi canali, sui quali si opera
per in maniera separata e disgiunta.

La fase tre il futuro in cui stiamo per entrare, quella in cui sar
garantita la continuit tra i diversi canali di comunicazione. La vera sfida
della fase tre quella di unificare tutti questi canali in maniera coerente,
uniforme e simultanea, per offrire al cliente unesperienza senza
precedenti. Il tutto per offrire ai cliente unassistenza sempre pi
automatizzata e personale.

Vediamo ora il passaggio da multicanalit, fase due, a omnicanalit,
fase tre, nel dettaglio.

5.1 Da multicanalit a omnicanalit


La multicanalit un servizio clienti che risponde su pi canali. Il
problema che spesso chi gestisce i canali non la stessa persona o non
parla con chi gestisce gli altri. I canali social sono spesso lasciati al
marketing o a soggetti esterni rispetto al Call Center telefonico o
allassistenza sul sito. Il risultato una perdita di tempo (oltre a
opportunit, soddisfazione, fatturato, ecc.) per tutti.


51

Lomnicanalit il passaggio per cui la gestione dei canali integrata,


utilizza il contesto e monitora lintero percorso che un cliente effettua con
lazienda. E non solo: offre la possibilit di un mix di canali durante lo
stesso contatto. Da ununica applicazione loperatore pu vedere tutto lo
storico di interazione col cliente, su tutti i canali, e proseguire nella
risoluzione dei problemi o nello sviluppo di una proposta commerciale sul
canale giusto al momento giusto.

5.2 Schema a blocchi Sistema IVR


Il nostro obiettivo quindi quello di analizzare e progettare un
sistema IVR omnicanale che implementer sicuramente tutte le tecnologie
innovative descritte nei capitoli precedenti, ma che dovranno essere in
grado di interagire tra di loro attraverso il browser e il server VXML per
garantire unesperienza del cliente pi efficiente possibile.

Quindi questo sistema sar in grado di comunicare con il cliente in
modo totalmente automatizzato, senza arrivare alla comunicazione con
un operatore. Tutto questo attraverso i canali di comunicazione pi
innovativi e utilizzati: attraverso la voce con il telefono, la chat web, la
visualizzazione dellalbero di navigazione e lutilizzo dei social network.


Figura 11 - Schema a blocchi IVR omnicanale

Sar presente un database dei clienti in modo da recuperare i dati


anagrafici partendo dal numero di telefono che effettua la chiamata, per
far s che il messaggio di benvenuto sia personalizzato per ogni cliente.

52

Per quanto riguarda il riconoscimento vocale, sono presenti i sistemi


ASR e NLU: il primo riguarder principalmente le operazioni di chiamate
outbound in quanto il sistema IVR chieder al cliente di recensire le ultime
esperienze che ha avuto con il sistema stesso. Si tratta quindi di un
vocabolario ristretto e limitato a poche parole; il secondo sistema di
riconoscimento si occuper delle chiamate inbound e della comprensione
e elaborazione dei Customer Intent, ovvero dovr decretare quale
operazione far svolgere al sistema IVR secondo le indicazioni del cliente.

Il sistema TTS un semplice sistema di sintesi vocale che avr il
compito di generare dei messaggi vocali precedentemente creati
attraverso la digitazione di caratteri. Pu essere usato anche in
combinazione a delle fonie che intratterranno il cliente.

Questo sistema IVR innovativo e funzionale implementer anche i
sistemi di Speaker Verification e il Visual IVR. Il primo sar necessario per
lautenticazione a operazione importanti e sensibili. Il secondo render le
operazioni che di solito trattengono in chiamata molti secondi il cliente,
molto veloci e completamente automatizzate.

5.3 Creazione dellalbero di navigazione


Prendiamo come esempio una azienda che produce apparecchi
elettronici innovativi, che fa dellevoluzione uno stile di vita e quindi cerca
di automatizzare il pi possibile tutti gli aspetti che il contatto con il
cliente.

Lazienda in questione utilizza un database clienti dove contiene,
oltre ai dati anagrafici dei suoi clienti abituali e degli iscritti al sito, il
numero di telefono per recuperare le informazioni necessarie ad
accogliere il chiamante nel miglior modo possibile.

LIVR quindi, partendo dal numero di telefono, interagir con il
database e recuperer i dati che utilizzer in questo modo: il sistema TTS
produrr il seguente output Benvenuto nome-cognome, come posso
esserle utile? inserendo in sottofondo anche una fonia.

A questo punto il cliente comunicher il suo intento, Customer Intent,
che il sistema di NLU acquisir e interpreter nel modo corretto.
Presumiamo che il cliente voglia visualizzare il catalogo dei prodotti per
effettuare un ordine. Entrer in azione di nuovo il TTS che comunicher al

53

cliente di utilizzare lapp relativa allazienda, lasciando la chiamata in


esecuzione.

Lazienda pu fornire al cliente il catalogo dei prodotti grazie alla sua
applicazione sviluppata con il Visual IVR che garantisce la notevole
riduzione di tempo delloperazione e quindi una consultazione del
catalogo in pochi secondi.

Tornando in chiamata, il cliente comunicher il prodotto che intende
acquistare. Il sistema sempre grazie al riconoscimento vocale NLU capir
di quale prodotto si tratta e passer alloperazione di pagamento.

Per far s che il pagamento avvenga in modo sicuro e che chi parli sia
veramente chi dice di essere, il sistema chieder al cliente di ripetere il
proprio nome e cognome. In questo modo entra in gioco la Speaker
Verification che secondo i parametri registrati nel proprio database
decreter il risultato dellautenticazione.

Se lautenticazione andr a buon fine si proceder al pagamento,
dove il cliente comunicher i dati bancari della sua carta che il sistema
acquisir inviando tutto alla propria banca di riferimento. Dopo il
pagamento effettuato, la chiamata verr chiusa dal sistema augurando
buona giornata al cliente.

Dunque stata creato un primo albero di navigazione per quanto
riguarda le chiamate inbound. Ma lazienda vuole poter effettuare anche
delle chiamate ai clienti, outbound, che hanno acquistato per ricevere la
loro recensione in merito allacquisto.

La prima parte, ovvero il recupero dei dati anagrafici partendo dal
numero di telefono, sar uguale allalbero IVR precedente. Questa volta
per il sistema attraverso il TTS proporr al cliente di giudicare
lesperienza dellacquisto attribuendo ad ogni domanda effettuata un
punteggio da 1 a 5.

La recensione del cliente questa volta sar acquisita tramite ASR, in
quanto sapremo gi quali risposte potr dare il cliente. La chiamata verr
conclusa dal sistema ringraziando il cliente per il tempo speso.



54

Diagramma albero IVR IN-bound



Chiamata dal numero 3xxxxxxxx0

Recupero
dati cliente

Customer
Database

Benvevuto 1

Benvenuto 2
Benvenuto 3

TTS

Come posso esserle utile?

Acquisizione e
elaborazione Intent

NLU

Customer Intent 1

Customer Intent 3
Customer Intent 2

Visual
IVR

Catalogo
prodotti

Acquisizione
numero prodotto

Speaker
Verification

Lacquisto stato
confermato

Autenticazione

Acquisizione
conferma

55

Diagramma albero IVR OUT-bound

Recupero
dati cliente

Customer
Database

Salve nome-cognome, la contatto


a nome dellazienda. E disponibile
a lasciare una recensione
sullultima esperienza avuta con il
nostro sistema?

TTS

ASR

Recensione 1

Recensione 2
Recensione 3

ASR

Review
Database

Grazie e arrivederci

56

6 Conclusioni
Attraverso questo capitolo vengono espletati i risultati dello studio di
fattibilit inerente alle tecnologie innovative e allanalisi e progettazione
del sistema omnicanale illustrati nei capitoli precedenti.

Per quanto riguarda le tecnologie possiamo partire dal riconoscimento
vocale in quanto il pi usato e studiato nel mercato attuale. Sicuramente
limplementazione dellASR fattibile da ormai molto tempo, visto che
stiamo parlando di una tecnologia non proprio recente. Gli ultimi sviluppi
hanno portato ad unevoluzione in NLU che comunemente usato in tutti
i dispositivi pi moderni, per esempio Apple o Samsung. La comprensione
del linguaggio naturale sta avendo molto successo grazie alla sua facile
implementazione per il sistema e alla totale trasparenza per quanto
riguarda laccettazione dellutente.

La sintesi vocale ripercorre la stessa storia dellASR, stiamo parlando
infatti di una tecnologia anchessa non proprio recentissima. Come gi
detto, gli ultimi studi vengono rivolti allo sviluppo di voci sintetizzate che
assomiglino sempre di pi a quella umana per rendere il sistema
trasparente e di facile accettazione. La sua integrazione, come per il
riconoscimento vocale, ormai predefinita in tutti i sistemi IVR attuali,
anche i pi piccoli, grazie al costo non esagerato e alla facilit di sviluppo.

La Speaker Verification una delle nuove tecnologie che sta
riscuotendo pi successo attualmente, grazie alluso di tale tecnologia in
ambito bancario e sanitario. In termini di costi una delle tecnologie pi
dispendiose in quanto il suo sistema richiede database specifici per questo
utilizzo e il continuo sviluppo per quanto riguarda la soglia di accettazione
e la sicurezza in generale. Paradossalmente per, come gi detto, uno
dei sistemi attualmente pi integrati nei moderni IVR grazie ai benefici che
possono esserne tratti.

Passando al Visual IVR, come visto nel capitolo inerente a questa
tecnologia esiste soltanto un prodotto di mercato, quello di Jacada,
sufficientemente sviluppato e affidabile da poter implementare in un
sistema IVR attuale. Questo perch stiamo parlando di una tecnologia
innovativa e ancora in forte sviluppo, ma che sicuramente ha ampi margini
di espansione e commercializzazione; infatti, la sua integrazione con un
sistema gi esistente molto facile e poco dispendiosa in termini di costi
grazie alluso del VXML.

57

Lo studio di fattibilit delle tecnologie conclude con lEmotion


Detection, la tecnologia sicuramente pi acerba e ancora in fase di
sviluppo. Attualmente nel mercato non esistono prodotti affidabili che
garantiscano la diffusione di questa tecnologia, ma soltanto le grandi
aziende stanno cercando di capire come poter implementare e far
funzionare questa tecnologia negli attuali sistemi.

Infine si arrivati allanalisi e alla progettazione di un sistema IVR
completo di tutte le nuove tecnologie che sono state studiate durante lo
stage, ma stiamo sicuramente parlando di un sistema ancora troppo
acerbo e soprattutto molto costoso da realizzare attualmente. Come si
pu notare non stata implementata lEmotion Detection per i motivi
descritti precedentemente e anche perch la sua funzione in contrasto
con la realizzazione di un sistema completamente automatizzato: il
riconoscimento di uno stato di rabbia utile soltanto durante la
comunicazione con un operatore che cercher di risolvere i problemi del
cliente avuti con il sistema stesso.

Tutto questo stato richiesto dalla societ di telecomunicazioni che ha
incaricato lazienda presso il quale ho svolto il tirocinio per cercare di
capire quale sia effettivamente la tecnologia pi adatta, in termini di costo
e prestazioni, da integrare nel loro sistema IVR attuale.

58

Indice Acronimi
ACD

Automatic Call Distribution

ASR

Automated Speech Recognition

CCXML

Call Control XML

CLI

Caller Line Identification

CRM

Customer Relationship Manager

CTI

Computer Telephony Integration

DB

DataBase

DTMF

Dual Tone Multi Frequency

EER

Equals - Error - Rate

FAQ

Frequently Asked Question

IVR

Interactive Voice Response

NLU

Natural Language Understanding

PBX

Private Branch Exchange

SSML

Speech Synthesis Markup Language

SVM

Support Vector Machine

VAD

Voice Activity Detector

VXML

Voice XML

W3C

World Wide Web Consortium

XML

eXtensible Markup Language

Referenze
[1]
Evoluzione e integrazione architetturale del processo di
migrazione verso una soluzione IP-Based per il servizio di Call Center
Virtuale di Lorenzo Dannibale, 2005.

[2]
Nuove interfacce per il canale telefonico di un contact center
di CMI Customer Management Insights, numero Settembre 2013.

[3]
Implementing Voice Over IP di Khasnabish, Bhumip -
Lexington, Massachusetts, USA, 2003.

[4]
MarketScope for IVR Systems and Enterprise Voice Portals di
Jay Lassman, Bern Elliot Gartner, 2013.

[5]
Market Guide for IVR Systems and Enterprise Voice Portals
di Bern Elliot, Drew Kraus Gartner, 2015.

[6]
Market Trends: Voice as a UI on Consumer Devices What
Do Users Want? di Meike Escherich, Werner Goertz Gartner,
2013.

[7]
Advances in Speech Recognition: Mobile Environments, Call
Centers and Clinics di J. Markowitz, B. Scholz - Springer, 2010.

[8]
Progress in Speech Synthesis di P. H. Van Santen, Richard
William Sproat, Joseph P. Olive, Julia Hirschberg Springe, 1997.

[9]
Speech Synthesis Markup Language (SSML) Version 1.0 di
D. C. Burnett, M. R. Walker, A. Hunt - W3C Recommendation, 2004.

[10]
From Text to Speech: The MITalk system di Jonathan Allen,
M. Sharon Hunnicutt, Dennis Klatt - Cambridge University Press,
1987.

[11]
The use of state tying in continuous speech recognition di S.
Young and P. Woodland - Proc. Eurospeech, vol. 3, Berlin, 1993.

[12]
Natural Language Processing and Speech Enabled
Applications di P. Nenad - Computer Science Department,
University of Sheffield, 2010.

[13]
Integration of World Knowledge for Natural Language
Understanding di E. Ovchinnikova Springer, 2012.

[14]
Speaker verification in Telecommunication di Hkan Melin -
Department of Speech, Music and Hearing, KTH, 1996.

[15]
Customer care solutions: Voice Biometrics di Nuance, 2015 -
http://www.nuance.com

[16]
Soluzioni di biometria vocale di Nuance, 2015 -
http://www.nuance.com

[17]
The Security Value of Voice Biometrics for IVRs and Call
Centers di Nuance, 2014 - http://www.nuance.com

[18]
Emotion Detection from Speech to Enrich Multimedia
Content di F. Yu, E. Chang, Y. Xu, H. Shum Dept. Of Computer
Science and Technology, Bejiing, 2001.

[19]
Recognition of Emotions in Interactive Voice Response
System di S. Yacoub, S. Simske, X. Lin, J. Burns HP Laboratiories,
Palo Alto, 2003.

[20]
Visual IVR: A Win-Win Solution for the Company and the
Customer di Jacada, 2014 http://www.jacada.com

[21]
"Visual IVR turns traditional customer service upside down" di
P. White - CallCentre.co.uk., 2015.

[22]
"Smartphones Will Boost IVR's Customer Service Image". Di A.
Ann - Enterprise Apps Today, 2015.

[23]
Voice Extensible Markup Language (VoiceXML) 3.0 di S.
McGlashan, D. C. Burnett, R. Akolkar, P. Baggia, J. Barnett, M.
Bodell, J. Carter, M. Oshry, K. Rehor, M. Young, R. Hosn. W3C
Working Draft, 2009. - http://www.w3.org/TR/voicexml30

[24]
Voice Browser Call Control: CCXML Version 1.0 di RJ Auburn,
P. Baggia, M. Scott . W3C Candidate Recommendation, 2011. -
http://www.w3.org/TR/ccxml