Anda di halaman 1dari 26

Introducción

Desarrollo
Ampliación
Trabajos futuros
Bibliografı́a

Ampliación transcriptor ortográfico-fonético:


Integración en el transcriptor ort2fon.

Enrique Flores Sàez

Reconocimiento Automático del habla - Máster IARFID

27 de junio de 2010

Enrique Flores Sàez Ampliación ort2fon


Introducción
Desarrollo
Ampliación Introducción
Trabajos futuros
Bibliografı́a

Índice

1 Introducción

2 Desarrollo

3 Ampliación

4 Trabajos futuros

5 Bibliografı́a

Enrique Flores Sàez Ampliación ort2fon


Introducción
Desarrollo
Ampliación Introducción
Trabajos futuros
Bibliografı́a

Introducción

ort2fon herramienta de transcripción fonética de textos


ortográficos en español.
Utiliza reglas para transcribir los grafemas en unidades de tipo
fonéticas atendiendo al contexto en que se presentan.
Permite pronunciaciones múltiples (seseos,omisión de
pronunciación, ...).
Sirve para el entrenamiento de sistemas de reconocimiento de
voz.

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Índice

1 Introducción

2 Desarrollo

3 Ampliación

4 Trabajos futuros

5 Bibliografı́a

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Descripción

Preproceso de la entrada números, abreviaturas, fechas.


Bib.[5]
Separación de la entrada en tokens

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Descripción

Elementos tratados
Direcciones de correo electrónico

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Descripción

Elementos tratados
Direcciones de correo electrónico
Números romanos

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Descripción

Elementos tratados
Direcciones de correo electrónico
Números romanos
Fechas

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Descripción

Elementos tratados
Direcciones de correo electrónico
Números romanos
Fechas
DNIs

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Descripción

Elementos tratados
Direcciones de correo electrónico
Números romanos
Fechas
DNIs
Acrónimos/siglas

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Descripción

Elementos tratados
Direcciones de correo electrónico
Números romanos
Fechas
DNIs
Acrónimos/siglas
Números

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Direcciones correo-e

Búsqueda del sı́mbolo ’@’


Separación de puntos (subdominios)

Ejemplo
$echo ”enflosae@inf.upv.es” |python preproc.py
>enflosae arroba inf punto upv punto es

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Números romanos

Comprueba el formato { I,V,X,L,C,D,M }


Reglas de conteo de números romanos
Resultado numérico

Ejemplo
$echo ”XXXIV otro DCCCXCIX” |python preproc.py
>treinta y cuatro otro ochocientos noventa y nueve

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Fechas

Búsqueda del patrón {texto - texto - texto}


Traducción de números y meses

Ejemplo 1
$echo ”26-06-10” |python preproc.py
>veintiséis de Junio del diez

Ejemplo 2
$echo ”26-06-2010” |python preproc.py
>veintiséis de Junio de dos mil diez

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

DNIs

Búsqueda del patrón {0-9}[8] - letra


Traducción del número y la pronunciación de la letra

Ejemplo
$echo ”21345765-W” |python preproc.py
>veintiún millones trescientos cuarenta y cinco mil setecientos
sesenta y cinco uve doble

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Acrónimos/siglas

Se dispone de un diccionario de acrónimos Bib.[1]


Traducción del número y la pronunciación de la letra

Ejemplo
$echo ”P.V.P.” |python preproc.py
>precio de venta al público

Enrique Flores Sàez Ampliación ort2fon


Descripción
Introducción Direcciones correo-e
Desarrollo Números romanos
Ampliación Fechas
Trabajos futuros DNIs
Bibliografı́a Acrónimos/siglas
Números

Números

Casting a números enteros


Uso de módulo decirnumero.py

Ejemplo
$echo ”20837123” |python preproc.py
>veinte millones ochocientos treinta y siete mil ciento veintitrés

Enrique Flores Sàez Ampliación ort2fon


Introducción
Desarrollo
Expansión de Números
Ampliación
Pronunciabilidad
Trabajos futuros
Bibliografı́a

Índice

1 Introducción

2 Desarrollo

3 Ampliación

4 Trabajos futuros

5 Bibliografı́a

Enrique Flores Sàez Ampliación ort2fon


Introducción
Desarrollo
Expansión de Números
Ampliación
Pronunciabilidad
Trabajos futuros
Bibliografı́a

Expansión de Números

Diferentes formas de decir un número de teléfono, DNI


Tarea de reconocimiento Todas las combinaciones posibles
Función recursiva que devuelve todas las combinaciones
posibles

Ejemplo
$ echo ”123” |python preproc.py
>[[’uno’, ’dos’, ’tres’], [’uno’, ’veintitrés’], [’ciento veintitrés’],
[’doce’, ’tres’]]

Enrique Flores Sàez Ampliación ort2fon


Introducción
Desarrollo
Expansión de Números
Ampliación
Pronunciabilidad
Trabajos futuros
Bibliografı́a

Pronunciabilidad

Muchos acrónimos se leen según están escritos


Muchos otros se cambian a su definición
Otros se deletrean

Enrique Flores Sàez Ampliación ort2fon


Introducción
Desarrollo
Expansión de Números
Ampliación
Pronunciabilidad
Trabajos futuros
Bibliografı́a

Pronunciabilidad

Ejemplo
$echo ”enflo.sae@inf.upv.es” |python preproc.py
>[[’enflo’], [’e’, ’ene’, ’efe’, ’ele’, ’o’]]
punto
[’sae’, [’ese’, ’a’, ’e’]]
arroba
[’inf’, [’i’, ’ene’, ’efe’]]
punto
[’upv’, [’u’, ’pe’, ’uve’]]
punto
[’es’, [’e’, ’ese’]]

Enrique Flores Sàez Ampliación ort2fon


Introducción
Desarrollo
Ampliación
Trabajos futuros
Bibliografı́a

Índice

1 Introducción

2 Desarrollo

3 Ampliación

4 Trabajos futuros

5 Bibliografı́a

Enrique Flores Sàez Ampliación ort2fon


Introducción
Desarrollo
Ampliación
Trabajos futuros
Bibliografı́a

Trabajos futuros

Utilizar PD para obtener las combinaciones


Números ordinales (latinos y romanos)
Controlar romanos (VI,DI,ID ...)
Direcciones Web
Género
Adaptar ort2fon para entrada múltiple

Enrique Flores Sàez Ampliación ort2fon


Introducción
Desarrollo
Ampliación
Trabajos futuros
Bibliografı́a

Índice

1 Introducción

2 Desarrollo

3 Ampliación

4 Trabajos futuros

5 Bibliografı́a

Enrique Flores Sàez Ampliación ort2fon


Introducción
Desarrollo
Ampliación
Trabajos futuros
Bibliografı́a

Referencias I

Real academia de la lengua


Diccionario panhispánico de dudas (2005) - Apéndice 2
http://buscon.rae.es/dpdI/apendices/apendice2.html

Buscador ACRONYMA
http://www.acronyma.com/?language=es

Mariano Santos Posada


Números romanos
http://roble.pntic.mec.es/~msanto1/ortografia/numrom.htm

Jerónimo Armario, Res-Publicae


Silabeador y Transcriptor Fonético y Fonológico
http://www.respublicae.net/lengua/silabas/index.php

Enrique Flores Sàez Ampliación ort2fon


Introducción
Desarrollo
Ampliación
Trabajos futuros
Bibliografı́a

Referencias II

Antonio Rı́os Mestre (UAB)


Transcripción fonética automática
http://elies.rediris.es/elies4/Cap2.htm

Wikipedia
Números en español
http:
//es.wikipedia.org/wiki/Nombres_de_los_n%C3%BAmeros_en_espa%C3%B1ol

Enrique Flores Sàez Ampliación ort2fon