Anda di halaman 1dari 7

1

Memoria curso: Tecnologas semnticas y herramientas lingsticas para

humanidades digitales.

Charlas:

Tras el visionado de la charla de bienvenida y presentacin, vemos que estamos en la

cuarta edicin del curso de verano de humanidades digitales, creado debido a las

necesidades propias del entorno de investigacin en humanidades digitales. Tras un

recorrido por los diferentes sistemas de tratamiento de textos, y los diferentes proyectos

internacionales con los que se colabora desde la UNED, se plantean los diferentes

objetivos de la investigacin de humanidades digitales.

Esta charla ser continuada por doce charlas ms, que constituirn el peso del curso

titulado Tecnologas semnticas y herramientas lingsticas para humanidades

digitales:

1. Un modelo de datos para la poesa en el contexto de los datos enlazados. Esta

charla fue presentada por la Mariana Malta, y Elena Bermdez, quienes nos

advierten desde un principio del carcter no finalizado de la investigacin. Tras

una breve introduccin sobre la gnesis de la literatura occidental basada en las

culturas grecolatina, egipcia y hebrea, vemos que las diferentes tradiciones

literarias presentan vnculos entre s. Esta comparacin se puede desarrollar a

partir del estudio de los aspectos retricos y los aspectos de contenido. Este

anlisis se realiza en el mbito acadmico a travs de diferentes paradigmas,

generando obstculos en la investigacin, anlisis parciales, que acceden de

manera fragmentada a los recursos poticos. La comparacin multilinge y

diacrnica de las diferentes tradiciones se debe centrar en los temas, elementos

prosdicos, y relaciones intertextuales. Por otro lado, la interoperabilidad viene a


2

significar que las mquinas se puedan comunicar sin pedir permiso, de manera

automtica, que es el trabajo previo que ha estado desarrollando POSTDATA,

constituida por 25 bases de datos con datos sobre poesa, modelado de datos

atendiendo a las diferentes necesidades de cada proyecto, excepto aquellos que

han utilizado standards o normas, la interoperabilidad no est presente en su

paradigma. Nos dicen en la charla que existen dos modelos de trabajo, el egosta

y el altruista, defendiendo el uso del modelo altruista por estas investigadoras,

que pueda servir como formato de intercambio toda la comunidad. El Paradigma

de la Semantic Web est constituido por datos abiertos enlazados, Linked Open

Data (LOD). El perfil de aplicacin de metadatos (MAP) es un modelo semntico,

un modelo de datos con semntica, que va a representar a una comunidad de

poesa. Modelo de datos para PE, que est compuesto por los siguientes

conceptos: Opus, Redaction, Primary Source, Witness, Stanza, Word, Work

Pattern, Stanza Pattern, Syllable Pattern, Metrical Encoding, Bibliographic

source, location, person, Event, Place, Apparatus, Intertextuality, Facsimile,

Melody, Repository, Acrostic, Colophon, Miniature, Scene, Rhyme, Punctuation,

Apostile, Caesura, Hiatus, Denomination, Index Entry, Role.

2. Automatizacin del anlisis potico. Detectar el encabalgamiento. En esta charla,

pudimos asistir a un proyecto de investigacin en torno al encabalgamiento, con

Pablo Ruiz Fabo y Clara Martnez Cantn, donde los ponentes trabajan en torno

al anlisis de textos, centrndose en el recurso del encabalgamiento. Parten de una

introduccin acerca del procesamiento del lenguaje natural, que permite analizar

los sentimientos de los clientes, categorizacin de textos, traduccin automtica,

extraccin de informacin automtica, resmenes automticos, generacin de

lenguaje natural, anlisis lingstico. En cuanto a su aplicacin a las humanidades


3

digitales, ya que trabajamos con cadenas de texto, se puede trabajar (siguiendo la

estilometra) el reconocimiento de autores, anlisis formales, anlisis del verso,

divisin de slabas, acentuacin, recursos estilsticos y retricos, anlisis de los

tiempos verbales, gnesis de textos literarios Nos explican en esta charla el

proyecto ADSO, que parte de las ideas del Distant Reading, concepto creado por

Franco, en contraposicin al New Criticism, para as poder acceder a una gran

cantidad de textos a la vez, introduciendo todos los textos, no slo los cannicos,

basndose en rasgos formales y cuantificables, como el nmero de slabas, acento,

nmero de palabras. Para ello, parten de la definicin de encabalgamiento,

desglosando sus caractersticas, para luego trabajar con las diferentes

herramientas informticas NLP, tecnologas que pueden automatizar y formalizar

las caractersticas del encabalgamiento, de acuerdo con los objetivos de Quilis, en

su tesis.

3. Cmo crear un esquema de metadatos de Clarin para el repositorio

LINDATEVILINHD. Impartida por Agustn Caminero, y Maria Luisa Diez Plata.

Dividen la charla en dos partes, la primera: cmo crear el esquema de metadatos

en Clarin, donde se estudian las diferentes infraestructuras existentes de

metadatos, tras una explicacin de qu son los metadatos. Las infraestructuras

para metadatos se centran en repositorios de metadatos, que es un elemento

software que sirve para almacenar los metadatos, indexar, publicar Algunos

ejemplos de estas infraestructuras son DUBLIN, CORE, OLAC. Todo ello, para

tener los metadatos correctamente estructurados y organizados. El ejemplo es el

proyecto Dspace, repositorio que dar lugar a otras innovaciones, basadas en l,

cuyas caractersticas son el cdigo abierto, personalizable, ampliamente utilizado,

multilenguaje, soporta diversos estndares para el acceso, importacin y


4

exportacin. Dspace se basa en las siguientes tecnologas: REST, HANDLES,

OAI-PMH, entre otras. Finalmente, se centra la charla en el proyecto LINDAT

DSPACE, desarrollado dentro del proyecto CLARIN, que es un repositorio de

metadatos de elementos de investigacin lingstica, que amplan DSPACE con

un perfil de metadatos, un formulario de insercin de tems en el repositorio.

4. Datos abiertos enlazados para la creacin de catlogos de recursos lingsticos

ReTeLe. La primera parte de la charla la imparte Vctor Rodrguez Doncel,

Ontology Engineering Group, que nos habla de Datos abiertos enlazados para la

creacin de recursos lingsticos. Para ello, va definiendo qu son los datos

abiertos, qu son los catlogos de recursos lingsticos (META-SHARE,

CLARIN, LREC MAP, LING HUB, OLAC, RETELE) y qu son los datos

enlazados. Tambin nos hablan de las licencias Creative Commons. La segunda

parte de la ponencia es presentada por Jorge Garca, del departamento de

inteligencia artificial de la Universidad Politcnica de Madrid. l nos habla de

ReTeLe, red de excelencia, financiada por el gobierno, en torno al tema de las

tecnologas lingsticas.

5. R. un lenguaje informtico para el anlisis de textos. Presentada por Jos

Manuel Fradejas Rueda, catedrtico de filologa romnica, nos alienta a perder el

miedo a la informtica. Cmo usar un lenguaje de programacin, y cmo

coleccionar datos. Quin es Elena Ferrante? Es la interrogacin con la que inicia

la charla, para luego plantear la existencia de Shakespeare, para hallar las

respuestas, debemos recurrir a la estilometra, Mendelhall, 1901, hace un sistema

estadstico de las obras de Shakespeare, para concluir que la mayora de las

palabras de Shakespeare son de cuatro letras. Otro avance fue de la Universidad

de Harvard, tambin destacar el proyecto Gutemberg, los papeles federalistas


5

(propaganda a favor de la nueva Constitucin Americana, para la Independencia

de Norteamrica), la novela de Robert Galbraith, son ejemplos de trabajos que

necesitaron de una investigacin previa para conocer su verdadero autor. Se

estudiaron aspectos como las cien palabras ms usadas, qu caracteres son ms

tpicos, distribucin de bigramas, longitud de palabras. El ponente realiza su

propio experimento con la obra Trafalgar, de Benito Prez Galds, en

comparacin con Cabo Trafalgar de Arturo Prez Reverte, para ello, hacen uso

del lenguaje R. Despus Antonio Robles, profesor de la UNED, rama de ciencias.

Nos va a explicar la parte tcnica del workshop.

6. La infraestructura de Finlandia para datos abiertos enlazados. Eetu Mkela,

investigador que nos presenta nuevos espacios web que presentan colecciones y

documentos de literatura interesantes como: Europeana, Digital Public Library of

America, The European Library, Library of Congress, Deutsche National

Bibliothek, British Library, Bibliothque National de France. Adems, se

cuestiona qu clases de herramientas necesitamos: Model, Create, Convert,

Publish, Discover, Integrate, Explore Al mismo tiempo, expone algunos

ejemplos como REassembling the Republic of letteres (Oxford), SAHA 3, EMLO.

7. El Clarn-K-Centre espaol visto como una infraestructura orientada al usuario.

En esta ponencia, impartida por Mikel Iruskieta, quiere explicar qu es el Clrarin

K-Centre, y qu tipo de herramientas de procesamiento de lenguaje natural se han

desarrollado en el Clarin-K centre. Para ello se parte de un gran cambio, no slo

buscar y buscar herramientas, que luego no podemos ni instalar, sino hablamos

con Clarin K, solicitamos herramientas, y nos las ofrecen, sobre todo a las

personas que no tienen conocimientos tcnicos avanzados. Y todo esto, en un solo


6

click, en la pgina www.clarin.eu. Pero lamentablemente, Espaa no pertenece a

la infraestructura Clarin, perro es uno de sus objetivos. Los servicios los dan los

centros de conocimiento, como el Spanish Clarin K-Centre, donde trabajan con

textos en espaol, en cataln y en gallego. Nos ofrecen asesora a proyectos de

investigacin, diseo de proyectos, principalmente para anlisis de textos. As,

han desarrollado herramientas sencillas para poder utilizar sin tener

conocimientos tcnicos. Estas herramientas parten de Clarin, Voyant, Ant Conc,

Meaning cloud, Text Simplifier, Free summarizer, aholab, tapor.ca/home,

Analhitza, contawords, (y estn desarrollando una herramienta para analizar la

lengua gallega)

8. Manipulating written texts strings: regular expressions. Presentada por Pablo

Ruiz Fabo, investigador del equipode POSTDATA y de LINHD, especialista de

procesamiento del lenguaje natural, nos habla de formas regulares. Expresiones

que son un lenguaje para modelizar y editar cadenas de textos de forma eficaz. En

humanidades digitales tenemos que trabajar con formatos standard. Nos muestra

herramientas eficaces para manipular textos: regexpal.com, regex 101; a travs de

editores de texto plano: Geany, Sublime text; Notepad.Los elementos de Regex

Languages pueden ser literales, o caracteres especiales.

9. Plenary talk. A personal history of DH: Companions, Connection and Poetry.

Susan Schreibman, profesora de Humanidades Digitales, presenta su vivencia

personal con el trabajo de las humanidades digitales, con la publicacin de A

companion to Digital Humanities en 2004, y en 2012 A new Companion to

Digital Humanities. Haciendo un recorrido en las transformaciones producidas

en la materia a lo largo del tiempo, tras largas deliberaciones al respecto, se

plantea la cuestin de cmo desarrollar herramientas de software. Toma como


7

ejemplo Dariah, lo podemos ver en teach.dariah.eu. Susan hace un recorrido

tambin por las diferentes actualizaciones de Versioning Machine, describiendo

sus mejoras. Por ltimo, proyecta algunos vdeos sobre la definicin de

humanidades digitales, donde Patricia Murriete, James Cummings, Elena

Pierazzo, describen sus impresiones acerca de qu hace tan excitante el trabajo en

humanidades digitales, encontrando que la capacidad de hacer nuevas cosas que

no podas hacer antes era lo ms destacable, junto a las colaboraciones entre

investigadores.

10. Ontologas y humanidades digitales: una visin general. Esta charla fue

impartida por Fahad Khan, investigador del Instituto Zampolli, quien comienza

con la parte primera de su discurso, haciendo una introduccin al significado tanto

filosfico como informtico del concepto ontologa. Las ontologas han tenido

muchsimo xito en el dominio de la biomedicina, que se han convertido en la

rutina diaria de los cientficos. Tambin en el dominio de Comutational

Linguistics, Natural Language Processing