Anda di halaman 1dari 41

Heiner Mercado Percia Letras: Filologa Hispnica 2008

FUNDAMENTOS DE LA LINGSTICA DE CORPUS

Cmo estudiar una lengua?


El lingista, por medio de datos empricos, quiere llegar a describir los elementos lingsticos. Busca elementos que confirmen

sus hiptesis sobre la descripcin del lenguaje que ha realizado y aporte datos sobre el comportamiento general de una lengua. El lingstica compila una gran cantidad de elementos lingsticos , elabora un corpus.

.:Lingstica computacional:. Heiner Mercado Percia 2008

Pero
Corrientes generativistas (N. Chomsky) parten de la idea de que el nmero de enunciados de una lengua es infinito. Por lo

tanto, no puede haber ningn repertorio finito de datos que expliquen suficientemente los mecanismos de produccin lingstica. Esta orientacin supuso una crtica a la utilizacin de corpus como base para la descripcin de la lengua.
.:Lingstica computacional:. Heiner Mercado Percia 2008

Resurgimiento
Ahora bien, teniendo en cuenta esta crtica la

lingstica aplicada ha hecho ver que el objeto de un corpus no es dar una visin total de una lengua, sino ofrecer una muestra representativa que permita al lingista fundamentar una investigacin en datos objetivos. As pues, un corpus no puede identificarse con la lengua, sino que es un conjunto de datos que la representa de una manera ms o menos fiable.
.:Lingstica computacional:. Heiner Mercado Percia 2008

Lingstica de corpus
La lingstica de corpus recupera el mtodo emprico potenciado por los adelantos en la informtica que le permiten recopilar gran cantidad de textos y facilitar su explotacin. La lingstica de corpus trata la concepcin, tratamiento preliminar y anlisis de corpus, y plantea, por ejemplo, qu preguntas lingsticas se pueden responder por medio del uso de un amplio nmero de textos.
.:Lingstica computacional:. Heiner Mercado Percia 2008

Pero, qu es un corpus?
Para un especialista en morfologa: es un conjunto de palabras derivadas de una lengua. Para un especialista en sintaxis: es un conjunto de variado de frases de una lengua.
Para un especialista en PLN: es un recurso

lingstico que permite construir herramientas para el tratamiento del lenguaje natural.
.:Lingstica computacional:. Heiner Mercado Percia 2008

Qu es un corpus?
Para John Sinclair un corpus es una coleccin de

elementos lingsticos de acuerdo con criterios lingsticos explcitos con la finalidad de ser usado como muestra de la lengua. Tambin lo podemos definir como una coleccin de textos, reunidos segn unos criterios precisos, eventualmente estructurados y enriquecidos con informacin adicional, en vista de una explotacin terica o prctica.
.:Lingstica computacional:. Heiner Mercado Percia 2008

Qu es un corpus?
Desde el punto de vista prctico, un corpus rsulta

de un agrupamiento razonado, dirigido por una hiptesis de investigacin explcita. Se dice que un corpus es informatizado cuando se ha codificado de una manera estndar y homognea de tal manera que puede ser tratados mediante procesos informticos. Un C.I. est destinado a reflejar el comportamiento de una lengua.
.:Lingstica computacional:. Heiner Mercado Percia 2008

Dos ejemplos de corpus


Andrnico de Rodas fue el recopilador de la obra

de Aristteles, en el siglo primero a.C. Hoy lo conocemos como el Corpus Aristlicum.


La construccin del Oxford English Dictionary

(OED) inicia en 1857 por la Philological Society of London.

.:Lingstica computacional:. Heiner Mercado Percia 2008

Tipos de corpus
La palara corpus es un poco ambigua y actualmente se utiliza en un sentido general para referirse a cualquier tipo de compilacin de textos. Pero en realidad, hay que distinguir estas colecciones segn el grado especificacin en los criterios de seleccin.

.:Lingstica computacional:. Heiner Mercado Percia 2008

10

Tipos de corpus
Podemos hablar de tres tipos de recopilaciones de textos: Archivo informatizado (Archive/Collection) :
repertorio de textos en soporte informtico sin buscar ningn tipo de relacin entre ellos.

Biblioteca de textos electrnicos (Electronic text Library): coleccin de textos en formato digital,
guardados en un formato estndar, siguiendo ciertas normas de contenido, pero sin criterio riguroso de seleccin.

.:Lingstica computacional:. Heiner Mercado Percia 2008

11

Tipos de corpus

Corpus informatizado (Computer corpus):


coleccin de textos elaborado y ordenado segn criterios lingsticos externos (datos de los autores, medios de trasmisin utilizados, nivel social de los participantes, funcin comunicativa de los textos) o internos (patrones lingsticos)

Los corpus pueden ser clasificados de diferentes maneras en funcin de los parmetros que se quieran utilizar. Veamos.
.:Lingstica computacional:. Heiner Mercado Percia 2008

12

Clasificacin de corpus
Segn: A. Porcentaje de distribucin de los diferentes tipos de textos que lo componen. B. Especificidad de los textos . C. Cantidad de textos que recogen. D. Tipo de codificacin y anotaciones aadidas al texto. E. Contenido.
.:Lingstica computacional:. Heiner Mercado Percia 2008

13

Clasificacin de corpus:

A. Porcentaje de distribucin de los diferentes tipos de textos que lo componen.


1. Grande

2. Equilibrado
3. Piramidal 4. Monitor 5. Paralelo 6. Comparables

7. Multilinges
8. Oportunista
.:Lingstica computacional:. Heiner Mercado Percia 2008

14

Clasificacin de corpus:

B. Especificidad de los textos .


1. General 2. Especializado 3. Genrico 4. Cannico 5. Peridico o cronolgico 6. Diacrnico

.:Lingstica computacional:. Heiner Mercado Percia 2008

15

Clasificacin de corpus:

C. Cantidad de textos que recogen.


1. Textual 2. De referencia 3. Lxico

D. Tipo de codificacin y anotaciones aadidas al texto. 1. Simple (ASCII ) 2. Codificado y anotado


.:Lingstica computacional:. Heiner Mercado Percia 2008

16

Clasificacin de corpus:
E. Contenido

1. Corpus orales: constituidos por seales de voz y sus transcripciones de anotacin fontica. 2. Corpus de texto: constituidos por lengua escrita o por lengua oral transcrita.
3. Corpus multimodales: constituidos por

datos orales como prosodia, gestos, movimientos de la boca, grabaciones sonoras y flmicas.
.:Lingstica computacional:. Heiner Mercado Percia 2008

17

Composicin del corpus


Como el objetivo de un corpus es reflejar por medio de una muestra el comportamiento de una lengua es necesario decidir cmo se debe componer para que sea lo ms representativo posible en atencin a la investigacin lingstica. Por ello el corpus debe cumplir los siguientes. Parmetros:

.:Lingstica computacional:. Heiner Mercado Percia 2008

18

Composicin del corpus


Establecer el tipo oral o escrito Tipos de registros: literatura, prensa, etc. Parmetros demogrficos: edad, sexo, grupo, etc. poca Medios de comunicacin: libros, peridicos, correos electrnicos, etc. Niveles lingsticos: coloquial, formal, lengua infantil, publicitaria, etc. Tipos de textos: novelas, poemas, reportajes, columnas, encuestas, etc.
.:Lingstica computacional:. Heiner Mercado Percia 2008

19

Representatividad
A partir de qu tamao es un corpus representativo?
Hasta qu punto podemos decir que un

corpus es ms representativo que otro? Cules son los criterios que determinan la representatividad?

.:Lingstica computacional:. Heiner Mercado Percia 2008

20

Representatividad
Para este problema la nico que podemos decir es que debe haber una relacin entre el diseo y la finalidad prevista como objetivo

fundamental de su explotacin. La representatividad es un concepto vinculado con lo que se quiere presentar y slo en la prctica se puede juzgar si tal objetivo fue afortunado o no.

.:Lingstica computacional:. Heiner Mercado Percia 2008

21

Representatividad
Debemos responder a la pregunta qu resultados espero obtener?
Un ejemplo:
Si deseo construir un diccionario de una lengua es

necesario que el corpus tenga:


Un nmero elevado de palabras (millones) Predominio de textos escritos sobre orales Diversidad de grupos temticos Inclusin de textos literarios
.:Lingstica computacional:. Heiner Mercado Percia 2008

22

Elaboracin de los crpora


Adquisicin de datos para un corpus
WWW: la red ofrece una cantidad de textos que

pueden ser compilados fcilmente. Escner: se pueden digitalizar los libros o revistas aplicndose el reconocimiento ptico de caracteres (OCR) Los programas de OCR no son perfectos, por tal motivo deben ser corregidos para minimizar los errores de reconocimiento.

.:Lingstica computacional:. Heiner Mercado Percia 2008

23

Elaboracin de los crpora


Grabacin de tono: para obtener datos orales se

hacen grabaciones directamente de los medios de comunicacin o se entrevistan a personas. Compra: Es una posibilidad cmo, pero que puede ser costosa. Se pueden comprar archivos en los peridicos o en las emisoras.

.:Lingstica computacional:. Heiner Mercado Percia 2008

24

Proceso de obtencin
Texto 1
Digitalizacin Edicin y Procesamiento
Utilizacin de un software.

Digitalizacin

Salida

Texto 2 (Resultado)
XML HTML DOC TXT RTF PDF

Micrfono

Grabaciones de audio y video


.:Lingstica computacional:. Heiner Mercado Percia 2008

25

Procesamiento de corpus
Anotacin de corpus:
Con la ayuda de <tags> o etiquetas se puede enriquecer el corpus con informaciones Estructurales (ttulos, subttulos, referencias, etc.) bibliogrficas (autor, ao, tema, gnero, etc.), Morfolgicas (lematizacin) sintcticas semnticas o lxicas (extranjerismos, siglas, nombres propios, etc.).
.:Lingstica computacional:. Heiner Mercado Percia 2008

26

Procesamiento de corpus
Se deben tener en cuenta estndares de codificacin como TEI. Las normas TEI proporcionan un medio para hacer explcitos ciertos rasgos de un texto de tal modo que faciliten el procesamiento de dicho texto por programas informticos ejecutados desde diferentes mquinas.
Las Normas TEI usan el SGML para definir su esquema de

codificacin. SGML posibilita una definicin formal de un esquema de codificacin, en funcin de elementos y atributos, y reglas que controlan su aparicin en un texto. Ej.:
<etiqueta1> <etiqueta2 atributo1="hola" atributo2="mundo"> </etiqueta2> </etiqueta1>
.:Lingstica computacional:. Heiner Mercado Percia 2008

27

Elaboracin de los crpora


Formato de anotacin: se separa el contenido de la estructura. Para ello se utilizan lenguajes de marcacin (markup languages)
El lenguaje SGML sirve para especificar las reglas de etiquetado de documentos y no impone en s ningn conjunto de etiquetas en especial.

como:
SGML o Standard Generalized Markup Language

(Lenguaje de Marcacin Generalizado). HTML o HyperText Markup Language (Lenguaje de Etiquetas de Hipertexto) XML o Extensible Markup Language (Lenguaje de marcas extensible).
.:Lingstica computacional:. Heiner Mercado Percia 2008

28

Ejemplo de corpus etiquetado en XML


Frase: Poco dur el sabor
<?xml version="1.0" encoding="utf-8"?> <txs file="corpus_Heiner2.es.txs" num="2"> <chunkList> <chunk> <s id="s2"> <tok id="t1" base="poco" ctag="Adv" msd="Adv">Poco</tok> <tok id="t2" base="durar" ctag="Verb" msd="Verb Pret 3P Sg">dur</tok> <tok id="t3" base="el" ctag="Det" msd="Art Masc Sg">el</tok> <tok id="t4" base="sabor" ctag="Noun" msd="Noun Masc Sg">sabor</tok> </s> </chunk> </chunkList> Convenciones: </txs> base: Lema (forma cannica) </xml> ctag: Categora (o parte del discurso, p. ej. "Verb") msd: Descripcin morfosintctica (p. ej. "P1 Sg Ind Imp")

.:Lingstica computacional:. Heiner Mercado Percia 2008

29

Ejemplo de corpus etiquetado estructuralmente

[article pii=nd doctopic=oa language=es ccode=br1.1 status=1 version=3.1 type=tab order=04 seccode=RESP020 sponsor=nd stitle="Rev. Esp. Salud Publica" volid=74 issueno=4 dateiso=20000800 fpage=351 lpage=359 issn=1135-5727] [front] [titlegrp] [title language=es]Utilizacin de anfotericina B no convencional en el Hospital Clnico de San Carlos[/title] [/titlegrp] [author role=nd rid="a01"][fname]Emilio[/fname] [surname]Vargas Castrilln[/surname][/author]

[bibcom]
[abstract language=es] La anfotericina B es el tratamiento de eleccin de las infecciones fngicas sistmicas, pero su utilidad clnica est limitada por su toxicidad. Las formulaciones lipdicas parecen igualmente eficaces y ms seguras, pero tienen un mayor coste. [/abstract]

.:Lingstica computacional:. Heiner Mercado Percia 2008

30

Ejemplo de corpus etiquetado estructuralmente


Palabras clave: [keygrp scheme=nd][keyword type=m

language=es]Medicamentos[/keyword].[/keygrp] [/bibcom] [/front]

[body]INTRODUCCION
Las infecciones fngicas sistmicas graves son causa de importante morbilidad y mortalidad entre los pacientes inmunodeprimidos (tratados con quimioterapia intensiva, inmunosupresores, enfermos de sida...) y entre los atendidos en unidades de cuidados intensivos. [/body] [back]

[other standard=other count="20"]BIBLIOGRAFA


[ocitat][no]1[/no].- [ocontrib][ocorpaut][orgname]EORTC International Antimicrobial Therapy Cooperative Group[/orgname][/ocorpaut]. [title language=en]Empirical antifungal therapy in granulocytopenic patients[/title]. [/ocontrib][oiserial][stitle]Am J Med[/stitle] [date dateiso="19890000"]1989[/date];[volid]86[/volid]:[pages]66872[/pages].[/oiserial][/ocitat][/other][/back] [/article]
.:Lingstica computacional:. Heiner Mercado Percia 2008

31

Procesamiento de un corpus
Tokenizador: es un programa que sirve para segmentar un texto en tokens. Por Token se entiende una cadena de caracteres

delimitadas por espacios o signos de puntuacin. Tagger o etiquetador: es un programa que le asigna a cada token una etiqueta con informacin especfica.

.:Lingstica computacional:. Heiner Mercado Percia 2008

32

Formatos
Formatos de documentos textuales ms populares :
Formato Rich Text Format Postscript Portable Doc. Format PDF MS Word OpenOffice Writer LaTEX Text brut Ext. RTF PS Adobe DOC SXW TEX TXT Proprietario Public Adobe Microsoft Public Public Public

.:Lingstica computacional:. Heiner Mercado Percia 2008

33

Explotacin de un corpus
Para poder aprovechar la informacin de un

corpus es necesario disponer de herramientas que permiten:


Extraer listado de frecuencias de aparicin de las

palabras Hacer ndices y concordancias Hacer lematizaciones Analizar morfolgica y sintcticamente el texto Desambiguar palabras Detectar unidades recurrentes (colocaciones)
.:Lingstica computacional:. Heiner Mercado Percia 2008

34

Explotacin de un corpus: informacin


estadstica
Listado de frecuencias: establece el nmero de

formas grficas, lemas, categoras gramaticales y combinacin de letras


Dato absoluto: valor que depende de la extensin del corpus. Ej:
A = 50 veces en un corpus de 50 millones de palabras B = 50 veces en un corpus de 5 mil palabras A = B en trminos absolutos

Frecuencia relativa:
A = 0,0001 y B = 1

La frecuencia indica la importancia de una palabra en A aparece 1 vez cada milln deconjunto del vocabulario de el palabras una lengua. B aparece 1 vez cada cien palabras

.:Lingstica computacional:. Heiner Mercado Percia 2008

35

ndices de concordancias
Contextos KWIC y KWOC

.:Lingstica computacional:. Heiner Mercado Percia 2008

36

Corpus disponibles
CREA
CORDE CUMBRE ARTHUS UAM-Treebank Chile MC-NLCH FRANTEXT
.:Lingstica computacional:. Heiner Mercado Percia 2008

37

Aplicaciones de los crpora en la Lingstica


Dialectologa / Sociolingstica Lingstica histrica Psicolingstica Lexicografa Sintaxis Semntica Fonologa Lingstica Computacional Estilometra Morfologa Enseanza de idiomas Pragmtica
.:Lingstica computacional:. Heiner Mercado Percia 2008

38

Para qu lo utilizaremos en el curso?


En nuestro curso no haremos realmente un corpus, ya que esto implica mucho tiempo y dedicacin. Lo que haremos es una biblioteca de textos electrnicos teniendo en cuenta lo siguiente:
Volumen (totalidad de los textos reunidos)

Cobertura (tamao de la muestra)


Homogeneidad / heterogeneidad Dominio (acadmico, profesional, poltico, etc.) Contenido (sonidos, textos, etc.) Gnero (tesis, artculo de prensa, documentos administrativos, discursos,

etc.)
Estructura lingstica (narrativa, descriptiva, argumentativa, etc.)
.:Lingstica computacional:. Heiner Mercado Percia 2008

39

Adems
Debe contener informacin relacionada con:
Fecha de publicacin de los textos Fuente Fecha de elaboracin de la compilacin Cobertura cronolgica Medio de publicacin Nmero de palabras o formas grficas y

ocurrencias Descripcin y justificacin de correccin Descripcin de otro tipo de tratamientos


.:Lingstica computacional:. Heiner Mercado Percia 2008

40

Objetivo
Anlisis del discurso
Interpretacin o lectura transversal Investigacin lingstica Estudio lexicogrfico (neologismos)

.:Lingstica computacional:. Heiner Mercado Percia 2008

41