2

El trabajo con corpus
2.1. Introducción

La utilización de corpus en los estudios semánticos no ha sido frecuente. La semántica ha conocido sus mayores desarrollos en trabajos eminentemente teóricos que han desarrollado sistemas con altos niveles de abstracción. Este hecho se ha entendido a menudo como un alejamiento de su materia prima, la lengua, intensificado por el estudio de fenómenos ciertamente marginales y por el uso de ejemplificaciones que podrían resultar extrañas a un hablante nativo típico [Kilgarrif, 2003]. En muchas ocasiones, el empeño por comprender los remates de la cúpula han acabado por mostrarnos nuestra ignorancia en cuanto a los cimientos de las estructuras lingüísticas.

Quizás sea este motivo el que ha provocado que la disciplina se sienta difícil y arcana para los no especialistas y es la causa de que se haya mantenido alejada de planteamientos prácticos (por ejemplo, de la anotación de corpus y de la lingüística computacional en general, normalmente basados en aspectos fonológicos y morfosintácticos). El salto a la investigación empírica que proponemos aquí no es sencilla y conlleva importantes problemas que explicaremos en el presente capítulo, pero también esperamos ser convincentes a la hora de mostrar sus ventajas.

Como en toda ciencia, la interpretación de los datos lingüísticos depende de la selección que de estos hagamos inicialmente. Kjell Johan Saebo habla a este respecto de simplificación, estrategia tan inevitable como útil dentro de los estudios lingüísticos ya que nos ayuda a cribar lo pertinente de lo que no lo es y permite la búsqueda de generalizaciones eficaces.

En la semántica formal, simplificamos a dos niveles: al nivel de la actuación, en lo relativo a los datos, y al nivel de la competencia, en lo relativo a los hechos. Simplificamos los datos para formar un conjunto de hechos coherente y simplificamos estos hechos para que cuadren en la teoría 1When doing formal semantics, we simplify at two levels - at the level of performance, concerning data, and at the level of competence, concerning facts. We simplify data to form a coherent set of facts and we simplify facts to fit a theory. . [Saebo, 2004]

Esta idealización de los datos, aún mayor por el intento de ser elegantes formalmente en nuestros estudios, es general a todos los análisis lingüísticos y evidente en el trabajo que presentaremos en los próximos capítulos. No simplificar lo que el corpus nos ofrece potencialmente implicaría enfrentarnos a un trabajo demasiado amplio y de complejo inicio.

La simplificación es la diferencia principal entre la lingüística de corpus que aquí exponemos y la desarrollada dentro de la lingüística empírica tradicional, generalmente relacionada con estudios dialectológicos o de lingüística histórica [Rojo, 2002]. En estos últimos, la recogida de datos es la parte primordial del trabajo y conlleva una criba importante. Lo normal es que la selección se realice priorizando aquellos casos más llamativos que son, casi siempre y por su misma naturaleza, los menos representativos. En nuestro trabajo con corpus, sin embargo, el objetivo es precisamente el opuesto: conseguir destacar los aspectos más frecuentes.

Cabe señalar que la simplificación no es tarea fácil y aún menos inocente. Volvemos a citar a Saebo para resumir la labor en un único requisito:

En definitiva, no tenemos que considerar todos los datos siempre que consideremos los datos correctos y esenciales 2In sum, we do not have to consider all data, as long as we do consider the right, the ’core’ data. . [Saebo, 2004]

El acierto que ello supone es el mayor posible para una investigación de este tipo. En contra, nos enfrentamos a la que denominaremos la paradoja del corpus: necesitamos corpus etiquetados para saber qué información es más frecuente o/y relevante, pero necesitamos decidir primero cuál es esa información para poder etiquetar los corpus. El problema es de difícil solución, pero Barbara Partee (1995) nos ofrece una pista:

Si podemos encontrar análisis con un grado elevado tanto de elegancia formal como de generalidad empírica, podemos sospechar que estamos en el camino correcto 3If we can find analyses with a high degree of both formal elegance and empirical generality, we can suspect that we are on the right track. .

Como ya hemos señalado, los mayores avances en la semántica se han producido partiendo de unos datos elegidos cuidadosamente y finamente detallados (por ejemplo, las ontologías de dominios específicos e, incluso, las generales como Wordnet). Nuestro acercamiento es diferente. Procuramos seguir el consejo de Partee para que los datos no se criben desde sus orígenes, sino que sean provistos por los propios corpus. Lo justificamos con la pretensión, quizás tan utópica como necesaria, de no contaminar los datos con nuestra interpretación y nuestros prejuicios.

Salvamos con la no-selección de los textos la condena inicial. La aceptación de unos datos y el rechazo de otros es un modo de dar por verdaderos unos prejuicios sin necesidad de explicitarlos y aún menos de explicarlos. El empleo de corpus que proponemos es, utilizando la denominación de Saebo, naturalística o sistemática: no buscamos en los textos aquellos fragmentos que nos parecen de mayor interés, sino que los aceptamos todos por igual. El que haya o no un modo apriorístico y correcto de discriminación deberá ser algo a deducir a partir de la experiencia del trabajo sistemático con ellos.

Es justo decir que, aun salvando el problema expuesto, el uso de corpus no es un remedio milagroso. Como veremos en la siguiente sección, las críticas contra él se han sucedido desde el momento mismo de su nacimiento. El defecto de más difícil solución es el derivado del carácter infinito de las lenguas [Chomsky, 1957]. Si aceptamos que una lengua permite un conjunto infinito de combinaciones, es claro que no podemos optar a contener en un corpus todos sus casos posibles. La lengua está en continuo proceso de creación y coincidimos con Paul M. Lloyd (1993) cuando la describe no como un objeto físico (que tendría límites, una forma relativamente estable y sería empaquetable), sino como una actividad que se expresa físicamente y con la que cada hablante crea el lenguaje con sus producciones.

El corpus nos ayudará sólo como referencia relativa, pero será fundamental para saber qué fenómenos son frecuentes y cuáles marginales, y para así focalizar nuestros esfuerzos en los problemas adecuados.

En las siguientes secciones, repasaremos brevemente la historia de la lingüística de corpus así como las características de los dos corpus sobre los que hemos trabajado, detallando las peculiaridades de ambos con el fin de permitir una mejor comprensión de los demás capítulos y de mostrar las cualidades de dos colecciones de naturaleza muy diferente.

2.2. La lingüística de corpus

La historia de la lingüística de corpus, en el sentido en que nosotros la entendemos, es muy breve, pero tenemos constancia del estudio de la lengua a partir del análisis minucioso de textos desde hace miles de años. Ejemplos de ello son los trabajos clásicos griegos o los corpus que se realizaron durante la Edad Media con citas y comentarios bíblicos y que eran a menudo de gran tamaño. Estos trabajos centraban su objeto de estudio en los planteamientos poéticos y retóricos de los escritos, entendidos estos, eso sí, muy ampliamente.

En el siglo XX, los corpus fueron utilizados con una variedad de finalidades más amplia de las que destacaremos la lexicografía (por ejemplo El tesoro de la lengua de Covarrubias, el diccionario de Maria Moliner o el Oxford English Dictionary de 1933), la Gramática (Nebrija (1492), Jespersen (1909-1949), Kruisinga (1931-1932), Poutsma (1926-1929), Boas (1940), Fries (1952)), el análisis de la adquisición del lenguaje (Preyer en 1889, Stern en 1924 e Ingram en 1978); las convenciones ortográficas (el titánico trabajo de Käding en el año 1897 sobre la distribución de las letras y las sílabas en el alemán, ya con un corpus de 11 millones de palabras); la pedagogía (Fries y Traver, Bonger); y la lingüística comparativa (Eaton estudió en el año 1940 la frecuencia de los significados léxicos en holandés, francés, alemán e italiano).

Todos estos estudios son conocidas muestras de lo que algunos autores denominan la lingüística de corpus temprana [McEnery, 1996], que es aquella anterior a las publicaciones de Chomsky de los años 1956 y 1957. Las ideas de Noam Chomsky, como veremos más adelante, provocaron un cambio brusco que practicamente anuló el empirismo en los estudios lingüísticos en favor del racionalismo.

El sentido distinto que tiene actualmente la lingüística de corpus se suele relacionar con una de sus herramientas, el ordenador, lo que explica la evolución tardía de este tipo de trabajos. Douglas Biber, Susan Conrad y Randi Reppen (1998) resumen la metodología que se practica hoy en día en los siguientes cuatro puntos en los que resaltamos en negrita los conceptos fundamentales:

1.
es empírica ya que analiza los patrones reales de uso en textos naturales.
2.
utiliza grandes colecciones de textos, denominados “corpus”, como base de sus análisis.
3.
hace uso de técnicas automáticas e interactivas a través de los ordenadores.
4.
se basa en técnicas analíticas y cuantitativas.

Aunque el trabajo que nosotros presentamos se enmarca perfectamente en estas cuatro características, Berber Sardinha (2000) advierte que la naturaleza de los corpus actuales surgió, salvo en el punto 3, algunos años antes de que los ordenadores pudieran manejar con eficacia grandes cantidades de datos. En concreto, el Survey of English Language (SEU) fue desarrollado a partir del año 1953 por Randolf Quirk (1960) y su equipo con el objetivo de registrar un millón de palabras que estuvieran categorizadas gramaticalmente. Dicho trabajo comenzó realizándose con fichas de papel y el registro se produjo de forma completamente manual. Más adelante, en 1975, Jan Svartvik lo informatizaría.

La siguiente cita de Kennedy (1998) nos ayudará a profundizar en la definición:

[La lingüística de corpus,] como el resto de la lingüística, se dedica en un primer lugar a la descripción y a la explicación de la naturaleza, la estructura y el uso del lenguaje y de las lenguas, y de aspectos específicos como la adquisición lingüística, la variación y el cambio. Sin embargo, la lingüística de corpus ha desarrollado una vida propia dentro de la lingüística [general] con tendencia en ocasiones a centrarse más en la gramática léxica que en la sintaxis 4[Corpus linguistics,] like all linguistics, is concerned primarily with the description and explanation of the nature, structure and use of language and languages and with particular matters such as language acquisition, variation and change. Corpus linguistics has nevertheless developed something of a life of own within [general] linguistics, with a tendency sometimes to focus on lexis grammar rather than pure syntax. .

Es interesante observar cómo Kennedy resalta el hecho de que la lingüística de corpus no trata únicamente de comprender el uso de la lengua, sino también aspectos más teóricos como su estructura y su naturaleza esencial. La diferencia con la lingüística tradicional es, por lo tanto, únicamente metodológica. El método es, no obstante, claramente distinto: se parte de la observación de actos lingüísticos para llegar a realizar abstracciones generalizables a la mayor variedad y cantidad de datos posibles. El autor termina la definición advirtiendo de otra característica que él siente diferenciadora y que se ve en cierto modo corroborada por nuestro estudio: contra la corriente mayoritaria, centrada en el estudio de los fenómenos sintácticos (sobre todo a partir de los años 50 con el auge del Generativismo), la lingüística de corpus otorga una especial importancia a la parte léxica.

El origen primero de este modo de entender la investigación lingüística no se debería buscar, sin embargo, en la existencia de ordenadores ni en el deseo de abrir el campo de estudio más allá del sintaxiscentrismo. La causa más importante es la necesidad de hallar elementos que permitan al investigador verificar sus teorías de un modo claro y objetivo en un contexto histórico en el que las corrientes investigadores más potentes (física, química y biología) son claramente empiristas. Para este fin, el real life language use al que hacen referencia McEnery y Wilson (1996) tiene una ventaja evidente sobre los juicios introspectivos del investigador. Si nuestras proposiciones aparecen contrastadas con datos que han sido obtenidos del uso corriente y cotidiano de la lengua, el camino a aceptarlas como válidas es más rápido y transparente.

Los primeros trabajos de esta lingüística de corpus se encontraron con un impedimento aún mayor que el debido al déficit tecnológico: la oposición de la corriente teórica más potente del momento, la ya citada del Generativismo. Abundan los comentarios despectivos por parte de los seguidores de esta teoría contra los estudios fundamentados en corpus, metodología básica del Estructuralismo americano. El propio fundador, Noam Chomsky, expresó críticas contundentes que se han convertido en auténticos clásicos dentro de nuestro campo, las cuales creemos que se pueden resumir en la siguiente referencia al uso de datos estadísticos:

[Los aspectos estadísticos] no tienen nada que ver con la gramática; por ejemplo, seguramente no es una cuestión propia de la gramática del inglés el hecho de que “Nueva York” sea más probable que “Nevada” en el contexto “Vengo de —.” En general, me parece que la importancia dada a las consideraciones estadísticas ha sido sobrevalorada en las discusiones recientes sobre teoría lingüística . [Chomsky, 1964]

Obviando lo desafortunado del ejemplo que utiliza, podemos realizar dos observaciones importantes a partir de la cita. La primera es la confirmación de que la lingüística de corpus y los métodos estadísticos ya eran en el año 64 suficientemente importantes como para motivar tal tipo de queja. La segunda es que estas críticas se realizaron en un contexto en que los corpus y las perspectivas de su uso eran sumamente menores a las que existen en la actualidad [Abney, 1996Rojo, 2002].

Como bien señalan Tony McEnery y Andrew Wilson en el estudio citado más arriba, es difícil comprender cómo es posible que un planteamiento metodológico haya provocado, y provoque aún, discusiones tan encarnizadas. Muchas de estas controversias han llevado a un entendimiento erróneo de lo que realmente significa trabajar en lingüística de corpus y es común verlo equiparado a la sintaxis o a la fonética como si fuera una rama más de la lingüística cuando no es más que un medio de estudio válido para cualquiera de ellas.

Ambas propuestas, la racionalista promovida por los “anti-corpus” y la empirista de los “pro-corpus”, tienen sus ventajas y sus inconvenientes. Esperamos que estudios como el que aquí presentamos ayuden a desenterrar definitivamente la idea de que son incompatibles y a que más investigadores coincidan con la siguiente cita de Charles Fillmore (1992), que resume con exactitud nuestra postura:

Dudo que pueda haber algún corpus, por muy grande que sea, que contenga información sobre todas las áreas del léxico y de la gramática que yo quiero explorar... [pero] todos los corpus que he tenido la oportunidad de examinar, por pequeños que fueran, me han enseñado hechos que no podría imaginarme descubriéndolos de ningún otro modo. Mi conclusión es que los dos tipos de lingüistas se necesitan los unos a los otros .

La consideración de Noam Chomsky de que los corpus son inútiles para los lingüistas se debe a que buscaba el modelo del lenguaje en la competencia y no en la actuación, conceptos que después él mismo ha revisado y que se consideran separados en cualquier caso. La competencia sería, siguiendo sus ideas originales, el conocimiento interno que el hablante tiene del lenguaje. Por otro lado, la actuación es la evidencia externa de dicha competencia y su uso en un contexto y bajo unas circunstancias que pueden afectar a su forma. Este último hecho es el que convierte la actuación en un mal objeto para el estudio del auténtico lenguaje y es lo que hace que en la actuación sea más complejo definir lo que es una lengua ya que, como ejemplifican McEnery y Wilson con cierto sarcasmo, también son representaciones de la competencia de una lengua, por ejemplo, aquellas emisiones proferidas por hablantes afásicos.

Las críticas de Chomsky no se detuvieron únicamente en señalar que el objeto de estudio de los corpus era erróneo, sino que también advirtió que su uso sería imposible aunque fuera el acertado. Como sabemos, los estudios de Chomsky son netamente sintactistas y el número de frases de una lengua es incontable o, más exactamente, potencialmente infinito. Solo hace falta analizar el presente libro intentando buscar la repetición exacta de una sola de sus oraciones para comprender la lógica de esta afirmación. Por lo tanto, los corpus sufren la inevitable tara de la parcialidad y la incompletitud.

Los lingüistas de corpus contaban en aquella época con el problema añadido de la tecnología. Muchos alabamos maravillados el trabajo de algunos estudiosos de entonces por el tiempo y el esfuerzo que derrocharon en su empeño por trabajar con textos. Es difícil imaginar la magnitud de la tarea que debió de ser, por volver a un ejemplo ya citado, la búsqueda de datos de Käding en su corpus de once millones de palabras del año 1897. Nosotros debemos añadir que, además de costoso, el empeño no podía ser fiable. Según veremos más adelante, el corpus y su análisis tienen que compartir una característica primera, la coherencia, que no consideramos posible en un trabajo como aquel en el que se utilizaron 5000 analistas para desentrañar los documentos.

A partir de los años 80 y del fuerte desarrollo que se ha producido desde entonces en el diseño de los microprocesadores, los corpus medios han crecido en número, tamaño y complejidad de modo que son difícilmente comparables con sus antecesores. Además, se han utilizado metodologías estrictas para garantizar su coherencia y estas los han convertido en una base fiable para cualquier estudio lingüístico.

El trabajo con corpus conlleva unas limitaciones de vital importancia, pero es el único medio con el que contamos en la actualidad para acercarnos a nuestro objeto de estudio de una forma imparcial, esto es, no al estudio de lo que es teóricamente posible en el lenguaje, sino de lo que éste nos ofrece realmente en contextos naturales. Destacamos tres motivos que consideramos fundamentales:

Steven Abney (1996) defiende la lingüística computacional y las aproximaciones estadísticas demostrando que la estocástica no es sólo parte de la metodología de análisis, sino también de la propia naturaleza de las lenguas.

No debemos olvidar que las idealizaciones que realizó Chomsky eran un recurso, un modo de hacerse con la amplitud de nuestra ignorancia. Un aspecto del lenguaje son sus propiedades algebraicas, pero éste es sólo uno de sus aspectos y sin lugar a dudas no el único aspecto importante [...] Una gramática sin pesos distingue únicamente entre estructuras gramaticales y agramaticales y eso no es suficiente. “Sonar natural” es una cuestión de grado [...] Un modelo probabilístico es sólo una solución provisional a falta de una aproximación que incluya los factores que faltan: semántica, pragmática, sobre qué temas he estado hablando recientemente, cómo estoy de cansado, si desayuné esta mañana. .

En los últimos veinte años se han producido corpus en muy distintas lenguas y con muy diferentes finalidades. Los años ochenta se vivieron el resurgimiento más importante hasta la fecha del trabajo con colecciones de textos. Esa década vio nacer (al público) el Brown Corpus, comenzado por Francis y Kucera veinte años antes, que fue el primer corpus plenamente en formato electrónico y que impulsó el desarrollo del campo.

Johansson mostraba con la siguiente tabla en el año 1991 el proceso revitalizador que había sufrido esta metodología a partir de la segunda mitad de los años setenta:



FechasCantidad aproximada de estudios con corpus




hasta 1965 10


1966-1970 20


1971-1975 30


1976-1980 80


1981-1985160


1986-1991320


Desconocemos las cifras actuales, pero podemos asegurar que la progresión ha continuado hasta el día de hoy al menos a un ritmo similar.

2.3. Tipos de corpus

Proponemos la siguiente clasificación general de corpus simplificando las tipologías de Hunston (2002) y Marcos (1994):

1.
Corpus especializados. Están compuestos por textos que han sido elegidos porque poseen unas características concretas. Estas características pueden ser más o menos restringidas y se seleccionan según el tipo de estudio que se pretende realizar. Ejemplos pueden ser los corpus temáticos (p. ej. deportivo MUMIS [MUMIS]) y los de registro (p. ej. periodístico PennTreeBank [UAMSTreebank]).
2.
Corpus generales. No están restringidos salvo en aspectos muy básicos: pueden ser sólo orales, sólo escritos o mixtos. Dentro de este último tipo se encuentran los más importantes corpus de referencia, entre los que destaca el British National Corpus [BNC] en inglés y el Corpus de Referencia del Español Actual [CREA] en español.
3.
Corpus comparables. Están compuestos por subcorpus que comparten todas las características básicas salvo la de la lengua o variedad lingüística. Son utilizados sobre todo en estudios de lingüística comparada, de traducción y de enseñanza de lenguas. Podemos destacar el International Corpus of English (ICE) [ICE] y el C-ORAL-ROM [C-ORAL-ROM], con representación de las distintas variedades del inglés y de las lenguas romances respectivamente. C-ORAL-ROM es parte importante de este trabajo y será descrito en la sección 2.4.1.
4.
Corpus paralelos. Están compuestos por subcorpus de textos idénticos en distintas lenguas. Estos pueden ser producidos simultáneamente (por ejemplo, en la legislación de la Unión Europea o de Suiza) o ser uno de los subcorpus el original y los demás traducciones a partir de él. Se utilizan para el desarrollo de memorias de traducción.
5.
Corpus históricos. Son textos de distintos periodos históricos que se emplean para realizar estudios diacrónicos. El más conocido es el Helsinki Corpus (de textos en inglés) [THC], que recoge documentos desde el año 700 hasta el 1700, y el CORDE para el español [CORDE]. Dentro de este tipo, podemos diferenciar los corpus monitor, que se utilizan para el estudio de cambios diacrónicos en periodos de tiempo muy breves y que, por este motivo, deben ser actualizados constantemente.

Otro modo de clasificación frecuentemente utilizado es el que resalta el tipo de información con el que los textos han sido etiquetados. La tipología se corresponde normalmente con los niveles lingüísticos utilizados tradicionalmente: nivel acústico, fonológico, morfológico, sintáctico, semántico y pragmático. Cada uno de ellos puede etiquetarse con mayor o menor profundidad y con muy diversas informaciones que dependerán de la base teórica sobre la que se sustente el trabajo.

En algunos casos, también se consideran corpus válidos colecciones de textos que no tienen ningún tipo de anotación lingüística. Teniendo esto último en cuenta, se pueden considerar grandes corpus las hemerotecas o Internet, aunque para nosotros el valor de un corpus reside fundamentalmente en la calidad y fiabilidad de sus anotaciones y este tipo no entraría en la definición dada en la página §.

En la actualidad, es común el trabajo con corpus con capas concéntricas [Rojo, 2002] que contienen un núcleo relativamente pequeño altamente etiquetado y fiable, una segunda capa más amplia y con menos información, una tercera aún mayor y más sencilla y así sucesivamente.

Por último, se suelen distinguir los corpus según su formato, el cual determinará sin duda alguna su uso y sus limitaciones. Aún en la actualidad, la mayoría de los corpus existentes se presentan en texto, ya sea plano, con formato o con etiquetas. Sin embargo, cada vez son más aquellos que incluyen soporte multimedia.

Encontramos corpus que presentan el texto y el sonido de las interacciones alineados (como el C-ORAL-ROM que presentaremos más adelante), de gran utilidad para la enseñanza de lenguas y para el reconocimiento de habla, y otros que incluyen también las imágenes (denominados corpus multimodales o archivos digitales [Marcos, 1994]). Estos últimos son los más completos y costosos, pero son necesarios para realizar interpretaciones lo más eficaces posibles de las situaciones e interacciones que se plantean en el corpus. Podemos señalar a modo de ejemplo el proyecto SLT-ATR [SLT-ATR], desarrollado en Kyoto, que se ayuda del reconocimiento de los movimientos de las pupilas y de los labios para poder reconstruir los diálogos. Es justo señalar que este tipo de experimentos están aún en un punto temprano de desarrollo y que esto se debe en buena parte a la falta de corpus amplios que contengan toda la información necesaria, pero también que representan un campo de investigación muy prometedor.

Dentro de los corpus orales, distinguimos entre los que están compuestos por interacciones de habla espontánea y los que contienen interacciones guiadas. El coste de los primeros es tal que apenas existen y suelen tener una dimensión muy reducida. Los segundos, aunque también laboriosos, son sensiblemente más sencillos y algunos proyectos, por ejemplo el anteriormente mencionado SLT-ATR, cuentan con corpus comparables en varias lenguas de más de un millón de palabras.

2.4. Dos ejemplos

2.4.1. Corpus de lengua hablada: C-ORAL-ROM

2.4.2. Corpus de lengua escrita: UAM Spanish Treebank

2.5. Breve aclaración sobre el uso de los corpus

2.5.1. Información contenida previamente en el corpus

2.5.2. Legalidades

Volver al índice -- Capítulo siguiente: el análisis semántico oracional