1

Introducción

Gran parte del valor de las teorías, ya sean sobre el lenguaje, sobre la herencia biológica o sobre la estructura de la materia, descansa en su capacidad para mostrar a los investigadores qué es lo que deben buscar permitiéndoles descubrir así aspectos que de otro modo hubieran pasado desapercibidos y ver relaciones entre hechos que de otro modo hubieran permanecido inconexos . (McCawley, 1998)

1.1. Estructuras

Hay pocos conceptos que sean tan importantes para la humanidad como lo es el lenguaje. Cuando se trata de describir al ser humano, ya sea en términos físicos o filosóficos, casi siempre aparece como una de las características diferenciales más claras. Esto explica hasta cierto punto esa extraña obsesión que hemos demostrado hacia él a lo largo de la historia, con la mayoría de las culturas llegándole incluso a otorgar poderes mágicos y divinos (así como también diabólicos y oscuros).

Los científicos no podían permanecer ajenos a una llamada tan intensa, pero las cualidades particulares del lenguaje han hecho que se haya tardado siglos en encontrarle un hueco propio. En Occidente, el lenguaje pertenecía en la antigüedad a los estudiosos del pensamiento; más tarde se ocuparon de él los encargados de analizar la palabra divina (y la no divina) y después los cuidadores de textos o filólogos. Sin embargo, nos tenemos que remitir a una fecha más cercana, allá por los principios del siglo veinte, para encontrar el origen de la lingüística contemporánea.

El retraso que esto significa con respecto al nacimiento moderno de otras ciencias no evita que ya se hayan acumulado bastantes años de investigación esforzada y una imponente producción de libros que explican hasta el más recóndito aspecto de las lenguas. Sabiendo esto, sería normal que te preguntaras por qué se me ha ocurrido escribir otro libro sobre el tema, además con un título tan general y, sobre todo, por qué podría ser interesante su lectura. Espero que esta introducción sea lo suficientemente convincente como para que continúes con tu lectura...

El retraso mencionado en la lingüística se nota hoy en día especialmente en una disciplina de nombre ciertamente moderno: la ingeniería lingüística. Para no alejarnos mucho de esta denominación y no derrochar líneas, la podemos definir como la disciplina encargada de desarrollar sistemas (ingenios) relacionados con la lengua. Ejemplos muy bien conocidos por todos porque nos rodean en nuestra cotidianidad son los correctores ortográficos de los editores de texto, los buscadores y traductores automáticos de Internet y las vocecitas misteriosas que nos hablan desde el GPS o desde el otro lado de una línea de consulta telefónica. Son, por lo tanto, todos aquellos sistemas que conllevan el procesamiento o la producción de lenguaje por parte de una máquina.

La necesidad de diseñar sistemas cada vez más competitivos con la prontitud que el mercado exige en la sociedad de la información se ha traducido durante las dos últimas décadas en una inversión importante e inesperada en proyectos relacionados con la lingüística. El dinero nos ha traído, por no perder su costumbre, cosas mejores y peores. De las primeras nos importa aquí la posibilidad de dedicar equipos científicos completos a cuestiones lingüísticas con ciertos lujos que sólo se suelen ver en disciplinas que llevan la impronta de “ingeniería”. Entre los peores, los estudiosos de la lengua nos hemos olvidado de su visión global acuciados por el deseo de obtener resultados prácticos e inmediatos que justificaran el dinero dado y -a poder ser- que atrajeran nuevas inversiones. La comprensión de su funcionamiento general ha pasado a un segundo plano relegada por los requisitos que cada sistema impone. Podemos volver al ejemplo del GPS: si tuviéramos que diseñar un sistema de este tipo en un corto plazo, nos preocuparía que los sonidos y las entonaciones sonaran naturales, que las palabras aparecieran en el orden adecuado y que las oraciones fueran gramaticales (conjugación correcta, casos adecuados, etc.). Es poco probable, sin embargo, que con esos objetivos se nos pasara por la cabeza la idea de recopilar todos los patrones prosódicos del español y crear una gramática morfosintáctica completa.

Este retrato mínimo del panorama actual no tiene un final feliz, al menos de momento. El edificio se ha empezado en muchos casos por el tejado y el invento se tambalea en el momento en que intentamos intercambiar conocimiento o generalizar nuestros logros siquiera a una lengua completa.

Así llegamos por fin a la justificación del objeto que tienes en tus manos: este libro es un intento de establecer una base que reduzca los temblores a los que nos acabamos de referir. Quizá por ello los resultados te puedan parecer poco espectaculares y algo alejadas de las pretensiones actuales de la ingeniería lingüística. Los resultados son básicos, pero la propuesta de este libro conlleva sin embargo cierto riesgo por dos motivos sobre los que basaremos el resto de esta introducción y que se deben precisamente al hecho de que nuestro objetivo sea encontrar elementos básicos para el estudio de la lengua:

En cuanto al primer punto, presentaremos una visión en la que la morfosintaxis y la semántica estarán estrechamente relacionadas. Por este motivo, mejor que intentar decidirnos por una de las caras de lo que consideramos una misma moneda, este trabajo se centra en una parte fundamental de lo que ambas comparten: la estructura. Como explicaremos más adelante, utilizamos la semántica como base inicial para estudiar estas estructuras por motivos que podríamos calificar de prácticos. De nuevo puede parecer arriesgada la elección, pero esperamos que las dos partes de las que se compone este libro ayuden a comprender lo que nos ha llevado a ella.

Quizá se deba señalara que estas páginas no pretenden ser una revisión exhaustiva del funcionamiento del español, sino más bien un andamio firme sobre el que realizar dicha revisión. No pueden reemplazar las introducciones a la gramática o a la sintaxis que ya existen sobre el español, sino que pueden más bien utilizarse como introducción a esas otras introducciones en el sentido en que establece unos fundamentos que, si bien serán difícilmente compartidos por los manuales de sintaxis, pueden iluminar algunos de los mayores problemas que estos plantean.

En cuanto al uso de corpus y a diferencia de lo encontrado en las gramáticas que hemos consultado en los años dedicados al estudio de la lingüística, no calificaremos ningún ejemplo de agramatical o erróneo. Nos centraremos precisamente en el polo opuesto, en el de las construcciones que, sean como sean, aparezcan en nuestras colecciones de textos (aunque prestando más atención a los casos que sean más frecuentes para poder ajustarnos a las posibilidades de este volumen).

Las conclusiones que propondremos responderán a lo encontrado en los dos corpus que hemos utilizado en nuestros trabajos y que presentaremos más adelante en detalle. Estos corpus incluyen una amplia variedad de temas y registros y uno de ellos tiene la valiosa característica de estar formado por transcripciones de lengua hablada. Esto último es algo que se debería tener en cuenta a la hora de comparar nuestros resultados con los que ofrecen otros trabajos, casi siempre basados en lengua escrita aun en aquellos casos (como suele ser el de las gramáticas) en que no se especifica. Más adelante en esta introducción, intentaremos explicar las razones para utilizar este tipo de corpus y esperamos dar las pistas suficientes durante la primera parte del libro como para permitir al interesado adaptar este estudio a las colecciones de textos que crea más convenientes.

Al ocuparnos de lo que consideramos la base estructural sobre la que se cimenta el lenguaje, será difícil evitar comentarios sobre otros aspectos quizá más propios de la pragmática o la sicolingüística. Advertimos aquí que sólo son apuntes basados en intuiciones surgidas al analizar nuestros datos y que carecen de un uso riguroso del aparato científico propio de esas disciplinas. Si nos hemos atrevido a publicar algunas de estas ideas desde la semántica, ha sido porque hemos creído que podían ser sugerentes para estudios desde esas otras perspectivas y tenemos la esperanza de que algún especialista en ellas coincida en este interés y se ponga manos a la obra.

1.2. ¿Semántica?

Comenzaré justificando el nivel lingüístico elegido puesto que nos encontramos en un momento en que el sintáctico es el predilecto en la mayoría de los estudios teóricos mientras que el pragmático gana terreno especialmente en relación con aplicaciones comunicativas dentro de la inteligencia artificial. Lo haré comparando sus ventajas con las de estos otros dos niveles.

A diferencia de la sintaxis, la semántica, tal y como la vamos a definir y utilizar aquí, ofrece la posibilidad de una estructuración del lenguaje que es universal y que nos permitirá dividirlo en partes en una clasificación sin ambigüedades. De este modo, evitamos la complejidad morfosintáctica (que se da en todas las lenguas) y reducimos el aparato teórico a lo que se puede considerar su mínimo (mínimo formal, que no informativo). La relación entre formas sintácticas y estructuras eventivas es reduccionista, esto es, una misma estructura eventiva se puede expresar de muchas formas morfosintácticas y entonativas diferentes incluso dentro de una misma lengua. Daremos buena cuenta de esta circunstancia en los capítulos de la segunda parte.

Con respecto a la pragmática y aunque consideremos que el objetivo de un enunciado no se reduzca a la estructura semántica que nosotros estudiamos, este contenido semántico no requiere para su análisis de otras fuentes de información que el pragmático sí necesita (como son el conocimiento del mundo y el contexto comunicativo) y que no son accesibles en la mayoría de los corpus actuales.

Como esperamos demostrar en los capítulos 5, 6, 7 y 8, la estructuración semántica facilita estos otros acercamientos dándonos un esqueleto sobre el que construir sus análisis, pero el camino inverso no es posible. Son muchos los autores que han advertido que el comportamiento sintáctico de una palabra depende de su significado (véase, por ejemplo, Wierzbicka (1996)). Si aceptamos que la gramática tiene su razón de ser en la codificación del significado [Tenny, 2000Wierzbicka, 1996], habremos de aceptar también una correlación muy estrecha entre los fenómenos semánticos y los morfosintácticos hasta el punto de que la distinción parece a veces caprichosa. La sintaxis se desarrolla para expresar la estructura conceptual por lo que se espera que las propiedades conceptuales se reflejen en ella [Jackendoff, 1990].

Apoyamos las teorías que apuestan por una relación entre la semántica y la sintaxis uniforme y directa [Baker, 1997Bouchard, 1995Tenny, 2000Mateu, 1999], pero esta relación sólo es posible desde una semántica de marcado carácter estructural como la que se presentará en la primera parte de este libro, evitando otro tipo de significados y en consonancia con las siguientes palabras de Bouchard (1995) (citado también en Mateu (1999)).

La suposición de que la información del conocimiento de fondo está implicada en la correspondencia entre las estructuras semánticas y las estructuras sintácticas ha llevado a los investigadores a postular representaciones semánticas que son muy distintas de las sintácticas de las que parten. [...] Si se adoptan representaciones semánticas inadecuadas, la correspondencia entre la semántica y la sintaxis se vuelve imposible porque uno de los elementos de la relación carece de las cualidades adecuadas .

Otra justificación para la elección del nivel semántico es advertir que lo esencial en una lengua es su utilidad, sus contenidos. Podemos imaginar la existencia de lenguas con formas completamente distintas a las que conocemos; idiomas, si queremos extremar el ejemplo, extraterrestres en los que ninguna de nuestras categorías morfosintácticas tengan sentido alguno. Lo que no podemos imaginar es la existencia de lenguas que no sirvan como vehículo de ideas y sensaciones: lenguas sin significados. Recordamos la definición clásica de Edward Sapir, que implica que todo estudio lingüístico se centra, de una manera más o menos directa, en la dimensión semántica.:

El lenguaje es un método exclusivamente humano y no instintivo para comunicar ideas, emociones y deseos por medio de un sistema de símbolos producidos de manera deliberada . [Sapir, 1921]

Angeliek van Hout (2000) llega a la siguiente conclusión, coincidente con nuestra postura, tras estudiar la telicidad en los verbos holandeses:

Las propiedades del tipo eventivo tienen importancia en la interfaz léxico-semántica en la que los verbos se clasifican según marcos sintácticos [...] Yo defiendo que las alteraciones del marco verbal (o estructura argumental) son expresiones de diferentes estructuras eventivas .”

Nuestra propuesta aún tiene otra ventaja desde el punto de vista teórico. El uso de un aparato sencillo, con distinciones claras y válidas para todos los análisis, nos aleja de problemas característicos para la generalización de otras aproximaciones más complejas que son excelentes para la explicación de algunos fenómenos (a menudo tan interesantes como marginales en el uso cotidiano de la lengua), pero incapaces de abordar todas las oraciones que podemos encontrarnos en un corpus a no ser que este se encuentre fuertemente restringido. La simplificación del aparato teórico nos ha permitido, desde un punto de vista más práctico, el diseño de un sistema de etiquetado semántico que puede ser utilizado con unos costes razonablemente reducidos.

Por todo lo dicho hasta aquí, se puede deducir que nuestro análisis no pretende ser definitivo, sino todo lo contrario: el deseo es que sirva de esqueleto para estudios posteriores que podrán centrarse en problemas más específicos y relativos a otros niveles lingüísticos. Sin embargo, no es esta una visión simplista de la semántica de las lenguas, sino un intento de huir modestamente de su complejidad última en busca de regularidades lo más certeras posibles. El objetivo principal es avanzar en la adquisición de esa amplia experiencia que es imprescindible para lograr establecer unos principios generales en la descripción del lenguaje [Jackendoff, 1990]. Propondremos algunos de los posibles estudios que nuestro planteamiento permite a lo largo de los siguientes capítulos y en las notas finales.

1.3. ¿Corpus?

En todas las ciencias, el modo más exacto de realizar un análisis es el que parte de la observación de su objeto de estudio. La mala noticia es que, a diferencia de lo que ocurre en otras disciplinas, las lenguas humanas no son directamente observables en su completitud. Para ello y dependiendo de la definición de lengua que aceptemos, el investigador no sólo tendría que tener delante todas las emisiones que se han producido o que se producen, sino también aquellas que pudieran ser producidas en algún momento del futuro, lo que nos lleva a una cantidad infinita [Chomsky, 1957]. Este carácter inabarcable de las lenguas es el que ha obligado a los estudios lingüísticos a reducir el objeto de un modo más o menos drástico ya sea seleccionando algunos ejemplos teóricamente relevantes o eligiendo una lengua producida en un determinado contexto.

La buena noticia es que el desarrollo tecnológico reciente ha permitido ampliar enormemente la extensión de la lengua que podemos estudiar. La potencia de los ordenadores actuales es suficiente para tratar grandes cantidades de datos en poco tiempo y, de este modo, técnicas de análisis lingüístico que hasta hace poco ni tan siquiera aparecían en las novelas de Douglas Adams han pasado a formar parte de la cotidianidad de los proyectos actuales.

Para poder utilizar estas técnicas y obtener con ellas nuevos resultados, la primera condición es tener una fuente de la que obtener los datos, es decir, un corpus y se está desarrollando en la actualidad una importante cantidad de ellos en múltiples lenguas (haremos un breve repaso a la lingüística de corpus en el capítulo 2).

El concepto de corpus lo definimos como:

Una colección de textos transcritos y anotados con etiquetas a partir de las cuales se extrae información lingüística.

En el caso de los corpus anotados con datos semánticos, los estudios llevados a cabo hasta el momento coinciden en la necesidad de acotarlos estrictamente, casi siempre reduciéndolos a un único dominio. Se pretende encontrar así la estructura del dominio elegido y agotar las relaciones que este encierre en la medida de lo posible. La selección del tema suele estar motivada por la finalidad del proyecto y, especialmente en los trabajos de inteligencia artificial, acostumbran a estar relacionados con aplicaciones económicas.

Estos planteamientos proponen el estudio de un todo, el lenguaje, a partir del análisis minucioso de una de sus partes que siempre es mínima en comparación con el objeto completo. Posteriormente, la complejidad de los análisis realizados es tal que resulta imposible trasladarlos al estudio de un dominio no restringido: el sistema está a(dap)tado a un mundo específico.

Para evitar este grave problema, una de nuestras principales propuestas es la viabilidad de un sistema de etiquetado semántico que permita el análisis de corpus sin restricción de ningún tipo. Trabajaremos con corpus tanto de lengua hablada como de lengua escrita (para una explicación detallada de esta distinción, véase Marcos (1994)) y, en su conjunto, incluirán una gran variedad de temas y registros.

Una de las novedades más importantes de este trabajo se encuentra en el uso de un corpus de lengua hablada, que es, además, sobre el que analizaremos la sintaxis. La tradición lingüística ha sido -y es- muy persistente en el rechazo de este tipo de estudios, utilizando distintos argumentos de entre los que destacaremos tres por su repercusión.

El primero es el que prefiere el uso de ejemplos ad hoc. Las construcciones que no encajan en la teoría quedan desprestigiadas como erróneas o socialmente inapropiadas mientras que la lengua del lingüista se presenta como un estándar. Este tipo de planteamientos anula una de las mayores ventajas de los estudios lingüísticos, esto es, que el hábitat es prácticamente infinito: allá donde nos encontremos habrá auténticas muestras de lenguaje para nuestras investigaciones. Además, propone un análisis lingüístico basado más en la norma que en la descripción.

El segundo argumento es el de la complejidad del lenguaje y la conveniencia de descomponerlo en partes mínimas que hagan posible su estudio. Este tipo de acercamientos han sido siempre mayoritarios si exceptuamos algunas aproximaciones de sesgo filosófico. Es evidente que el lenguaje es potencialmente infinito por su creatividad esencial [Chomsky, 1957] y que su comprensión completa nos es aún lejana. No obstante, la fragmentación ha propiciado una visión de puzzle que creemos errónea y que es peligrosa porque -paradójicamente- hace aún más complejo su estudio.

Por último, aparece el problema más evidente e inevitable: la falta de corpus sobre los que trabajar. Los textos narrativos y la lengua escrita en general son muy asequibles, pero no lo es tanto su etiquetado. Actualmente y gracias a Internet, tenemos a nuestra disposición el corpus escrito más amplio que jamás haya existido y lo tenemos en un número amplio de lenguas, pero carece de anotaciones lingüísticas. El desarrollo de un corpus supone un esfuerzo importante para cualquier grupo de investigación (se puede leer, como descripción minuciosa de una experiencia de este tipo, [MSandoval, 2005]), pero un corpus etiquetado es, como veremos, un recurso de incalculable valor. En nuestro caso, hemos tenido la suerte de tener a nuestra disposición dos corpus de alta calidad que describiremos en las secciones 2.4.1 y 2.4.2. En cuanto a Internet, se están desarrollando proyectos para añadir más información a los textos que nos ofrece (un buen ejemplo es el proyecto Smartweb), pero raramente incluyen estructuras lingüísticas.

La utilidad de un corpus está directamente relacionada con el sistema de etiquetado, que debe ser informativo y no críptico ni engorroso. La facilidad formal del trabajo de etiquetado, incluso manual, es una de nuestras prioridades puesto que el fin último del sistema es posibilitar un corpus analizado de las mayores dimensiones posibles con el menor coste de tiempo y de esfuerzo. El ideal sería que el transcriptor/analizador únicamente tuviera que captar el contenido de la información que va a registrar, despreocupándose por completo del método de anotación. Cuanto más sencillo es un etiquetado, menos inversión requiere la anotación de los corpus, algo a tener en cuenta especialmente en un momento en el que es tan evidente la diferencia de desarrollo de colecciones entre las lenguas que son poderosas económica o estratégicamente (inglés, alemán, árabe, chino, etc.) y las que no lo son.

A su vez, el sistema debe ser lo suficientemente flexible como para permitir todos los análisis requeribles en cualquier transcripción, pero lo suficientemente restrictivo como para garantizar que se respeta siempre la coherencia con los planteamientos teóricos de los que se parte.

D. Jurafsky y a James H. Martin (2000) resumen los requisitos básicos exigibles en una representación semántica en cinco puntos que incluimos a continuación esquemáticamente:

1.
Verificabilidad. El valor de verdad de una representación semántica con relación a un mundo modelado según una base de conocimiento.
2.
Desambiguación en la representación y eliminación de las imprecisiones.
3.
Forma canónica a través de la desambiguación del sentido de las palabras.
4.
Capacidad de inferencia de conclusiones válidas a partir de las representaciones semánticas y del conocimiento.
5.
Expresividad del sistema de representación.

A estas exigencias le añadimos nosotros la de la representación de la composicionalidad. Esta última, que describiremos más adelante con detalle (en la sección 3.4), nos permitirá mostrar más fácilmente que la distinción entre sintaxis y semántica es más metodológica que real [Ramsay, 1990] ya que cada parte del análisis semántico se corresponderá con reglas sintácticas.

1.4. La lectura de este libro

El libro se ha publicado en papel (ISBN: 978-84-8344-069-8) dividido en dos partes distintas que pueden interesar a lectores diferentes.

La primera parte (capítulos 2, 3 y 4) es una introducción al análisis eventivo de corpus. Revisamos los trabajos clásicos de la lingüística de corpus así como los principales acercamientos al análisis semántico de textos. Como fruto de ambos aspectos, presentamos SESCO, un etiquetado que consideramos puede ser de gran utilidad para los estudios lingüísticos. Finalmente, se describe la experiencia del etiquetado real de documentos orales y escritos y sus problemas prácticos.

Esta primera parte puede ser de utilidad para todo aquel interesado en la anotación de corpus con información lingüística ya sea con el conjunto de etiquetas propuesto aquí o con cualquier otro. Los trabajos de etiquetado de corpus son realmente escasos (aún menores si nos referimos a los de corpus de habla espontánea) y esto le da un valor añadido a testimonios como el que aportamos. La exposición no presupone un conocimiento especializado por parte del lector ya que tiene carácter introductorio e incluye la explicación detallada de todos los conceptos de semántica relacional que se utilizan. Puede ser de especial provecho para estudiantes o investigadores de lingüística computacional y de procesamiento del lenguaje natural. Si tu interés es plenamente lingüístico, quizá sea interesante que dejes el capítulo 4 para el final puesto que es el más técnico desde el punto de vista del etiquetado y el menos teórico desde el lingüístico.

La segunda parte del libro (capítulos 5, 6, 7 y 8) es un estudio básico de las estructuras sintácticas que conforman el español en tres niveles: la palabra, el sintagma y el discurso. Puesto que nuestro análisis semántico es oracional (basado en los conceptos expuestos en los capítulos 3 y 4), la descripción tomará la oración como punto de referencia para detallar los análisis de las otras unidades.

Esta segunda parte será relevante para el interesado en el análisis semántico, en el funcionamiento de la lengua española o en el uso general de la información codificada en los corpus para su posterior estudio lingüístico. Al estar basado en SESCO, presupone cierta familiaridad con lo expuesto en el capítulo 4 de la primera parte.

La presente versión digital contiene la mayor parte del texto original con algunos cambios para facilitar su lectura en una pantalla. Sin embargo, debe tenerse en cuenta que el libro fue ideado originalmente para ser leído en papel y que esta es sólo una adaptación reducida para hacerlo más accesible. La versión completa se encuentra editada por UAM Ediciones (Alcántara Plá, Manuel. 2007. Introducción al análisis de estructuras lingüísticas en corpus. Aproximación semántica. Madrid: UAM Ediciones - ISBN: 978-84-8344-069-8). (Nota del autor a esta versión).

Los ejemplos que se aportan para clarificar los resultados o los conceptos explicados en ambas partes provienen de nuestros propios corpus salvo en los casos minoritarios en que se indica lo contrario. Puesto que los corpus sobre los que trabajamos tienen una difusión importante, cada ejemplo vendrá acompañado por el nombre de la transcripción a la que pertenece entre corchetes en nota a pie de página para facilitar su identificación y su contextualización. De este modo, si el lector tiene acceso a los corpus originales (ambos con distribución en el momento en que se publica este libro), podrá examinar contextos más amplios o escuchar los diálogos a los que pertenecen.

Las citas bibliográficas incluirán tanto referencias tradicionales a los libros que hemos consultado como a páginas de Internet cuyo contenido nos ha sido igualmente valioso. Ambos tipos serán citados del mismo modo salvo por el hecho de que las páginas carecerán de fecha de publicación (por ejemplo, [McCawley, 1973] y [UAMSTreebank]). Por su naturaleza, no es posible asegurar que las páginas de Internet mantengan el contenido ni tan siquiera que existan en el momento en que se lea la referencia correspondiente. Por contrapartida, es probable que, si existen, ofrezcan datos más actualizados que los que nosotros hemos tomado de ellas.

Cada capítulo viene precedido de una sección introductoria sobre los problemas que en él se afrontan.

1.5. Agradecimientos

Este libro no existiría sin el trabajo de mucha gente durante varios años. Aunque el autor se reserva la responsabilidad por todos los errores que contengan estas páginas, quiere agradecer su ayuda a todos aquellos que las han hecho posibles. En especial, a Antonio Moreno Sandoval por el apoyo y los valiosos comentarios que me ha proporcionado a lo largo de ya más de siete años, además de haber sido el director de mi tesis doctoral, origen de mucho de lo que aquí se cuenta. También quisiera agradecerle la ayuda a todo el equipo del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (LLI-UAM), compañeros de lucha en la transcripción y desentrañamiento de muchos de los textos que he utilizado.

Parte de los experimentos se enmarcan dentro del trabajo realizado para el proyecto europeo C-Oral-Rom. Quisiera agradecer la ayuda y los sabios comentarios de los participantes en dicho proyecto, miembros en su mayoría del Laboratorio del Departamento de Italianística (LABLITA) de la Universidad de Florencia, del Centro de Lingüística (CLUL) de la Universidad de Lisboa y del grupo de Descripción Lingüística Informatizada a través de Corpus (DELIC) de la Universidad de Provenza. Especialmente, quisiera agradecer el apoyo de los dos directores de aquella bonita aventura científica, Emanuela Cresti y Massimo Moneglia.

Los resultados presentados no habrían sido los mismos si no hubiera podido realizar dos estancias de investigación en el Centro Alemán de Inteligencia Artificial (DFKI) de Sarrebruck y en el Centro de Investigación de Comunicación Humana (HCRC) de Edimburgo. A Thierry Declerck y a Mark Steedman les agradezco su ayuda por ello y por sus valiosos comentarios.

Volver al índice -- Capítulo siguiente: El trabajo con corpus