4

El etiquetado con información semántica
4.1. Introducción

Para trabajar con corpus, necesitamos diseñar un sistema de etiquetado que nos permita almacenar los análisis lingüísticos que queremos estudiar. En nuestro caso, este sistema se corresponde con un conjunto de etiquetas para la anotación de las estructuras semánticas que hemos presentado en el anterior capítulo. Aquí explicaremos detalladamente qué etiquetas utilizamos y cómo se interpretan.

Hemos insistido ya en la importancia que tiene la flexibilidad y la sencillez en la lingüística de corpus, características que consideramos vitales para que una teoría sobreviva al contacto directo con la lengua. Estas exigencias son igualmente importantes en el caso de un formato de etiquetado.

Otro requisito que nos parece fundamental es utilizar una metodología que esté ampliamente aceptada en nuestra disciplina y en el mayor número posible de áreas de conocimiento. De esta forma, podremos utilizar recursos que hayan sido desarrollados en otras investigaciones y será más fácil compartir después los nuestros. El formato XML (Lenguaje de Etiquetado AmpliableLas siglas se corresponden con este nombre en la lengua inglesa: eXtensible Markup Language). ) es el más adecuado puesto que ha sido aceptado recientemente por el consorcio de la Text Encoding Initiative, es el más extendido en la actualidad y está presente en la mayor parte de los proyectos que incluyen el etiquetado de información lingüística.

El XML es un subconjunto del SGML (Lenguaje de Etiquetado Generalizado y Estándar 2Standard Generalized Markup Language. ) diseñado con el fin de lograr un formato universal para los documentos estructurados de la Red. Dentro de los datos estructurados se incluyen todo tipo de informaciones desde agendas hasta datos bancarios, nuestro sistema semántico, informes técnicos, etc. Su desarrollo se inició en 1996 y el prestigioso consorcio internacional W3C recomienda su uso desde el año 1998. El XML es uno de sus hijos predilectos.

A pesar de su nombre, el XML no es un lenguaje de etiquetado, sino un conjunto de normas esenciales para el diseño de lenguajes de este tipo por lo que existen multitud de conjuntos de etiquetas diferentes basados en él. El XML garantiza que los datos se estructuren de un modo que sea comprensible por todo aquel individuo o programa que conozca las convenciones. La sencillez con la que se ha diseñado permite que los lenguajes hechos a partir de él sean fácilmente asimilables sin necesidad de profundos conocimientos informáticos.

Destacaremos las tres características principales que hacen que sea una elección idónea para este tipo de trabajos:

Merece ser señalada también una característica de carácter práctico: el XML se puede utilizar gratuitamente sin pago de licencias, causa de que haya tantos usuarios y desarrolladores de software dedicados a él.

La base de datos mayor y más actualizada sobre el formato XML es la página de Internet del citado consorcio W3C World Wide Web (en la bibliografía [W3C]), dedicado al desarrollo de herramientas tecnológicas dirigidas al progreso de Internet como lugar de intercambio de información. Puede ser el lugar idóneo de inicio para quien esté interesado en sus detalles más técnicos.

La apariencia de un texto XML es muy similar a la de uno HTML (Lenguaje de Etiquetado Hipertextual 4Hypertext Markup Language. ), el subconjunto de SGML más conocido hasta el momento por tratarse de la base sobre la que se fundamenta Internet. Ambos se componen de texto marcado por etiquetas con la forma <nombre> (o </nombre> si es la que señala el final del elemento) que pueden contener atributos del tipo atributo = “valor”. La mayoría de los navegadores de Internet tienen una opción para visualizar el código fuente de la página que estamos visitando con lo que es fácil conseguir ejemplos reales de documentos escritos en HTML.

Tanto en HTML como en XML, el documento etiquetado es inevitablemente mucho mayor que la fuente y no es extraño que, dependiendo del diseño de las etiquetas, resulten excesivamente verbosos. Un ideal teórico del XML es que sea inteligible para el ser humano y así lo proclaman la mayoría de sus defensores, pero es algo difícil de aceptar tras enfrentarse a cualquiera de los más populares sistemas de etiquetado de la lingüística computacional (el nuestro en su primera versión es, en realidad, extrañamente sencillo). No obstante, el texto se almacena con escasas necesidades de espacio gracias a que es texto plano sin formato (aproximadamente medio kilobyte por cada oración etiquetada en SESCO).

Por último, quede claro que el que etiquetemos un estado locativo con marcas del tipo <E>, <LOC>, <LEX>, etc., como veremos más adelante, y no con una fórmula neodavidsoniana del tipo 3x(x,y) no significa que variemos de algún modo el análisis, sino que únicamente lo formalizamos del mejor modo posible para poder extraer posteriormente la información automáticamente.

En la siguiente sección (4.2), explicaremos con detalle la DTD de la versión 1.0 de SESCO, es decir, las estructuras en XML con las que podemos hacer nuestros análisis semánticos. Como veremos más adelante en la sección 4.6, existe una versión 2.0 que ha sido desarrollada para permitir la compatibilidad del etiquetado semántico con análisis en otros niveles lingüísticos y con corpus multimodales. A pesar de ello, pensamos que la versión SESCO 1.0 es fundamental para comprender su funcionamiento ya que refleja más gráficamente la composicionalidad del análisis y es, por lo tanto, más intuitiva.

En la sección 4.3, nos introduciremos en la labor del etiquetado, generalmente la parte más cara al menos en términos de tiempo y esfuerzo en la elaboración de un corpus lingüístico. Las dos secciones siguientes (4.4 y 4.5) se centrarán en la descripción de nuestra propia experiencia etiquetando corpus y mostraremos en ellos las características de esta labor tanto con textos de habla espontánea como con los de lengua escrita, diferenciando también entre un etiquetado realizado manualmente (en nuestro caso, el de la lengua hablada) y otro realizado de forma semiautomática (el de la lengua escrita). Este último nos servirá como introducción al tema principal de la segunda parte de este libro, la relación entre las estructuras semánticas y las sintácticas.

4.2. El conjunto de etiquetas

La estructura y los contenidos de los proyectos en XML se describen en un documento específico denominado Definición del Tipo de Documento 5En inglés Document Type Definition. (DTD). Dado que la DTD describe todos los elementos, los atributos para cada uno de ellos y las relaciones entre elementos que admite el sistema, es apropiado que la consideremos una gramática escrita formalmente en XML. Su explicación en la presente sección, por lo tanto, lo será también de la estructura y del sentido del sistema de etiquetado semántico, y será inevitable que hagamos referencia a muchos de los aspectos tratados previamente en el capítulo 3.

Una copia de la DTD completa tal y como la hemos utilizado nosotros se encuentra en el apéndice B.1. El diseño de esta última versión se realizó utilizando el inglés como lengua para los metadatos para facilitar su uso por grupos de investigación internacionales cuya lengua de trabajo no es el español. En nuestro caso, además, hace más nítida la separación entre el etiquetado y aquello que se etiqueta.

Comenzamos con nuestra DTD diferenciando los nombres de las etiquetas a través de las mayúsculas. En toda estructura XML, debe existir un elemento mayor que contenga al resto. Si nos imaginamos la estructura con la forma de árbol, este elemento es la raíz de la que salen todos los demás y, por este motivo, se le denomina a veces con este nombre. En SESCO la llamaremos SESSION siguiendo el uso en otros proyectos (por ejemplo [IMDI]).

Cada SESSION está compuesta por un elemento MDAT y por uno o más elementos S. Los definimos a continuación.

MDAT 6Pondremos a pie de página el sentido en inglés de los nombres de las etiquetas cuando estas sean siglas o abreviaturas y no coincidan con la palabra española. MDAT se corresponde con metadata. contiene los datos externos del texto, es decir, aquello que en el C-ORAL-ROM original se denominaba cabecera. Estos datos pueden incluir información sobre el contexto comunicativo, los interlocutores, el modo de grabación, la transcripción, etc. Remitimos a la sección 4.6 para una exposición más detallada de las decisiones que se han tomado con respecto al tratamiento de estos metadata.

Las oraciones (S 7Sentence. ) contienen la cadena que se analiza (STR 8String. ) y el análisis eventivo (E) que de ella se ha realizado. La cadena aparece tal cual la encontramos en C-ORAL-ROM con la única diferencia de que nosotros hemos numerado las palabras para no perder el orden que tienen en el discurso. De este modo, STR contiene una sucesión de palabras con el formato número-palabra/lema/tipo de palabra (por ejemplo, “23-simpática/SIMPÁTICO/ADJfs”).

El análisis eventivo se compone siempre de un superevento (E), esto es, de un evento completo el cual, a su vez, se compone del contenido léxico del predicado (LEX), de los ARGumentos, de posibles subeventos (SE) y de las relaciones indirectas (IR).

La etiqueta del evento tiene como atributos el nombre del evento (acción, proceso o estado), el tipo (atributivo, locativo, efectuador, etc.) y el subtipo (definido, indefinido, télico o atélico).

La etiqueta del contenido léxico (LEX) codifica la siguiente información del predicado: el lema, el valor afirmativo o negativo del evento, el modo (declarativo, interrogativo o imperativo) y el tiempo (pasado, presente o futuro).

Como vimos en 3.5, los ARGumentos varían según el evento de que se trate. Las acciones requieren de un agente (AG) y de un paciente (PA) mientras que los estados tienen una entidad (ENT) que posee una cualidad (PRO 9Property. ) o está situada en una localización (LOC). Como sabemos, los procesos no tienen argumentos más allá de los propios de los dos estados de que se componen.

Además de las etiquetas descritas, un evento puede estar compuesto por subEventos. Es el caso, por ejemplo, de los procesos, compuestos siempre por dos estados (el de origen y el del destino de la transición que el proceso expresa). Estos subeventos están representados con etiquetas diferentes (sE) que nos advierten de su carácter abstracto y sin representación léxica. Por este motivo, carecen de etiqueta LEX y de atributos para el lema, el modo y el tiempo, reemplazados por una marca que señala la relación abstracta (REL) y unos atributos que contienen el nombre de la relación o su base (NAME) y su valor (VAL).

Las relaciones indirectas se etiquetan con el nombre de IR 10Indirect Relations. . Su tipo se especifica en un atributo siguiendo una clasificación que, por ser demasiado extensa, dejaremos para los apéndices (en concreto, para el apéndice C).

La tabla siguiente muestra simplificadamente el conjunto de etiquetas y atributos que está definido en la DTD original de SESCO 11Todas las etiquetas admiten los atributos IDE y REF para los identificadores y las referencias, cuyo uso explicaremos más adelante.
Para los contenidos, utilizamos los mismos operadores que aparecen en la DTD: “*” para ninguna, una o varias apariciones del elemento (es decir, el elemento es opcional) y “+” para una o varias apariciones (el elemento es obligatorio). :





EtiquetaAtributosContenido de la etiquetaSentido de la etiqueta








CORPUS - SESSION+ Sesiones




SESSION - MDAT*,S+ Sesión




FI - Documento




DATE - Fecha




MDAT - - Cabecera




S - STR,E Oración




N - No de la oración




STR - - Cadena




E - LEX,sE*,ARG,IR* Evento




ET state|process|action 12Estado|proceso|acción. Tipo eventivo




TY atri|loca|muta|disp|affe|perf 13Atributivo (atributive)|Locativo (locative)|Transición cualitativa (mutation)|Transición locativa (displacement)|Acción afectadora (affecting)|Acción efectuadora (performing). Subtipo eventivo




sTY def|indef|telic|atelic 14Definido|indefinido|télico|atélico. Definitud/telicidad




sE - REL,sE*,ARG,IR* Subevento




ET state|process Tipo eventivo




TY atri|loca|muta|disp Subtipo eventivo




sTY def|indef|telic|atelic Definitud/telicidad




IR - E* Rel. indirecta




BEF/DUR/AFT (véase el apéndice C) Tipo de relación




LEX - - Predicado




LEMM - Lema




MOD declarative|interrogative|imperative 15Declarativo|interrogativo|imperativo. Modo




TE present|past|future|conditional 16Presente|pasado|futuro|condicional. Tiempo




VAL positive|negative 17Positivo|negativo. Valor




REL - - Relación




NAME - Nombre




VAL positive | negative Valor




ARG - ENT|PRO|LOC|AG|PA Argumentos




ENT - - Entidad




PRO - - Propiedad




LOC - - Localización




AG - - Agente




PA - - Paciente




REFE - - Referible




Los elementos que hemos definido nos permiten representar un esquema eventivo de, por ejemplo, una acción (el tipo composicionalmente más complejo) del siguiente modo:

<S>  
 <TEX></TEX>  
 <E ET=’’action’’ TY=’’tipo’’ sTY=’’subtipo’’>  
  <LEX LEMM=’’lema’’ VAL=’’valor’’ MOD=’’modo’’ TE=’’tiempo’’>  
</LEX>  
  <ARG>  
   <AG></AG>  
   <PA></PA>  
  </ARG>  
  <sE ET=’’proceso’’ TY=’’tipo’’ sTY=’’subtipo’’>  
   <REL NAME=’’nombre’’ VAL=’’valor’’></REL>  
   <sE ET=’’estado’’ TY=’’tipo’’ sTY=’’subtipo’’>  
    <REL NAME=’’nombre’’ VAL=’’valor’’></REL>  
    <ARG>  
     <ENT></ENT>  
     <PRO></PRO>  
    </ARG>  
   </sE>  
   <sE ET=’’estado’’ TY=’’tipo’’ sTY=’’subtipo’’>  
    <REL NAME=’’nombre’’ VAL=’’valor’’></REL>  
    <ARG>  
     <ENT></ENT>  
     <PRO></PRO>  
    </ARG>  
   </sE>  
  </sE>  
  <IR></IR>  
 </E>  
</S>

El esqueleto precedente es el modelo general de una acción y está compuesto por un agente, un paciente y un proceso. De este modo, “lo juro total” (oración 2 del fichero [efamcv07]) será etiquetado tal y como aparece en la figura 4.1 de la página siguiente.


Figura 4.1: Análisis de la oración efamcv07_2
<S N=’’2’’>  
 <STR>lo juro total</STR>  
 <E ET=’’~action’’ TY=’’perf’’ sTY=’’telic’’>  
  <LEX LEMM=’’jurar’’ VAL=’’positive’’  
MOD=’’declarative’’ TE=’’present’’>juro</LEX>  
  <ARG>  
   <AG IDE=’’efamcv07_1’’>(X)</AG>  
   <PA REF=’’efamcv07_2’’>lo</PA>  
  </ARG>  
  <sE ET=’’process’’ TY=’’muta’’ sTY=’’telico’’>  
   <REL name=’’jurar’’ VAL=’’positive’’/>  
   <sE ET=’’estado’’ TY=’’atributivo’’ sTY=’’def’’>  
    <REL NAME=’’ser’’ VAL=’’negative’’/>  
    <ARG>  
     <ENT ref=’’efamcv07_2’’/>  
     <PRO>(JURADO)</PRO>  
    </ARG>  
   </sE>  
   <sE ET=’’estado’’ TY=’’atributivo’’ sTY=’’def’’>  
    <REL NAME=’’ser’’ VAL=’’positive’’/>  
    <ARG>  
     <ENT REF=’’efamcv07_2’’/>  
     <PRO>(JURADO)</PRO>  
    </ARG>  
   </sE>  
  </sE>  
  <IR DUR=’’how’’>total</IR>  
 </E>  
</S>


Nos basaremos en este ejemplo para profundizar sobre aquellos aspectos importantes a los que no hemos hecho aún referencia en la descripción de la DTD y para clarificar el uso de esta.

En primer lugar, señalaremos que los valores de los atributos pertenecen, en la mayoría de los casos, a listas cerradas explicitadas en la Definición del Tipo de Documento. Este es el modo de asegurar la coherencia y una futura búsqueda eficaz de la información. Si tomamos como ejemplo el caso de ET, veíamos en la tabla de la página § que sólo puede contener tres valores: state, process o action (estado, proceso o acción). Si no existiera esta rígida restricción, correríamos el riesgo de permitir errores tipográficos o divergencias en la nomenclatura (alguien podría preferir la denominación de evento en lugar de acción), lo que tendría como consecuencia la contaminación de los datos: podríamos encontrarnos con una estadística que dijera que nuestro corpus posee 5 estados, 1 estdos (o cualquier otro error tipográfico), 3 procesos, 2 acciones y un evento.

Una excepción a este modo que tienen de funcionar los atributos es la de los lemas, que no se relacionan con ninguna lista cerrada de vocabulario ya que no podemos saber de antemano qué predicados aparecerán en el corpus (se podría reducir, en todo caso, a una lista con todos los predicados posibles en la lengua analizada si dicha lista existiera y estuviera siempre actualizada).

La composicionalidad, relacionada con la configuración jerárquica de los tipos eventivos que veíamos en la sección 3.4, se observa con claridad en el etiquetado. Recordando lo dicho anteriormente, una acción está formada por argumentos y por un subevento del tipo proceso, y este proceso está formado a su vez por dos estados que representan los estados inicial y final de la transición. Esta composicionalidad determina el significado del análisis y nos permite estudiarlo en sus diferentes partes.

El caso de las relaciones de los subeventos es diferente al de los lemas. Tienen nombres en lugar de lemas ya que no se corresponden con ningún predicado explícito en la oración. Como vemos en el proceso y en los estados del ejemplo, todos los subeventos deben tener un elemento REL con un nombre (NAME) y un VALor.

La posibilidad de elegir el NAME no se reduce a una lista cerrada, pero se opta por utilizar la menor variación posible para no crear una ontología compleja de relaciones abstractas y siempre basada en las bases que explicamos en la sección 3.6.

En el caso de los procesos, el NAME de la relación abstracta coincide con el lema de la acción de la que forman parte. Así, el nombre de la relación con estructura de proceso que forma parte de la acción jurar en el ejemplo de la figura 4.1 es también jurar. Como advertimos en 3.6, este nombre de relación o base no es el verbo en español jurar, sino el nombre de la relación abstracta de la que éste se compone y que bautizamos de este modo para facilitar su uso.

Para los estados que conforman un proceso, utilizamos las bases que definimos anteriormente (ser, estar, haber y tener). En el caso de jurar, la base es ser puesto que se trata de una acción efectuadora.

Una novedad en el ejemplo de la página § es la aparición de identificadores y referencias. Una muestra de los primeros la tenemos en el argumento AGente de la acción, cuya etiqueta incluye la siguiente información: IDE=”efamcv07_1”. Este tipo de atributos, que también son una excepción con respecto al requisito de las listas cerradas, nos sirven para poder relacionar diferentes instancias que hacen referencia a una misma entidad o a un mismo evento.

Cualquier etiqueta puede llevar un IDEntificador de este tipo, que sí son estrictos en cuanto al formato: están formados por el nombre del texto al que pertenecen separado por un guión bajo (_) de un número que lo convierte en un código único. Para los casos en que queramos hacer referencia a una parte de un elemento y no a éste completo, podemos anotar el fragmento con la etiqueta de referible (REFE) e incluirle el IDE correspondiente . De este modo, es posible trazar las apariciones de cualquier entidad de nuestro corpus, algo que nos parece de gran interés tanto desde un punto de vista sintáctico, para estudiar como se expresan entidades nuevas y conocidas, como desde un punto de vista discursivo o pragmático. En Moreno Cabrera (2004), se expone detalladamente el fenómeno de la identificación, centrado en las entidades; aquí, utilizaremos esta información en el capítulo 8, dedicado al análisis del discurso.

Seguimos la hipótesis de Kamp (1981) según la cual tanto los pronombres deícticos como los anafóricos seleccionan sus referentes de conjuntos de entidades disponibles por medio de antecedentes. Según señala el autor:

En el caso del pronombre deíctico, el conjunto [seleccionable] contiene entidades que pertenecen al mundo real mientras que el conjunto seleccionable para un pronombre anafórico se compone de constituyentes de la representación que se ha construido en respuesta al discurso precedente. [...] Las estrategias utilizadas en la selección de los referentes de los pronombres anafóricos son muy complejas; utilizan generalmente presuposiciones básicas sobre el mundo real, “pistas gramaticales” tales como el requisito de concordancia en género y número entre la anáfora y su antecedente y el orden en que los referentes potenciales han sido introducidos en el discurso anterior 18In the case of a deictic pronoun the set contains entities that belong to the real world, whereas the selection set for an anaphoric pronoun is made up of constituents of the representation that has been constructed in response to antecedent discourse. [...] The strategies used in selecting the referents of anaphoric pronouns are notoriously complex; they usually employ background assumptions about the real world, “grammatical clues”, such as the requirement of number and gender agreement between the anaphor and its antecedent, and the order in which the potential referents were introduced by the preceding discourse. .

Estas ideas son adoptadas en SESCO, pero sin restringirlas a la clase de palabras de los pronombres puesto que consideramos que el análisis de los textos del corpus requiere de una concepción más amplia de las referencias anafóricas. En el ejemplo anteriormente analizado, la etiqueta del agente contiene una constante (elemento que definiremos enseguida) porque no aparece ningún pronombre; sin embargo, esto no es un impedimento para asignarle un código de identificador puesto que el referente está claramente señalado a través de la persona y el número del verbo.

Por este mismo motivo, tampoco aceptaremos la idea de que sólo algunas clases de palabras puedan llevar identificador mientras que otras sean sólo características de las referencias. Hans Kamp advierte que algunos términos como los nombres propios o las descripciones indefinidas introducen nuevos términos en lo que él denomina la representación del discurso (DR), mientras que otros como los pronombres personales no pueden introducir nuevos elementos, sino sólo referirse a los que ya se encuentran en él. Como tendremos ocasión de ver al analizar los datos de nuestro corpus y al relacionarlos con las distintas clases de palabras en el capítulo 6, esta distinción no se corresponde con el uso real de la lengua.

El argumento paciente de nuestro ejemplo nos sirve para mostrar cómo son los atributos que señalan las REFerencias: REF=”nombre de fichero_código único”. La etiqueta de argumento paciente contiene el pronombre “lo” que hace referencia a una entidad que ha sido mencionada anteriormente en el discurso (en concreto, la marcada con aquella etiqueta que tenga el atributo IDE=”efamcv07_2”).

Estos identificadores son, además, parte fundamental del análisis composicional ya que, como se ve en el ejemplo, nos permiten representar de un modo elegante que los argumentos poseedores de los estados se corresponden con el paciente. En SESCO no está permitido que un elemento léxico esté contenido por más de un elemento: si esto ocurre, las palabras deben sustituirse por sus referencias correspondientes.

Por último, nos detendremos en aquellos elementos especiales que aparecen entre paréntesis en nuestro ejemplo. Hemos observado que la etiqueta de agente no contiene ninguna palabra:

<AG IDE=”efamcv07_1”>(X)</AG>

Los paréntesis que encierran letras o palabras en mayúsculas señalan constantes, esto es, entidades que no aparecen explícitamente en las oraciones, pero que son necesarias para la definición del evento. Se denominan constantes porque dentro de un discurso siempre hacen referencia a la misma entidad. Siendo su forma arbitraria mientras se respeten la aparición de los paréntesis y el uso de las mayúsculas, utilizamos por convención las últimas letras del alfabeto a partir de la X. Como se ve en el ejemplo, una constante funciona exactamente igual que un elemento léxico hasta el punto de que permite ser objeto de una identificación.

Entre las constantes, existe un grupo especial que aquí tenemos ejemplificado en la cualidad que se predica en los estados:

<PRO>(JURADO)</PRO>

Este tipo de constantes comparte con el resto que se utiliza porque aquello que expresa no aparece explícitamente en la oración, pero se diferencia en dos aspectos. El primero es que no hacen referencia a entidades, sino que son cualidades o localizaciones de una relación abstracta con estructura de estado. El segundo aspecto en que difieren es el hecho de que, aun siendo denominaciones plenamente arbitrarias, siguen una distribución de aparición estricta. De este modo, los estados que componen el análisis de la acción de “jurar” deberán siempre contener (JURADO) como cualidad y no otro nombre. Nos vemos forzados a establecer esta restricción para mantener la coherencia dentro del corpus. No obstante, es importante señalar como hacíamos antes con las bases que esto no significa que (JURADO) sea realmente la palabra de la lengua española jurado. En realidad, es una constante arbitraria que igualmente podría ser (X402), pero que hemos preferido denominar de este modo para hacer la interpretación más intuitiva.

Una vez que hemos descrito los aspectos más complejos, aprovecharemos la composicionalidad para hacer una interpretación detallada del ejemplo de la figura 4.1 a partir de sus partes más pequeñas:

1.
Tenemos dos relaciones abstractas estados con el lema “ser” que tienen como primer elemento una misma entidad definida a la que se hace referencia a través del identificador efamcv07_2. En ambos, se relaciona dicha entidad con la cualidad (JURADO). En el primero, la entidad no ha sido jurada puesto que el evento tiene valor negativo. En el segundo, sin embargo, el valor es afirmativo y, por lo tanto, la entidad sí ha sido jurada.
2.
En el siguiente nivel, comprobamos que ambos estados forman parte de un proceso cuyo lema es “jurar”. Ya que los eventos son atributivos y definidos, el proceso es una transición cualitativa télica (para interpretar las etiquetas, véase la tabla de la página §). Así, las características del evento mayor dependen directamente de aquellas que poseen las partes que lo componen. Al ser el primer estado negativo y el segundo positivo, podemos señalar que el proceso supone la adquisición de una nueva cualidad por parte de la entidad referida en el elemento ENT de los estados.
3.
El proceso es parte de una acción que hereda de él la telicidad y de los estados la cualidad de ser efectuadora. Esto se debe a que la entidad efamcv07_2 no ha pasado de estar sin una cualidad a adquirirla, sino que en el primer estado la entidad no era (no existía) y en el segundo ha pasado a ser (existir) a través del juramento.
4.
La acción nos ofrece la última información necesaria: qué palabra expresa la predicación (contenida en LEX), el lema (que comparte con el proceso), el modo y el tiempo. De igual forma, también vemos etiquetados en ella los argumentos que toda acción requiere: un agente (efamcv07_1) y un paciente (efamcv07_2) que se corresponde con el primer elemento de los estados.

SESCO no distingue en su nivel de análisis entre una oración interrogativa, imperativa o enunciativa, pero el problema de la interpretación de aquellas oraciones que no son enunciativas es un tema clásico en los estudios de semántica relacional. Recomendamos la lectura de Groenendijk (2002) para una revisión de las dos aproximaciones más generalizadas.

El tipo de oración se codifica en la etiqueta MOD del predicado, pero no afecta a la estructura del evento, que nosotros consideramos independiente. Los tres ejemplos siguientes muestran los casos típicos.

(21) a.

pregunta 19[efamdl05].

b.

que él alquile a la familia 20[efamcv03].

c.

sigue en El Corte Inglés? 21[efamcv06].

d.

y qué ha pasado 22[enatte01] .

Los ejemplos 21a. y 21b. lo son de oraciones que han sido etiquetadas como imperativas ya que ambas responden al mismo tipo de acto ilocutivo. Morfológicamente se distinguen en que la primera tiene el verbo conjugado en la forma imperativa (siguiendo las denominaciones propuestas por la RAE [RAE]) y la segunda está en presente de subjuntivo. 21a., además, está formado únicamente por el verbo mientras que en 21b. el predicado está acompañado explícitamente por el argumento agente (“él”) y por el paciente (“a la familia”). Sin embargo, ninguna de estas peculiaridades afecta en lo más mínimo al tipo de estructura eventiva de preguntar y alquilar, las cuales son exactamente las mismas que aparecen en las siguientes dos oraciones:

(22) a.

iba a preguntarte si tienes una ambulancia 23[emedts05].

b.

joder los ecuatorianos alquilan

El número y tipo de argumentos explicitados con sintagmas independientes varía. En el caso de 21a., el ejemplo no imperativo es más explícito que el imperativo, mientras que en 21b. ocurre al contrario, pero tanto en 21a. como en 22a., “preguntar” es una acción efectuadora y, tanto en 21a. como en 22b., “alquilar” es una acción afectadora.

En cuanto a las interrogaciones, 21c. es un ejemplo de una interrogación de las denominadas de oración [Groenendijk, 2002]. La posibilidad de respuesta que podemos esperar se reduce a una afirmación o una negación de que alguien no explicitado siga en El Corte Inglés. El ejemplo 21d., por otro lado, es una interrogación de constituyente y la respuesta admite cualquier tipo de aclaración sobre lo que haya ocurrido.

Las interrogaciones se han tratado de definir siguiendo dos paradigmas diferentes. En el primero, denominado categorial, la interrogación se interpreta como un objeto incompleto que se completará a través la respuesta. Esta respuesta puede ser, como hemos visto con nuestros ejemplos 21c. y 21d., de diferente naturaleza.

El otro paradigma es el proposicional y define el sentido de la interrogación a través del grupo de proposiciones que en cada mundo posible son una respuesta verdadera para esa interrogación.

De forma similar a como analizábamos las oraciones imperativas, pensamos que este tipo de interpretaciones son innecesarias para nuestro nivel de análisis. Lo importante para nosotros es que en 21d. se expresa una transición entre estados (un proceso) y se pregunta por el primer argumento de dichos estados a través de un pronombre interrogativo. Igualmente, es fundamental entender 21c. como un estado locativo que sitúa una entidad en un espacio; su carácter interrogativo únicamente implica que el emisor espera del receptor la confirmación o la negación del valor de verdad de la proposición, pero esa es una circunstancia también completamente externa a la estructura eventiva.

4.3. La labor de etiquetado

La parte del trabajo más costosa en todas las investigaciones con corpus es la del etiquetado. Una vez que el sistema ha sido diseñado, llega el momento de anotar la mayor cantidad posible de textos. Este objetivo está ya presente, como es lógico, durante la etapa de diseño y este se efectúa procurando que esta labor sea después lo más eficaz y rápida posible, pero la alta calidad de un diseño no garantiza que se logren estos objetivos.

La obtención de resultados depende tanto de la calidad del etiquetado como de la cantidad de textos que tengamos anotados. Los actuales sistemas estadísticos requieren grandes cantidades de información y siempre aumentarán su fiabilidad cuanto mayor sea el número de eventos. El ideal sería tener todo el objeto de estudio anotado, objetivo que en el caso de las lenguas naturales es evidentemente imposible. No obstante, parece bastante aceptada la idea de Church y Mercer (1993) de que “más datos son mejores datos” .

Esta situación ha tenido dos consecuencias en la lingüística de corpus. La primera es el desarrollo de sistemas informáticos que permiten un etiquetado más rápido. Estos sistemas pueden ser de diferentes tipos:

La segunda consecuencia del nuevo tamaño de los corpus está en clara relación con la anterior: si queremos manejar sistemas que nos permitan un etiquetado rápido y correcto, el conjunto de etiquetas debe ser reducido para evitar, en lo posible, ambigüedades. Este requisito no se debe únicamente al uso de sistemas automáticos o semi-automáticos, sino que es igual de importante en corpus anotados manualmente. Es muy complicado mantener la coherencia en un corpus amplio y esta dificultad crece exponencialmente cuanto más extenso y cuanto más complejo es el conjunto de etiquetas.

En las siguientes secciones, explicaremos detalladamente cómo se ha realizado el etiquetado de nuestros corpus. En la sección 4.4, describiremos el etiquetado manual de la parte de lengua hablada y aquellas aplicaciones que han ayudado en esta labor ya fueran adquiridas en el mercado o desarrolladas dentro de este trabajo. Nos detendremos especialmente en los problemas más graves a los que nos hemos enfrentado en esta tarea y explicaremos las soluciones adoptadas esperando que sean de ayuda para todo aquel que se decida a afrontar una investigación de este tipo.

La sección 4.5 mostrará cómo se ha etiquetado semiautomáticamente la parte escrita del corpus, proveniente de la colección de árboles sintácticos de la UAM [UAMSTreebank]. La subsección 4.5.1 nos servirá para relacionar brevemente la exposición de las aplicaciones que hemos desarrollado de asistencia al etiquetado con la extracción de información de corpus etiquetados.

Finalmente, la sección 4.6 estará dedicada a la importancia de los estándares y, en especial, a los motivos que justifican los formatos que nosotros presentamos. Estos se concretaran en dos sistemas de etiquetado: el IMDI, originariamente desarrollado en el Max Planck Institute for Psycholinguistics de Nijwegen [MPI] y la segunda versión de SESCO (SESCO 2.0).

4.4. Etiquetado manual (del C-ORAL-ROM)

La parte de habla espontánea de SESCO, que supone el 69% de palabras del corpus que utilizamos en este libro, ha sido etiquetado manualmente. Los documentos, pertenecientes al corpus de C-ORAL-ROM del Laboratorio de Lingüística Informática de la UAM (LLI-UAM), sólo habían sido anotados previamente con marcas prosódicas y esto hizo imposible intentar un etiquetado siquiera semi-automático, aún menos careciendo de un corpus previo que nos pudiera servir de modelo.

El habla espontánea no está delimitada tan claramente como la escrita, donde normalmente las marcas de puntuación indican que se ha comunicado un evento completo. Los conceptos más parecidos que encontramos en nuestro corpus original son los de unidad entonativa y proferencia . Nuestra participación en dicho proyecto nos sirvió de experiencia para saber que estos conceptos, aun cuando según algunas teorías deberían ser similares, no sirven para guiarnos en la delimitación de eventos. Profundizaremos en esta problemática al tratar el concepto de oración en la sección 11.

El etiquetado semántico fue realizado como parte de Alcántara (2005) y revisado posteriormente para la elaboración de Alcántara y Bertomeu (2005) y del presente libro . El contar con una única persona durante el etiquetado original imposibilitó la elaboración de un corpus más extenso, pero su tamaño considerable demuestra que el sistema no es excesivamente costoso. Además, que la anotación fuera completamente manual permitió una revisión más directa del sistema, el contacto con los ejemplos reales guió la realización de multitud de cambios que perfeccionaron el diseño original y ahora nos ayuda para la exposición del presente capítulo.

SESCO 1.0 se rige actualmente por la décima versión de su DTD (SESCO 1.9, en el apéndice B.1), correspondiéndose cada cambio de versión con una alteración significativa en la definición de los documentos.

El uso de editores especializados en XML garantizó la inexistencia de inconsistencias o errores tipográficos en las etiquetas, errores que, aunque ajenos a la teoría lingüística, pueden resultar muy incómodos en el procesamiento computacional de un conjunto grande de textos. Debemos señalar, no obstante, que el uso de un editor especializado no asegura la coherencia en todos los niveles. El caso más claro en SESCO es el de las constantes. Como se advirtió anteriormente (página §), una relación que conlleve constantes debe tener siempre las mismas. Veíamos entonces como ejemplo que si decidimos que los subeventos estado del predicado “jurar” van a representar la adquisición de la cualidad (JURADO), no podremos etiquetarlo más adelante como (PROMETIDO) o (X).

Del mismo modo y a pesar de que el sistema está diseñado para evitar ambigüedades, siempre es posible que un evento sugiera dos análisis diferentes y que se opte por uno de ellos arbitrariamente, con lo que se correría el riesgo de tener en el corpus representaciones diferentes de un mismo evento. Siguiendo con el ejemplo de “jurar”, la decisión de etiquetarlo como una acción efectuadora y no afectadora depende únicamente de que se ha considerado que lo jurado no tenía existencia anterior a dicho juramento, equiparándolo así a otros predicados como “hablar” o “decir”. Dentro de lo polémica que pueda ser una decisión de este tipo, lo esencial dentro de un corpus es que el etiquetado sea coherente y que no se encuentren contradicciones dentro del propio sistema.

Para evitar estos problemas, se desarrolló un sistema de consulta del corpus aprovechando el protocolo CGI (Common Gateway Interface) y que facilita enormemente la labor a la hora de mantener la coherencia. El sistema de consulta es una aplicación escrita en PERL que presenta a través de páginas HTML los análisis que se han realizado anteriormente para un lema. La aplicación ofrece un espacio para realizar consultas por lemas aceptando el uso de expresiones regulares y permite la selección del corpus en el que se quiere buscar (oral, escrito o ambos). También vemos en ella los escudos de la Universidad Autónoma de Madrid (UAM) y de su Laboratorio de Lingüística Informática (LLI) puesto que fue allí donde realizamos dicha aplicación.

El lenguaje de programación PERL (Practical Extraction and Report Language), diseñado originariamente por el lingüista Larry Wall con el objetivo de conseguir herramientas útiles para la extracción de información, resulta un medio ideal para conseguir aplicaciones pequeñas que permitan manejar textos con facilidad. El creciente protagonismo de Internet y la imposición consecuente de lo que se ha denominado sociedad de la información le han otorgado gran relevancia y su protagonismo en la lingüística computacional dura ya más de una década (el nacimiento oficial del lenguaje data de 1987). Probablemente sea el lenguaje más recomendable para aquellos que quieran sacar mayor rendimiento a sus corpus y poder manejarlos independientemente de lo que las aplicaciones comerciales les permitan sin un gran esfuerzo de aprendizaje.

En el caso de nuestras aplicaciones, al escribir el lema del evento que estamos etiquetando, el generador proporciona los esquemas eventivos de todos los análisis que se encuentran ya en el corpus. El resultado puede aparecer ordenado de diferentes modos, pero el más relevante para el etiquetado es aquel que presenta los análisis por orden de frecuencia de aparición. Obtenemos de cada lema los esquemas posibles más un resumen en el que se explicitan las cantidades de ocurrencias de modo que es fácil elegir el tipo que creamos que cuadre con nuestro caso concreto.

Estos programas utilizan una base de datos denominada SDB (Sesco Data Base) que codifica todos los análisis y que permite una búsqueda más rápida. La SDB se actualiza constantemente mediante otra aplicación también diseñada en PERL dentro de este trabajo.

Con las herramientas que hemos citado, fueron anotadas manualmente 49506 palabras, lo que supone 4105 oraciones y 6519 eventos completos (contando los subeventos la cifra se duplica: 13865). El corpus se divide en fragmentos de aproximadamente 100 eventos, medida que se eligió para garantizar una extensión suficiente que facilitara el análisis de aspectos discursivos y, a la vez, una variedad temática y de registros considerable puesto que cada grupo de eventos pertenecen a un texto diferente del corpus C-ORAL-ROM.

4.4.1. Aspectos concretos del etiquetado del corpus

Durante el etiquetado manual del corpus de habla espontánea, surgieron multitud de problemas fruto del confrontamiento del sistema de etiquetado y del planteamiento teórico con los textos. Algunas de estas dificultades obligaron a revisar la DTD y, por lo tanto, sus consecuencias ya estaban incorporadas en las descripciones que hemos realizado en las secciones precedentes. Otras, sin embargo, son más puntuales o reflejan características propias del español. Volveremos a tratar algunos de los problemas que aquí presentamos en la segunda parte del libro por estar relacionados con aspectos sintácticos.

Ya que se realizó el etiquetado manual de C-ORAL-ROM con anterioridad al semiautomático del UAM Spanish Treebank (que presentaremos en la sección 4.5), todas las decisiones que señalamos aquí fueron aplicadas coherentemente a todo el corpus de SESCO.

A continuación enumeramos los problemas más importantes ya sea por su repercusión en el sistema o por su frecuencia en el corpus para después explicarlos en las páginas siguientes:

1.
Aspectos gramaticales
a)
Predicación de los verbos (pág. §).
b)
La ambigüedad de los análisis (pág. §).
c)
Referencias a entidades (pág. §).
d)
Condiciones (pág. §).
e)
Propiedades relativas (pág. §).
f )
Etiquetado de tener y haber (pág. §).
g)
El alcance de las relaciones indirectas (pág. §).
h)
Estados locativos inespecificados (pág. §).
i)
Negaciones dobles (pág. §).
j)
El tiempo y el espacio (pág. §).
2.
Aspectos propios del habla espontánea
a)
Información prosódica (pág. §).
b)
Los predicados no verbales (pág. §).
c)
Errores en la emisión (pág. §).
d)
Discurso incoherente (pág. §).
e)
Hablantes cooperativos (pág. §).
f )
La frontera con el discurso (pág. §).

1.
Aspectos gramaticales
a)
Predicación de los verbos. Una de las decisiones más importantes y quizás controvertidas de nuestra anotación es la relacionada con el concepto de verbo auxiliar. Este tipo de verbos tienen la característica de no expresar un evento por sí solos y no se reducen a los haber, ser o estar que se utilizan para formar los tiempos compuestos. Otros verbos que consideraremos también auxiliares añaden otro tipo de información al evento principal, en muchos casos de tipo aspectual.
(23) a.

ha terminado acompañando al progreso en todos los órdenes

b.

no sé si continúa usando

c.

se debe de ir empezando a hacer esa ordenanza

En los ejemplos 23a., 23b. y 23c., los eventos expresados no son terminar, continuar, deber, ir o empezar, sino acompañar, usar y hacer. Los verbos auxiliares no afectan a la estructura eventiva de la oración y no se relacionan con los argumentos. De este modo, tanto al progreso como esa ordenanza son parte de las estructuras de terminar y hacer respectivamente.
Como explicábamos antes con relación a la imperfective paradox de David Dowty (página §), el que una acción no se cumpla completamente en la realidad, como podría ser el caso de 23c., no afecta a su estructura eventiva.
La distinción entre los verbos que denotan eventos y los que son auxiliares no es siempre fácil de realizar. Comparamos, por ejemplo, las tres oraciones siguientes:

(24) a.

ésta quiere interna o por la tarde a partir de las dos

b.

se la quieren acoplar a este

c.

quieren que se líe con este

En 24b., los argumentos la y a este pertenecen claramente al evento denotado por acoplar (acoplar algo/alguien a algo/alguien). El verbo querer es un auxiliar que le da un valor de irrealidad o deseo al evento que se expresa, pero este análisis deberá ser inevitablemente distinto en 24a. y 24c., donde parece claro que el evento expresado es el de un estado por el que se relaciona una entidad con la propiedad de desear algo (en 24a.) o que ocurra algo (en 24c.).
El siguiente ejemplo es una muestra diferente de la complejidad de la distinción entre verbos de predicación y verbos auxiliares. La perífrasis “ir a + verbo infinitivo” suele analizarse como un solo evento, el denotado por el infinitivo. Sin embargo, observamos que puede darse el caso de que aparezca un argumento típico del evento denotado por ir:

(25)

dice anda vete a trabajar a la viña

En la oración 25, a la viña no es una relación indirecta esperable para el evento trabajar ya que se trabaja en una localización y normalmente esta acción no implica movimiento. La oración parece expresar el evento ir, con a la viña como segundo argumento del segundo estado de la transición locativa, lo que relega a a trabajar a una relación indirecta de destino con el valor de finalidad.

b)
La ambigüedad de los análisis. Algunos eventos permitían varias interpretaciones y hubo que tomar una decisión, a menudo arbitraria, para desambiguarlos. En otros casos, la decisión no consistió en elegir entre varios análisis posibles que aparecieran en el corpus, sino en determinar directamente cómo se definía el evento. La oración 26 es un ejemplo:
(26)

no quiero que os echéis a llorar

El evento echarse a llorar aparece analizado como una acción efectuadora atélica, equiparándose así al evento llorar. Lo que se llora está representado por una constante abstracta y echarse a es un verbo auxiliar que le añade el aspecto incoativo.
La definición anterior es completamente válida dentro de los parámetros del sistema, pero no es la única que se podía haber adoptado. Otra opción habría sido entender el evento como un proceso en el cual la entidad denotada por os pasaría de un estado en el que no estaba llorando a otro en el que sí. Esta definición habría sido también válida teniendo en cuenta las posibilidades que nos ofrece el etiquetado. La elección de uno u otro es, como hemos señalado, arbitraria y está enlazada (como en el resto de las definiciones) a la obligatoriedad de coherencia, es decir, puede haber varias opciones válidas, pero se debe elegir y utilizar sólo una a lo largo del corpus.
Es importante no confundir estos casos en los que varios análisis son posibles y elegimos uno (y sólo uno) con aquellos otros en que la elección del caso dependerá del evento denotado por el lema, esto es, lemas polisémicos con varias estructuras posibles. Comparamos recordar en 27a. y 27b., que aparecen sucesivamente al inicio del texto [enatpr05]:

(27) a.

no sé si recordáis el evangelio de los dos domingos anteriores

b.

voy a recordarlo por si acaso

En 27a., nos encontramos con un estado atributivo recordar: el interlocutor se pregunta si los oyentes tienen la propiedad de recordar el evangelio de los dos domingos anteriores. En 27b., sin embargo, aparece el mismo verbo con la estructura de una acción afectadora: el interlocutor va a hacer que el lo (esto es, el evangelio) pase de no estar recordado a sí estarlo.
En oraciones como las de estos últimos ejemplos, la elección de una estructura u otra no es arbitraria, sino que viene determinada directamente por el evento que se expresa.

c)
Referencias a entidades. En algunas ocasiones, las referencias a una misma entidad han obligado a etiquetados complejos. Nos centraremos en la referencia efamcv03_35 del siguiente ejemplo:
(28)

a la niña de esta familia que es una adolescente quieren que se líe con éste?

Cuyo análisis es:

 <S N=~56~>  
  <STR> 360-a\A\PREP / 361-la\EL\DETdfs  
362-niña\NIÑA\NCfs 363-de\DE\PREP 364-esta\ESTE\DETdem  
365-familia\FAMILIA\NCfs / *MIG: / [ < ] < 373-que\QUE\PR  
374-es\SER\Vindp3s 375-una\UN\Q  
376-adolescente\ADOLESCENTE\NCsig > /  
377-quieren\QUERER\Vindp3p 378-que\QUE\C 379-se\SE\P  
380-líe\LIAR\Vsubp1s 381-con\CON\PREP  
382-éste\ÉSTE\PPER3s ? </STR>  
  <E ET=~state~ TY=~atri~ SUBTY=~def~ IDE=~efamcv03_38~>  
   <LEX LEMM=~querer~ VAL=~positive~ MOD=~interrogative~  
   TE=~present~>  
   377-quieren\QUERER\Vindp3p </LEX>  
   <ARG>  
    <ENT REF=~efamcv03_34~/>  
    <PRO> 378-que\QUE\C  
     <E ET=~action~ TY=~affe~ SUBTY=~telic~>  
      <LEX LEMM=~liarse~ VAL=~positive~ MOD=~declarative~  
       TE=~future~>  
      380-líe\LIAR\Vsubp1s </LEX>  
      <ARG>  
       <AG REF=~efamcv03_35~> 379-se\SE\P 360-a\A\PREP  
       361-la\EL\DETdfs 362-niña\NI\~NA\NCfs 363-de\DE\PREP  
       364-esta\ESTE\DETdem 365-familia\FAMILIA\NCfs  
       373-que\QUE\PR  <E ET=~state~ TY=~atri~ SUBTY=~def~>  
         <LEX LEMM=~ser~ VAL=~positive~ MOD=~declarative~  
 TE=~present~> 374-es\SER\Vindp3s </LEX>  
         <ARG>  
          <ENT REF=~efamcv03_35~/>  
          <PRO> 375-una\UN\Q  
376-adolescente\ADOLESCENTE\NCsig  
  </PRO>  
         </ARG>  
        </E>  
       </AG>  
       <PA REF=~efamcv03_35~/>  
      </ARG>  
      <sE ET=~process~ TY=~muta~ SUBTY=~telic~>  
       <REL NAME=~liarse~ VAL=~positive~/>  
       <sE ET=~state~ TY=~atri~ SUBTY=~def~>  
        <REL NAME=~estar~ VAL=~negative~/>  
        <ARG>  
         <ENT REF=~efamcv03_35~/>  
         <PRO>(LIADO)</PRO>  
        </ARG>  
       </sE>  
       <sE ET=~state~ TY=~atri~ SUBTY=~def~>  
        <REL NAME=~estar~ VAL=~positive~/>  
        <ARG>  
         <ENT REF=~efamcv03_35~/>  
         <PRO>(LIADO)</PRO>  
        </ARG>  
       </sE>  
      </sE>  
      <IR DUR=~com~> 381-con\CON\PREP  
     382-éste\ÉSTE\PPER3s  
      </IR>  
     </E>  
    </PRO>  
   </ARG>  
  </E>  
 </S>

La entidad que cumple el papel de agente del evento es la niña de esta familia que es una adolescente y aparece identificada con el código efamcv03_35. Esta descripción de la entidad incluye un evento (es una adolescente) cuyo primer argumento coincide con la entidad que describe. De este modo, encontramos que el argumento AG denota efamcv03_35 a la vez que una de sus partes (el argumento ENT del subevento) denota también esa misma entidad. Este tipo de cruces de referencias se han etiquetado tal y como aparece en el análisis para mantener la coherencia con el resto de estructuras del corpus.

d)
Condiciones. Dentro de las relaciones indirectas, las que son de origen condicionales encierran problemas de interpretación especiales también relacionados con las referencias a entidades. Los ejemplos 29a., 29b. y 29c. son una muestra:
(29) a.

si no has comido hijo mío tengo potaje

b.

si te duele algo luego cómo te enteras ?

c.

mañana cuando vengas si quieres le mandamos un email tú y yo

La oración 29a. ejemplifica un tipo de casos en que, aunque parece claro el uso de una relación indirecta de origen condicional, lo que denota dicha IR no es realmente premisa para el valor de verdad del evento. En el ejemplo, el valor del estado atributivo según el cual una entidad (señalada por la primera persona del verbo) tiene potaje no depende de ningún modo de que la otra entidad (segunda persona del verbo) haya comido o no. Estas IR han sido etiquetadas como condicionales porque entendemos que, aunque no son necesarias para el valor de verdad del evento, sí lo son para que su valor sea relevante. Si la entidad de la IR ha comido, será indiferente que el tengo potaje sea verdadero o falso.
El ejemplo 29b. muestra un problema de etiquetado más grave y no resuelto de forma totalmente satisfactoria por nuestro sistema que hemos denominado referencias en bucle, en las que un mismo elemento tiene varias funciones dentro del evento, lo que entra en conflicto con el principio de unicidad de Joan Bresnan (1982) al que ya nos referimos anteriormente (sección 3.5). La oración 29b. puede parafrasearse explicitando las partes implícitas del siguiente modo: si te duele algo, luego cómo te enteras (de que te duele algo). De este modo, el evento de la condición no sólo es la IR, sino también el segundo argumento de los estados que componen el proceso de enterarse. Estos casos -y sus soluciones- son similares a las expuestas arriba con referencia a las referencias complejas a entidades (página §).
29c. es un ejemplo parecido. Como vemos en la figura 4.4, la referencia etelef03_64 provoca que un elemento se contenga a sí mismo. Por un lado, etelef03_64 incluye todo el evento expresado y, por otro, es el segundo argumento de una relación indirecta condicional que es parte de este evento. Podríamos parafrasear 29c. del siguiente modo: mañana cuando vengas si quieres (que le mandemos un email tú y yo) le mandamos un email tú y yo.


Figura 4.4: Análisis de 29c.


<E ET=~action~ TY=~affe~ SUBTY=~atelic~  
IDE=~etelef03_64~>  
 <LEX LEMM=~mandar~ VAL=~positive~ MOD=~declarative~  
 TE=~future~> 546-mandamos\\MANDAR\\V </LEX>  
 <ARG>  
  <AG REF=~etelef03_3~ REF2=~etelef03_1~>  
549-tú\\TÚ\\PPER2s 550-y\\Y\\C 551-yo\\YO\\PPER1s </AG>  
  <PA IDE=~etelef03_63~> 547-un\\UN\\Q  
548-email\\EMAIL\\NCms  
  </PA>  
 </ARG>  
 <sE ET=~process~ TY=~muta~ SUBTY=~atelic~>  
  <REL NAME=~mandar~ VAL=~positive~/>  
  <sE ET=~state~ TY=~loca~ SUBTY=~indef~>  
   <REL NAME=~estar~ VAL=~negative~/>  
   <ARG>  
    <ENT REF=~etelef03_63~></ENT>  
    <LOC>(X)</LOC>  
   </ARG>  
  </sE>  
  <sE ET=~state~ TY=~loca~ SUBTY=~indef~>  
   <REL NAME=~estar~ VAL=~positive~/>  
   <ARG>  
    <ENT REF=~etelef03_63~></ENT>  
    <LOC>(X)</LOC>  
   </ARG>  
  </sE>  
 </sE>  
 <IR AFT=~benef~ REF=~etelef03_55~>  
545-le\\LO\\PPER3s </IR>  
 <IR DUR=~time~> 540-mañana\\MAÑANA\\P  
541-cuando\\CUANDO\\C  
     <E ET=~process~ TY=~disp~ SUBTY=~atelic~>  
 <LEX LEMM=~venir~ VAL=~positive~ MOD=~declarative~  
 TE=~future~> 542-vengas\\VENIR\\AUXsubp2s </LEX>  
 <sE ET=~state~ TY=~loca~ SUBTY=~indef~>  
  <REL NAME=~estar~ VAL=~negative~/>  
  <ARG>  
   <ENT REF=~etelef03_3~></ENT>  
   <LOC>(AQUI)</LOC>  
  </ARG>  
 </sE>  
 <sE ET=~state~ TY=~loca~ SUBTY=~indef~>  
  <REL NAME=~estar~ VAL=~positive~/>  
  <ARG>  
   <ENT REF=~etelef03_3~></ENT>  
   <LOC>(AQUI)</LOC>  
  </ARG>  
 </sE>  
</E>  
 </IR>  
 <IR BEF=~cond~> 543-si\\SI\\C  
 <E ET=~state~ TY=~atri~ SUBTY=~def~>  
 <LEX LEMM=~querer~ VAL=~positive~ MOD=~declarative~  
 TE=~present~> 544-quieres\\QUERER\\Vindp2s </LEX>  
 <ARG>  
  <ENT REF=~etelef03_3~></ENT>  
  <PRO REF=~etelef03_64~></PRO>  
 </ARG>  
</E>  
</IR>  
</E>

e)
Propiedades relativas. Algunos procesos se pueden entender sin la pérdida o adquisición de una propiedad por parte de una entidad, sino como un cambio relativo en ella. 30 es un ejemplo de ello: 
(30)

y se complica

Una interpretación plausible sería aquella que entendiera que la entidad que sufre la transición pasa de ser complicada en un grado x a estarlo en uno superior a x. De hecho, parece claro que toda entidad tiene siempre la propiedad de ser complicada en alguna medida.  Sin embargo, este tipo de transiciones cualitativas han sido anotadas en SESCO de igual modo que las absolutas. Esta decisión se justifica por la búsqueda de una formalización homogénea de los análisis así como por el hecho de que, a pesar de lo dicho anteriormente, el estado final de la transición sólo parece aceptarse tras la consecución del proceso. A la pregunta de ¿cómo está ahora? le correspondería la respuesta ahora está complicado únicamente después de que el proceso denotado por 30 haya tenido lugar, por mucho que la complicación sea una propiedad teóricamente inherente a todas las cosas. En el caso de 30, el análisis es:  

 <S N=~22~>  
  <STR> 117-y\Y\C 118-se\SE\P  
  119-complica\COMPLICAR\Vindp3s //  
</STR>  
  <E ET=~process~ TY=~muta~ SUBTY=~telic~>  
   <LEX LEMM=~complicarse~ VAL=~positive~  
MOD=~declarative~ TE=~present~> 118-se\SE\P  
119-complica\COMPLICAR\Vindp3s  
   </LEX>  
   <sE ET=~state~ TY=~atri~ SUBTY=~def~>  
    <REL NAME=~estar~ VAL=~negative~/>  
    <ARG>  
     <ENT REF=~efamcv06_10~/>  
     <PRO>(COMPLICADO)</PRO>  
    </ARG>  
   </sE>  
   <sE ET=~state~ TY=~atri~ SUBTY=~def~>  
    <REL NAME=~estar~ VAL=~positive~/>  
    <ARG>  
     <ENT REF=~efamcv06_10~/>  
     <PRO>(COMPLICADO)</PRO>  
    </ARG>  
   </sE>  
  </E>  
 </S>

Este reduccionismo se ha adoptado igualmente en otros casos en que, sin ser propiedades relativas, también es discutible una adquisición absoluta de ellas. Por ejemplo, en la oración 31, defender es una acción con un agente (la primera persona verbal) y un paciente (el papel o la entrada...) que pasa de no estar defendido a sí estarlo.

(31)

de alguna manera estábamos defendiendo el papel o la entrada de las grandes cadenas de grandes superficies

Evidentemente, no hay ningún dato que nos impida pensar que el paciente no estuviera siendo ya defendido anteriormente por otros agentes, con lo que la transición de un estado de indefensión a otro en el que está defendido es una reducción que mantenemos por considerar que es ése el sentido del evento independientemente de la situación real. La reducción no implica una traición a lo que realmente se expresa en el texto puesto que, en oraciones como 32, la información pertinente es exactamente la que etiquetamos: que la entidad ha pasado de no estar defendida por parte del agente a sí estarlo. 

<E ET=~action~ TY=~affe~ SUBTY=~telic~>  
 <LEX LEMM=~defender~ VAL=~positive~ MOD=~declarative~  
 TE=~past~> 232-estábamos\ESTAR\AUXindi1p  
 233-defendiendo\DEFENDER\Vger </LEX>  
  <ARG>  
   <AG REF=~enatps01_3~/>  
   <PA IDE=~enatps01_14~> 234-el\EL\DETdms  
   235-papel\PAPEL\NCms 236-o\O\C 237-la\EL\DETdfs  
   238-entrada\ENTRADA\NCfs 240-de\DE\PREP  
   241-las\EL\DETdfp  
   242-grandes\GRANDE\ADJpig 243-cadenas\CADENA\NCfp  
   244-de\DE\PREP 245-grandes\GRANDE\ADJpig  
   246-superficies\SUPERFICIE\NCfp </PA>  
  </ARG>  
  <sE ET=~process~ TY=~muta~ SUBTY=~telic~>  
   <REL NAME=~defender~ VAL=~positive~/>  
   <sE ET=~state~ TY=~atri~ SUBTY=~def~>  
    <REL NAME=~estar~ VAL=~negative~/>  
    <ARG>  
     <ENT REF=~enatps01_14~/>  
     <PRO>(DEFENDIDO)</PRO>  
    </ARG>  
   </sE>  
   <sE ET=~state~ TY=~atri~ SUBTY=~def~>  
    <REL NAME=~estar~ VAL=~positive~/>  
    <ARG>  
     <ENT REF=~enatps01_14~/>  
     <PRO>(DEFENDIDO)</PRO>  
    </ARG>  
   </sE>  
  </sE>  
  <IR DUR=~how~> 228-de\DE\PREP 229-alguna\ALGÚN\Q  
  230-manera\MANERA\NCfs </IR>  
</E>

f )
Etiquetado de tener y haber. Estos dos lemas tienen usos similares, pero su distinción es fundamental ya que aparecen frecuentamente en el corpus. Comparamos 32a. y 32b.:
(32) a.

aquí tenemos a Viajes Moreya

b.

hay como una tregua en los titulares

Ambos casos, de usos existenciales, podrían interpretarse como estados en los que una entidad (Viajes Moreya y una tregua) se relacionan con sus localizaciones (aquí y en los titulares). A pesar de esta aparente semejanza estructural, comprobamos que 33a. y 33b., oraciones derivadas artificialmente por nosotros a partir de 32a. y 32b. respectivamente, no son equivalentes a las primeras:

(33) a.

aquí hay Viajes Moreya

b.

tiene como una tregua en los titulares

Creemos que la diferencia se puede explicar precisamente a través del tipo de estado. Haber se corresponde con una estructura de estado locativo en la que la entidad y la localización aparecen relacionadas. Tener, sin embargo, se corresponde con un estado atributivo en el que se predica una propiedad (la propiedad de tener algo) de una entidad. En la sección 3.6, explicábamos la importancia de esta diferenciación para la constitución de las relaciones abstractas.

g)
El alcance de las relaciones indirectas. El estudio de las relaciones indirectas ha resultado uno de los más complejos del presente trabajo, debido, en buena parte, al hecho de que se marcan bajo esta misma etiqueta elementos que son distintos tanto en su forma como en su contenido. Sus características son tratadas en distintas secciones (especialmente en la sección 3.5 y en el apéndice C), pero queremos detenernos aquí en una que afecta especialmente al etiquetado. Utilizaremos como ejemplo las oraciones 34a. y 34b.:
(34) a.

aquí ya empieza a hacerlo

b.

luego me he ido a la pescadería [...] hasta la una

En el ejemplo 34a., la relación indirecta aquí aparece etiquetada como concomitante locativa, esto es, señala el lugar donde ocurre la acción denotada por el evento y esta es la interpretación esperada para una IR. En 34b., sin embargo, la relación indirecta hasta la una, que etiquetamos como temporal, no hace referencia al evento al que pertenece, sino sólo a una de sus partes: al segundo estado del proceso. Entendemos que la interpretación de que la acción de ir a la pescadería durara hasta la una es menos plausible que aquella que entiende que, tras ir a la pescadería, permaneció allí hasta esa hora. Por lo tanto, nos encontramos con una relación indirecta de uno de los subeventos, lo cual no sólo es posible en nuestro etiquetado, sino que justifica aún más nuestra aproximación composicional.

h)
Estados locativos inespecificados. Algunos estados locativos aparecen generalmente sin que ninguno de sus argumentos esté explícito. Se trata de un tipo de verbos que en las gramáticas suelen relacionarse con los sujetos expletivos. Proponemos la relación indirecta temporal de 35 como ejemplo y 4.5 como análisis.
(35)

que cuando llovía ponías la manta de agua


Figura 4.5: Análisis de 35


<IR BEF=~cond~> 410-cuando\\CUANDO\\C  
 <E ET=~state~ TY=~loca~ SUBTY=~indef~>  
  <LEX LEMM=~llover~ VAL=~positive~ MOD=~declarative~  
  TE=~past~> 411-llovía\\LLOVER\\Vindi3s </LEX>  
  <ARG>  
   <ENT>(Z)</ENT>  
   <LOC>(Y)</LOC>  
  </ARG>  
 </E>  
</IR>

El etiquetado muestra el análisis típico de este tipo de predicados. Se trata de estados locativos indefinidos en los que ambos argumentos están ocupados por constantes. El ejemplo 36, adaptado por nosotros a partir de 35, lo es del mismo tipo de evento, pero con los argumentos explícitos:

(36)

El agua amarilla llovía sobre las selvas de Oceanía.

i)
Negaciones dobles. A los términos como nada o nadie se les da una interpretación positiva. De este modo, el análisis de 37 se muestra en la figura 4.6:
(37)

no les importa nada


Figura 4.6: Análisis de 37


<E ET=~state~ TY=~atri~ SUBTY=~def~>  
 <LEX LEMM=~importar~ VAL=~negative~ MOD=~declarative~  
 TE=~present~> 537-no\\NO\\ADV 539-importa\\IMPORTAR\\V </LEX>  
 <ARG>  
  <ENT> 538-les\\LO\\PPER3p </ENT>  
  <PRO> 540-nada\\NADA\\Q </PRO>  
 </ARG>  
</E>

El sistema no permite la aparición de negaciones dobles. El sentido de una negación del valor de verdad de una proposición siempre se interpreta sobre la versión positiva de dicha proposición. De este modo, 38b. pronunciada después de 38a. implica que lo dicho por el hablante anterior es verdad, ya que es te compensa (la versión positiva de 38a.) lo que tiene el valor negativo:

(38) a.

*DOL: no te compensa

b.

*LUZ: no

j)
El tiempo y el espacio. Las relaciones entre el tiempo y el espacio y la posibilidad de definir conceptos de uno metafóricamente a través del otro es un tema suficientemente estudiado en la literatura [MCabrera, 1991bMCabrera, 1997MCabrera, 2004] y que nosotros hemos aplicado.
Como ejemplo, tanto 39a. como 39b. han sido analizados como estados locativos a pesar de que la localización no es espacial, sino temporal.
(39) a.

eso es mucho después

b.

hacía falta un esfuerzo importante a la hora de compaginar

2.
Aspectos propios del habla espontánea
a)
Información prosódica. El habla espontánea contiene frecuentes muestras de lo que podemos denominar irregularidades con respecto a la norma gramatical, especialmente casos en que falla la concordancia entre un nombre y el adjetivo que lo acompaña o entre el sujeto y el verbo como en la oración 40.
(40)

entonces unos se duerme

En estos casos, las marcas prosódicas y la facilidad que permite el corpus C-ORAL-ROM para escuchar los fragmentos gracias al alineamiento del texto y del sonido nos han ayudado a determinar cuál era el análisis correcto. Para el ejemplo 40, la prosodia era la siguiente:

(41)

entonces unos / se duerme //

Comprobamos que todo pertenece a una misma proferencia sin que haya reinicios intermedios, sino únicamente la división en dos diferentes unidades tonales. Por este motivo, unos fue interpretado como la entidad que se duerme a pesar de que la concordancia con el verbo no había sido respetada por el hablante.

b)
Los predicados no verbales. Como definiremos detalladamente más adelante en la sección 11, consideramos una oración sintácticamente acabada a toda emisión que transmita un evento completo. Diferenciamos, por lo tanto, entre los dos ejemplos siguientes:
(42)

la construcción de un mundo (por parte de alguien)

(43)

desde hace años no se construyen nuevas instalaciones

En numerosos trabajos (por ejemplo, el proyecto NomBank [NOMBANK]), el ejemplo 42 sería analizado como un evento de estructura similar al de 43, es decir, como una acción efectuadora con un agente implícito (por parte de alguien) y un paciente (de un mundo).
Sin que neguemos el evidente interés de este tipo de análisis y su relación directa con nuestro sistema, consideramos que 42 no es una oración, sino un fragmento porque no expresa un evento válido (correctamente situado tempo-espacialmente) si se emite de forma aislada. Aunque su estructura abstracta sea eventiva, lo expresado en 42 es una entidad y, por lo tanto, sólo puede ser parte de un evento completo y no uno en sí mismo. Su análisis responde a un nivel suboracional que no incluimos en nuestro sistema.
Esta característica de SESCO hace que la mayoría de los predicados que denotan eventos sean verbos, pero no es así en todos los casos. Entre los predicados no verbales, destacan por su frecuencia aquellos que denominaremos confirmadores del valor de verdad, ejemplificados en la respuesta de 44b. a la pregunta efectuada en 44a. :

(44) a.

que estás malísimo ?

b.

Tenemos una pregunta y una respuesta emitidas por hablantes distintos. El análisis de la pregunta nos da como resultado un estado atributivo definido en el que la entidad es el otro interlocutor y la propiedad es la de estar malísimo (muy enfermo). Es un ejemplo típico de evento con predicado verbal. La respuesta, sin embargo, se reduce al adverbio sí. Este tipo de proferencias han sido interpretadas como estados atributivos en los que se le confirma el valor de verdad a la proposición anterior. En el caso que tratamos, podríamos parafrasear la contestación como: que la entidad x está malísima sí es verdadero, que representamos a través de la constante (VERDADERO) para el segundo argumento del estado (y con la referencia etelef01_14 para indicar el evento de la oración 44a.): 

<E ET=~state~ TY=~atri~ sTY=~def~>  
 <LEX LEMM=~ser~ VAL=~positive~ MOD=~declarative~  
 TE=~present~> 81-sí\\SÍ\\ADV </LEX>  
 <ARG>  
  <ENT REF=~etelef01_14~/>  
  <PRO>(VERDADERO)</PRO>  
 </ARG>  
</E>

Otra forma de interpretar estos análisis, también coherente con nuestros planteamientos, sería equipararla a otros usos de los adverbios como el siguiente:

(45)

sí es importante

En estos casos, el adverbio simplemente reafirma el valor de verdad que de por sí tiene la proposición y se analiza del mismo modo que si el adverbio no apareciera. El sentido de 45 no es sí es verdad que X es importante, sino X sí es importante (similar a X es realmente importante).
Siguiendo esta idea, podríamos analizar 44 como sí que la entidad X está malísima, heredando todas las partes del evento de la proposición anterior y añadiendo sí al predicado. Este modo de etiquetado, sin embargo, es problemático en oraciones como las de 46 :

(46) a.

todas estas son de Madrid o no ?

b.

no

Si heredamos las partes del evento inicial para formar la estructura de la respuesta y le añadimos el adverbio al predicado, el análisis de 46b. debería ser todas estas no son de Madrid, interpretación que no es exacta. Por este motivo, preferimos emplear la negación del valor de verdad para entender la contestación como que el estado atributivo que relaciona todas estas con la procedencia de Madrid no tiene la propiedad de ser VERDADERO.
El análisis que nosotros proponemos tiene un equivalente explícito en el habla con expresiones como las de 47a. y 47b., que fueron emitidas sucesivamente por dos hablantes distintos :

(47) a.

y si no serán mayorcitos porque cuando una mujer de éstas tiene cuarenta y un años los hijos tienen casi treinta

b.

sí ya los hijos sí es verdad pobrecilla

En 47b., se reafirma explícitamente el valor de verdad de 47a. a través de sí es verdad, lo que sería el equivalente extendido de nuestra interpretación de los síes y noes aislados. Este ejemplo nos sirve también para justificar la determinación del tiempo en que se produce el evento, que hemos etiquetado siempre en presente entendiendo que la confirmación del valor de verdad de la proposición anterior adquiere el propio precisamente en el momento de la enunciación.
En el español, hay un tipo de respuestas de confirmación del valor de verdad que pueden ser ambiguas. Nos referimos a aquellas en que el evento que las antecede tiene valor negativo como ocurre en los ejemplos de 48 :

(48) a.

en fútbol sala tampoco es que haya juez de mesa //

b.

Aquí el sí emitido por el segundo interlocutor puede interpretarse como que en fútbol sala sí que hay juez de mesa o como que sí que es verdad que en fútbol sala tampoco hay juez de mesa. Otras lenguas, como el alemán, tienen tres palabras para expresar estas confirmaciones de verdad sin ambigüedad posible (en el caso alemán, a través de ja, nein y doch), pero el español no posibilita este uso. En los casos en que la prosodia y el contexto no ayudaban a la interpretación, nos hemos decantado por el segundo tipo de análisis por considerar que es el más frecuente y el menos marcado: un sí confirma el valor de verdad de la proposición y un no lo niega.
Por último con respecto a estos predicados especiales, advertimos en nuestro corpus la tendencia en el español hablado a repetir las palabras para intensificar su valor positivo o negativo:

(49)

que si puedes venir mañana o pasado //

b.

sí sí

Las respuestas como la de 49b., donde en lugar de sí se ha contestado con sí sí, han sido analizadas como un único evento y no como varios iguales salvo en aquellos casos en que la prosodia dejaba patente que el hablante las había emitido intencionalmente separadas. Esta reducción de las repeticiones a una sola no se ha realizado únicamente en estos predicados, sino en todos los casos en que, como en 50, había repetición idéntica o reinicios. El valor que tengan estas repeticiones pertenecerá al análisis pragmático.

(50)

yo estoy viendo [/] yo estoy viendo que cada vez que Rodríguez Zapatero habla del trece de mayo [...] [emedts01]

c)
Errores en la emisión. Siempre se ha etiquetado lo que aparecía en las transcripciones a pesar de que, en algunos casos, se incluían errores evidentes. Por ejemplo, en la oración 51, el hablante se refiere a cuando sí tienen micrófonos delante, pero pronuncia no, así como dice tiene refiriéndose a tienen. La versión con sí y el plural es la coherente teniendo en cuenta el contexto y la reacción del interlocutor (que, además, actúa como si hubiera oído la oración en afirmativo). La interpretación es tan obvia que en la mente del oyente se impone ésta a lo que realmente se ha escuchado. Sin embargo, nosotros hemos etiquetado exactamente lo que aparecía en el texto por parecernos una opción menos subjetiva y por considerar incoherente con nuestros planteamientos la inclusión de una valoración sobre la corrección o la no corrección de las emisiones.
(51)

no te lo dicen cuando no tiene(n) micros delante

d)
Discurso incoherente. En otros casos, el discurso puede resultar completamente incoherente, como en 52:
(52)

y yo creo que es lo que decía que cuando hablábamos era que quizá había que &diseña [/] &de &eh [/] dedicar también algunos recursos a estudiar cómo se podría combatir esto desde el punto de vista de la adicción .

Observamos que, además de la escasa fluidez, es complicado interpretar los eventos por el modo extraño en que se expresan, probablemente porque el hablante rectifica sus propias ideas durante el discurso. Nos encontramos así con un solo evento completo y, sin contar los reinicios, ocho verbos que vienen acompañados por argumentos que parecen mezclarse.
Este tipo de emisiones nos ha obligado a tratar estos fragmentos como contexto de los eventos que sí eran inteligibles.

e)
Hablantes cooperativos. Hay emisiones en que un evento es expresado por dos interlocutores distintos, como en el caso de la oración 53, donde incluimos las marcas de los hablantes, pero simplificamos las prosódicas para facilitar la lectura:
(53)

*PRE: decía un colega suyo en este seminario en el curso de ese que se llama genéricamente Severo Ochoa de la &univers +
*CIE: de la unidad de oncología Severo Ochoa //

O también en la oración 54:

(54)

*BEA: o sea un retraso +
*LUC: ah considerable //

En estos casos, se etiqueta una única estructura eventiva aunque sus diferentes partes hayan sido expresadas por distintos interlocutores.

f )
La frontera con el discurso. No siempre es sencillo distinguir si un elemento forma parte del análisis eventivo o del discurso. En especial, encontramos relaciones indirectas (en cursiva en la oración 55) que no enmarcan el evento, pero que sí lo sitúan de algún modo en un contexto.
(55)

lo que sí el otro día en una conferencia que estuvimos dando sobre el tema de riegos agrícolas resulta que este año es mucho más rentable al regante permanecer en tarifa

Estas relaciones indirectas son etiquetadas como IR, pero sin especificar el tipo.

4.5. Etiquetado semi-automático (del UAM Spanish Treebank)

4.5.1. Extracción de la información

4.6. Los estándares

Volver al índice -- Capítulo siguiente: Estructuras sintácticas