El Lenguaje Natural como Lenguaje Formal

03/13/2017 ∙ by Franco M. Luque, et al. ∙ 0

Formal languages theory is useful for the study of natural language. In particular, it is of interest to study the adequacy of the grammatical formalisms to express syntactic phenomena present in natural language. First, it helps to draw hypothesis about the nature and complexity of the speaker-hearer linguistic competence, a fundamental question in linguistics and other cognitive sciences. Moreover, from an engineering point of view, it allows the knowledge of practical limitations of applications based on those formalisms. In this article I introduce the adequacy problem of grammatical formalisms for natural language, also introducing some formal language theory concepts required for this discussion. Then, I review the formalisms that have been proposed in history, and the arguments that have been given to support or reject their adequacy. ----- La teoría de lenguajes formales es útil para el estudio de los lenguajes naturales. En particular, resulta de interés estudiar la adecuación de los formalismos gramaticales para expresar los fenómenos sintácticos presentes en el lenguaje natural. Primero, ayuda a trazar hipótesis acerca de la naturaleza y complejidad de las competencias lingüísticas de los hablantes-oyentes del lenguaje, un interrogante fundamental de la lingüística y otras ciencias cognitivas. Además, desde el punto de vista de la ingeniería, permite conocer limitaciones prácticas de las aplicaciones basadas en dichos formalismos. En este artículo hago una introducción al problema de la adecuación de los formalismos gramaticales para el lenguaje natural, introduciendo también algunos conceptos de la teoría de lenguajes formales necesarios para esta discusión. Luego, hago un repaso de los formalismos que han sido propuestos a lo largo de la historia, y de los argumentos que se han dado para sostener o refutar su adecuación.

READ FULL TEXT VIEW PDF
POST COMMENT

Comments

There are no comments yet.

Authors

page 1

page 2

page 3

page 4

This week in AI

Get the week's most popular data science and artificial intelligence research sent straight to your inbox every Saturday.

1 Introducción

“One morning I shot an elephant in my pajamas. How he got into my pajamas I don’t know.”

Groucho Marx, Animal Crackers (1930)

“Our three weapons are fear, surprise, ruthless efficiency, and an almost fanatical devotion to the Pope.”

Monty Python, The Spanish Inquisition (1970)

Noam Chomsky, en la década del 50, sentó las bases de la lingüística moderna al empezar a estudiar la sintaxis del lenguaje utilizando herramientas matemáticas. En sus primeros trabajos, dió inicio a la discusión acerca del lugar en el que los lenguajes naturales se sitúan dentro de la denominada jerarquía de lenguajes formales de Chomsky. Esta discusión continuó luego por varias décadas, provocando incluso la proposición de numerosos formalismos gramaticales nuevos.

En este artículo hago una introducción al problema de la adecuación de los formalismos gramaticales para el lenguaje natural, introduciendo también algunos conceptos elementales de la teoría de lenguajes formales, necesarios para esta discusión. Luego, hago un repaso de los diferentes formalismos gramaticales que han sido propuestos a lo largo de la historia, y de los argumentos que se han dado para sostener o refutar la adecuación de cada uno de éstos.

El artículo se encuentra estructurado como sigue. En la siguiente sección se hace una breve introducción a la teoría de lenguajes formales, a la notación a utilizar y a dos mecanismos gramaticales básicos para la definición de lenguajes. A continuación, en la sección 3, se define un marco metodológico a la discusión. En la sección 4, se aborda la discusión de la adecuación de los diferentes formalismos gramaticales, recorriendo la jerarquía de Chomsky en orden creciente de expresividad. La sección 5 finaliza el artículo con algunas reflexiones acerca de las implicancias para las áreas de la Lingüística Computacional y el Procesamiento de Lenguaje Natural.

2 Teoría de Lenguajes Formales

En la teoría de lenguajes formales, un lenguaje sobre un alfabeto es un conjunto de secuencias, posiblemente infinito, a donde cada secuencia se compone de una cantidad finita de símbolos tomados del alfabeto .

El conjunto de todas las posibles palabras que se pueden formar con un alfabeto se denota . La secuencia vacía también es un elemento posible de un lenguaje y se denota con la letra griega . Usualmente, usamos letras del comienzo del abecedario () para representar elementos de , y del final del alfabeto () para representar elementos de . Escribimos , con , para representar la secuencia que resulta de repetir veces la secuencia .

Un lenguaje puede ser definido por extensión, como por ejemplo el lenguaje , sobre , o por comprensión, como por ejemplo , que es el conjunto de todas las secuencias que tienen primero cierta cantidad de letras , seguidas de la misma cantidad de letras . Por supuesto, un lenguaje infinito no puede ser definido por extensión.

Existen diversos mecanismos formales para la definición de lenguajes por comprensión más allá de la notación clásica de conjuntos, que llamaremos formalismos gramaticales. Cada formalismo gramatical tiene asociado una clase de lenguajes, esto es, el conjunto de todos lenguajes que pueden ser definidos usando tal formalismo. A más poder expresivo, más grande es la clase de lenguajes asociada.

2.1 La Jerarquía de Chomsky

Chomsky estudió diversos formalismos gramaticales desde una prespectiva lingüística. En [3], por primera vez, describió tres modelos formales de creciente expresividad, y estudió la adecuación de cada uno de ellos para explicar la sintaxis del idioma inglés. Más tarde, en [5], abordó un cuarto modelo formal aún más expresivo, las Máquinas de Turing, para luego definir los tres modelos anteriores como versiones cada vez más restringidas de éste.

Los cuatro modelos propuestos por Chomsky componen una jerarquía de formalismos llamada jerarquía de Chomsky111A veces llamada jerarquía de Chomsky–Schützenberger, esta jerarquía no puede ser atribuída únicamente a Chomsky, ya que muchos autores participaron en el estudio y la proposición de los formalismos que la componen.. En el Cuadro 1 se muestra la jerarquía, mientras que en la Fig. 1 se puede ver la relación de inclusión que existe entre las clases de lenguajes correspondientes.

Clase de Lenguajes Formalismo Gramatical
Recursivamente Enumerables (REs) Máquinas de Turing
Sensibles al Contexto (CSLs) Gramáticas Sensibles al Contexto (CSGs)
Libres de Contexto (CFLs) Gramáticas Libres de Contexto (CFGs)
Regulares Autómatas Finitos Deterministas (DFAs)
Cuadro 1: Las cuatro clases de lenguajes de la jerarquía de Chomsky, y formalismos gramaticales repesentativos para cada una de ellas.

regulares

libres de contexto

sensibles al contexto

recursivamente enumerables
Figura 1: Relación de inclusión entre las cuatro clases de lenguajes de la jerarquía de Chomksy mostradas en el Cuadro 1.

En las siguientes secciones introducimos los dos formalismos más simples dentro de la jerarquía: los autómatas finitos deterministas y las gramáticas libres de contexto.

2.2 Autómatas Finitos Deterministas

Un Autómata Finito Determinista (DFA, por sus siglas en inglés) es una máquina de estados que emite un símbolo del alfabeto cada vez que se realiza una transición de un estado a otro. Siempre comienza en un único estado denominado estado inicial, y termina en cualquier estado que pertenezca a un conjunto de estados finales. Luego, un DFA se define por los siguientes elementos:

  • Un alfabeto finito ,

  • un conjunto finito de estados ,

  • un estado inicial ,

  • un conjunto de estados finales y

  • una función de transición , tal que indica que la transición que parte del estado emitiendo el símbolo tiene como destino el estado . Gráficamente:

El lenguaje definido por un DFA es el conjunto de sequencias que pueden ser generadas en cualquier recorrido del autómata que empiece en el estado inicial y termine en un estado final. Un DFA puede definir un lenguaje infinito si contiene ciclos en sus transiciones.

Un ejemplo gráfico de un DFA se muestra en la Fig. 2a. El alfabeto de este autómata es Prn, Det, Noun, Verb, Prep, Pos. El estado inicial es , como se indica con la flecha que lo apunta, y los estados finales son aquellos que tienen doble contorno. Por simplicidad, no se dibujan las transiciones que no pueden conducir a un estado final.222Estas transiciones en realidad tienen como destino un estado adicional, tampoco dibujado, que es no-final y cuyas transiciones vuelven al mismo estado. En la Fig. 2b puede verse el recorrido que muestra que la secuencia “Prn Verb Det Noun Prep Pos Noun” es generada por el DFA.

El conjunto de todos los lenguajes posibles que pueden ser generados por DFAs constituye la clase de lenguajes regulares. Existen otros formalismos con el mismo poder expresivo, como los autómatas finitos no-deterministas o las expresiones regulares.

Hay, por supuesto, muchos lenguajes que no son regulares, es decir, que se sabe que no existe ningún DFA que los generen. Un ejemplo arquetípico de lenguaje no regular es el ya mencionado .

Existe al menos una manera de demostrar que un lenguaje no es regular, que es usando el denominado pumping lemma. Este lema hace uso del hecho de que si un lenguaje es regular y al mismo tiempo infinito, el DFA que lo genera obligatoriamente debe tener un ciclo en un camino a un estado final. Haciendo uso de este ciclo se pueden generar infinitas secuencias que obligatoriamente deben pertenecer al lenguaje.

Por ejemplo, se puede probar que si es regular, usando el pumping lemma necesariamente debe ser posible generar una secuencia con , y por lo tanto esta secuencia debe pertenecer al lenguaje . Como esto es absurdo, no es regular.

a)

Prn

Det,Pos

Prep

Noun

Verb

Det,Pos

Prn

Prep

Noun

Prep

Prn

Det,Pos

Prep

Noun
b)

Prn(Él)

Verb(mató)

Det(un)

Noun(elefante)

Prep(en)

Pos(sus)

Noun(pijamas)
Figura 2: a) Ejemplo de autómata finito determinista (DFA) para un lenguaje natural de juguete. Por simplicidad, se describe un lenguaje de categorías léxicas en lugar de un lenguaje léxico. No se dibujan aquellas transiciones que no pueden conducir a un estado final. b) Recorrido de aceptación de la secuencia de ejemplo “Prn Verb Det Noun Prep Pos Noun”.
a)
S NP VP (oraciones)
NP Prn Det Noun Pos Noun NP PP (sintagmas nominales)
VP Verb NP VP PP (sintagmas verbales)
PP Prep NP (sintagmas preposicionales)
Prn Él (pronombres)
Det un (determinantes)
Noun elefante pijamas (sustantivos)
Verb mató (verbos)
Prep en (preposiciones)
Pos sus (posesivos)
b)
Figura 3: a) Ejemplo de gramática libre de contexto (CFG) para un lenguaje natural de juguete. b) Dos análisis posibles para la oración “Él mató un elefante en sus pijamas” de acuerdo a esta CFG.

2.3 Gramáticas Libres de Contexto

Una Gramática Libre de Contexto (CFG, por sus siglas en inglés) es un sistema que permite construir secuencias a partir de la aplicación repetida de reglas. Las reglas permiten reemplazar símbolos no-terminales por secuencias de terminales (símbolos del alfabeto) y no-terminales. Luego, una CFG se define por los siguientes elementos:

  • un alfabeto finito (terminales),

  • un conjunto finito de no-terminales (también llamados estados),

  • un no-terminal inicial y

  • un conjunto de reglas , que escribimos de la forma , a donde y es una secuencia de terminales y no-terminales.

El lenguaje definido por una CFG es el conjunto de secuencias de terminales que resulta de cualquier derivación que comienze desde el no-terminal inicial . Puede suceder que una misma secuencia pueda ser derivada de varias maneras. En este caso, se dice que la CFG es ambigua.

Un ejemplo de CFG sobre el alfabeto es el que tiene un único no-terminal y el conjunto de reglas

El lenguaje generado por esta CFG es . Puede verse que la segunda regla es recursiva y por lo tanto puede aplicarse cíclicamente.

Otro ejemplo de CFG se puede ver en la Fig. 3a. Por brevedad, las reglas se muestran agrupadas por no-terminal del lado izquierdo, uniendo los diferentes lados derechos con el conector . En las Fig. 3b se pueden ver dos derivaciones diferentes para una misma secuencia, por lo que esta CFG es ambigua.

El conjunto de todos los lenguajes que pueden ser generados por CFGs se denomina la clase de lenguajes libres de contexto (CFLs). Esta clase incluye a todos los lenguajes regulares y también contiene lenguajes no-regulares, es decir, las CFGs tienen un mayor poder expresivo que los DFAs.

Así como para los lenguajes regulares, también para los lenguajes libres de contexto existe una versión del pumping lemma que se puede usar para demostrar que un lenguaje no es libre de contexto. Por ejemplo, se puede demostrar por el absurdo que no es libre de contexto ya que, si lo fuera, por el pumping lemma también deberían pertenecer al lenguaje secuencias en los que la cantidad de ’s, ’s y ’s no coinciden.

3 Consideraciones Metodológicas

El estudio del lenguaje natural como un lenguaje formal requiere de un conjunto de suposiciones y definiciones previas. La mayor parte de ellas se remontan a los orígenes de la lingüística generativa de Chomsky ([4], pp. 13-17, [6], pp. 3-4), y se sostienen hasta el día de hoy en las principales ramas de la lingüística. En esta sección repasamos brevemente las suposiciones y definiciones más relevantes.

3.1 Gramaticalidad vs. Aceptabilidad

El primer conjunto de suposiciones se refiere a una idealización de las capacidades lingüísticas humanas. A la hora de discutir el lenguaje natural, se asume un hablante-oyente ideal sin limitaciones de memoria, distracciones o errores. Además, se asume que los lenguajes naturales tienen un comportamiento estático en el tiempo y el espacio: No cambian ni evolucionan, ni varían dentro de la comunidad de hablantes.

En este marco, la gramática generativa de un lenguaje natural es la descripción de la competencia lingüística del hablante-oyente ideal de ese lenguaje. Así, podemos hablar de la gramaticalidad de una oración para indicar que ésta puede ser explicada por las reglas de la gramática. En este sentido, suponemos que se puede identificar a un lenguaje natural con el conjunto de oraciones gramaticales que la componen.

Siendo la gramática un objeto ideal e inasequible, sólo se puede recurrir a métodos indirectos para determinar la gramaticalidad de las oraciones. Uno de los principales recursos metodológicos que se ha utilizado en la literatura es el juicio intuitivo de hablantes-oyentes competentes.

El concepto de gramaticalidad puede verse en contraste con el de aceptabilidad, que se refiere a cuán aceptable es una oración para un hablante-oyente no ideal al margen del estricto cumplimiento de reglas gramaticales. En la aceptabilidad intervienen otros factores como simplicidad, comprensibilidad, frecuencia, etc.

Un ejemplo clásico que permite ilustrar la diferencia entre gramaticalidad y aceptabilidad es la famosa oración de Chomsky [4]

Colorless green ideas sleep furiously.
(Ideas verdes incoloras duermen furiosamente.)

Esta oración es inaceptable por carecer de significado pero se corresponde con las reglas gramaticales del idioma inglés y es consistentemente juzgada como gramatical por los hablantes-oyentes del idioma.

3.2 Adecuación Débil vs. Adecuación Fuerte

Existe una distinción importante a la hora de considerar la adecuación de formalismos gramaticales para expresar el lenguaje natural ([6], pp. 60-62). La adecuación débil es la capacidad de un formalismo de expresar el conjunto de oraciones gramaticalmente correctas de los lenguajes naturales. Esta adecuación no garantiza que el formalismo sea capaz de dar las descripciones estructurales correctas de las oraciones. La adecuación fuerte se refiere a esta última capacidad.

La relevancia lingüística de la distinción entre adecuación débil y adecuación fuerte puede ser apreciada con el siguiente ejemplo. Consideremos la gramática de la Fig. 3, que corresponde a una versión simplificada del idioma inglés. A pesar de que se trata de una CFG, el lenguaje generado es regular ya que también puede ser generado por el DFA de la Fig. 2a.333Por supuesto, la afirmación de que la CFG y el DFA generan el mismo lenguaje requiere de una demostración matemática. Luego, tanto los DFAs como las CFGs son débilmente adecuadas para expresar este idioma de juguete. Por otro lado, en términos de adecuación fuerte, la representación que ofrece el DFA no es admisible, ya que no permite expresar algunas propiedades estructurales del inglés. Por ejemplo, para la oración

Él mató a un elefante en sus pijamas.

la adecuación fuerte requiere una manera de expresar la ambigüedad de que la frase preposicional “en sus pijamas” puede afectar o bien al verbo (matar) o bien al objeto (el elefante).444 Este ejemplo se deriva de la frase de Groucho Marx citada al comienzo del artículo. La gracia de la frase reside justamente en la ambigüedad explicada. Las CFGs son capaces de hacer esta distinción permitiendo la asignación de estructuras ambiguas para la oración, como se muestra en la Fig. 3b.

3.3 Tratabilidad y Complejidad

Un criterio adicional surge ya desde Chomsky [6], al incluir como requisito para la adecuación la existencia de un método para resolver el problema de obtener la descripción estructural de una oración dada. Nos referimos a este problema como el problema de análisis (parsing). Un problema asociado al problema de parsing es el problema de reconocimiento, que se trata de decidir si una oración dada es gramatical.

En el ámbito de los lenguajes formales, denominamos tratabilidad a la existencia de soluciones algorítmicas para resolver estos problemas. Además de la tratabilidad, también nos interesa la complejidad de los algoritmos, esto es, la cantidad de tiempo y espacio de cómputo que requieren para solucionar los problemas.

Para considerar adecuado un formalismo gramatical en cuanto a complejidad, deben existir algoritmos eficientes para la solución de estos problemas. En general, se considera aceptable una complejidad de orden polinomial, esto es, que el tiempo y el espacio requerido por los algoritmos sean funciones polinómicas en términos de los tamaños de la gramática y de la oración de entrada.

4 El Lenguaje Natural como…

La jerarquía de Chomsky es un buen punto de comienzo para determinar a dónde entra el lenguaje natural dentro del mundo de los lenguajes formales. En esta sección hacemos una recorrida de la jerarquía, revisando los argumentos que se han dado en la literatura en cada caso para apoyar o refutar la adecuación de los diferentes formalismos gramaticales.

4.1 … Lenguaje Regular

La primera pregunta a responder, y aparentemente la más fácil, es si los lenguajes naturales son regulares. En términos de adecuación fuerte, ya vimos en la sección 3.2 que al menos los DFAs no permiten ofrecer descripciones estructurales ambiguas como las que se presentan en el fenómeno de la adjunción de los sintagmas preposicionales. Sin embargo, esto no significa que no puedan existir otros mecanismos regulares que sean capaces de hacer esto, como por ejemplo pueden los autómatas no-deterministas. De cualquier manera, la posiblidad de la adecuación fuerte de cualquier mecanismo regular queda descartada al comprobar que los lenguajes regulares no son ni siquiera débilmente adecuados.

Existen en la literatura muchas maneras de probar la no-regularidad del lenguaje natural. Chomsky ([4], pp. 21-22) presentó pruebas basadas en partes del idioma inglés que toman la forma de lenguajes no-regulares como o el lenguaje de las palabras capicúa .

Partee ([17], pp. 480-482) elaboró una prueba basada en el fenónemo del center-embedding (subordinación central), que permite introducir oraciones subordinadas en el medio de otras oraciones. En el castellano, por ejemplo, el center-embedding permite construir las siguientes oraciones gramaticales:555Ejemplo basado en la canción infantil tradicional “Sal de ahí, chivita, chivita”.

La chiva murió.
La chiva, que el lobo sacó, murió.
La chiva, que el lobo, que el palo golpeó, sacó, murió.
La chiva, que el lobo, que el palo, que el fuego, quemó, golpeó, sacó, murió.666 Esta triple subordinación y subordinaciones de orden mayor, son ejemplos claros de oraciones gramaticales, de acuerdo a la metodología adoptada, pero juzgadas como no aceptables.

En general, podemos decir que son gramaticales todas las oraciones de la forma

La chiva (, que ) murió.

Aquí, el lobo, el palo, el fuego, son sintagmas nominales (NPs), e sacó, golpeó, quemó, son verbos transitivos.

Si el lenguaje que incluye todas estas oraciones fuera regular, por el pumping lemma para lenguajes regulares sería posible también construir oraciones a donde la cantidad de NPs no coincide con la cantidad de verbos. Es decir, el lenguaje obligatoriamente debería contener algunas oraciones de la forma

La chiva (, que ) murió.

con . Sin embargo, sabemos que todas estas oraciones son no-gramaticales. Por ejemplo, son no gramaticales777En la literatura se acostumbra a marcar con * a los ejemplos de oraciones no gramaticales.

* La chiva sacó, murió. ()
* La chiva, que el lobo murió. ()

Luego, este lenguaje no puede ser regular, ya que de serlo debería incluir oraciones que no incluye.

4.2 … Lenguaje Libre de Contexto

La siguiente pregunta es acerca de la adecuación de los lenguajes libres de contexto. En términos de adecuación fuerte, Chomsky afirmó que las gramáticas libres de contexto pueden expresar sólo torpemente algunas estructuras sintácticas simples del inglés, como por ejemplo las conjunciones, los verbos auxiliares y la voz pasiva ([4], pp. 34–43).

Un argumento más conclusivo se dió muy posteriormente, entre los 70 y los 80, en torno al fenómeno de interdependencias seriales no acotadas presente, por ejemplo, en los idiomas holandés y suizo-alemán [2]. Este tipo de construcciones tienen la forma general , parecida a la subordinación central discutida en la sección anterior, pero a diferencia de ésta, la estructura sintáctica asocia los elementos de manera intercalada, como se muestra en la Fig. 4 a). Las gramáticas libres de contexto pueden expresar lenguajes de la forma , pero no pueden hacerlo utilizando una estructura intercalada como la que require este fenómeno sintáctico. Sólo pueden hacerlo utilizando reglas con recursión central, forzando una asociación de los elementos desde el centro hacia afuera, como se muestra en la Fig. 4 b).

a)

b)

Figura 4: a) Esquema general de la estructura sintáctica de las interdependencias seriales no acotadas presentes en los idiomas holandés y suizo-alemán. Se puede ver cómo los elementos se asocian de manera intercalada. b) Esquema general de la estructura sintáctica forzada por las gramáticas libre de contexto. Los elementos obligatoriamente deben asociarse desde el centro hacia afuera.

La discusión acerca de la adecuación débil de las gramáticas libres de contexto ha sido mucho más complicada. Luego de que Chomsky planteara la pregunta en 1956, existieron muchos intentos de demostrar la inadecuación débil, varios de ellos refutados por Pullum y Gazdar en [19]. Las fallas expuestas de las pruebas van desde errores matemáticos, como un uso incorrecto del pumping lemma, pasando por desacuerdos lingüísticos, como la confusión entre fenómenos sintácticos y semánticos, hasta discusiones metodológicas, como la manera en la que se decide la gramaticalidad de las oraciones.

Un ejemplo de argumento fallido es el que elaboró Elster [7] en torno a oraciones de la forma

Los primeros dos millones (de millones) decimales de son

a donde es un dígito. Según Elster, estas oraciones son gramaticales si y sólo si y son tales que la cantidad de decimales en el predicado se corresponde con la indicada en el sujeto (). Si este lenguaje fuera libre de contexto, el pumping lemma para CFLs permitiría construir oraciones en las que y no se corresponden, es decir, oraciones no gramaticales. Luego, concluye Elster que el lenguaje natural no es libre de contexto.

Pullum y Gazdar [19] rechazaron de plano este argumento, sosteniendo que la correspondencia entre y nada tienen que ver con la gramaticalidad, así como tampoco presentan problemas de gramaticalidad las siguientes oraciones:

A continuación hay seis números al azar: 3, 17, 8, 9, 41.
Nuestras tres armas son miedo, sorpresa, eficiencia despiadada, y una devoción casi fanática por el Papa.888Traducción al castellano de la frase de los Monty Python citada al comienzo del artículo.

No fue hasta 1985 que se propuso un argumento fuerte en contra de la adecuación débil, dado por Shieber en [22]. Shieber construyó un contraejemplo tomado del dialecto suizo-alemán (o alemán de Suiza), que combina interdependencias seriales, como las mencionadas anteriormente para el idioma holandés, con el marcado de casos (case-marking) en los objetos, también presente en el idioma alemán. En el case-marking del suizo-alemán, los objetos se pueden marcar en caso acusativo o dativo, y los verbos se dividen en subcategorías dependiendo del caso que requieran para su objeto.

Por ejemplo, en la Fig. 5 observamos una triple interdependencia con un correcto marcado de casos. Cada verbo en este ejemplo está asociado con un objeto del caso que le corresponde. En cambio, la oración

* … mer d’chind de Hans es huus lönd hälfe aastriiche

no es gramatical, ya que el sintagma “de Hans” está en caso acusativo pero el verbo “hälfe” requiere un objeto de caso dativo (“em Hans”).

[edge style=-,hide label] [column sep=0.2cm, row sep=0.5ex] … mer & d’chind & em Hans & es huus & lönd & hälfe & aastriiche
… (nosotros) & (los chicos) & (a Hans) & (la casa) & (dejamos) & (ayudar) & (pintar)
& —[POS]— ACC & —[POS]— DAT & —[POS]— ACC
[edge unit distance=.5ex]25 [edge unit distance=1ex]36 [edge unit distance=1.5ex]47

Figura 5: Ejemplo en idioma suizo-alemán de interdependencias seriales y marcado de casos, para el fragmento de oración “… nosotros dejamos a los chicos ayudar a Hans a pintar la casa”. ACC indica caso acusativo (artículos “de” y “es”) y DAT caso dativo (artículo “em”).

En general, una oración con interdependencias seriales es gramatical sí y sólo si cada sintagma nominal está marcado con el caso que requiere el verbo que le corresponde. En particular, podemos agrupar todos los casos acusativos primero y luego todos los casos dativos, para obtener oraciones con la forma general

mer es huus asstriiche

a dónde son NPs de caso acusativo (“d’chind”), son NPs de caso dativo (“em Hans”), son verbos acusativos (“laa”), y son verbos dativos (“hälfe”). Si este lenguaje natural fuera libre de contexto, podría aplicarse el pumping lemma para CFLs para construir a partir de oraciones gramaticales de este tipo, otras oraciones en las que la cantidad de objetos de cada caso no se corresponde con la cantidad de verbos de cada subcategoría, es decir, oraciones no gramaticales. De esto se desprende la conclusión que este lenguaje natural no es libre de contexto.

4.3 … Lenguaje Sensible al Contexto, y Más Allá

Los argumentos de inadecuación de los lenguajes libres de contexto exigieron buscar un formalismo gramatical más expresivo para el lenguaje natural. Yendo al siguiente escalón en la jerarquía de Chomsky, encontramos los lenguajes sensibles al contexto (CSLs).

Los lenguajes sensibles al contexto son capaces de describir los fenómenos sintácticos utilizados para probar la inadecuación libre de contexto, incluyendo las interdependencias seriales del holandés, y las del suizo-alemán en combinación con el marcado de casos. En principio, no existen argumentos en la literatura que hablen en contra de la adecuación débil o fuerte de los CSLs.

Sin embargo, los CSLs son inadecuados desde el punto de vista de complejidad, una noción adicional de adecuación, ya que se sabe que el problema de reconocimiento es PSPACE-complete para las gramáticas sensibles al contexto [11]. Esto significa que no se conocen, y posiblemente no existen999A no ser que P = PSPACE sea verdadero, uno de los problemas abiertos más importantes de las ciencias de la computación. La creencia mayoritaria de la comunidad científica es que P PSPACE. , algoritmos eficientes para determinar si una oración es gramatical o no, una tarea que los humanos pueden hacer rápidamente con el lenguaje natural.

Formalismos aún más expresivos han sido propuestos como adecuados para el lenguaje natural, como por ejemplo las gramáticas de unificación (unification grammars) [8], que pueden expresar la clase entera de lenguajes recursivamente enumerables, al tope de la jerarquía de Chomsky. La altísima expresividad de estos formalismos indica que las adecuaciones débil y fuerte no son un problema, pero sí se presenta un grave problema de tratabilidad. Los problemas de reconocimiento y análisis son en este caso indecidibles, esto es, se sabe que no existen algoritmos que permitan resolverlos.

4.4 … Lenguaje Moderadamente Sensible al Contexto

El problema de la excesiva expresividad de los CSLs llevó a la búsqueda de una nueva clase de lenguajes que se ubique en un paso intermedio entre los libres de contexto y los sensibles al contexto. La dificultad histórica que hubo para encontrar ejemplos de fenómenos sintácticos genuinamente sensibles al contexto en el lenguaje natural, hizo evidente que la expresividad requerida estaba apenas por encima de los CSLs.

Es por eso que en la literatura se propusieron nuevos formalismos gramaticales que pudieran ser ligeramente más expresivos que las CFGs. En [12], Joshi introdujo las Tree Adjoining Grammars (TAGs), y mostró que éstas son capaces de expresar fenómenos como las interdependencias seriales, y que lo hacen dando descripciones estructurales adecuadas. Al mismo tiempo, las TAGs tienen buenas propiedades de complejidad, parecidas a las de las CFGs, ya que existen algoritmos polinomiales para los problemas de reconocimiento y análisis.

Joshi definió vagamente el concepto de gramáticas moderadamente sensibles al contexto (MCSGs) como aquellas gramáticas que tienen esta capacidad simultánea de describir interdependencias seriales y de tener parsing polinomial.101010Además de la propiedad de crecimiento constante (constant growth), sobre la que hay cierta polémica y que por cuestiones de espacio prefiero dejar fuera de la discusión. Ver [20], [10] y [13] (p. 2). Los TAGs, entonces, son una instancia particular de MCSG. Varios mecanismos formales de aparición en la década de los 80 fueron encontrados débilmente equivalentes a los TAGs [24]. Por ejemplo, las Gramáticas Categoriales Combinatorias (CCGs) [23], las Gramáticas Indexadas Lineales (LIGs) [9] y las Head Grammars (HGs) [18].

Trabajos posteriores dieron argumentos en contra de la adecuación de los TAGs. Por ejemplo, para el idioma holandés, Manaster-Ramer [15] propuso una construcción sintáctica que usa interdependencias seriales y conjunciones. Las conjunciones permiten agregar a la estructura básica de interdependencias seriales , nuevas series de verbos para obtener oraciones de la forma

, , en (y) .

Un lenguaje con estas características no puede ser expresado por un TAG.

Sí existen otros formalismos MCS que logran expresar estas quíntuples interdependencias, como por ejemplo los Linear Context-Free Rewriting Systems (LCFRSs) [25] y sus equivalentes Multiple Context-Free Grammars (MCFGs) [14]. Estos formalismos son considerados los más representativos de los lenguajes MCS, ya que no se han identificado hasta el momento otros formalismos mildly context-sensitive de mayor expresividad [13].

Una versión extendida del argumento de Manaster-Ramer con interdependencias seriales propuso la inadecuación débil de los LCFRS [10]. También se dieron argumentos contra la adecuación de los LCFRS tomados de los idiomas alemán (mezclado de larga distancia) [21], chino (nombres de números) [20] y georgiano antiguo (apilado de casos) [16], no sin algo de polémica. En algunos de estos casos se afirma incluso que los argumentos de inadecuación se aplican a todos los lenguajes MCS en general.

En vista de la posible inadecuación de los lenguajes MCS, también se propusieron formalismos menos restrictivos, aunque siempre manteniendo la condición de parsing polinomial. Entre ellos, se encuentran los Parallel MCFGs (PMCFGs) [14], los Simple Literal Movement Gammars (Simple LMGs) [10] y sus equivalentes Range Concatenation Grammars (RCGs) [1]. Los Simple LMGs y los RCGs generan exactamente la clase completa de lenguajes con parsing polinomial, denominada PTIME, por lo que son considerados los formalismos más expresivos posibles para ser considerados adecuados para el lenguaje natural.

La relación entre los diferentes formalismos mencionados en esta sección puede verse en el detalle de la jerarquía de Chomsky de la Fig. 6. Obsérvese que no se conoce exactamente la relación entre PTIME y CSL.

CFG

TAG = CCG = LIG = HG

LCFRS = MCFG

MCS

PMCFG

Simple LMG= RCG = PTIME

CSL
Figura 6: Detalle de la jerarquía de Chomksy entre los CFLs y los CSLs. Se muestran algunos formalismos gramaticales discutidos en la literatura, y la relación entre ellos en cuanto a poder expresivo. La frontera moderadamente context-sensitive (MCS) es difusa ya que no existe una definición precisa. No se conoce exactamente la relación entre PTIME y CSL, por lo que las áreas punteadas no se sabe si son vacías o no.

5 Discusión

La discusión de la relación entre el lenguaje natural y los lenguajes formales permitió el desarrollo de una base teórica a donde se propusieron y estudiaron numerosos formalismos gramaticales, de los que sólo mencionamos los más relevantes en las secciones anteriores.

Esta discusión fue convergiendo hacia mediados de los 90, luego de haberse llegado a cierto consenso acerca de la adecuación de los formalismos moderadamente sensibles al contexto. En esa época también hubo un fuerte viaje hacia los métodos empíricos basados en datos, que supuso una pérdida de protagonismo de temas más teóricos como los tratados en este artículo.

Por supuesto, muchos modelos empíricos desarrollados posteriormente se beneficiaron de esta base teórica. En particular, versiones probabilísticas de varios formalismos MCS fueron utilizados para la implementación de parsers o traductores automáticos basados en sintaxis.

Sin embargo, las principales líneas de investigación empírica siguen basándose en formalismos que no superan el poder expresivo de las gramáticas libres de contexto. No existe un incentivo especial para intentar capturar fenónemos sensibles al contexto, ya que los métodos de evaluación estrictamente cuantitativos instaurados no los valoran especialmente. Esto se debe principalmente a que los fenónenos sensibles al contexto son muy poco frecuentes en los corpus de datos utilizados, e incluso en algunos casos ni siquiera se encuentran anotados.

Es de esperar en algún momento el estado del arte alcance un punto en el que la evaluación cuantitativa no sea lo suficientemente informativa. Cuando esto suceda, se deberán incorporar criterios más cualitativos que permitan apreciar el nivel de complejidad de los fenómenos sintácticos que los sistemas son capaces de capturar. De esta manera, es posible que la discusión sobre formalismos gramaticales más adecuados vuelva a tomar un impulso e incluso empiece a ocupar un lugar importante en el desarrollo de aplicaciones basadas en tecnologías de Procesamiento de Lenguaje Natural.

Agradecimientos

Agradezco a Miguel Pagano por la revisión detallada. Sus comentarios fueron de gran ayuda para mejorar muchos aspectos del artículo. Este trabajo fue realizado con el apoyo de proyectos de la ANPCyT, Ministerio de Ciencia, Tecnología e Innovación Productiva de Argentina (PICT 2014-1651) y de la SECyT, Universidad Nacional de Córdoba.

Referencias

  • [1] Pierre Boullier.

    Proposal for a natural language processing syntactic backbone.

    Technical Report 3342, INRIA, 1998.
  • [2] J. Bresnan, R. M. Kaplan, S. Peters, and A. Zaenen. Cross-Serial dependencies in dutch. Linguistic Inquiry, 13(fall):613–635+, 1982.
  • [3] N. Chomsky. Three models for the description of language. IRE Transactions on Information Theory, 2(3):113–124, September 1956.
  • [4] Noam Chomsky. Syntactic Structures. Mouton, 2nd edition, December 1957.
  • [5] Noam Chomsky. On certain formal properties of grammars. Information and Control, 2(2):137–167, June 1959.
  • [6] Noam Chomsky. Aspects of the Theory of Syntax, volume 119. The MIT press, 1965.
  • [7] Jon Elster. Logic and Society: Contradictions and Possible Worlds. John Wiley & Sons Ltd, first edition, March 1978.
  • [8] Nissim Francez and Shuly Wintner. Unification Grammars. Cambridge University Press, New York, NY, September 2011.
  • [9] Gerald Gazdar. Applicability of indexed grammars to natural languages. In Uwe Reyle and Christian Rohrer, editors, Natural Language Parsing and Linguistic Theories, pages 69–94. Reidel, Dordrecht, 1988.
  • [10] AnniusV Groenink. Mild Context-Sensitivity and Tuple-Based generalizations of Context-Grammar. 20(6):607–636, 1997.
  • [11] John E. Hopcroft, Rajeev Motwani, and Jeffrey D. Ullman. Introduction to Automata Theory, Languages, and Computation (2nd Edition). Addison Wesley, 2 edition, November 2000.
  • [12] Aravind K. Joshi. Tree adjoining grammars: how much context-sensitivity is required to provide reasonable structural descriptions? In David R. Dowty, Lauri Karttunen, and Arnold Zwicky, editors, Natural Language Parsing. Cambridge University Press, Cambridge, 1985.
  • [13] Laura Kallmeyer. Parsing Beyond Context-Free Grammars (Cognitive Technologies). Springer, 2010 edition, August 2010.
  • [14] Tadao Kasami, Hiroyuki Seki, and Mamoru Fujii. Generalized context-free grammars and multiple context-free grammars. Systems and Computers in Japan, 20(7):43–52, 1989.
  • [15] Alexis Manaster-Ramer. Dutch as a formal language. Linguistics and Philosophy, 10(2):221–246, May 1987.
  • [16] Jens Michaelis and Marcus Kracht. Semilinearity as a syntactic invariant. In Christian Retoré, editor, Logical Aspects of Computational Linguistics, volume 1328 of Lecture Notes in Computer Science, pages 329–345. Springer Berlin Heidelberg, 1997.
  • [17] B. H. Partee, Ter A. G. Meulen, and R. Wall. Mathematical Methods in Linguistics. Studies in Linguistics and Philosophy. Springer, 1 edition, April 1990.
  • [18] Carl Pollard. Generalized Phrase Structure Grammars, Head Grammars, and Natural Languages. PhD thesis, Stanford University, 1984.
  • [19] Geoffrey K. Pullum and Gerald Gazdar. Natural languages and context-free languages. Linguistics and Philosophy, 4(4):471–504, December 1982.
  • [20] Daniel Radzinski. Chinese number-names, tree adjoining languages, and mild context-sensitivity. Comput. Linguist., 17(3):277–299, September 1991.
  • [21] Owen Rambow, Michael Niv, Tilman Becker, and Tilman Becker. The derivational generative power of formal systems or scrambling is beyond LCFRS. In University of Pennsylvania, 1992.
  • [22] Stuart M. Shieber. Evidence against the context-freeness of natural language. Linguistics and Philosophy, 8(3):333–343, 1985.
  • [23] Mark Steedman. The syntactic process. MIT Press, Cambridge, MA, USA, 2000.
  • [24] K. Vijay-Shanker and David Weir. The equivalence of four extensions of Context-Free grammar. Mathematical Systems Theory, 27:511–546, 1994.
  • [25] K. Vijay-Shanker, David Weir, and Aravind Joshi. Characterizing structural descriptions produced by various grammatical formalisms. In Proceedings of the 25th Annual Meeting of the Association for Computational Linguistics, Stanford, pages 104–11. ACL, 1987.