Documento de trabajo: Introducción a la lingüística de corpus






descargar 113.92 Kb.
títuloDocumento de trabajo: Introducción a la lingüística de corpus
página1/4
fecha de publicación23.10.2015
tamaño113.92 Kb.
tipoDocumentos
med.se-todo.com > Documentos > Documentos
  1   2   3   4
Documento de trabajo: Introducción a la lingüística de corpus
Dr. Omar Sabaj Meruane

omar.sabaj@gmail.com
PALABRAS MÍNIMAS PERO FRECUENTES
Las palabras juegan un rol importante para aquel que desea adentrarse en una disciplina. Conocer los términos que se utilizan en una especialidad nos permite acceder a un conjunto de conocimientos específicos (categorías, procedimientos o herramientas) que caracterizan y definen a una comunidad discursiva determinada, asociada a esa especialidad o disciplina. Palabras como “cefalea” o “hidráulico” son propias de un ámbito específico y es muy difícil que se utilicen en contextos generales no especializados. Siguiendo este razonamiento, creemos que para introducirse en la lingüística de corpus es necesario manejar ciertos términos claves que nos sirvan como un primer apronte a las principales unidades y herramientas propias de esta forma de investigar el lenguaje. El propósito de este capítulo es presentar en forma breve algunos de los conceptos claves o las palabras básicas que aquél, que quiera incorporarse en el ámbito de la lingüística de corpus, deberá conocer y manejar.

El caso específico de la terminología en esta disciplina es bastante especial. En primer lugar, debido a que actualmente la lingüística de corpus está por definición fuertemente asociada a los avances tecnológicos, la evolución de los términos es dinámica y se construye, en cierta medida, en forma paralela a esos avances. En segundo lugar, puesto que el desarrollo de la lingüística de corpus ha sido impulsado principalmente en el ámbito anglosajón y aun cuando en el ámbito hispano ya existen múltiples trabajos en esta línea, prácticamente no hay antecedentes introductorios de la terminología que se utiliza en la lingüística de corpus para nuestra lengua. Considerando la generación dinámica de palabras término dentro de una disciplina, advertimos pues, que los conceptos que aquí se presentan son los mínimos para un primer acercamiento a esta disciplina y que en ningún caso la revisión de términos pretende ser exhaustiva.

A lo largo de este capítulo iremos presentando (a veces críticamente) algunos términos frecuentes o palabras clave en el ámbito de la lingüística de corpus.
El corpus lingüístico informatizado
Una definición simple y lo suficientemente amplia de la noción de corpus, que guiará nuestra exposición, es la que proporcionan Torruella y Llisterri (1999). Según estos autores, el corpus es:
“...una recopilación de textos seleccionados según criterios lingüísticos, codificados de modo estándar y homogéneo, con la finalidad de poder ser tratados mediante procesos informáticos y destinados a reflejar el comportamiento de una o más lenguas” (Torruella & Llisterri, 1999: 52).
En esta definición se rescatan algunos de los aspectos esenciales de una concepción contemporánea del término en cuestión y nos sirve como un punto de partida para identificar y acotar a qué nos referimos, hoy en día, con la palabra corpus. Revisemos, a continuación, críticamente esta definición.

En primer lugar, en la identificación de un corpus estrictamente con aquellos textos recopilados según criterios lingüísticos se oculta el hecho histórico de que los corpora pioneros en esta área no fueron inicialmente diseñados para propósitos lingüísticos (cfr. Kennedy, l998) y que, por otra parte, existen abundantes recopilaciones de textos que, a pesar de no haber sido desarrolladas para la investigación lingüística, pueden aportar perfectamente a sus propósitos. Es necesario utilizar un criterio más funcional para especificar nuestra definición de referencia, sosteniendo que un corpus es lingüístico en la medida que se utiliza para la investigación del lenguaje, independientemente, de si fue o no fue diseñado en sus orígenes con esos propósitos. Esta parte de la definición además nos permite distinguir entre un ‘corpus lingüístico’ frente a un archivo electrónico (archive/collection) o a una biblioteca de textos electrónicos (electronic text library).

Siguiendo con esta revisión crítica de la definición de Torruella y Llisterri (1999), cabe destacar que el carácter estándar y homogéneo de la codificación de un corpus lingüístico es actualmente un aspecto central para entender este concepto. Puesto que la lingüística de corpus es esencialmente interdisciplinaria, el desarrollo de las investigaciones y las aplicaciones requiere la utilización de códigos estándar que permitan su fácil intercambio por medio de las nuevas tecnologías de la información. El proyecto EAGLES (Expert Advisory Group on Language Engineering Standards) ha desarrollado diversas herramientas que unifican tanto los criterios de clasificación como los modos de procesamiento computacional de textos. Uno de sus productos, el SGML (Standar Generalize Mark-up Language) es un tipo de lenguaje estándar que permite clasificar a partir de una cantidad de información básica los elementos de un corpus. Torruella y Llisterri (1999) sostienen que estos criterios se refieren a información externa al texto mismo, es decir, no se consideran los patrones lingüísticos internos del texto sino algunos campos básicos como autor, título, tema, número de muestras, original o traducido, subcorpus, número de palabras, marcas de oración y de párrafo y otros campos libres para agregar información complementaria. En la mayoría de los corpora el marcaje SGML se presenta al comienzo de cada texto y se puede implementar también en alguna interfaz de consulta. La necesidad de obtener corpora homogéneos y diversificados, por su parte, nos permite entender de forma clara las características esenciales de la concepción moderna del corpus. Esta condición de homogeneidad se basa en varias aristas que, en general, dicen relación con el diseño de un corpus lingüístico. Estas aristas nos remiten a distintos tipos de corpora lingüísticos según su tamaño, según la distribución de sus tipos textuales, por el grado de especialización de los textos, según la lengua de los textos o bien, de acuerdo al tipo de marcaje que posee o al tipo de investigación lingüística que se quiere llevar a cabo. Este carácter homogéneo que se le atribuye casi obligatoriamente al corpus en la actualidad, nos permite distinguirlo también de una concepción más clásica del término que era utilizada en la lingüística estructural norteamericana, escuela a la que Leech (1991) reconoce como una primera etapa de la lingüística de corpus actual. A diferencia de los lingüistas estructurales norteamericanos de comienzo del mil novecientos, los lingüistas de corpus actuales siguen pasos rigurosos en la recolección de corpora sobre todo en cuanto concierne a parámetros estadísticos de la muestra, de la población y del grado de representatividad que un corpus posee respecto a una o más lenguas (Lebart, Salem & Bécue, 2000). Sabemos, sin embargo, que se trata de un fenómeno complejo el establecer medidas estadísticas de la representatividad de un corpus. A pesar de esto, en la lingüística de corpus actual se llevan a cabo procedimientos y diseños para obtener datos que realmente reflejan el estado o la evolución de una lengua. Más adelante continuaremos esta discusión cuando consideremos la última parte de nuestra definición guía.

Creemos que esta definición se vuelve muy general cuando se dice que la finalidad del corpus es poder ser tratado mediante procesos informáticos. Es conveniente hacer algunos alcances para comprender de forma adecuada qué significa la aseveración anterior. Como ya señalamos, la finalidad primordial de los corpora es la investigación del lenguaje y la aplicación de esos resultados en distintas áreas y niveles. Cierto es, sin embargo, que entendido de forma actual el corpus es necesariamente una unidad informática. Esto puede entenderse desde distintos puntos de vista. Primero, el copus es una unidad informática en cuanto corresponde a un archivo digital que ha sido implementado en formato electrónico. De especial importancia en este ámbito resultan las tecnologías de reconocimiento óptico de caracteres (optical character recognition) que facilitan de modo radical el desarrollo del corpus computarizado. Pero el hecho de contar con archivos textuales computarizados (machine readable archives o computer corpus) almacenados por lo general en un formato neutro (ASCII o solo texto) no son suficientes para realizar estudios de corpus por medio de computadores (Leech, 1991, 1992) sino que es necesario agregar información de tipo lingüístico a estos documentos. A esto se refiere el término informatizado cuando hablamos de un corpus lingüístico. Más adelante veremos en detalle cuáles son los tipos de información y las herramientas computacionales del procesamiento lingüístico de un corpus. Pasemos ahora a la última parte de nuestra definición y retomemos una discusión pendiente. Una parte central de la definición de Torruella y Llisterri (1999) que, sin embargo, necesita ser especificada, es la aseveración de que el corpus lingüístico está destinado a reflejar el comportamiento de una o más lenguas. Pero, ¿puede un corpus reflejar el comportamiento de una lengua? ¿Puede un corpus ser una muestra representativa del lenguaje en cuanto fenómeno humano complejo? Las respuestas a estas preguntas deben proporcionarse con cautela. Sabemos que el lenguaje es un fenómeno tanto cognitivo como social y culturalmente complejo. Además es dinámico y potencialmente infinito (principio de creatividad) y para investigarlo debemos elegir entre tomar una fotografía de un supuesto estado de la lengua (corpus sincrónico) o bien estudiar su evolución a través del tiempo (corpus diacrónico). Por estas y otras razones, sabemos que para investigar científicamente el lenguaje debemos tener modelos integrales que especifiquen la forma en que interactúan los distintos componentes (la fonética, la semántica, la sintaxis) que lo conforman. Por otra parte, para dar fuerza a estos modelos teóricos es necesario contrastarlos constantemente con datos reales (attested language) de modo que esos modelos den cuenta de la forma y de la organización de los datos a los que hace referencia. En este sentido, creemos que el corpus lingüístico informatizado es una herramienta metodológica poderosa no de la lengua en su totalidad sino específicamente de aquellos aspectos, niveles o componentes lingüísticos que se estén estudiando. Siendo optimistas, y considerando la velocidad del desarrollo de las nuevas tecnologías es posible pensar que en algunos años podremos contar con un corpus lingüístico computarizado altamente representativo de una variedad de lenguaje en toda su complejidad asociado a un sofisticado modelo teórico. Debido a las dificultades en su codificación, transcripción y procesamiento, los corpora orales (spoken corpora) han retrasado esa tarea. El desarrollo de tecnologías de reconocimiento de habla (speech recognition) ha ido mucho más lento que los dispositivos de reconocimiento de caracteres. A pesar de todo creemos que los corpora lingüísticos informatizados con que ya se cuenta en la actualidad son un reflejo fiel del comportamiento de un aspecto lingüístico definido en un estado o como parte de la evolución de una lengua específica.

Entendido de otro modo, dadas las características del diseño de un corpus (modo de recolección, de equilibrio en la distribución de tipos textuales, etc.) y debido al enfoque o categorías de análisis propias del investigador, los corpora lingüísticos informatizados son una excelente forma para entender y comprender, tanto sincrónica como diacrónicamente, el funcionamiento de uno o más componentes en una lengua. Más adelante veremos cómo operan algunos de estos componentes en distintos estudios de algunos niveles del análisis lingüístico.

Las características del marco metodológico y la esencia interdisciplinaria de la lingüística de corpus superan el estudio del lenguaje desde una perspectiva meramente descriptiva basada solo en aspectos morfosintácticos. La fuerte influencia del uso corpus en otras disciplinas lingüísticas (enseñanza de segundas lenguas, lingüística computacional, psicolingüística, fonética, traducción, etc.) son una prueba de ello.

Tipos de corpora
El corpus del futuro
Para visualizar cómo serán los corpus lingüísticos informatizados en el futuro se debe considerar, al menos, tres aspectos: su tamaño, el tipo de corpus, su nivel y tipo de marcaje. Con respecto a su tamaño, podemos decir que la brecha ente presente y futuro es casi invisible. Si volvemos a la década de los sesenta, en la cuál se gestó el pionero Brown Corpus y nos fijamos en el crecimiento del tamaño promedio de los corpus actuales, se puede observar que el desarrollo ha sido abismante. Esto se ha debido principalmente al rápido incremento de la capacidad de los computadores y a su acceso más masivo. Del millón y fracción de palabras del Brown Corpus, llegamos ahora a corpora de cientos de millones de palabras. Tal como sugiere Leech (1992), en el futuro lidiaremos con el concepto de “megacorpora”, es decir, datos lingüísticos que bordearán o superarán los miles de millones de palabras.

Respecto al tipo de corpus, la tendencia en el futuro debería estar orientada hacia el equilibrio (que hasta ahora no ha existido por carencias técnicas) entre los corpus orales y los corpus escritos. Estos avances se posibilitarán gracias a la creación de nuevas tecnologías o al refinamiento de las ya existentes (e.g. las tecnologías de conversión automática del habla a texto).

Por último, en cuanto a su nivel de marcaje, tal como pronostica Leech (1992), el corpus del futuro debe superar la sintaxis para abordar aspectos pragmático-discursivos de los textos que conforman el corpus. Esta tarea que ya comienza sus primeros pasos deberá enfrentar algunos problemas que ya surgieron en el desarrollo de los primeros avances en lingüística de corpus, a saber, cómo se puede estandarizar un método para dotar con información discursiva a un corpus o, aún más simple, qué información se deberá considerar y cuál se debe descartar.

Tipos de corpus

(rené)
Unidades básicas en el análisis del corpus
Tal como señalan diversos autores (Caravedo, 1999; Chaffe, 1992; Fillmore, 1992, Kennedy, 1998; Svartvik, 1992a y 1992b), la lingüística de corpus es una forma de investigación que puede abarcar los distintos niveles del análisis lingüístico, que va desde el estudio de los fonemas y que llega potencialmente (Leech, 1992) a categorías de análisis discursivas. A pesar de lo anterior, algunos niveles han tenido, sea por factores de carácter técnico o por el interés de los investigadores, un grado mayor de estudio. En este acápite mostramos algunos términos básicos que dicen relación con un conjunto de unidades que han sido utilizadas con gran amplitud, razón por la cual el conocimiento de estos términos adquiere verdaderamente un carácter obligatorio para quien desee acercarse a esta disciplina.

Una primera forma de investigar en esta línea son las categorías gramaticales (POS o part of the speech), las que se refieren al conjunto de clases de palabras que se especifican tradicionalmente en cualquier gramática (McEnery & Wilson, 1996) y que corresponden a las partibus oratione de la gramática latina: nombre, adjetivo, adverbio, etc. Etiquetar automáticamente un corpus con categorías gramaticales no es una tarea fácil debido a la ambigüedad categorial que se presenta en un análisis libre de contexto.

Es aquí donde, por ejemplo, cobran especialmente importancia los modelos estocásticos o probabilísticos de los N-gramas. Estos sistemas establecen, por medio de un mecanismo de ventanas móviles, N secuencias de palabras o categorías gramaticales, determinando de este modo la probabilidad de aparición de una secuencia (de n componentes) para especificar así a qué categoría gramatical o estructura sintáctica corresponde una unidad dada. Generalmente estos sistemas operan sobre un corpus monitor o de entrenamiento (training corpus) y, una vez que ya han sido ajustados sus cálculos y su precisión en el etiquetamiento, pasan a formar parte integral de un etiquetador o de un analizador sintáctico que operará sobre el corpus que se desea investigar (target corpus). La función básica, entonces, de los N-gramas aplicados a los etiquetadores morfológicos es predecir en términos probabilísticos una categoría gramatical considerando las (n) unidades que la preceden. Supongamos a modo de ejemplo que un etiquetador se encuentra con la palabra “vino” en un segmento de un corpus. El programa puede etiquetar esta palabra de las siguientes dos formas:



Forma

Lema

POS

Vino (1)

Vino

Sustantivo común/ Masculino/

Singular

Vino (2)

Venir

Verbo/

Modo indicativo/

Pasado simple/

Tercera persona singular



Dada esta ambigüedad gramatical de una forma, a través de los cálculos de probabilidades de los N-gramas, el etiquetador puede decidir en forma correcta a qué categoría gramatical corresponde la forma en cuestión.

Otras dos categorías básicas en el análisis del corpus son las formas (word form) y los lemas (lemmas). Las formas corresponden a cualquier unidad que aparece verbatim en la superficie del texto. Los lemas en cambio corresponden a la abstracción de un conjunto de formas paradigmáticamente relacionadas: infinitivo y formas verbales, raíces y derivados (Stubbs, 2001). La relación entre lemas y formas se presentan en el siguiente esquema:

  1   2   3   4

similar:

Documento de trabajo: Introducción a la lingüística de corpus iconDocumento de trabajo c o m e n t a r I o d e t e X t o

Documento de trabajo: Introducción a la lingüística de corpus iconDocumento de trabajo para los alumnos

Documento de trabajo: Introducción a la lingüística de corpus iconEl presente documento contiene el listado de materias aprobadas de...

Documento de trabajo: Introducción a la lingüística de corpus icon1. salud y trabajo introducción Concepto de salud Relación ambiente-salud en el trabajo

Documento de trabajo: Introducción a la lingüística de corpus iconResumen Se presenta un inventario de 70 morfemas ligados derivacionales...

Documento de trabajo: Introducción a la lingüística de corpus iconEste documento pretende resumir todo lo necesario para construir...

Documento de trabajo: Introducción a la lingüística de corpus iconTema : introducción al derecho del trabajo

Documento de trabajo: Introducción a la lingüística de corpus iconIncluida en la programación de la primitiva Radio Club Sevillano...

Documento de trabajo: Introducción a la lingüística de corpus iconCompetencia en comunicación lingüística

Documento de trabajo: Introducción a la lingüística de corpus iconCompetencia en comunicación lingüística


Medicina





Todos los derechos reservados. Copyright © 2015
contactos
med.se-todo.com