descargar 239.77 Kb.
|
Recuperación de Información Ernest Abadal, Lluís Codina Bases de Datos Documentales: Características, funciones y método. Capítulo 2. p. 29-92. Madrid: Síntesis, 2005 (84-9756-263-1) 2. Recuperación de Información 2.1. Definición y contexto Recuperar significa volver a tener. Recuperar información significa volver a tener una información que alguna vez, hace unos minutos o hace unos años, ha sido producida por alguien, bien por nosotros mismos o bien por terceras personas. La Recuperación de Información (RI, a partir de ahora) es la disciplina que estudia la representación, la organización y el acceso eficiente a la información que se encuentra registrada en documentos. De las operaciones propias de la RI, sin duda la más característica consiste en la selección de documentos, bien a partir de las características de su contenido, (los temas tratados), bien a partir de características de su contexto (p.e. la fecha de publicación,) bien a partir de alguna combinación de ambas cosas (p.e: "documentos sobre desarrollo humano publicados por UNESCO entre 2003 y 2005"). Ahora bien, para que la RI tenga sentido se presupone un entorno en el cual no es trivial, precisamente, el hecho de acceder a los documentos por su contenido. Este contexto lo genera, típicamente, cualquier fondo documental a partir del momento que contenga unos centenares o unos miles de documentos. Empresas pequeñas, medianas o grandes, con ejecutivos, abogados, químicos o ingenieros que necesitan encontrar una información en fondos internos o externos es un ejemplo. Universitarios e investigadores que necesitan consultar bases de datos bibliográficas para asegurarse de que no reinventan la rueda es otro. Finalmente, la Web, que en realidad es un enorme sistema de información documental con varios miles de millones de documentos es el ejemplo extremo de contexto característico de RI. Los sistemas de RI no son los únicos sistemas de información que existen. En tal sentido, en relación a otros métodos de procesamiento de la información, la RI presenta algunos rasgos bien definidos que presentamos a continuación: - Primero, aunque también utiliza ordenadores, como casi cualquier otro sistema de información actual, la intervención de los mismos varía mucho, yendo desde sistemas de RI mediante ordenador a sistemas de RI asistidos por ordenador. - Segundo, gestiona información de cualquier tipo, desde textos hasta videos, pasando por reproducciones de arte o fotografías, pero siempre mediante el uso información textual. - Tercero, tiene lugar en lo que aquí llamaremos un contexto de descubrimiento. El significado detallado de los tres rasgos precedentes es el siguiente: 1. Uso de ordenadores (automatización). La RI se caracteriza por el uso de ordenadores y, por tanto, por el uso de bases de datos u otros sistemas automáticos o semi automáticos de procesamiento de la información, tales como hipertextos. Aunque es lógicamente posible desarrollar sistemas de RI exclusivamente manuales, la teoría (y la práctica) de la RI nació de hecho con las primeras bases de datos y la mayoría de sus procedimientos o algoritmos sólo tienen sentido en un medio automatizado. 2. Uso de información textual. La RI gestiona información textual de tipo narrativo o discursivo, en lugar de, por ejemplo, datos númericos o alfanuméricos muy estructurados, como hacen otros sistemas de información, por ejemplo, los sistemas administrativos (Salton; McGill, 1983: viii). Cuando la RI gestiona documentos u objetos no textuales, como imágenes, fotografías, video, etc., lo hace también a través de descripciones textuales (p.e., descripciones de las imágenes) y/o de conjuntos de palabras que expresan el contenido y el contexto de las imágenes. 3. Contexto de descubrimiento. La RI se caracteriza por tener lugar en un contexto en el cual los usuarios del sistema de información tienen la necesidad de descubrir qué entidades cumplen una o más condiciones, , por ejemplo, qué documentos contienen información relevante para interpretar, desde el punto de vista x, el tema y. En otros sistemas de información, en cambio, los usuarios, partiendo de una entidad previamente conocida, quieren saber algo más de ella. La diferencia entre descubrir cosas y ampliar datos es esencial para entender la naturaleza de la RI. Algunos desarrollos en sistemas de información son ineficaces porque sus diseñadores no entendieron esa diferencia. Por ejemplo, un sistema de información documental automatizado mediante el uso de una base de datos relacional probablemente no podrá satisfacer la necesidad de descubrir, aunque solucione muy bien la necesidad de ampliar. En concreto, como sistema documental su utilidad probablemente será parcial, porque las preguntas de descubrimiento, las que tienen la siguiente forma: qué documentos contienen información relevante sobre los temas x e y (p.e.: "documentos sobre museos y turismo") no podrá contestarlas de manera eficiente. Sólo dará un buen rendimiento ante preguntas de ampliación de datos, de la forma: cuáles es el valor del parámetros a en el registro X (por ejemplo: "cuál es el teléfono del Museo del Prado"). Naturalmente, de un buen sistema de RI se espera que pueda satisfacer preguntas de ampliación de datos como la anterior pero, sobre todo, se espera que pueda responder a preguntas de descubrimiento. Para ampliar un poco más esta idea, cabe señalar que la RI está relacionada con la gestión de documentos que contienen informaciones culturales, científicas y técnicas y, más concretamente, con el problema de cómo explotar el conocimiento que contienen esta clase de publicaciones. Entendemos por información científica el resultado de aplicar el método científico, que es hipotético-deductivo, a un problema de conocimiento, y su expresión en forma de proposiciones contrastables, argumentos, explicaciones, etc. La técnica es ciencia aplicada, y entendemos por información técnica el resultado de aplicar alguna rama de la ciencia a un rango de problemas concretos. Por otro lado, el concepto de información cultural es mucho más amplio. Un artículo de opinión puede contener conocimientos muy valiosos, y formar parte, por tanto, de la alta cultura, pero no es ni científico ni técnico. Algo parecido podría decirse de un buen ensayo, un reportaje periodístico, etc. Para referirnos a esta triple clase de documentos (científicos, técnicos, culturales), y siguiendo a Van Slype (1988: 1-3), utilizaremos, en adelante, el término información cognitiva en lugar de la expresión habitual de información científica y técnica. Además de ser un término más económico, hace más justicia a la clase de información que constituye el objeto de estudio y de tratamiento de la Documentación. Así pues, el término cognitivo subsume no sólo a la información de tipo científico y técnico, sino, en general, a toda forma de producción cultural. Muchos documentos cognitivos son, en sí mismos, narraciones textuales, aunque también contienen partes no textuales, tales como gráficos e ilustraciones, como es común en la información que publica la prensa escrita y muchas revistas científicas. Por otro lado, los sistemas de RI utilizan descripciones textuales para gestionar también documentos no textuales, tales como fotografías o filmaciones audio-visuales. De esta forma, la manipulación de información textual es típica de la RI. A los documentos cognitivos se oponen los administrativos. Para advertir la diferencia esencial entre las dos clases de documentos, basta con practicar un sencillo experimento mental: piense el lector en una enciclopedia. Esto es información cognitiva. Piense ahora en una factura. Esto es información administrativa. Son dos casos extremos, pero nos ayudan a visualizar las diferencias. La información cognitiva es útil, por ejemplo, para aumentar nuestros conocimientos sobre algún aspecto de la naturaleza o, simplemente, para que la humanidad no se vea obligada a reinventar la rueda en cada generación. La información administrativa, en cambio, es necesaria para la gestión de cualquier institución y para administrar de forma eficiente sus recursos propios y poder realizar de forma adecuada sus actividades de explotación. Como es obvio, ambas clases de información son absolutamente necesarias y es evidente que no existe jerarquía entre ellas (p.e., la información cognitiva no es más importante que la administrativa, etc.), pero su naturaleza, ciclo de vida, forma de consumo y propiedades semánticas son distintos y, por tanto, su tratamiento debe serlo también. Muchos sistemas de información fracasan por no advertir esa diferencia: el error más común consiste en gestionar la información cognitiva como si fuera administrativa (aunque también se da el error contrario). En realidad, los típicos errores mencionados consisten en no observar que la información cognitiva es de carácter probabilístico, y la información administrativa, determinista. En efecto, nunca podremos saber de entrada cuáles de los atributos de contenido o los atributos de contexto de un documento cognitivo que hará de éste una respuesta adecuada a un futuro problema de información. Para peor, no existe ningún algoritmo que sea eficiente al cien por cien para determinar cuáles son, de hecho, los atributos semánticos relevantes de un documento cognitivo (Blair, 1990: 1-23; Blair, 2001:) Naturalmente, el objetivo de las operaciones de RI, como ya hemos señalado, consiste en intentar solucionar los problemas de información que requieren información cognitiva. Esta clase de necesidades de información la experimentan, en realidad, todos los seres humanos, puesto que todos los seres humanos, al menos en alguna etapa de su vida, necesitan descubrir, estudiar, aprender o investigar. Ahora bien, para mucho esta necesidad pasa desapercibida o se vuelve transparente: una buena biblioteca, la orientación de un buen experto, etc., contribuyen a esa transparencia. Acceden a los documentos críticos sin observar que, en las bambalinas, está funcionando alguna clase de sistema de RI. Sin embargo, para otras personas esta necesidad es una cuestión crítica. Tales personas pueden ser profesionales embarcados en un proyecto de I+D; periodistas realizando un reportaje de investigación; alumnos de doctorado preparando su tesis; ejecutivos de empresa buscando nuevas oportunidades de mercado; médicos de un hospital obteniendo información sobre nuevas terapias; investigadores de un laboratorio que persiguen una nueva patente; profesores de universidad ampliando las fronteras de sus disciplinas, etc. En todos los casos señalados, la satisfacción de la necesidad de información pasará necesariamente por el uso de alguna clase de sistema que contenga información cognitiva. La información textual es central en casi todos los procesos de RI, aún en el caso de que el fondo documental esté compuesto por objetos no textuales, como fotografías (tal como ya hemos señalado). La razón es que las operaciones básicas de la RI en fondos icónicos (como fototecas o videotecas), a saber, la descripción y la recuperación, se realizan en base a textos que, o bien describen las características de las imágenes o bien describen la necesidad de información. Es por ese motivo que, aunque los documentos icónicos (gráficos, ilustraciones, fotografías, imagen animada, etc.) también forman parte del contexto propio de la RI, no alteran el carácter predominantemente textual de la RI. Hemos insistido ya que la selección de documentos a partir de su contenido como un aspecto muy significativo de la RI. Ahora bien, para poder seleccionar documentos por su contenido, es necesario antes (1) identificar y (2) representar ese contenido. Esta doble operación se denomina indización. La indización puede realizarse, bien de forma intelectual ("a mano") o bien de forma automática (mediante ordenadores). En este sentido, hay dos interpretaciones distintas, en general de tipo implícito, sobre la naturaleza de la RI. Según la primera, se entiende de manera implícita, como decimos, que los sistemas de RI son exclusivamente automáticos, es decir, realizan los procesos anteriores sin ningún tipo de intervención humana significativa. Esta visión de la RI es la que suele encontrarse en la bibliografía científica de orientación informática. Es habitual referirse a esta orientación como RI algorítmica, puesto que se centra en los programas o algoritmos que pueden automatizar los procesos de RI: típicamente, la indización y la presentación de la información. En cambio, según una segunda interpretación, los sistemas de RI abarcan en realidad diversos grados de utilización de ordenadores y, por tanto, diversos grados de combinación de operaciones intelectuales y automáticas en un mismo sistema. Podemos hablar entonces de indización automática versus indización asistida por ordenador. Para esta segunda interpretación, los sistemas exclusivamente automáticos son solamente un caso particular dentro de la gran variedad existente de sistemas de RI. Esta visión de la RI es la que suele predominar en la bibliografía científica de las ciencias de la documentación. En esta visión se acepta que los procesos de análisis e indización intelectual y la creación y el uso de los lenguajes documentales asociados a estos procesos, como los tesauros y las clasificaciones, forman parte de la RI, siempre que tales procesos involucren el uso de ordenadores. Es habitual referirse a este enfoque como RI cognitiva, puesto que sitúa el énfasis no tanto en los algoritmos concretos, sino en los aspectos propios o cercanos a las ciencias cognitivas: lenguaje, semántica documental, psicología, interacción persona-ordenador, percepción, etc. Si obviamos el hecho anecdótico que la RI algorítmica suele ignorar la existencia de sistemas con participación intelectual, ambas corrientes de la RI en realidad son igualmente necesarias dado que son perfectamente complementarias. La razón es que, para automatizar un proceso, primero es necesario comprenderlo y modelarlo de manera conceptual. Los trabajos de la RI cognitiva aportan los materiales para ese modelado. Por tanto, la RI algorítmica en realidad presupone a la RI cognitiva. Por otro lado, no se ha conseguido automatizar todos los procesos propios de la gestión documental. Hasta que no se consiga (si es que se consigue alguna vez), la RI cognitiva es lo único que tenemos en esos terrenos. De hecho, mientras la RI algorítmica no suele incluir a la cognitiva, lo contrario no es cierto, ya que la RI cognitiva incluye a la algorítmica, aunque sea, como suele decirse en forma de visión a mil metros de altura… Es por eso que, en esta obra, nosotros optamos preferentemente por el enfoque cognitivo, ya que es el que, de facto, coincide con la situación real de los sistemas de gestión documental, donde encontramos una mezcla de procesos de tipo algorítmico (donde el profesional de la documentación no suele intervenir) con operaciones de tipo cognitivo (donde el profesional de la documentación debe orientar la mayor parte de sus decisiones). A partir de ahora, por tanto, siempre que nos refiramos a la RI lo haremos en el contexto de la RI cognitiva. En este sentido, si desplegamos las diversas posibilidades de combinación de procedimientos intelectuales y automáticos en un eje de coordenadas de dos dimensiones, con el componente intelectual a la izquierda y el automático a la derecha, obtendremos el diagrama que nos muestra la figura siguiente donde podemos ver que existen cuatro grandes posibilidades lógicas de combinación: Figura 2.1: Sistemas de RI
De este modo, en el diagrama anterior vemos representadas los siguientes tipos de sistemas de RI: 1 (arriba y en el centro): sistemas que son intensivos en procedimientos intelectuales y semi intensivos en procedimientos automáticos; 2 (arriba y a la derecha): sistemas que son intensivos tanto en procedimientos intelectuales como automáticos; 3 (en el centro): sistemas semi intensivos tanto en procedimientos automáticos como intelectuales; 4 (abajo y a la derecha): sistemas que son intensivos en procedimiento automáticos y que no utilizan procedimientos intelectuales. Obviamente, la clasificación anterior es de grano grueso: existen muchas otras posibilidades que no mostramos en el diagrama. La razón, además de la deseable claridad, es que o bien no tienen mayor interés por tratarse de simples variaciones de uno de los cuatro casos básicos, o bien tales variaciones sencillamente no se dan en la realidad. Por tanto, el rango de sistemas significativos que incluye la RI desde el punto de vista de la combinación de procedimientos intelectuales y automáticos puede reducirse de modo conveniente a los cuatro mostrados, según recoge también la tabla 1, donde aportamos una presentación más detallada: |