Por: Lluís Codina y Cristòfol Rovira




descargar 238.7 Kb.
títuloPor: Lluís Codina y Cristòfol Rovira
página1/5
fecha de publicación03.03.2016
tamaño238.7 Kb.
tipoDocumentos
med.se-todo.com > Biología > Documentos
  1   2   3   4   5
La Web Semántica1
Por: Lluís Codina y Cristòfol Rovira

Universidad Pompeu Fabra

Departamento de Periodismo y de Comunicación Audiovisual

Instituto Universitario de Lingüística Aplicada

www.semanticaweb.net

www.hipertext.net

2006

La Web semántica es un proyecto a corto, medio y largo plazo del organismo de regulación más importante del mundo en relación a Internet: el World Wide Web Consortium (W3C a partir de ahora). El proyecto de la Web semántica incluye transformaciones que ya están afectando a los ámbitos de la creación, edición y publicación de páginas y sitios Web2 y que seguirán teniendo una importancia creciente en el futuro.
Este capítulo expondrá los conceptos e ideas más importantes relacionadas con la Web semántica, siempre con el telón de fondo de los intereses de la Biblioteconomía-Documentación.


    1. Introducción


El W3C (www.w3.org) es el organismo que regula aspectos esenciales de la Web tales como el lenguaje (X)HTML con el cual se crean las páginas y los sitios web. Puede decirse que es, con mucha diferencia, el organismo de normalización más importante de Internet, siendo su director el propio fundador de la Web, Tim Berners-Lee, por lo que sus recomendaciones, que tienen carácter normalizador, poseen un gran prestigio y una enorme influencia. La Web semántica es el proyecto del W3C para transformar la Web en la Web de las próximas décadas. Ante todo, veamos la definición oficial de la Web semántica según el W3C:
La Web semántica proporciona un marco común que permite que los datos sean compartidos y reutilizados a través de aplicaciones, empresas y fronteras comunitarias. Es un esfuerzo colaborativo liderado por el W3C con la participación de un gran número de investigadores y socios industriales. Está basado en Resource Description Framework (RDF) e integra una variedad de aplicaciones utilizando XML para la sintaxis y URI para las denominaciones (www.w3.org/2001/sw/)
Dos breves apuntes sobre la definición anterior. En primer lugar, parece un tanto críptica, tal como acostumbran a ser, de hecho, las definiciones del W3C. Lo segundo que corresponde señalar es que la Web semántica no (aún) una realidad. De acuerdo con las estimaciones del W3C, el despliegue total de la Web semántica puede prolongarse más allá del año 2010.
Sin embargo, la Web semántica ya está entre nosotros de diversas formas. En primer lugar, bajo la forma de una auténtica idea-fuerza, en el sentido de que es una idea que ya ha sido capaz de movilizar energías (e ilusiones) y que, sin duda no dejará de arrojar resultados positivos durante los próximos años. En segundo lugar, aportando nuevos estándares que ya son de uso habitual (como el lenguaje XML) e influenciando en el desarrollo de la nueva generación de navegadores y editores de páginas web.
En todo caso, volviendo a su definición, en el proyecto de la Web semántica conviven dos grandes visiones o dos grandes ideas-fuerza cuya confluencia a veces dificulta su interpretación. Por este motivo, nosotros proponemos dos definiciones separadas (que se pueden complementar) de la Web semántica:



Definición 1. La visión de la Inteligencia Artificial: La Web semántica es un conjunto de iniciativas destinadas a promover una futura Web cuyas páginas estén organizadas, estructuradas y codificadas de tal manera que los ordenadores sean capaces de efectuar inferencias y razonar a partir de sus contenidos.
Definición 2. La visión del procesamiento robusto: La Web semántica es un conjunto de iniciativas destinadas a convertir la World Wide Web en una gran base de datos capaz de soportar un procesamiento sistemático y consistente de la información.



Lo que intenta poner en evidencia la primera definición es la visión o la idea-fuerza presente en el proyecto de la Web semántica que proviene de la Inteligencia Artificial (IA a partir de ahora). Es útil recordar que, históricamente, en el campo de la IA se han manejado dos hipótesis: las denominadas hipótesis fuerte y débil. La hipótesis débil sostiene que es posible conseguir ordenadores con inteligencia simulada y con diversos grados de éxito dependiendo del contexto. La hipótesis fuerte afirma que los ordenadores pueden alcanzar inteligencia real e indiferenciable de la humana (Penrose, 1991; Copeland, 1996).
Es evidente que los ordenadores actuales no son capaces de razonar ni de realizar inferencias en un modo similar al de los seres humanos, y tras varias décadas de investigación en IA, ni tan solo hay atisbos sobre qué clase de cambio de paradigma en la computación podría conducir en el futuro, aunque solo fuera hipotéticamente, a dotar de inteligencia real a las máquinas. Por tanto, debemos dejar claro que la clase de “razonamientos” que puede esperarse que sean capaces de realizar los ordenadores en el futuro sería, en el mejor de los casos, una simulación de razonamiento como la que postula la versión de la hipótesis débil de la IA.
Veamos ahora la definición 2 vinculada a la visión del procesamiento robusto. Lo que separa a un conjunto de documentos con información no estructurada, y por tanto difícil de procesar y de explotar su contenido respecto de un conjunto de registros de una base de datos es la suma de tratamiento sistemático + metadatos propia de estos últimos (y ausente en los primeros).
Recordemos que la creación de una típica base de datos documental consiste en definir un grupo de campos, lo que equivaldría en nuestro caso a definir un conjunto de etiquetas como , , etc., para marcar sistemáticamente en cada documento de la base de datos la información que en el documento original aparece sin ninguna identificación explícita. El segundo paso consistirá en vincular cada documento con metadatos mediante etiquetas del estilo , , , , etc. (Abadal, Codina, 2005).
Una vez tenemos lo anterior, hemos pasado de información desestructurada a información sistematizada en la que cada línea de texto, cada párrafo o cada grupo de párrafos forma parte de un campo y está vinculado a un conjunto de metadatos. A partir de aquí será sencillo conseguir que la base de datos simule una cierta inteligencia de la que carecen en estos momentos los motores de búsqueda, ya que será capaz de responder a preguntas que actualmente no puede responder un motor de búsqueda. Por ejemplo, en la actualidad no existe forma de pedir a un motor de búsqueda que busque documentos donde la palabra Eco se refiera al nombre de un autor y no a un fenómeno acústico. En cambio, en una base de datos documental es una operación tan trivial que nos pasa absolutamente desapercibida.
Es a esta clase de procesamiento sistemático (predecible) y consistente a la que nos queremos referir con la expresión de procesamiento robusto.
Ahora bien, dada esta dicotomía, ¿hay algún elemento que nos permita unificar o al menos articular las dos visiones? La respuesta, al menos en nuestra opinión es que sí. Si observamos los elementos de infraestructura en los que confía la visión de la IA, vemos que son en parte los mismos que se requieren para crear una base de datos, es decir los mismos de la visión del procesamiento robusto.
En primer lugar, la visión de la AI requiere páginas codificadas de forma consistente, es decir, sin ambigüedad ni contradicciones; pero esto es exactamente lo que proporciona la estructurada basada en campos propia de una base de datos. En segundo lugar, la AI requiere una capa de metadatos que contenga declaraciones sobre las propiedades de los sitios web. Sucede que la asociación sistemática de metadatos a cada documento es lo que corresponde a la práctica de la indización, catalogación, categorización, etc., tan característica de las bases de datos en general, pero muy en particular, de las bases de datos documentales.
Lo que separa a ambas visiones es lo siguiente: la primera idea-fuerza es claramente visionaria, para bien y para mal, al confiar en obtener como resultado ordenadores capaces de razonar. Para bien porque sin duda a veces se requieren ideas visionarias para abrir nuevos caminos o para salir de una situación estancada. Para mal, porque a veces las ideas visionarias, al ignorar los hechos más elementales malgastan grandes esfuerzos.
La segunda visión, la del procesamiento robusto, está mucho más pegada al terreno. Es solvente, porque se basa en elementos bien probados en el procesamiento de la información, y esa es su gran virtud. Su problema es que carece de la capacidad de fascinación de la primera. Es posible que, si el proyecto de la Web semántica se hubiera limitado a esta segunda visión, nunca hubiera trascendido de las páginas de las revistas especializadas.
El proyecto de la Web semántica se enfrenta a retos cualquiera que sea la visión adoptada: nunca se había intentado aplicar la IA a un entorno abierto y descentralizada como es la Web. Tradicionalmente, la IA se había aplicado a dominios del conocimiento y conjuntos de datos bien diferenciados. El modelo clásico son los sistemas expertos, que siempre se limitan a un dominio y a un conjunto de datos restringido. Un ejemplo, es Dendral, un sistema experto para el análisis químico, o Mycin, un sistema experto que ayuda a diagnosticar enfermedades infecciosas de la sangre.
Por otro lado, la visión del procesamiento robusto también se enfrenta a retos. Las bases de datos funcionan bien porque, al igual que los sistemas expertos (aunque en un sentido distinto) se limitan a una colección de documentos bien delimitada, aunque sea enorme (pensemos por ejemplo en los millones de registros de Medline o Eric en los cientos de millones de documentos en texto completo de Lexis-Nexis). Es cierto que la Web semántica sería equiparable a una base de datos distribuida como las que ya existen actualmente. El problema es que no existen precedentes, ni mucho menos, de una base de datos distribuida con las dimensiones de la Web, y aún menos una base de datos distribuida que no cuenta con ninguna clase de mecanismo o procedimiento de coordinación entre los componentes de esa base.
En todo caso, para entender mejor lo que significa la este proyecto sin duda es útil considerar cómo es la Web actual, a la cual podemos denominar, por oposición a la Web semántica, la Web sintáctica.
1.2. La Web sintáctica
Las páginas HTML actuales disponen de etiquetas tales como h1, h2, etc., para marcar la importancia relativa cada sección de la página: en concreto, la etiqueta h1 está destinada a marcar el título principal de la página, mientras que h2, h3, etc., representan a su vez los títulos de las secciones de segundo, de tercer nivel, etc. Otro ejemplo, son las etiquetas para otorgar énfasis al texto, como cite para señalar la trascripción literal de un texto.
HTML, por tanto, aporta algunas etiquetas con valor estructural o funcional, mientras que otras etiquetas, como , , etc., sirven en cambio únicamente para señalar elementos gráficos; en concreto, indican al navegador que el texto que aparece entre los elementos y deben ser mostrados en negrita, mientras que el texto que aparece entre e debe ser mostrado en cursiva.
El problema con esta codificación es doble: no solamente carece de cualquier interpretación semántica, sino que, además, sus etiquetas son susceptibles de uso inadecuado: algunas páginas web contienen los elementos h1, h2, etc., intercalados de forma contraria al nivel estructural que representan, por ejemplo, puede aparecer un elemento h1 después de un elemento h2, para conseguir el efecto tipográfico asociado por el navegador con la etiqueta (negrita y un cuerpo más grande). También puede suceder exactamente lo contrario, es decir, que el título principal y los títulos de las secciones carezcan de la etiqueta correspondiente y, en su lugar, el autor de la página haya intentado marcar su importancia mediante atributos de formato (como negrita o cursiva y distintos cuerpo de letra) en lugar de estructurales (como h1, h2, etc.).
El resultado es una Web donde la codificación de las páginas, además de poseer un nulo valor semántico (una de las pocas excepciones es la etiqueta de la sección de cabecera de la página), se puede utilizar de forma contraria a su función, por lo que ni tan solo son fiables los indicios que podrían proporcionar las etiquetas funcionales. En tales condiciones, la interpretación semántica certera de la página es imposible por parte de analizadores automáticos. Como resultado, las páginas web tienen semántica únicamente para los seres humanos.<br />En efecto, tal como se codifican las páginas web actuales, principalmente mediante el lenguaje HMTL, tienen muy poco sentido para las máquinas. En efecto, si vemos el código fuente de una página web actual, encontramos, por ejemplo, un trozo de código como el siguiente:<br /><br /><table width=570 cellpadding=7 cellspacing=0> <col width=554> <tr> <td width=554 valign=top> <br />…<br /><br /><b><i>Superar la brecha digital</i></b><br /><br />…<br /></td> </tr> </table> <br /><br />cuando el ordenador lo interprete, a través del programa navegador, aparecerá como un texto en negrita y cursiva, como éste:<br /><br /><table width=570 cellpadding=7 cellspacing=0> <col width=554> <tr> <td width=554 valign=top> <br />…<br /><br /><i><b>Superar la brecha digital</b></i><br /><br />…<br /></td> </tr> </table> <br /><br /><br /><b>1.2.1. Búsqueda basada en cadenas de caracteres</b><br />Con lo anterior se acaba una buena parte de lo que es capaz de hacer un ordenador con las páginas HTML. Pero, como saben bien informáticos y documentalistas, otra cosa que pueden hacer los ordenadores es construir índices con las palabras que aparecen en las páginas web. Después cuando alguien envía una pregunta a un motor de búsqueda, lo que hace este último es comparar las palabras de la pregunta con las palabras de su índice. Por ejemplo, supongamos que el responsable de un programa de gobierno sobre el problema de la brecha digital decide indagar en Internet para ver si encuentra estudios o informes sobre la brecha digital.<br />Supongamos que accede a Google y entra la siguiente pregunta: "brecha digital". Lo que hará Google es comparar las palabras de su pregunta, con las palabras de su índice. Si encuentra un documento que tenga la "brecha digital", lo devolverá como respuesta. Esto es casi todo lo que pueden hacer los ordenadores que tenga que ver con procesamiento de información en páginas web.<br />Con estas limitaciones, aunque la búsqueda en Internet está repleta de satisfacciones (no es difícil encontrar cosas valiosas en la Web con ayuda de los motores de búsqueda), también provoca muchas frustraciones. Si alguien busca por "caballos", no encontrará nada que trate sobre "yeguas" o sobre “potros” Si alguien busca sobre cómo evitar la guerra, no encontrará un documento sobre cómo conseguir la paz, por la simple razón de que las cadenas de caracteres no coinciden. En una búsqueda basada en la palabra clave “depresión” el ordenador no tiene forma de saber si buscamos documentos sobre geografía, sobre psicología o sobre el clima.<br />Quizás lo peor, con todo es la imposibilidad de precisar géneros documentales (artículos de revista vs. entradas de diccionario, por ejemplo) o puntos de vista en una búsqueda. Por ejemplo, una búsqueda sobre “Pentium 4” arrojará una buena cantidad de páginas de comercio electrónico. Si eso es lo que quiere el usuario, es decir, encontrar tiendas de informática en Internet, no hay ningún problema. Pero, si lo que quiere es encontrar documentación técnica sobre microprocesadores de la marca Pentium 4 así como análisis y comparaciones con otras marcas, por ejemplo, con AMD, probablemente deba dar la búsqueda por imposible dada la supremacía de las páginas web dedicadas al comercio electrónico en las listas de resultados de los motores de búsqueda. <br />Hay otras muchas cosas que no podemos expresar. Antes de pasar a la siguiente, que merece una cierta atención, tampoco es posible precisar lo que podemos llamar la granularidad de la respuesta. Si buscamos información sobre un país, por ejemplo, Botswana, no es posible indicar si queremos una síntesis breve de sus condiciones de vida sociales y de su forma de gobierno o un estudio detallado de economía con cientos de estadísticas sobre todas las dimensiones económicas y políticas de Botswana (a través de las cuales, sin duda, si pudiéramos dedicar el número de horas suficientes tal vez podamos deducir lo anterior). <br />Tampoco resulta posible expresar puntos de vista. Por ejemplo, supongamos la necesidad de información que denominaremos <i>N1</i>, y que consistente en que necesitamos encontrar información sobre aplicaciones de la Web semántica a la documentación. Hasta ahora, lo único que puedo hacer para expresar una necesidad de información como <i>N1</i> es construir una ecuación booleana, que denominaremos <i>E1</i>, como esta: [Web semántica AND documentación]. El problema es que la ecuación <i>E1</i> serviría a la vez para todas estas necesidades de información distintas, y de las cuales posiblemente solamente una de ellas es la requerida por el usuario<br /><br /><ol type=i> <li><br /><i>N1</i><i>:</i><i> Web semántica aplicada a la documentación</i>. Por ejemplo, RDF para representar lenguajes documentales<br /><li><br /><i>N2</i><i>:</i><i> Documentación “de” la Web semántica</i>. Por ejemplo, el tutorial de un programa para editar archivos en formato XML<br /><li><br /><i>N3</i><i>:</i><i> Documentación “sobre” la Web semántica</i>. Por ejemplo, la página oficial del World Wide Web Consortium sobre la Web semántica <br /><li><br /><i>N4</i><i>:</i><i> Documentación aplicada a la Web semántica</i>. Por ejemplo, bibliotecas, archivos o centros de documentación dedicados a la Web semántica<br /></ol> <br /><br />Si tomamos como ejemplo a los lectores interesados en este capítulo, resulta que solamente los documentos que responden a la necesidad de información <i>N1</i> resultarán de utilidad. Un motor de búsqueda como Google, no obstante, devolverá como respuesta de forma indiscriminada documentos correspondientes a las necesidades de información <i>N1</i><i>,</i> <i>N2, N3</i> y <i>N4</i><i> </i>por la simple razón de que no existe ningún procedimiento para especificar los objetivos de la búsqueda, ni el género o la clase de documentos solicitados ni tampoco el punto de vista concreto que necesita el usuario.<br /><br /><b>1.3. La Web semántica</b><br />La Web semántica puede ser la respuesta a los problemas anteriores, aunque el proyecto intenta ir mucho más allá. Comencemos por señalar que, en la Web semántica, en lugar búsquedas por comparación de cadenas de caracteres, se espera que los sistemas de información sean capaces de buscar por conceptos. <br />Si buscamos por caracteres, las palabras de la pregunta y las palabras del documento (o del índice de documentos) deben coincidir letra a letra. En cambio, si buscamos por conceptos, lo de menos es la palabra. Lo importante es el concepto. Esto suena a inteligencia artificial. Por tanto, aunque existe una cierta resistencia a llamarlo así, con la Web semántica se está buscando el mismo objetivo que la IA, a saber, que los ordenadores entiendan que un documento sobre "equinos" puede ser muy relevante para una necesidad de información sobre "caballos", y que conceptualmente las preguntas "¿es posible parar la guerra?" y "¿es posible alcanzar la paz?" son en realidad la misma pregunta.<br />Por tanto, entre los objetivos de la Web semántica se encuentra la posibilidad de que sea posible sostener una interacción entre un usuario y un agente de software mediante el cual el primero pueda ir expresando y perfilando sin ambigüedad puntos como los siguientes: objetivos de la búsqueda, géneros documentales pertinentes, punto de vista, granularidad esperada en la respuesta, etc. A partir de aquí, se espera que el agente de software sea capaz de elaborar una estrategia de búsqueda según su propia iniciativa (la del agente de software) que involucre el uso de lenguajes documentales, metadatos y ontologías para responder con eficacia y rapidez al usuario.<br />Se espera igualmente que los ordenadores puedan desarrollar tareas de gestión que requieran interpretar información y tomar decisiones adaptándolas al contexto. El mejor ejemplo de este tipo de tareas lo proporcionó el propio Tim Berners-Lee junto con dos de sus colaboradores en el año 2001 (Berners-Lee, Hendler y Lassila, 2001: 39). En este artículo, los autores mencionados explicaban el caso de unos usuarios del futuro (para cuando se escribió ese artículo se estaba pensando en unos 5 años vista, por la tanto ya debería ser posible) podrían encargar a un agente de software el establecimiento de citas para sesiones de fisioterapia. Vale la pena reproducir lo que señalaba el citado artículo:<br />Lucía, desde la consulta del médico, dio instrucciones a su <i>agente</i> de la Red<SUP><SUP>3</SUP></SUP> semántica mediante su navegador portátil. Al cabo de unos instantes, el agente había obtenido del agente del médico la información necesaria sobre el <b>tratamiento prescrito</b>, había consultado varias listas de <b>profesionales</b>, y verificado cuáles pertenecían al <b>seguro médico</b> <b>en un radio de 30 kilómetros</b> del <b>domicilio</b> de ésta, y habían recibido <b>valoración de excelente</b> o <b>muy bueno</b> por servicios de evaluación de calidad dignos de confianza. El agente empezó entonces a buscar concordancias entre las <b>horas de cita previa</b> de que disponían estos profesionales (proporcionados por los agentes de cada uno de ellos desde sus sitios en la Red) y los escasos huecos con que contaban los atareados Germán y Lucía. (Berners-Lee, Hendler y Lassila, 2001: 39).<br />Nosotros hemos marcado en cursiva la palabra agente de la primer línea. El término agente en todo el párrafo citado (no solamente en la primera línea) se refiere a un programa informático con autonomía para realizar acciones e incluso adoptar decisiones (aunque sean luego revisadas por el usuario) inteligentes. <br />En cambio, los términos en negrita están así mismo en el original. Respecto a ellos, señalan los autores: “Las palabras clave resaltadas denotan términos cuya semántica […] le fue definida al agente a través de la Red semántica”. Es decir, de acuerdo con los autores, términos como “tratamiento prescrito”, “profesionales”, “domicilio”, etc., serán entendidos, es decir, tendrán valor semántico, para el agente de software.<br />Presentada en estos términos, no cabe más remedio que concluir que la Web semántica incluye, como ya hemos destacada antes un objetivo al que la informática ha denominado hasta ahora Inteligencia Artificial. A continuación, siempre en el mismo artículo, puede leerse lo siguiente:<br />La Red semántica aportará estructura al contenido significante de las páginas de la Red; creará un ambiente en el que los agentes informáticos, que irán visitando una página tras otra, realizarán con presteza tareas complejas por encargo de los usuarios del sistema. Llegado a la página de la clínica, tal agente no sólo <i>sabrá</i> que la página contiene términos clave como “tratamiento, medicina, fisioterapia”, sino que el doctor Martín <b>consulta</b> en esta <b>clínica</b> los <b>lunes</b>, <b>miércoles</b> y <b>viernes</b>, que el guión acepta <b>intervalos de fechas</b> en el formato <b>dd-mm-aa</b> y responde con <b>horas de cita</b>. Podrá “enterarse” de todo ello sin necesidad de poseer una inteligencia artificial”. El contenido semántico quedó codificado en la página de la clínica cuando sus administradores le dieron forma […]. (Berners-Lee, Hendler y Lassila, 2001: 39).<br />En el párrafo precedente vemos que, después de enumerar tareas propias de la Inteligencia Artificial, los autores indican claramente contradictoria: “todo ello sin necesidad de poseer una inteligencia artificial”. Esta declaración solamente se explica por el deseo expreso del W3C de distanciarse del aura de fracaso de una parte de la Inteligencia Artificial que, entre los años 50 y 80 proclamó día sí y día también que las máquinas inteligentes estaban a la vuelta de la esquina sin que tal cosa haya sido cumplida ni siquiera 50 años después de las primeras promesas.<br />A pesar de todo, un sencillo test con Google nos indica que, en febrero del 2006, una pregunta sobre “Inteligencia Artificial y Web semántica” arrojó más de medio millón de resultados que relacionan ambas cosas (recordemos que, para Google, la simple yuxtaposición corresponde a un AND booleano).<br /><img src="28326_html_33e01db6.png" name="graphics1" align=bottom width=567 height=192 border=0><br /><br />Figura 1: Una consulta en Google sobre Inteligencia Artificial y Web semántica<br /><br /><br /><b>1.4. Infraestructura de la Web semántica</b><br />Los medios con los cuales se persiguen los objetivos de la Web semántica que hemos presentado anteriormente son, a grandes ragos, los siguientes: en primer lugar, mediante una codificación de páginas en la cual las etiquetas tengan, precisamente, carga semántica. Este apartado corresponde al estándar denominado XML (<i>eXtensible Markup Language</i>).<br />En segundo lugar, aportando descripciones (metadatos) de las páginas y sitios web con un formato que sea compatible con la estructura general de la Web y con diversas categorías de páginas e interoperable entre distintos sistemas informáticos. De este se ocupa la norma RDF (<i>Resource Description Language</i>).<br />En tercer lugar, mediante un sistema de ontologías que permitan especificar conceptos de los diversos dominios del conocimiento mediante el uso de un lenguaje fuertemente basado en lógica simbólica y susceptible, por tanto, de ser eventualmente interpretado por un ordenador. De este aspecto se ocupa el denominado <i>OWL Web Ontology Language </i>(OWL). <br />No obstante, el proyecto de la Web semántica está formado por una auténtica sopa de letras, dada la diversidad de normas, protocolos, lenguajes y especificaciones involucradas. De hecho, existe un famoso diagrama debido a Tim Berners-Lee, de gran capacidad expresiva, que pretende abarcar la totalidad del proyecto mediante una metáfora de capas que comprende 7 niveles y que reproducimos a continuación:<br /><img src="28326_html_m2279dd57.png" name="graphics2" align=bottom width=300 height=203 border=0><br /><br />Figura 2: La Web semántica vista como un sistema de capas (fuente: Tim Berners-Lee. http://www.w3.org/2000/Talks/1206-xml2k-tbl/slide11-0.html)<br />En la tabla siguiente presentamos más detalle el significado de las capas del gráfico de la Figura 2.<br /><b>Tabla 2: Los 7 niveles de la Web Semántica</b><br /><table width=577 cellpadding=7 cellspacing=0> <col width=112> <col width=435> <tr valign=top> <td width=112 bgcolor="#e6e6e6"> <br /><b>1</b><br /><br /><i><b>Unicode + URI</b></i><br /></td> <td width=435 bgcolor="#e6e6e6"> <br /><i>Unicode</i> es un sistema internacional estándar que proporciona un número único para cada carácter, sin importar la plataforma ni el programa. Esto permite representar caracteres de cualquier idioma con una codificación unificada. <i>Uniform Resource Identifier</i> (URI) es un sistema de direccionamiento e identificación de recursos. El sistema que usamos actualmente para acceder a los recursos de la Web (URL) es una parte de URI. <br /></td> </tr> <tr valign=top> <td width=112 bgcolor="#e6e6e6"> <br /><b>2</b><br /><br /><i><b>XML+NS+XML SCHEMA</b></i><br /></td> <td width=435 bgcolor="#e6e6e6"> <br /><i>eXtended Markup Language</i> (XML) es un sistema que permite definir lenguajes de marcas para usos específicos. <i>Name Spaces</i> (NS) permite combinar diversos lenguajes de marcado creados con XML en un mismo documento. <i>XML Schema </i>sirve para definir tipos de documentos complejos en los que se pueden especificar tipos de datos, listas de componentes y restricciones similares a las del diccionario de datos típico de una base de datos.<br /></td> </tr> <tr valign=top> <td width=112 bgcolor="#e6e6e6"> <br /><b>3</b><br /><br /><i><b>RDF + rdfschema</b></i><br /></td> <td width=435 bgcolor="#e6e6e6"> <br /><i>Resource Description Framework</i> (RDF) es un modelo de representación de metadatos que, entre otras cosas, permite representar recursos digitales tales como sitios o páginas web. RDF está concebido para representar cualquier clase de recursos (no solamente páginas publicadas en la web). <i>RDF Schema</i>, por su parte, es una extensión de RDF que aporta un lenguaje con mayor capacidad para representar relaciones semánticas complejas.<br /></td> </tr> <tr valign=top> <td width=112> <br /><b>4</b><br /><br /><i><b>Ontology vocabulary</b></i><br /></td> <td width=435> <br />Una <i>ontología</i> es una especificación formal de un dominio del conocimiento que, en su expresión más simple, se identifica con una taxonomía. Una taxonomía consiste en una jerarquía de conceptos y sus relaciones del tipo clase-subclase. Una ontología formaliza la relación de clase, añade otras relaciones y especifica propiedades para individuos y clases. <i>Ontology-vocabulary</i> se refiere a una ontología concreta sobre un dominio concreto del conocimiento.<br /></td> </tr> <tr valign=top> <td width=112> <br /><b>5</b><br /><br /><i><b>Logic</b></i><br /></td> <td width=435> <br />En este contexto, <i>logic</i> se refiere al estudio de las reglas formales que permiten determinar si un razonamiento se sigue de sus premisas. La lógica estudia, por tanto, la estructura de los razonamientos válidos. Se espera que los ordenadores del futuro puedan efectuar razonamientos sobre los recursos y servicios de la Web combinando los conocimientos expresados en las ontologías, los hechos declarados en los metadatos y la aplicación de reglas lógicas.<br /></td> </tr> <tr valign=top> <td width=112> <br /><b>6</b><br /><br /><b>Proof</b><br /></td> <td width=435> <br />En este contexto, <i>Proof</i> (prueba) significa demostración [matemática]. Se considera que un ordenador alcanza la máxima fiabilidad en sus razonamientos cuando es capaz de realizar demostraciones o, lo que es lo mismo a efectos prácticos, cuando es capaz de justificar el motivo por el cual tomó (o aconsejó tomar) una decisión.<br /></td> </tr> <tr valign=top> <td width=112> <br /><b>7</b><br /><br /><b>Trust (+ Digital Signature)</b><br /></td> <td width=435> <br />La última capa, <i>Trust</i> (confianza) debe servir para otorgar confianza a las transacciones en la Web a través que se llevarán a cabo no solamente entre usuarios y sitios web sino también entre programas de software; y todo ello tanto en el plano C2B (<i>consumer to business</i>) como en el B2B (<i>business to business</i>). La <i>Digital Signature </i>(firma digital) proporcionará soporte específico a esta capa, tal como muestra el diagrama.<br /></td> </tr> </table> <br /><br /><br />Como hemos señalado, hasta ahora, solamente las tres primeras capas (las filas sombreadas) disponen de algún nivel de desarrollado, y ni siquiera lo están en su totalidad. Respecto a las siguientes capas, la verdad es que se ha generado una gran cantidad de literatura técnica, científica y filosófica, pero a todos los efectos prácticos están totalmente en pañales.<br />Por lo tanto, en estos momentos, y al menos durante los próximos ¿tres, cuatro años?, XML, RDF y OWL (y por este mismo orden) serán con mucha diferencia los pilares más importantes del proyecto. Sucede que, además. son los elementos de mayor importancia para la Biblioteconomía-Documentación, razón por la cual, a partir de ahora, nos centraremos en ellos. <br /><b>1.4.1. XML</b><br />XML es sin ninguna duda el elemento de la Web semántica que mayor repercusión tiene ya (y que sin duda continuará teniendo en el futuro) en la Biblioteconomía-Documentación. XML es un estándar (una <i>recomendation</i> en palabras del W3C) que, junto con su norma asociada, XML Schema, permite definir tipos de documentos y los conjuntos de etiquetas necesarias para codificar tales tipos de documentos. La idea es que, una vez los documentos están marcados o codificados con un conjunto de etiquetas XML es posible procesarlos y explotarlos de forma automática con diversos propósitos, de la misma manera que un conjunto de registros de una base de datos se puede explotar de formas diversas, e incluso exportarse a diversos sistemas de gestión de bases de datos si la estructura de registros sigue algún tipo de estándard.<br />Uno de estos propósitos puede ser codificar los documentos una sola vez, pero poder mostrarlos a través de distintos dispositivos: un navegador de Internet como Mozilla o Explorer, la pantalla de un PDA, la pantalla de un móvil, etc., siempre con el mismo conjunto de etiquetas y simplemente aplicando cada vez una hoja de estila distinta. Otros propósitos pueden ir desde la minería de datos (si se dispone de un conjunto de documentos suficiente) hasta la recuperación de información.<br />XML es, por tanto, un meta lenguaje de marcado que, por un lado proporciona la posibilidad de codificar páginas de un modo directo con etiquetas <i>ad-hoc</i> y, por otro, proporciona la posibilidad de definir esquemas y tipos de documentos que, a su vez, permiten crear instancias de documentos cuya adecuación puede ser validada de forma automática con programas informáticos.<br />Con XML se pueden diseñar lenguajes de marcado muy estructurados y muy explícitos en los cuales, en lugar de etiquetas como <b> e <i>, podemos disponer de etiquetas como <título>, <subtítulo>, <capítulo>, <autor>, <institución>, <ciudad>, etc. De este modo, si una empresa o institución necesita almacenar y procesar información sobre los currículum vitae de sus empleados, puede desarrollar un Schema XML que le permita crear documentos XML bien formados que dispongan de etiquetas como <lugar_nacimiento>, <titulacion_academica>, <idiomas_hablados>, <experiencia_laboral>, etc.<br />XML puede ser visto, a la vez, como un formato de publicación que permite crear lo que algunos autores denominan <i>text-centric documents</i>, o puede ser visto como un sistema de intercambio y procesamiento de datos que permite crear en este caso lo que se denomina <i>data-centric documents</i>. <br />Como sistema de edición y publicación es un formato que utilizan ya numerosas aplicaciones ofimáticas. La más importante en el mundo del open software es OpenOffice. Las dos siguientes ilustraciones muestran una captura de un texto editado con OpenOffice y el código fuente del mismo texto generado en formato XML de forma automática por OpenOffice:<br /><img src="28326_html_m3087ef80.png" name="graphics3" align=bottom width=566 height=408 border=0><br /><br />Figura 3: OpenOffice utiliza XML como formato nativo de manera transparente al usuario<br /><br /><table width=577 cellpadding=7 cellspacing=0> <col width=561> <tr> <td width=561 valign=top> <br /><br /><text:p text:style-name="P1">OpenOffice y XML</text:p> <br /><br /><text:p text:style-name="Horizontal Line" /> <br /><br /><text:p text:style-name="Standard"><br /><br />Sin duda, la aplicación ofimática de tipo <text:span text:style-name="T1">open source</text:span> más importante que utiliza XML como formato nativo es la suite de programas denominada <text:span text:style-name="T1">OpenOffice.</text:span> <br /><br /><text:span text:style-name="T2">Esta suite está formada, entre otros, por las siguientes aplicaciones:</text:span> <br /><br /></text:p><br /><br /><text:ordered-list text:style-name="L1"><br /><br /><text:list-item><br /><br /><text:p text:style-name="P2"><br /><br /><text:span text:style-name="T1">Writer</text:span> (editor de textos) <br /><br /></text:p> <br /></td> </tr> </table> <br />Figura 4: Vista parcial del código fuente XML generado por <i>OpenOffice </i>del documento de la imagen anterior<br />Algunas observaciones sobre lo anterior: en primer lugar, el uso que hace OpenOffice de XML es transparente al usuario, es decir, éste no necesita saber nada sobre XML y, de hecho, OpenOffice no abruma al usuario informándole siquiera sobre este formato salvo que el usuario desee bucear en las interioridades técnicas del programa. En segundo lugar, OpenOffice permite guardar documentos en distintos lenguajes o aplicaciones XML, entre ellos, el formato DocBook para codificar libros y documentos técnicos y el formato XML de las aplicaciones de Microsoft Office. Por último, como podemos ver un documento codificado con XML guarda enormes semejanzas con el código fuente HTML de una página web. <br />El motivo es que ambos lenguajes, HTML y XML, derivan del mismo metalenguaje, denominado SGML<SUP><SUP>4</SUP></SUP> y, por tanto, ambos comparten la misma filosofía básica y la forma de actuación idéntica: los documentos consisten en texto rodeado por parejas de marcas especificas (como las que conocemos en el caso de HTML: </ciudad></autor>
  1   2   3   4   5

similar:

Por: Lluís Codina y Cristòfol Rovira iconRovira M. Lámparas de fotopolimerización: Estado actual. Rev Oper Dent Endod 2006;5: 29

Por: Lluís Codina y Cristòfol Rovira iconLas rocas son un agregado de origen natural, que puede estar formado...

Por: Lluís Codina y Cristòfol Rovira iconA) Indique si el carácter mostrado en la genealogía por los símbolos...

Por: Lluís Codina y Cristòfol Rovira iconTraducido y revisado por: Enrique Rey Arufe y
«No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma...

Por: Lluís Codina y Cristòfol Rovira iconPor Don Croft (Traducido por José B. Editado por Ismael V.)

Por: Lluís Codina y Cristòfol Rovira iconEste es el listado de Libros de Varieduca. Con el comando Control...

Por: Lluís Codina y Cristòfol Rovira iconOfrece una extensa recopilación de juegos educativos interactivos...

Por: Lluís Codina y Cristòfol Rovira iconOrden Jus/, por la que se convoca proceso selectivo para ingreso...

Por: Lluís Codina y Cristòfol Rovira iconLa química, es una ciencia empírica. Ya que estudia las cosas, por...

Por: Lluís Codina y Cristòfol Rovira iconR: Los éteres se forman o por la unión de alcoholes primarios, o...


Medicina



Todos los derechos reservados. Copyright © 2015
contactos
med.se-todo.com