UNIVERSIDAD TÉCNICA PARTICULAR DE...

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

I

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja

MODALIDAD CLÁSICA

ESCUELA DE CIENCIAS DE LA COMPUTACIÓN

DEFINICIÓN DE UNA TÉCNICA DE REPRESENTACIÓN

UNIVERSAL DEL LENGUAJE

Trabajo de fin de carrera previo a la

obtención del título de Ingeniera en

Sistemas Informáticos y Computación.

AUTORA:

Encalada Elizalde Elba Elizabeth

DIRECTORA:

Ing. Guido Riofrío

LOJA

2010



II

CERTIFICACIÓN

Ing.

Guido Riofrío

DIRECTOR DEL PROYECTO DE FIN DE CARRERA

C E R T I F I C O:

Que el presente trabajo de fin de carrera previo a la obtención del título de

Ingeniera en Sistemas Informáticos y Computación, titulado “DEFINICIÓN DE UNA

TÉCNICA DE REPRESENTACIÓN UNIVERSAL DEL LENGUAJE” realizado por la

profesional en formación ENCALADA ELIZALDE ELBA ELIZABETH ha sido

orientado, revisado y corregido bajo mi dirección por lo que autorizo su

presentación.

Loja, 13 de Noviembre del 2010.

f) . . . . . . . . . . . . . . . . . . . .



III

CERTIFICACIÓN

Ing.

Manuel Sucunuta

CODIRECTOR DEL PROYECTO DE FIN DE CARRERA

C E R T I F I C O:

Que el presente trabajo de fin de carrera previo a la obtención del título de

Ingeniera en Sistemas Informáticos y Computación, titulado “DEFINICIÓN DE

UNA TÉCNICA DE REPRESENTACIÓN UNIVERSAL DEL LENGUAJE” realizado

por la profesional en formación ENCALADA ELIZALDE ELBA ELIZABETH ha

sido orientado, revisado y corregido bajo mi dirección por lo que autorizo su

presentación.

Loja, 13 de Noviembre del 2010.

f) . . . . . . . . . . . . . . . . . . . .



IV

DECLARACIÓN Y CESIÓN DE DERECHOS

“Yo Elba Elizabeth Encalada Elizalde declaro ser autora del presente trabajo y

eximo expresamente a la Universidad Técnica Particular de Loja y a sus

representantes legales de posibles reclamos o acciones legales.

Adicionalmente declaro conocer y aceptar la disposición del Art. 67 del Estatuto

Orgánico de la Universidad Técnica Particular de Loja que en su parte

pertinente textualmente dice: “Forman parte del patrimonio de la Universidad

la propiedad intelectual de investigaciones, trabajos científicos o técnicos y tesis

de grado que se realicen a través, o con el apoyo financiero, académico o

institucional (operativo) de la Universidad”

f. ..............................................................

Autor



V

AUTORÍA

Las ideas, conceptos, procedimientos y resultados vertidos en el presente

trabajo, son de exclusiva responsabilidad del autor.

………………………………..

Elba Elizabeth Encalada Elizalde



VI

DEDICATORIA

A mi adorada madre, la persona que con amor, comprensión y disciplina ha

guiado mi vida en cada momento y con su sacrifico y trabajo a sabido apoyarme

en todo cuanto ha sido necesario y por esto y más ha sabido ganarse mi amor y

respeto, también a mi padre que con su ejemplo ha sabido enseñarnos a ser

humildes y responsables en nuestras vidas.

A mis hermanos Manuel, Hernán, Danny, Diego y Santi por su apoyo, respeto y

cariño durante toda mi vida.

Y a unas personitas que han llegado a alegrar mi vida con sus sonrisas, y que han

sido fuente de inspiración para poder alcanzar este logro, mis sobrinos Cami,

Sebas, Sami y Majito.

Nena



VII

AGRADECIMIENTO

Agradezco a Dios quien me regaló la vida y junto con ella a la familia que tengo,

por darme la oportunidad de prepararme y por su amor que lo he sentido en

cada instante de mi vida y ha sido mi aliento para seguir en los momentos más

difíciles.

A mis padres Gabriel y Gloria por su apoyo incondicional en cada momento de

mi vida estudiantil, de la misma manera al resto de la familia.

A mis profesores quienes desinteresadamente han aportado en mi formación

académica compartiéndome sus conocimientos durante estos cinco años de

preparación. Y de manera especial al Ing. Guido Riofrío Director de este trabajo

por su apoyo, aliento y amistad.

Agradecer también a mis amigos Margarita, Fabricio y Paty quienes fueron

siempre mi apoyo, mi compañía y mi fuerza para poder llegar al final de este

camino, sin olvidar los momentos de alegría y las risas que siempre nos

ayudaron a sobrellevar los momentos más duros de nuestra carrera.

Loja, 2010

Elba Encalada Elizalde



VIII

Índice General

Certificación……………………………………………………………………………………...…………. II

Declaración y Gestión de derechos…………………………………………...……………..…… IV

Autoría…………………………………………………………………………............................................ V

Dedicatoria……………………………………………………………………………………..…………... VI

Agradecimiento……………………………...……………………………….………………………..... VII

Índice de Contenidos …………,,……………………………………………………………...………. IX

Índice de Figuras ………………………………………………………….…………………….……… XII

Índice de Tablas…………………………………………………………………………….…..……… XIV

Resumen………………………...………………………………………………………….………............... 1

Introducción………...…………………………………………………………………..…………….......... 2

Objetivo General………………………………………………………………………………………....... 5

Objetivos Específicos……………………………………………………………………………………. 5



IX

Índice de Contenidos 1. CAPÍTULO ................................................................................................................................. 6

1.1 INTRODUCCIÓN ................................................................................................................ 7

1.2 LINGÜÍSTICA ...................................................................................................................... 7

1.3 INGENIERÍA LINGÜÍSTICA ........................................................................................... 8

1.4 LINGÜÍSTICA COMPUTACIONAL ............................................................................. 10

1.4.1 Áreas de la Lingüística Computacional ....................................................... 12

1.5 ASPECTOS DEL LENGUAJE ........................................................................................ 12

1.6 TECNOLOGÍAS DEL TEXTO ESCRITO .................................................................... 13

2. CAPITULO .............................................................................................................................. 16

La Web Semántica ..................................................................................................................... 18

2.1 REDES SEMÁNTICAS .................................................................................................... 19

2.1.1 Categorías de Redes Semánticas .................................................................... 20

2.2 TAXONOMÍAS.................................................................................................................. 21

2.2.1 Tipos de Taxonomías: ........................................................................................ 23

2.2.2 Ejemplos de Taxonomías: ................................................................................. 24

2.3 METADATOS ................................................................................................................... 25

2.3.1 Características de los Metadatos: .................................................................. 26

2.3.2 Tipos de Metadatos: ............................................................................................ 26

2.3.3 Modelos de Metadatos: ...................................................................................... 27

2.4 ONTOLOGÍAS: ................................................................................................................. 33

2.4.1 Componentes de una Ontología: .................................................................... 36

2.4.2 Clasificación de Ontologías: ............................................................................. 37

2.4.3 Desarrollo de una Ontología: ........................................................................... 38

2.4.4 Lenguajes de Ontologías: .................................................................................. 39

2.5 DISCUSIÓN ....................................................................................................................... 39



X

3. CAPITULO .............................................................................................................................. 41

Tecnologías Existentes ........................................................................................................... 41

3.1 ONTOLOGÍAS MULTILINGÜES: ................................................................................ 42

3.2 INTERLINGUA ................................................................................................................. 45

3.3 RECURSOS LINGÜÍSTICOS ......................................................................................... 51

3.3.1 Corpus ...................................................................................................................... 51

3.3.2 Tesauros .................................................................................................................. 53

3.3.3 Glosarios .................................................................................................................. 55

3.3.4 Wordnet ................................................................................................................... 56

3.3.5 Eurowordnet ......................................................................................................... 61

3.4 PROYECTOS RELACIONADOS Y APLICACIONES QUE PRESENTAN

MULTILINGUISMO .................................................................................................................. 65

3.4.1 GENOMA KB ........................................................................................................... 65

3.4.2 AGROVOC ................................................................................................................ 66

3.4.3 LIR .............................................................................................................................. 67

3.4.4 STASIS ...................................................................................................................... 67

3.5 Discusión .......................................................................................................................... 68

4. CAPITULO .............................................................................................................................. 69

4.1 DESCRIPCIÓN DE ARQUITECTURA ........................................................................ 71

4.1.1 Identificación del Lenguaje .............................................................................. 71

4.1.2 Análisis ..................................................................................................................... 72

4.1.3 Búsqueda (Wordnet) .......................................................................................... 73

4.1.4 Correspondencia de Lenguaje ........................................................................ 73

4.1.5 Representación Universal: ............................................................................... 74

4.2 DISCUSIÓN ....................................................................................................................... 79

5. CAPITULO .............................................................................................................................. 80

Conclusiones y Trabajos Futuros ..................................................................................... 80

5.1 Conclusiones ................................................................................................................... 81

5.2 Recomendaciones ......................................................................................................... 82



XI

5.3 Trabajos Futuros ........................................................................................................... 82

REFERENCIAS ............................................................................................................................... 84

ABREVIATURAS ........................................................................................................................... 89

ANEXOS ........................................................................................................................................... 91



XII

Índice de Figuras Figura 1.1 Antecedentes y áreas de la Lingüística Computacional [4] ...................... 11

Figura 3.1 Arquitectura Lor@, Ontología Interlingua [19]. .......................................... 43

Figura 3.2 Arquitectura de la TA basada en Interlingua [48]....................................... 46

Figura 3.3 Proceso de Traducción de ATLASII. [49] ......................................................... 48

Figura 3.4 Categorización de Palabras Universales [52] ................................................ 50

Figura 3.5 Ejemplo de representación de una UW en UNL. [47] .................................. 50

Figura 3.6 Matriz de Vocabulario en Wordnet [53] ......................................................... 57

Figura 3.7 Sentidos del sustantivo Car (Wordnet 2.0) ..................................................... 57

Figura 3.8 Sinónimos de house................................................................................................. 58

Figura 3.9 Antónimos de Clean ................................................................................................ 58

Figura 3.10 Hipónimos de dog. ................................................................................................ 59

Figura 3.11 Hiperónimos de dog ............................................................................................. 59

Figura 3.12 Holónimo de hand................................................................................................. 60

Figura 3.13 Merónimo de hand................................................................................................ 60

Figura 3.14 Ejemplo de un Sysnet [50] .................................................................................. 61

Figura 3.15 Descripción de ILI ................................................................................................. 63

Figura 3.16 Ejemplo de ILI ........................................................................................................ 64

Figura 3.17 Arquitectura de GENOMA KB [34] .................................................................. 66

Figura 4.1 Arquitectura Multilingüe para Representación Universal del Lenguaje

............................................................................................................................................................. 70

Figura 4.2 Ejemplo Herramienta RLI .................................................................................... 72

Figura 4.3 Recursos para la correspondencia de palabras ............................................ 74

Figura 4.4 Ejemplo de representación Universal de una frase ..................................... 74

Figura 4.5 Grafo Conceptual de la palabra “juega” .......................................................... 78



XIII

Figura 4.6 Grafo Conceptual de la frase “El gato juega con la pelota” ...................... 79



XIV

Índice de Tablas Tabla 1.1 Distribución de Idiomas por Continente [1] ........................................................ 3

Tabla 4.1 Símbolos para Características Gramaticales................................................... 76

Tabla 4.2 Abreviaturas para cada una de las opciones de las Características

Gramaticales .................................................................................................................................. 76

Tabla 4.3 Algunas Relaciones Semánticas (UNL) .............................................................. 76



XV



1

RESUMEN

La necesidad de intercambiar información en actividades como investigación,

educación, negocios, intercambio de cultura, etc. ha crecido constantemente. Es

muy difícil obligar a las personas aprender los múltiples idiomas que son

alrededor de 6000 en todo el mundo, más bien lo que se ha estado buscando

como solución y aprovechando la tecnología actual es brindar sistemas

multilingües que faciliten dicha actividad, ahorrando dinero, tiempo y sobre

todo esfuerzo por parte de nosotros las personas.

De esta necesidad parte la presente investigación, en la cual se pretende buscar

una solución que permita eliminar las barreras lingüísticas que limitan el uso de

la información creando una Representación Universal del Lenguaje para facilitar

el paso de un idioma a otro, empleando métodos y técnicas que ya se han

usando para el tratamiento de la información.

Para llegar a esta Representación Universal hemos definido un modelo que usa

dos recursos lingüísticos muy conocidos como es Wordnet y Eurowordnet. Así

como también las Redes Semánticas, específicamente los Grafos Conceptuales

para la representación antes mencionada.

Este trabajo de investigación está estructurado en cinco capítulos: el Capítulo 1

comprende un estado del arte de las tecnologías del lenguaje en donde se

describe los aspectos generales del lenguaje y la tecnología computacional. En el

Capítulo 2 se describe las técnicas o métodos que se usan para la representación

de la información con eso se pretende conocer las maneras de organizar la

información para facilitar y mejorar su tratamiento y reutilización por parte de

otras aplicaciones. En el Capítulo 3 se describen las Tecnologías Existentes que

se han usado para manejar el multilingüismo, así como los proyectos, sistemas e

investigaciones que se han hecho en cada una de estas. En el Capítulo 4 se ha

planteado un modelo que pretende cumplir con el objetivo de esta tesis que es

plantear un técnica de Representación Universal del Lenguaje y su respectiva

descripción. Y para finalizar en el Capítulo 5 se presentan las conclusiones y

recomendaciones de este trabajo, así como también los trabajos que creemos

necesarios deben realizarse en un futuro.

Palabras claves: multilingüismo, lenguaje, Representación Universal del

Lenguaje, red semántica.



2

INTRODUCCIÓN

La necesidad de traducir un texto de un idioma a otro ha surgido desde hace

mucho tiempo, por diversas razones ya sean comerciales, educativas, políticas y

religiosas; según la historia esta última fue una de las primeras ramas que tuvo

la necesidad de realizar una traducción, surgió la necesidad de traducir la biblia

del Hebreo al Griego, ya que la mayoría de las personas hablaban este idioma.

En la actualidad el hecho de compartir información es una actividad que se ha

vuelto muy usual, con el crecimiento rápido de internet la comunicación entre

personas de diferentes lenguas cada día es más común y más necesaria. A más

de esto los trabajos e investigaciones actualmente se realizan entre

investigadores de diferentes partes del mundo para lo cual deben intercambiar

constantemente documentos en distintos formatos e idiomas a más de las

nuevas palabras que estos generan e imponen a la sociedad.

Las diferentes instituciones son las más afectadas por las barreras lingüísticas

ya que hacen grandes inversiones en traducir información y crear sistemas que

se adecuen a su institución. “Las instituciones europeas se gastan cada año 1.000

millones de euros en la traducción de documentos o en la interpretación de

discursos. Las empresas europeas se gastan también millones de euros sólo para

entenderse y hacer transacciones comerciales con empresas de otros países de la

Unión Europea”1.

La lengua es el medio que nos permite la exploración y explotación de

información, pero para poder manipular esta información debemos

necesariamente conocer las características propias de cada idioma en el que

está representada, esto es conocimientos léxico, sintáctico, semántico. Como

sabemos no es fácil aprender todas estas características de todos los idiomas

que existen en el mundo, ya que son demasiados. Según las estadísticas de

Ethnologue expuestas en [1] se habla de la existencia de aproximadas 6.800

1Morales, R. (7 de Mayo de 2008). Tendencias Informáticas. Recuperado el Diciembre de 2009,

de http://www.tendencias21.net/Crean-un-sistema-de-traduccion-automatica-preciso-y-mas-fiable_a2248.html

http://www.tendencias21.net/Crean-un-sistema-de-traduccion-automatica-preciso-y-mas-fiable_a2248.html

http://www.tendencias21.net/Crean-un-sistema-de-traduccion-automatica-preciso-y-mas-fiable_a2248.html



3

idiomas distribuidos en 220 países, en la siguiente tabla se detallan según los

continentes:

Tabla 1.1 Distribución de Idiomas por Continente [1]

Continente Población Lenguas Vivas Porcentaje

África 780 millones 2011 30%

América 828 millones 1000 15%

Asia 3,6 millones 2165 33%

Europa 728 millones 225 3%

Pacífico 30 millones 1302 19%

Total 6 mil millones 6703 100%

Un medio que en la actualidad se ha vuelto muy importante para compartir

información es Internet, y como es de esperarse los múltiples idiomas son una

barrera para poder entender, usar la información y aprovechar las actividades

que este nos ofrece. En [2] podemos observar la distribución de los usuarios de

internet según los Idiomas, en donde podemos observar que el mayor número

de usuario son usuarios que manejan información en inglés, seguido del Chino,

Español y Japonés.

Por estas razones se han venido realizando varios proyectos e investigaciones

las cuales tratan de dar solución a este gran inconveniente de comunicación,

como los traductores los cuales en un inicio eran la única vía de poder buscar u

obtener una palabra equivalente de un idioma a otro, pero su limitación era la

poca exactitud en los resultados. Luego se han construido otras alternativas

como tesauros, ontologías multilingües, lexicones, etc. los cuales se estudiarán

en el desarrollo de esta investigación.

Las más recientes investigaciones se han acercado a crear herramientas,

métodos y técnicas para representar un lenguaje universal que sirva de puente

de comunicación entre las diferentes lenguas, de tal manera que se elimine esta

brecha de comunicación. Este lenguaje Universal, se concibe como un lenguajes

en el cual las palabras o frases están representadas como su nombre mismo lo

indica, de manera Universal, entendiéndose esta como un estándar al cual se

llega y del cual se parte a y desde los diferentes idiomas. Lo que se pretende

lograr con la creación de una Representación Universal del Lenguaje es mejorar

el acceso a la información por parte de los múltiples usuarios lo que puede traer



4

como consecuencia el mejoramiento en la educación, robustecer y facilitar las

relaciones comerciales en todo el mundo, crear una cultura global, etc.



5

OBJETIVO GENERAL

Diseñar una técnica de representación lingüística de carácter universal.

OBJETIVOS ESPECÍFICOS

Investigar los aspectos generales de la lingüística y su relación con las tecnologías computacionales existentes.

Conocer las diferentes formas de estructurar la información las cuales

faciliten su organización, tratamiento y reutilización.

Analizar las Tecnologías existentes hasta el momento y que permiten incorporar multilingüismo.

Investigar los Recursos Lingüísticos que puedan ser reutilizados para

cumplir con el objetivo principal de esta tesis.



6

1. CAPÍTULO

Aspectos Generales de las Tecnologías del

Lenguaje



7

1.1 INTRODUCCIÓN

Uno de los grandes campos de investigación en la actualidad es la Lingüística,

como una disciplina que a más de la importancia y relevancia que tiene para la

comunicación y el intercambio de información de la humanidad está generando

grandes ingresos a las personas y empresas que se han dedicado a su estudio,

explotación y creación de herramientas con el objetivo de minimizar su impacto

en las actividades que a diario son realizadas por el ser humano.

Para poder tener esta evolución y gran acogida la Lingüística se ha valido del

apoyo de otras grandes áreas como es la Informática, con la cual realiza un

trabajo interdisciplinar y el cual le ha dado una gran ayudada en la creación de

herramientas que facilitan su manejo. Estas herramientas también han ayudado

a personas con discapacidades visuales a aprender el lenguaje, a expresarse, y a

desarrollarse de una manera más cómoda y justa.

En Europa es en donde se ha dado mayor atención e investigación a este tema,

especialmente en España2 en donde se han creado grupos de investigación en

Universidades, proyectos de ingeniería lingüística financiados por programas

como EUREKA, COST, ACTS, TIDE. En América, México es también un país que se

ha interesado en el tema, específicamente la UNAM quien tiene varios proyectos

en desarrollo a través del Grupo de Ingeniería Lingüística3.

1.2 LINGÜÍSTICA

Lingüística es el estudio científico tanto de la estructura de las lenguas naturales

como del conocimiento que los hablantes poseen de ellas.

La lingüística puede dividirse en:

Lingüística Sincrónica que describe la lengua tal y como está en un

momento dado.

2 Cervantes, C. V. (s.f.). Ingeniería Lingüística en España. Análisis Comparativo. Recuperado el Diciembre de 2009 de http://cvc.cervantes.es/lengua/anuario/anuario_98/llisterri/llisterri_04.htm 3 Instituto de Ingeniería UNAM, Grupo de Ingeniería Lingüística (GIL)http://www.iling.unam.mx

http://es.wikipedia.org/wiki/Lengua_natural



8

Lingüística Diacrónica se centra en el desarrollo histórico y en los

cambios estructurales que ha tenido dicha lengua.

Lingüística Teórica es la construcción de la estructura general de una

lengua

Lingüística Aplicada es la aplicación de técnicas a las tareas básicas

para la elaboración de métodos que ayuden al aprendizaje de la lengua.

Lingüística Micro-lingüística se refiere al provecho propio que

podemos sacar personalmente de la lengua.

Lingüística Macro-lingüística en cambio se enmarca en todos los

aspectos de la lengua. Estas dos últimas no están bien definidas aún.

1.3 INGENIERÍA LINGÜÍSTICA

Disciplina en la que se emplean los conocimientos de las lenguas en el

desarrollo de sistemas informáticos que puedan reconocer, comprender,

interpretar y generar lenguaje humano en todas sus formas. Su principal

objetivo es proporcionar los medios para mejorar y ampliar la utilización de la

lengua. Se basa en el uso de técnicas para manipulación de la lengua y de

recursos lingüísticos como bases del conocimiento, para acceder a estos se vale

de programas informáticos [3].

Impulsada no solo por instituciones educativas, sino más bien en la actualidad

por organizaciones de las industrias privadas y comerciales. Su principal

características es el ámbito comercial, ya que en pocos años esta tendrá una

influencia masiva en la presentación de las civilizaciones, la cultura, la

educación. El mercado que se creará será de gran acogida y beneficio para los

turistas, investigadores, estudiantes, y más personas que se interesen por

conocer la historia de otros pueblos y los estudios e investigaciones de

diferentes partes del mundo.

En la actualidad los estudios que se están realizando están orientados a la

educación, la enseñanza y la edición, y en gran parte están orientados a la

recuperación de la información con el objetivo de hacer búsquedas rápidas, más

exactas (información relevante) y que la información sea presentada con un

orden de prioridad adecuado.



9

A continuación presentamos algunas áreas de las que se encarga la Ingeniería

Lingüística:

Reconocimiento, Captura y Búsqueda de Información.

Reconocimiento automático del Habla

Conversión de Texto a Habla, y viceversa.

Conversión Digital del Habla y Música.

Traducción.

Nuevo Métodos de Comunicación: hipervínculos, metalenguajes, etc.

En la Web existen algunas herramientas que nos ayudan a realizar un análisis

dentro de la Ingeniería lingüística. DAEDALUS4 es una empresa dedicada al

desarrollo de productos para la sociedad de la información, Existen algunas

herramientas que han desarrollado dentro del área de Tecnologías de la Lengua

las cuales nos permiten realizar un análisis morfológico, sintáctico, y semántico

las cuales pueden ser integradas para obtener mejores resultados, como:

Conjugador verbal

Generador Morfosintáctico

Etiquetado Morfosintáctico de textos

Extracción automáticas de resúmenes

La Ingeniería Lingüística tiene un gran impacto en las siguientes áreas:

Competencia en el Mercado: la Ingeniería Lingüística mediante sus

herramientas puede mejorar eficazmente diversas actividades en

empresas, instituciones educativas, entre otras; reduciendo los costos en

estudios, investigación, etc. y generando una mejor economía.

Mejor Información: como se ha mencionado anteriormente esta área se

ha enfocado mucho en la recuperación de información de tal manera que

se consiga información más rápida y exacta. Además al poder contar con

un multilingüismo se puede tener acceso a estudios que estén más

actualizados en diferentes partes del mundo.

4 Sitio Oficial: http://www.daedalus.es/



10

Acceso al Mercado: los usuarios tendrán mayor facilidad de acceder al

comercio electrónico, así como también podrán contar con rapidez,

precisión y seguridad, lo cual le da más confianza al usuario para que se

incline por este tipo de comercio.

Mejor Comunicación: con las herramientas y técnicas de la Ingeniería

Lingüística la Traducción Automática será de gran calidad, con esto la

comunicación entre las personas que hablen múltiple lenguas se

facilitará.

Accesibilidad y Participación: la Ingeniería Lingüística permitirá que

las personas de bajo nivel educativo también tengan acceso a los

servicios informáticos, por medio de la comunicación del habla y las

máquinas.

Mejoramiento en la Educación: se mejorará la enseñanza on-line, así

como también se prestará mejores métodos de aprendizaje de idiomas.

Diversión, Ocio y Creatividad: este es uno de los ámbitos que más

usuarios tiene, y que puede generar grandes ingresos económicos. La

facilidad de visitar museos, lugares turísticos, bibliotecas de forma

virtual y en el idioma del usuario será de gran interés y diversión.

1.4 LINGÜÍSTICA COMPUTACIONAL

La LC es una rama de la lingüística que se encarga de la elaboración de

herramientas que permiten un mejoramiento en las habilidades lingüísticas

como hablar, entender, escuchar, traducir las cuales conllevan a un mejor

entendimiento y comprensión del lenguaje. Una de las características más

significativas del lenguaje humano es la infinitud discreta, infinita en

combinaciones y discreta en el número de unidades.

Esta ciencia es una combinación de dos Ciencias más grandes la Lingüística

(leyes del lenguaje humano) y de la Inteligencia Artificial, la LC tiene como

objetivo la Comprensión del Lenguaje es decir transforma el lenguaje (hablado o

escrito) en una representación formal de conocimiento, por ejemplo las Redes

Semánticas, Ontologías. En la Figura1.1 podemos observar un resumen de la LC,

sus antecedentes y las áreas en donde se aplica, las cuales más a delante se

detallan.



11

Procesamiento

de VozGeneración de

Texto

Procesamiento

de Texto

LINGÜÍSTICA COMPUTACIONAL

Comprensión del

Lenguaje

Inteligencia

ArtificialLinguística

TA

RE

AS

AN

TE

CE

DE

NT

ES

Figura 1.1 Antecedentes y áreas de la Lingüística Computacional [4]

La LC surgió a finales de la segunda guerra mundial, con la iniciativa de un

proyecto por parte de un grupo de científicos y técnicos de Estados Unidos y la

Unión Soviética quienes necesitaban construir un traductor para poder

comunicarse, en dos idiomas: inglés y ruso. En los años 50 las investigaciones

se centraron en dos áreas que ayudaron al crecimiento de la LC, La Teoría de los

autómatas que surgió de los trabajos realizados por el matemático Alan Turing,

y de los Modelos Probabilísticos o Teoría de la Información estudiada por

Claude Shannon. Noam Chomsky se basó en los trabajos de Shannon para poder

crear una máquina de estados finitos para hacer la representación de algunas

gramáticas. Seguido a esto, la investigación se centró en dos ramas la una

liderada por Chomsky referente al Análisis Sintáctico y la otra con la Inteligencia

Artificial. Hubo un lapso de tiempo en donde esta área de investigación decayó

por los pocos resultados obtenidos, incluso se quitó el financiamiento a algunos

proyectos que estaban en proceso. En la actualidad las cosas parecen de modo

diferente, quizá una de las mayores influencias es el uso de internet lo que ha

conllevado a la necesidad de tener varias herramientas que ayuden con los

diferentes idiomas del mundo, es por esto que las empresas privadas y

educativas han puesto mucho interés, tiempo y financiamiento en proyectos de

investigación en esta área.



12

La diferencia entre la LC y la Ingeniería Lingüística radica en que la segunda

elabora las herramientas con fines comerciales mientras que las tareas de la LC

se llevan no solo en organizaciones privadas sino también en centros

educativos.

1.4.1 Áreas de la Lingüística Computacional

Muchos de los aspectos del lenguaje humano pueden ser tratados a través de

esta área. Se ha trabajado en el análisis de la sintaxis, la morfología, la

pragmática, la semántica, traducción automática. A continuación se describen

las áreas en las cuales interviene la LC.

Análisis Morfológico (Tagging): se refiere al análisis de las palabras de

una frase, independientemente del resto del texto. Características de

palabras como verbos, adverbios, etc. Cuando la Desambiguación no es

resuelta en este análisis es necesario corregir estos errores con análisis

semántico y sintáctico.

Análisis Sintáctico (Parsing): es un análisis que se realiza a nivel de

oraciones, es más complejo que el análisis morfológico.

Técnicas de Reconocimiento de voz y Conversión de texto a voz.

Recuperación eficaz de información: uno de los principales fines de la

LC es este, recuperar información de manera rápida y efectiva, de tal

manera que los contenidos que se recuperen sean precisos.

1.5 ASPECTOS DEL LENGUAJE

Efectivamente, se ha descubierto rasgos que responden a todas las lenguas:

reglas universales para la formación de oraciones negativas, rasgos universales

de la estructura fonológica (selección de las propiedades fonéticas distintivas),

restricciones universales (en estructuras coordinadas), rasgo universal de la

jerarquía de los elementos en la oración.

Estos aspectos son características que nos permiten analizar los diferentes

lenguajes: Reglas lingüísticas, Competencia y actuación, Significados de la

palabra gramática, Universales lingüísticos.



13

Se los ha tomado en cuenta para poder sacar alguna característica que nos

permita hacer más fácil la traducción de un idioma a otro.

Universales del lenguaje: Se llaman universales del lenguaje a las semejanzas

en que coinciden todas las lenguas del mundo o al menos en una gran parte de

ellas. Los Universales lingüísticos forman una rama de la Lingüística Teórica. La

identificación de estos, se realiza por medio de datos empíricos reunidos a

partir de un gran conjunto de lenguas.

Esta rama no tuvo mayor auge, hasta el Siglo XX, en donde gracias a los trabajos

de J. Greenberg y Noam Chomsky se retomó el estudio de esta importante rama,

pero su análisis estuvo enfocado a las relaciones dentro de su propia lengua.

Los estudios de J. Greenberg se orientan al análisis de los factores psicológicos,

funcionales y pragmáticos, y toma en cuenta las habilidades comunes de los

seres humanos. Mientras que Noam Chomsky solo se fija en la capacidad de la

lengua, sostiene que los universales lingüísticos pueden ser estudiados a partir

de un solo idioma.

Algunos universales entran dentro del dominio de la psicolingüística, ya que

responden a la relación entre la lengua y el pensamiento; otros tienen que ver

con la etnolingüística, ya que dependen de la relación entre la lengua y la

cultura. (J.Dubois et al. 1979) Según Eugenio Coseriu, los universales esenciales

del lenguaje son: alteridad, semanticidad, materialidad, historicidad y

creatividad.

1.6 TECNOLOGÍAS DEL TEXTO ESCRITO

Las tecnologías lingüísticas engloban una serie de técnicas relacionadas con el

tratamiento informático del lenguaje, tanto del lenguaje escrito como del

lenguaje hablado.

Actualmente la información con la que se cuenta es mucha pero es poca la que

se puede recuperar con las búsquedas que se realizan actualmente, ya que estas

son ejecutadas en base a comparación de palabras claves e indexaciones y no en

base al sentido y la perspectiva de lo que realmente queremos buscar.

Para desarrollar este tipo de sistemas se deben usar los siguientes recursos de

la ingeniería lingüística [5]:



14

Los analizadores morfológicos: que permiten relacionar las variantes

flexivas de una palabra con su lema y asignan una descripción

morfológica a las palabras de los textos.

Los desambiguadores, ante una ambigüedad en el nivel morfológico,

sintáctico o semántico, deciden, a partir de datos estadísticos o sobre la

base de reglas lingüísticas, cuál es la interpretación más correcta.

Los analizadores sintácticos: identifican los grupos de palabras que

funcionan como un todo, lo que permite identificar las entidades del

texto.

Las redes semánticas: organizan el léxico según sus relaciones internas

y permiten etiquetar semánticamente los textos.

Los corpus: etiquetados morfológicamente, sintácticamente y

semánticamente, que se utilizan como fuentes de información para el

aprendizaje de los etiquetadores automáticos y como consulta para la

búsqueda lingüística. La utilización de corpus va ligada a una serie de

procesos como la codificación, el etiquetado y el análisis lingüístico y

herramientas como por ejemplo los programas de concordancias que

facilitan su uso y explotación.

Lexicones computacionales: guían el proceso de análisis e

interpretación semántica del texto.

Lexicones multilingües: permiten el proceso de traducción automática o

bien ayudan en la traducción manual.

Al usar los recursos citados anteriormente se pretende las siguientes mejoras en las búsquedas de información [5]:

Permiten expresar las búsquedas en lenguaje natural y sin restringirlas a

un metalenguaje, normalmente una combinación de palabras clave y

operadores booleanos.

Ampliar el espacio de búsqueda mediante la ampliación de la pregunta del

usuario incorporando en él sus formas flexivas y las palabras

semánticamente relacionadas.

Restringir los documentos seleccionados a aquellos que realmente

responden al sentido de las búsquedas.



15

La creación de estas nuevas tecnologías ha producido un cambio en la economía

y en las actividades de las personas encargadas de la traducción, procesamiento

de texto, edición de textos, creación de diccionarios, entre otros. Ya que

deberían actualizarse en el uso de las nuevas tecnologías de tal manera que se

preste un mejor servicio y se ahorre recursos. Además se habla del surgimiento

de un nuevo perfil profesional, el cual debe tener conocimientos tanto de

lingüística como de computación.

Algunos problemas de la lengua al ser tratada en un sistema informático son:

La Ambigüedad en todos sus niveles lingüísticos: léxico, semántico,

sintáctico.

La amplia creatividad del lenguaje.

Naturaleza estadística del uso lingüístico.



16

2. CAPITULO

Técnicas de Representación de Información

Estructurada



17

Las principales características para crear estrategias de estructuración y

técnicas para representar la información han sido el agrupar el conocimiento y

compartir información, estas técnicas están orientadas a representar la

información de manera general de tal forma que se acople a varios formatos y

múltiples plataformas.

Por el gran volumen de documentos que actualmente se encuentran alojados en

la Web la manejabilidad, búsqueda y por consecuencia el uso de estos es

demasiado difícil e incontrolable es por eso que la información no estructurada

como documentos de texto, video, audio han sido en estos últimos tiempo objeto

de estudios con el fin de estructurar y dar formato a esta información, de tal

manera que se vuelva más accesible y más fácil de majear, existen áreas a tratar

como manejo de documentos, manejo de contenido WEB, manejo de registros,

etc.

En años pasados estas necesidades fueron de un reducido grupo de personas,

solamente las personas dedicadas a la investigación sentían la necesidad de

compartir y de encontrar información, pero en la actualidad esto ha cambiado,

la mayoría de las personas en el mundo tienen esta necesidad, ya que la

información es uno de los ingredientes para el desarrollo humano, social y

educativo que le permite al hombre crecer y llegar a una plenitud de

conocimiento. Se puede decir que hemos evolucionado a la era de la información

y como se citó anteriormente sus actividades actualmente están marcadas por el

uso de información.

Pero este fenómeno no viene solo, contrae nuevos inconvenientes que surgen

por la gran cantidad de información compartida. Algunas de las contrariedades

en este tema es la recuperación de información precisa, ya que muchas de las

veces los usuarios al realizar una búsqueda no obtienen información que

satisfaga sus requerimientos de aquí la necesidad de buscar métodos que

permitan devolver al usuario la mejor información posible con respuesta a su

consulta, otro punto importante y necesario de analizar a más de la cantidad, es

la calidad de información que está subida en la Web ya que no toda la

información que allí encontramos es buena.

Hoy en día nos enfrentamos a una nueva manera de obtener la información, día

a día establecemos una relación de comunicación con una nueva plataforma

tecnológica informativa La Web, en la que la obtención de información no es



18

solamente a través del lenguaje escrito (texto) sino a mediante imágenes,

videos, sonido, etc.

La utilidad de la 3W es indudable, pero las estrategias que se han usado para

representar la información en este escenario se derivan de los viejos esquemas

de clasificaciones excluyentes y por tanto el usuario cuando demanda una

información concerniente al área de su realización personal o profesional es

invadido por mil registros de recursos de información que pueden o no

contener lo que el busca.

El creador de internet Tim Berners-Lee, cuando creó la 3W por 1989 pensó en

crear una red de recursos que nos permitiera programar agentes que navegaran

la infinitud de sitios pudiendo obtener la información que necesitamos sin tener

que indicarle de donde obtenerla o que significado debe tener cada recurso,

transformando finalmente esa información a un formato que sea fácilmente

entendible por todos los usuarios. Esa Web, que aún se encuentra en una fase de

desarrollo, es lo que se conoce como la Web Semántica.

La Web Semántica

Según definición de Tim Berners-Lee: “La Web Semántica es una extensión de la

Web actual en la cual se dota a la información de significado bien definido para

que tanto personas como ordenadores puedan trabajar cooperativamente”. De

esta manera se usará la misma infraestructura tecnológica de la web actual, solo

que a la información se le añadirá algunos elementos para poder resaltar el

sentido semántico de la información y con esto efectivizar las búsquedas, esta

es la diferencia con la Web actual, ya que esta solo dota a la información de

ciertas etiquetas que lo único que hacen es determinar como la información se

va a presentar en el navegador, pero no toman en cuenta nada sobre su

semántica. Con esto la confianza de los usuarios se robustecerá ya que existirá

fiabilidad y credibilidad en la información que ellos obtengan de la Web.

Lo que se pretende con la Web Semántica es que los datos puedan ser utilizados

y comprendidos correctamente por los computadores sin la necesidad de la

manipulación de un ser humano, por ejemplo el significado de un término solo

se puede entender según el contexto en el que aparece, “llama a un amigo”,

“llama es un animal”, “llama del fuego”.



19

Las siguientes técnicas ayudan a crear nuevas representaciones de la

información e incorporan semántica a los entornos web, lo que permite mejorar

el tratamiento y posterior recuperación de la misma en términos de efectividad,

rapidez y facilidad de acceso a la información:

2.1 REDES SEMÁNTICAS

Para poder reutilizar la información de debe de realizar una representación que

no es más que estructurar la información concerniente a un dominio de tal

manera que se facilite su almacenamiento y búsqueda.

Las redes semánticas tienen su fundamento en el concepto de memoria

asociativa, en donde el conocimiento se estructura mediante asociaciones entre

conceptos, al igual que las actuales formas de representar el conocimiento estas

usan los nodos para representar los conceptos, atributos, estados o eventos

(solo tienen un solo nodo padre) al cual se le asignan uno o más nodos hijos y

los arcos para representar las relaciones entre estos; además se definen un

conjunto de procedimientos de inferencia que operan sobre la estructura de

datos.

Quillian es a quien se le atribuye el título de precursor de las redes semánticas

en la inteligencia artificial en 1968 por el desarrollo del sistema sobre

significados de palabras. Como primer trabajo con redes semánticas se tuvo el

proyecto NUDE, red semántica que fue creada por Richens en 1956 que tenía

como función servir de interlingua para la traducción automática del ruso al

inglés. Otro proyecto fue la red semántica T, desarrollada por Masterman, se usó

un tesauro para la organización de conceptos.

Existen varios tipos de redes semánticas con sus propias características las

cuales las diferencian unas de otras, un trabajo comparativo entre estas

podemos encontrar en [6].

Podemos decir que la Web Semántica es una aplicación específica de las redes

semánticas, que reciben ese nombre porque se usan en muchos casos para

representar el sentido de la expresiones en lenguaje natural y establecen con

ello las reglas de uso, interacción y aplicación de cada elemento dentro de esa

red y por lo mismo nos permite de manera grafica poder describir mediante los

nodos (conceptos o palabras) y los arcos (las relaciones) la forma en que se



20

pueden integrar esos nodos o palabras para armar una oración, un concepto,

una idea, un pensamiento, conocimiento simple o complejo.

2.1.1 Categorías de Redes Semánticas

A continuación describimos los tipos de Redes Semánticas según se presentan

en [6], junto a sus características:

Redes Is – As: es el tipo de red semántica por excelencia, se representa

como una jerarquía semántica en donde su espina dorsal la constituye

un conjunto de enlaces de herencia entre nodos los cuales están

etiquetados, los nodos ubicados en el último nivel de la jerarquía se

refieren a objetos específicos y son conocidos como instancias. Referente

al tipo de nodo que enlazan las relaciones se puede distinguir dos tipo de

enlaces: Los que enlazan categorías con otras categorías las cuales

expresan relaciones de conjunto, subconjunto, generalización,

especificación, etc. y los que enlazan categorías con individuos las cuales

expresan relaciones de pertenencia, conjunto, predicación, contenido

conceptual y abstracción. Este tipo de redes tienen también algunas

desventajas, una vez que se ha escogido los nodos de la estructura

jerárquica es muy difícil cambiarlos, por lo que se debe presentar total

cuidado en la fase de análisis para realizar una elección correcta de

nodos y arcos, dificultad para representar cuantificación por ejemplo en

el caso de que se quiera representar: “Algunos cantantes son escritores

de canciones ”, dificultad para representar dimensión intencional como:

“María piensa que Juan está en casa ”.

Redes Marco (frame): un frame es una red ordenada de nodos en donde

los nodos superiores representan situaciones reales, y los nodos

inferiores representan instancias que se pueden cambiar según la

adaptación que estas puedan tener ante escenarios más reales, por lo que

se puede deducir que un frame en un conjunto de condiciones necesarias

y suficientes sobre un concepto estereotipado. Cada frame posee un

conjunto de slot, en donde se almacena información acerca de su uso, o

de la actividad siguiente, los nodos hijos pueden heredar también los

slots de sus padres, salvo se especifique lo contrario. Las Redes Marco

son las que mayor flexibilidad ofrecen y a las que mayormente se han

dedicado los investigadores de lingüística.



21

Grafos Conceptuales: este tipo de red fue propuesto por Sowa (1984),

es estos grafos los arcos no están etiquetados como es el caso de las red

Is-As, y por sus nodos se considera un grafo bipartito, que pueden ser de

dos tipos diferentes: de Concepto que representan entidades, estados,

procesos y de Relación que especifican como se relacionan los nodos de

conceptos, son quienes realizan el enlaces entre las entidades [7]. Los

grafos conceptuales tienen una base de conocimiento la cual define las

restricciones semánticas y conocimiento acerca de dominio que

describen. Sowa utiliza notación lineal y de diagramas para crear un

grafo conceptual, realiza análisis del lenguaje y mediante este hacer

representación del lenguaje natural, representación semántica de frases.

Las áreas en las que pueden ser aplicados los Grafos Conceptuales son:

Recuperación de Información, Diseño de Bases de Datos, Procesamiento

de Lenguaje natural, Sistemas Expertos, entre otros.

2.2 TAXONOMÍAS

La información permite conocer lo que está ocurriendo y lo que puede

acontecer en un futuro, por lo que constituye un elemento esencial para la

operación, planificación, control y evaluación de las actividades de cualquier

organización.

Las taxonomías llamadas también estructuras de clasificación, son

fundamentales para la gestión del conocimiento [8] y la administración del

conocimiento de una empresa, compañía u organización en general y más aún

ahora que han sido estudiadas por las Ciencias de la computación para poder

computar estas estructuras jerárquicas. Desde el punto de vista de la lingüística

computacional, se puede ver una taxonomía como una lista estructurada en

árbol, son una clasificación ordenada de manera jerárquica, lo cual se consigue

con una serie de relaciones que pueden ser palabras o conceptos entre

categorías. En el primer nivel de la jerarquía se encuentran las categorías

(conceptos principales o más generales del tema que se pretende modelar), en

un segundo nivel se agregan las subcategorías las cuales pueden tener otro

conjunto de conceptos así como también relaciones cruzadas entre niveles de la

jerarquía. Una taxonomía puede tener una serie de niveles en su jerarquía, esto

depende de la cantidad de términos o subdivisiones en las que podamos dividir

a la información. Es necesario mencionar que las características descritas en el

primer nivel son heredadas por las subcategorías y sub subcategorías que le

preceden.



22

El desarrollo de esta manera de organizar el conocimiento tuvo sus inicios en el

siglo XVII, y fue en el siglo XIX en donde tuvo su más alto grado de

estructuración y auge. Las taxonomías han servido para poder estructurar la

información lo cual en la actualidad se constituye como el principal capital de

conocimiento de una empresa y además su distribución rápida y eficaz es

necesario para el éxito de esta. Al igual que todas la demás técnicas de

estructuración de la información y el conocimiento las taxonomías están

orientadas a organizar, administrar, permitir mejor manejabilidad y proveen

una estructura navegacional de la información de una empresa o dominio con lo

cual se agregará una ventaja competitiva a las empresas, por el hecho de que

esas podrán compartir conocimiento y además aprender y mejorar su

organización.

Las ventajas de usar una taxonomía son: facilitan la recuperación de una

manera flexible, tienen una estructura más simple que otras alternativas

(tesauros, ontologías), agilizan la clasificación y pueden incorporar contenidos

desde un tesauro o desde una ontología. Como desventaja tenemos que las

taxonomías estructuradas hasta ahora en forma de árbol resultan demasiado

limitadas, pues no permiten representar clasificaciones complejas, en donde

una categoría puede tener más de un padre [10].

En PLN este tipo de estructuración del conocimiento es también usada, para

poder modelar la clasificación, especificación y generalización de las categorías

semánticas, que sirven como una base sólida para el PLN ayudando a resolver la

ambigüedad de palabras y sirviendo como guía para realizar una elección léxica

o selección se estructuras lingüísticas [11].

Las ciencias de la computación ha podido computar la estructura que nos

presentan las taxonomías.

Componentes de una taxonomía:

Las taxonomías tienen cuatro componentes principales, que se detalla a

continuación:

Categorías: son los nodos que representan los conceptos generales del

dominio que se esté tratando, por lo general constituyen los nodos padre.

Subcategorías: corresponden a temas más específicos derivados de un

tema general, corresponden a los hijos de los nodos de primer nivel y



23

heredan las características de sus nodos padres. Estas pueden tener más

sub categorías.

Términos Relacionados: conceptos relacionados con el contexto que se

está tratando, estos también nos permiten crear relaciones o conexiones

cruzadas.

2.2.1 Tipos de Taxonomías:

Pueden ser visibles al usuario o simplemente actuar como soporte de un

sistema informático, sin que el usuario note que está usando una de ellas.

Taxonomías Múltiples: jerarquías cognitivas que proporcionan al

usuario una meta información, lo cual les permite una accesibilidad,

conocimiento y aprendizaje de temas que pueden ayudar a la madurez y

crecimiento de una empresa.

Taxonomías Corporativas: estructura organizada de los contenidos de

una organización, que van a ser usados por la audiencia5 para realizar

tareas y actividades puntuales. Se desarrollan de manera específica para

una organización en particular tomando en cuenta sus características y

objetivos. Para crear una taxonomía de este tipo se debe tener en cuenta

o revisar tres tipos de análisis; Análisis del Contexto en el cual se obtiene

una definición del entorno corporativo que abarca objetivos, tipología de

la organización, áreas, misión, políticas, organigramas, etc. Análisis de la

Audiencia en el cual se identifica el tipo de usuarios que a los cuales va

dirigida la taxonomía, las necesidades de estos, habilidades y

comportamientos frente a la recuperación de información, lo que desean

o esperan en cuanto a contenidos; y finalmente un Análisis de los

Contenidos que abarca los contenidos y relaciones que alimentarán a la

taxonomía, para cada unidad de contenido se debe identificar o

determinar atributos, metadatos, características que permitan

diferenciarla. [12]

Taxonomía Subject: se encargan de ordenar jerárquicamente de lo

general a lo más específico un tema en particular, es como un diccionario

que ordena alfabéticamente los conceptos. El usuario debe conocer el

tema, para que tenga un indicio de cómo o por donde buscar lo que

necesita [13].

5 Este término es usado para referirnos al personal interno y externo, usuarios, clientes, etc. que

tienen algo que ver con la organización.



24

Taxonomía business – Unit: este tipo de taxonomía está dirigido a

describir el organigrama de una empresa, organización o institución.

Esta taxonomía nos permite entender y tener una visión del esquema

general de una empresa.

Taxonomía Funcional: con este tipo se representa jerárquicamente las

funciones, las actividades y las tareas realizadas por una organización de

negocios. Las funciones van ubicadas en el nivel más alto de la jerarquía,

en el segundo nivel se especifican todas las actividades y en el nivel más

bajo se especifican las tareas, registros o resultado de las actividades

realizadas [13].

2.2.2 Ejemplos de Taxonomías:

AEAweb6 American Economic Association creó el Sistema de

Clasificación Journal of Economic Literature (JEL) que consiste en una

taxonomía que facilita la clasificación de artículos, libros, disertaciones y

archivos publicados por esta revista, por su gran uso se ha convertido en

un estándar de clasificación en la economía. Jerárquicamente consta de 3

niveles, organizados en 20 categorías principales, y tiene subcategorías.

[14]

SemioTaxonomy: taxonomía de Marketing, su creador es Claude Voger,

combina las técnicas de análisis lingüístico y las estadísticas de clusteirng

para categorizar y estructurar automáticamente información basada en

texto, lo cual permite tener un acceso inteligente a la información

mediante un navegador.

OSEL7 Taxonomy para clasifiacion de OA: esta taxonomía se creó para

la administración del repositorio de objetos de aprendizaje que pueden

ser usados en la plataforma Learning Content Management Systems

(LCMS), es un proyecto financiado por el Departamento de Estadística de

la Universidad de Bari [15].

6 American Economic Association: http://www.aea-web.org

7 Convertini, V.N, Albanese, D., Marengo, A., Marengo, V. y Scalera, M. (2006). The OSEL taxonomy of learning objects. Interdisciplinary Journal of Knowledge and Learning Objects, 1, 125-136.



25

Muestra del módulo de creación y gestión de taxonomías de Wordmap

Taxonomy Management8 usa sistemas de clasificación como taxonomía

para cargar y alojar documentos. Convierte los documentos complejos y

difíciles de encontrar en documentos manejables y accesibles para los

usuarios.

2.3 METADATOS

La creación de los metadatos surgió mucho antes que el internet, pero es en este

momento en el que los metadatos están en auge, el motivo es que por el gran

crecimiento de internet se ha facilitado y aumentado la compartición de

información lo que ha generado la creación de revistas electrónicas, bibliotecas

electrónicas y en general digitalización de muchos documentos. Los metadatos

mejoran y optimizan la recuperación de información ya que: facilitan búsquedas

basadas en campo, permiten indización de objetos no textuales. Además los

metadatos poseen una información estándar que es más fácil manejar.

Los Metadatos son contenedores de información semántica sobre los datos, o

conocidos más comúnmente como datos sobre los datos que se definen como

información estructurada y que pueden ser procesados automáticamente.

Un registro de metadatos es un conjunto de elementos que describen e

identifican a un recurso el cual contiene información, por ejemplo el recurso

sería un libro, y los metadatos que describen a este elemento serían: el autor, el

título, número de páginas, fecha de creación, etc. La relación que existe entre el

registro de metadatos y el recurso al cual pretenden describir puede darse de

dos maneras: Los metadatos pueden estar separados del recurso, por ejemplo

el registro de libros en una biblioteca, y la segunda manera se refiere a que los

metadatos están incluidos en los recursos, como los datos de un artículo. Los

recursos u objetos de información a los cuales se aplican los metadatos tienen

las siguientes características:

Contenido: quién, cómo, cuándo, par que fueron creados.

Contexto: sobre que es el objeto, que contiene.

8 Sitio de Descarga de Wordmap Taxonomy Management: http://www.wordmap.com/



26

Estructura: conjunto de relaciones dentro o fuera del objeto.

Los metadatos tienen tres funciones básicas: proporcionar descripción de un

objeto o recurso por medio de otra información necesaria para su identificación

y manejo, proporcionar el acceso a los recursos, y codificar la información que

describe al objeto de tal manera que sea manejable por medios automatizados.

Todos los conjuntos de metadatos existentes siguen la norma SGML (Standard

Generalized Markup Language) Estándar internacional desde 1986 (ISO 8879).

Las ventajas de manejar sistemas basados en metadatos son: hacer flexible y

extensible el sistema, permite agregar y extender fácilmente la integración de

nuevos recursos, es una técnica ampliamente aceptada y con grandes resultados

no solo en el ámbito bibliotecario sino en diversos sistemas de búsqueda, es

menos costoso de crear, manejar y mantener. Como una desventaja podemos

mencionar la existencia de varios estándares de metadatos lo cual impide la

estandarización e interoperabilidad de los sistemas que manejan metadatos.

2.3.1 Características de los Metadatos:

Flexibilidad: determinada por la cantidad y contenido de los datos,

depende también del estándar que se aplique.

Extensibilidad: facilidad para agregar nuevos elementos, y nuevos

perfiles.

Semántica: semántica del esquema referente al número y tipo de datos

que se aplique a cada elemento, y semántica del contenido para obtener

información precisa.

Sintaxis: reglas especificas y adecuadas para la búsqueda y

recuperación, su complejidad está ligada al lenguaje de codificación html,

xml, marc, sgml, etc.

Estructura: arquitectura del contenido de un registro de metadatos que

va a facilitar su transmisión y uso. Se puede elegir entre una variedad de

estructuras RDF, METS, etc.

2.3.2 Tipos de Metadatos:

Administrativo: para gestionar y administrar la información del

recurso, maneja los derechos, requerimientos legales, control de

versiones, etc.



27

Descriptivo: su función es describir e identificar la información del

recurso, proporcionan ayuda en la búsqueda y responden a preguntas

como: ¿Cuál es el tema de este documento? ¿Quiénes son los autores? ¿En

qué fecha fue publicado?

Técnico: facilitan la presentación de la estructura interna del recurso.

Permiten saber si el recurso es un libro, un artículo ó una revista, en

cuantas secciones ó capítulos está dividido.

2.3.3 Modelos de Metadatos:

Existe una variedad de metadatos [16], a continuación detallamos los más

importantes:

Learning Object Metadata (LOM)9

Este estándar fue aprobado en junio del 2002, y es patrocinado por el

Comité de estandarización de Tecnologías Educativas del IEEE. LOM

considerado como el mejor estándar de metadatos para objetos

Educativos por lo que es muy utilizado en los repositorios de Objetos de

Aprendizaje. Define múltiples características, definiciones y atributos los

cuales están relacionados de forma jerárquica.

Para cada uno de los elementos ubicados en algún nivel de la jerarquía se

debe definir lo siguiente: definición, tipo de datos, valores, y

multiplicidad en caso de permitirla.

Como dijimos LOM se estructura como una jerarquía de árbol, en donde

el nodo raíz corresponde al nombre del documento. En el siguiente nivel

encontramos sub-elementos, que pueden contener a su vez otros sub-

elementos. A los elementos terminales se les llama hojas y a los

intermedios, ramas. Para cada elemento en la jerarquía se especifica la

definición, el tipo de datos, los valores permitidos y si se permite

multiplicidad o no. Tratan, principalmente, de describir el contenido y la

localización del objeto de la información en Internet.

9 Especificaciones del Metadato en http://www.ieeeltsc.org:8080/Plone



28

Se distinguen 9 categorías de metadatos diferentes, que podemos ver en

Anexo A.

Dublin Core Metadata Initiative (DCMI)10

La iniciativa de crear DCMI surgió en 1995, al reunirse NCSA (National

Center for Supercomputing Applications), OCLC (Online Computer

Library Center) y representantes de la IETF en una convención que tuvo

lugar en Dublín, Ohio (USA), de donde de tomó su nombre; surgió como

necesidad de los bibliotecarios de definir estándares que permitieran

describir recursos informáticos y facilitar su recuperación. La idea nació

para un uso educativo por lo que es el Metadato más utilizado para

estructurar información en las bibliotecas digitales, pero luego se fueron

interesando proveedores de información representantes de otras áreas

como la administración, el arte, las ciencias, los negocios esto debido a

su simplicidad y potencia, adaptación a cualquier dominio y por ser

aplicable a cualquier tipo de recursos. Con el tiempo se ha incrementado

la utilización de Dublin Core en Internet, lo que fue una de las razones

por las cuales se estudió la posibilidad de aprobarlo como norma ISO, lo

que sucedió en el año 2003, cuando se aprobó como la norma ISO 15836.

Estos metadatos presentan características importantes como: facilidad

de uso, reconocimiento internacional, se puede usar con lenguajes

estructurados como HTML, XML, RDF. DCMI trata de ubicar dentro de

Internet, los datos necesarios para describir, identificar, procesar,

encontrar y recuperar un documento introducido en la red. [17]

En un inicio estuvo formado por 13 elementos que permitían describir

un recurso electrónico, pero hasta la actualidad gracias a varias

modificaciones que se han realizado se cuenta con 15 elementos, los

mismos que son opcionales y repetibles. Ver Anexo B.

10The Dublin Core® Metadata Initiative, Sitio Oficial: http://www.dublincore.org



29

Instructional Management System (IMS)11

Este es uno de los metadatos más consolidados, el cuál más que un

metadato es un estándar que reúne varias especificaciones que indican

como estructurar la información que contienen los Objetos de

Aprendizaje, los cuales son muy utilizados en el ámbito educacional.

Además por su valiosa aportación estas especificaciones han servido de

base para nuevos estándares y creación de nuevos metadatos.

IMS desarrollado por Global Learning Consortium junto con SCORM que

es otra especificación de metadatos, son los más importantes promotores

y desarrolladores de estándares que están teniendo mayor repercusión

en e-learning.

Cada una de las especificaciones que se detallan en IMS, están

organizadas de la siguiente manera: contienen una guía de

implementación, este documento es el primero que se debe leer antes de

su uso ya que contiene aspectos generales, relación con otras

especificaciones, forma de uso y ayuda complementaria. Un modelo de

información en el cual se describe de manera más formal los elementos

que la componen y su estructuración. Y por último un documento de

Enlace, que representa la estructura de datos de XML, el cual nos permite

validar la estructura de un documento que hayamos creado.

El objetivo de IMS es definir especificaciones que hagan posible la

interoperabilidad de aplicaciones y servicios de enseñanza distribuida. A

continuación describimos algunas de las especificaciones más

importantes12:

IMS LD (Learning Design): esta especificación nació en base a

otra llamada IMS Educational Model Language. Se maneja un

nuevo concepto que es la unidad de aprendizaje, lo cual permite

adicionar al objeto de aprendizaje detalles como las actividades en

los cuales están implicados.

IMS CP (Content Packaging): esta especificación permite

formalizar los contenidos reutilizable e intercambiables

11 IMS Global Learning Consortiun: http://www.imsproject.org

12 Información sobre especificaciones de IMS: http://www.imsglobal.org/specifications.html



30

(exámenes, resúmenes), lo que hace es comprimir (en un archivo

.zip) el contenido de un objeto educativo para que pueda ser

procesado por otro sistema. La estructura del contenido del

objeto se especifica en un archivo XML llamado manifiesto, en este

archivo se describe tanto la descripción de los recursos como el

detalle de cada uno de estos.

IMS Question & Test interoperability: esta especificación nos

presenta una estructura o formato básico de cómo representar

cierta información, un ejemplo en donde podríamos usar esta

especificación es en los exámenes en línea, ya que se plantea un

banco de preguntas que tienen su formato como también su

respectiva puntuación

Otras especificaciones: IMS RLI (Resource List Interoperability),

AccessForAll Meta-data, IMS EIM (Enterprise Information Model),

IMS VDEX (Vocabulary Definition and Exchange), IMS SS 2002

(Simple Sequencing)

Text Encoding Initiative (TEI)13

TEI es un estándar internacional e interdisciplinario para editoriales,

bibliotecas, escritores para la representación de texto en digital. Este

proyecto fue iniciado en 1987, en el 2000 se crear el TEI Consortium el

cual está conformado por las siguientes asociaciones ACH (The

Association for Computers and the Humanities), ACL (The Association for

Computational Linguistics), ALLC (The Association for Literary and

Linguistic Computing), consorcio sin fines de lucro dedicado al

desarrollo y mantenimiento de este estándar. Es uno de los estándares

más antiguo y más complejo, proviene del ámbito de la lingüística y para

su creación se necesito de la experiencia de bibliotecarios como de otros

usuarios manejadores de información [18].

Este estándar tiene como fin buscar un sistema que permita a los

investigadores que manejan información sobre lengua, literatura,

dedicados a las bibliotecas, editoriales o manejo de cualquier otra

13 Text Encoding Initiative: http://www.tei-c.org

http://www.tei-c.org/



31

información electrónica, intercambiar y reutilizar recursos

independientes de la localización, hardware o software que usen. La

complejidad de usar este estándar depende de la cantidad de

información y el nivel de normalización que se requiera, además se debe

analizar que partes del esquema se van a utilizar dependiendo de la

mejor adaptación para lo que se esté usando.

Este estándar maneja una cabecera necesaria para todos los textos, la

cual maneja texto que describe y permite un control bibliográfico, esta

puede ir junto al documento o separada de él, y mostrar menor o mayor

detalle esto depende de la adaptación que el usuario haga y necesite.

Información de cabecera:

Descripción del archivo: descripción bibliográfica del texto.

Descripción Codificada: elementos sobre las características de

codificación del texto.

Descripción de Perfil: información adicional como idioma,

colaboradores, etc.

Descripción de Revisiones: registro de los cambios realizados,

versión, fecha.

Metadata Encoding & Transmission Standard (METS)

METS es una iniciativa de la Federación de Biblioteca Digital14, creada

bajo un formato XML que permite crear los metadatos para gestionar

objetos digitales y su intercambio entre repositorios. Una especificación

METS, consta de siete secciones, Ver Anexo C.

Metadata Object Description Schema (MODS)15

MODS tiene el mismo objetivo de DC, pero es creado para superar

algunos inconvenientes encontrados en el DC, este proyecto ha sido

14 Digital Library Federation: http://www.diglib.org/

15 Metadata Object Description Schema, Sitio Oficial: http://www.loc.gov/standards/mods/



32

desarrollado por la Oficina de Desarrollo de Redes y Normas MARC de la

biblioteca del Congreso (LC) y toma como base aspectos especiales del

estándar MARC [19].

MODS es un esquema codificado en XML lo que lo hace más flexible que

MARC, permite crear nuevo registros a partir de los de MARC21. MODS

cuenta con un conjunto de 20 elementos (elementos de primer nivel),

subelementos y atributos los cuales son opcionales y repetibles, algunos

de estos son derivados del MARC21, además todos los elementos tienen

un equivalente para este metadato.

Utiliza etiquetas textuales en vez de numéricas lo que mejora la

comprensión de las personas:

Opción: los elementos y atributos con opcionales.

Repetición: los elementos son repetibles y los atributos no son

repetibles.

Subcampos: pueden contener subelementos o atributos.

Control: algunos elementos permiten registrar las herramientas

que permitan controlar sus valores.

Elementos de primer nivel: Título, nombre, tipo de recurso, información

origina, género, lenguaje, descripción física, tabla de contenidos, abstract,

tabla de contenido, notas, identificador, localización, entre otros. La

primera versión fue publicada en el 2001 actualmente se maneja la

versión 3.4.

Sharable Content Object Reference Model (SCORM)

Advance Distributed Learning (ADL)16 es la organización que trabaja en

el desarrollo de este metadato en base de las especificaciones creadas

por otras organizaciones ARIADNE, AICC, LTSC, IMS. La primera versión

fue liberada como Versión 1.0, la última es la 1.3 liberada en el 2004.

16 Advance Distributed Learning. Especificación del Metadatohttp://www.adlnet.gov



33

Es una nomenclatura que permite codificar de manera uniforme la

información referente a recursos educativos, esta información puede ser

almacenada aparte del recurso en forma de catálogos ó pueden ser

adjuntados dentro del mismo recurso.

Las especificaciones de SCORM están detalladas en tres documentos

diferentes que detallan la distribución y creación de contenido dentro de

este metadato: Modelo de Agregación de Contenidos se refiere a tres

elementos básicos: la estructura de los datos dentro del contenido y su

empaquetado para la distribución (Archivo .zip), la definición de

metadatos y la descripción del contenido en un formato entendido por el

LMS(Learning Management System), Entorno de Ejecución esta parte se

encarga de la comunicación entre el contenido y él LMS y también la

lógica del LMS para saber que contenido mostrar, de qué manera

mostrarlo, etc. y Secuencia y Navegación se detalla como el creador

define que elementos y contenido mostrar y cómo será la navegación y la

secuencia de estos elementos. [17]

SCORM recomienda seguir las especificaciones de IEEE LOM, pero

también permite acoplarse a otros metadatos como Dublin Core.

SCORM utiliza los elementos de LOM (ver sección 2.1.1) para definir los

metadatos, pero como recordaremos LOM indica que estas son

opcionales, en cambio SCORM mantiene que estas son obligatorios de

acuerdo al recurso, esto para brindar una mayor capacidad de búsqueda

y reutilización, además SCORM recomienda la utilización de vocabulario

“restringido” en caso de usar el definido en LOM y “mejores prácticas” en

caso de que se necesite definir un nuevo de acuerdo al área que se esté

abordando.

2.4 ONTOLOGÍAS:

Una ontología es una base del conocimiento, que permite representar un

conjunto de datos los cuales pertenecen a un dominio. Especifican un

vocabulario referente a cierto dominio el cual define entidades, clases,

propiedades, predicados y funciones y las relaciones entre estos. Las ontologías

desenvuelven un papel clave en la interoperabilidad semántica entre sistemas



34

de información y su uso dentro del contexto. La característica que ha hecho

fuerte a las ontologías frente a otros sistemas de representación de

conocimiento es su capacidad de inferir conocimiento. En estos últimos años el

interés en este tipo de representación del conocimiento se ha incrementado y su

uso y aplicación es muy extenso y variado en Ingeniería del Conocimiento,

Sistemas de Información, Inteligencia Artificial, Procesamiento de Lenguaje

Natural, Búsqueda de Información, Integración de Bases de Datos, Bio-

informática, Educación, etc.

En el ámbito del Procesamiento del Lenguaje Natural (PLN), las ontologías se

están empleando para construir representaciones independientes de la lengua

que puedan servir de punto de encuentro entre dos o más lenguas naturales. En

este sentido la ontología se considera como el repositorio de conceptos que

establecen conexiones entre los símbolos de una lengua y sus referentes en el

campo o subcampo que se estudia. La creación de una ontología impone un

buen número de restricciones sobre la metodología de trabajo, asegurando, por

ejemplo, que todos y cada uno de los términos estén asignados a un concepto

determinado. Cada uno de los conceptos, por su parte, debe formar parte de una

estructura bien definida y debe ser posible especificar diversos tipos de

relaciones entre ellos, que ayuden a describir formalmente el dominio específico

en el que los términos se enmarcan.

El uso de ontologías para la recuperación de la información tiene ciertas ventajas

sobre los métodos de acceso simples basados en palabras claves, una ontología

suministra un vocabulario compartido común para expresar información sobre

el contenido de los documentos. Además, las ontologías incluyen axiomas para

especificar relaciones entre conceptos.

Las ontologías además proporcionan un soporte para representar los

significados dentro de una Interlingua, y mediante estas podemos entrelazar

varios recursos lingüísticos informáticos (extractores, analizadores de lenguaje,

buscadores, diccionarios) para reforzar y crear conocimiento.

En la actualidad las ontologías se encuentran dispersa dentro de las

organizaciones y a menudo se lo ha mantenido como una forma estructurada

para ser de fácil acceso para los empleados o software.

Las investigaciones de las Ontologías van de la mano con las de la Web

Semántica, y hoy en día son muchos los proyectos que se están llevando a cabo,



35

con grandes auspicios nacionales e internacionales. Es en Europa en donde la

investigación y los proyectos han puesto mayor atención en estos temas. A

continuación se describe algunos grupos de trabajo junto con los proyectos que

realizan [20]:

ONTOLOGÍAS EN LA INVESTIGACIÓN HISTÓRICA, conformado por

Antonio Calvo Cuenca, Juan Antonio Romero del Castillo, María Araceli

Serrano–Tenllado. Del Departamento de Informática y Análisis

Numérico, Universidad de Córdoba: este grupo de trabajo se ha dedica al

desarrollar, mejorar y difundir las ontologías desarrolladas en el

lenguaje OWL incorporando a estas relaciones y atributos mediante la

aplicación Himocomp (Historia Moderna Computacional) que ha sido

desarrollada en el lenguaje de programación python, han creado un

portal para la difusión de ontologías históricas17, y un portal para

difundir los resultados obtenidos del proyecto COFELU18.

EL GRUPO NETWORKED SEMANTICS (NETS)19, integrantes Pablo

Castells, Fernando Díez, Iván Cantador, Miguel Corella, Miriam

Fernández, José M. Fuentes, Mariano Rico, María Ruiz, David Vallet.

Escuela Politécnica Superior, Universidad Autónoma de Madrid: este

grupo se ha dedicado a la representación, compartición, recuperación y

explotación del conocimiento o función de la Web, recuperación de

información basada en ontologías, servicios Web Semánticos,

personalización en la recuperación de información a través del

perfeccionamiento de las preferencias semánticas de los usuarios, y

procesamiento de lenguaje natural; dedicado a estas líneas de

investigación este grupo ha podido aportar con aplicaciones a diversas

áreas como El periodismo, Economía y Finanzas, entre otras. Entre los

proyectos en los que ha participado se puede mencionar los siguientes:

aceMedia20 es un proyecto dedicado a la investigación y desarrollo de

técnicas para la personalización y búsqueda de recursos multimedia

basados en semántica, Arcadia su investigación está dedicado al diseño

de ontologías, construcción de bases de conocimiento, técnicas de

visualización y navegación de conocimiento basadas en ontologías,

17 http://siva.uco.es/hmi

18 http://siva.uco.es/cofelu

19 Sitio Web del Grupo NETS: http://nets.ii.uam.es

20 http://www.acemedia.org



36

Aniceto21 web semántica aplicada a contenidos de información

financiera y económica, creación de una ontología de dominio financiero,

y una base de conocimiento que agrupa datos de bases documentales de

una empresa de analistas financieros, Neptuno22 gestión de información

y publicaciones para prensa digital basada en la web semántica.

GRUPO ALARCOS EN ONTOLOGÍAS23, conformado por Francisco Ruiz,

Aurora Vizcaino, Mario Piattini, Grupo Alarcos, Departamento de

Tecnologías y Sistemas de Información, Escuela Superior de Informática,

Ciudad Real: este grupo está dedicado a mejorar la calidad de los

sistemas de información desarrollando nuevas herramientas, técnicas y

métodos; compartir conocimiento y conocer los nuevos dominios de

información en los cuales se trabajar es un reto que requiere de tiempo y

esfuerzo, por esta razón este grupo de trabajo a creído conveniente la

incorporación de ontologías (Ontologías de Dominio) para mejorar la

compartición de conocimiento entre los diferentes participantes del

proyeto (clientes, gerente, usuarios finales, analistas, etc).

GRUPO DE APLICACIONES DE INTELIGENCIA ARTIFICIAL24, Pedro

Gonzales Calero, Departamento de Sistemas Informáticos y Computación,

Universidad Complutense de Madrid-España:

Es importante mencionar que en la actualidad aún existen pocas ontologías que

estén disponibles en más de una lengua natural, en la biblioteca OntoSelect25

solamente existen 28 ontologías multilingües de las 1.117 que alberga, y de

estas pocas se ha podido constatar que presentan carencias en los lenguajes que

no son su lengua natural [21].

2.4.1 Componentes de una Ontología:

Una ontología está compuesta por los siguientes componentes:

21 Información del Proyecto Aniceto: http://nets.ii.uam.es/aniceto

22 Información del Proyecto Neptuno: http://nets.ii.uam.es/neptuno

23 Sitio Oficial del Grupo Alarcos: http://alarcos.inf-cr.uclm.es/

24 GAIA - Group for Artificial Intelligence Applications: http://gaia.fdi.ucm.es

25 http://olp.dfki.de



37

Conceptos (Clases): representan el sentido más amplio y son las ideas

que se van a formalizar; pueden ser objetos, eventos, procesos, métodos.

Se organizan en jerarquía.

Propiedades (atributos): constituye relaciones extrínsecas e

intrínsecas de los conceptos y las relaciones entre conceptos y describen

sus características y atributos.

Relaciones: son las interacciones entre los conceptos.

Funciones: son un tipo concreto de relación donde se identifica un

elemento mediante el cálculo de una función que considera varios

elementos de la ontología.

Axiomas: son enunciados verdaderos sobre los conceptos y sus

relaciones, se usan para verificar la consistencia de la ontología. modelan

conocimiento que no puede ser representado usando otros

componentes.

Instancias: representan entidades u objetos pertenecientes a una

determinada clase de la ontología. Representan objetos determinados de

un concepto.

2.4.2 Clasificación de Ontologías:

Existen varias clasificaciones dependiendo de algunos detalles como según nivel

de detalle, de dependencia, tamaño, etc. a continuación describimos algunos

tipos de ontologías, que creemos los más importantes y explotados [25]:

Ontologías de Alto Nivel (Genéricas): describen aspectos muy

generales como espacio, tiempo, materia, evento, etc. Son para grandes

comunidades de usuarios.

Ontologías de Dominio: describen los conceptos, relaciones y teorías de

diferentes y específicos dominios de interés como medicina, cine.

Ontologías de Tarea: los conceptos y relaciones que se toman en cuenta

para crear una ontología de este tipo son los concernientes a los pasos,

estructuras, tareas o actividades que se siguen en un proceso con el fin

de dar solución a un problema o situación, por ejemplo describen el

proceso de una actividad específica como venta.



38

Existen otros tipos de ontología derivados de las anteriores [22]:

Ontología Educacional: se considera a una ontología de este tipo, a

aquellas se usen para la enseñanza basándose en tecnologías Web.

Ontologías de Comunicación: se utilizan para el paso de mensajes entre

distintas plataformas, repositorios o servicios educativos, se define la

semántica en que se basaran los mensajes, el vocabulario de los términos

utilizados en la comunicación.

Ontologías Terminológicas: especifica términos que son usados en un

universo, se usan para unificar vocabulario en un entorno específico.

Ontologías de Información: especifican la estructura de

almacenamiento de la base de Datos, crear una estandarización para el

almacenamiento de la información.

Ontologías representacionales: en las que se especifican las

conceptualizaciones que subyacen a los formalismos de representación

del conocimiento, por lo que también se denominan meta-ontologías

(meta-level o top-level ontologies).

2.4.3 Desarrollo de una Ontología:

Existen varias metodologías que guían en la construcción de una ontología [23],

como por ejemplo el método Uschol and King´s, el método Methontology ó el

On-to-Knownledge. Para iniciar el proceso de creación de una ontología lo

primero qué se debe analizar es el dominio y el ámbito de la ontología

definiendo los recursos e información que se va a utilizar, analizar también para

que va a estar orientada la ontología. Luego es necesario ver la posibilidad de

reutilizar una ontología ya existente ó de que nuestra ontología tenga algún tipo

de interacción con otra Ontología relacionada.

Para el desarrollo de una ontología se debe tener presente los siguientes pasos

[24]:

Definir las clases: para poder llegar a identificar las clases de una

ontología, es necesario describir los términos más importantes del tema,

para que en base a estos podamos definir luego cuáles serán tomados

como clases y cuales como subclases según su clasificación.



39

Organizar las Clases jerárquicamente: colocar las clases en una

jerarquía de taxonomías (subclase, superclase)

Definir las propiedades (atributos) y las características de estas como

las de rango, dominio, cardinalidad, etc. y describir los valores

permitidos para estos.

Creación de Instancias: rellenar los valores de los atributos con

ejemplos.

2.4.4 Lenguajes de Ontologías:

Permite que las ontologías sean interpretables por las máquinas [26]:

OWL (Lenguaje de Ontologías Web): El lenguaje OWL ha sido diseñado

para que las aplicaciones puedan procesar e integrar automáticamente

el contenido de la información en la Web, en vez de simplemente

presentarla para “consumo humano”. OWL toma como base lenguajes ya

existentes tales como XML, XML Schema, RDF y RDF Schema, pero

incluye nuevas características para permitir crear ontologías:

vocabulario para describir clases y propiedades, relaciones,

restricciones, cardinalidad, características de las propiedades,

propiedades enumeradas, y otras.

RDF (Infraestructura para definición de Recursos): lenguaje para

definición de ontologías y metadatos, describen recursos identificados

por URLS, se define por una tripleta sujeto (recurso), predicado

(propiedad) y objeto (literal).

WSML (web service modeling Language): es un lenguaje específico

para ontologías orientado al modelado de servicios Web semánticos.

2.5 DISCUSIÓN

Después de un estudio de los diferentes métodos para representar la

información podemos deducir que la evolución de estos sin duda ha tenido un

gran adelanto, cabe resaltar que los métodos actuales han heredado algunos

procedimientos de los métodos más antiguos como la forma de grafos que se

usa para modelar los conceptos en los nodos y las relaciones mediante arcos.

Las redes semánticas siendo una de las primeras técnicas es aún utilizada con

excelentes resultados y los metadatos es otra de las técnicas más antiguas

incluso antes que apareciera el internet, pero en la actualidad se ha



40

reivindicado su uso, se pueden aplicar en todas las áreas no solo en el área

educativa y presentan facilidad para agregar y extender la integración con otros

recursos, su principal desventaja es que al existir varios tipos de metadatos

usados en varios sistemas se dificulta la interoperabilidad entre estos.

Las taxonomías son muy utilizadas para la representación y administración de

la información en compañías, empresas u organizaciones en general, tiene como

principal ventaja la simplicidad en su estructura así como también permiten la

incorporación de información desde otros recursos como ontologías y tesauros.

Por estas razones pueden ser combinadas con las Ontologías de domino, ya que

estas tienen como objetivo modelar el conocimiento en un área definida, por

ejemplo todo lo concerniente a la industria y comercio de la madera.

Sin duda el método de representación de la información más usado y con

excelentes resultados actualmente son las ontologías, se las usado mucho en lo

que tiene que ver con tratamiento semántico de la información.

Todos estos métodos de representación de la información nos ayudan a

preparar la información de tal manera que sea más fácil su uso y tratamiento a

la hora de querer interrelacionar conceptos mediante relaciones lo que permite

poder corresponder información entre un lenguaje y otro, u obtener aspectos

generales de conceptos en un idioma específico que es nuestro objetivo de

estudio. Mediante las ontologías el establecer relaciones semánticas, atributos

léxicos, correspondencias entre idiomas es más fácil y permite reutilización

para poderlas integrar con otras ontologías, o con otros sistemas de tratamiento

lingüístico.



41

3. CAPITULO

Tecnologías Existentes



42

3.1 ONTOLOGÍAS MULTILINGÜES:

Una Ontología Multilingüe es un sistema estructurado que nos permite manejar

información (texto) en diferentes idiomas, está conformada por una ontología y

un conjunto de diccionarios, el tamaño del conjunto de diccionarios depende del

número de idiomas que se incorporen a la ontología multilingüe, ya que se

necesita de un diccionario por cada lengua agregada. En este tipo de ontologías

también es necesario identificar un conjunto de conceptos, y un conjunto de

relaciones.

El diccionario D, es una asociación de conceptos C con un conjunto de

términos pertenecientes a un lenguaje L [26].

El proyecto NeOn dedicado al desarrollo de ontologías, ha considerado la

posibilidad de proveer de multilingüalidad a las ontologías, para esto han creído

conveniente usar la Localización, que es un término muy utilizado en varias

áreas de estudio, cuando se habla de multilingüismo este término está muy

orientado a ontologías, entendiéndose por localización al proceso de adaptación

de una ontología a un lenguaje y cultura en particular, para realizarlo hay que

tener en cuenta algunos de los aspectos de la ontología como la capa léxica,

sintáctica, de representación, terminológica, conceptual y pragmática.

LabelTranslator es un software que ha sido desarrollado dentro de este mismo

proyecto para convertir este proceso en una estrategia semi-automática de

localización de ontologías y otros recurso semánticos multilingües, en la última

versión de esta herramienta se ha habilitado a este software para que tenga

conexión con EWN uno de los tesauros multilingües más reconocidos y usados

actualmente[27].

La Internacionalización es el proceso de generalización de un producto, capaz

de volverse manejable en múltiples idiomas y culturas, sin necesidad de realizar

un re-diseño.

El proyecto Lor@ propone una arquitectura en la que se hace uso de ontologías

de dominio, y ontologías multilingües las cuales actúan como una interlingua

para la integración de las ontologías de dominio, el interés de desarrollar este

proyecto surge por la necesidad de manejar la gran cantidad de recursos

desarrollados y almacenados por el Aula Virtual de España (AVE) del Instituto

de Cervantes. Existe la necesidad de gestionar un sin número de Objetos de

Aprendizaje (OA) los cuales a más de ser de diversas áreas de conocimiento



43

provienen de diversos repositorios, ya que al ser este un sistema abierto

permite la interoperabilidad con otros repositorios, con otros formatos de

representación de sus OA y de otros lenguajes. Las ontologías de dominio

permitirán representar las relaciones entre los conceptos de las diversas áreas

del conocimiento a las que pertenecen los OAs de un repositorio, estas

ontologías pueden ser de naturaleza multilingüe ya que esto nos permitirá una

mejor representación de los OA, enriqueciendo sobre todo su búsqueda y

recuperación, también es necesaria otra ontología que sirva de enlace

(interlingua), proporcionando relaciones entre clases e instancias de las

diferentes ontologías [22].

En la siguiente figura se detalla la arquitectura antes mencionada, los círculos

color celeste corresponden a las ontologías de dominio y las líneas representan

a las ontologías multilingües que actúan como interlingua, para enlazar las

diversas áreas del conocimiento y lenguas.

Figura 3.1 Arquitectura Lor@, Ontología Interlingua [22].



44

OntoSelect26 es un repositorio de ontologías que se encarga de recolectar,

analizar y organizar ontologías publicadas en la web de varios leguajes

naturales, mediante un análisis a esta biblioteca se ha podido establecer que es

muy poco el número de ontologías multilingües que existen por el momento.

Menos del 3% de las ontologías de este repositorio son multilingües, esto se ha

debido al poco interés que ha habido por parte de los grandes grupos de

investigación internacional como; LISA (Localization Industry

StandradsAssociation), OSCAR (Open Standards for Container/Content Allowing

Re-use), OASIS (Organization for the Advancement of Structured Information

Standards), W3C, ISO.

Es en estos últimos años que las empresa que manejan gran cantidad de

información y sobre todo que manejan información en varias lenguas, se han

interesado en las ontologías multilingües, algunas de estas empresas son OMS27

(Organización Mundial de la Salud) y la FAO28 (Organización de las Naciones

Unidas para la Agricultura y la Organización) que maneja información en seis

lenguas oficiales, también tiene tesauros, glosarios y bases de datos donde aloja

recursos en más de 15 lenguas por esta razón tiene gran interés en estructurar

su información para que su manejo y compartición sea mejor.

La Unión Europea ha puesto en marcha recientemente el Proyecto Monnet

(Multilingual Ontologies for Networked Knowledge), en el que trabajaran

investigadores españoles, universidades Europeas y el Grupo de Ingeniería

Ontológica de la Facultad de Informática de la Universidad Politécnica de

Madrid (FIUPM). El objetivo de este proyecto es crear ontologías multilingües

que permitan mejorar la recuperación y presentación de información, de tal

manera que se cubran las necesidades de las industrias y el gobierno para el

mejor aprovechamiento de la información en internet [28].

26 http://olp.dfki.de/ontoselect/

27 Sitio Oficial de OMS: http://www.who.int

28 Sitio Oficial de FAO: http://www.fao.org/

http://olp.dfki.de/ontoselect/



45

3.2 INTERLINGUA

Una interlengua es un lenguaje mediador, por medio del cual podemos

establecer una comunicación entre diferentes idiomas. Esto facilita el

entendimiento entre hablantes de diversas lenguas ya que no necesitan

aprender todas las lenguas que forman parte de la comunicación.

Podemos además definir un lenguaje natural (inglés, francés, español, etc.)

como una interlingua, pero para esto es necesario llegar a un grado de

Desambiguación muy alto, ya que se necesita que todos los lenguajes

involucrados puedan ser representados a través de la lengua escogida.

La lengua de cada parte del mundo tiene características específicas que son

agregadas por los hablantes de la misma, estas características se dan en base a

ciertos factores como: la cultura, el nivel económico, descendencia de otras

lenguas, etc. y es por estas características que existe una gran brecha entre

lenguas, lo cual no ha permitido encontrar hasta ahora una representación de

las lenguas que nos permita abarcar todas la lenguas del mundo. Una

interlengua posee las características de cualquier lengua como: léxico,

sintáctico, semántico [29], y es hasta el momento es el único método que nos

permite combatir el multilingüismo, no al cien por ciento pero si en su gran

mayoría.

La interlingua es un método indirecto de TA29, basado en la lingüística

computacional y en la IA, su principal ventaja es facilitar y dar independencia ya

que existe un paso para el análisis (del lenguaje origen), creación de

representación y otro independiente para la generación (lenguaje destino). Otro

método indirecto pero menos eficaz es el de transferencia pero en este la

traducción se la hace mediante una representación intermedia de lengua a

lengua, hay que diseñar una representación para cada par de lenguas, algunas

veces es más fácil cuando las lenguas son afines o descendientes. Este es un

método menos complejo que la representación de la interlingua pero resulta

menos óptimo. Además para la creación de un sistema de TA se necesitaría de

N(N-1)30 módulos y para la creación de una Interlingua solamente

29 llamada también Machine Translation

30 N= número de lenguajes.



46

necesitaríamos 2N módulos, por lo que se puede demostrar que la interlingua

soporta de mejor manera el incremento de lenguajes.

Figura 3.2 Arquitectura de la TA basada en Interlingua [29].

Las metodologías para crear una interlingua difieren mucho en el grado de

análisis que se debe realizar al lenguaje de origen, se debe realizar el análisis

más profundo en la lengua origen ya que de esto depende que la palabra esté

desambiguada con el sentido correcto y tener más exactitud. Es posible que

durante la conversión a la interlingua se pierda información sobre el sentido y la

gramática de las palabras, esto ocasiona que la interlingua de otra

interpretación y por consiguiente sea poco exacta.

En cambio un método directo traduce palabra por palabra, no tiene una

representación intermedia, ni un análisis sintáctico ni semántico.

Este lenguaje que puede ser llamado lenguaje artificial debe contar con ciertas

características, que se describen a continuación:

Precisión: en interpretar los conceptos, esto ayuda a tener

resultados más exactos en la representación de una palabra que

provenga de cualquier idioma.

Inambigüedad: esta característica es primordial, ya que una

palabra que se preste a varios significados debe ser analizada de

manera más exhausta.

Neutralidad: no se debe apegar a las características de ninguna

de las lenguas que intervienen, en caso de que se escoja un

lenguaje natural como interlingua hay que llegar a un nivel muy

alto de Desambiguación.

Canonicidad: representa de una única manera un concepto que es

representado de diferentes maneras en varios idiomas.



47

Es importante mencionar también, que el crear un interlingua es un proceso

difícil por las siguientes razones:

Crear un nuevo lenguaje para la representación resultaría muy tedioso lo

que llevaría demasiado tiempo y esfuerzo en crearlo, en cambio si se

utiliza un lenguaje natural como el inglés o cualquier otro, hay que tener

mucho cuidado de aplicar una Desambiguación exhaustiva, ya que las

palabras no pueden depender de ningún lenguaje natural.

En caso de escoger algún lenguaje como interlingua, es necesario

adicionar características que permitan independencia, así como sencillez

y facilidad de expresar cualquier palabra con la representación de la

Interlingua.

Otra característica a tomar en cuenta en la creación de una interlingua es

la flexibilidad, esta es necesaria para que se facilite la transformación de

un lenguaje natural a la Interlingua o viceversa.

La expresividad, independencia de lenguaje y abstracción son requisitos

indispensables y muy difíciles de conseguir, por lo que las interlinguas hasta el

momento solo se han desarrollado para sistemas de dominio limitado, ya que

esto es difícil de conseguir para sistemas de dominio independiente.

Las interlinguas son usadas en varias ámbitos como: Procesamiento de lenguaje

Natural, TA, Representación del conocimiento, Desambiguación de palabras y

resolución de anáforas, entre otros [29] [30].

A continuación se detalla algunos proyectos que utilizan interlinguas:

ATLAS II

Atlas es un sistema de traducción automática que tuvo sus inicios en los años

70, cuando se empezó a dejar de lado los sistemas de traducción automática

directa para empezar a crear sistemas más robustos y exactos como son los

sistemas con interlinguas.

Inicialmente este sistema empezó con la traducción en dos idiomas: Inglés y

Japonés, para luego agregar otros idiomas: coreano, francés y alemán. El

primer análisis que realizaba era el Análisis Morfológico para lo cual usaba

un diccionario de conceptos en el cual organiza a las palabras según ciertas

relaciones como de equivalencia, sinónimos, hiperónimos, etc., reglas de

análisis y un modelo del mundo. El siguiente análisis era el Análisis

Sintáctico y Semántico. Como resultado de estos análisis generaba una



48

interlingua que estaba constituida en forma de una red, en donde los nodos

pertenecían a los conceptos y las aristas a las relaciones (descripciones) de

los conceptos. También usó la lógica de las redes semánticas para el análisis

de los conceptos. [31][32]

Word Dictionary

Analysis Rules

Word Model

(Meaning Relation)

Word Dictionary

Generation Rules

Language Model

(Co-ocurrence

Relation)

Sentence Analysis Analysis Rules

Conceptual Structure

transfer

Conceptual

Estructure

Transfer Rules

Source Language

Conceptual Structure

(interlingua)

Target Language

Figura 3.3 Proceso de Traducción de ATLAS II. [31]

Universal Networking Language (UNL)31

El sistema UNL fue creado para soportar servicios multilingües y para mejorar

la traducción automática; con el objetivo de terminar las barreras de lingüísticas

que existen en internet para la comunicación y el conocimiento de la personas.

El proyecto inicio en 1996 con un grupo de más de 100 científicos e

investigadores de todo el mundo y financiado por el Instituto de Estudios

Avanzados de la Universidad de las Naciones Unidas, lo que se pretende es crear

una interlingua que sea una representación universal a todos los lenguajes, se

inicio con 14 lenguas como base: árabe, chino, alemán, francés, japonés, hindi,

indonesio, italiano, mongol, portugués, ruso, lituano, español y tailandés (más

tarde letón y coreano) [33].

Se define como un Lenguaje Formal, que se forma de la conexión de servidores

de las diferentes lenguas, su estructura es la de una red semántica formada por

31 Sitio Oficial de UNL: www.undl.org



49

conceptos que son los nodos y están representados por las Palabras

Universales (UW) y los arcos por las relaciones entre las UWs.

En UNL se han definido 41 relaciones semánticas, las cuales permiten poder

representar y expresar cualquier contenido, algunas de estas relaciones [34]:

- agt (agente): define a quien inicia/realiza una acción.

- con (condición): se refiere a un estado que está condicionado con otro

estado o con algún evento.

- plc (lugar): lugar donde un evento ocurre, donde una cosa existe.

- nam (nombre): define el nombre de una cosa.

- dur (duración): define el tiempo en el que un estado existe, o un evento

ocurre.

- ins (intsrumento): se refiere a un instrumento que ayuda a la

realización de un evento.

- met (método): contempla los métodos o maneras para resolver un

evento.

- or (disjunción): define una disjunción entre dos conceptos.

- qua (cuantificación): define la cantidad de una cosa o unidad.

- tim (time): define el tiempo que un estado ocurre o en el que un estado

es verdadero.

- etc.

Entre los atributos que este sistema a definido podemos citar algunos [35]:

- Atributos del tiempo: presente, pasado, futuro.

- Atributos de evento: empezar, continuar, completar, etc.

- Atributos de actitud: afirmativa, exclamación, interrogativa, etc.

- Atributos de sentimiento: deseo, insistencia, intención, conclusión, etc.

- entre otros.

Las UWs se usan para representar el sentido de las palabras de todas las

lenguas, su característica es la sencillez, para que de esta manera sean fácil y



50

sencillamente entendibles por los hablantes de diversas culturas, y la

complejidad para que puedan abarcar el sentido de todas las palabras.

Las palabras en UNL esta categorizadas jerárquicamente, existen cuatro

categorías: concepto nominal, verbal, adjetival, adverbial. Así como representa

en el gráfico siguiente.

uw

nominal (thing)

verbal adjectival (adj)

adverbial (adv)

(do) (occur) (be)

Figura 3.4 Categorización de Palabras Universales [35]

UNL usa como lenguaje base al inglés, para poder representar el sentido de las

palabras en una palabra en inglés se valen de headworks, las cuales permiten

desambiguar una palabra mediante asignación de características sintácticas

como si es un verbo, objeto, adjetivo, género, etc.

Score(icl>event,agt>human, fd>sport)

.@entry.@past.@complete

agt

Ronaldo

obj

goal(icl>thing)

ins

head(pof>body)

plt

comer

mod

left

obj

pos

Figura 3.5 Ejemplo de representación de una UW en UNL. [35]



51

Componentes:

- Converter: corresponde al proceso de transformar de una lengua

natural al lenguaje de UNL.

- Deconverter: proceso que convierte del lenguaje de UNL a una

lengua natural.

Entre los usos actuales y futuros de UNL tenemos:

- Diccionarios multilingües

- Extracción automáticas de Ontologías

- Buscadores inteligentes Multilingües

- Extracción de información Multilingüe

- Sistemas de dialogo Multilingüe

Otras aplicaciones

Existen otras áreas que se valen de una interlingua como el PLN para

Desambiguación de palabras, resolución de anáforas, etc. En la inteligencia

artificial también es necesaria una interlingua para poder integrar diferentes

sistemas, para la comunicación entre agentes, entre otras.

3.3 RECURSOS LINGÜÍSTICOS

3.3.1 Corpus

Corpus es un almacenamiento electrónico de las características del uso de una

lengua, que permiten saber cómo funciona esta, en base a textos o muestras

orales. Una definición más explícita nos ofrece Alvar Ezquerra, Blanco

Rodríguez y Pérez Lago (1994): “Un corpus en un conjunto homogéneo de

documentos lingüísticos de cualquier tipo, (orales, escritos, literarios, coloniales,

etc.) que se toman como modelo de un estado o nivel de lengua predeterminado, al



52

cual representan o se pretende que representen. Este conjunto de enunciados se

someterá a un tratamiento informático cuyos resultados permiten el mejor

conocimiento de las estructuras lingüísticas de la lengua representada” [32]

La función de un corpus independiente de que tipo sea es permitir la conexión

entre la teoría y los datos, mostrar a menor escala como funciona y permitir la

comprensión de una lengua pero para lograr esto el corpus debe estar

construido sobre bases sólidas que aseguren que los resultados del modelo sea

efectivamente un modelo real. Los documentos o elementos que se toman en

cuenta para la construcción del corpus deben tener los mismo criterios de

selección, ya sea en una o diversas lenguas.

En la actualidad son de gran uso y aplicabilidad en la Ingeniería Lingüística ya

que existe la necesidad de trabajar con datos reales y los más exhaustivos

posibles, que permitan analizar con la máxima efectividad las características del

objeto de estudio.

Con el uso de la informática estos recursos han mejorado notablemente, ya que

permite el manejo de grandes volúmenes de datos, y esto mejora notablemente

la precisión de los resultados esperados. Además los corpus son muy utilizados

en la TA, especialmente los Corpus Bilingües y los Paralelos quienes actúan

como fuentes de alimentación de texto para las máquinas, lo que se hace es

buscar frases cortas en el corpus y sus alineaciones en otros idiomas. La ventaja

es que no se debe escribir la frase completa para buscar sus correspondientes

en otros idiomas, y una desventaja sería el tiempo que tarda y un alto grado de

inexactitud en caso de realizar búsquedas en corpus con un gran tamaño de

información. También es importante mencionar que los documentos que se

introducen en un corpus se pueden crear en base a metadatos como TEI, con el

objetivo de guardar información estructurada que como ya hemos mencionado

anteriormente permiten realizar búsquedas más rápidas y precisas [36].

El grupo de investigaciones GENTT32 ah creado un corpus multilingüe que

abarca los siguiente idiomas catalán, español, inglés, alemán y francés; contiene

información jurídica, técnica y médica. Es un corpus textual que recopila textos

completos y es además un corpus comparables (se trabaja para convertirlo en

32 GENTT (Textual Genres for Translation): www.gentt.uji.es



53

un corpus paralelo), está presto para ser utilizado con fines académicos y

profesionales [37].

Existen varios Tipos de Corpus, se detallan según la siguiente clasificación:

Según la Modalidad de la Lengua: se dividen en Corpus Textuales o

escritos y Corpus Orales que pueden formarse por transcripciones o

grabaciones.

Según el número de Lenguas:

Corpus Monolingües y Corpus Bilingües cuando reúnen textos

sobre el mismo criterio en diferentes idiomas.

Corpus Comparables: contienen textos originales y traducidos,

pero todos en la misma lengua.

Corpus Paralelos cuando en un corpus encontramos el mismo

textos pero en diferentes lenguas. Ejemplos: Hansard Corpus33

,

Corpus de IBM34

, ITU35

Corpus Alineados cuando se alinea similares textos a sus

correspondientes en otros idiomas.

Según la Cantidad, proporción y distribución de los Tipos de Textos:

se dividen en los siguientes tipos: Grandes, Equilibrados, Piramidales.

3.3.2 Tesauros

Un Tesauro es un instrumento informático terminológico que permite convertir

un conjunto de términos en lengua natural a un lenguaje formal y controlado. Es

un conjunto de palabras controladas, que guardan una relación semántica y que

pertenecen a un dominio específico [38]. Se considera una herramienta de

control terminológico muy útil para el análisis, descripción y recuperación

automatizados.

Elementos de la estructura de un Tesauros:

33 contiene actas del parlamento canadiense en inglés y francés.

34 contiene manuales técnicos de IBM, en francés e inglés.

35 creado en el grupo europeo CRATER, para confección automática de léxiicos bilingües en tres idiomas inglés, español, francés.



54

- Unidades Léxicas: descriptores de un conjunto de unidades léxicas

que representan conceptos, un concepto está representado por un

único término y sirve para la recuperación de información. Y los No

Descriptores, términos que se eliminan después de haber hecho un

análisis (sinonimia).

- Relaciones Semánticas: relaciones entre unidades léxicas, que

pueden ser de equivalencia, jerárquicas, asociativas.

Tipos de Tesauros:

- Tesauro monolingüe: contiene descriptores en una única lengua.

- Tesauro multilingüe: contiene descriptores en más de una lengua.

- Tesauro Macrotesauro: se trata de un tesauro que incluye algunos

descriptores básicos comunes y los propios de su campo o

especialidad.

Algunos Tesauros multilingües disponibles:

- EUROvoc36 es un tesauro plurilingüe que abarca todos los ámbitos de

actividad de las comunidades Europeas, permite indizar los

documentos en los sistemas de documentación de las instituciones

europeas y de sus usuarios. El Parlamento Europeo, la Oficina de

Publicaciones de las Comunidades Europeas, los parlamentos

nacionales y regionales de Europa, las administraciones nacionales y

determinadas organizaciones europeas se sirven actualmente de él.

En el sitio Eurovoc, se puede encontrar actualmente la versión 4.3.

- EUROvoc 4.3 existe en las 22 lenguas oficiales de la Unión Europea

(búlgaro, español, checo, danés, alemán, estonio, griego, inglés,

francés, italiano, letón, lituano, húngaro, neerlandés, maltés, polaco,

portugués, rumano, eslovaco, esloveno, finés y sueco) y otra lengua

(croata) y es utilizado en proyectos de investigación sobre

recuperación de información, clustering de documentos y

clasificación. El tesauro tiene una lista estructurada con más de 6.600

descriptores y 127 microtesauros en 21 campos temáticos. Este

tesauro es de libre descarga, se puede realizar su descarga parcial o

total desde internet. [39]

36 Sitio Oficial de tesauro EUROvoc: http://europa.eu/eurovoc/



55

- El Tesauro UNBIS37 contiene terminología para el análisis

documental del Sistema de Información Bibliográfica de las Naciones

Unidas (UNBIS), y es adoptado también como léxico documental por

el Sistema Oficial de Documentos de la ONU. Es un tesauro

multilingües que maneja las seis lenguas de la ONU árabe, chino,

inglés, francés, ruso y español. Comprende temas en diversas áreas

como: política, economía, sociedad, agricultura, industria, demografía,

salud, cultura, entre otras. Este tesauro se mantiene en continua

avance ya actualización, y está cargado en la página web de Sistema

de Información bibliográfica de las Naciones Unidas.

- Macrotesauro de la OCDE38, es un tesauro multilingüe que contiene

gran cantidad de términos económicos en diversos temas, es

complejo, sencillo y de fácil manejo por lo que se considera como el

mejor tesauro especializado en economía y está en cuatro idiomas:

español, inglés, francés, alemán. La organización que se encarga de la

creación, publicación y mantenimiento de este tesauro es la

Organización para la Cooperación y el Desarrollo Económico (OCDE).

Para acceder a la información de este tesauro se lo puede hacer

navegando mediante su contenido que está organizado

jerárquicamente o bien mediante un motor de búsqueda.

3.3.3 Glosarios

Repertorio de términos pertenecientes a un área específica de conocimiento o

disciplina, agregando definiciones o explicaciones que son necesarias para su

descripción.

Algunos ejemplos de Glosarios:

El Glosario multilingüe elaborado por FMI39 es una base de datos

terminológicos contiene más 4.500 fichas con términos útiles para

quienes traducen textos relacionados con el FMI (hasta el año 2000).

Para cada término se presenta su traducción a varios idiomas, pero no su

definición. La base de datos comprende palabras, frases y nombres de

37 http://www.unhq-appspub-.01.un.org/LIB/DHLUNBISTThesaurus.nsf/

38 http://info.iubk.ac.at./info/oecd-macroth/

39 http://www.imf.org/external/np/term/index.asp



56

instituciones que suelen aparecen en documentos del FMI sobre

cuestiones relacionadas con moneda y banca, finanzas públicas, balanza

de pagos y crecimiento económico, entre otros temas.

Glosario de Inter-Active Terminology for Europe (IATE)40 El diccionario online IATE es sin duda el mejor y más profesional diccionario de idiomas que se puede encontrar en Internet. Traduce las palabras en todos los idiomas europeos proponiendo diferentes traducciones según el ámbito temático seleccionado.

3.3.4 Wordnet

Wordnet fue creada en 1985 con el respaldo de instituciones gubernamentales y

privadas, en un inicio fue creada en base a relaciones psicolingüísticas (estudio

de la adquisición del conocimiento léxico y cómo éste se organiza en la memoria

de las personas para su acceso y uso inmediato, para aplicarlo en el

almacenamiento computacional de la información).

Un wordnet es una base de datos léxica, que alberga palabras en inglés o en

cualquier otro lenguaje (Sueco, Noruego, Danés, Griego, Portugués, Catalán,

Rumano, Ruso y más41) estructuradas en forma de redes semánticas. Lo que

desea representar es el conocimiento léxico semántico, por lo que clasifica a las

palabras en cuatro categorías: adjetivos, adverbios, nombres, verbos, esta es su

principal diferencia con un diccionario. Este recurso léxico puede ser usado

para análisis léxico, lingüística computacional y otras áreas relacionadas.

Su estructura está constituida como una matriz42 en la que se identifican las

formas léxicas que se refiere a la manera física de escribir o pronunciar una

palabra y el significado léxico que se refiere al concepto lexicalizado expresado

a través de las formas léxicas, de esta manera en las columnas de la matriz se

encuentran todas las palabras (formas léxicas) y en las filas se encuentran los

significados, es decir que una intersección en la matriz corresponde a una

palabra con su respectivo significado.

40 Glosario IATE: http://iate.europa.eu

41 http://www.globalwordnet.org/gwa/wordnet_table.htm

42 Matriz de Vocabulario.



57

Figura 3.6 Matriz de Vocabulario en Wordnet [41]

Las palabras o término están relacionadas mediante relaciones léxicas y están

organizadas en Synset (conjunto de palabras), además del Synset cada palabras

tiene asociada un número de sentido (car#1, car#2, car#3), una definición

correspondiente a cada sentido, y un identificador que es un código único de 8

dígitos (SynSetID)43 [42].

Figura 3.7 Sentidos del sustantivo Car (Wordnet 2.0)

Los Synsets están enlazados mediante relaciones semánticas [42], las más

importantes son:

Sinonimía/ Antonimía: son las relaciones más importantes que tiene

wordnet, sinonimia significa que una palabra puede sustituir a otra en el

mismo contexto sin alterar el significado (significan lo mismo) y

Antonimia es una relación que expresa lo contrario a una palabra, por

ejemplo feo / bonito.

43 el SynSetID es un identificador de cada palabra el cual sirve para poder relacionar a la

misma en el EW con su correspondiente en otro idioma a través de ILI.



58

Figura 3.8 Sinónimos de house.

Figura 3.9 Antónimos de Clean

Hiponimía/Hiperonimía: una palabra hipónima es aquella que posee

los rasgos semánticos de otras más general su heperónimo. Ejemplo:

clavel, rosa, margarita (flor). U hiperónimo es una palabra que señala, de

una manera general y amplia, a un conjunto, género o clase de seres.

Ejemplo: Flor (clavel, geranio), Pez (tiburón, martillo).



59

Figura 3.10 Hipónimos de dog.

Figura 3.11 Hiperónimos de dog

Holonimia/Meronimia: un holonimo es una palabra que señala el todo

de una estructura. Ejemplo: Brazo es el holónimo de mano. Un merónimo

es una palabra cuyo significado constituye una parte del significado total



60

de otra palabra, denominada ésta holónimo. Ejemplo: dedo es merónimo

de mano.

Figura 3.12 Holónimo de hand.

Figura 3.13 Merónimo de hand.

Morfología: esta relación no estuvo contemplada en el diseño inicial de

wordnet, pero luego se adjunto para darle utilidad al sistema, esta

relación consiste en analizar morfológicamente a las palabras, para

acceder a su forma base en caso de que estén escritas en alguna otra de

http://es.wikipedia.org/wiki/Hol%C3%B3nimo



61

sus formas. Por ejemplo wordnet nos presenta la palabra base árbol, ante

una consulta de la palabra árboles.

En la siguiente figura podemos ver la estructura jerárquica que hace wordnet

para cada uno de los Sysnet:

Figura 3.14 Ejemplo de un Synset [43]

Wordnet es la base de datos léxica que más se ha usado para proyectos de

lingüística computacional, pero tiene la desventaja de que no posee las

relaciones léxicas, debido a la correspondencia de múltiples sentidos de las

palabras.

3.3.5 Eurowordnet

EWN es una base de datos multilingüe estructurada como red semántica que se

basa en la reutilización de recursos léxicos como wordnet que son bases de

datos léxicas las cuales organizan la información (nombres, verbos, adverbios,

sustantivos) en Synset, cuenta con el uso de wordnet de varios idiomas como:

Holandés, Italiano, Español, Alemán, Francés, Checo y Estonian. [41] [37].

El proyecto EW finalizó en 1999, desde entonces ha tenido mucha acogida por la

robustez de su arquitectura, la precisión y los buenos resultados obtenidos en

los proyectos en donde este ha sido utilizado. En la actualidad son varias

organizaciones y grupos que están desarrollando nuevos wordnet en otros

idiomas (Europeos y no Europeos), tomando como referencia las



62

especificaciones de EWN, con el propósito de luego poder integrar y contribuir a

la robustez y completitud de este recurso multilingüe.

Global WordNet Association44, es una asociación pública y libre que continúa

con estos trabajos, que estimula a la construcción de nuevos trabajos en este

proyecto como: creación de wordnet, desarrollo de herramientas, interlinguas,

entre otros.

En esta red semántica se crean nuevas relaciones entre synsets, se integran

relaciones multilingües debido a la implementación de relaciones

interlingüísticas, la interlingua ILI y una ontología interlingüísticas.

ILI (Inter-Lengua-Index) es una interlengua que interconecta a las Wordnet, es

un súper conjunto de palabras que deben aparecer en wordnets separadas, por

estas razones:

- Debe permitir vincular significados equivalentes en los que no

intervenga precisamente el inglés por ejemplo chino-italiano con el

mismo registro de ILI.

- Debe permitir almacenar domain-labels para significados de cualquier

idioma

Para manejar una lista de conceptos y relacionar las palabras de las diferentes

wordnets se ayuda de dos Ontologías (Ver Figura 3.15):

Top Ontology que representa una jerarquía de orden superior con 63

distinciones semánticas de conceptos independientes del lenguaje, es decir

se define una estructura semántica común a todos los lenguajes, por

ejemplo: mano y dedo (Meronimía). Esta ontología esta interconectada con

ILI a través de WordNet-Offsets.

Domain Ontology que etiqueta las palabras según una jerarquía de

dominios como por ejemplo ``Deporte'', ``Naturaleza'', etc.

44 Sitio Oficial: http://www.globalwordnet.org/

http://www.globalwordnet.org/



63

Figura 3.15 Descripción de ILI

Cada idioma se representa en un Wordnet, y maneja sinónimos que son

agrupados en Synset. EWN se construye con recursos disponibles, y base de

datos con información semántica. Combinar información de recursos creados

independientemente, con esto se busca que la base de datos sea más confiable o

consistente y de mantener la diversidad de vocabulario en los diferentes

lenguajes.

Las wordnets de los lenguajes específicos se almacenan como un lenguaje

independiente de la base de datos léxica, y las palabras equivalentes de otros

lenguajes se vinculan con cada uno.

La vinculación puede realizarse de la siguiente manera:

Entre 2 lenguajes: mucho trabajo para agregar nuevas lenguas.

Interlingua: lexicón grande de palabras estándar

Un lenguaje pivote: dependencia de un solo lenguaje

Índex no-estructurado.

Por ejemplo: el Synset en inglés < party, political_party> está relacionado a

través del ILI con el Synset en español <partido, partido político>, ya que en el

módulo central que es ILI se guarda un registro conocidos como ILI record en

donde está establecido mediante estos “códigos” que x Synset en Inglés

corresponde a x Synset en Español, otro ejemplo podemos observar en la Figura

3.16.



64

Figura 3.16 Ejemplo de ILI [41]

Diseño de EWN se basa en los siguientes principios:

Combinar varios wordnet de diferentes idiomas a través del ILI.

Desarrollo de una interfaz para poder combinar las características

semánticas y rastrear las diferencias.

Comparte las características del lenguaje Independiente, y mantienes

las características de los Lenguajes Específicos.

Las relaciones que se manejan en EWN operan sobre 5 tipos de datos:

Word meaning: Ejemplo hombre

Instancia: Ejemplo José

ILI record: código que identifica a cada registro

Dominios: Ejemplo Biología

Top concept



65

3.4 PROYECTOS RELACIONADOS Y APLICACIONES QUE

PRESENTAN MULTILINGUISMO

3.4.1 GENOMA KB

GENOMA KB45 es un proyecto desarrollado por el IULATERM (Instituto de

Lingüística Aplicada) de la Universidad Pompeu Fabra de Barcelna, esta Base de

Conocimiento comprende información acerca del genoma humano donde existe

información textual, terminológica, documental y conceptual referente a este

dominio. La información que aquí se almacena se encuentra en tres idiomas:

español, inglés y catalán. [21]

Incorpora en su estructura un conjunto de cuatro módulos interrelacionados:

Módulo Terminológico: maneja información textual, recursos léxicos,

multilingualidad, información administrativa.

Módulo Ontológico: este módulo fue desarrollado mediante la

herramiento OntoTerm46, para su estructura toma en cuenta 21

conceptos básicos, y a los cuales se les añadió 100 conceptos propuestos

por expertos del dominio.

Módulo de Corpus: textos multilingües.

Módulo de Entidades.

45 http://genoma.iula.upf.edu:8080/genoma/

46 http://www.ontoterm.com



66

La relación entre estos módulos lo podemos observar en la siguiente

figura.

Figura 3.17 Arquitectura de GENOMA KB [21]

3.4.2 AGROVOC

AGROVOC47 es un tesauro estructurado multilingüe desarrollado y mantenido

por FAO48 y la Comunidad de Naciones Europeas (1982), con el objetivo de

mejorar la recuperación y consulta de información en cuanto a temas como

agricultura, silvicultura, pesca, alimentación, entre otros. En un inicio fue

desarrollado para usarse en tres lenguas, en la actualidad ya se han incorporado

17 lenguas y maneja 579523 términos. [21]

La principal función del tesauro es normalizar los procesos de indexación para

facilitar la búsqueda y darle mayor eficacia, y proporcionar al usuario los

recursos más pertinentes. Se expone a través de un portal Web, al que pueden

acceder usuarios de todo el mundo, ya se ha podido verificar mediante

estadísticas que presenta un gran número de visitas (5400 visitas al día, por 90

países).

47 http://aims.fao.org/website/AGROVOC-Thesaurus/sub

48 Sitio Oficial de FAO: http://www.fao.org/



67

AGROVOC consta de términos, compuestos por una o más palabras que

representan uno y el mismo concepto. Para cada término se presenta un

conjunto de palabras, que muestra la relación jerárquica y no jerárquica que

mantiene con otros términos: BT (término más amplio), NT (término más

estricto), RT (término relacionado), UF (no descriptor). Además, se usan notas

de contexto para aclarar el significado y el contexto de los términos. Los

términos taxonómicos y geográficos aparecen señalados para facilitar la

búsqueda, la selección y la descarga.

Este tesauro se puede descargar libremente en varios formatos (MySQL,

TagText, ISO2709, XML, y Microsoft Access.), pero no debe ser aplicado con

fines comerciales, a más de esto los usuario pueden proponer nuevos términos

que crean conveniente se deben agregar al tesauro, actualmente AGROVOC es la

base que sustenta la creación del proyecto del Servicio de Ontología Agrícola

(SOA), el SOA podrá elaborar terminologías y conceptos especializados,

específicos de las diversas esferas, que permitirán una mejor gestión de la

información en el entorno de la red. Uno de los objetivos principales del SOA es

incorporar más semántica en el tesauro, por ejemplo a través de una

especificación más precisa de las relaciones que hay entre los conceptos.

3.4.3 LIR

El sistema LIR, está estructurado como una Ontología, su clase principal es la

LexicalEntry, es esta clase la que recoge toda la información lingüística de cada

una de las lenguas por lo que se considera como una unidad que tiene forma,

sentido y significado. A través de una relación se especifica las variantes

terminológicas intralingües de los conceptos. Existe también una clase llamada

Language, que permite identificar el lenguaje y hacer búsquedas de acuerdo al

lenguaje que se escoja. El LIR está unido a la ontología mediante la clase

OntologyElement de OWL, con lo que queda garantizada la asociación del

conocimiento lingüístico a los componentes de la ontología. Más información de

este sistema podemos encontrar en [44].

3.4.4 STASIS



68

STASIS49 (Software for Ambient Semantic interoperable System) es un proyecto

subvencionado por el Sexto Programa Marco de la Unión Europea. El proyecto

empezó en septiembre de 2006 y terminó en agosto de 2009.

Su objetivo es acercar las tecnologías semánticas (ontologías, por ejemplo) a las

empresas mediante herramientas sencillas, así como dar a conocer las ventajas

económicas y las nuevas oportunidades de negocio que estas tecnologías

ofrecen.

En STASIS participan doce socios, pertenecientes a empresas comerciales (TIE,

Porthus, iSoft), a universidades (Universidades de Oldenburg, Modena & Reggio

Emilia y Tsinghua) y a varias organizaciones (AIDIMA, Mariner, Shanghai

Sunline, Foton, TANET, ZF y Friedrichshafen AG).

3.5 Discusión

Como podemos ver en los últimos años instituciones educativas, financieras,

industrias, gobiernos están invirtiendo dinero y tiempo para resolver problemas

multilingües que limitan su crecimiento, mediante el aprovechamiento de la

información que tiene almacenada. Esto se refleja en los aún pocos proyectos

que se han presentado en este capítulo.

De entre las tecnologías que nos permiten incorporar el multilingüismo, la

mejor hasta el momento es la Interlingua, ya que es la que presenta menor

impacto al incorporar mayor número de idiomas, mayor exactitud en los

resultados y el proyecto UNL es una clara muestra de los resultados que se

pueden alcanzar mediante esta tecnología.

Es necesario mencionar también la importancia y la ayuda que han brindado

otros recursos lingüísticos más pequeños como los tesauros, corpus, glosarios,

diccionarios, etc. ya que han sido la base para poder llegar a estudios más

grandes, como las ontologías multilingües y las interlinguas.

49 sitio oficial: http://www.stasis-project.net



69

4. CAPITULO

Diseño de Técnica de Representación

Universal



70

La arquitectura que presentamos a continuación tiene dos partes relevantes lo

que es el PLN y la técnica de Representación Universal del Lenguaje. Lo

novedoso de esta arquitectura es la reutilización de herramientas del PLN y

recursos multilingües implementados con Técnicas de Representación

Universal del Lenguaje para convertir frases escritas en un lenguaje a diversos

lenguajes obteniendo una correspondencia con mayor precisión por el hecho de

utilizar recursos que han tenido varios años de investigación y gran acogida en

múltiples proyectos en este ámbito como son: Wordnet y Eurowordnet. Esta

arquitectura está planteada solo para el procesamiento de frases simples, esto

implica que no procesa párrafos completos, ni documentos, ni textos completos.

Pero servirá de base para estudios futuro en los que se pueda implementar

características las cuales le permitan robustecerse en determinadas áreas como

son la recuperación de información, traducción, entre otras.

Es necesario resaltar que la idea de crear una representación universal, que nos

permita acercarnos a un lenguaje común o al menos a disminuir la dificultad de

comunicarnos o de entender la información que se encuentra en diferentes

idiomas, no ha surgido recientemente, ya que según las investigaciones este es

un tema que se viene tratando desde ya hace muchos años, pero

lamentablemente después de las grandes inversiones de tiempo, dinero e

investigaciones no se ha llegado a obtener mayores resultados.

Identificación

del lenguajeCorrespondencia

del lenguaje

Análisis

(Desambiguación)< atr2>

< atr3>

< atr1>

< atr..n>

Usuario ingresa

una frase

Búsqueda

(Wordnet)

Figura 4.1 Arquitectura Multilingüe para Representación Universal del Lenguaje



71

4.1 DESCRIPCIÓN DE ARQUITECTURA

4.1.1 Identificación del Lenguaje

Este módulo tiene como principal objetivo deducir en que lenguaje está

escrita la frase ingresada, mediante herramientas que usen diccionarios,

ontologías o haciendo un estudio de la morfología de las palabras. Este

dato lo necesitamos para saber el análisis de que lenguaje aplicar,

también lo necesitaremos en el Módulo Wordnet y el de Correspondencia

de Lenguaje para poder buscar su correspondiente palabra en inglés.

En la actualidad existen herramientas para poder realizar la

identificación del lenguaje en el que está escrito un texto, a continuación

describimos algunas herramientas que después de la investigación,

hemos creído las más convenientes para usarlas:

TEXTCAT50: es una herramienta que dispone de 76 lenguajes que

pueden ser identificados, entre ellos catalán, francés, alemán,

italiano, latín, portugués, ruso, español, etc. Hay una versión que

es de libre uso y un demo lo podemos encontrar en [45].

PetaMen51: es también otra herramienta que nos permite

identificar el idioma, a diferencia de la anterior esta tiene un

menor número de de lenguajes, solo cuenta con el

reconocimiento de 65 idiomas. Es también de libre acceso.

RLI (Rosste Language Identifier)52: es una herramienta que nos

permite automatizar el procesamiento de texto de forma rápida y

precisa para determinar el idioma y la codificación de los datos

entrantes, esta herramienta tiene la ventaja de que puede

identificar un idioma o varios idiomas dentro de un mismo

documento o texto. Puede identificar más de 50 idiomas, entre

lenguas de Europa, Asia, y Medio Oriente. Es una herramienta

comercial.

50 http://odur.let.rug.nl/~vannoord/TextCat

51 http://nlp.petamem.com/eng/nlp/langident.mpl

52 http://www.basistech.com/language-identification

http://odur.let.rug.nl/~vannoord/TextCat/

http://nlp.petamem.com/eng/nlp/langident.mpl



72

Figura 4.2 Ejemplo Herramienta RLI

Además de usar herramientas como las antes mencionadas, la

identificación del lenguaje se lo puede realizar mediante un

análisis de las características de las palabras, como por ejemplo:

palabras terminadas en ing pueden ser identificadas como

palabras en inglés (verbos en continuo).

4.1.2 Análisis53

Este módulo corresponde al análisis del Lenguaje, se desglosa en tres

tipos de análisis, el Morfológico, Sintáctico y Semántico. Los dos primeros

análisis tendrán como objetivo rescatar las características generales y

descriptivas de las palabras, como nombres propios, verbos, sustantivos,

género, etc. El tercero que es el Análisis Semántico corresponde a definir

las reglas y relaciones de cada palabra. Todo este análisis es el primer

paso para poder hacer una representación universal de la palabra.

En este punto se necesita dedicar tiempo y esfuerzo ya que es necesario

realizar este análisis para cada uno de los lenguajes en los que esté

escrita la frase a analizar, ya que las reglas gramaticales, relaciones, y en

general la información morfológica, sintáctica y semántica en cada

idioma es diferente.

53 Es importante mencionar que el estudio correspondiente a este módulo está descrito en otra Tesis, la cual corresponde a una parte complementaria a este trabajo.



73

4.1.3 Búsqueda (Wordnet)

En esta parte de la arquitectura lo que se pretende hacer es buscar el

synset correspondiente a cada una de las palabras que conforman la

frase ingresada, en base a las características que ya se han recolectado en

la fase anterior. Como ya se ha descrito en el capítulo 3 el wordnet está

estructurado en synset o conjuntos de palabras, que están conectadas

por relaciones de sinónimos, hiperónimos, etc.

Una vez que tenemos el número de sentido de la palabra según wordnet,

podemos identificar el Synset candidato y el SynsetID que es un

identificador único de cada synset, y con la ayuda de este se obtiene el

wordID que es el identificar único de cada palabra, esto con el objetivo de

buscar su correspondiente palabra en inglés en EW, ya que aquí los

diferentes wordnets están interrelacionados mediante ILI (Ver Capitulo

3), y esta correspondencia se la hace a través del synsetID.

4.1.4 Correspondencia de Lenguaje

No existe un lenguaje natural que nos ofrezca menor o mayor

desambigüedad en sus palabras por lo que no tenemos un lenguaje

candidato en ese sentido, escogeremos el Inglés como base de

representación en nuestro modelo ya que es el lenguaje que tiene mayor

cobertura, es el lenguaje que ha sido tomado como base en la mayoría de

las investigaciones y además los recursos que vamos a usar tienen sus

fundamentos en este lenguaje (Wordnet, Eurowordnet).

Este módulo nos permitirá buscar la correspondiente palabra en inglés

como siguiente paso para la representación universal de las palabras.

Para el desarrollo de este módulo nos ayudaremos de algunos recursos,

como podemos ver en la Figura 4.3.



74

EuroWordNet

ILI

diccionarios,

TA, lexicones,

tesauros, etc.

Correspondencia

del lenguaje

Figura 4.3 Recursos para la correspondencia de palabras

Eurowordnet es nuestro principal recurso para encontrar las correspondientes

palabras en inglés, para esto nos valemos de SysnetID y luego del wordID

(obtenido en el módulo anterior) ya que mediante este se hará la respectiva

búsqueda en el ILI- records para encontrar su correspondiente en Inglés.

La frase puede estar ingresada en cualquier idioma, ya que ILI tiene los registros

de correspondencia de todos los lenguajes con los que cuenta al inglés. En caso

de que las palabras buscadas no se encuentren en EW (es decir no se esté

especificado un Sysnet en Wordnet para esa palabra) ó el idioma en el que está

escrita la frase aún no está dentro de los estudios de EW, la búsqueda se

realizará en otros recursos lingüísticos como diccionarios, corpus paralelos,

lexicones, etc.

4.1.5 Representación Universal:

Esta última parte corresponde a la entrega final de la arquitectura. Una vez

encontrado la correspondiente palabra en inglés y luego de haber

desambiguado las palabras, contamos con una información como la podemos

ver en la siguiente figura.

THE HOUSE IS BIG

PredicateSubject

< adjetive >

< article >

< singular >

< female >

< dwelling >

< home >

< residence >

< verb(be) > < singular >

Figura 4.4 Ejemplo de representación Universal de una frase

Si bien es cierto esta información es muy importante ya que es el resultado de

todo el trabajo anterior, pero así como tal no nos sirve de mucho ya que el



75

objetivo de este trabajo no es que la información quede ahí, sino que nos sirva

para poderla integrar con otros sistemas. Por esta razón hemos buscado

emplear un método en donde la información esté estructurada y tenga un

formato que pueda ser entendido y manejado por otras aplicaciones.

Lo que se pretende hacer es dar una estructura al texto, en este caso sería a las

características gramaticales de las palabras en el lenguaje origen (lenguaje en el

que se ingrese la frase y será identificado como primer paso del modelo), para lo

que se usa información solo de ese lenguaje obtenida a partir del modulo de

Análisis, luego se hará una Representación Universal54 de la frase que

representa el “significado” del texto analizado, para esta representación se

usará una representación lineal y su correspondiente en una red semántica o

grafo conceptual.

Para la representación lineal se ha creado un formato, mediante la definición de

una gramática que se describe a continuación:

Se representará con un símbolo a cada una de las características

gramaticales. Tabla 4.1.

A las varias opciones dentro de cada característica gramatical se las

representa con una abreviatura. Tabla 4.2.

La representación lineal de toda la frase irá encerrada en corchetes,

dentro de estos entre paréntesis y separada con un “;”, se hará la

representación Universal de cada palabras, la cual va acompañada

con sus características gramaticales y la relación semántica55 o papel

que desenvuelve dentro de la frase, cada una encerrada en

paréntesis respectivamente.

54 La Representación Universal se trata de que a una palabra se le quita la ambigüedad, se expresa en el lenguaje inglés y se le adhiere sus características gramaticales lo que permite conocer el sentido de la misma.

55 Las relaciones que se usarán son las definidas en UNL, ya que hasta el momento es el sistema con mayor definición de este tipo de relaciones.



76

Tabla 4.1 Símbolos para Características Gramaticales

CARACTERISTICA GRAMATICAL SIMBOLO

Categoría Sintáctica @

Tiempo /

Persona $

Número #

Género %

Tabla 4.2 Abreviaturas para cada una de las opciones de las Características Gramaticales

CARACTERISTICA GRAMATICAL SIGNIFICADO ABREVIATURA

Categoría Sintáctica Sustantivo SUST

Adjetivo ADJ

Adverbio ADV

Verbo V

Tiempo Presente PRES

Pasado PAS

Futuro FUT

Persona Primera PP

Segunda SP

Tercera TP

Número Singular SING

Plural PLU

Género Femenino FEM

Masculino MASC

Tabla 4.3 Algunas Relaciones Semánticas (UNL)

RELACIÓN DESCRIPCIÓN

AGENTE Algo o alguien que inicia una acción.

CONDICION Estado o evento que está condicionado con otro estado.

LUGAR Lugar donde un evento ocurre.

NOMBRE Define el nombre de una cosa.

DURACIÓN El tiempo durante el cual ocurre un evento.

INSTRUMENTO Instrumento con el cual se realiza un evento.

OBJETO Algo que afecta directamente a un evento o estado.

CANTIDAD Cantidad de una cosa o unidad.

EVENTO Acción que realiza algún agente.

INCLUYE Concepto superior o mas general.



77

Un ejemplo de la representación lineal, en base a la gramática planteada:

Frase: “El gato juega con la pelota”

[(EVENTO) (play: @V, /PRES, $PP, #SING);

(AGENTE)(cat: @SUST,#SING,%MASC);

(INSTRUMENTO) (ballon: @SUST, #SING,%FEM)]

Luego de tener la representación lineal, vamos a la representación gráfica

mediante Redes Semánticas, se decidió usar grafos conceptuales para la

representación gráfica ya que como se mencionó en el Capitulo 2 las redes

semánticas permiten la representación del conocimiento y la descripción de las

estructuras del lenguaje natural mediante redes de Nodos (Redes IS-A basadas

en nodos etiquetados y dependencias entre ellos), Grafos conceptuales

(Modelos de información descrita mediante nodos de concepto y tipos de

relaciones) y Redes de Marcos (donde las puntos de unión de los enlaces son

parte de la etiqueta que describe al nodo).

Para ello se han definido en las redes semánticas Clases, Superclases, Subclases,

Herencias, Instancias, y otros conceptos que nos permiten establecer las reglas

para la correcta construcción de una red semántica que nos describa

adecuadamente un modelo de información determinado.

En nuestros grafos los Nodos de Concepto representan conceptos que en

nuestro caso serán las palabras individuales pertenecientes a la frase,

desambiguadas (acompañadas de sus características gramaticales), y los Nodos

de Relación (Arcos) representan las relaciones, relaciones semánticas que

como ya se mencionó anteriormente son las mismas que se han definido en UNL

las cuales permiten dar sentido, concordancia y empatar las palabras como un

todo56.

PASOS PARA CREAR EL GRAFO CONCEPTUAL

1. Crear su representación lineal en base a la gramática planteada.

56 Aquí, el término “todo” se usa para indicar una oración completa, no se considera párrafos, ni

un documento completo.



78

2. Crear un grafo conceptual para cada palabra de la frase, este grafo

esta creado a nivel de relaciones léxicas.

3. Unir los grafos creados anteriormente en un solo grafo conceptual.

mediante relaciones semánticas.

Un ejemplo de la representación gráfica, mediante un grafo conceptual, se usará

el mismo ejemplo anterior: “El gato juega con la pelota”

Grafo Conceptual correspondiente a la palabra “juega”

caract

GramVerbo Play

tiempo

Presente

persona

Primera

numero Singular

Figura 4.5 Grafo Conceptual de la palabra “juega”

Grafo Conceptual de la frase



79

caract

GramVerbo Play

tiempo

Presente

persona

Primera

numero Singular

Catcaract

Gram

Sustantivo

genero

Masculinonumero

Singular

Balloncaract

Gram

Sustantivo

genero

Femeninonumero

Singular

AGT INST

Figura 4.6 Grafo Conceptual de la frase “El gato juega con la pelota”

4.2 DISCUSIÓN

Este modelo que se ha planteado describe de manera sencilla y entendible las

características gramaticales de las palabras así como también las relaciones

semánticas entre estas, lo cual nos ha permitido llegar a una representación

formal del lenguaje.

Hemos tomado como base al sistema UNL por ser hasta el momento el único

sistema que ha buscado una representación universal del lenguaje obteniendo

excelentes resultados.

Las ventajas que presenta nuestro modelo son la sencillez y facilidad de

comprensión y puede ser reutilizado para otros trabajos como búsquedas,

traductores, integración con herramientas multilingües, etc.



80

5. CAPITULO

Conclusiones y Trabajos Futuros



81

En este capítulo final como resultado de esta tesis se presenta un análisis y

síntesis de lo investigado en los capítulos anteriores, así como también las

recomendaciones que podemos aportar en base a la experiencia obtenido en

este trabajo. Y finalmente se presenta algunas propuestas que se considera

deben ser tomados en cuenta como un trabajo a futuro.

5.1 Conclusiones

En la actualidad se trabaja mucho en la integración de la lingüística y la

computación, lo que ha creado una nueva línea de investigación la

Ingeniería Linguistica y por consiguiente resultados como el

mejoramiento y facilitación del intercambio de información y la creación

de una nueva área de aplicación.

Existen algunas técnicas de estructurar la información (Redes

semánticas,Taxonomías, Ontología, Metadatos), que son la base para el

tratamiento ordenado y coherente de la misma; el tener la información

organizada nos permite tener mayor facilidad para buscar patrones y

representaciones lo que es útil para la representación de la información

en diversas lenguas.

Hasta el momento los recursos léxicos que más han servido por poseer

una gran cantidad de datos y una estructura que permite ser útil en la

integración con alguna otra aplicación son Wordnet y Eurowordnet, a

más del alto grado de presición que podemos conseguir de estos.

UNL es un sistema que ha requerido de mucho trabajo con una gran

cantidad de personas, tiempo y financiamiento, y que hasta el momento

ha obtenido buenos resultados y abarca algunos lenguajes. Aún se

trabaja en su mejoramiento y en la integración de nuevos idiomas.

Los grafos tienen un gran potencial para representar de forma sencilla,

directa y entendible detalles especificos del lenguaje, lo que lo hacen un

metodo que facilita la comprención y el entendimiento, tanto de las

personas como de los sistemas que los vayan a tomar como entradas

para algun procesamiento.



82

Es muy dificultoso el tratamiento del lenguajes, por lo que se necesita de

de mucho esfuerzo, tiempo y conocimiento para poder llegar a realizar

un buen análisis.

La Representación universal lineal y mediante grafos se plantea como

una alternativa sencilla y fácil comprención, que puede ser reutilizada

para otros trabajos como Búsqueda de información, Traductores

multilingües, diseño de Interlingua, etc.

5.2 Recomendaciones

Se recomienda que para este tipo de investigaciones se conforme grupos

de trabajos con la intervención de personas entendidas en esta área a

más de personas del área técnica.

Delimitar los temas referentes al análisis del lenguaje, trabajar por

dominios ya que las cuestiones referentes a un idioma son muy amplias y

es casi imposible abarcar todas.

Hacer un estudio más minucioso de las técnicas de estructurar la

información par análisis la posibilidad de usar alguna otra en reemplazo

de los grafos conceptuales, la cual presente mejores resultados.

Brindar infraestructura, capacitaciones, libros a los estudiantes para

facilitar la investigación en estos temas nuevos.

5.3 Trabajos Futuros

Realizar un estudio de la estructura de UNL ya que esta es muy amplia e

implica invertir trabajo y tiempo en conocerlo a fondo para poder

reutilizar o integrar con nuevas aplicaciones.

Estudiar o crear alguna herramienta que permita transformar la

descripción lineal a grafos conceptuales.

Trabajar en la conversión de los Grafos Conceptuales a ontologías ya que

este es un recurso que actualmente es muy utilizado y presenta mejores

ventajas.



83

Estudiar la posibilidad de agrupar los grafos y con esto poder analizar no

solo frases sino textos o documentos.

Crear sistemas multilingües como traductores, recuperación de

información que reutilicen este modelo.



84

REFERENCIAS

1. Grimes, Barbara. F. (1996). Ethnologue Lenguajes del Mundo. Summer

Institute of Linguistics Inc.

2. Statistics, U. a. (s.f.). Internet World Stats. Recuperado el 31 de Diciembre

de 2009, de http://www.internetworldstats.com/

3. María Antonia, M. J. La Ingeniería Linguística para la sociedad de la

información. Revista digital Universidad Oberta de Catalunya.

4. Gómez, M. M. (2009). Minería de Texto: Un nuevo reto computacional.

Laboratorio de Lenguaje Natural, Centro de Investigación en

Computación.

5. MARÍA ANTÒNIA MARTÍ ANTONÍN Y JOAQUIM LLISTERRI. Revista

digital, La ingeniería lingüística para la sociedad de la información:

http://www.uoc.edu/humfil/articles/esp/llisterri-marti/llisterri-

marti_imp.html

6. Raisa Socorro, A. S. (s.f.). Las ontologías en la representación del

conocimiento.

7. Sowa, J. F. (s.f.). Semantic Networks.

8. Ocaña, A. B. (Junio-Julio de 2009). Aproximación de una taxonomía de

modelos de gestión del conocimiento. Uiversidad Nacional Autónoma de

México, UNAM , 37.

9. Santillan, J. (2006). LA INDIZACIÓN ASISTIDA PARA EL MANEJO DE

CONOCIMIENTO EN ORGANIZACIONES FRENTE AL TRATAMIENTO

DOCUMENTAL EN BIBLIOTECAS. (J. S. Aldeana, Ed.) Biblios: Revista de

Bibliotecología y Ciencias de la Información , 7 (23), 12.

10. Antonio Vaquero Sánchez, F. A. (s.f.). Aprendizaje de conceptos

linguísticos construyendo diccionarios basados en taxonomías con

estructura de grafos orientado acíclica. Facultad de Informática de la

Universidad Complutense de Madrid.



85

11. Information Intelligence: Content Classification and the Enterprise

Taxonomy Practice. (Junio de 2004). Delphi Group, Perot System

Company.

12. Sílvia Argudo, M. C. (2005). Metodología para el diseño de Taxonomías

Corporativas. INVESTIGACIÓN BIBLIOTECOLÓGICA , 19 (39).

13. Blackburn, B. (May-June de 2006). Taxonomy Disign Types. As Appeared

in AIIM e-Doc .

14. Angel Cobo Ortega, R. R. (2009). Descubrimiento de conocimiento en

repositorios documentales mediante técnicas de minería de Texto y

Swarm Intelligence. Universidad de Catambria.

15. Convertini V., l. D. (2006). The OSEL Taxonomy for the Classification of

Learning Objects.

16. Library of Congress. (s.f.). Recuperado el 25 de Junio de 2010, de

Standars at the Library of Congress: http://www.loc.gov/standards/

17. Juan Ignacio Rouyet, V. M. (s.f.). A comparative study of the metadata in

SCORM and Dublin Core.

18. Josuka Díaz Labrador, Inés Jacob Taquet, Fernando Quintana Hernández,

Joseba Abaitua Odriozola, Garikoitz Araolaza, Guillermo Barrutieta.

Gestión de traducciones mediante metadatos TEI y XLIFF.

19. Virginia Ortiz, R. J. (s.f.). Nuevas perspectivas para la catalogación:

METADATOS VERSUS MARC.

20. López, A. G. (2005). XI Conferencia de la Asociación española para la

Inteligencia Artificial. En O. Corcho (Ed.), CAEPIA 2005, (pág. 100).

21. Guadalupe Aguado de Cea, E. M. (s.f.). Multilingualidad en una aplicación

basada en el conocimiento. Ontology Engineering Group (OEG) –

Universidad Politécnica de Madrid.

22. Haliuska Hernández Ramírez, M. S. (s.f.). Ontologías mixtas para la

representación conceptual de objetos de aprendizaje.



86

23. ZAPATER, J. J. (2005). ONTOLOGÍAS PARA SERVICIOS WEB SEMÁNTICOS

DE INFORMACIÓN DE TRÁFICO: DESCRIPCIÓN Y HERRAMIENTAS DE

EXPLOTACIÓN. Valencia, Spain: Universidad de Valencia.

24. Ana Ma. Fermoso García, S. S. (s.f.). Una ontología en OWL para la

representación semántica de objetos de aprendizaje.

25. Graciela Barchini, M. Á. (2006). SISTEMAS DE INFORMACIÓN: NUEVOS

ESCENARIOS BASADOS EN ONTOLOGÍAS INFORMATION SYSTEMS :

NEW ONTOLOGY-BASED SCENARIOS. (U. N. Facultad de Ciencias Exactas

y Tecnologías, Ed.) Revista de Gestão da Tecnologia e Sistemas de

Informação Journal of Information Systems and Technology Management

, Vol. 3 (No. 1), 18.

26. Msc. Juan José Prada, S. C. (2006-2007). Recuperación de la información

Bilingue en la Web Semántica. Instituto de Computación-Facultad de

Ingeniería UDELAR .

27. Aguado de Cea G, M.-P. E. (Abril de 2007). Providing multilinguality to

ontologies: An overview. Ontology Engineering Group, Laboratorio de

Inteligencia Artificial .

28. Facultad de Informática Universida Politécnica de Madrid. (s.f.).

Recuperado el 1 de Julio de 2010, de

http://www.fi.upm.es/?id=tablon&acciongt=consulta1&idet=500.

29. Bonnie J. Dorr, E. H. (2006). Machine Translation: Interlingual Methods.

Encyclopedia of Language and Linguistics, 2nd ed. (ELL2).

30. Carlos Zapata, S. B. (2009). Interlengua: Análisis crítico de la Literatura.

Revista Facultad de Ingeniería Universidad de Antoquia .

31. Uchid, H. (1989). ATLAS II: A Machine Translation System Using. Fujitsu

Laboratories Ltd., Japan .

32. Joseba Abaitua, E. C. (1991). EL MÓDULO LÉXICO EN EL SISTEMA ATLAS.

PROCESAMIENTO DE LENGUAJE NATURAL , 23-39.

33. Jesus Cardeñoa, E. T. (2002). El sistema UNL – Universal Networking

Language. Procesamiento de Lenguaje Natural (29), 285-286.

34. Adriana, G. M. (s.f.). Sintaxe da construcao de palavras. Especificacoes.

Atributos e relacoes. Exemplos.



87

35. Sangharsh Boudhh, P. B. (s.f.). Unification of Universal Word dictionaries

Using WordNet Ontology and Similarity Measures. Center for Indian

Language Technology (CFILT).

36. Hallebeek, J. (s.f.). El Corpus Paralelo. Departamento de Español-

Universidad de Nijmegen Erasmusplein .

37. Ordoñez, P. (s.f.). PROYECTO GENTT. INVESTIGACIÓN EN TRADUCCIÓN:

GÉNEROS Y CORPUS.

38. García, J. L. (2006). TESAUROS Y LENGUAJES CONTROLADOS EN

INTERNET. Red de Revistas Científicas de América Latina y el Caribe,

España y Portugal , 09.

39. Macía, M. (s.f.). El tesauro EUROVOC.

40. Troyano, J. A. (s.f.). Wordnet. Universidad de Sevilla.

41. Romo, M. S. (s.f.). Inteligencia en Redes de Comunicaciones. Obtenido de

http://www.it.uc3m.es/jvillena/irc/practicas/estudios/WordNet.pdf.

42. Pérez, S. V. (2009). Resolución de la ambigüedad semántica mediante

métodos basados en conocimiento y su aportación a tareas de PLN.

Departamento de Lenguas y sistemas informáticos, Universidad de

Alicante, 292.

43. Ernesto William De Luca, A. N. (s.f.). LexiRes: A Tool for Exploring and

Restructuring EuroWordNet for Information Retrieval.

44. deCea, D. G. (s.f.). Terminología, Ontologías y Multiligualidad. Punto y

Coma, Suplemento VIII jornada de AETER, págs. 2-11. Boletín de los

traductores españoles de las instituciones de la Unión Europea.

45. http://odur.let.rug.nl/~vannoord/TextCat/Demo/

46. José R. Hilera, L. B. (s.f.). Aplicación de técnicas de Ingeniería Lingüística

en sistemas de e-learning basados en objetos de aprendizaje.

Universidad de Alcalá, Departamento de Ciencias de la Computación.

47. Carlos Zapata, S. B. (2009). Interlengua: Análisis crítico de la Literatura.

Revista Facultad de Ingeniería Universidad de Antoquia.



88

48. Peis Redondo, H. M. (s.f.). Ontologías, metadatos y agentes: recuperación

“semántica” de la información.

49. deCea, D. G. (s.f.). Ontologíasymultilingualidad.

OntologicalEngineeringGroup Facultad de Informática Universidad

Politécnica de Madrid .

50. Natural, P. d. (2007). Tratamiento de la información Multilingüe y

Multimodal. Monográfico, Red Temática. (38).

51. Cuadros, M. (Marzo de 2008). Base de Conocimiento Multilingüe para el

Procesamiento Semántico a Gran Escala. Procesamiento del lenguaje

Natural .

52. Ángel, C. O., & Ro, R. B. (s.f.). Desarrollo de una aplicación para la gestión,

clasificación y agrupamiento de documentos económicos con algoritmos

bio-inspirados. Universidad de Cantabria .

53. Jesús Cardeñosa, A. G. (2005). Universal Networking Language: Advances

in Theory and Applications. Volume 12, 500.



89

ABREVIATURAS

LC. Lingüística Computacional

SI. Sistemas de Información

EWN. Eurowordnet

STASIS. Software for Ambient Semantic interoperable Systems

UW. Palabras Universales

UNAM. Universidad Nacional Autónoma de México.

AVE. Aula Virtual de España

OA. Objetos de Aprendizaje

OMS. Organización Mundial de la Salud

FAO. Organización de las Naciones Unidas para la Agricultura y la Organización

TA. Traducción Automática

IA. Inteligencia Artificial

UNL. Universal Networking Language

PLN. Procesamiento de Lenguaje Natural

LOM. Learning Object Metadata

DCMI. Dublin Core Metadata Initiative

IMS. Instructional Management System

TEI. Text Encoding Initiative

METS. Metadata Encoding & Transmission Standard

MODS. Metadata Object Description Schema

SCORM. Sharable Content Object Reference Model.

FMI. Fondo Monetario Internacional

IEEE. Institute of Electrical and Electronics Engineers

IETF. Internet Engineering Task Force

ISO. International Standards Organization



90

XML. Extensible Markup Language

LMS. Learning Management System.



91

ANEXOS

Anexo A. Descripción de Metadato LOM

CATEGORIA DESCRIPCIÓN

GENERAL

Descripción general del documento. 9 subcategorías

(granularidad, idioma, estructura, título, identificador, catálogo,

entrada, descripción, palabra clave y nivel de agregación).

CICLO DE VIDA Historia y estado actual de la producción y mantenimiento de

información. Subcategorías (versión, estado y contribución).

META

METADATOS

Información de metadatos. Subcategorías (lengua,

identificador, contribución y esquema).

TÉCNICA

Información técnica requerida por el objeto (formato, tamaño,

ubicación, requisitos, pautas de instalación, otros requisitos y

duración)

EDUCATIVO

Características educativas y pedagógicas del objeto.

Subcategorías (contexto, descripción, lengua, tipo de recurso de

aprendizaje, densidad semántica, destinatario, rango de edad,

dificultad y tiempo de aprendizaje).

DERECHOS

Derechos de propiedad intelectual, costo, condiciones de uso,

otras descripciones. Subcategorías (costo, derechos de autor y

descripción).

RELACIÓN Relación con y entre materiales, tipo de relación, documento

principal Subcategorías (tipo y recurso).

OBSERVACIÓN

Anotaciones y comentarios sobre material educativo,

información de quien y cuando se realizó el comentario.

Subcategorías (entidad, fecha y descripción).

CLASIFICACIÓN

describe donde se sitúa este objeto dentro de un sistema de

clasificación completo. Subcategorías (taxonomías, finalidad,

descripción y palabras claves).



92

Anexo B. Descripción del Metadato DCMI


TÍTULO Título del documento, si el recurso no tiene título (imagen,

objeto) se debe describir mediante una frase.

AUTOR Nombre de las personas que tengan responsabilidad y

derecho intelectual en la creación del recurso.

COLABORADOR Otras personas que están relacionadas directamente con el

objeto, que han contribuido a su creación.

EDITOR Persona u objeto encargada de la edición del recurso.

FECHA DE

PUBLICACIÓN Fecha a partir del cual el objeto está disponible.

IDENTIFICADOR Identificador del objeto (cualificador).

MATERIA Tema del documento, área.

DESCRIPCIÓN Descripción del recurso, puede ser resumen, palabras claves,

tablas, etc.

COBERTURA Características espaciales y temporales del objeto.

TIPO DE RECURSO

Para especificar el género del objeto (novela, poesía), como

su forma interna (diccionario, tesauro) o su propósito

(borrador, versión definitiva).

IDIOMA Lenguaje en el que está el recurso.

FORMATO Software y hardware necesario para que el recurso opere.

FUENTE

Otras etiquetas que permitan vincular al recurso con sus

versiones anteriores, o con documentos que permitieron su

origen.

RELACIÓN Referencia a un recurso relacionado.

DERECHOS Derechos de propiedad intelectual y del recurso mismo.



93

Anexo C. Descripción del Metadato METS


CABECERA METS Describe el mismo documento METS, abarca datos como

autor, fecha de creación, etc.

METADATO

DESCRIPTIVO

Contiene metadatos descriptivos externos si se hace

referencia a recurso de otros repositorios, o metadatos

descriptivos internos si se trata del mismo documento

METS, puede haber una combinación de ambos.

METADATO

ADMINISTRATIVO

Información de la creación y almacenamiento de los

archivos q componen al objeto digital, metadatos del

recurso original, pueden ser externos o codificarse dentro

del mismo documento METS.

ARCHIVO Lista todos los archivos que forman parte del objeto

digital.

MAPA ESTRUCTURAL

Parte principal del documento, describe la estructura

jerárquica del objeto digital, enlaza las secciones con los

archivos.

ENLACE

ESTRUCTURAL

Registra los enlaces de las secciones del mapa estructural,

muy útil cuando se tiene referencias a sitios web.

COMPORTAMIENTO Asocia comportamientos ejecutables incluidos en un

documento METS.

Date post:	02-Nov-2018
Category:	Documents
Upload:	ledang
View:	220 times
Download:	0 times

UNIVERSIDAD TÉCNICA PARTICULAR DE...

Documents