Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
I
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja
MODALIDAD CLÁSICA
ESCUELA DE CIENCIAS DE LA COMPUTACIÓN
DEFINICIÓN DE UNA TÉCNICA DE REPRESENTACIÓN
UNIVERSAL DEL LENGUAJE
Trabajo de fin de carrera previo a la
obtención del título de Ingeniera en
Sistemas Informáticos y Computación.
AUTORA:
Encalada Elizalde Elba Elizabeth
DIRECTORA:
Ing. Guido Riofrío
LOJA
2010
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
II
CERTIFICACIÓN
Ing.
Guido Riofrío
DIRECTOR DEL PROYECTO DE FIN DE CARRERA
C E R T I F I C O:
Que el presente trabajo de fin de carrera previo a la obtención del título de
Ingeniera en Sistemas Informáticos y Computación, titulado “DEFINICIÓN DE UNA
TÉCNICA DE REPRESENTACIÓN UNIVERSAL DEL LENGUAJE” realizado por la
profesional en formación ENCALADA ELIZALDE ELBA ELIZABETH ha sido
orientado, revisado y corregido bajo mi dirección por lo que autorizo su
presentación.
Loja, 13 de Noviembre del 2010.
f) . . . . . . . . . . . . . . . . . . . .
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
III
CERTIFICACIÓN
Ing.
Manuel Sucunuta
CODIRECTOR DEL PROYECTO DE FIN DE CARRERA
C E R T I F I C O:
Que el presente trabajo de fin de carrera previo a la obtención del título de
Ingeniera en Sistemas Informáticos y Computación, titulado “DEFINICIÓN DE
UNA TÉCNICA DE REPRESENTACIÓN UNIVERSAL DEL LENGUAJE” realizado
por la profesional en formación ENCALADA ELIZALDE ELBA ELIZABETH ha
sido orientado, revisado y corregido bajo mi dirección por lo que autorizo su
presentación.
Loja, 13 de Noviembre del 2010.
f) . . . . . . . . . . . . . . . . . . . .
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
IV
DECLARACIÓN Y CESIÓN DE DERECHOS
“Yo Elba Elizabeth Encalada Elizalde declaro ser autora del presente trabajo y
eximo expresamente a la Universidad Técnica Particular de Loja y a sus
representantes legales de posibles reclamos o acciones legales.
Adicionalmente declaro conocer y aceptar la disposición del Art. 67 del Estatuto
Orgánico de la Universidad Técnica Particular de Loja que en su parte
pertinente textualmente dice: “Forman parte del patrimonio de la Universidad
la propiedad intelectual de investigaciones, trabajos científicos o técnicos y tesis
de grado que se realicen a través, o con el apoyo financiero, académico o
institucional (operativo) de la Universidad”
f. ..............................................................
Autor
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
V
AUTORÍA
Las ideas, conceptos, procedimientos y resultados vertidos en el presente
trabajo, son de exclusiva responsabilidad del autor.
………………………………..
Elba Elizabeth Encalada Elizalde
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
VI
DEDICATORIA
A mi adorada madre, la persona que con amor, comprensión y disciplina ha
guiado mi vida en cada momento y con su sacrifico y trabajo a sabido apoyarme
en todo cuanto ha sido necesario y por esto y más ha sabido ganarse mi amor y
respeto, también a mi padre que con su ejemplo ha sabido enseñarnos a ser
humildes y responsables en nuestras vidas.
A mis hermanos Manuel, Hernán, Danny, Diego y Santi por su apoyo, respeto y
cariño durante toda mi vida.
Y a unas personitas que han llegado a alegrar mi vida con sus sonrisas, y que han
sido fuente de inspiración para poder alcanzar este logro, mis sobrinos Cami,
Sebas, Sami y Majito.
Nena
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
VII
AGRADECIMIENTO
Agradezco a Dios quien me regaló la vida y junto con ella a la familia que tengo,
por darme la oportunidad de prepararme y por su amor que lo he sentido en
cada instante de mi vida y ha sido mi aliento para seguir en los momentos más
difíciles.
A mis padres Gabriel y Gloria por su apoyo incondicional en cada momento de
mi vida estudiantil, de la misma manera al resto de la familia.
A mis profesores quienes desinteresadamente han aportado en mi formación
académica compartiéndome sus conocimientos durante estos cinco años de
preparación. Y de manera especial al Ing. Guido Riofrío Director de este trabajo
por su apoyo, aliento y amistad.
Agradecer también a mis amigos Margarita, Fabricio y Paty quienes fueron
siempre mi apoyo, mi compañía y mi fuerza para poder llegar al final de este
camino, sin olvidar los momentos de alegría y las risas que siempre nos
ayudaron a sobrellevar los momentos más duros de nuestra carrera.
Loja, 2010
Elba Encalada Elizalde
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
VIII
Índice General
Certificación……………………………………………………………………………………...…………. II
Declaración y Gestión de derechos…………………………………………...……………..…… IV
Autoría…………………………………………………………………………............................................ V
Dedicatoria……………………………………………………………………………………..…………... VI
Agradecimiento……………………………...……………………………….………………………..... VII
Índice de Contenidos …………,,……………………………………………………………...………. IX
Índice de Figuras ………………………………………………………….…………………….……… XII
Índice de Tablas…………………………………………………………………………….…..……… XIV
Resumen………………………...………………………………………………………….………............... 1
Introducción………...…………………………………………………………………..…………….......... 2
Objetivo General………………………………………………………………………………………....... 5
Objetivos Específicos……………………………………………………………………………………. 5
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
IX
Índice de Contenidos 1. CAPÍTULO ................................................................................................................................. 6
1.1 INTRODUCCIÓN ................................................................................................................ 7
1.2 LINGÜÍSTICA ...................................................................................................................... 7
1.3 INGENIERÍA LINGÜÍSTICA ........................................................................................... 8
1.4 LINGÜÍSTICA COMPUTACIONAL ............................................................................. 10
1.4.1 Áreas de la Lingüística Computacional ....................................................... 12
1.5 ASPECTOS DEL LENGUAJE ........................................................................................ 12
1.6 TECNOLOGÍAS DEL TEXTO ESCRITO .................................................................... 13
2. CAPITULO .............................................................................................................................. 16
La Web Semántica ..................................................................................................................... 18
2.1 REDES SEMÁNTICAS .................................................................................................... 19
2.1.1 Categorías de Redes Semánticas .................................................................... 20
2.2 TAXONOMÍAS.................................................................................................................. 21
2.2.1 Tipos de Taxonomías: ........................................................................................ 23
2.2.2 Ejemplos de Taxonomías: ................................................................................. 24
2.3 METADATOS ................................................................................................................... 25
2.3.1 Características de los Metadatos: .................................................................. 26
2.3.2 Tipos de Metadatos: ............................................................................................ 26
2.3.3 Modelos de Metadatos: ...................................................................................... 27
2.4 ONTOLOGÍAS: ................................................................................................................. 33
2.4.1 Componentes de una Ontología: .................................................................... 36
2.4.2 Clasificación de Ontologías: ............................................................................. 37
2.4.3 Desarrollo de una Ontología: ........................................................................... 38
2.4.4 Lenguajes de Ontologías: .................................................................................. 39
2.5 DISCUSIÓN ....................................................................................................................... 39
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
X
3. CAPITULO .............................................................................................................................. 41
Tecnologías Existentes ........................................................................................................... 41
3.1 ONTOLOGÍAS MULTILINGÜES: ................................................................................ 42
3.2 INTERLINGUA ................................................................................................................. 45
3.3 RECURSOS LINGÜÍSTICOS ......................................................................................... 51
3.3.1 Corpus ...................................................................................................................... 51
3.3.2 Tesauros .................................................................................................................. 53
3.3.3 Glosarios .................................................................................................................. 55
3.3.4 Wordnet ................................................................................................................... 56
3.3.5 Eurowordnet ......................................................................................................... 61
3.4 PROYECTOS RELACIONADOS Y APLICACIONES QUE PRESENTAN
MULTILINGUISMO .................................................................................................................. 65
3.4.1 GENOMA KB ........................................................................................................... 65
3.4.2 AGROVOC ................................................................................................................ 66
3.4.3 LIR .............................................................................................................................. 67
3.4.4 STASIS ...................................................................................................................... 67
3.5 Discusión .......................................................................................................................... 68
4. CAPITULO .............................................................................................................................. 69
4.1 DESCRIPCIÓN DE ARQUITECTURA ........................................................................ 71
4.1.1 Identificación del Lenguaje .............................................................................. 71
4.1.2 Análisis ..................................................................................................................... 72
4.1.3 Búsqueda (Wordnet) .......................................................................................... 73
4.1.4 Correspondencia de Lenguaje ........................................................................ 73
4.1.5 Representación Universal: ............................................................................... 74
4.2 DISCUSIÓN ....................................................................................................................... 79
5. CAPITULO .............................................................................................................................. 80
Conclusiones y Trabajos Futuros ..................................................................................... 80
5.1 Conclusiones ................................................................................................................... 81
5.2 Recomendaciones ......................................................................................................... 82
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
XI
5.3 Trabajos Futuros ........................................................................................................... 82
REFERENCIAS ............................................................................................................................... 84
ABREVIATURAS ........................................................................................................................... 89
ANEXOS ........................................................................................................................................... 91
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
XII
Índice de Figuras Figura 1.1 Antecedentes y áreas de la Lingüística Computacional [4] ...................... 11
Figura 3.1 Arquitectura Lor@, Ontología Interlingua [19]. .......................................... 43
Figura 3.2 Arquitectura de la TA basada en Interlingua [48]....................................... 46
Figura 3.3 Proceso de Traducción de ATLASII. [49] ......................................................... 48
Figura 3.4 Categorización de Palabras Universales [52] ................................................ 50
Figura 3.5 Ejemplo de representación de una UW en UNL. [47] .................................. 50
Figura 3.6 Matriz de Vocabulario en Wordnet [53] ......................................................... 57
Figura 3.7 Sentidos del sustantivo Car (Wordnet 2.0) ..................................................... 57
Figura 3.8 Sinónimos de house................................................................................................. 58
Figura 3.9 Antónimos de Clean ................................................................................................ 58
Figura 3.10 Hipónimos de dog. ................................................................................................ 59
Figura 3.11 Hiperónimos de dog ............................................................................................. 59
Figura 3.12 Holónimo de hand................................................................................................. 60
Figura 3.13 Merónimo de hand................................................................................................ 60
Figura 3.14 Ejemplo de un Sysnet [50] .................................................................................. 61
Figura 3.15 Descripción de ILI ................................................................................................. 63
Figura 3.16 Ejemplo de ILI ........................................................................................................ 64
Figura 3.17 Arquitectura de GENOMA KB [34] .................................................................. 66
Figura 4.1 Arquitectura Multilingüe para Representación Universal del Lenguaje
............................................................................................................................................................. 70
Figura 4.2 Ejemplo Herramienta RLI .................................................................................... 72
Figura 4.3 Recursos para la correspondencia de palabras ............................................ 74
Figura 4.4 Ejemplo de representación Universal de una frase ..................................... 74
Figura 4.5 Grafo Conceptual de la palabra “juega” .......................................................... 78
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
XIII
Figura 4.6 Grafo Conceptual de la frase “El gato juega con la pelota” ...................... 79
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
XIV
Índice de Tablas Tabla 1.1 Distribución de Idiomas por Continente [1] ........................................................ 3
Tabla 4.1 Símbolos para Características Gramaticales................................................... 76
Tabla 4.2 Abreviaturas para cada una de las opciones de las Características
Gramaticales .................................................................................................................................. 76
Tabla 4.3 Algunas Relaciones Semánticas (UNL) .............................................................. 76
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
XV
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
1
RESUMEN
La necesidad de intercambiar información en actividades como investigación,
educación, negocios, intercambio de cultura, etc. ha crecido constantemente. Es
muy difícil obligar a las personas aprender los múltiples idiomas que son
alrededor de 6000 en todo el mundo, más bien lo que se ha estado buscando
como solución y aprovechando la tecnología actual es brindar sistemas
multilingües que faciliten dicha actividad, ahorrando dinero, tiempo y sobre
todo esfuerzo por parte de nosotros las personas.
De esta necesidad parte la presente investigación, en la cual se pretende buscar
una solución que permita eliminar las barreras lingüísticas que limitan el uso de
la información creando una Representación Universal del Lenguaje para facilitar
el paso de un idioma a otro, empleando métodos y técnicas que ya se han
usando para el tratamiento de la información.
Para llegar a esta Representación Universal hemos definido un modelo que usa
dos recursos lingüísticos muy conocidos como es Wordnet y Eurowordnet. Así
como también las Redes Semánticas, específicamente los Grafos Conceptuales
para la representación antes mencionada.
Este trabajo de investigación está estructurado en cinco capítulos: el Capítulo 1
comprende un estado del arte de las tecnologías del lenguaje en donde se
describe los aspectos generales del lenguaje y la tecnología computacional. En el
Capítulo 2 se describe las técnicas o métodos que se usan para la representación
de la información con eso se pretende conocer las maneras de organizar la
información para facilitar y mejorar su tratamiento y reutilización por parte de
otras aplicaciones. En el Capítulo 3 se describen las Tecnologías Existentes que
se han usado para manejar el multilingüismo, así como los proyectos, sistemas e
investigaciones que se han hecho en cada una de estas. En el Capítulo 4 se ha
planteado un modelo que pretende cumplir con el objetivo de esta tesis que es
plantear un técnica de Representación Universal del Lenguaje y su respectiva
descripción. Y para finalizar en el Capítulo 5 se presentan las conclusiones y
recomendaciones de este trabajo, así como también los trabajos que creemos
necesarios deben realizarse en un futuro.
Palabras claves: multilingüismo, lenguaje, Representación Universal del
Lenguaje, red semántica.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
2
INTRODUCCIÓN
La necesidad de traducir un texto de un idioma a otro ha surgido desde hace
mucho tiempo, por diversas razones ya sean comerciales, educativas, políticas y
religiosas; según la historia esta última fue una de las primeras ramas que tuvo
la necesidad de realizar una traducción, surgió la necesidad de traducir la biblia
del Hebreo al Griego, ya que la mayoría de las personas hablaban este idioma.
En la actualidad el hecho de compartir información es una actividad que se ha
vuelto muy usual, con el crecimiento rápido de internet la comunicación entre
personas de diferentes lenguas cada día es más común y más necesaria. A más
de esto los trabajos e investigaciones actualmente se realizan entre
investigadores de diferentes partes del mundo para lo cual deben intercambiar
constantemente documentos en distintos formatos e idiomas a más de las
nuevas palabras que estos generan e imponen a la sociedad.
Las diferentes instituciones son las más afectadas por las barreras lingüísticas
ya que hacen grandes inversiones en traducir información y crear sistemas que
se adecuen a su institución. “Las instituciones europeas se gastan cada año 1.000
millones de euros en la traducción de documentos o en la interpretación de
discursos. Las empresas europeas se gastan también millones de euros sólo para
entenderse y hacer transacciones comerciales con empresas de otros países de la
Unión Europea”1.
La lengua es el medio que nos permite la exploración y explotación de
información, pero para poder manipular esta información debemos
necesariamente conocer las características propias de cada idioma en el que
está representada, esto es conocimientos léxico, sintáctico, semántico. Como
sabemos no es fácil aprender todas estas características de todos los idiomas
que existen en el mundo, ya que son demasiados. Según las estadísticas de
Ethnologue expuestas en [1] se habla de la existencia de aproximadas 6.800
1Morales, R. (7 de Mayo de 2008). Tendencias Informáticas. Recuperado el Diciembre de 2009,
de http://www.tendencias21.net/Crean-un-sistema-de-traduccion-automatica-preciso-y-mas-fiable_a2248.html
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
3
idiomas distribuidos en 220 países, en la siguiente tabla se detallan según los
continentes:
Tabla 1.1 Distribución de Idiomas por Continente [1]
Continente Población Lenguas Vivas Porcentaje
África 780 millones 2011 30%
América 828 millones 1000 15%
Asia 3,6 millones 2165 33%
Europa 728 millones 225 3%
Pacífico 30 millones 1302 19%
Total 6 mil millones 6703 100%
Un medio que en la actualidad se ha vuelto muy importante para compartir
información es Internet, y como es de esperarse los múltiples idiomas son una
barrera para poder entender, usar la información y aprovechar las actividades
que este nos ofrece. En [2] podemos observar la distribución de los usuarios de
internet según los Idiomas, en donde podemos observar que el mayor número
de usuario son usuarios que manejan información en inglés, seguido del Chino,
Español y Japonés.
Por estas razones se han venido realizando varios proyectos e investigaciones
las cuales tratan de dar solución a este gran inconveniente de comunicación,
como los traductores los cuales en un inicio eran la única vía de poder buscar u
obtener una palabra equivalente de un idioma a otro, pero su limitación era la
poca exactitud en los resultados. Luego se han construido otras alternativas
como tesauros, ontologías multilingües, lexicones, etc. los cuales se estudiarán
en el desarrollo de esta investigación.
Las más recientes investigaciones se han acercado a crear herramientas,
métodos y técnicas para representar un lenguaje universal que sirva de puente
de comunicación entre las diferentes lenguas, de tal manera que se elimine esta
brecha de comunicación. Este lenguaje Universal, se concibe como un lenguajes
en el cual las palabras o frases están representadas como su nombre mismo lo
indica, de manera Universal, entendiéndose esta como un estándar al cual se
llega y del cual se parte a y desde los diferentes idiomas. Lo que se pretende
lograr con la creación de una Representación Universal del Lenguaje es mejorar
el acceso a la información por parte de los múltiples usuarios lo que puede traer
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
4
como consecuencia el mejoramiento en la educación, robustecer y facilitar las
relaciones comerciales en todo el mundo, crear una cultura global, etc.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
5
OBJETIVO GENERAL
Diseñar una técnica de representación lingüística de carácter universal.
OBJETIVOS ESPECÍFICOS
Investigar los aspectos generales de la lingüística y su relación con las tecnologías computacionales existentes.
Conocer las diferentes formas de estructurar la información las cuales
faciliten su organización, tratamiento y reutilización.
Analizar las Tecnologías existentes hasta el momento y que permiten incorporar multilingüismo.
Investigar los Recursos Lingüísticos que puedan ser reutilizados para
cumplir con el objetivo principal de esta tesis.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
6
1. CAPÍTULO
Aspectos Generales de las Tecnologías del
Lenguaje
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
7
1.1 INTRODUCCIÓN
Uno de los grandes campos de investigación en la actualidad es la Lingüística,
como una disciplina que a más de la importancia y relevancia que tiene para la
comunicación y el intercambio de información de la humanidad está generando
grandes ingresos a las personas y empresas que se han dedicado a su estudio,
explotación y creación de herramientas con el objetivo de minimizar su impacto
en las actividades que a diario son realizadas por el ser humano.
Para poder tener esta evolución y gran acogida la Lingüística se ha valido del
apoyo de otras grandes áreas como es la Informática, con la cual realiza un
trabajo interdisciplinar y el cual le ha dado una gran ayudada en la creación de
herramientas que facilitan su manejo. Estas herramientas también han ayudado
a personas con discapacidades visuales a aprender el lenguaje, a expresarse, y a
desarrollarse de una manera más cómoda y justa.
En Europa es en donde se ha dado mayor atención e investigación a este tema,
especialmente en España2 en donde se han creado grupos de investigación en
Universidades, proyectos de ingeniería lingüística financiados por programas
como EUREKA, COST, ACTS, TIDE. En América, México es también un país que se
ha interesado en el tema, específicamente la UNAM quien tiene varios proyectos
en desarrollo a través del Grupo de Ingeniería Lingüística3.
1.2 LINGÜÍSTICA
Lingüística es el estudio científico tanto de la estructura de las lenguas naturales
como del conocimiento que los hablantes poseen de ellas.
La lingüística puede dividirse en:
Lingüística Sincrónica que describe la lengua tal y como está en un
momento dado.
2 Cervantes, C. V. (s.f.). Ingeniería Lingüística en España. Análisis Comparativo. Recuperado el Diciembre de 2009 de http://cvc.cervantes.es/lengua/anuario/anuario_98/llisterri/llisterri_04.htm 3 Instituto de Ingeniería UNAM, Grupo de Ingeniería Lingüística (GIL)http://www.iling.unam.mx
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
8
Lingüística Diacrónica se centra en el desarrollo histórico y en los
cambios estructurales que ha tenido dicha lengua.
Lingüística Teórica es la construcción de la estructura general de una
lengua
Lingüística Aplicada es la aplicación de técnicas a las tareas básicas
para la elaboración de métodos que ayuden al aprendizaje de la lengua.
Lingüística Micro-lingüística se refiere al provecho propio que
podemos sacar personalmente de la lengua.
Lingüística Macro-lingüística en cambio se enmarca en todos los
aspectos de la lengua. Estas dos últimas no están bien definidas aún.
1.3 INGENIERÍA LINGÜÍSTICA
Disciplina en la que se emplean los conocimientos de las lenguas en el
desarrollo de sistemas informáticos que puedan reconocer, comprender,
interpretar y generar lenguaje humano en todas sus formas. Su principal
objetivo es proporcionar los medios para mejorar y ampliar la utilización de la
lengua. Se basa en el uso de técnicas para manipulación de la lengua y de
recursos lingüísticos como bases del conocimiento, para acceder a estos se vale
de programas informáticos [3].
Impulsada no solo por instituciones educativas, sino más bien en la actualidad
por organizaciones de las industrias privadas y comerciales. Su principal
características es el ámbito comercial, ya que en pocos años esta tendrá una
influencia masiva en la presentación de las civilizaciones, la cultura, la
educación. El mercado que se creará será de gran acogida y beneficio para los
turistas, investigadores, estudiantes, y más personas que se interesen por
conocer la historia de otros pueblos y los estudios e investigaciones de
diferentes partes del mundo.
En la actualidad los estudios que se están realizando están orientados a la
educación, la enseñanza y la edición, y en gran parte están orientados a la
recuperación de la información con el objetivo de hacer búsquedas rápidas, más
exactas (información relevante) y que la información sea presentada con un
orden de prioridad adecuado.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
9
A continuación presentamos algunas áreas de las que se encarga la Ingeniería
Lingüística:
Reconocimiento, Captura y Búsqueda de Información.
Reconocimiento automático del Habla
Conversión de Texto a Habla, y viceversa.
Conversión Digital del Habla y Música.
Traducción.
Nuevo Métodos de Comunicación: hipervínculos, metalenguajes, etc.
En la Web existen algunas herramientas que nos ayudan a realizar un análisis
dentro de la Ingeniería lingüística. DAEDALUS4 es una empresa dedicada al
desarrollo de productos para la sociedad de la información, Existen algunas
herramientas que han desarrollado dentro del área de Tecnologías de la Lengua
las cuales nos permiten realizar un análisis morfológico, sintáctico, y semántico
las cuales pueden ser integradas para obtener mejores resultados, como:
Conjugador verbal
Generador Morfosintáctico
Etiquetado Morfosintáctico de textos
Extracción automáticas de resúmenes
La Ingeniería Lingüística tiene un gran impacto en las siguientes áreas:
Competencia en el Mercado: la Ingeniería Lingüística mediante sus
herramientas puede mejorar eficazmente diversas actividades en
empresas, instituciones educativas, entre otras; reduciendo los costos en
estudios, investigación, etc. y generando una mejor economía.
Mejor Información: como se ha mencionado anteriormente esta área se
ha enfocado mucho en la recuperación de información de tal manera que
se consiga información más rápida y exacta. Además al poder contar con
un multilingüismo se puede tener acceso a estudios que estén más
actualizados en diferentes partes del mundo.
4 Sitio Oficial: http://www.daedalus.es/
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
10
Acceso al Mercado: los usuarios tendrán mayor facilidad de acceder al
comercio electrónico, así como también podrán contar con rapidez,
precisión y seguridad, lo cual le da más confianza al usuario para que se
incline por este tipo de comercio.
Mejor Comunicación: con las herramientas y técnicas de la Ingeniería
Lingüística la Traducción Automática será de gran calidad, con esto la
comunicación entre las personas que hablen múltiple lenguas se
facilitará.
Accesibilidad y Participación: la Ingeniería Lingüística permitirá que
las personas de bajo nivel educativo también tengan acceso a los
servicios informáticos, por medio de la comunicación del habla y las
máquinas.
Mejoramiento en la Educación: se mejorará la enseñanza on-line, así
como también se prestará mejores métodos de aprendizaje de idiomas.
Diversión, Ocio y Creatividad: este es uno de los ámbitos que más
usuarios tiene, y que puede generar grandes ingresos económicos. La
facilidad de visitar museos, lugares turísticos, bibliotecas de forma
virtual y en el idioma del usuario será de gran interés y diversión.
1.4 LINGÜÍSTICA COMPUTACIONAL
La LC es una rama de la lingüística que se encarga de la elaboración de
herramientas que permiten un mejoramiento en las habilidades lingüísticas
como hablar, entender, escuchar, traducir las cuales conllevan a un mejor
entendimiento y comprensión del lenguaje. Una de las características más
significativas del lenguaje humano es la infinitud discreta, infinita en
combinaciones y discreta en el número de unidades.
Esta ciencia es una combinación de dos Ciencias más grandes la Lingüística
(leyes del lenguaje humano) y de la Inteligencia Artificial, la LC tiene como
objetivo la Comprensión del Lenguaje es decir transforma el lenguaje (hablado o
escrito) en una representación formal de conocimiento, por ejemplo las Redes
Semánticas, Ontologías. En la Figura1.1 podemos observar un resumen de la LC,
sus antecedentes y las áreas en donde se aplica, las cuales más a delante se
detallan.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
11
Procesamiento
de VozGeneración de
Texto
Procesamiento
de Texto
LINGÜÍSTICA COMPUTACIONAL
Comprensión del
Lenguaje
Inteligencia
ArtificialLinguística
TA
RE
AS
AN
TE
CE
DE
NT
ES
Figura 1.1 Antecedentes y áreas de la Lingüística Computacional [4]
La LC surgió a finales de la segunda guerra mundial, con la iniciativa de un
proyecto por parte de un grupo de científicos y técnicos de Estados Unidos y la
Unión Soviética quienes necesitaban construir un traductor para poder
comunicarse, en dos idiomas: inglés y ruso. En los años 50 las investigaciones
se centraron en dos áreas que ayudaron al crecimiento de la LC, La Teoría de los
autómatas que surgió de los trabajos realizados por el matemático Alan Turing,
y de los Modelos Probabilísticos o Teoría de la Información estudiada por
Claude Shannon. Noam Chomsky se basó en los trabajos de Shannon para poder
crear una máquina de estados finitos para hacer la representación de algunas
gramáticas. Seguido a esto, la investigación se centró en dos ramas la una
liderada por Chomsky referente al Análisis Sintáctico y la otra con la Inteligencia
Artificial. Hubo un lapso de tiempo en donde esta área de investigación decayó
por los pocos resultados obtenidos, incluso se quitó el financiamiento a algunos
proyectos que estaban en proceso. En la actualidad las cosas parecen de modo
diferente, quizá una de las mayores influencias es el uso de internet lo que ha
conllevado a la necesidad de tener varias herramientas que ayuden con los
diferentes idiomas del mundo, es por esto que las empresas privadas y
educativas han puesto mucho interés, tiempo y financiamiento en proyectos de
investigación en esta área.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
12
La diferencia entre la LC y la Ingeniería Lingüística radica en que la segunda
elabora las herramientas con fines comerciales mientras que las tareas de la LC
se llevan no solo en organizaciones privadas sino también en centros
educativos.
1.4.1 Áreas de la Lingüística Computacional
Muchos de los aspectos del lenguaje humano pueden ser tratados a través de
esta área. Se ha trabajado en el análisis de la sintaxis, la morfología, la
pragmática, la semántica, traducción automática. A continuación se describen
las áreas en las cuales interviene la LC.
Análisis Morfológico (Tagging): se refiere al análisis de las palabras de
una frase, independientemente del resto del texto. Características de
palabras como verbos, adverbios, etc. Cuando la Desambiguación no es
resuelta en este análisis es necesario corregir estos errores con análisis
semántico y sintáctico.
Análisis Sintáctico (Parsing): es un análisis que se realiza a nivel de
oraciones, es más complejo que el análisis morfológico.
Técnicas de Reconocimiento de voz y Conversión de texto a voz.
Recuperación eficaz de información: uno de los principales fines de la
LC es este, recuperar información de manera rápida y efectiva, de tal
manera que los contenidos que se recuperen sean precisos.
1.5 ASPECTOS DEL LENGUAJE
Efectivamente, se ha descubierto rasgos que responden a todas las lenguas:
reglas universales para la formación de oraciones negativas, rasgos universales
de la estructura fonológica (selección de las propiedades fonéticas distintivas),
restricciones universales (en estructuras coordinadas), rasgo universal de la
jerarquía de los elementos en la oración.
Estos aspectos son características que nos permiten analizar los diferentes
lenguajes: Reglas lingüísticas, Competencia y actuación, Significados de la
palabra gramática, Universales lingüísticos.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
13
Se los ha tomado en cuenta para poder sacar alguna característica que nos
permita hacer más fácil la traducción de un idioma a otro.
Universales del lenguaje: Se llaman universales del lenguaje a las semejanzas
en que coinciden todas las lenguas del mundo o al menos en una gran parte de
ellas. Los Universales lingüísticos forman una rama de la Lingüística Teórica. La
identificación de estos, se realiza por medio de datos empíricos reunidos a
partir de un gran conjunto de lenguas.
Esta rama no tuvo mayor auge, hasta el Siglo XX, en donde gracias a los trabajos
de J. Greenberg y Noam Chomsky se retomó el estudio de esta importante rama,
pero su análisis estuvo enfocado a las relaciones dentro de su propia lengua.
Los estudios de J. Greenberg se orientan al análisis de los factores psicológicos,
funcionales y pragmáticos, y toma en cuenta las habilidades comunes de los
seres humanos. Mientras que Noam Chomsky solo se fija en la capacidad de la
lengua, sostiene que los universales lingüísticos pueden ser estudiados a partir
de un solo idioma.
Algunos universales entran dentro del dominio de la psicolingüística, ya que
responden a la relación entre la lengua y el pensamiento; otros tienen que ver
con la etnolingüística, ya que dependen de la relación entre la lengua y la
cultura. (J.Dubois et al. 1979) Según Eugenio Coseriu, los universales esenciales
del lenguaje son: alteridad, semanticidad, materialidad, historicidad y
creatividad.
1.6 TECNOLOGÍAS DEL TEXTO ESCRITO
Las tecnologías lingüísticas engloban una serie de técnicas relacionadas con el
tratamiento informático del lenguaje, tanto del lenguaje escrito como del
lenguaje hablado.
Actualmente la información con la que se cuenta es mucha pero es poca la que
se puede recuperar con las búsquedas que se realizan actualmente, ya que estas
son ejecutadas en base a comparación de palabras claves e indexaciones y no en
base al sentido y la perspectiva de lo que realmente queremos buscar.
Para desarrollar este tipo de sistemas se deben usar los siguientes recursos de
la ingeniería lingüística [5]:
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
14
Los analizadores morfológicos: que permiten relacionar las variantes
flexivas de una palabra con su lema y asignan una descripción
morfológica a las palabras de los textos.
Los desambiguadores, ante una ambigüedad en el nivel morfológico,
sintáctico o semántico, deciden, a partir de datos estadísticos o sobre la
base de reglas lingüísticas, cuál es la interpretación más correcta.
Los analizadores sintácticos: identifican los grupos de palabras que
funcionan como un todo, lo que permite identificar las entidades del
texto.
Las redes semánticas: organizan el léxico según sus relaciones internas
y permiten etiquetar semánticamente los textos.
Los corpus: etiquetados morfológicamente, sintácticamente y
semánticamente, que se utilizan como fuentes de información para el
aprendizaje de los etiquetadores automáticos y como consulta para la
búsqueda lingüística. La utilización de corpus va ligada a una serie de
procesos como la codificación, el etiquetado y el análisis lingüístico y
herramientas como por ejemplo los programas de concordancias que
facilitan su uso y explotación.
Lexicones computacionales: guían el proceso de análisis e
interpretación semántica del texto.
Lexicones multilingües: permiten el proceso de traducción automática o
bien ayudan en la traducción manual.
Al usar los recursos citados anteriormente se pretende las siguientes mejoras en las búsquedas de información [5]:
Permiten expresar las búsquedas en lenguaje natural y sin restringirlas a
un metalenguaje, normalmente una combinación de palabras clave y
operadores booleanos.
Ampliar el espacio de búsqueda mediante la ampliación de la pregunta del
usuario incorporando en él sus formas flexivas y las palabras
semánticamente relacionadas.
Restringir los documentos seleccionados a aquellos que realmente
responden al sentido de las búsquedas.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
15
La creación de estas nuevas tecnologías ha producido un cambio en la economía
y en las actividades de las personas encargadas de la traducción, procesamiento
de texto, edición de textos, creación de diccionarios, entre otros. Ya que
deberían actualizarse en el uso de las nuevas tecnologías de tal manera que se
preste un mejor servicio y se ahorre recursos. Además se habla del surgimiento
de un nuevo perfil profesional, el cual debe tener conocimientos tanto de
lingüística como de computación.
Algunos problemas de la lengua al ser tratada en un sistema informático son:
La Ambigüedad en todos sus niveles lingüísticos: léxico, semántico,
sintáctico.
La amplia creatividad del lenguaje.
Naturaleza estadística del uso lingüístico.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
16
2. CAPITULO
Técnicas de Representación de Información
Estructurada
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
17
Las principales características para crear estrategias de estructuración y
técnicas para representar la información han sido el agrupar el conocimiento y
compartir información, estas técnicas están orientadas a representar la
información de manera general de tal forma que se acople a varios formatos y
múltiples plataformas.
Por el gran volumen de documentos que actualmente se encuentran alojados en
la Web la manejabilidad, búsqueda y por consecuencia el uso de estos es
demasiado difícil e incontrolable es por eso que la información no estructurada
como documentos de texto, video, audio han sido en estos últimos tiempo objeto
de estudios con el fin de estructurar y dar formato a esta información, de tal
manera que se vuelva más accesible y más fácil de majear, existen áreas a tratar
como manejo de documentos, manejo de contenido WEB, manejo de registros,
etc.
En años pasados estas necesidades fueron de un reducido grupo de personas,
solamente las personas dedicadas a la investigación sentían la necesidad de
compartir y de encontrar información, pero en la actualidad esto ha cambiado,
la mayoría de las personas en el mundo tienen esta necesidad, ya que la
información es uno de los ingredientes para el desarrollo humano, social y
educativo que le permite al hombre crecer y llegar a una plenitud de
conocimiento. Se puede decir que hemos evolucionado a la era de la información
y como se citó anteriormente sus actividades actualmente están marcadas por el
uso de información.
Pero este fenómeno no viene solo, contrae nuevos inconvenientes que surgen
por la gran cantidad de información compartida. Algunas de las contrariedades
en este tema es la recuperación de información precisa, ya que muchas de las
veces los usuarios al realizar una búsqueda no obtienen información que
satisfaga sus requerimientos de aquí la necesidad de buscar métodos que
permitan devolver al usuario la mejor información posible con respuesta a su
consulta, otro punto importante y necesario de analizar a más de la cantidad, es
la calidad de información que está subida en la Web ya que no toda la
información que allí encontramos es buena.
Hoy en día nos enfrentamos a una nueva manera de obtener la información, día
a día establecemos una relación de comunicación con una nueva plataforma
tecnológica informativa La Web, en la que la obtención de información no es
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
18
solamente a través del lenguaje escrito (texto) sino a mediante imágenes,
videos, sonido, etc.
La utilidad de la 3W es indudable, pero las estrategias que se han usado para
representar la información en este escenario se derivan de los viejos esquemas
de clasificaciones excluyentes y por tanto el usuario cuando demanda una
información concerniente al área de su realización personal o profesional es
invadido por mil registros de recursos de información que pueden o no
contener lo que el busca.
El creador de internet Tim Berners-Lee, cuando creó la 3W por 1989 pensó en
crear una red de recursos que nos permitiera programar agentes que navegaran
la infinitud de sitios pudiendo obtener la información que necesitamos sin tener
que indicarle de donde obtenerla o que significado debe tener cada recurso,
transformando finalmente esa información a un formato que sea fácilmente
entendible por todos los usuarios. Esa Web, que aún se encuentra en una fase de
desarrollo, es lo que se conoce como la Web Semántica.
La Web Semántica
Según definición de Tim Berners-Lee: “La Web Semántica es una extensión de la
Web actual en la cual se dota a la información de significado bien definido para
que tanto personas como ordenadores puedan trabajar cooperativamente”. De
esta manera se usará la misma infraestructura tecnológica de la web actual, solo
que a la información se le añadirá algunos elementos para poder resaltar el
sentido semántico de la información y con esto efectivizar las búsquedas, esta
es la diferencia con la Web actual, ya que esta solo dota a la información de
ciertas etiquetas que lo único que hacen es determinar como la información se
va a presentar en el navegador, pero no toman en cuenta nada sobre su
semántica. Con esto la confianza de los usuarios se robustecerá ya que existirá
fiabilidad y credibilidad en la información que ellos obtengan de la Web.
Lo que se pretende con la Web Semántica es que los datos puedan ser utilizados
y comprendidos correctamente por los computadores sin la necesidad de la
manipulación de un ser humano, por ejemplo el significado de un término solo
se puede entender según el contexto en el que aparece, “llama a un amigo”,
“llama es un animal”, “llama del fuego”.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
19
Las siguientes técnicas ayudan a crear nuevas representaciones de la
información e incorporan semántica a los entornos web, lo que permite mejorar
el tratamiento y posterior recuperación de la misma en términos de efectividad,
rapidez y facilidad de acceso a la información:
2.1 REDES SEMÁNTICAS
Para poder reutilizar la información de debe de realizar una representación que
no es más que estructurar la información concerniente a un dominio de tal
manera que se facilite su almacenamiento y búsqueda.
Las redes semánticas tienen su fundamento en el concepto de memoria
asociativa, en donde el conocimiento se estructura mediante asociaciones entre
conceptos, al igual que las actuales formas de representar el conocimiento estas
usan los nodos para representar los conceptos, atributos, estados o eventos
(solo tienen un solo nodo padre) al cual se le asignan uno o más nodos hijos y
los arcos para representar las relaciones entre estos; además se definen un
conjunto de procedimientos de inferencia que operan sobre la estructura de
datos.
Quillian es a quien se le atribuye el título de precursor de las redes semánticas
en la inteligencia artificial en 1968 por el desarrollo del sistema sobre
significados de palabras. Como primer trabajo con redes semánticas se tuvo el
proyecto NUDE, red semántica que fue creada por Richens en 1956 que tenía
como función servir de interlingua para la traducción automática del ruso al
inglés. Otro proyecto fue la red semántica T, desarrollada por Masterman, se usó
un tesauro para la organización de conceptos.
Existen varios tipos de redes semánticas con sus propias características las
cuales las diferencian unas de otras, un trabajo comparativo entre estas
podemos encontrar en [6].
Podemos decir que la Web Semántica es una aplicación específica de las redes
semánticas, que reciben ese nombre porque se usan en muchos casos para
representar el sentido de la expresiones en lenguaje natural y establecen con
ello las reglas de uso, interacción y aplicación de cada elemento dentro de esa
red y por lo mismo nos permite de manera grafica poder describir mediante los
nodos (conceptos o palabras) y los arcos (las relaciones) la forma en que se
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
20
pueden integrar esos nodos o palabras para armar una oración, un concepto,
una idea, un pensamiento, conocimiento simple o complejo.
2.1.1 Categorías de Redes Semánticas
A continuación describimos los tipos de Redes Semánticas según se presentan
en [6], junto a sus características:
Redes Is – As: es el tipo de red semántica por excelencia, se representa
como una jerarquía semántica en donde su espina dorsal la constituye
un conjunto de enlaces de herencia entre nodos los cuales están
etiquetados, los nodos ubicados en el último nivel de la jerarquía se
refieren a objetos específicos y son conocidos como instancias. Referente
al tipo de nodo que enlazan las relaciones se puede distinguir dos tipo de
enlaces: Los que enlazan categorías con otras categorías las cuales
expresan relaciones de conjunto, subconjunto, generalización,
especificación, etc. y los que enlazan categorías con individuos las cuales
expresan relaciones de pertenencia, conjunto, predicación, contenido
conceptual y abstracción. Este tipo de redes tienen también algunas
desventajas, una vez que se ha escogido los nodos de la estructura
jerárquica es muy difícil cambiarlos, por lo que se debe presentar total
cuidado en la fase de análisis para realizar una elección correcta de
nodos y arcos, dificultad para representar cuantificación por ejemplo en
el caso de que se quiera representar: “Algunos cantantes son escritores
de canciones ”, dificultad para representar dimensión intencional como:
“María piensa que Juan está en casa ”.
Redes Marco (frame): un frame es una red ordenada de nodos en donde
los nodos superiores representan situaciones reales, y los nodos
inferiores representan instancias que se pueden cambiar según la
adaptación que estas puedan tener ante escenarios más reales, por lo que
se puede deducir que un frame en un conjunto de condiciones necesarias
y suficientes sobre un concepto estereotipado. Cada frame posee un
conjunto de slot, en donde se almacena información acerca de su uso, o
de la actividad siguiente, los nodos hijos pueden heredar también los
slots de sus padres, salvo se especifique lo contrario. Las Redes Marco
son las que mayor flexibilidad ofrecen y a las que mayormente se han
dedicado los investigadores de lingüística.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
21
Grafos Conceptuales: este tipo de red fue propuesto por Sowa (1984),
es estos grafos los arcos no están etiquetados como es el caso de las red
Is-As, y por sus nodos se considera un grafo bipartito, que pueden ser de
dos tipos diferentes: de Concepto que representan entidades, estados,
procesos y de Relación que especifican como se relacionan los nodos de
conceptos, son quienes realizan el enlaces entre las entidades [7]. Los
grafos conceptuales tienen una base de conocimiento la cual define las
restricciones semánticas y conocimiento acerca de dominio que
describen. Sowa utiliza notación lineal y de diagramas para crear un
grafo conceptual, realiza análisis del lenguaje y mediante este hacer
representación del lenguaje natural, representación semántica de frases.
Las áreas en las que pueden ser aplicados los Grafos Conceptuales son:
Recuperación de Información, Diseño de Bases de Datos, Procesamiento
de Lenguaje natural, Sistemas Expertos, entre otros.
2.2 TAXONOMÍAS
La información permite conocer lo que está ocurriendo y lo que puede
acontecer en un futuro, por lo que constituye un elemento esencial para la
operación, planificación, control y evaluación de las actividades de cualquier
organización.
Las taxonomías llamadas también estructuras de clasificación, son
fundamentales para la gestión del conocimiento [8] y la administración del
conocimiento de una empresa, compañía u organización en general y más aún
ahora que han sido estudiadas por las Ciencias de la computación para poder
computar estas estructuras jerárquicas. Desde el punto de vista de la lingüística
computacional, se puede ver una taxonomía como una lista estructurada en
árbol, son una clasificación ordenada de manera jerárquica, lo cual se consigue
con una serie de relaciones que pueden ser palabras o conceptos entre
categorías. En el primer nivel de la jerarquía se encuentran las categorías
(conceptos principales o más generales del tema que se pretende modelar), en
un segundo nivel se agregan las subcategorías las cuales pueden tener otro
conjunto de conceptos así como también relaciones cruzadas entre niveles de la
jerarquía. Una taxonomía puede tener una serie de niveles en su jerarquía, esto
depende de la cantidad de términos o subdivisiones en las que podamos dividir
a la información. Es necesario mencionar que las características descritas en el
primer nivel son heredadas por las subcategorías y sub subcategorías que le
preceden.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
22
El desarrollo de esta manera de organizar el conocimiento tuvo sus inicios en el
siglo XVII, y fue en el siglo XIX en donde tuvo su más alto grado de
estructuración y auge. Las taxonomías han servido para poder estructurar la
información lo cual en la actualidad se constituye como el principal capital de
conocimiento de una empresa y además su distribución rápida y eficaz es
necesario para el éxito de esta. Al igual que todas la demás técnicas de
estructuración de la información y el conocimiento las taxonomías están
orientadas a organizar, administrar, permitir mejor manejabilidad y proveen
una estructura navegacional de la información de una empresa o dominio con lo
cual se agregará una ventaja competitiva a las empresas, por el hecho de que
esas podrán compartir conocimiento y además aprender y mejorar su
organización.
Las ventajas de usar una taxonomía son: facilitan la recuperación de una
manera flexible, tienen una estructura más simple que otras alternativas
(tesauros, ontologías), agilizan la clasificación y pueden incorporar contenidos
desde un tesauro o desde una ontología. Como desventaja tenemos que las
taxonomías estructuradas hasta ahora en forma de árbol resultan demasiado
limitadas, pues no permiten representar clasificaciones complejas, en donde
una categoría puede tener más de un padre [10].
En PLN este tipo de estructuración del conocimiento es también usada, para
poder modelar la clasificación, especificación y generalización de las categorías
semánticas, que sirven como una base sólida para el PLN ayudando a resolver la
ambigüedad de palabras y sirviendo como guía para realizar una elección léxica
o selección se estructuras lingüísticas [11].
Las ciencias de la computación ha podido computar la estructura que nos
presentan las taxonomías.
Componentes de una taxonomía:
Las taxonomías tienen cuatro componentes principales, que se detalla a
continuación:
Categorías: son los nodos que representan los conceptos generales del
dominio que se esté tratando, por lo general constituyen los nodos padre.
Subcategorías: corresponden a temas más específicos derivados de un
tema general, corresponden a los hijos de los nodos de primer nivel y
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
23
heredan las características de sus nodos padres. Estas pueden tener más
sub categorías.
Términos Relacionados: conceptos relacionados con el contexto que se
está tratando, estos también nos permiten crear relaciones o conexiones
cruzadas.
2.2.1 Tipos de Taxonomías:
Pueden ser visibles al usuario o simplemente actuar como soporte de un
sistema informático, sin que el usuario note que está usando una de ellas.
Taxonomías Múltiples: jerarquías cognitivas que proporcionan al
usuario una meta información, lo cual les permite una accesibilidad,
conocimiento y aprendizaje de temas que pueden ayudar a la madurez y
crecimiento de una empresa.
Taxonomías Corporativas: estructura organizada de los contenidos de
una organización, que van a ser usados por la audiencia5 para realizar
tareas y actividades puntuales. Se desarrollan de manera específica para
una organización en particular tomando en cuenta sus características y
objetivos. Para crear una taxonomía de este tipo se debe tener en cuenta
o revisar tres tipos de análisis; Análisis del Contexto en el cual se obtiene
una definición del entorno corporativo que abarca objetivos, tipología de
la organización, áreas, misión, políticas, organigramas, etc. Análisis de la
Audiencia en el cual se identifica el tipo de usuarios que a los cuales va
dirigida la taxonomía, las necesidades de estos, habilidades y
comportamientos frente a la recuperación de información, lo que desean
o esperan en cuanto a contenidos; y finalmente un Análisis de los
Contenidos que abarca los contenidos y relaciones que alimentarán a la
taxonomía, para cada unidad de contenido se debe identificar o
determinar atributos, metadatos, características que permitan
diferenciarla. [12]
Taxonomía Subject: se encargan de ordenar jerárquicamente de lo
general a lo más específico un tema en particular, es como un diccionario
que ordena alfabéticamente los conceptos. El usuario debe conocer el
tema, para que tenga un indicio de cómo o por donde buscar lo que
necesita [13].
5 Este término es usado para referirnos al personal interno y externo, usuarios, clientes, etc. que
tienen algo que ver con la organización.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
24
Taxonomía business – Unit: este tipo de taxonomía está dirigido a
describir el organigrama de una empresa, organización o institución.
Esta taxonomía nos permite entender y tener una visión del esquema
general de una empresa.
Taxonomía Funcional: con este tipo se representa jerárquicamente las
funciones, las actividades y las tareas realizadas por una organización de
negocios. Las funciones van ubicadas en el nivel más alto de la jerarquía,
en el segundo nivel se especifican todas las actividades y en el nivel más
bajo se especifican las tareas, registros o resultado de las actividades
realizadas [13].
2.2.2 Ejemplos de Taxonomías:
AEAweb6 American Economic Association creó el Sistema de
Clasificación Journal of Economic Literature (JEL) que consiste en una
taxonomía que facilita la clasificación de artículos, libros, disertaciones y
archivos publicados por esta revista, por su gran uso se ha convertido en
un estándar de clasificación en la economía. Jerárquicamente consta de 3
niveles, organizados en 20 categorías principales, y tiene subcategorías.
[14]
SemioTaxonomy: taxonomía de Marketing, su creador es Claude Voger,
combina las técnicas de análisis lingüístico y las estadísticas de clusteirng
para categorizar y estructurar automáticamente información basada en
texto, lo cual permite tener un acceso inteligente a la información
mediante un navegador.
OSEL7 Taxonomy para clasifiacion de OA: esta taxonomía se creó para
la administración del repositorio de objetos de aprendizaje que pueden
ser usados en la plataforma Learning Content Management Systems
(LCMS), es un proyecto financiado por el Departamento de Estadística de
la Universidad de Bari [15].
6 American Economic Association: http://www.aea-web.org
7 Convertini, V.N, Albanese, D., Marengo, A., Marengo, V. y Scalera, M. (2006). The OSEL taxonomy of learning objects. Interdisciplinary Journal of Knowledge and Learning Objects, 1, 125-136.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
25
Muestra del módulo de creación y gestión de taxonomías de Wordmap
Taxonomy Management8 usa sistemas de clasificación como taxonomía
para cargar y alojar documentos. Convierte los documentos complejos y
difíciles de encontrar en documentos manejables y accesibles para los
usuarios.
2.3 METADATOS
La creación de los metadatos surgió mucho antes que el internet, pero es en este
momento en el que los metadatos están en auge, el motivo es que por el gran
crecimiento de internet se ha facilitado y aumentado la compartición de
información lo que ha generado la creación de revistas electrónicas, bibliotecas
electrónicas y en general digitalización de muchos documentos. Los metadatos
mejoran y optimizan la recuperación de información ya que: facilitan búsquedas
basadas en campo, permiten indización de objetos no textuales. Además los
metadatos poseen una información estándar que es más fácil manejar.
Los Metadatos son contenedores de información semántica sobre los datos, o
conocidos más comúnmente como datos sobre los datos que se definen como
información estructurada y que pueden ser procesados automáticamente.
Un registro de metadatos es un conjunto de elementos que describen e
identifican a un recurso el cual contiene información, por ejemplo el recurso
sería un libro, y los metadatos que describen a este elemento serían: el autor, el
título, número de páginas, fecha de creación, etc. La relación que existe entre el
registro de metadatos y el recurso al cual pretenden describir puede darse de
dos maneras: Los metadatos pueden estar separados del recurso, por ejemplo
el registro de libros en una biblioteca, y la segunda manera se refiere a que los
metadatos están incluidos en los recursos, como los datos de un artículo. Los
recursos u objetos de información a los cuales se aplican los metadatos tienen
las siguientes características:
Contenido: quién, cómo, cuándo, par que fueron creados.
Contexto: sobre que es el objeto, que contiene.
8 Sitio de Descarga de Wordmap Taxonomy Management: http://www.wordmap.com/
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
26
Estructura: conjunto de relaciones dentro o fuera del objeto.
Los metadatos tienen tres funciones básicas: proporcionar descripción de un
objeto o recurso por medio de otra información necesaria para su identificación
y manejo, proporcionar el acceso a los recursos, y codificar la información que
describe al objeto de tal manera que sea manejable por medios automatizados.
Todos los conjuntos de metadatos existentes siguen la norma SGML (Standard
Generalized Markup Language) Estándar internacional desde 1986 (ISO 8879).
Las ventajas de manejar sistemas basados en metadatos son: hacer flexible y
extensible el sistema, permite agregar y extender fácilmente la integración de
nuevos recursos, es una técnica ampliamente aceptada y con grandes resultados
no solo en el ámbito bibliotecario sino en diversos sistemas de búsqueda, es
menos costoso de crear, manejar y mantener. Como una desventaja podemos
mencionar la existencia de varios estándares de metadatos lo cual impide la
estandarización e interoperabilidad de los sistemas que manejan metadatos.
2.3.1 Características de los Metadatos:
Flexibilidad: determinada por la cantidad y contenido de los datos,
depende también del estándar que se aplique.
Extensibilidad: facilidad para agregar nuevos elementos, y nuevos
perfiles.
Semántica: semántica del esquema referente al número y tipo de datos
que se aplique a cada elemento, y semántica del contenido para obtener
información precisa.
Sintaxis: reglas especificas y adecuadas para la búsqueda y
recuperación, su complejidad está ligada al lenguaje de codificación html,
xml, marc, sgml, etc.
Estructura: arquitectura del contenido de un registro de metadatos que
va a facilitar su transmisión y uso. Se puede elegir entre una variedad de
estructuras RDF, METS, etc.
2.3.2 Tipos de Metadatos:
Administrativo: para gestionar y administrar la información del
recurso, maneja los derechos, requerimientos legales, control de
versiones, etc.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
27
Descriptivo: su función es describir e identificar la información del
recurso, proporcionan ayuda en la búsqueda y responden a preguntas
como: ¿Cuál es el tema de este documento? ¿Quiénes son los autores? ¿En
qué fecha fue publicado?
Técnico: facilitan la presentación de la estructura interna del recurso.
Permiten saber si el recurso es un libro, un artículo ó una revista, en
cuantas secciones ó capítulos está dividido.
2.3.3 Modelos de Metadatos:
Existe una variedad de metadatos [16], a continuación detallamos los más
importantes:
Learning Object Metadata (LOM)9
Este estándar fue aprobado en junio del 2002, y es patrocinado por el
Comité de estandarización de Tecnologías Educativas del IEEE. LOM
considerado como el mejor estándar de metadatos para objetos
Educativos por lo que es muy utilizado en los repositorios de Objetos de
Aprendizaje. Define múltiples características, definiciones y atributos los
cuales están relacionados de forma jerárquica.
Para cada uno de los elementos ubicados en algún nivel de la jerarquía se
debe definir lo siguiente: definición, tipo de datos, valores, y
multiplicidad en caso de permitirla.
Como dijimos LOM se estructura como una jerarquía de árbol, en donde
el nodo raíz corresponde al nombre del documento. En el siguiente nivel
encontramos sub-elementos, que pueden contener a su vez otros sub-
elementos. A los elementos terminales se les llama hojas y a los
intermedios, ramas. Para cada elemento en la jerarquía se especifica la
definición, el tipo de datos, los valores permitidos y si se permite
multiplicidad o no. Tratan, principalmente, de describir el contenido y la
localización del objeto de la información en Internet.
9 Especificaciones del Metadato en http://www.ieeeltsc.org:8080/Plone
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
28
Se distinguen 9 categorías de metadatos diferentes, que podemos ver en
Anexo A.
Dublin Core Metadata Initiative (DCMI)10
La iniciativa de crear DCMI surgió en 1995, al reunirse NCSA (National
Center for Supercomputing Applications), OCLC (Online Computer
Library Center) y representantes de la IETF en una convención que tuvo
lugar en Dublín, Ohio (USA), de donde de tomó su nombre; surgió como
necesidad de los bibliotecarios de definir estándares que permitieran
describir recursos informáticos y facilitar su recuperación. La idea nació
para un uso educativo por lo que es el Metadato más utilizado para
estructurar información en las bibliotecas digitales, pero luego se fueron
interesando proveedores de información representantes de otras áreas
como la administración, el arte, las ciencias, los negocios esto debido a
su simplicidad y potencia, adaptación a cualquier dominio y por ser
aplicable a cualquier tipo de recursos. Con el tiempo se ha incrementado
la utilización de Dublin Core en Internet, lo que fue una de las razones
por las cuales se estudió la posibilidad de aprobarlo como norma ISO, lo
que sucedió en el año 2003, cuando se aprobó como la norma ISO 15836.
Estos metadatos presentan características importantes como: facilidad
de uso, reconocimiento internacional, se puede usar con lenguajes
estructurados como HTML, XML, RDF. DCMI trata de ubicar dentro de
Internet, los datos necesarios para describir, identificar, procesar,
encontrar y recuperar un documento introducido en la red. [17]
En un inicio estuvo formado por 13 elementos que permitían describir
un recurso electrónico, pero hasta la actualidad gracias a varias
modificaciones que se han realizado se cuenta con 15 elementos, los
mismos que son opcionales y repetibles. Ver Anexo B.
10The Dublin Core® Metadata Initiative, Sitio Oficial: http://www.dublincore.org
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
29
Instructional Management System (IMS)11
Este es uno de los metadatos más consolidados, el cuál más que un
metadato es un estándar que reúne varias especificaciones que indican
como estructurar la información que contienen los Objetos de
Aprendizaje, los cuales son muy utilizados en el ámbito educacional.
Además por su valiosa aportación estas especificaciones han servido de
base para nuevos estándares y creación de nuevos metadatos.
IMS desarrollado por Global Learning Consortium junto con SCORM que
es otra especificación de metadatos, son los más importantes promotores
y desarrolladores de estándares que están teniendo mayor repercusión
en e-learning.
Cada una de las especificaciones que se detallan en IMS, están
organizadas de la siguiente manera: contienen una guía de
implementación, este documento es el primero que se debe leer antes de
su uso ya que contiene aspectos generales, relación con otras
especificaciones, forma de uso y ayuda complementaria. Un modelo de
información en el cual se describe de manera más formal los elementos
que la componen y su estructuración. Y por último un documento de
Enlace, que representa la estructura de datos de XML, el cual nos permite
validar la estructura de un documento que hayamos creado.
El objetivo de IMS es definir especificaciones que hagan posible la
interoperabilidad de aplicaciones y servicios de enseñanza distribuida. A
continuación describimos algunas de las especificaciones más
importantes12:
IMS LD (Learning Design): esta especificación nació en base a
otra llamada IMS Educational Model Language. Se maneja un
nuevo concepto que es la unidad de aprendizaje, lo cual permite
adicionar al objeto de aprendizaje detalles como las actividades en
los cuales están implicados.
IMS CP (Content Packaging): esta especificación permite
formalizar los contenidos reutilizable e intercambiables
11 IMS Global Learning Consortiun: http://www.imsproject.org
12 Información sobre especificaciones de IMS: http://www.imsglobal.org/specifications.html
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
30
(exámenes, resúmenes), lo que hace es comprimir (en un archivo
.zip) el contenido de un objeto educativo para que pueda ser
procesado por otro sistema. La estructura del contenido del
objeto se especifica en un archivo XML llamado manifiesto, en este
archivo se describe tanto la descripción de los recursos como el
detalle de cada uno de estos.
IMS Question & Test interoperability: esta especificación nos
presenta una estructura o formato básico de cómo representar
cierta información, un ejemplo en donde podríamos usar esta
especificación es en los exámenes en línea, ya que se plantea un
banco de preguntas que tienen su formato como también su
respectiva puntuación
Otras especificaciones: IMS RLI (Resource List Interoperability),
AccessForAll Meta-data, IMS EIM (Enterprise Information Model),
IMS VDEX (Vocabulary Definition and Exchange), IMS SS 2002
(Simple Sequencing)
Text Encoding Initiative (TEI)13
TEI es un estándar internacional e interdisciplinario para editoriales,
bibliotecas, escritores para la representación de texto en digital. Este
proyecto fue iniciado en 1987, en el 2000 se crear el TEI Consortium el
cual está conformado por las siguientes asociaciones ACH (The
Association for Computers and the Humanities), ACL (The Association for
Computational Linguistics), ALLC (The Association for Literary and
Linguistic Computing), consorcio sin fines de lucro dedicado al
desarrollo y mantenimiento de este estándar. Es uno de los estándares
más antiguo y más complejo, proviene del ámbito de la lingüística y para
su creación se necesito de la experiencia de bibliotecarios como de otros
usuarios manejadores de información [18].
Este estándar tiene como fin buscar un sistema que permita a los
investigadores que manejan información sobre lengua, literatura,
dedicados a las bibliotecas, editoriales o manejo de cualquier otra
13 Text Encoding Initiative: http://www.tei-c.org
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
31
información electrónica, intercambiar y reutilizar recursos
independientes de la localización, hardware o software que usen. La
complejidad de usar este estándar depende de la cantidad de
información y el nivel de normalización que se requiera, además se debe
analizar que partes del esquema se van a utilizar dependiendo de la
mejor adaptación para lo que se esté usando.
Este estándar maneja una cabecera necesaria para todos los textos, la
cual maneja texto que describe y permite un control bibliográfico, esta
puede ir junto al documento o separada de él, y mostrar menor o mayor
detalle esto depende de la adaptación que el usuario haga y necesite.
Información de cabecera:
Descripción del archivo: descripción bibliográfica del texto.
Descripción Codificada: elementos sobre las características de
codificación del texto.
Descripción de Perfil: información adicional como idioma,
colaboradores, etc.
Descripción de Revisiones: registro de los cambios realizados,
versión, fecha.
Metadata Encoding & Transmission Standard (METS)
METS es una iniciativa de la Federación de Biblioteca Digital14, creada
bajo un formato XML que permite crear los metadatos para gestionar
objetos digitales y su intercambio entre repositorios. Una especificación
METS, consta de siete secciones, Ver Anexo C.
Metadata Object Description Schema (MODS)15
MODS tiene el mismo objetivo de DC, pero es creado para superar
algunos inconvenientes encontrados en el DC, este proyecto ha sido
14 Digital Library Federation: http://www.diglib.org/
15 Metadata Object Description Schema, Sitio Oficial: http://www.loc.gov/standards/mods/
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
32
desarrollado por la Oficina de Desarrollo de Redes y Normas MARC de la
biblioteca del Congreso (LC) y toma como base aspectos especiales del
estándar MARC [19].
MODS es un esquema codificado en XML lo que lo hace más flexible que
MARC, permite crear nuevo registros a partir de los de MARC21. MODS
cuenta con un conjunto de 20 elementos (elementos de primer nivel),
subelementos y atributos los cuales son opcionales y repetibles, algunos
de estos son derivados del MARC21, además todos los elementos tienen
un equivalente para este metadato.
Utiliza etiquetas textuales en vez de numéricas lo que mejora la
comprensión de las personas:
Opción: los elementos y atributos con opcionales.
Repetición: los elementos son repetibles y los atributos no son
repetibles.
Subcampos: pueden contener subelementos o atributos.
Control: algunos elementos permiten registrar las herramientas
que permitan controlar sus valores.
Elementos de primer nivel: Título, nombre, tipo de recurso, información
origina, género, lenguaje, descripción física, tabla de contenidos, abstract,
tabla de contenido, notas, identificador, localización, entre otros. La
primera versión fue publicada en el 2001 actualmente se maneja la
versión 3.4.
Sharable Content Object Reference Model (SCORM)
Advance Distributed Learning (ADL)16 es la organización que trabaja en
el desarrollo de este metadato en base de las especificaciones creadas
por otras organizaciones ARIADNE, AICC, LTSC, IMS. La primera versión
fue liberada como Versión 1.0, la última es la 1.3 liberada en el 2004.
16 Advance Distributed Learning. Especificación del Metadatohttp://www.adlnet.gov
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
33
Es una nomenclatura que permite codificar de manera uniforme la
información referente a recursos educativos, esta información puede ser
almacenada aparte del recurso en forma de catálogos ó pueden ser
adjuntados dentro del mismo recurso.
Las especificaciones de SCORM están detalladas en tres documentos
diferentes que detallan la distribución y creación de contenido dentro de
este metadato: Modelo de Agregación de Contenidos se refiere a tres
elementos básicos: la estructura de los datos dentro del contenido y su
empaquetado para la distribución (Archivo .zip), la definición de
metadatos y la descripción del contenido en un formato entendido por el
LMS(Learning Management System), Entorno de Ejecución esta parte se
encarga de la comunicación entre el contenido y él LMS y también la
lógica del LMS para saber que contenido mostrar, de qué manera
mostrarlo, etc. y Secuencia y Navegación se detalla como el creador
define que elementos y contenido mostrar y cómo será la navegación y la
secuencia de estos elementos. [17]
SCORM recomienda seguir las especificaciones de IEEE LOM, pero
también permite acoplarse a otros metadatos como Dublin Core.
SCORM utiliza los elementos de LOM (ver sección 2.1.1) para definir los
metadatos, pero como recordaremos LOM indica que estas son
opcionales, en cambio SCORM mantiene que estas son obligatorios de
acuerdo al recurso, esto para brindar una mayor capacidad de búsqueda
y reutilización, además SCORM recomienda la utilización de vocabulario
“restringido” en caso de usar el definido en LOM y “mejores prácticas” en
caso de que se necesite definir un nuevo de acuerdo al área que se esté
abordando.
2.4 ONTOLOGÍAS:
Una ontología es una base del conocimiento, que permite representar un
conjunto de datos los cuales pertenecen a un dominio. Especifican un
vocabulario referente a cierto dominio el cual define entidades, clases,
propiedades, predicados y funciones y las relaciones entre estos. Las ontologías
desenvuelven un papel clave en la interoperabilidad semántica entre sistemas
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
34
de información y su uso dentro del contexto. La característica que ha hecho
fuerte a las ontologías frente a otros sistemas de representación de
conocimiento es su capacidad de inferir conocimiento. En estos últimos años el
interés en este tipo de representación del conocimiento se ha incrementado y su
uso y aplicación es muy extenso y variado en Ingeniería del Conocimiento,
Sistemas de Información, Inteligencia Artificial, Procesamiento de Lenguaje
Natural, Búsqueda de Información, Integración de Bases de Datos, Bio-
informática, Educación, etc.
En el ámbito del Procesamiento del Lenguaje Natural (PLN), las ontologías se
están empleando para construir representaciones independientes de la lengua
que puedan servir de punto de encuentro entre dos o más lenguas naturales. En
este sentido la ontología se considera como el repositorio de conceptos que
establecen conexiones entre los símbolos de una lengua y sus referentes en el
campo o subcampo que se estudia. La creación de una ontología impone un
buen número de restricciones sobre la metodología de trabajo, asegurando, por
ejemplo, que todos y cada uno de los términos estén asignados a un concepto
determinado. Cada uno de los conceptos, por su parte, debe formar parte de una
estructura bien definida y debe ser posible especificar diversos tipos de
relaciones entre ellos, que ayuden a describir formalmente el dominio específico
en el que los términos se enmarcan.
El uso de ontologías para la recuperación de la información tiene ciertas ventajas
sobre los métodos de acceso simples basados en palabras claves, una ontología
suministra un vocabulario compartido común para expresar información sobre
el contenido de los documentos. Además, las ontologías incluyen axiomas para
especificar relaciones entre conceptos.
Las ontologías además proporcionan un soporte para representar los
significados dentro de una Interlingua, y mediante estas podemos entrelazar
varios recursos lingüísticos informáticos (extractores, analizadores de lenguaje,
buscadores, diccionarios) para reforzar y crear conocimiento.
En la actualidad las ontologías se encuentran dispersa dentro de las
organizaciones y a menudo se lo ha mantenido como una forma estructurada
para ser de fácil acceso para los empleados o software.
Las investigaciones de las Ontologías van de la mano con las de la Web
Semántica, y hoy en día son muchos los proyectos que se están llevando a cabo,
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
35
con grandes auspicios nacionales e internacionales. Es en Europa en donde la
investigación y los proyectos han puesto mayor atención en estos temas. A
continuación se describe algunos grupos de trabajo junto con los proyectos que
realizan [20]:
ONTOLOGÍAS EN LA INVESTIGACIÓN HISTÓRICA, conformado por
Antonio Calvo Cuenca, Juan Antonio Romero del Castillo, María Araceli
Serrano–Tenllado. Del Departamento de Informática y Análisis
Numérico, Universidad de Córdoba: este grupo de trabajo se ha dedica al
desarrollar, mejorar y difundir las ontologías desarrolladas en el
lenguaje OWL incorporando a estas relaciones y atributos mediante la
aplicación Himocomp (Historia Moderna Computacional) que ha sido
desarrollada en el lenguaje de programación python, han creado un
portal para la difusión de ontologías históricas17, y un portal para
difundir los resultados obtenidos del proyecto COFELU18.
EL GRUPO NETWORKED SEMANTICS (NETS)19, integrantes Pablo
Castells, Fernando Díez, Iván Cantador, Miguel Corella, Miriam
Fernández, José M. Fuentes, Mariano Rico, María Ruiz, David Vallet.
Escuela Politécnica Superior, Universidad Autónoma de Madrid: este
grupo se ha dedicado a la representación, compartición, recuperación y
explotación del conocimiento o función de la Web, recuperación de
información basada en ontologías, servicios Web Semánticos,
personalización en la recuperación de información a través del
perfeccionamiento de las preferencias semánticas de los usuarios, y
procesamiento de lenguaje natural; dedicado a estas líneas de
investigación este grupo ha podido aportar con aplicaciones a diversas
áreas como El periodismo, Economía y Finanzas, entre otras. Entre los
proyectos en los que ha participado se puede mencionar los siguientes:
aceMedia20 es un proyecto dedicado a la investigación y desarrollo de
técnicas para la personalización y búsqueda de recursos multimedia
basados en semántica, Arcadia su investigación está dedicado al diseño
de ontologías, construcción de bases de conocimiento, técnicas de
visualización y navegación de conocimiento basadas en ontologías,
17 http://siva.uco.es/hmi
18 http://siva.uco.es/cofelu
19 Sitio Web del Grupo NETS: http://nets.ii.uam.es
20 http://www.acemedia.org
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
36
Aniceto21 web semántica aplicada a contenidos de información
financiera y económica, creación de una ontología de dominio financiero,
y una base de conocimiento que agrupa datos de bases documentales de
una empresa de analistas financieros, Neptuno22 gestión de información
y publicaciones para prensa digital basada en la web semántica.
GRUPO ALARCOS EN ONTOLOGÍAS23, conformado por Francisco Ruiz,
Aurora Vizcaino, Mario Piattini, Grupo Alarcos, Departamento de
Tecnologías y Sistemas de Información, Escuela Superior de Informática,
Ciudad Real: este grupo está dedicado a mejorar la calidad de los
sistemas de información desarrollando nuevas herramientas, técnicas y
métodos; compartir conocimiento y conocer los nuevos dominios de
información en los cuales se trabajar es un reto que requiere de tiempo y
esfuerzo, por esta razón este grupo de trabajo a creído conveniente la
incorporación de ontologías (Ontologías de Dominio) para mejorar la
compartición de conocimiento entre los diferentes participantes del
proyeto (clientes, gerente, usuarios finales, analistas, etc).
GRUPO DE APLICACIONES DE INTELIGENCIA ARTIFICIAL24, Pedro
Gonzales Calero, Departamento de Sistemas Informáticos y Computación,
Universidad Complutense de Madrid-España:
Es importante mencionar que en la actualidad aún existen pocas ontologías que
estén disponibles en más de una lengua natural, en la biblioteca OntoSelect25
solamente existen 28 ontologías multilingües de las 1.117 que alberga, y de
estas pocas se ha podido constatar que presentan carencias en los lenguajes que
no son su lengua natural [21].
2.4.1 Componentes de una Ontología:
Una ontología está compuesta por los siguientes componentes:
21 Información del Proyecto Aniceto: http://nets.ii.uam.es/aniceto
22 Información del Proyecto Neptuno: http://nets.ii.uam.es/neptuno
23 Sitio Oficial del Grupo Alarcos: http://alarcos.inf-cr.uclm.es/
24 GAIA - Group for Artificial Intelligence Applications: http://gaia.fdi.ucm.es
25 http://olp.dfki.de
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
37
Conceptos (Clases): representan el sentido más amplio y son las ideas
que se van a formalizar; pueden ser objetos, eventos, procesos, métodos.
Se organizan en jerarquía.
Propiedades (atributos): constituye relaciones extrínsecas e
intrínsecas de los conceptos y las relaciones entre conceptos y describen
sus características y atributos.
Relaciones: son las interacciones entre los conceptos.
Funciones: son un tipo concreto de relación donde se identifica un
elemento mediante el cálculo de una función que considera varios
elementos de la ontología.
Axiomas: son enunciados verdaderos sobre los conceptos y sus
relaciones, se usan para verificar la consistencia de la ontología. modelan
conocimiento que no puede ser representado usando otros
componentes.
Instancias: representan entidades u objetos pertenecientes a una
determinada clase de la ontología. Representan objetos determinados de
un concepto.
2.4.2 Clasificación de Ontologías:
Existen varias clasificaciones dependiendo de algunos detalles como según nivel
de detalle, de dependencia, tamaño, etc. a continuación describimos algunos
tipos de ontologías, que creemos los más importantes y explotados [25]:
Ontologías de Alto Nivel (Genéricas): describen aspectos muy
generales como espacio, tiempo, materia, evento, etc. Son para grandes
comunidades de usuarios.
Ontologías de Dominio: describen los conceptos, relaciones y teorías de
diferentes y específicos dominios de interés como medicina, cine.
Ontologías de Tarea: los conceptos y relaciones que se toman en cuenta
para crear una ontología de este tipo son los concernientes a los pasos,
estructuras, tareas o actividades que se siguen en un proceso con el fin
de dar solución a un problema o situación, por ejemplo describen el
proceso de una actividad específica como venta.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
38
Existen otros tipos de ontología derivados de las anteriores [22]:
Ontología Educacional: se considera a una ontología de este tipo, a
aquellas se usen para la enseñanza basándose en tecnologías Web.
Ontologías de Comunicación: se utilizan para el paso de mensajes entre
distintas plataformas, repositorios o servicios educativos, se define la
semántica en que se basaran los mensajes, el vocabulario de los términos
utilizados en la comunicación.
Ontologías Terminológicas: especifica términos que son usados en un
universo, se usan para unificar vocabulario en un entorno específico.
Ontologías de Información: especifican la estructura de
almacenamiento de la base de Datos, crear una estandarización para el
almacenamiento de la información.
Ontologías representacionales: en las que se especifican las
conceptualizaciones que subyacen a los formalismos de representación
del conocimiento, por lo que también se denominan meta-ontologías
(meta-level o top-level ontologies).
2.4.3 Desarrollo de una Ontología:
Existen varias metodologías que guían en la construcción de una ontología [23],
como por ejemplo el método Uschol and King´s, el método Methontology ó el
On-to-Knownledge. Para iniciar el proceso de creación de una ontología lo
primero qué se debe analizar es el dominio y el ámbito de la ontología
definiendo los recursos e información que se va a utilizar, analizar también para
que va a estar orientada la ontología. Luego es necesario ver la posibilidad de
reutilizar una ontología ya existente ó de que nuestra ontología tenga algún tipo
de interacción con otra Ontología relacionada.
Para el desarrollo de una ontología se debe tener presente los siguientes pasos
[24]:
Definir las clases: para poder llegar a identificar las clases de una
ontología, es necesario describir los términos más importantes del tema,
para que en base a estos podamos definir luego cuáles serán tomados
como clases y cuales como subclases según su clasificación.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
39
Organizar las Clases jerárquicamente: colocar las clases en una
jerarquía de taxonomías (subclase, superclase)
Definir las propiedades (atributos) y las características de estas como
las de rango, dominio, cardinalidad, etc. y describir los valores
permitidos para estos.
Creación de Instancias: rellenar los valores de los atributos con
ejemplos.
2.4.4 Lenguajes de Ontologías:
Permite que las ontologías sean interpretables por las máquinas [26]:
OWL (Lenguaje de Ontologías Web): El lenguaje OWL ha sido diseñado
para que las aplicaciones puedan procesar e integrar automáticamente
el contenido de la información en la Web, en vez de simplemente
presentarla para “consumo humano”. OWL toma como base lenguajes ya
existentes tales como XML, XML Schema, RDF y RDF Schema, pero
incluye nuevas características para permitir crear ontologías:
vocabulario para describir clases y propiedades, relaciones,
restricciones, cardinalidad, características de las propiedades,
propiedades enumeradas, y otras.
RDF (Infraestructura para definición de Recursos): lenguaje para
definición de ontologías y metadatos, describen recursos identificados
por URLS, se define por una tripleta sujeto (recurso), predicado
(propiedad) y objeto (literal).
WSML (web service modeling Language): es un lenguaje específico
para ontologías orientado al modelado de servicios Web semánticos.
2.5 DISCUSIÓN
Después de un estudio de los diferentes métodos para representar la
información podemos deducir que la evolución de estos sin duda ha tenido un
gran adelanto, cabe resaltar que los métodos actuales han heredado algunos
procedimientos de los métodos más antiguos como la forma de grafos que se
usa para modelar los conceptos en los nodos y las relaciones mediante arcos.
Las redes semánticas siendo una de las primeras técnicas es aún utilizada con
excelentes resultados y los metadatos es otra de las técnicas más antiguas
incluso antes que apareciera el internet, pero en la actualidad se ha
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
40
reivindicado su uso, se pueden aplicar en todas las áreas no solo en el área
educativa y presentan facilidad para agregar y extender la integración con otros
recursos, su principal desventaja es que al existir varios tipos de metadatos
usados en varios sistemas se dificulta la interoperabilidad entre estos.
Las taxonomías son muy utilizadas para la representación y administración de
la información en compañías, empresas u organizaciones en general, tiene como
principal ventaja la simplicidad en su estructura así como también permiten la
incorporación de información desde otros recursos como ontologías y tesauros.
Por estas razones pueden ser combinadas con las Ontologías de domino, ya que
estas tienen como objetivo modelar el conocimiento en un área definida, por
ejemplo todo lo concerniente a la industria y comercio de la madera.
Sin duda el método de representación de la información más usado y con
excelentes resultados actualmente son las ontologías, se las usado mucho en lo
que tiene que ver con tratamiento semántico de la información.
Todos estos métodos de representación de la información nos ayudan a
preparar la información de tal manera que sea más fácil su uso y tratamiento a
la hora de querer interrelacionar conceptos mediante relaciones lo que permite
poder corresponder información entre un lenguaje y otro, u obtener aspectos
generales de conceptos en un idioma específico que es nuestro objetivo de
estudio. Mediante las ontologías el establecer relaciones semánticas, atributos
léxicos, correspondencias entre idiomas es más fácil y permite reutilización
para poderlas integrar con otras ontologías, o con otros sistemas de tratamiento
lingüístico.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
41
3. CAPITULO
Tecnologías Existentes
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
42
3.1 ONTOLOGÍAS MULTILINGÜES:
Una Ontología Multilingüe es un sistema estructurado que nos permite manejar
información (texto) en diferentes idiomas, está conformada por una ontología y
un conjunto de diccionarios, el tamaño del conjunto de diccionarios depende del
número de idiomas que se incorporen a la ontología multilingüe, ya que se
necesita de un diccionario por cada lengua agregada. En este tipo de ontologías
también es necesario identificar un conjunto de conceptos, y un conjunto de
relaciones.
El diccionario D, es una asociación de conceptos C con un conjunto de
términos pertenecientes a un lenguaje L [26].
El proyecto NeOn dedicado al desarrollo de ontologías, ha considerado la
posibilidad de proveer de multilingüalidad a las ontologías, para esto han creído
conveniente usar la Localización, que es un término muy utilizado en varias
áreas de estudio, cuando se habla de multilingüismo este término está muy
orientado a ontologías, entendiéndose por localización al proceso de adaptación
de una ontología a un lenguaje y cultura en particular, para realizarlo hay que
tener en cuenta algunos de los aspectos de la ontología como la capa léxica,
sintáctica, de representación, terminológica, conceptual y pragmática.
LabelTranslator es un software que ha sido desarrollado dentro de este mismo
proyecto para convertir este proceso en una estrategia semi-automática de
localización de ontologías y otros recurso semánticos multilingües, en la última
versión de esta herramienta se ha habilitado a este software para que tenga
conexión con EWN uno de los tesauros multilingües más reconocidos y usados
actualmente[27].
La Internacionalización es el proceso de generalización de un producto, capaz
de volverse manejable en múltiples idiomas y culturas, sin necesidad de realizar
un re-diseño.
El proyecto Lor@ propone una arquitectura en la que se hace uso de ontologías
de dominio, y ontologías multilingües las cuales actúan como una interlingua
para la integración de las ontologías de dominio, el interés de desarrollar este
proyecto surge por la necesidad de manejar la gran cantidad de recursos
desarrollados y almacenados por el Aula Virtual de España (AVE) del Instituto
de Cervantes. Existe la necesidad de gestionar un sin número de Objetos de
Aprendizaje (OA) los cuales a más de ser de diversas áreas de conocimiento
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
43
provienen de diversos repositorios, ya que al ser este un sistema abierto
permite la interoperabilidad con otros repositorios, con otros formatos de
representación de sus OA y de otros lenguajes. Las ontologías de dominio
permitirán representar las relaciones entre los conceptos de las diversas áreas
del conocimiento a las que pertenecen los OAs de un repositorio, estas
ontologías pueden ser de naturaleza multilingüe ya que esto nos permitirá una
mejor representación de los OA, enriqueciendo sobre todo su búsqueda y
recuperación, también es necesaria otra ontología que sirva de enlace
(interlingua), proporcionando relaciones entre clases e instancias de las
diferentes ontologías [22].
En la siguiente figura se detalla la arquitectura antes mencionada, los círculos
color celeste corresponden a las ontologías de dominio y las líneas representan
a las ontologías multilingües que actúan como interlingua, para enlazar las
diversas áreas del conocimiento y lenguas.
Figura 3.1 Arquitectura Lor@, Ontología Interlingua [22].
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
44
OntoSelect26 es un repositorio de ontologías que se encarga de recolectar,
analizar y organizar ontologías publicadas en la web de varios leguajes
naturales, mediante un análisis a esta biblioteca se ha podido establecer que es
muy poco el número de ontologías multilingües que existen por el momento.
Menos del 3% de las ontologías de este repositorio son multilingües, esto se ha
debido al poco interés que ha habido por parte de los grandes grupos de
investigación internacional como; LISA (Localization Industry
StandradsAssociation), OSCAR (Open Standards for Container/Content Allowing
Re-use), OASIS (Organization for the Advancement of Structured Information
Standards), W3C, ISO.
Es en estos últimos años que las empresa que manejan gran cantidad de
información y sobre todo que manejan información en varias lenguas, se han
interesado en las ontologías multilingües, algunas de estas empresas son OMS27
(Organización Mundial de la Salud) y la FAO28 (Organización de las Naciones
Unidas para la Agricultura y la Organización) que maneja información en seis
lenguas oficiales, también tiene tesauros, glosarios y bases de datos donde aloja
recursos en más de 15 lenguas por esta razón tiene gran interés en estructurar
su información para que su manejo y compartición sea mejor.
La Unión Europea ha puesto en marcha recientemente el Proyecto Monnet
(Multilingual Ontologies for Networked Knowledge), en el que trabajaran
investigadores españoles, universidades Europeas y el Grupo de Ingeniería
Ontológica de la Facultad de Informática de la Universidad Politécnica de
Madrid (FIUPM). El objetivo de este proyecto es crear ontologías multilingües
que permitan mejorar la recuperación y presentación de información, de tal
manera que se cubran las necesidades de las industrias y el gobierno para el
mejor aprovechamiento de la información en internet [28].
26 http://olp.dfki.de/ontoselect/
27 Sitio Oficial de OMS: http://www.who.int
28 Sitio Oficial de FAO: http://www.fao.org/
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
45
3.2 INTERLINGUA
Una interlengua es un lenguaje mediador, por medio del cual podemos
establecer una comunicación entre diferentes idiomas. Esto facilita el
entendimiento entre hablantes de diversas lenguas ya que no necesitan
aprender todas las lenguas que forman parte de la comunicación.
Podemos además definir un lenguaje natural (inglés, francés, español, etc.)
como una interlingua, pero para esto es necesario llegar a un grado de
Desambiguación muy alto, ya que se necesita que todos los lenguajes
involucrados puedan ser representados a través de la lengua escogida.
La lengua de cada parte del mundo tiene características específicas que son
agregadas por los hablantes de la misma, estas características se dan en base a
ciertos factores como: la cultura, el nivel económico, descendencia de otras
lenguas, etc. y es por estas características que existe una gran brecha entre
lenguas, lo cual no ha permitido encontrar hasta ahora una representación de
las lenguas que nos permita abarcar todas la lenguas del mundo. Una
interlengua posee las características de cualquier lengua como: léxico,
sintáctico, semántico [29], y es hasta el momento es el único método que nos
permite combatir el multilingüismo, no al cien por ciento pero si en su gran
mayoría.
La interlingua es un método indirecto de TA29, basado en la lingüística
computacional y en la IA, su principal ventaja es facilitar y dar independencia ya
que existe un paso para el análisis (del lenguaje origen), creación de
representación y otro independiente para la generación (lenguaje destino). Otro
método indirecto pero menos eficaz es el de transferencia pero en este la
traducción se la hace mediante una representación intermedia de lengua a
lengua, hay que diseñar una representación para cada par de lenguas, algunas
veces es más fácil cuando las lenguas son afines o descendientes. Este es un
método menos complejo que la representación de la interlingua pero resulta
menos óptimo. Además para la creación de un sistema de TA se necesitaría de
N(N-1)30 módulos y para la creación de una Interlingua solamente
29 llamada también Machine Translation
30 N= número de lenguajes.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
46
necesitaríamos 2N módulos, por lo que se puede demostrar que la interlingua
soporta de mejor manera el incremento de lenguajes.
Figura 3.2 Arquitectura de la TA basada en Interlingua [29].
Las metodologías para crear una interlingua difieren mucho en el grado de
análisis que se debe realizar al lenguaje de origen, se debe realizar el análisis
más profundo en la lengua origen ya que de esto depende que la palabra esté
desambiguada con el sentido correcto y tener más exactitud. Es posible que
durante la conversión a la interlingua se pierda información sobre el sentido y la
gramática de las palabras, esto ocasiona que la interlingua de otra
interpretación y por consiguiente sea poco exacta.
En cambio un método directo traduce palabra por palabra, no tiene una
representación intermedia, ni un análisis sintáctico ni semántico.
Este lenguaje que puede ser llamado lenguaje artificial debe contar con ciertas
características, que se describen a continuación:
Precisión: en interpretar los conceptos, esto ayuda a tener
resultados más exactos en la representación de una palabra que
provenga de cualquier idioma.
Inambigüedad: esta característica es primordial, ya que una
palabra que se preste a varios significados debe ser analizada de
manera más exhausta.
Neutralidad: no se debe apegar a las características de ninguna
de las lenguas que intervienen, en caso de que se escoja un
lenguaje natural como interlingua hay que llegar a un nivel muy
alto de Desambiguación.
Canonicidad: representa de una única manera un concepto que es
representado de diferentes maneras en varios idiomas.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
47
Es importante mencionar también, que el crear un interlingua es un proceso
difícil por las siguientes razones:
Crear un nuevo lenguaje para la representación resultaría muy tedioso lo
que llevaría demasiado tiempo y esfuerzo en crearlo, en cambio si se
utiliza un lenguaje natural como el inglés o cualquier otro, hay que tener
mucho cuidado de aplicar una Desambiguación exhaustiva, ya que las
palabras no pueden depender de ningún lenguaje natural.
En caso de escoger algún lenguaje como interlingua, es necesario
adicionar características que permitan independencia, así como sencillez
y facilidad de expresar cualquier palabra con la representación de la
Interlingua.
Otra característica a tomar en cuenta en la creación de una interlingua es
la flexibilidad, esta es necesaria para que se facilite la transformación de
un lenguaje natural a la Interlingua o viceversa.
La expresividad, independencia de lenguaje y abstracción son requisitos
indispensables y muy difíciles de conseguir, por lo que las interlinguas hasta el
momento solo se han desarrollado para sistemas de dominio limitado, ya que
esto es difícil de conseguir para sistemas de dominio independiente.
Las interlinguas son usadas en varias ámbitos como: Procesamiento de lenguaje
Natural, TA, Representación del conocimiento, Desambiguación de palabras y
resolución de anáforas, entre otros [29] [30].
A continuación se detalla algunos proyectos que utilizan interlinguas:
ATLAS II
Atlas es un sistema de traducción automática que tuvo sus inicios en los años
70, cuando se empezó a dejar de lado los sistemas de traducción automática
directa para empezar a crear sistemas más robustos y exactos como son los
sistemas con interlinguas.
Inicialmente este sistema empezó con la traducción en dos idiomas: Inglés y
Japonés, para luego agregar otros idiomas: coreano, francés y alemán. El
primer análisis que realizaba era el Análisis Morfológico para lo cual usaba
un diccionario de conceptos en el cual organiza a las palabras según ciertas
relaciones como de equivalencia, sinónimos, hiperónimos, etc., reglas de
análisis y un modelo del mundo. El siguiente análisis era el Análisis
Sintáctico y Semántico. Como resultado de estos análisis generaba una
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
48
interlingua que estaba constituida en forma de una red, en donde los nodos
pertenecían a los conceptos y las aristas a las relaciones (descripciones) de
los conceptos. También usó la lógica de las redes semánticas para el análisis
de los conceptos. [31][32]
Word Dictionary
Analysis Rules
Word Model
(Meaning Relation)
Word Dictionary
Generation Rules
Language Model
(Co-ocurrence
Relation)
Sentence Analysis Analysis Rules
Conceptual Structure
transfer
Conceptual
Estructure
Transfer Rules
Source Language
Conceptual Structure
(interlingua)
Target Language
Figura 3.3 Proceso de Traducción de ATLAS II. [31]
Universal Networking Language (UNL)31
El sistema UNL fue creado para soportar servicios multilingües y para mejorar
la traducción automática; con el objetivo de terminar las barreras de lingüísticas
que existen en internet para la comunicación y el conocimiento de la personas.
El proyecto inicio en 1996 con un grupo de más de 100 científicos e
investigadores de todo el mundo y financiado por el Instituto de Estudios
Avanzados de la Universidad de las Naciones Unidas, lo que se pretende es crear
una interlingua que sea una representación universal a todos los lenguajes, se
inicio con 14 lenguas como base: árabe, chino, alemán, francés, japonés, hindi,
indonesio, italiano, mongol, portugués, ruso, lituano, español y tailandés (más
tarde letón y coreano) [33].
Se define como un Lenguaje Formal, que se forma de la conexión de servidores
de las diferentes lenguas, su estructura es la de una red semántica formada por
31 Sitio Oficial de UNL: www.undl.org
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
49
conceptos que son los nodos y están representados por las Palabras
Universales (UW) y los arcos por las relaciones entre las UWs.
En UNL se han definido 41 relaciones semánticas, las cuales permiten poder
representar y expresar cualquier contenido, algunas de estas relaciones [34]:
- agt (agente): define a quien inicia/realiza una acción.
- con (condición): se refiere a un estado que está condicionado con otro
estado o con algún evento.
- plc (lugar): lugar donde un evento ocurre, donde una cosa existe.
- nam (nombre): define el nombre de una cosa.
- dur (duración): define el tiempo en el que un estado existe, o un evento
ocurre.
- ins (intsrumento): se refiere a un instrumento que ayuda a la
realización de un evento.
- met (método): contempla los métodos o maneras para resolver un
evento.
- or (disjunción): define una disjunción entre dos conceptos.
- qua (cuantificación): define la cantidad de una cosa o unidad.
- tim (time): define el tiempo que un estado ocurre o en el que un estado
es verdadero.
- etc.
Entre los atributos que este sistema a definido podemos citar algunos [35]:
- Atributos del tiempo: presente, pasado, futuro.
- Atributos de evento: empezar, continuar, completar, etc.
- Atributos de actitud: afirmativa, exclamación, interrogativa, etc.
- Atributos de sentimiento: deseo, insistencia, intención, conclusión, etc.
- entre otros.
Las UWs se usan para representar el sentido de las palabras de todas las
lenguas, su característica es la sencillez, para que de esta manera sean fácil y
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
50
sencillamente entendibles por los hablantes de diversas culturas, y la
complejidad para que puedan abarcar el sentido de todas las palabras.
Las palabras en UNL esta categorizadas jerárquicamente, existen cuatro
categorías: concepto nominal, verbal, adjetival, adverbial. Así como representa
en el gráfico siguiente.
uw
nominal (thing)
verbal adjectival (adj)
adverbial (adv)
(do) (occur) (be)
Figura 3.4 Categorización de Palabras Universales [35]
UNL usa como lenguaje base al inglés, para poder representar el sentido de las
palabras en una palabra en inglés se valen de headworks, las cuales permiten
desambiguar una palabra mediante asignación de características sintácticas
como si es un verbo, objeto, adjetivo, género, etc.
Score(icl>event,agt>human, fd>sport)
.@entry.@past.@complete
agt
Ronaldo
obj
goal(icl>thing)
ins
head(pof>body)
plt
comer
mod
left
obj
pos
Figura 3.5 Ejemplo de representación de una UW en UNL. [35]
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
51
Componentes:
- Converter: corresponde al proceso de transformar de una lengua
natural al lenguaje de UNL.
- Deconverter: proceso que convierte del lenguaje de UNL a una
lengua natural.
Entre los usos actuales y futuros de UNL tenemos:
- Diccionarios multilingües
- Extracción automáticas de Ontologías
- Buscadores inteligentes Multilingües
- Extracción de información Multilingüe
- Sistemas de dialogo Multilingüe
Otras aplicaciones
Existen otras áreas que se valen de una interlingua como el PLN para
Desambiguación de palabras, resolución de anáforas, etc. En la inteligencia
artificial también es necesaria una interlingua para poder integrar diferentes
sistemas, para la comunicación entre agentes, entre otras.
3.3 RECURSOS LINGÜÍSTICOS
3.3.1 Corpus
Corpus es un almacenamiento electrónico de las características del uso de una
lengua, que permiten saber cómo funciona esta, en base a textos o muestras
orales. Una definición más explícita nos ofrece Alvar Ezquerra, Blanco
Rodríguez y Pérez Lago (1994): “Un corpus en un conjunto homogéneo de
documentos lingüísticos de cualquier tipo, (orales, escritos, literarios, coloniales,
etc.) que se toman como modelo de un estado o nivel de lengua predeterminado, al
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
52
cual representan o se pretende que representen. Este conjunto de enunciados se
someterá a un tratamiento informático cuyos resultados permiten el mejor
conocimiento de las estructuras lingüísticas de la lengua representada” [32]
La función de un corpus independiente de que tipo sea es permitir la conexión
entre la teoría y los datos, mostrar a menor escala como funciona y permitir la
comprensión de una lengua pero para lograr esto el corpus debe estar
construido sobre bases sólidas que aseguren que los resultados del modelo sea
efectivamente un modelo real. Los documentos o elementos que se toman en
cuenta para la construcción del corpus deben tener los mismo criterios de
selección, ya sea en una o diversas lenguas.
En la actualidad son de gran uso y aplicabilidad en la Ingeniería Lingüística ya
que existe la necesidad de trabajar con datos reales y los más exhaustivos
posibles, que permitan analizar con la máxima efectividad las características del
objeto de estudio.
Con el uso de la informática estos recursos han mejorado notablemente, ya que
permite el manejo de grandes volúmenes de datos, y esto mejora notablemente
la precisión de los resultados esperados. Además los corpus son muy utilizados
en la TA, especialmente los Corpus Bilingües y los Paralelos quienes actúan
como fuentes de alimentación de texto para las máquinas, lo que se hace es
buscar frases cortas en el corpus y sus alineaciones en otros idiomas. La ventaja
es que no se debe escribir la frase completa para buscar sus correspondientes
en otros idiomas, y una desventaja sería el tiempo que tarda y un alto grado de
inexactitud en caso de realizar búsquedas en corpus con un gran tamaño de
información. También es importante mencionar que los documentos que se
introducen en un corpus se pueden crear en base a metadatos como TEI, con el
objetivo de guardar información estructurada que como ya hemos mencionado
anteriormente permiten realizar búsquedas más rápidas y precisas [36].
El grupo de investigaciones GENTT32 ah creado un corpus multilingüe que
abarca los siguiente idiomas catalán, español, inglés, alemán y francés; contiene
información jurídica, técnica y médica. Es un corpus textual que recopila textos
completos y es además un corpus comparables (se trabaja para convertirlo en
32 GENTT (Textual Genres for Translation): www.gentt.uji.es
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
53
un corpus paralelo), está presto para ser utilizado con fines académicos y
profesionales [37].
Existen varios Tipos de Corpus, se detallan según la siguiente clasificación:
Según la Modalidad de la Lengua: se dividen en Corpus Textuales o
escritos y Corpus Orales que pueden formarse por transcripciones o
grabaciones.
Según el número de Lenguas:
Corpus Monolingües y Corpus Bilingües cuando reúnen textos
sobre el mismo criterio en diferentes idiomas.
Corpus Comparables: contienen textos originales y traducidos,
pero todos en la misma lengua.
Corpus Paralelos cuando en un corpus encontramos el mismo
textos pero en diferentes lenguas. Ejemplos: Hansard Corpus33
,
Corpus de IBM34
, ITU35
Corpus Alineados cuando se alinea similares textos a sus
correspondientes en otros idiomas.
Según la Cantidad, proporción y distribución de los Tipos de Textos:
se dividen en los siguientes tipos: Grandes, Equilibrados, Piramidales.
3.3.2 Tesauros
Un Tesauro es un instrumento informático terminológico que permite convertir
un conjunto de términos en lengua natural a un lenguaje formal y controlado. Es
un conjunto de palabras controladas, que guardan una relación semántica y que
pertenecen a un dominio específico [38]. Se considera una herramienta de
control terminológico muy útil para el análisis, descripción y recuperación
automatizados.
Elementos de la estructura de un Tesauros:
33 contiene actas del parlamento canadiense en inglés y francés.
34 contiene manuales técnicos de IBM, en francés e inglés.
35 creado en el grupo europeo CRATER, para confección automática de léxiicos bilingües en tres idiomas inglés, español, francés.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
54
- Unidades Léxicas: descriptores de un conjunto de unidades léxicas
que representan conceptos, un concepto está representado por un
único término y sirve para la recuperación de información. Y los No
Descriptores, términos que se eliminan después de haber hecho un
análisis (sinonimia).
- Relaciones Semánticas: relaciones entre unidades léxicas, que
pueden ser de equivalencia, jerárquicas, asociativas.
Tipos de Tesauros:
- Tesauro monolingüe: contiene descriptores en una única lengua.
- Tesauro multilingüe: contiene descriptores en más de una lengua.
- Tesauro Macrotesauro: se trata de un tesauro que incluye algunos
descriptores básicos comunes y los propios de su campo o
especialidad.
Algunos Tesauros multilingües disponibles:
- EUROvoc36 es un tesauro plurilingüe que abarca todos los ámbitos de
actividad de las comunidades Europeas, permite indizar los
documentos en los sistemas de documentación de las instituciones
europeas y de sus usuarios. El Parlamento Europeo, la Oficina de
Publicaciones de las Comunidades Europeas, los parlamentos
nacionales y regionales de Europa, las administraciones nacionales y
determinadas organizaciones europeas se sirven actualmente de él.
En el sitio Eurovoc, se puede encontrar actualmente la versión 4.3.
- EUROvoc 4.3 existe en las 22 lenguas oficiales de la Unión Europea
(búlgaro, español, checo, danés, alemán, estonio, griego, inglés,
francés, italiano, letón, lituano, húngaro, neerlandés, maltés, polaco,
portugués, rumano, eslovaco, esloveno, finés y sueco) y otra lengua
(croata) y es utilizado en proyectos de investigación sobre
recuperación de información, clustering de documentos y
clasificación. El tesauro tiene una lista estructurada con más de 6.600
descriptores y 127 microtesauros en 21 campos temáticos. Este
tesauro es de libre descarga, se puede realizar su descarga parcial o
total desde internet. [39]
36 Sitio Oficial de tesauro EUROvoc: http://europa.eu/eurovoc/
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
55
- El Tesauro UNBIS37 contiene terminología para el análisis
documental del Sistema de Información Bibliográfica de las Naciones
Unidas (UNBIS), y es adoptado también como léxico documental por
el Sistema Oficial de Documentos de la ONU. Es un tesauro
multilingües que maneja las seis lenguas de la ONU árabe, chino,
inglés, francés, ruso y español. Comprende temas en diversas áreas
como: política, economía, sociedad, agricultura, industria, demografía,
salud, cultura, entre otras. Este tesauro se mantiene en continua
avance ya actualización, y está cargado en la página web de Sistema
de Información bibliográfica de las Naciones Unidas.
- Macrotesauro de la OCDE38, es un tesauro multilingüe que contiene
gran cantidad de términos económicos en diversos temas, es
complejo, sencillo y de fácil manejo por lo que se considera como el
mejor tesauro especializado en economía y está en cuatro idiomas:
español, inglés, francés, alemán. La organización que se encarga de la
creación, publicación y mantenimiento de este tesauro es la
Organización para la Cooperación y el Desarrollo Económico (OCDE).
Para acceder a la información de este tesauro se lo puede hacer
navegando mediante su contenido que está organizado
jerárquicamente o bien mediante un motor de búsqueda.
3.3.3 Glosarios
Repertorio de términos pertenecientes a un área específica de conocimiento o
disciplina, agregando definiciones o explicaciones que son necesarias para su
descripción.
Algunos ejemplos de Glosarios:
El Glosario multilingüe elaborado por FMI39 es una base de datos
terminológicos contiene más 4.500 fichas con términos útiles para
quienes traducen textos relacionados con el FMI (hasta el año 2000).
Para cada término se presenta su traducción a varios idiomas, pero no su
definición. La base de datos comprende palabras, frases y nombres de
37 http://www.unhq-appspub-.01.un.org/LIB/DHLUNBISTThesaurus.nsf/
38 http://info.iubk.ac.at./info/oecd-macroth/
39 http://www.imf.org/external/np/term/index.asp
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
56
instituciones que suelen aparecen en documentos del FMI sobre
cuestiones relacionadas con moneda y banca, finanzas públicas, balanza
de pagos y crecimiento económico, entre otros temas.
Glosario de Inter-Active Terminology for Europe (IATE)40 El diccionario online IATE es sin duda el mejor y más profesional diccionario de idiomas que se puede encontrar en Internet. Traduce las palabras en todos los idiomas europeos proponiendo diferentes traducciones según el ámbito temático seleccionado.
3.3.4 Wordnet
Wordnet fue creada en 1985 con el respaldo de instituciones gubernamentales y
privadas, en un inicio fue creada en base a relaciones psicolingüísticas (estudio
de la adquisición del conocimiento léxico y cómo éste se organiza en la memoria
de las personas para su acceso y uso inmediato, para aplicarlo en el
almacenamiento computacional de la información).
Un wordnet es una base de datos léxica, que alberga palabras en inglés o en
cualquier otro lenguaje (Sueco, Noruego, Danés, Griego, Portugués, Catalán,
Rumano, Ruso y más41) estructuradas en forma de redes semánticas. Lo que
desea representar es el conocimiento léxico semántico, por lo que clasifica a las
palabras en cuatro categorías: adjetivos, adverbios, nombres, verbos, esta es su
principal diferencia con un diccionario. Este recurso léxico puede ser usado
para análisis léxico, lingüística computacional y otras áreas relacionadas.
Su estructura está constituida como una matriz42 en la que se identifican las
formas léxicas que se refiere a la manera física de escribir o pronunciar una
palabra y el significado léxico que se refiere al concepto lexicalizado expresado
a través de las formas léxicas, de esta manera en las columnas de la matriz se
encuentran todas las palabras (formas léxicas) y en las filas se encuentran los
significados, es decir que una intersección en la matriz corresponde a una
palabra con su respectivo significado.
40 Glosario IATE: http://iate.europa.eu
41 http://www.globalwordnet.org/gwa/wordnet_table.htm
42 Matriz de Vocabulario.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
57
Figura 3.6 Matriz de Vocabulario en Wordnet [41]
Las palabras o término están relacionadas mediante relaciones léxicas y están
organizadas en Synset (conjunto de palabras), además del Synset cada palabras
tiene asociada un número de sentido (car#1, car#2, car#3), una definición
correspondiente a cada sentido, y un identificador que es un código único de 8
dígitos (SynSetID)43 [42].
Figura 3.7 Sentidos del sustantivo Car (Wordnet 2.0)
Los Synsets están enlazados mediante relaciones semánticas [42], las más
importantes son:
Sinonimía/ Antonimía: son las relaciones más importantes que tiene
wordnet, sinonimia significa que una palabra puede sustituir a otra en el
mismo contexto sin alterar el significado (significan lo mismo) y
Antonimia es una relación que expresa lo contrario a una palabra, por
ejemplo feo / bonito.
43 el SynSetID es un identificador de cada palabra el cual sirve para poder relacionar a la
misma en el EW con su correspondiente en otro idioma a través de ILI.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
58
Figura 3.8 Sinónimos de house.
Figura 3.9 Antónimos de Clean
Hiponimía/Hiperonimía: una palabra hipónima es aquella que posee
los rasgos semánticos de otras más general su heperónimo. Ejemplo:
clavel, rosa, margarita (flor). U hiperónimo es una palabra que señala, de
una manera general y amplia, a un conjunto, género o clase de seres.
Ejemplo: Flor (clavel, geranio), Pez (tiburón, martillo).
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
59
Figura 3.10 Hipónimos de dog.
Figura 3.11 Hiperónimos de dog
Holonimia/Meronimia: un holonimo es una palabra que señala el todo
de una estructura. Ejemplo: Brazo es el holónimo de mano. Un merónimo
es una palabra cuyo significado constituye una parte del significado total
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
60
de otra palabra, denominada ésta holónimo. Ejemplo: dedo es merónimo
de mano.
Figura 3.12 Holónimo de hand.
Figura 3.13 Merónimo de hand.
Morfología: esta relación no estuvo contemplada en el diseño inicial de
wordnet, pero luego se adjunto para darle utilidad al sistema, esta
relación consiste en analizar morfológicamente a las palabras, para
acceder a su forma base en caso de que estén escritas en alguna otra de
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
61
sus formas. Por ejemplo wordnet nos presenta la palabra base árbol, ante
una consulta de la palabra árboles.
En la siguiente figura podemos ver la estructura jerárquica que hace wordnet
para cada uno de los Sysnet:
Figura 3.14 Ejemplo de un Synset [43]
Wordnet es la base de datos léxica que más se ha usado para proyectos de
lingüística computacional, pero tiene la desventaja de que no posee las
relaciones léxicas, debido a la correspondencia de múltiples sentidos de las
palabras.
3.3.5 Eurowordnet
EWN es una base de datos multilingüe estructurada como red semántica que se
basa en la reutilización de recursos léxicos como wordnet que son bases de
datos léxicas las cuales organizan la información (nombres, verbos, adverbios,
sustantivos) en Synset, cuenta con el uso de wordnet de varios idiomas como:
Holandés, Italiano, Español, Alemán, Francés, Checo y Estonian. [41] [37].
El proyecto EW finalizó en 1999, desde entonces ha tenido mucha acogida por la
robustez de su arquitectura, la precisión y los buenos resultados obtenidos en
los proyectos en donde este ha sido utilizado. En la actualidad son varias
organizaciones y grupos que están desarrollando nuevos wordnet en otros
idiomas (Europeos y no Europeos), tomando como referencia las
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
62
especificaciones de EWN, con el propósito de luego poder integrar y contribuir a
la robustez y completitud de este recurso multilingüe.
Global WordNet Association44, es una asociación pública y libre que continúa
con estos trabajos, que estimula a la construcción de nuevos trabajos en este
proyecto como: creación de wordnet, desarrollo de herramientas, interlinguas,
entre otros.
En esta red semántica se crean nuevas relaciones entre synsets, se integran
relaciones multilingües debido a la implementación de relaciones
interlingüísticas, la interlingua ILI y una ontología interlingüísticas.
ILI (Inter-Lengua-Index) es una interlengua que interconecta a las Wordnet, es
un súper conjunto de palabras que deben aparecer en wordnets separadas, por
estas razones:
- Debe permitir vincular significados equivalentes en los que no
intervenga precisamente el inglés por ejemplo chino-italiano con el
mismo registro de ILI.
- Debe permitir almacenar domain-labels para significados de cualquier
idioma
Para manejar una lista de conceptos y relacionar las palabras de las diferentes
wordnets se ayuda de dos Ontologías (Ver Figura 3.15):
Top Ontology que representa una jerarquía de orden superior con 63
distinciones semánticas de conceptos independientes del lenguaje, es decir
se define una estructura semántica común a todos los lenguajes, por
ejemplo: mano y dedo (Meronimía). Esta ontología esta interconectada con
ILI a través de WordNet-Offsets.
Domain Ontology que etiqueta las palabras según una jerarquía de
dominios como por ejemplo ``Deporte'', ``Naturaleza'', etc.
44 Sitio Oficial: http://www.globalwordnet.org/
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
63
Figura 3.15 Descripción de ILI
Cada idioma se representa en un Wordnet, y maneja sinónimos que son
agrupados en Synset. EWN se construye con recursos disponibles, y base de
datos con información semántica. Combinar información de recursos creados
independientemente, con esto se busca que la base de datos sea más confiable o
consistente y de mantener la diversidad de vocabulario en los diferentes
lenguajes.
Las wordnets de los lenguajes específicos se almacenan como un lenguaje
independiente de la base de datos léxica, y las palabras equivalentes de otros
lenguajes se vinculan con cada uno.
La vinculación puede realizarse de la siguiente manera:
Entre 2 lenguajes: mucho trabajo para agregar nuevas lenguas.
Interlingua: lexicón grande de palabras estándar
Un lenguaje pivote: dependencia de un solo lenguaje
Índex no-estructurado.
Por ejemplo: el Synset en inglés < party, political_party> está relacionado a
través del ILI con el Synset en español <partido, partido político>, ya que en el
módulo central que es ILI se guarda un registro conocidos como ILI record en
donde está establecido mediante estos “códigos” que x Synset en Inglés
corresponde a x Synset en Español, otro ejemplo podemos observar en la Figura
3.16.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
64
Figura 3.16 Ejemplo de ILI [41]
Diseño de EWN se basa en los siguientes principios:
Combinar varios wordnet de diferentes idiomas a través del ILI.
Desarrollo de una interfaz para poder combinar las características
semánticas y rastrear las diferencias.
Comparte las características del lenguaje Independiente, y mantienes
las características de los Lenguajes Específicos.
Las relaciones que se manejan en EWN operan sobre 5 tipos de datos:
Word meaning: Ejemplo hombre
Instancia: Ejemplo José
ILI record: código que identifica a cada registro
Dominios: Ejemplo Biología
Top concept
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
65
3.4 PROYECTOS RELACIONADOS Y APLICACIONES QUE
PRESENTAN MULTILINGUISMO
3.4.1 GENOMA KB
GENOMA KB45 es un proyecto desarrollado por el IULATERM (Instituto de
Lingüística Aplicada) de la Universidad Pompeu Fabra de Barcelna, esta Base de
Conocimiento comprende información acerca del genoma humano donde existe
información textual, terminológica, documental y conceptual referente a este
dominio. La información que aquí se almacena se encuentra en tres idiomas:
español, inglés y catalán. [21]
Incorpora en su estructura un conjunto de cuatro módulos interrelacionados:
Módulo Terminológico: maneja información textual, recursos léxicos,
multilingualidad, información administrativa.
Módulo Ontológico: este módulo fue desarrollado mediante la
herramiento OntoTerm46, para su estructura toma en cuenta 21
conceptos básicos, y a los cuales se les añadió 100 conceptos propuestos
por expertos del dominio.
Módulo de Corpus: textos multilingües.
Módulo de Entidades.
45 http://genoma.iula.upf.edu:8080/genoma/
46 http://www.ontoterm.com
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
66
La relación entre estos módulos lo podemos observar en la siguiente
figura.
Figura 3.17 Arquitectura de GENOMA KB [21]
3.4.2 AGROVOC
AGROVOC47 es un tesauro estructurado multilingüe desarrollado y mantenido
por FAO48 y la Comunidad de Naciones Europeas (1982), con el objetivo de
mejorar la recuperación y consulta de información en cuanto a temas como
agricultura, silvicultura, pesca, alimentación, entre otros. En un inicio fue
desarrollado para usarse en tres lenguas, en la actualidad ya se han incorporado
17 lenguas y maneja 579523 términos. [21]
La principal función del tesauro es normalizar los procesos de indexación para
facilitar la búsqueda y darle mayor eficacia, y proporcionar al usuario los
recursos más pertinentes. Se expone a través de un portal Web, al que pueden
acceder usuarios de todo el mundo, ya se ha podido verificar mediante
estadísticas que presenta un gran número de visitas (5400 visitas al día, por 90
países).
47 http://aims.fao.org/website/AGROVOC-Thesaurus/sub
48 Sitio Oficial de FAO: http://www.fao.org/
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
67
AGROVOC consta de términos, compuestos por una o más palabras que
representan uno y el mismo concepto. Para cada término se presenta un
conjunto de palabras, que muestra la relación jerárquica y no jerárquica que
mantiene con otros términos: BT (término más amplio), NT (término más
estricto), RT (término relacionado), UF (no descriptor). Además, se usan notas
de contexto para aclarar el significado y el contexto de los términos. Los
términos taxonómicos y geográficos aparecen señalados para facilitar la
búsqueda, la selección y la descarga.
Este tesauro se puede descargar libremente en varios formatos (MySQL,
TagText, ISO2709, XML, y Microsoft Access.), pero no debe ser aplicado con
fines comerciales, a más de esto los usuario pueden proponer nuevos términos
que crean conveniente se deben agregar al tesauro, actualmente AGROVOC es la
base que sustenta la creación del proyecto del Servicio de Ontología Agrícola
(SOA), el SOA podrá elaborar terminologías y conceptos especializados,
específicos de las diversas esferas, que permitirán una mejor gestión de la
información en el entorno de la red. Uno de los objetivos principales del SOA es
incorporar más semántica en el tesauro, por ejemplo a través de una
especificación más precisa de las relaciones que hay entre los conceptos.
3.4.3 LIR
El sistema LIR, está estructurado como una Ontología, su clase principal es la
LexicalEntry, es esta clase la que recoge toda la información lingüística de cada
una de las lenguas por lo que se considera como una unidad que tiene forma,
sentido y significado. A través de una relación se especifica las variantes
terminológicas intralingües de los conceptos. Existe también una clase llamada
Language, que permite identificar el lenguaje y hacer búsquedas de acuerdo al
lenguaje que se escoja. El LIR está unido a la ontología mediante la clase
OntologyElement de OWL, con lo que queda garantizada la asociación del
conocimiento lingüístico a los componentes de la ontología. Más información de
este sistema podemos encontrar en [44].
3.4.4 STASIS
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
68
STASIS49 (Software for Ambient Semantic interoperable System) es un proyecto
subvencionado por el Sexto Programa Marco de la Unión Europea. El proyecto
empezó en septiembre de 2006 y terminó en agosto de 2009.
Su objetivo es acercar las tecnologías semánticas (ontologías, por ejemplo) a las
empresas mediante herramientas sencillas, así como dar a conocer las ventajas
económicas y las nuevas oportunidades de negocio que estas tecnologías
ofrecen.
En STASIS participan doce socios, pertenecientes a empresas comerciales (TIE,
Porthus, iSoft), a universidades (Universidades de Oldenburg, Modena & Reggio
Emilia y Tsinghua) y a varias organizaciones (AIDIMA, Mariner, Shanghai
Sunline, Foton, TANET, ZF y Friedrichshafen AG).
3.5 Discusión
Como podemos ver en los últimos años instituciones educativas, financieras,
industrias, gobiernos están invirtiendo dinero y tiempo para resolver problemas
multilingües que limitan su crecimiento, mediante el aprovechamiento de la
información que tiene almacenada. Esto se refleja en los aún pocos proyectos
que se han presentado en este capítulo.
De entre las tecnologías que nos permiten incorporar el multilingüismo, la
mejor hasta el momento es la Interlingua, ya que es la que presenta menor
impacto al incorporar mayor número de idiomas, mayor exactitud en los
resultados y el proyecto UNL es una clara muestra de los resultados que se
pueden alcanzar mediante esta tecnología.
Es necesario mencionar también la importancia y la ayuda que han brindado
otros recursos lingüísticos más pequeños como los tesauros, corpus, glosarios,
diccionarios, etc. ya que han sido la base para poder llegar a estudios más
grandes, como las ontologías multilingües y las interlinguas.
49 sitio oficial: http://www.stasis-project.net
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
69
4. CAPITULO
Diseño de Técnica de Representación
Universal
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
70
La arquitectura que presentamos a continuación tiene dos partes relevantes lo
que es el PLN y la técnica de Representación Universal del Lenguaje. Lo
novedoso de esta arquitectura es la reutilización de herramientas del PLN y
recursos multilingües implementados con Técnicas de Representación
Universal del Lenguaje para convertir frases escritas en un lenguaje a diversos
lenguajes obteniendo una correspondencia con mayor precisión por el hecho de
utilizar recursos que han tenido varios años de investigación y gran acogida en
múltiples proyectos en este ámbito como son: Wordnet y Eurowordnet. Esta
arquitectura está planteada solo para el procesamiento de frases simples, esto
implica que no procesa párrafos completos, ni documentos, ni textos completos.
Pero servirá de base para estudios futuro en los que se pueda implementar
características las cuales le permitan robustecerse en determinadas áreas como
son la recuperación de información, traducción, entre otras.
Es necesario resaltar que la idea de crear una representación universal, que nos
permita acercarnos a un lenguaje común o al menos a disminuir la dificultad de
comunicarnos o de entender la información que se encuentra en diferentes
idiomas, no ha surgido recientemente, ya que según las investigaciones este es
un tema que se viene tratando desde ya hace muchos años, pero
lamentablemente después de las grandes inversiones de tiempo, dinero e
investigaciones no se ha llegado a obtener mayores resultados.
Identificación
del lenguajeCorrespondencia
del lenguaje
Análisis
(Desambiguación)< atr2>
< atr3>
< atr1>
< atr..n>
Usuario ingresa
una frase
Búsqueda
(Wordnet)
Figura 4.1 Arquitectura Multilingüe para Representación Universal del Lenguaje
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
71
4.1 DESCRIPCIÓN DE ARQUITECTURA
4.1.1 Identificación del Lenguaje
Este módulo tiene como principal objetivo deducir en que lenguaje está
escrita la frase ingresada, mediante herramientas que usen diccionarios,
ontologías o haciendo un estudio de la morfología de las palabras. Este
dato lo necesitamos para saber el análisis de que lenguaje aplicar,
también lo necesitaremos en el Módulo Wordnet y el de Correspondencia
de Lenguaje para poder buscar su correspondiente palabra en inglés.
En la actualidad existen herramientas para poder realizar la
identificación del lenguaje en el que está escrito un texto, a continuación
describimos algunas herramientas que después de la investigación,
hemos creído las más convenientes para usarlas:
TEXTCAT50: es una herramienta que dispone de 76 lenguajes que
pueden ser identificados, entre ellos catalán, francés, alemán,
italiano, latín, portugués, ruso, español, etc. Hay una versión que
es de libre uso y un demo lo podemos encontrar en [45].
PetaMen51: es también otra herramienta que nos permite
identificar el idioma, a diferencia de la anterior esta tiene un
menor número de de lenguajes, solo cuenta con el
reconocimiento de 65 idiomas. Es también de libre acceso.
RLI (Rosste Language Identifier)52: es una herramienta que nos
permite automatizar el procesamiento de texto de forma rápida y
precisa para determinar el idioma y la codificación de los datos
entrantes, esta herramienta tiene la ventaja de que puede
identificar un idioma o varios idiomas dentro de un mismo
documento o texto. Puede identificar más de 50 idiomas, entre
lenguas de Europa, Asia, y Medio Oriente. Es una herramienta
comercial.
50 http://odur.let.rug.nl/~vannoord/TextCat
51 http://nlp.petamem.com/eng/nlp/langident.mpl
52 http://www.basistech.com/language-identification
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
72
Figura 4.2 Ejemplo Herramienta RLI
Además de usar herramientas como las antes mencionadas, la
identificación del lenguaje se lo puede realizar mediante un
análisis de las características de las palabras, como por ejemplo:
palabras terminadas en ing pueden ser identificadas como
palabras en inglés (verbos en continuo).
4.1.2 Análisis53
Este módulo corresponde al análisis del Lenguaje, se desglosa en tres
tipos de análisis, el Morfológico, Sintáctico y Semántico. Los dos primeros
análisis tendrán como objetivo rescatar las características generales y
descriptivas de las palabras, como nombres propios, verbos, sustantivos,
género, etc. El tercero que es el Análisis Semántico corresponde a definir
las reglas y relaciones de cada palabra. Todo este análisis es el primer
paso para poder hacer una representación universal de la palabra.
En este punto se necesita dedicar tiempo y esfuerzo ya que es necesario
realizar este análisis para cada uno de los lenguajes en los que esté
escrita la frase a analizar, ya que las reglas gramaticales, relaciones, y en
general la información morfológica, sintáctica y semántica en cada
idioma es diferente.
53 Es importante mencionar que el estudio correspondiente a este módulo está descrito en otra Tesis, la cual corresponde a una parte complementaria a este trabajo.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
73
4.1.3 Búsqueda (Wordnet)
En esta parte de la arquitectura lo que se pretende hacer es buscar el
synset correspondiente a cada una de las palabras que conforman la
frase ingresada, en base a las características que ya se han recolectado en
la fase anterior. Como ya se ha descrito en el capítulo 3 el wordnet está
estructurado en synset o conjuntos de palabras, que están conectadas
por relaciones de sinónimos, hiperónimos, etc.
Una vez que tenemos el número de sentido de la palabra según wordnet,
podemos identificar el Synset candidato y el SynsetID que es un
identificador único de cada synset, y con la ayuda de este se obtiene el
wordID que es el identificar único de cada palabra, esto con el objetivo de
buscar su correspondiente palabra en inglés en EW, ya que aquí los
diferentes wordnets están interrelacionados mediante ILI (Ver Capitulo
3), y esta correspondencia se la hace a través del synsetID.
4.1.4 Correspondencia de Lenguaje
No existe un lenguaje natural que nos ofrezca menor o mayor
desambigüedad en sus palabras por lo que no tenemos un lenguaje
candidato en ese sentido, escogeremos el Inglés como base de
representación en nuestro modelo ya que es el lenguaje que tiene mayor
cobertura, es el lenguaje que ha sido tomado como base en la mayoría de
las investigaciones y además los recursos que vamos a usar tienen sus
fundamentos en este lenguaje (Wordnet, Eurowordnet).
Este módulo nos permitirá buscar la correspondiente palabra en inglés
como siguiente paso para la representación universal de las palabras.
Para el desarrollo de este módulo nos ayudaremos de algunos recursos,
como podemos ver en la Figura 4.3.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
74
EuroWordNet
ILI
diccionarios,
TA, lexicones,
tesauros, etc.
Correspondencia
del lenguaje
Figura 4.3 Recursos para la correspondencia de palabras
Eurowordnet es nuestro principal recurso para encontrar las correspondientes
palabras en inglés, para esto nos valemos de SysnetID y luego del wordID
(obtenido en el módulo anterior) ya que mediante este se hará la respectiva
búsqueda en el ILI- records para encontrar su correspondiente en Inglés.
La frase puede estar ingresada en cualquier idioma, ya que ILI tiene los registros
de correspondencia de todos los lenguajes con los que cuenta al inglés. En caso
de que las palabras buscadas no se encuentren en EW (es decir no se esté
especificado un Sysnet en Wordnet para esa palabra) ó el idioma en el que está
escrita la frase aún no está dentro de los estudios de EW, la búsqueda se
realizará en otros recursos lingüísticos como diccionarios, corpus paralelos,
lexicones, etc.
4.1.5 Representación Universal:
Esta última parte corresponde a la entrega final de la arquitectura. Una vez
encontrado la correspondiente palabra en inglés y luego de haber
desambiguado las palabras, contamos con una información como la podemos
ver en la siguiente figura.
THE HOUSE IS BIG
PredicateSubject
< adjetive >
< article >
< singular >
< female >
< dwelling >
< home >
< residence >
< verb(be) > < singular >
Figura 4.4 Ejemplo de representación Universal de una frase
Si bien es cierto esta información es muy importante ya que es el resultado de
todo el trabajo anterior, pero así como tal no nos sirve de mucho ya que el
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
75
objetivo de este trabajo no es que la información quede ahí, sino que nos sirva
para poderla integrar con otros sistemas. Por esta razón hemos buscado
emplear un método en donde la información esté estructurada y tenga un
formato que pueda ser entendido y manejado por otras aplicaciones.
Lo que se pretende hacer es dar una estructura al texto, en este caso sería a las
características gramaticales de las palabras en el lenguaje origen (lenguaje en el
que se ingrese la frase y será identificado como primer paso del modelo), para lo
que se usa información solo de ese lenguaje obtenida a partir del modulo de
Análisis, luego se hará una Representación Universal54 de la frase que
representa el “significado” del texto analizado, para esta representación se
usará una representación lineal y su correspondiente en una red semántica o
grafo conceptual.
Para la representación lineal se ha creado un formato, mediante la definición de
una gramática que se describe a continuación:
Se representará con un símbolo a cada una de las características
gramaticales. Tabla 4.1.
A las varias opciones dentro de cada característica gramatical se las
representa con una abreviatura. Tabla 4.2.
La representación lineal de toda la frase irá encerrada en corchetes,
dentro de estos entre paréntesis y separada con un “;”, se hará la
representación Universal de cada palabras, la cual va acompañada
con sus características gramaticales y la relación semántica55 o papel
que desenvuelve dentro de la frase, cada una encerrada en
paréntesis respectivamente.
54 La Representación Universal se trata de que a una palabra se le quita la ambigüedad, se expresa en el lenguaje inglés y se le adhiere sus características gramaticales lo que permite conocer el sentido de la misma.
55 Las relaciones que se usarán son las definidas en UNL, ya que hasta el momento es el sistema con mayor definición de este tipo de relaciones.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
76
Tabla 4.1 Símbolos para Características Gramaticales
CARACTERISTICA GRAMATICAL SIMBOLO
Categoría Sintáctica @
Tiempo /
Persona $
Número #
Género %
Tabla 4.2 Abreviaturas para cada una de las opciones de las Características Gramaticales
CARACTERISTICA GRAMATICAL SIGNIFICADO ABREVIATURA
Categoría Sintáctica Sustantivo SUST
Adjetivo ADJ
Adverbio ADV
Verbo V
Tiempo Presente PRES
Pasado PAS
Futuro FUT
Persona Primera PP
Segunda SP
Tercera TP
Número Singular SING
Plural PLU
Género Femenino FEM
Masculino MASC
Tabla 4.3 Algunas Relaciones Semánticas (UNL)
RELACIÓN DESCRIPCIÓN
AGENTE Algo o alguien que inicia una acción.
CONDICION Estado o evento que está condicionado con otro estado.
LUGAR Lugar donde un evento ocurre.
NOMBRE Define el nombre de una cosa.
DURACIÓN El tiempo durante el cual ocurre un evento.
INSTRUMENTO Instrumento con el cual se realiza un evento.
OBJETO Algo que afecta directamente a un evento o estado.
CANTIDAD Cantidad de una cosa o unidad.
EVENTO Acción que realiza algún agente.
INCLUYE Concepto superior o mas general.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
77
Un ejemplo de la representación lineal, en base a la gramática planteada:
Frase: “El gato juega con la pelota”
[(EVENTO) (play: @V, /PRES, $PP, #SING);
(AGENTE)(cat: @SUST,#SING,%MASC);
(INSTRUMENTO) (ballon: @SUST, #SING,%FEM)]
Luego de tener la representación lineal, vamos a la representación gráfica
mediante Redes Semánticas, se decidió usar grafos conceptuales para la
representación gráfica ya que como se mencionó en el Capitulo 2 las redes
semánticas permiten la representación del conocimiento y la descripción de las
estructuras del lenguaje natural mediante redes de Nodos (Redes IS-A basadas
en nodos etiquetados y dependencias entre ellos), Grafos conceptuales
(Modelos de información descrita mediante nodos de concepto y tipos de
relaciones) y Redes de Marcos (donde las puntos de unión de los enlaces son
parte de la etiqueta que describe al nodo).
Para ello se han definido en las redes semánticas Clases, Superclases, Subclases,
Herencias, Instancias, y otros conceptos que nos permiten establecer las reglas
para la correcta construcción de una red semántica que nos describa
adecuadamente un modelo de información determinado.
En nuestros grafos los Nodos de Concepto representan conceptos que en
nuestro caso serán las palabras individuales pertenecientes a la frase,
desambiguadas (acompañadas de sus características gramaticales), y los Nodos
de Relación (Arcos) representan las relaciones, relaciones semánticas que
como ya se mencionó anteriormente son las mismas que se han definido en UNL
las cuales permiten dar sentido, concordancia y empatar las palabras como un
todo56.
PASOS PARA CREAR EL GRAFO CONCEPTUAL
1. Crear su representación lineal en base a la gramática planteada.
56 Aquí, el término “todo” se usa para indicar una oración completa, no se considera párrafos, ni
un documento completo.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
78
2. Crear un grafo conceptual para cada palabra de la frase, este grafo
esta creado a nivel de relaciones léxicas.
3. Unir los grafos creados anteriormente en un solo grafo conceptual.
mediante relaciones semánticas.
Un ejemplo de la representación gráfica, mediante un grafo conceptual, se usará
el mismo ejemplo anterior: “El gato juega con la pelota”
Grafo Conceptual correspondiente a la palabra “juega”
caract
GramVerbo Play
tiempo
Presente
persona
Primera
numero Singular
Figura 4.5 Grafo Conceptual de la palabra “juega”
Grafo Conceptual de la frase
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
79
caract
GramVerbo Play
tiempo
Presente
persona
Primera
numero Singular
Catcaract
Gram
Sustantivo
genero
Masculinonumero
Singular
Balloncaract
Gram
Sustantivo
genero
Femeninonumero
Singular
AGT INST
Figura 4.6 Grafo Conceptual de la frase “El gato juega con la pelota”
4.2 DISCUSIÓN
Este modelo que se ha planteado describe de manera sencilla y entendible las
características gramaticales de las palabras así como también las relaciones
semánticas entre estas, lo cual nos ha permitido llegar a una representación
formal del lenguaje.
Hemos tomado como base al sistema UNL por ser hasta el momento el único
sistema que ha buscado una representación universal del lenguaje obteniendo
excelentes resultados.
Las ventajas que presenta nuestro modelo son la sencillez y facilidad de
comprensión y puede ser reutilizado para otros trabajos como búsquedas,
traductores, integración con herramientas multilingües, etc.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
80
5. CAPITULO
Conclusiones y Trabajos Futuros
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
81
En este capítulo final como resultado de esta tesis se presenta un análisis y
síntesis de lo investigado en los capítulos anteriores, así como también las
recomendaciones que podemos aportar en base a la experiencia obtenido en
este trabajo. Y finalmente se presenta algunas propuestas que se considera
deben ser tomados en cuenta como un trabajo a futuro.
5.1 Conclusiones
En la actualidad se trabaja mucho en la integración de la lingüística y la
computación, lo que ha creado una nueva línea de investigación la
Ingeniería Linguistica y por consiguiente resultados como el
mejoramiento y facilitación del intercambio de información y la creación
de una nueva área de aplicación.
Existen algunas técnicas de estructurar la información (Redes
semánticas,Taxonomías, Ontología, Metadatos), que son la base para el
tratamiento ordenado y coherente de la misma; el tener la información
organizada nos permite tener mayor facilidad para buscar patrones y
representaciones lo que es útil para la representación de la información
en diversas lenguas.
Hasta el momento los recursos léxicos que más han servido por poseer
una gran cantidad de datos y una estructura que permite ser útil en la
integración con alguna otra aplicación son Wordnet y Eurowordnet, a
más del alto grado de presición que podemos conseguir de estos.
UNL es un sistema que ha requerido de mucho trabajo con una gran
cantidad de personas, tiempo y financiamiento, y que hasta el momento
ha obtenido buenos resultados y abarca algunos lenguajes. Aún se
trabaja en su mejoramiento y en la integración de nuevos idiomas.
Los grafos tienen un gran potencial para representar de forma sencilla,
directa y entendible detalles especificos del lenguaje, lo que lo hacen un
metodo que facilita la comprención y el entendimiento, tanto de las
personas como de los sistemas que los vayan a tomar como entradas
para algun procesamiento.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
82
Es muy dificultoso el tratamiento del lenguajes, por lo que se necesita de
de mucho esfuerzo, tiempo y conocimiento para poder llegar a realizar
un buen análisis.
La Representación universal lineal y mediante grafos se plantea como
una alternativa sencilla y fácil comprención, que puede ser reutilizada
para otros trabajos como Búsqueda de información, Traductores
multilingües, diseño de Interlingua, etc.
5.2 Recomendaciones
Se recomienda que para este tipo de investigaciones se conforme grupos
de trabajos con la intervención de personas entendidas en esta área a
más de personas del área técnica.
Delimitar los temas referentes al análisis del lenguaje, trabajar por
dominios ya que las cuestiones referentes a un idioma son muy amplias y
es casi imposible abarcar todas.
Hacer un estudio más minucioso de las técnicas de estructurar la
información par análisis la posibilidad de usar alguna otra en reemplazo
de los grafos conceptuales, la cual presente mejores resultados.
Brindar infraestructura, capacitaciones, libros a los estudiantes para
facilitar la investigación en estos temas nuevos.
5.3 Trabajos Futuros
Realizar un estudio de la estructura de UNL ya que esta es muy amplia e
implica invertir trabajo y tiempo en conocerlo a fondo para poder
reutilizar o integrar con nuevas aplicaciones.
Estudiar o crear alguna herramienta que permita transformar la
descripción lineal a grafos conceptuales.
Trabajar en la conversión de los Grafos Conceptuales a ontologías ya que
este es un recurso que actualmente es muy utilizado y presenta mejores
ventajas.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
83
Estudiar la posibilidad de agrupar los grafos y con esto poder analizar no
solo frases sino textos o documentos.
Crear sistemas multilingües como traductores, recuperación de
información que reutilicen este modelo.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
84
REFERENCIAS
1. Grimes, Barbara. F. (1996). Ethnologue Lenguajes del Mundo. Summer
Institute of Linguistics Inc.
2. Statistics, U. a. (s.f.). Internet World Stats. Recuperado el 31 de Diciembre
de 2009, de http://www.internetworldstats.com/
3. María Antonia, M. J. La Ingeniería Linguística para la sociedad de la
información. Revista digital Universidad Oberta de Catalunya.
4. Gómez, M. M. (2009). Minería de Texto: Un nuevo reto computacional.
Laboratorio de Lenguaje Natural, Centro de Investigación en
Computación.
5. MARÍA ANTÒNIA MARTÍ ANTONÍN Y JOAQUIM LLISTERRI. Revista
digital, La ingeniería lingüística para la sociedad de la información:
http://www.uoc.edu/humfil/articles/esp/llisterri-marti/llisterri-
marti_imp.html
6. Raisa Socorro, A. S. (s.f.). Las ontologías en la representación del
conocimiento.
7. Sowa, J. F. (s.f.). Semantic Networks.
8. Ocaña, A. B. (Junio-Julio de 2009). Aproximación de una taxonomía de
modelos de gestión del conocimiento. Uiversidad Nacional Autónoma de
México, UNAM , 37.
9. Santillan, J. (2006). LA INDIZACIÓN ASISTIDA PARA EL MANEJO DE
CONOCIMIENTO EN ORGANIZACIONES FRENTE AL TRATAMIENTO
DOCUMENTAL EN BIBLIOTECAS. (J. S. Aldeana, Ed.) Biblios: Revista de
Bibliotecología y Ciencias de la Información , 7 (23), 12.
10. Antonio Vaquero Sánchez, F. A. (s.f.). Aprendizaje de conceptos
linguísticos construyendo diccionarios basados en taxonomías con
estructura de grafos orientado acíclica. Facultad de Informática de la
Universidad Complutense de Madrid.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
85
11. Information Intelligence: Content Classification and the Enterprise
Taxonomy Practice. (Junio de 2004). Delphi Group, Perot System
Company.
12. Sílvia Argudo, M. C. (2005). Metodología para el diseño de Taxonomías
Corporativas. INVESTIGACIÓN BIBLIOTECOLÓGICA , 19 (39).
13. Blackburn, B. (May-June de 2006). Taxonomy Disign Types. As Appeared
in AIIM e-Doc .
14. Angel Cobo Ortega, R. R. (2009). Descubrimiento de conocimiento en
repositorios documentales mediante técnicas de minería de Texto y
Swarm Intelligence. Universidad de Catambria.
15. Convertini V., l. D. (2006). The OSEL Taxonomy for the Classification of
Learning Objects.
16. Library of Congress. (s.f.). Recuperado el 25 de Junio de 2010, de
Standars at the Library of Congress: http://www.loc.gov/standards/
17. Juan Ignacio Rouyet, V. M. (s.f.). A comparative study of the metadata in
SCORM and Dublin Core.
18. Josuka Díaz Labrador, Inés Jacob Taquet, Fernando Quintana Hernández,
Joseba Abaitua Odriozola, Garikoitz Araolaza, Guillermo Barrutieta.
Gestión de traducciones mediante metadatos TEI y XLIFF.
19. Virginia Ortiz, R. J. (s.f.). Nuevas perspectivas para la catalogación:
METADATOS VERSUS MARC.
20. López, A. G. (2005). XI Conferencia de la Asociación española para la
Inteligencia Artificial. En O. Corcho (Ed.), CAEPIA 2005, (pág. 100).
21. Guadalupe Aguado de Cea, E. M. (s.f.). Multilingualidad en una aplicación
basada en el conocimiento. Ontology Engineering Group (OEG) –
Universidad Politécnica de Madrid.
22. Haliuska Hernández Ramírez, M. S. (s.f.). Ontologías mixtas para la
representación conceptual de objetos de aprendizaje.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
86
23. ZAPATER, J. J. (2005). ONTOLOGÍAS PARA SERVICIOS WEB SEMÁNTICOS
DE INFORMACIÓN DE TRÁFICO: DESCRIPCIÓN Y HERRAMIENTAS DE
EXPLOTACIÓN. Valencia, Spain: Universidad de Valencia.
24. Ana Ma. Fermoso García, S. S. (s.f.). Una ontología en OWL para la
representación semántica de objetos de aprendizaje.
25. Graciela Barchini, M. Á. (2006). SISTEMAS DE INFORMACIÓN: NUEVOS
ESCENARIOS BASADOS EN ONTOLOGÍAS INFORMATION SYSTEMS :
NEW ONTOLOGY-BASED SCENARIOS. (U. N. Facultad de Ciencias Exactas
y Tecnologías, Ed.) Revista de Gestão da Tecnologia e Sistemas de
Informação Journal of Information Systems and Technology Management
, Vol. 3 (No. 1), 18.
26. Msc. Juan José Prada, S. C. (2006-2007). Recuperación de la información
Bilingue en la Web Semántica. Instituto de Computación-Facultad de
Ingeniería UDELAR .
27. Aguado de Cea G, M.-P. E. (Abril de 2007). Providing multilinguality to
ontologies: An overview. Ontology Engineering Group, Laboratorio de
Inteligencia Artificial .
28. Facultad de Informática Universida Politécnica de Madrid. (s.f.).
Recuperado el 1 de Julio de 2010, de
http://www.fi.upm.es/?id=tablon&acciongt=consulta1&idet=500.
29. Bonnie J. Dorr, E. H. (2006). Machine Translation: Interlingual Methods.
Encyclopedia of Language and Linguistics, 2nd ed. (ELL2).
30. Carlos Zapata, S. B. (2009). Interlengua: Análisis crítico de la Literatura.
Revista Facultad de Ingeniería Universidad de Antoquia .
31. Uchid, H. (1989). ATLAS II: A Machine Translation System Using. Fujitsu
Laboratories Ltd., Japan .
32. Joseba Abaitua, E. C. (1991). EL MÓDULO LÉXICO EN EL SISTEMA ATLAS.
PROCESAMIENTO DE LENGUAJE NATURAL , 23-39.
33. Jesus Cardeñoa, E. T. (2002). El sistema UNL – Universal Networking
Language. Procesamiento de Lenguaje Natural (29), 285-286.
34. Adriana, G. M. (s.f.). Sintaxe da construcao de palavras. Especificacoes.
Atributos e relacoes. Exemplos.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
87
35. Sangharsh Boudhh, P. B. (s.f.). Unification of Universal Word dictionaries
Using WordNet Ontology and Similarity Measures. Center for Indian
Language Technology (CFILT).
36. Hallebeek, J. (s.f.). El Corpus Paralelo. Departamento de Español-
Universidad de Nijmegen Erasmusplein .
37. Ordoñez, P. (s.f.). PROYECTO GENTT. INVESTIGACIÓN EN TRADUCCIÓN:
GÉNEROS Y CORPUS.
38. García, J. L. (2006). TESAUROS Y LENGUAJES CONTROLADOS EN
INTERNET. Red de Revistas Científicas de América Latina y el Caribe,
España y Portugal , 09.
39. Macía, M. (s.f.). El tesauro EUROVOC.
40. Troyano, J. A. (s.f.). Wordnet. Universidad de Sevilla.
41. Romo, M. S. (s.f.). Inteligencia en Redes de Comunicaciones. Obtenido de
http://www.it.uc3m.es/jvillena/irc/practicas/estudios/WordNet.pdf.
42. Pérez, S. V. (2009). Resolución de la ambigüedad semántica mediante
métodos basados en conocimiento y su aportación a tareas de PLN.
Departamento de Lenguas y sistemas informáticos, Universidad de
Alicante, 292.
43. Ernesto William De Luca, A. N. (s.f.). LexiRes: A Tool for Exploring and
Restructuring EuroWordNet for Information Retrieval.
44. deCea, D. G. (s.f.). Terminología, Ontologías y Multiligualidad. Punto y
Coma, Suplemento VIII jornada de AETER, págs. 2-11. Boletín de los
traductores españoles de las instituciones de la Unión Europea.
45. http://odur.let.rug.nl/~vannoord/TextCat/Demo/
46. José R. Hilera, L. B. (s.f.). Aplicación de técnicas de Ingeniería Lingüística
en sistemas de e-learning basados en objetos de aprendizaje.
Universidad de Alcalá, Departamento de Ciencias de la Computación.
47. Carlos Zapata, S. B. (2009). Interlengua: Análisis crítico de la Literatura.
Revista Facultad de Ingeniería Universidad de Antoquia.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
88
48. Peis Redondo, H. M. (s.f.). Ontologías, metadatos y agentes: recuperación
“semántica” de la información.
49. deCea, D. G. (s.f.). Ontologíasymultilingualidad.
OntologicalEngineeringGroup Facultad de Informática Universidad
Politécnica de Madrid .
50. Natural, P. d. (2007). Tratamiento de la información Multilingüe y
Multimodal. Monográfico, Red Temática. (38).
51. Cuadros, M. (Marzo de 2008). Base de Conocimiento Multilingüe para el
Procesamiento Semántico a Gran Escala. Procesamiento del lenguaje
Natural .
52. Ángel, C. O., & Ro, R. B. (s.f.). Desarrollo de una aplicación para la gestión,
clasificación y agrupamiento de documentos económicos con algoritmos
bio-inspirados. Universidad de Cantabria .
53. Jesús Cardeñosa, A. G. (2005). Universal Networking Language: Advances
in Theory and Applications. Volume 12, 500.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
89
ABREVIATURAS
LC. Lingüística Computacional
SI. Sistemas de Información
EWN. Eurowordnet
STASIS. Software for Ambient Semantic interoperable Systems
UW. Palabras Universales
UNAM. Universidad Nacional Autónoma de México.
AVE. Aula Virtual de España
OA. Objetos de Aprendizaje
OMS. Organización Mundial de la Salud
FAO. Organización de las Naciones Unidas para la Agricultura y la Organización
TA. Traducción Automática
IA. Inteligencia Artificial
UNL. Universal Networking Language
PLN. Procesamiento de Lenguaje Natural
LOM. Learning Object Metadata
DCMI. Dublin Core Metadata Initiative
IMS. Instructional Management System
TEI. Text Encoding Initiative
METS. Metadata Encoding & Transmission Standard
MODS. Metadata Object Description Schema
SCORM. Sharable Content Object Reference Model.
FMI. Fondo Monetario Internacional
IEEE. Institute of Electrical and Electronics Engineers
IETF. Internet Engineering Task Force
ISO. International Standards Organization
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
90
XML. Extensible Markup Language
LMS. Learning Management System.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
91
ANEXOS
Anexo A. Descripción de Metadato LOM
CATEGORIA DESCRIPCIÓN
GENERAL
Descripción general del documento. 9 subcategorías
(granularidad, idioma, estructura, título, identificador, catálogo,
entrada, descripción, palabra clave y nivel de agregación).
CICLO DE VIDA Historia y estado actual de la producción y mantenimiento de
información. Subcategorías (versión, estado y contribución).
META
METADATOS
Información de metadatos. Subcategorías (lengua,
identificador, contribución y esquema).
TÉCNICA
Información técnica requerida por el objeto (formato, tamaño,
ubicación, requisitos, pautas de instalación, otros requisitos y
duración)
EDUCATIVO
Características educativas y pedagógicas del objeto.
Subcategorías (contexto, descripción, lengua, tipo de recurso de
aprendizaje, densidad semántica, destinatario, rango de edad,
dificultad y tiempo de aprendizaje).
DERECHOS
Derechos de propiedad intelectual, costo, condiciones de uso,
otras descripciones. Subcategorías (costo, derechos de autor y
descripción).
RELACIÓN Relación con y entre materiales, tipo de relación, documento
principal Subcategorías (tipo y recurso).
OBSERVACIÓN
Anotaciones y comentarios sobre material educativo,
información de quien y cuando se realizó el comentario.
Subcategorías (entidad, fecha y descripción).
CLASIFICACIÓN
describe donde se sitúa este objeto dentro de un sistema de
clasificación completo. Subcategorías (taxonomías, finalidad,
descripción y palabras claves).
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
92
Anexo B. Descripción del Metadato DCMI
CATEGORIA DESCRIPCIÓN
TÍTULO Título del documento, si el recurso no tiene título (imagen,
objeto) se debe describir mediante una frase.
AUTOR Nombre de las personas que tengan responsabilidad y
derecho intelectual en la creación del recurso.
COLABORADOR Otras personas que están relacionadas directamente con el
objeto, que han contribuido a su creación.
EDITOR Persona u objeto encargada de la edición del recurso.
FECHA DE
PUBLICACIÓN Fecha a partir del cual el objeto está disponible.
IDENTIFICADOR Identificador del objeto (cualificador).
MATERIA Tema del documento, área.
DESCRIPCIÓN Descripción del recurso, puede ser resumen, palabras claves,
tablas, etc.
COBERTURA Características espaciales y temporales del objeto.
TIPO DE RECURSO
Para especificar el género del objeto (novela, poesía), como
su forma interna (diccionario, tesauro) o su propósito
(borrador, versión definitiva).
IDIOMA Lenguaje en el que está el recurso.
FORMATO Software y hardware necesario para que el recurso opere.
FUENTE
Otras etiquetas que permitan vincular al recurso con sus
versiones anteriores, o con documentos que permitieron su
origen.
RELACIÓN Referencia a un recurso relacionado.
DERECHOS Derechos de propiedad intelectual y del recurso mismo.
Universidad Técnica Particular de Loja
Definición de una Técnica de Representación Universal del Lenguaje
93
Anexo C. Descripción del Metadato METS
CATEGORIA DESCRIPCIÓN
CABECERA METS Describe el mismo documento METS, abarca datos como
autor, fecha de creación, etc.
METADATO
DESCRIPTIVO
Contiene metadatos descriptivos externos si se hace
referencia a recurso de otros repositorios, o metadatos
descriptivos internos si se trata del mismo documento
METS, puede haber una combinación de ambos.
METADATO
ADMINISTRATIVO
Información de la creación y almacenamiento de los
archivos q componen al objeto digital, metadatos del
recurso original, pueden ser externos o codificarse dentro
del mismo documento METS.
ARCHIVO Lista todos los archivos que forman parte del objeto
digital.
MAPA ESTRUCTURAL
Parte principal del documento, describe la estructura
jerárquica del objeto digital, enlaza las secciones con los
archivos.
ENLACE
ESTRUCTURAL
Registra los enlaces de las secciones del mapa estructural,
muy útil cuando se tiene referencias a sitios web.
COMPORTAMIENTO Asocia comportamientos ejecutables incluidos en un
documento METS.