Margarita Alonso Ramos
Master LUP 2012
Diccionario o Base de datos léxicos
Organización de la exposición
1. Qué es un léxico computacional
2. Cómo representar la informaciónléxica
3. Aplicaciones de la LexComp
4. Proyectos de LexComp
1. Qué es un léxico computacional• Qué elementos son una unidad léxica• Qué información contiene una entrada lexicográfica
1. ¿Qué es un léxico computacional?
No es solo un diccionario en soporte informáticohttp://elies.rediris.es/elies24/pampillon.htm
Los diccionarios en línea o en CD pueden ser una buena herramienta pero el usuario es un humano, no un sistema
http://www.diccionarios.com/consultas.php#http://www.ideasafines.com.ar/buscador-ideas-relacionadas.phpVOLGA: http://www.realacademiagalega.org/volga/index.jspDRAE: www.rae.esDicoPortugués: http://www.priberam.pt/dlpo/dlpo.aspxWordReference: http://www.wordreference.com/es/Bilingüe inglés: http://www.babylon.com/definition/give/SpanishCambridge: http://dictionary.cambridge.org Merrian-Webster:www.m-w.com/cgi-bin/dictionary?book=Dictionary&va=purchase&x=0&y=
htttp://oesi.cervantes.es/TLTODOS/recursos_linguisticos_1.htm
1. ¿Qué es un léxico computacional?
Un “almacén” de información léxica
accesible por medios manuales o automáticos
para sistemas de PLN
1.1.¿Qué se entiende por unidad léxica?
Unidades léxicas (UL): sentidos o acepciones
Concepto de acepción (polisemia):
Difícil delimitación
Diferente según el objetivo aplicativo
Actuar
1 intr. Ejercer una persona o cosa actos propios de su naturaleza
2 Ejercer las funciones propias de un oficio: ~ de secretario. 3 Representar en el teatro o en el cine. 4 Trabajar en un espectáculo público. 5 Defender, en las universidades, conclusiones públicas o practicar ejercicios de oposición. 6 DER. Realizar actuaciones
¿Qué se entiende por unidad léxica? (2)
Granularidad en la diferenciación de sentidos (diccionarios)
libro monosémicocerdo monolingües: animal, carne, piel, ....
bilingües (desajustes: pig, pork)
El tipo semántico no implica que haya una o más acepciones.
diferentes sentidos matices de un mismo sentido
¿?
1.2. ¿Qué información contienen ?
Dependiendo de los objetivos del léxico: La trascripción fonética La categoría gramatical y paradigma morfológico
dar {vdtr}, 1ªconj. La estructura argumental, patrón sintáctico-semántico básico
SYNSEM | LOC HEAD | MAJOR V| SUBCAT = <SN [1], SN[2], SP [3]>
SEM [dar agente [1], tema [2], beneficiario [3]]
Información semántica: tipo semántico definido en una ontología. chico [HUMANO] ordenador [ARTEFACTO]
Restricciones selectivas
Relaciones léxicas: Paradigmáticas: sinonimia, antonimia, hiponimiaSintagmáticas: colocaciones
Las equivalencias con otras lenguas, ...
¿Qué información contienen ?
Organización de la exposición
1. Qué es un léxico computacional2. Cómo representar la información léxica
3. Aplicaciones de la LexComp
4. Proyectos de LexComp
2. Cómo representar la información léxica
2. ¿Cómo representar la información?
Bases de datos
Modelos textuales
Bases de conocimiento léxico
Ontologías
Modelos de representación computacionales
Bases de datos relacionales
las entradas se representan en tablas cada tabla consta de diversos rasgos que toman valores
Cat = NGen = Fem
ventajas software convencional de gestión de base de datos (Access de Microsoft)
mantenimiento, eficiencia y facilidad de interrogación
gran capacidad expresiva
limitaciones:
- falta de estructura jerárquica
– excesiva uniformidad
– poco apropiadas para los rasgos de tipo textual
Modelos de representación computacionales
Modelos textuales
Corpus en bruto:Frecuencias léxicas Coapariciones de dos o más palabras
Corpus etiquetados: morfológicamente sintácticamente semánticamente identificación de colocaciones
Modelos de representación computacionales
Representaciones orientadas a objetos
NOMBRE-F-REGcat= ntipo = comúngénero= femeninomorfología=
NFAAS
casaes-un: NOMBRE-F-REG
número= singular
casases-un: NOMBRE-F-REGnúmero= plural
CLASECLASE
EJEMPLARES
Modelos de representación computacionales Ontologías
semántica basada en una ontología
árabe
semítica
lengua
cada sentido se diferencia por uno o más rasgos
+ lengua
+ lengua+ semítica
+ lengua+ semítica
árabe
semítica
lengua+ lengua
+ lengua+ semítica
+ lengua+ semítica+ árabe
hebreo ...
indo-europea
lenguaje
programación
semántica basada en una ontología
Modelos de representación computacionales Ontologías
WordNet
- Red de conocimiento léxico-semántica
- Relaciones semánticas: sinonimia, hiperonimia, hiponimia, meronimia...
- Unidad de descripción: synset
vehículo
es-un
automóvil 1 ; coche 2 ; carro 2
se-compone-de motorruedavolante
ranchera;furgón
ambulancia
taxi
es-un
es-un
es-un
Modelos de representación computacionales
Redes semánticas
Modelos de representación computacionales Problemas
incompleto: dominios poco o nada representadossentidos básicos que no aparecen
Granularidad excesiva:Hombre= el que sirve en el ejército(10) opuesto a hembra
opuesto a esposacarácter de hombre...
Criterio poco claro de sinonimia hiperonimia/hiponimia
Organización de la exposición
1. Qué es un léxico computacional
2. Cómo representar la información
3. Aplicaciones de la LexComp
Aplicaciones
Técnicas que incorporan conocimiento lingüísticoSistemas de tratamiento de la información
Extracción de informaciónRecuperación de informaciónTA
Aplicaciones: usuario finalLexicografíaAutoaprendizaje, Buscadores, etc.
Recursos (léxicos)
ENTR ábacoETIM (Del lat. Abacus // gr. abax)ACEP 1SIGN Instrumento de cálculo consistente en un tablero de
madera con alambres h orizontales y paralelos, y unasbolas agujereadas que corren a lo largo de éstos , usadopara realizar operaciones de aritmética y paracontabilizar los tantos o btenidos en algunos juegos comoel billar.
CATG s.m.ACEP 2SIGN Gráfico de escalas para abreviar los cálculos aritméticos.SINO nomogramaCATG s.m.ACEP 3SIGN Parte superior en forma de tablero que corona el capitel de
la columna.TEMA ARQUITECTURA
ábaco ábaco NCMS000
Aplicaciones (1) Clasificación
SANIDAD
Problemas de congestión en los centros hospitalarios catalanes
Pujol matiza a Rius y anuncia inversiones para reducir losplazos de las listas_de_espera
La_Vanguardia - 02:30 horas - 26/05/2000 MARTA_RICARTJOSEP_CORBELLA BARCELONA . -
inversiones inversión NCFP000
Aplicaciones (2) Clasificación semántica
Aplicaciones (3)
Traducción Automática Diccionario monolingüe
("llegir" VST ALO [raíz] "lleg" ARGS ((($SUBJ N1 (TYPE P1)) OPT ($DOBJ N1 (TYPE P0) N0 (FCP 0)
(MD-0 IND)))) CL [modelo de flexion] (IR-E) CMT [prototipo flexivo] "Model: servir" ON CO PLC (NF) TAL [admite -eix-] -EIX AUTHOR "elisabel" DATE "1-Mar-99" SITE "FB52")
"fer" VST --> "retroceder" VST = Tests (XFR-VST-CTEST :MW T :FIXEXPR T
:EXPR "enrere")Comment "no ens farem enrere =no retrocederemos"<< Fb52 FB52 Elisabel 23-Mar-99 >> "fer" VST --> "llegar" VST = Tests(XFR-VST-CTEST :MW T :FIXEXPR T :
EXPR "tard") Comment "fer tard =llegar tarde"<< Fb52 FB52 Elisabel 24-Mar-99 >> "fer" VST --> "pesar" VST =<< Fb52 FB52 Elisabel 23-Mar-99 >>
Aplicaciones (5)
Traducción Automática Diccionario Bilingüe Incita/SailLabs
Organización de la exposición
1. Qué es un léxico computacional
2. Cómo representar la información
3. Aplicaciones de la Lexicografía computacional
4. Proyectos
4. Proyectos lexicográficos
DiCE (Diccionario de colocaciones del español) http://www.dicesp.es
DiCoInfo (Dicctionario de informática)http://olst.ling.umontreal.ca/cgi-bin/dicoinfo/search.cgi?ui=es
EuroWordNethttp://adimen.si.ehu.es/cgi-bin/wei/public/wei.consult.perl
FrameNethttp://framenet.icsi.berkeley.edu
Spanish FrameNethttp://sato.fm.senshu-u.ac.jp/sfn20/notes/index2.html