Post on 03-Mar-2018
transcript
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
1/43
Tema 9
Procesamiento del Lenguaje Natural
Julio Villena Romn, Raquel M. Crespo Garca, Jos Jess Garca Rueda{jvillena, rcrespo, rueda}@it.uc3m.es
Inteligencia en Redes de Comunicaciones
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
2/43
Objetivo
Desarrollar sistemas informticos capaces de comprenderel lenguaje verbal humano(oral y escrito) y de utilizarlocomo medio de comunicacincon el usuario
Objetivo realista: Desarrollar sistemas informticos capaces de trabajar con
el lenguaje verbal humano (oral y/o escrito) aportandoutilidadal usuario
IRC 2011/20122
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
3/43
ndice
Lenguaje natural Ingeniera lingstica
Niveles de anlisis
Aplicaciones
IRC 2011/20123
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
4/43
Lenguaje natural y artificial
Lenguaje natural: Lenguaje verbal que utilizamos los seres humanos para
comunicarnos unos con otros
Lengua: realizacin concreta del lenguaje natural
Lenguaje artificial:
Lenguaje creado y especificado detalladamente para ser
utilizado en entorno concreto
IRC 2011/20124
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
5/43
Ingeniera Lingstica
El lenguaje natural es de inters en mltiples disciplinas: Lingstica, Filologa, Psicologa, Antropologa, Ingeniera
Generalmente los estudios se centran en lenguasconcretas
La ingeniera lingstica se centra en el tratamiento
computacional del lenguaje natural y cmo aplicarlo para darsolucin a problemas de ingeniera
Otros nombres:
procesamiento del lenguaje natural (PLN, en ingls NLP)
lingstica computacional (en ingls, CL)
IRC 2011/20125
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
6/43
Breve historia: Los orgenes
Final de la dcada de 1940 y dcada de 1950(antes del nacimiento del trmino Inteligencia Artificial en 1956)
Dos campos de inters:
Traduccin automtica
Recuperacin de informacin Muchas limitaciones:
Modelos morfolgicos y sintcticos poco evolucionados
Poco inters en comprensin de significado
IRC 2011/20126
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
7/43
Dcada de 1960
Cambio de enfoque: Procesamiento de frases y comprensin
Interfaz amigable
Varios desarrollos:
Acceso a base de datos (BASEBALL, DEACON, ) Resolucin de problemas (STUDENT, CARPS, )
ELIZA
Desarrollo de formalismos
IRC 2011/20127
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
8/43
Dcada de 1970
Nuevos desarrollos basados en formalismos Aumentan los campos de aplicacin:
Comprensin de lenguaje (SHRDLU, LUNAR, )
Interfaz a bases de datos (REQUEST, LADDER, )
Enseanza asistida por ordenador (SCHOLAR, ) Automatizacin de tareas de oficina (SCHED, )
Programacin automtica
Procesamiento de texto cientfico
IRC 2011/20128
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
9/43
Situacin actual Las aplicaciones llegan a los usuarios finales
Busca soluciones a problemas parciales:
Revisin lingstica de textos
Recuperacin de informacin
Extraccin de informacin, resmenes y clasificacin
Reconocimiento y sntesis de voz Traduccin automtica
Generacin automtica de texto
Como en toda la ingeniera, el mayor inters est en los aspectos prcticos:utilidad y compromiso exactitudeficiencia
Objetivo actual: simplificar la comunicacin hombre-mquina(Human-Computer Interaction, HCI), desarrollando sistemas de realidadvirtual/aumentada
IRC 2011/20129
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
10/43
HCI: ELIZA Chatbot creado por Joseph Weizenbaum en 1966 que representa el papel
de un psicoanalista e imita sus respuestas tpicas en una entrevista inicial
Este contexto es una de las pocas situaciones humanas donde un humano
puede responder con una pregunta sin dar ningn tipo de informacin al
interlocutor
http://www-ai.ijs.si/eliza/eliza.htmlhttp://www.manifestation.com/neurotoys/eliza.php3
El concepto impuls el diseo de nuevos interfaces:
Dungeon(primer role playing game) (1974)
Adventure (primer juego de ficcin interactiva) (1975)
http://en.wikipedia.org/wiki/Interactive_fiction
IRC 2011/201210
http://www-ai.ijs.si/eliza/eliza.htmlhttp://www.manifestation.com/neurotoys/eliza.php3http://en.wikipedia.org/wiki/Interactive_fictionhttp://en.wikipedia.org/wiki/Interactive_fictionhttp://www.manifestation.com/neurotoys/eliza.php3http://www-ai.ijs.si/eliza/eliza.htmlhttp://www-ai.ijs.si/eliza/eliza.htmlhttp://www-ai.ijs.si/eliza/eliza.html7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
11/43
Dilogo real con ELIZAyoung woman: Men are all alike.
eliza: In what way?
young woman: They are always bugging us about something specific or other.eliza: Can you think of a specific example?
young woman: Well, my boyfriend made me come here.
eliza: Your boyfriend made you come here?
young woman: He says I'm depressed much of the time.
eliza: I am sorry to hear you are depressed.
young woman: It's true. I'm unhappy.
eliza: Do you think coming here will help you not to be unhappy?
young woman: I need some help, that much seems certain.
eliza: What would it mean to you if you got some help?
young woman: Perhaps I could learn to get along with my mother.eliza: Tell me more about your family.
young woman: My mother takes care of me.
eliza: Who else in your family takes care of you?
young woman: My father.
eliza: Your father.
young woman: You are like my father in some ways.
eliza: What resemblance do you see?
young woman: You are not very aggressive but I think you don't want me to notice that.
eliza: What makes you think I am not very aggressive?
young woman: You don't argue with me.eliza: Why do you think I don't argue with you?
young woman: You are afraid of me.
eliza: Does it please you to believe I am afraid of you?
young woman: My father is afraid of everybody.
eliza: What else comes to mind when you think of your father?
young woman: Bullies.
eliza: Does that have anything to do with the fact that your boyfriend made you come here?
IRC 2011/201211
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
12/43
Dilogo ficticio con ELIZAyoung woman: Green cows areall alike.
eliza: In what way?
young woman: Seven are alwaysfive plus two.
eliza: Can you think of a specific example?
young woman: Well, my teacher made me study a lot.
eliza: Your teacher made you study a lot?
young woman: He says I'm depressedand bla and bla and more bla bla.
eliza: I am sorry to hear you are depressed and bla and bla and more bla bla.
young woman: No se me ocurren ms tonteras que escribir. I'm unhappy.
eliza: Do you think coming here will help you not to be unhappy?
Realiza anlisis superficial y transformaciones bsicas
IRC 2011/201212
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
13/43
HCI: ALICE
Desarrollado por Dr. Richard Wallace (1999-) y ganador durante aos delpremio Loebner (ltimo en 2004)
Chatbot bastante ms evolucionado, que se basa en el paradigma estmulo-respuesta escritos mediante patrones en el lenguaje AIML
Tiene memoria y estado mental, con lo que puede recordar sesionesanteriores
Puede entrenarse de forma relativamente sencilla para diferentes mbitosde conocimiento
http://alice.pandorabots.com/
KNOCK KNOCKWho is there?*WHO IS THERE who?
WHAT ARE YOU
MeI am the latest result in artificial intelligence.
IRC 2011/201213
http://alice.pandorabots.com/http://alice.pandorabots.com/7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
14/43
HCI en la actualidad Jabberwacky y Joan: desarrollados por Rollo Carpenter y
ganadores del premio Loebner (2005 y 2006)
Guarda todo lo que se va diciendo y proporciona la respuestams apropiada que existe en su base de datos usandobsqueda de patrones conceptualesAPRENDE
En cierta forma modela la forma en que los humanosaprendemos el idioma, los hechos y las reglas
http://www.jabberwacky.com
Ms sobre el premio Loebner:http://www.loebner.net/Prizef/loebner-prize.html
http://loebner.net/Prizef/2007_Contest/Rules.html
IRC 2011/201214
http://www.jabberwacky.com/http://www.loebner.net/Prizef/loebner-prize.htmlhttp://loebner.net/Prizef/2007_Contest/Rules.htmlhttp://loebner.net/Prizef/2007_Contest/Rules.htmlhttp://www.loebner.net/Prizef/loebner-prize.htmlhttp://www.loebner.net/Prizef/loebner-prize.htmlhttp://www.loebner.net/Prizef/loebner-prize.htmlhttp://www.jabberwacky.com/7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
15/43
Arquitectura de niveles
Nivel morfolgico
Nivel sintctico
Nivel semntico
Nivel fonolgico
ANLISIS
SNTESIS
Nivel pragmtico
Nivel integracin deldiscurso
IRC 2011/201215
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
16/43
Nivel fonolgico
Conversin Voz
Texto Requisitos:
Conocimiento de fonemas
Algoritmo de reconocimiento
Es muy importante el tratamiento de la ambigedad:/baca/, /ora/
Requiere conocimiento de niveles superiores (al menos,morfolgico y sintctico)
Confusin del significado, prdida de informacin
IRC 2011/201216
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
17/43
Nivel morfolgico
Palabra
Anlisis morfolgico (POS: part-of-speech) Lema
Categora gramatical
Atributos propios de categora
Requisitos: Conocimiento de los formantes
raz (cas-, com-) + desinencias (-a, -s, -o, -a, super-)
Gramtica de palabra
Ambigedadcasa, sobre, bajo
IRC 2011/201217
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
18/43
Recursos morfolgicos: Base lxica Una lista de palabras no suele valer (en general)
Base lxica: almacn de informacin fundamentalmentemorfolgica, aprovechando las regularidades de la lengua yescrita para linguistas
Para espaol:
Modelos de flexin nominal y verbal
Palabras formadas por uno o dos formantes
sobre perr-o perr-os com-emos
Cada formante aporta parte de informacin
Derivacin de adverbios en -mente (adjfem-mente)
Generacin automtica de alomorfos
No sobregenerar ni sobreaceptar
IRC 2011/201218
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
19/43
Nivel sintctico
Anlisis morfolgicoAnlisis sintctico
Estructura en rbol de agrupaciones de palabras y relaciones
Requisitos:
Informacin morfolgica de palabras (lxico)
Gramtica de frase
Una gramtica general es difcil (por no decir imposible)
Complejidad del lxico vs. complejidad de la gramtica
(directamente proporcional)
AmbigedadSe comi el helado con cuchara
Se comi el helado con vainilla
IRC 2011/201219
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
20/43
Nivel semntico
Anlisis sintctico
Semntica de frase Significado literal de la frase
Requisitos:
Modelo del mundo
Reglas semnticas Como es muy complicado, es totalmente dependiente de
la aplicacin concreta (dominio restringido)
AmbigedadPas delante delbanco
IRC 2011/201220
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
21/43
Recursos semnticos: WordNet Red semntica de conceptos o synsets(agrupaciones de sinnimos)
Guarda diferente informacin: Nombres
Hipernimos: Y es un hipernimo de X si todo X es un tipo de Y
Hipnimos: Y es un hipnimo de X si cada Y es un tipo de X
Trminos coordinados: Y es un trmino coordinado de X si X y Y comparten un hipernimo
Holnimos: Y es un holnimo de X si X es parte de Y
Mernimos: Y es un mernimo de X si Y es parte de X
Verbos Hipernimos: Y es un hipernimo de X si la actividad X es un tipo de Y (viajarmoverse)
Tropnimos: Y es un tropnimo de X si la actividad Y est haciendo X de alguna manera(susurrarhablar)
Vinculacin: Y est vinculado a X si al hacer X tambin se est haciendo Y (dormirroncar)
Trminos coordinados: verbos que comparten un hipernimo comn
Adjetivos
Nombres relacionados
Participios verbales
Adverbios
Adjetivos origen
Pensado para uso por personas:
Significado de palabras en forma textual
Demasiada informacin
http://wordnet.princeton.edu
IRC 2011/201221
http://wordnet.princeton.edu/http://wordnet.princeton.edu/7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
22/43
EuroWordnet
IRC 2011/201222
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
23/43
Niveles pragmtico y de integracin deldiscurso
Nivel pragmtico:Significado literal de fraseSignificado real de frase
Puedes pasarme la sal?
Nivel de integracin del discurso:Significado de frase aisladaSignificado en contexto
Me dijo que se lo dara
Ambigedad intrnseca
IRC 2011/201223
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
24/43
Dificultades Ambigedad
En la mayora de casos, para resolver la ambigedad en un nivel serequiere de los anlisis de niveles superiores
Modelos lingsticos insuficientes
Sintaxis implica gramtica dependiente de contexto
Tratamiento de semntica Niveles superiores a semntica an ms complejos
Abordable slo parcialmente con arquitectura de niveles
Aplicaciones muy variadasSolucin general difcil
Diferencias entre lenguas Insercin de conocimiento manual
IRC 2011/201224
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
25/43
Caso del espaol (o castellano)
Problemas (nivel morfolgico): Altamente flexivo: Mltiples procesos (flexin, derivacin,
composicin)
No existen modelos morfolgicos generales (muchasexcepciones)
Nmero de palabras inmenso (decenas de millones)
1,6-1,9 anlisis por palabra (media)
Problemas (nivel sintctico): Carencia de estructura fija como en otros idiomas
(ambigedad)
IRC 2011/201225
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
26/43
Pero
Para resolver grandes problemas deben resolverse antessubproblemas pequeos
Es posible desarrollar sistemas realmente tiles
El tiempo corre a nuestro favor
Ordenadores ms potentes Formalismos ms desarrollados
Ms experiencias y desarrollos
IRC 2011/201226
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
27/43
Aplicacin: Anlisis y sntesis de voz Primeros productos realmente tiles desde 1997
Tcnicas de procesado de seal de audio + clasificadores +vocabulario (+ gramticas del lenguaje)
Actualmente mltiples motores: IBM
Scansoft/Nuance Microsoft (Speech API)
Integrado en Windows Vista
Loquendo
Desarrollos gratuitos
Interfaz para muchos entornos e idiomashttp://cepstral.com/demos/http://www.loquendo.com/en/demo-center/interactive-tts-demo/
IRC 2011/201227
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
28/43
Aplicacin: Traduccin automtica Desde los primeros tiempos del PLN
Caso de xito: TAUM-METEO (U. Montreal, 1975) para latraduccin de partes meteorolgicos inglsfrancs
http://en.wikipedia.org/wiki/METEO_System
Vocabularios y memorias de traduccin + gramticas de
transformacin de estructuras Corpus alineados
Muchos sistemas: SYSTRAN
Altavista Babelfish Google Translate
Apertium, OpenTrad (libres)
IRC 2011/201228
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
29/43
Aplicacin: Revisin lingstica Gramtica de errores
Lenguaje declarativo compilado Anlisis en niveles:
Nivel I: estructuras independientes*me se ha olvidado, *cuanto tiempo sin verte!
Nivel II: errores intrasintagmticos*los coches rojo Nivel III: errores intersintagmticos
*los nios juega, *la pelcula es divertido
Compromiso precisinrendimiento:
Slo considera anlisis ms probable Reglas particulares / generales
Mucho inters hoy en da para el aprendizaje de idiomas
IRC 2011/201229
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
30/43
Ejemplo de regla/*
- est mucho loco
+ est muy loco
+ hay mucho loco por aqu
*/
REGLA("MuchoPorMuy")
FORMA_I_EXISTENCIAL(POS(N), "mucho") Y
(ANALISIS_EXISTENCIAL(POS(N+1), Eti_AdjetivoOParticipio) O
FORMA_I_EXISTENCIAL(POS(N+1), "bien|mal")) Y
!ANALISIS_EXISTENCIAL(POS(N+1), Eti_AdjComp"|"Eti_AdjSup) Y
GN(POS(N), POS(N+1)) Y
LEMA_EX_VERBO_PRINC(POS(N-1), "estar|ser")
ENTONCES
SUG_PALABRA(POS(N), "muy ");
SUG_PALABRA(POS(N+1),LETRAS(POS(N+1)));
DAR_ERROR(Error_Gramatical, POS(N), POS(N+1),
"Posible secuencia incorrecta de palabras));FIN
IRC 2011/201230
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
31/43
Aplicacin: Recuperacin de informacin
Los sistemas de RI son aquellos que Basndose en distintas tcnicas y modelos,
Permiten buscar de forma rpida y eficiente
En grandes colecciones de objetos que contieneninformacin
Aquellos resultados ms relevantes para la consulta deusuario.
Los objetos pueden, en general, contener informacin enuna gran variedad de formatos, incluyendo texto escrito,
ficheros de audio, fotografas y otras imgenes, vdeo, etc.
IRC 2011/201231
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
32/43
Proceso de RI Indexacin:
Extraer los atributos de cada uno de los objetos Texto: frecuencia de palabra
Imgenes: extraccin de caractersticas de la seal
Audio (hablado): conversin a texto + frecuencia de palabra
Audio (msica): partitura?
Almacenarlos en una base de datos de acceso rpido
Bsqueda: Comparar la consulta del usuario con todos los objetos indexados, obteniendo
una medida de parecido (relevancia)
Presentar los resultados ordenando por relevancia decreciente
Modelos: Modelo booleano
Modelo probabilstico
Modelo de espacio de vectores
Latent Semantic Indexinghttp://en.wikipedia.org/wiki/Information_retrieval
IRC 2011/201232
http://en.wikipedia.org/wiki/Information_retrievalhttp://en.wikipedia.org/wiki/Information_retrieval7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
33/43
Modelo Booleano
010111010001011100101000 ...
INDEX TERM
0 ...
1 ...
... ...
N ...
Trminos deindexacin
Coleccin dedocumentos
Este documento est indexado porlas palabras 2, 4, 5, 6, 8...010000010000011000001000 ...
Consulta
IRC 2011/201233
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
34/43
Ejemplo(t1 AND t7) OR (t2 AND NOT(t9))
documents thatcontain t1
documents that
contain t1and t7
t1 t7 t2 NOT(t9)
documents that
contain t7
documents that
contain t2
documents that
notcontain t7
AND ANDdocs. that contain
t2and not t9
ORdocuments
retrieved
E F
E = A B
A B C D
F = C D
IRC 2011/201234
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
35/43
Modelo de Espacio de Vectores
w1,w2,w3,w4,w5,w6,w7,w8...
INDEX TERM
0 ...
1 ...
... ...
N ...Trminos deindexacin
Coleccin de
documentos
w1,w2,w3,w4,w5,w6,w7,w8...
Consulta
IRC 2011/201235
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
36/43
Modelo de Espacio de Vectores (2)
Modelo algebraico clsico de RI [Salton, 1968]
Representa los objetos (documentos y consulta) mediante un
vector de trminosen un espacio multidimensional:
El peso de cada trminose calcula con el modelo TFIDF:
Para calcular la relevancia de cada documentose utiliza
habitualmente la frmula del coseno:
IRC 2011/201236
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
37/43
Ejemplo
IRC 2011/201237
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
38/43
Evaluacin de los sistemas de RI
Precision
Recall0
1
1
RecuperadosNo recuperados
No relevantes
Relevantes
A
B
C
D
Precision =
B + C
C
Recall =
D + C
C
IRC 2011/201238
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
39/43
Cross-lingual IR CLIR
IRC 2011/201239
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
40/43
Enfoques para CLIRQuery translation
Mixed translation
Document translation
IRC 2011/201240
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
41/43
RI multimedia (imgenes/vdeo/audio)
IRC 2011/201241
7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
42/43
Aplicacin: Extraccin de informacin
Evolucin de la recuperacin de informacin
El sistema no slo presenta la lista de objetos que contienen la
informacin, sino que la extrae de ellos
Information Extractionhttp://en.wikipedia.org/wiki/Information_extraction
Question answeringhttp://en.wikipedia.org/wiki/Question_answering
http://www.answers.com/bb/
Generacin de resmenes
Esteganografa (Cifrado)http://en.wikipedia.org/wiki/Steganography
http://www.spammimic.com/
IRC 2011/201242
http://en.wikipedia.org/wiki/Information_extractionhttp://en.wikipedia.org/wiki/Question_answeringhttp://www.answers.com/bb/http://en.wikipedia.org/wiki/Steganographyhttp://www.spammimic.com/http://www.spammimic.com/http://en.wikipedia.org/wiki/Steganographyhttp://www.answers.com/bb/http://en.wikipedia.org/wiki/Question_answeringhttp://en.wikipedia.org/wiki/Information_extraction7/26/2019 09 Procesamiento Del Lenguaje Natural..ab
43/43
Aplicacin: Clasificacin de informacin
Clasificacin de texto en categoras
Clasificacin de noticias
Filtros antispam
Sistemas de diagnstico automtico
Extraccin del vector de caractersticas del texto +segmentacin o clasificacin