Classificació de sentiments:
L’humor
Cristina España i Bonet18 de desembre de 2006
__Processament del Llenguatge Natural per al Processament Massiu d'Informació
Textual__
Reconeixement d’humor en textos___________________________________________________________________2
ÍNDEX
Què és l’humor... per a un ordinador?
Reconeixement de one-liners (Refs. [1,2])
Corpus
Mètodes
Resultats
Conclusions
Classificació d’acudits (Refs. [3,4])
Reconeixement de jocs de paraules
Conclusió
Referències
Reconeixement d’humor en textos___________________________________________________________________3
ÍNDEX
Què és l’humor... per a un ordinador?
Reconeixement de one-liners
Corpus
Mètodes
Resultats
Conclusions
Classificació d’acudits
Reconeixement de jocs de paraules
Conclusió
Referències
Reconeixement d’humor en textos___________________________________________________________________4
HUMOR
Definició
Facultat de descobrir i expressar elements còmics o absurdament incongruents en idees, situacions, esdeveniments, actes, etc...
Persona
Ordinador
Definició
Facultat de descobrir i expressar verbalment elements còmics (one-liners) o absurdament incongruents (knock-knock).
Reconeixement d’humor en textos___________________________________________________________________5
HUMOR
Generació d’humor
(tasca més explorada)
Sistemes:
• JAPE
• HAHAcronym
Reconeixement automàtic d’humor
Massa genèric (complicat):
• acudits
• one-liners
• jocs de paraules
• acudits “knock, knock”
Tasca A Tasca B
Reconeixement d’humor en textos___________________________________________________________________6
ÍNDEX
Què és l’humor... per a un ordinador?
Reconeixement de one-liners
Corpus
Mètodes
Resultats
Conclusions
Classificació d’acudits
Reconeixement de jocs de paraules
Conclusió
Referències
R. Mihalcea &
C. Strapparava
Reconeixement d’humor en textos___________________________________________________________________7
ONE-LINERS
Què és un one-liner
Què no és un one-liner
Take my advice; I don’t use it anyway.
Característiques:
• frases curtes (<15 paraules)
• sintaxi simple
• ús de recursos estilístics
I believe no tales from an enemy’s tongue.
Estructures similars:
• refranys
• titulars
• proverbis
Reconeixement d’humor en textos___________________________________________________________________8
ONE-LINERS: CORPUS
Exemples positius(bootstrap sobre el web)
• llavor: 10 one-liners
• 2 iter.: 24000 one-liners
• eliminació de duplicats:
16000 one-liners
• soroll: 9%
(inspecció manual 200)
Reconeixement d’humor en textos___________________________________________________________________9
ONE-LINERS: CORPUS
Exemples negatius
Titulars de Reuters
Frases del British National
Corpus (BNC)
Proverbis extrets d’una
col·lecció online.
2006
Estructures similars
Reconeixement d’humor en textos___________________________________________________________________10
ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE
S’han de buscar característiques significatives i “implementables”:
Al·literacions
Repetició d’estructura i fonètica per cridar l’atenció:
Veni, Vidi, Visa: I came, I saw, I did a little shopping.
Antonímia
Per expressar incongruències o contradiccions:
A clean desk is a sign of a cluttered desk drawer.
Argot (adult)
Per cridar l’atenció:
The sex was so good that even the neighbours had a cigarette.
Reconeixement d’humor en textos___________________________________________________________________11
ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE
Com es troben a la pràctica?
Al·literacions
CMU Diccionari de pronúncia, comparació de cadenes.
També es troben en jocs de paraules, titulars o anuncis.
Antonímia
WordNet, relació d’antonímia.
No complet. A més, caldria desambiguar.
Argot (adult)
Lexicó extret de WordNetDomains, domini: sexuality.
No complet.
Reconeixement d’humor en textos___________________________________________________________________12
ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE
Com es quantifiquen?
Cal definir un valor llindar per a cada recurs estilístic: per sobre d’ell el text serà humorístic per sota no.
El llindar s’aprèn automàticament:
Arbre de decisió aplicat sobre 1000 exemples.
(resultats similars amb més exemples)
Els resultats s’obtenen amb la resta d’exemples.
Reconeixement d’humor en textos___________________________________________________________________13
ONE-LINERS MÈTODE 2: APRENENTATGE AMB CLASSIFICADORS
Donat el corpus amb exemples positius i negatius, aplicar un classificador:
Multinomial Naïve Bayes
En un conjunt de paraules independents, la probabilitat de pertànyer a una categoria és la probabilitat conjunta de paraules i categoria.
Support vector machines
El mínim marge màxim divideix l’espai de manera que separa els exemples positius dels negatius.
(Resultats: 10-fold CV)
Reconeixement d’humor en textos___________________________________________________________________14
ONE-LINERS MÈTODE 3: COMBINACIÓ DELS ANTERIORS
Utilització d’un stacked learner per aprofitar els resultats dels dos mètodes anteriors:
Primera etapa d’aprenentatge: Utilització del classificador.
Crea un vector de característiques amb la sortida del classificador i els tres recursos estilístics.
Segona etapa d’aprenentatge: Utilització d’un sistema d’aprenentatge basat en memòria, per no perdre la informació de les característiques menys importants. (Timbl)
Reconeixement d’humor en textos___________________________________________________________________15
L’al·literació és la característica més distintiva.
Els titulars són el més llunyà a un one-liner i els proverbis el més similar.
En la majoria de casos, una sola característica gairebé no millora el baseline (50%).
ONE-LINERS RESULTATS: HEURÍSTIQUES
One-linersMix
63.76%
Reconeixement d’humor en textos___________________________________________________________________16
Barrejant els exemples negatius s’obtenen resultats propers als del BNC.
Dificultar el problema (més exemples negatius que positius) encara millora els resultats (però baseline més alt).
ONE-LINERS RESULTATS: HEURÍSTIQUES
No:75% Si:25% 87.49% 77.62% 76.20%
Reconeixement d’humor en textos___________________________________________________________________17
ONE-LINERS RESULTATS: CLASSIFICADORS
Millores significatives respecte a les característiques estilístiques.
Els titulars són el més llunyà a un one-liner i els textos del BNC el més similar.
Millora especial en els proverbis: similars estilísticament, però amb continguts diferents.
Reconeixement d’humor en textos___________________________________________________________________18
ONE-LINERS RESULTATS: CLASSIFICADORS
Amb els mateixos nous experiments que per als recursos estilístics s’observen les mateixes tendències:
Barrejant els exemples negatius s’obtenen resultats propers als del BNC.
Dificultar el problema encara millora els resultats amb un classificador Naïve Bayes.
One-linersMix
77.82%79.23%
No:75% Si:25% 96.19% 81.56% 87.86%
Reconeixement d’humor en textos___________________________________________________________________19
ONE-LINERS RESULTATS: CLASSIFICADORS
Reuters
Proverbis
BNC
Corbes d’aprenentatge
Excepte per BNC, NB dóna resultats lleugerament millors a SVM.
Amb el 60% d’exemples (104 + 104) ja es deixa d’aprendre.
No és important ampliar el conjunt d’exemples, potser reduir el soroll.
Reconeixement d’humor en textos__________________________________________________________________20
ONE-LINERS RESULTATS: COMBINACIÓ
Combination
+1 +2 +0
Reconeixement d’humor en textos___________________________________________________________________21
ONE-LINERS CONCLUSIONS
En general, i contra els exemples negatius triats aquí, la classificació automàtica de one-liners és força efectiva.
El número d’exemples del corpus és més que suficient (corba d’aprenentatge): millor centrar-se amb les característiques i reduir el soroll.
Al contrari del que pressuposaven els autors, el més difícil és diferenciar-los del text genèric (BNC).
Manera de triar les frases?
Els classificadors donen molt millors resultats que els recursos estilístics triats.
La millora amb la combinació dels dos mètodes és estadísticament significativa.
Reconeixement d’humor en textos__________________________________________________________________22
ÍNDEX
Què és l’humor... per a un ordinador?
Reconeixement de one-liners
Corpus
Mètodes
Resultats
Conclusions
Classificació d’acudits
Reconeixement de jocs de paraules
Conclusió
Referències
J.M. Taylor &
L.J. Mazlack
Reconeixement d’humor en textos__________________________________________________________________23
ACUDITS
Què és un acudit?
Part I: Preparació (setup) Interpretació I
Part II: Conclusió (punchline) Interpretació II
Interpretació I ≠ Interpretació II
Jocs de paraules
Acudits amb paraules amb la mateixa pronunciació i/o escriptura:
Diane: I want to go to Tibet on our honeymoon.
Sam: Of course, we’ll go to bed.
Reconeixement d’humor en textos__________________________________________________________________24
ACUDITS: RECONEIXEMENT FORMAT I
Acudits amb una pregunta com a setup i el punchline com a resposta.
Infermera: Can I get your weight today? WEIGHT
Pacient: Three hours and twelve minutes. WAIT
Algoritme de reconeixement:
1r Validació del format anterior.
2n Buscar paraules/anotacions semàntiques ortogràficament similars:
LCSR = Longitud subcadena comú / longitud cadena més llargaLCSR = l(we) / l(weight) = 0.33 (twelve vs. weight)
: : LCSR = l(wit) / l(weight) = 0.50 (wait vs. weight)
Reconeixement d’humor en textos__________________________________________________________________25
ACUDITS: RECONEIXEMENT FORMAT I
3r Parella amb major similitud: Substitució de sons per passar d’una a l’altra.
3a. Si el pas és possible 4t.
3b. Si no Provar amb la següent millor similitud.
4t Substituir el joc de paraules trobat al setup.
5è Verificació sintàctica: Ús d’un parser.
n arbres sintàctics per al setup
6è Verificació semàntica per a cada arbre: Ús d’ontologies, CycL.
Sortida: Almenys 1 arbre no entra en conflicte semàntic amb el punchline ACUDIT
Reconeixement d’humor en textos__________________________________________________________________26
ACUDITS RECONEIXEMENT FORMAT I: RESULTATS
?
Reconeixement d’humor en textos__________________________________________________________________27
ACUDITS: RECONEIXEMENT FORMAT II
Acudits amb l’estructura Knock-Knock:
Acudit en forma de diàleg amb un joc de paraules en el punchline. Estructura:
Linia1: “Knock, Knock”
Linia2: “Who’s there?”
Linia3: resposta3
Linia4: Linia3 + “who?”
Linia5: punchline (joc de paraules)
Knock, Knock
Who’s there?
Justin
Justin who?
Just in time for dinner.
Reconeixement d’humor en textos__________________________________________________________________28
ACUDITS: RECONEIXEMENT FORMAT II
Algoritme de reconeixement:
1r Validació del format anterior.
2n Generació de jocs de paraules amb Linia3.
Donada una paraula A, reemplaçar sons (taula de Frish) fins a arribar a B.
Es calcula la similitud per cada B trobada i s’ordenen.
Se separa per paraules i s’agafa la 1a cadena que tingui sentit.
3r Construcció d’una base de dades amb una taula de bi/trigrames:
Es trien textos amb el joc de paraules i les dues paraules següents del punchline.
S’introdueix a la taula totes les parelles/trios d’aquests texts.
Reconeixement d’humor en textos__________________________________________________________________29
ACUDITS: RECONEIXEMENT FORMAT II
4t Validació de la seqüència de jocs de paraules en el context.
Taula de bigrames: S’agafa la sortida del generador, se separa en paraules i es mira d’una amb una i amb la següent si la combinació surt a la BD.
5è Validació del joc de paraules amb el punchline.
Taula de trigrames: Es busca wp1,wp2,punch1 a la BD.
Taula de trigrames: Es busca wpf,punch1,punch2 a la BD.
Sortida: Es troba wp1,wp2,punch1 i wpf,punch1,punch2
ACUDIT
Reconeixement d’humor en textos__________________________________________________________________30
ACUDITS RECONEIXEMENT FORMAT II: RESULTATS
El corpus:
Set d’entrenament: 66 acudits KK. A partir d’aquests es busquen els textos per generar les taules de bi/trigrames.
Taula de similitud ampliada per incloure tots els casos.
Set de test: 130 acudits KK i 65 diàlegs amb estructura similar.
Els números:
85/130 jocs de paraules reconeguts: 65,38%
17/130 (17/122) KK identificats: 13,08% (13,93%)
62/65 no acudits reconeguts: 95,38%
Total: 79/195 40,51% << baseline!
Reconeixement d’humor en textos__________________________________________________________________31
ÍNDEX
Què és l’humor... per a un ordinador?
Reconeixement de one-liners
Corpus
Mètodes
Resultats
Conclusions
Classificació d’acudits
Reconeixement de jocs de paraules
Conclusió
Referències
Reconeixement d’humor en textos__________________________________________________________________32
CONCLUSIONS
Detectar humor genèricament és una tasca inabordable.
Aquí s’han comentat 2 aproximacions:
Els one-liners es detecten amb una precisió de fins al 96% més gràcies al seu contingut que a les característiques estilístiques.
Els jocs de paraules es poden generar per intercanvis de sons amb un èxit moderat i detectar-se mitjançant bigrames amb un 65,38%.
El resultats d’acudits basats en jocs de paraules són, per contra, molt dolents (13,93%) a l’espera dels resultats d’un nou mètode no basat en n-grames.
Aquestes tasques concretes s’estan aplicant amb èxit a algunes aplicacions. Ex: Introducció d’un one-liner al final d’un mail.
Reconeixement d’humor en textos__________________________________________________________________33
REFERÈNCIES
[1] R. Mihalcea, C. Strapparava. Making Computers Laugh: Investigations in Automatic Humor Recognition. Proceedings of the Joint Conference on Human Language Technology / Empirical Methods in Natural Language Processing (HLT/EMNLP), Vancouver, October, 2005.
[2] R. Mihalcea, C. Strapparava. Technologies That Make You Smile: Adding Humor to Text-Based Applications. IEEE Intelligent Systems, October, 2006, Vol. 21, No. 5, P. 33.
[3] J.M. Taylor, L.J. Mazlack. Computationally Recognizing Wordplay In Jokes. Cognitive Science Conference Proceedings (CogSci 2004), August, 2004, Chicago, 1315-1320.
[4] J.M. Taylor, L.J. Mazlack. Toward Computational Recognition of Humorous Intent. Cognitive Science Conference 2005 Proceedings (CogSci 2005), Stresa, Italy, July, 2005, 2166-2171.