Classificació de sentiments: L’humor

Classificació de sentiments:

L’humor

Cristina España i Bonet18 de desembre de 2006

__Processament del Llenguatge Natural per al Processament Massiu d'Informació

Textual__

Reconeixement d’humor en textos___________________________________________________________________2

ÍNDEX

Què és l’humor... per a un ordinador?

Reconeixement de one-liners (Refs. [1,2])

Corpus

Mètodes

Resultats

Conclusions

Classificació d’acudits (Refs. [3,4])

Reconeixement de jocs de paraules

Conclusió

Referències


ÍNDEX


Reconeixement de one-liners

Corpus

Mètodes

Resultats

Conclusions

Classificació d’acudits


Conclusió

Referències


HUMOR

Definició

Facultat de descobrir i expressar elements còmics o absurdament incongruents en idees, situacions, esdeveniments, actes, etc...

Persona

Ordinador

Definició

Facultat de descobrir i expressar verbalment elements còmics (one-liners) o absurdament incongruents (knock-knock).


HUMOR

Generació d’humor

(tasca més explorada)

Sistemes:

• JAPE

• HAHAcronym

Reconeixement automàtic d’humor

Massa genèric (complicat):

• acudits

• one-liners

• jocs de paraules

• acudits “knock, knock”

Tasca A Tasca B


ÍNDEX



Corpus

Mètodes

Resultats

Conclusions



Conclusió

Referències

R. Mihalcea &

C. Strapparava


ONE-LINERS

Què és un one-liner

Què no és un one-liner

Take my advice; I don’t use it anyway.

Característiques:

• frases curtes (<15 paraules)

• sintaxi simple

• ús de recursos estilístics

I believe no tales from an enemy’s tongue.

Estructures similars:

• refranys

• titulars

• proverbis


ONE-LINERS: CORPUS

Exemples positius(bootstrap sobre el web)

• llavor: 10 one-liners

• 2 iter.: 24000 one-liners

• eliminació de duplicats:

16000 one-liners

• soroll: 9%

(inspecció manual 200)


ONE-LINERS: CORPUS

Exemples negatius

Titulars de Reuters

Frases del British National

Corpus (BNC)

Proverbis extrets d’una

col·lecció online.

2006

Estructures similars


ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE

S’han de buscar característiques significatives i “implementables”:

Al·literacions

Repetició d’estructura i fonètica per cridar l’atenció:

Veni, Vidi, Visa: I came, I saw, I did a little shopping.

Antonímia

Per expressar incongruències o contradiccions:

A clean desk is a sign of a cluttered desk drawer.

Argot (adult)

Per cridar l’atenció:

The sex was so good that even the neighbours had a cigarette.



Com es troben a la pràctica?

Al·literacions

CMU Diccionari de pronúncia, comparació de cadenes.

També es troben en jocs de paraules, titulars o anuncis.

Antonímia

WordNet, relació d’antonímia.

No complet. A més, caldria desambiguar.

Argot (adult)

Lexicó extret de WordNetDomains, domini: sexuality.

No complet.



Com es quantifiquen?

Cal definir un valor llindar per a cada recurs estilístic: per sobre d’ell el text serà humorístic per sota no.

El llindar s’aprèn automàticament:

Arbre de decisió aplicat sobre 1000 exemples.

(resultats similars amb més exemples)

Els resultats s’obtenen amb la resta d’exemples.


ONE-LINERS MÈTODE 2: APRENENTATGE AMB CLASSIFICADORS

Donat el corpus amb exemples positius i negatius, aplicar un classificador:

Multinomial Naïve Bayes

En un conjunt de paraules independents, la probabilitat de pertànyer a una categoria és la probabilitat conjunta de paraules i categoria.

Support vector machines

El mínim marge màxim divideix l’espai de manera que separa els exemples positius dels negatius.

(Resultats: 10-fold CV)


ONE-LINERS MÈTODE 3: COMBINACIÓ DELS ANTERIORS

Utilització d’un stacked learner per aprofitar els resultats dels dos mètodes anteriors:

Primera etapa d’aprenentatge: Utilització del classificador.

Crea un vector de característiques amb la sortida del classificador i els tres recursos estilístics.

Segona etapa d’aprenentatge: Utilització d’un sistema d’aprenentatge basat en memòria, per no perdre la informació de les característiques menys importants. (Timbl)


L’al·literació és la característica més distintiva.

Els titulars són el més llunyà a un one-liner i els proverbis el més similar.

En la majoria de casos, una sola característica gairebé no millora el baseline (50%).

ONE-LINERS RESULTATS: HEURÍSTIQUES

One-linersMix

63.76%


Barrejant els exemples negatius s’obtenen resultats propers als del BNC.

Dificultar el problema (més exemples negatius que positius) encara millora els resultats (però baseline més alt).

ONE-LINERS RESULTATS: HEURÍSTIQUES

No:75% Si:25% 87.49% 77.62% 76.20%


ONE-LINERS RESULTATS: CLASSIFICADORS

Millores significatives respecte a les característiques estilístiques.

Els titulars són el més llunyà a un one-liner i els textos del BNC el més similar.

Millora especial en els proverbis: similars estilísticament, però amb continguts diferents.



Amb els mateixos nous experiments que per als recursos estilístics s’observen les mateixes tendències:

Barrejant els exemples negatius s’obtenen resultats propers als del BNC.

Dificultar el problema encara millora els resultats amb un classificador Naïve Bayes.

One-linersMix

77.82%79.23%

No:75% Si:25% 96.19% 81.56% 87.86%



Reuters

Proverbis

BNC

Corbes d’aprenentatge

Excepte per BNC, NB dóna resultats lleugerament millors a SVM.

Amb el 60% d’exemples (104 + 104) ja es deixa d’aprendre.

No és important ampliar el conjunt d’exemples, potser reduir el soroll.

Reconeixement d’humor en textos__________________________________________________________________20

ONE-LINERS RESULTATS: COMBINACIÓ

Combination

+1 +2 +0


ONE-LINERS CONCLUSIONS

En general, i contra els exemples negatius triats aquí, la classificació automàtica de one-liners és força efectiva.

El número d’exemples del corpus és més que suficient (corba d’aprenentatge): millor centrar-se amb les característiques i reduir el soroll.

Al contrari del que pressuposaven els autors, el més difícil és diferenciar-los del text genèric (BNC).

Manera de triar les frases?

Els classificadors donen molt millors resultats que els recursos estilístics triats.

La millora amb la combinació dels dos mètodes és estadísticament significativa.


ÍNDEX



Corpus

Mètodes

Resultats

Conclusions



Conclusió

Referències

J.M. Taylor &

L.J. Mazlack


ACUDITS

Què és un acudit?

Part I: Preparació (setup) Interpretació I

Part II: Conclusió (punchline) Interpretació II

Interpretació I ≠ Interpretació II

Jocs de paraules

Acudits amb paraules amb la mateixa pronunciació i/o escriptura:

Diane: I want to go to Tibet on our honeymoon.

Sam: Of course, we’ll go to bed.


ACUDITS: RECONEIXEMENT FORMAT I

Acudits amb una pregunta com a setup i el punchline com a resposta.

Infermera: Can I get your weight today? WEIGHT

Pacient: Three hours and twelve minutes. WAIT

Algoritme de reconeixement:

1r Validació del format anterior.

2n Buscar paraules/anotacions semàntiques ortogràficament similars:

LCSR = Longitud subcadena comú / longitud cadena més llargaLCSR = l(we) / l(weight) = 0.33 (twelve vs. weight)

: : LCSR = l(wit) / l(weight) = 0.50 (wait vs. weight)


ACUDITS: RECONEIXEMENT FORMAT I

3r Parella amb major similitud: Substitució de sons per passar d’una a l’altra.

3a. Si el pas és possible 4t.

3b. Si no Provar amb la següent millor similitud.

4t Substituir el joc de paraules trobat al setup.

5è Verificació sintàctica: Ús d’un parser.

n arbres sintàctics per al setup

6è Verificació semàntica per a cada arbre: Ús d’ontologies, CycL.

Sortida: Almenys 1 arbre no entra en conflicte semàntic amb el punchline ACUDIT


ACUDITS RECONEIXEMENT FORMAT I: RESULTATS

?


ACUDITS: RECONEIXEMENT FORMAT II

Acudits amb l’estructura Knock-Knock:

Acudit en forma de diàleg amb un joc de paraules en el punchline. Estructura:

Linia1: “Knock, Knock”

Linia2: “Who’s there?”

Linia3: resposta3

Linia4: Linia3 + “who?”

Linia5: punchline (joc de paraules)

Knock, Knock

Who’s there?

Justin

Justin who?

Just in time for dinner.



Algoritme de reconeixement:

1r Validació del format anterior.

2n Generació de jocs de paraules amb Linia3.

Donada una paraula A, reemplaçar sons (taula de Frish) fins a arribar a B.

Es calcula la similitud per cada B trobada i s’ordenen.

Se separa per paraules i s’agafa la 1a cadena que tingui sentit.

3r Construcció d’una base de dades amb una taula de bi/trigrames:

Es trien textos amb el joc de paraules i les dues paraules següents del punchline.

S’introdueix a la taula totes les parelles/trios d’aquests texts.



4t Validació de la seqüència de jocs de paraules en el context.

Taula de bigrames: S’agafa la sortida del generador, se separa en paraules i es mira d’una amb una i amb la següent si la combinació surt a la BD.

5è Validació del joc de paraules amb el punchline.

Taula de trigrames: Es busca wp1,wp2,punch1 a la BD.

Taula de trigrames: Es busca wpf,punch1,punch2 a la BD.

Sortida: Es troba wp1,wp2,punch1 i wpf,punch1,punch2

ACUDIT


ACUDITS RECONEIXEMENT FORMAT II: RESULTATS

El corpus:

Set d’entrenament: 66 acudits KK. A partir d’aquests es busquen els textos per generar les taules de bi/trigrames.

Taula de similitud ampliada per incloure tots els casos.

Set de test: 130 acudits KK i 65 diàlegs amb estructura similar.

Els números:

85/130 jocs de paraules reconeguts: 65,38%

17/130 (17/122) KK identificats: 13,08% (13,93%)

62/65 no acudits reconeguts: 95,38%

Total: 79/195 40,51% << baseline!


ÍNDEX



Corpus

Mètodes

Resultats

Conclusions



Conclusió

Referències


CONCLUSIONS

Detectar humor genèricament és una tasca inabordable.

Aquí s’han comentat 2 aproximacions:

Els one-liners es detecten amb una precisió de fins al 96% més gràcies al seu contingut que a les característiques estilístiques.

Els jocs de paraules es poden generar per intercanvis de sons amb un èxit moderat i detectar-se mitjançant bigrames amb un 65,38%.

El resultats d’acudits basats en jocs de paraules són, per contra, molt dolents (13,93%) a l’espera dels resultats d’un nou mètode no basat en n-grames.

Aquestes tasques concretes s’estan aplicant amb èxit a algunes aplicacions. Ex: Introducció d’un one-liner al final d’un mail.


REFERÈNCIES

[1] R. Mihalcea, C. Strapparava. Making Computers Laugh: Investigations in Automatic Humor Recognition. Proceedings of the Joint Conference on Human Language Technology / Empirical Methods in Natural Language Processing (HLT/EMNLP), Vancouver, October, 2005.

[2] R. Mihalcea, C. Strapparava. Technologies That Make You Smile: Adding Humor to Text-Based Applications. IEEE Intelligent Systems, October, 2006, Vol. 21, No. 5, P. 33.

[3] J.M. Taylor, L.J. Mazlack. Computationally Recognizing Wordplay In Jokes. Cognitive Science Conference Proceedings (CogSci 2004), August, 2004, Chicago, 1315-1320.

[4] J.M. Taylor, L.J. Mazlack. Toward Computational Recognition of Humorous Intent. Cognitive Science Conference 2005 Proceedings (CogSci 2005), Stresa, Italy, July, 2005, 2166-2171.

Date post:	12-Jan-2016
Category:	Documents
Upload:	honora
View:	42 times
Download:	0 times

Classificació de sentiments: L’humor

Documents