Date post: | 15-Jun-2015 |
Category: |
Education |
Upload: | unam-facultad-de-contaduria-administracion-e-informatica |
View: | 1,840 times |
Download: | 1 times |
Minería de textosy
datos para-textuales
Universitat Autónoma de Barcelona
SEA
2 de febrero 2007
Mónica Bécue Bertaut
Universitat Politècnica de Catalunya
Indice:
1. Introducción
2. Métodos de análisis. Codificación y distancia
3. Primer ejemplo: evaluación de un producto mediante una nota y comentarios abiertos
4. Segundo ejemplo: clasificación de los entrevistados a partir de sus preguntas cerradas y abiertas
Minería de textos y datos para-textuales
Minería de textos y datos para-textuales
La minería de textos analiza textos en lengua natural mediante procedimientos automáticos para: • extraer los temas• determinar la estructura de un texto: localización de las rupturas…• visualizar la proximidad entre documentos y/o entre términos• indexar les documentos (multi-indexación)• construir bases de documentos para una interrogación automática posterior• …
1. Introducción:
Búsqueda de información BI versus Extracción de información EI
• BI: tratamiento global de un gran número de documentos, búsqueda de temas, construcción de una tipología de los documentos
• EI: búsqueda de información “ciblada”, para alimentar una base de datos estructurada (relleno automático de los campos de la base)
Minería de textos y Estadística textual
Estadística léxica, Lexicometría y estadística textual, Minería de textos
Medida del vocabulario: recuento de las palabras
Minería de textos y Estadística textual
• Estadística léxica (Muller, Labbé, Holmes). Estructura de un texto o de una obra. Análisis de textos clásicos. Modelos de urnas.
• El corpus visto como una tabla de frecuencias (J.P. Benzécri, L. Lebart). Métodos multidimensionales
• Más recientemente, métodos de data mining, como LSI, SVM, Market basket analysis
Tipos de textos analizados
• Encuestas de opinión
• Encuestas de satisfacción de clientela
• Entrevistas semi-abiertas en estudios de clientela
• Revistas de prensa
• Vigilia tecnológica: resúmenes de artículos
contenidos en las bases científicas, patentes, …
Minería de textos y Estadística textual
Minería de textos y datos
Textos e información complementaria• Encuestas: preguntas abiertas + preguntas cerradas
• más generalmente, textos acompañados de una información complementaria “cerrada” - guía de vinos: comentarios + nota dada al vino
- sentencias de tribunal: texto de la sentencia + fecha, juez-ponente, delito
Métodos que analizan simultáneamente los textos y la información cerrada No hay una única manera de hacerlo. La elección del méetodo depende de los objetivos y de los datos.
2. Métodos de análisis
Dos puntos importantes:
• la codificación: se debe saber cómo se codifica el corpus (algunas veces, el software opera una codificación parcialmente transparente para el usuario)
• el papel fundamental de la distancia escogida en el análisis estadístico de textos. Distancia entre que elementos (entrevistados, categorías de entrevistados, palabras, etc.)
Minería de textos y datos
Individuos/textos
Codificación del corpus: tabla léxica
Variable textual
pal1 palt2
kij
La codificación transforma el corpus en una tabla que se puede analizar mediante métodos estadísticos
Minería de textos y datos
Utilizar la información cerrada
Individuos
Information a analizar: ¿cuál es la parte activa? ¿cuál es la parte suplementaria?
VariablescuantitativasVariables
textuales
Variablescualitativas
Tabla mixta
Minería de textos y Estadística textual
1
La codificación escogida tiene una incidencia sobre la distancia
¿A partir de que información se calcula la distancia?
A partir
• de las palabras,
• de los lemas
• de las palabras y de las preguntas cerradas
¿Cuál es la distancia escogida?
Minería de textos y Estadística textual
Representación gráfica :
Análisis de correspondencias
Tipología de documentos:
Clasificación
Tipología a partir de tablas múltipes:
Análisis factorial múltiple y clasificación
Minería de textos y Estadística textual
•Enfoque geométrico que visualiza las proximidades entre filas, las proximidades entre columnas, y las interrelaciones
.
.
.
.
..
i
G
F1
F2
O
G1
G2
k
.
. .
.
.
.
.
.
.
.
Minería de textos y Estadística textual
Análisis de correspondencias
• Formación de clases homogéneas
Clasificación
Minería de textos y Estadística textual
Primer ejemplo:
Evaluación de vinos mediante notas y comentarios
Castilla y León
5 denominaciones:Bierzo, Cigales, Ribera del Duero, Rueda, Toro
Minería de textos y Estadística textual
---- Note= 80 Valdelosfriales-2003Joven típico, con notas de tempranillo y balsámicos; en boca amable y frutoso.
---- Note=91 Tares P3-2001 premiumMucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final.
Minería de textos y Estadística textual
Ejemplo: guía de vinos de Castilla y León
Doble objetivo
• Estudiar la relación entre la nota y la evaluación en forma de comentario libre
• Si esta relación existe, sería posible construir un nuevo score que tenga en cuenta a la vez la nota y los comentarios (mediante el recuenta de las palabras utilizadas)?
Problemática similar a la abordada por los métodos multicanónicos: buscar la(s) variable(s) general(es) que constituye la mejor síntesis de varios grupos de variables
Minería de textos y Estadística textual
Columnas Filas
Tabla de frecuencias Palabras
1 j Jf
Tabla cuantitativa
1 j Jc
1
Vinos i
I
proporciones
n
nf ij
ij
.if
Valores cuantitativos
ijx
j.f
1
Método de referencia: AC
Métode de referencia: ACP
Tabla a analizar
Grupo textual Jf columnas Grupo notas Jc columnas
Minería de textos y Estadística textual
Tabla léxica activa
Minería de textos y Estadística textual
Nota y commentarios activosMinería de textos y Estadística textual
Minería de textos y Estadística textual
A PARTIR DE AQUÍ,
SÓLO LOS VINOS TINTOS
Nota y commentarios activos
Minería de textos y Estadística textual
9797
9393
-3.0 -1.5 1.5
-1.5
1.5
3.0
4.5
6.0
Mesoneros de Castilla (03)
Torondos (02)
Valdelosfrailes (03)
Fuentenarro (02)
Gayubar (02)
Valdetán (02)
Carramimbre (03)Viña Eremos (03)
Marqués de Peñamonte (01)
7878
7979
8080
8181 82828383
8484 8585 86868787
8989
8888 9090 9191 9292
9494
9595
Axis 2 : 1.75%
Axis 1: 3.52%
Jaros Chafandín (01)
Tares P3 (01)Termanthia (02)
San Román (01)Numanthia (02)
Gran Elías Mora (00)
Bienvenida Sitio de El Palo (01) Bienvenida Sitio de El Palo (02)
Vega Sicilia 'Único' (94)Viña Sastre Pesus(01)
First Principal PlaneWINES & MARKS
Tinto joven
Gran Reserva
Tinto crianza
Tinto reservaTinto roble
Eje de calidad
-1.0 -0.5 0 0.5 1.0
-0.75
0.75
1.50
2.25tempranillo
tiempo
equilibrio
intensidad
estructuraconcentración
n vinociruela
paladararomatintocuerpo
cuero
madurez mineralestilo
cocotacto
vezpotencial
pólvora
torrefacto
cascajo
roble
consistencia
crianzasequedad
Riberapaso
recuerdo acidez
frutosidadexpresi ón
sobremadurezcapa
tuestes
gominola
fondo
tierrazumo
cenizagrosella
caf éhierba%bosque
montecarne
sílexchocolate
bouquet
First Principal PlaneNOUNS
Axis 2 : 1.75%
frutillos
Axis 1: 3.52%
Minería de textos y Estadística textual
-1.50 -0.75 0.75
-0.75
0
0.75
1.50
2.25
típico
joven
amable
corto
herbáceofácil precioso
tradicional
frutalligero
limpioamericano
franco frutosoprimer gran
enérgico
salado
denso
impresionante
graso
granulosonoble
magnífico
mojado
aromá ticosalino
amargo
largo
rico
vigorososabroso
silvestrejugoso
potenteoscuro
voluptuosotodo
complejoconcentrado
integradopulido
linealrústico
vivo
First Principal PlaneADJECTIVES Axis2 : 1.75%
Axis1: 3.52%agradablemedio
accesible
abiertoensamblado
tostado
Minería de textos y Estadística textual
Minería de textos y Estadística textual
82
highest marks
enérgico
lowest marks
Average mark: 85.16
corto
cocopólvoravoluptuosomagnífico
-1,9 -1,1 1,30,90,5-1,5 -0,7 -0,3 0,1
herbáceo
tradicionalrústicojovenroblelineal
amable
densosaladoimpresionante
83 86
consistencia
frutalcrianzaalgolimpioligerobeberevolucionarfácil
agradablesobremadurezsequedadmediotempranilloligeramenteamericanocapa
tuestesciertoabiertoalgúndemasiadofranco
reducidodiscretofrutosidadensambladosecoclásicodominar
rojotípicoexpresióncompotadosuaveRiberacestatoque
vezgrasotorrefactogranulosograntiempo
todonoblecascajo
estiloconcentradonecesitarpotencialsabrososorprendetactocomplejolargo
potentepurodejarmineralprimermodernocarnosoamargo
salinofinodondemuchoserbouquetsílexintensofirmevinochocolate
Mark81 84 85 87 88 89 90
Minería de textos y Estadística textual
82
highest marks
enérgico
lowest marks
Average mark: 85.16
corto
cocopólvoravoluptuosomagnífico
-1,9 -1,1 1,30,90,5-1,5 -0,7 -0,3 0,1
herbáceo
tradicionalrústicojovenroblelineal
amable
densosaladoimpresionante
83 86
consistencia
frutalcrianzaalgolimpioligerobeberevolucionarfácil
agradablesobremadurezsequedadmediotempranilloligeramenteamericanocapa
tuestesciertoabiertoalgúndemasiadofranco
reducidodiscretofrutosidadensambladosecoclásicodominar
rojotípicoexpresióncompotadosuaveRiberacestatoque
vezgrasotorrefactogranulosograntiempo
todonoblecascajo
estiloconcentradonecesitarpotencialsabrososorprendetactocomplejolargo
potentepurodejarmineralprimermodernocarnosoamargo
salinofinodondemuchoserbouquetsílexintensofirmevinochocolate
Mark81 84 85 87 88 89 90
Criterio dominante: potencia del vino; las palabras denso, graso, concentrado
Se oponen a ligero, fácil, Algunos defectos: sequedad, sobremadurez, evolucionado
defectos importantes en el mundo del vino
- 0,8 + 0,8- 0,4 + 0,4
Factor 2 : 1,75%
Factor 1 : 3,52
Separate Axis 2of free comments
Separate Axis 1of free commentsPrice
Mark
Lengthresponses
Minería de textos y Estadística textual
Variables suplementarias
1.5
3.0
4.5
1.5- 3.0 - 1.5
- 1.5
8381
82
84 85
88 90 91 92
93
94
97
95
79
80
78
86 87
Gran Reserva
50-99,9€
30-49,9€
89
15-19,9€
20-24,9€
25-29,9€Tinto joven
0-4,9€ 5-9,9€
Tinto crianza
10-14,9€
Tinto reserva
Tinto roble
Axis2
Axis1
Vega Sicilia 'Único' (94)
Viña Sastre Pesus(01)
Jaros Chafandín (01)
100-300€
Astrales (02)
Punta Esencia (01)
Tares P3 (01)
Termanthia (02)
Gran Elías Mora (00)
Bienvenida Sitio de El Palo (01)
Bienvenida Sitio de El Palo (02)
Numanthia (02)
San Román (01)
Valdetán (02)
Torondos (02)
Mesoneros de Castilla (03)
Valdelosfrailes (03)
Fuentenarro (02)
Valdecuadrón (02)
Gayubar (02)
Viñatorondos (03)
Viña Valdable (03)
Marqués de Olivara (98)Rauda (01)
El Marqués (02)
Carramimbre (03)Viña Eremos (03)
Valsotillo (01)
Marqués de Peñamonte (01)
Minería de textos y Estadística textual
Variables suplementarias
)()(1
)( 1111
xGS
xxjGfiZ
X
i
Jjijf
f
)()()( 11 xGjGniZfJj
ij
Importancia relativa de los comentarios y de la nota
Contribución de cada palabra al score global
La nota aporta 51.7% de la varianza del score global y las palabras 48.3%
Minería de textos y Estadística textual
palabra nota
Tares P3-2001 premium: • score global máximo• nota inicial 91• emplea 8 de las 20 palabras con coordenadas mayores sobre
el primer eje (impresionant/, gran/ vez graso/ cascajo, pólvora largo/and tacto/
Vega Sicilia 'Único' -1.994 • Es sólo el tercero en score global • nota inicial 97• 4 de las 20 palabras con coordenadas mayores sobre el
primer eje (enérgico, tiempo, gran, y largo)
Legaris-2001 (85): • lejos (por abajo) de los otros vinos con la misma nota• Note incial 85• 4 de las 20 palabras de coordenadas más
negativas(consistencia, lineal, frutal y algo)
Minería de textos y Estadística textual
Punto de vista global/
punto de vista parcial
---- Wine 212 (mark= 85) Legaris-2001Tuestes, gominolas y buenos balsámicos marcan la intensidad media frutal de este crianza. En boca aparece muy lineal, con consistencia media; el retrogusto frutal todavía tapado por una madera algo rústica.
---- Wine 30 (mark=91) Tares P3-2001 premiumMucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final.
---- Wine 314 (mark=97) Vega Sicilia 'Único-1994Hay que realizar un ejercicio de disciplina gustativa de primer rango para describir este gran vino. el bouquet es fresco, bien armado de fruta roja que se ve potenciada por tintes de chocolates, tabacos, notas de sotobosque y una madera que se manifiesta pero que resulta difícil de localizar y menos de concretar. Tenemos el caso raro de un tinto que sale ileso del paso del tiempo sin lucir su armadura, que es la barrica. En boca joven, aunque ya tiene su cuerpo vigoroso y enérgico bastante ensamblado, con la excepción de algunos taninos saltamontes que quedan para domesticar. Largo y vibrante final que mezcla madurez con una notable finura fresca.
Minería de textos y Estadística textual
Presentación detallada de la metodología en:
Bécue-Bertaut, M. & Pagès J.
“Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. Application to survey data.”
aceptado para publicación por Computational Statistics and Data Analysis
Minería de textos y Estadística textual
Segundo ejemplo:
Los niños y la lectura
1. En la escuela, leemos (poco, bastante, mucho)2. En casa, tenemos (pocos, bastantes, muchos libros)3. Leo (poco, bastante, mucho)4. Leo (muy fácilmente, fácilmente, con dificultades)5. Libros dados por maestro (me gustan, no me gustan)6. Leo cuando (me gusta, hago trabajos, los dos)7. Prefiero leer (en silencio, en voz alta, las dos cosas)8. Leer los libros escolares (me gusta, no me gusta, depende)
Preguntas cerradas
Preguntas abiertas (datos textuales)• Para mí leer es… • Creo que leer es importante porque…
Encuesta LecturaNuria Rajadell, UB
----A130es un rollo porque hay muchas letras++++si no sabes leer no sabes escribir
----D214como vivir otra clase de vida, aprendo, me divierto y me entrego, no sé como explicarlo, pero me gusta leer++++aprendes cosas nuevas
Minería de textos y Estadística textual
Ejemplos de respuestas
Respuestas abiertas:---- para mí, leer eses muy interesante porque te puedes ir al mundo de la fantasía. por ejemplo puedes viajar a la edad media o estar en la prehistoria++++ Leer es importante por quesin la lectura no podría viajar
---- para mí, leer esaprender++++ Leer es importante por quese aprenden cosas nuevas
J127 Respuestas cerradas: leo bastante, leo muy fácilmente
N314Respuestas cerradas: leo bastante, leo muy fácilmenteRespuestas abiertas:
ABIERTO y CERRADO
Preguntas cerradas categóricas
Q1 Q2 Q3
I1 Ik1
Pregunta abierta 1
Aprender Aventura…
Pregunta abierta 2
Aprender Importante
Ind1
Ind i
Ind n
001 1000 0100 1 … 2 0 0 0 ……2…
En el ejemplo: tabla múltiple mixta
Minería de textos y Estadística textual
Primer plano factorial: Individuos
-2 0 2 4 6
-3.0
-1.5
0
1.5
3.0
Factor 1
Factor 2
J127
N314
Axis
1=1.4; 2%
Axis
2=1.2; 1.7%
Minería de textos y Estadística textual
-1 1 2 3
-1.50
-0.75
0
0.75
1.50
eje 1
eje 2
Ieo poco
Leo bastante
Leo muchoLeo con dificultadesLeo muy fácilmente
aburrido
aburrimiento
aprender
aprendes
aprendo
aventura
aventuras
diversion
divertida
divertidodivertirme
divierto
enseña
entrar
entretenido
entretenimiento
fantasia
imaginacion
importante
interesante
mundo
rollo
saber
aprende
aventuras
diviertes
imaginación
importante
importantes
sinoNOTA GLOBAL: SUSPENSO
NOTA GLOBAL: EXCELENTE
PADRE.: SIN ESTUDIOS
CLASE SOCIAL ELEVADA
PADRE EST. SUP
leo fácilmente
( 1=1.4, 2%)
(2=1.2, 1.7%)
Minería de textos y Estadística textual
Análisis Cluster de los individuos a partir de sus coordenadas sobre los 7 primeros ejes
Método jerárquico, con el criterio de Ward
7 clases (una residual cluster con 11 niños)
Minería de textos y Estadística textual
GRUPO 220 NIÑOS
CERRADAS Leo mucho (50% ; 28%)Leo muy fácilmente (81%; 58%)….
PARA MI, LEER ES
MEDIA EN LA MUESTRA
6.8 PALABRAS
PALABRAS SOBRE-REPRESENTADASpasar (pasar un buen rato), diversión, aventura, rato tiempo, divertirme, mundo, libro entrar, fantasia, forma
MEDIA: 8.8 PALABRASRESPUESTAS MODALES-Entrar en el libro que estoy leyendo y pasar las aventuras que hay en el libro -Entrar en el libro, ser el protagonista y pasar aventuras leyendo
CREO QUE LEER ES IMPORTANTE PORQUE… MEDIA EN LA MUESTRA7.4 PALABRAS
PALABRAS SOBRE-REPRESENTADASimaginación, hace , aprende, vocabulario, divertido, ayuda, aventuraMEDIA: 8.7 PALABRASRESPUESTAS MODALES-Te enseña palabras nuevas. Viajas a paises con la imaginación -Aprendo ortografía, se me abre la imaginación
Minería de textos y Estadística textual
Pregunta Coef. de Cramer
En casa tenemos (cantidad de libros) Leer los libros escolares Leo (cantidad de lectura) Para mí, leer es (abierta)Leo (facilidad de lectura) Leer es importante porque (abierta)Los libros dados por el maestro Prefiero leer (forma de leer) Leo cuando (contexto de la lectura) En la escuela leemos (cantidad de lectura escolar)
0.520.440.410.380.350.270.260.200.200.14
Minería de textos y Estadística textual
)c,rmin(nV
11
2
Si sólo se tiene en cuenta las preguntas cerradas, tomando las palabras y respuestas como ilustrativas
Se obtiene…
Minería de textos y Estadística textual
GRUPO 168 NIÑOS
CERRADAS CATEGORIAS SOBREREPRESENTADASLEO MUCHO (82%; 28%)LEO MUY FÁCILMENTE (93%; 58%)…
PARA MI, LEER ES
MEDIA EN LA MUESTRA6.8 PALABRAS
PALABRAS SOBRE-REPRESENTADASNINGUNA
MEDIA, 7.6 PALABRAS
CREO QUE LEER ES IMPORTANTE PORQUE… MEDIA EN LA MUESTRA7.4 PALABRAS
PALABRAS SOBRE-REPRESENTADASAprende, cosas
MEDIA 7.8 PALABRAS
RESPUESTAS MODALES-Se aprende -Se aprende
Minería de textos y Estadística textual
Pregunta Coeficiente deCramer
Leo (cantidad de lectura) Leo con (facilidad de lectura) Leo cuando (contexto de lectura)Los libros dados por el maestro Leer los libros escolares En la escuela, leemos (cantidad) I prefer reading (manera de leer) At home, we have (cantidad de libros) For me, to read means (open-ended)Reading is important because (open-ended)
0,620.500.450.430.390.390.320.300.170.15
Minería de textos y Estadística textual
Conclusión: textos e información paratextual
Olvidaros
Es prácticoTodo es automático
Minería de textos y Estadística textual
Bibliografía
Lebart, Salem, Bécue, 2000, Análisis estadístico de textos
Editorial MILENIO, Lleida
Minería de textos y Estadística textual
Presentación detallada de la metodología en:
Bécue-Bertaut, M. & Pagès J.“Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. Application to survey data.” aceptado para publicación por Computational Statistics and Data Analysis
Sobre el estudio de los vinos:Bécue-Bertaut M., Pagès J., Alvarez-Esteban R., Vásquez Burguete J.L. Détermination d’une note globale, synthèse d’une évalautaion numérique et d’appréciations libres. Application aux études de marché.
Actes des JADT2006.http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2006/tocJADT2006.htm