Post on 14-Jul-2015
transcript
Hoja de ruta
¿Que es Big Data?
¿Qué son las tecnologías Semánticas?
¿Qué es PLN?
¿Por qué estas tecnologías?
En un futuro…
“Big data” is high Volume, Velocity and Variety
information assets that demand cost-
effective, innovative forms of information
processing for enhanced insight and decision
making.” Gartner 2012
Tres Vs: Volumen, velocidad y variedad
Formas de procesamiento innovadoras y efectivas
en coste. “Big processing”
Valor de la información.
Big Data
Map-Reduce
(Hadoop)
Almacenamiento Análisis
Bases de datos NOSQL
“La Web Semántica es una extensión de la Web
actual en la que a la información disponible se le
otorga (anota o marca) una semántica bien
definida.”, Tim Berners Lee, 2002.
Web semántica
RDF
RDFS
OWL
SPARQL
Procesamiento del Lenguaje Natural
Comunicación
Significado
convencional
Significado
Contextual
Representación
gramatical
preposicional
Actitud de los
hablantes
Significado
concreto del
proceso
comunicativo
Diccionarios
actualizados
Tratamientos
sofisticados
de construcciones
complejas
Realidad
social
Emociones
Realidad
Social individual
Conocimiento
Linked Open Data
CloudFormato RDF Acceso libre
Interconexión
Dominios y modelos heterogéneos
Análisis de grandes Bases de conocimientoExtracción de información con significado en
grandes volúmenes semantizados o en bruto
Otros Corpus
sin modeloGoogle n-gram
corpus
USENET corpus
¿Por qué estas tecnologías?
Necesidades de PLN:
Detectar la semántica de los textos.
LOP Posibles fuentes de conocimiento para rescatar
información de contexto estructurada.
• Participación en RepLab 2013 en la tarea de filtrado
(relación de un tweet con una entidad):
Sensitivity = 0,32729
Reliability = 0,944078
¿Por qué semántica + PLN?
Necesidades de PLN:
“Análisis y procesamiento de grandes
volúmenes de datos con técnicas de PLN
implementadas con modelos de programación
como Hadoop.”
Grandes corpus en Lenguaje Natural:
• Google N-grams
• Usenet
¿Por qué Big Data + PLN?
Problema de PLN:
“Falta de escalabilidad y distribución de
actuales algoritmos de PLN”
Business Intelligence :
1. Análisis y extracción de información valida de grandes
volúmenes aplicando las tres técnicas.
2. Semantización de corpus en lenguaje natural mediante
generación automática de ontologías.
Sistemas de búsqueda inteligente: Google Knowledge
Graph
1. Generación del contexto semántico del usuario y de sus
consultas y aplicación de técnicas de PLN para la
desambiguación de las respuestas.
Problemas de escalabilidad y distribución (Gartner 2011)
Big Data +Tecnologías semánticas + PLN