Post on 03-Aug-2015
transcript
Indización automatizada e indización de objetos electrónicos
JAVIER GASCÓN TOVAROrganización y Gestión de Archivos
Universidad de Zaragoza, 2013
IndizaciónIndización automatizadaautomatizada
Operación que identifica palabras o expresiones significativas de los
documentos para describir su contenido de forma condensada
por medio de programas de ordenador
ObjetosObjetos electrónicoselectrónicos
Entidades (documentos, personas, entidades) con unas carácterísticas
o atributos determinados,
asociables a una dirección web que los identifique de forma permanente (URI Uniforme Resource Identifier)
Las bases de la indización automatizada y de objetos electrónicos
Web semánticaWeb semántica
Tecnologías del lenguaje humanoTecnologías del
lenguaje humano
Repositorios digitales
Repositorios digitales
Canal por el que circulan los contenidos, conforme a unas normas
Herramientas para procesar la información
Lugares donde se almacena y está accesible la información
Ventajas e inconvenientes de la indización automatizada
Es más rápida, consistente y
económica
Es más rápida, consistente y
económica
Es técnicamente inviable,
científicamente discutible y
comercialmente poco rentable
Es técnicamente inviable,
científicamente discutible y
comercialmente poco rentable
PARTIDARIOS
DETRACTORES
La web semántica, según su inspirador TIM BERNERS-LEE
La Web semántica es una extensión de la Web actual [2001], dotada de una estructura que permita la correcta definición del contenido de las páginas web y posibilite así tanto la interacción entre ordenadores como entre ordenadores y usuarios, de modo que las máquinas puedan procesar y comprender los datos que hoy tan solo pueden presentar por pantalla.
La función de los vocabularios en la web semántica
Lenguajes documentalesLenguajes documentales proporcionan CONTROL TERMINOLÓGICO
CONTROL TERMINOLÓGICO
OntologíasOntologías aportan
SIGNIFICADO A NIVEL DE ESTRUCTURA (facilitando
la identificación, uso y recuperación de los
recursos
SIGNIFICADO A NIVEL DE ESTRUCTURA (facilitando
la identificación, uso y recuperación de los
recursos
Formatos de la web semántica que estructuran la información
• XML (eXtensible Markup Language). Etiqueta los distintos elementos de los objetos digitales.
• RDF (Resource Description Framework). Crean marcos para describir los objetos a partir de los metadatos.
• OWL (Web Ontology Language). Facilitan la creación de ontologías, vocabularios con los conceptos, términos y relaciones perfectamente estructurados y legibles por los sistemas informáticos.
• SKOS (Simple Knowledge Organization System). Lenguaje en RDF que permite adaptar los listados terminológicos ya existentes sin tener en cuenta las relaciones semánticas existentes en ellos.
Un ejemplo de esquema RDF
Para representar los objetos digitales mediante sus metadatos en RDF, se utilizan grupos de tres datos (o ternas) referidos a la instancia, al tipo dedato y al valor que toma el dato.
¿Para qué sirve la web semántica?
A pesar de todas sus potencialidades, el grado de implantación de la web semántica es bajo debido a: La baja calidad del código fuente usado en el diseño de páginas web (que prefiere la capacidad de ser entendido por cualquier navegador antes que la explotación de sus posibilidades). El escaso uso de metadatos en los objetos digitales. La muy reducida adopción de los estándares recomendados por el World Wide Web Consortium (W3C), como RDF.
Una de las aplicaciones masivas y en pleno uso de la web semántica es la sindicación de contenidos: A partir de los metadatos presentes en contenidos de páginas que se renuevan frecuentemente, podemos recibir información de las actualizaciones mediante la suscripción a dichos portales. Es algo semejante a los servicios de alerta existentes en centros de documentación.
¿Cómo funcionan las herramientas de indización automatizada?
Extraen términos significativos y
representativos de los objetos digitales
Extraen términos significativos y
representativos de los objetos digitales
Construyen ontologíasConstruyen ontologías
Integran ambos mecanismos y múltiples ontologías
Integran ambos mecanismos y múltiples ontologías
Uno de los mecanismos más comunes en la extracción automática de información (propio, por ejemplo, de Google) es el uso de algoritmos:- Los algoritmos son fórmulas de interrogación, esquemas para localizar ocurrencias predeterminadas de los acontecimientos. Del tipo “Si sucede A, la consecuencia es B, mientras que si no sucede, la consecuencia es C”.- Los algoritmos se agrupan en clusters o agrupaciones de documentos que presentan similitudes en el comportamiento de los términos que contienen.- A partir de ahí, las aplicaciones informáticas pueden categorizar los documentos, comparando los resultados de la interrogación con reglas previamente establecidas.
Por ejemplo, es habitual el uso de la regla if-then, como muestra el siguiente ejemplo (con operadores booleanos y de proximidad):
¿De qué se alimenta la indización automatizada?
El principal nutriente del que se alimenta la web semántica son los metadatos.
Los metadatos son ”datos clasificadores que en sistemas bibliotecarios facilitan la búsqueda de información (por ejemplo: autor, título, año de publicación, etc.).
El sistema de descripción de los objetos digitales mediante metadatos, surgido en los años 90 es Dublin Core (compatible con HTML y con XML). Son un conjunto de recomendaciones para la identificación y localización de los recursos mediante una serie de elementos o atributos básicos.
¿Puede concretarse todo esto en casos útiles para la comunidad científica?
INTERNETINTERNET
permitió el intercambio absoluto de información
entre productores y usuarios
permitió el intercambio absoluto de información
entre productores y usuarios
favoreció el control en la difusión de la información gracias a los monopolios
editoriales
favoreció el control en la difusión de la información gracias a los monopolios
editoriales
Iniciativas para un uso compartido y cooperativo del conocimiento científico, mediante licencias Creative Commons y
publicación open access
Iniciativas para un uso compartido y cooperativo del conocimiento científico, mediante licencias Creative Commons y
publicación open access
Frente al uso abusivo (por parte de las grandes proveedoras de contenidos) de su posición dominante en publicación científica los productores de los contenidos (y las instituciones para las que trabajan) idearon una forma voluntaria de compartir el conocimiento: depositarlo en archivos virtuales para su libre utilización, renunciando a la explotación comercial de sus derechos.
Un repositorio institucional es un archivo electrónico de la producción científica de una institución, almacenada en un
formato digital, en el que se permite la búsqueda y la recuperación para su posterior uso local, nacional o
internacional.
Un repositorio institucional es un archivo electrónico de la producción científica de una institución, almacenada en un
formato digital, en el que se permite la búsqueda y la recuperación para su posterior uso local, nacional o
internacional.
Esta tendencia de publicación de trabajos científicos recibe el nombre de Open Access Initiative. Y tiene dos vías distintas para su implantación
El camino verde
El camino verde
El camino dorado
El camino dorado
Los autores realizan el autoarchivo de los materiales, depositando sus textos en repositorios compartidos
Las revistas de acceso abierto hacen accesibles sus contenidos en línea de
forma gratuita e inmediata
Bibliografía.
- GIL LEIVA (2011). La automatización de la indización, propuesta teórico-metodológica: aplicación al área de Biblioteconomía y Documentación. Murcia: Universidad.- MÉNDEZ, E. (2010). "Tendencias en recuperación de información: principios y retos para una nueva década de datos enlazados." Anuario ThinkEPI.- PEDRAZA-JIMÉNEZ, R., CODINA, L. y ROVIRA, C. (2009). "Sistemas de información y metadatos en la web semántica." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.- VÁLLEZ, M. (2009). La web semántica y las tecnologías del lenguaje humano. CODINA L., MARCOS M., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.- LLORET, N. (2009). Metadatos para contenidos audiovisuales. En CODINA L., MARCOS M., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.- PEDRAZA-JIMÉNEZ, R., CODINA, L. y ROVIRA, C. (2009). "Ontologías y sistemas de información documental." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.- CENTELLES, M. (2009). "Sistemas semiautomáticos de categorización de la información." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.- JAROSZCZUK, S. E. (2010). Construcción de repositorios institucionales open source con Sofware Greenstone. Mar del Plata: Universidad Nacional.