Indización automatizada

transcript

Indización automatizada e indización de objetos electrónicos

JAVIER GASCÓN TOVAROrganización y Gestión de Archivos

Universidad de Zaragoza, 2013

IndizaciónIndización automatizadaautomatizada

Operación que identifica palabras o expresiones significativas de los

documentos para describir su contenido de forma condensada

por medio de programas de ordenador

ObjetosObjetos electrónicoselectrónicos

Entidades (documentos, personas, entidades) con unas carácterísticas

o atributos determinados,

asociables a una dirección web que los identifique de forma permanente (URI Uniforme Resource Identifier)

Las bases de la indización automatizada y de objetos electrónicos

Web semánticaWeb semántica

Tecnologías del lenguaje humanoTecnologías del

lenguaje humano

Repositorios digitales

Canal por el que circulan los contenidos, conforme a unas normas

Herramientas para procesar la información

Lugares donde se almacena y está accesible la información

Ventajas e inconvenientes de la indización automatizada

Es más rápida, consistente y

económica

Es más rápida, consistente y

económica

Es técnicamente inviable,

científicamente discutible y

comercialmente poco rentable

Es técnicamente inviable,

científicamente discutible y

comercialmente poco rentable

PARTIDARIOS

DETRACTORES

La web semántica, según su inspirador TIM BERNERS-LEE

La Web semántica es una extensión de la Web actual [2001], dotada de una estructura que permita la correcta definición del contenido de las páginas web y posibilite así tanto la interacción entre ordenadores como entre ordenadores y usuarios, de modo que las máquinas puedan procesar y comprender los datos que hoy tan solo pueden presentar por pantalla.

La función de los vocabularios en la web semántica

Lenguajes documentalesLenguajes documentales proporcionan CONTROL TERMINOLÓGICO

CONTROL TERMINOLÓGICO

OntologíasOntologías aportan

SIGNIFICADO A NIVEL DE ESTRUCTURA (facilitando

la identificación, uso y recuperación de los

recursos

SIGNIFICADO A NIVEL DE ESTRUCTURA (facilitando

la identificación, uso y recuperación de los

recursos

Formatos de la web semántica que estructuran la información

• XML (eXtensible Markup Language). Etiqueta los distintos elementos de los objetos digitales.

• RDF (Resource Description Framework). Crean marcos para describir los objetos a partir de los metadatos.

• OWL (Web Ontology Language). Facilitan la creación de ontologías, vocabularios con los conceptos, términos y relaciones perfectamente estructurados y legibles por los sistemas informáticos.

• SKOS (Simple Knowledge Organization System). Lenguaje en RDF que permite adaptar los listados terminológicos ya existentes sin tener en cuenta las relaciones semánticas existentes en ellos.

Un ejemplo de esquema RDF

Para representar los objetos digitales mediante sus metadatos en RDF, se utilizan grupos de tres datos (o ternas) referidos a la instancia, al tipo dedato y al valor que toma el dato.

¿Para qué sirve la web semántica?

A pesar de todas sus potencialidades, el grado de implantación de la web semántica es bajo debido a: La baja calidad del código fuente usado en el diseño de páginas web (que prefiere la capacidad de ser entendido por cualquier navegador antes que la explotación de sus posibilidades). El escaso uso de metadatos en los objetos digitales. La muy reducida adopción de los estándares recomendados por el World Wide Web Consortium (W3C), como RDF.

Una de las aplicaciones masivas y en pleno uso de la web semántica es la sindicación de contenidos: A partir de los metadatos presentes en contenidos de páginas que se renuevan frecuentemente, podemos recibir información de las actualizaciones mediante la suscripción a dichos portales. Es algo semejante a los servicios de alerta existentes en centros de documentación.

¿Cómo funcionan las herramientas de indización automatizada?

Extraen términos significativos y

representativos de los objetos digitales

Extraen términos significativos y

representativos de los objetos digitales

Construyen ontologíasConstruyen ontologías

Integran ambos mecanismos y múltiples ontologías

Uno de los mecanismos más comunes en la extracción automática de información (propio, por ejemplo, de Google) es el uso de algoritmos:- Los algoritmos son fórmulas de interrogación, esquemas para localizar ocurrencias predeterminadas de los acontecimientos. Del tipo “Si sucede A, la consecuencia es B, mientras que si no sucede, la consecuencia es C”.- Los algoritmos se agrupan en clusters o agrupaciones de documentos que presentan similitudes en el comportamiento de los términos que contienen.- A partir de ahí, las aplicaciones informáticas pueden categorizar los documentos, comparando los resultados de la interrogación con reglas previamente establecidas.

Por ejemplo, es habitual el uso de la regla if-then, como muestra el siguiente ejemplo (con operadores booleanos y de proximidad):

¿De qué se alimenta la indización automatizada?

El principal nutriente del que se alimenta la web semántica son los metadatos.

Los metadatos son ”datos clasificadores que en sistemas bibliotecarios facilitan la búsqueda de información (por ejemplo: autor, título, año de publicación, etc.).

El sistema de descripción de los objetos digitales mediante metadatos, surgido en los años 90 es Dublin Core (compatible con HTML y con XML). Son un conjunto de recomendaciones para la identificación y localización de los recursos mediante una serie de elementos o atributos básicos.

Un ejemplo de metadatos Dublin Core en un documento HTML sería el siguente:

¿Puede concretarse todo esto en casos útiles para la comunidad científica?

INTERNETINTERNET

permitió el intercambio absoluto de información

entre productores y usuarios

permitió el intercambio absoluto de información

entre productores y usuarios

favoreció el control en la difusión de la información gracias a los monopolios

editoriales

favoreció el control en la difusión de la información gracias a los monopolios

editoriales

Iniciativas para un uso compartido y cooperativo del conocimiento científico, mediante licencias Creative Commons y

publicación open access

Iniciativas para un uso compartido y cooperativo del conocimiento científico, mediante licencias Creative Commons y

publicación open access

Frente al uso abusivo (por parte de las grandes proveedoras de contenidos) de su posición dominante en publicación científica los productores de los contenidos (y las instituciones para las que trabajan) idearon una forma voluntaria de compartir el conocimiento: depositarlo en archivos virtuales para su libre utilización, renunciando a la explotación comercial de sus derechos.

Un repositorio institucional es un archivo electrónico de la producción científica de una institución, almacenada en un

formato digital, en el que se permite la búsqueda y la recuperación para su posterior uso local, nacional o

internacional.

Un repositorio institucional es un archivo electrónico de la producción científica de una institución, almacenada en un

formato digital, en el que se permite la búsqueda y la recuperación para su posterior uso local, nacional o

internacional.

Esta tendencia de publicación de trabajos científicos recibe el nombre de Open Access Initiative. Y tiene dos vías distintas para su implantación

El camino verde

El camino dorado

Los autores realizan el autoarchivo de los materiales, depositando sus textos en repositorios compartidos

Las revistas de acceso abierto hacen accesibles sus contenidos en línea de

forma gratuita e inmediata

Bibliografía.

- GIL LEIVA (2011). La automatización de la indización, propuesta teórico-metodológica: aplicación al área de Biblioteconomía y Documentación. Murcia: Universidad.- MÉNDEZ, E. (2010). "Tendencias en recuperación de información: principios y retos para una nueva década de datos enlazados." Anuario ThinkEPI.- PEDRAZA-JIMÉNEZ, R., CODINA, L. y ROVIRA, C. (2009). "Sistemas de información y metadatos en la web semántica." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.- VÁLLEZ, M. (2009). La web semántica y las tecnologías del lenguaje humano. CODINA L., MARCOS M., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.- LLORET, N. (2009). Metadatos para contenidos audiovisuales. En CODINA L., MARCOS M., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.- PEDRAZA-JIMÉNEZ, R., CODINA, L. y ROVIRA, C. (2009). "Ontologías y sistemas de información documental." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.- CENTELLES, M. (2009). "Sistemas semiautomáticos de categorización de la información." CODINA L., MARCOS M. C., PEDRAZA R. Web semántica y sistemas de información documental. Gijón: Trea.- JAROSZCZUK, S. E. (2010). Construcción de repositorios institucionales open source con Sofware Greenstone. Mar del Plata: Universidad Nacional.

Indización automatizada

Education