Significa que cada grupo de datos registrados en un documento, se analiza desde el punto de vista de su contenido. Los resultados de dichos análisis se anotan o sintetizan brevemente con ayuda de una notación especial, desarrollada a los efectos, y basada en palabras del lenguaje natural, letras, cifras, fórmulas, tablas, diagramas. La información así procesada, se torna adecuada para los subsiguientes pasos: almacenamiento, recuperación y uso.
Un aspecto clave en este proceso, particularmente en las bibliotecas digitales, es el incremento de los volúmenes y temas de información, así como la escalabilidad de los vocabularios utilizados para su representación. Bates,5 apunta, sobre este tema, que los diferentes métodos empleados para el procesamiento de la información se desarrollaron según las necesidades que exigió el incremento de los volúmenes de información que debían procesar los sistemas; así en el siglo XIX, se desarrollaron los índices alfabéticos de materias, y cuando estos no respondieron al crecimiento del número de documentos a procesar y recuperar, -década de los años 50-, progresaron entonces las técnicas de búsqueda booleana en las bases de datos. Ahora, son necesarias nuevas respuestas para representar los diversos contenidos en múltiples formatos que se encuentran en las bibliotecas digitales.
Cada aplicación de las bibliotecas digitales depende fundamentalmente de la combinación de las tecnologías que las componen. Por ejemplo, el objetivo de los motores de búsqueda de la próxima generación es ofrecer a los usuarios un conjunto de herramientas que posibiliten hallar la información necesaria en una colección sin necesidad de recibir previamente un entrenamiento especializado para su uso.
En el caso del arte, los motores de búsqueda no se limitan a los textos. En el terreno de las artes visuales y cinematográficas en Estados Unidos, se ha desarrollado un proyecto piloto de biblioteca digital que une un motor de búsqueda de texto con QBIC (Query by Image Content), creado en Almaden -el Centro de Investigaciones y Laboratorio de Visualización de IBM- para buscar imágenes en bases de datos. Asimismo, la División de Investigaciones de IBM trabaja conjuntamente con DreamWorks SKG -una compañía cinematográfica formada en 1994 por Steven Spielberg-, Viacom y otras empresas de medios de comunicación para desarrollar la capacidad de búsqueda en archivos de video. Están surgiendo así, desarrollos para nuevos motores de búsqueda interpretativa.
Por otro lado, el personal del artista plástico Andrew Wyeth ha preguntado a IBM si sus investigadores podrían diseñar un sistema para digitalizar y almacenar imágenes de las pinturas del artista. Entonces, un equipo ha desarrollado una cámara digital y un software de procesamiento de imágenes. Luego, a partir de transparencias de color, crearon una biblioteca digital privada de aproximadamente 10.000 obras de Wyeth, que se conoce ahora como el proyecto Brandywine.
Esa misma tecnología de cámaras desempeñó una función esencial en un proyecto más ambicioso, a cargo de la Biblioteca del Vaticano, que se inició en 1993. Como parte de la etapa inicial, los investigadores digitalizaron más de 20.000 páginas manuscritas inéditas y de incalculable valor y las introdujeron en el archivo digital del Vaticano.
Actualmente, 10 académicos seleccionados, distribuidos en varios puntos del mundo pueden examinar los manuscritos desde sus computadoras y existe una muestra de imágenes, disponibles en la página Web de IBM. El objetivo más amplio, dice los especialistas es colocar estos materiales a disposición de la comunidad académica mundial.
Internet es el medio natural de acceso a semejante colección. Todos los museos del mundo y colecciones de arte deberían estar, deberían ser parte de la Internet.