Se abordan de una forma crítica diferentes aproximaciones aplicables para la realización de modelos de sistemas de control de calidad automatizado de imágenes digitales en proyectos de digitalización de fondos fotográficos con valor histórico-cultural. Tras la realización de un experimento psicométrico con cuatro expertos humanos se concluye que no es posible utilizar con un buen rendimiento los modelos simplistas de uso común basados en rangos de aceptación continuos sobre mediciones de color tomadas de forma aislada. Nuestra investigación demuestra que un modelo basado en un sistema de reglas obtenidas por aprendizaje automático que emplee las métricas CIE 1976 o CIEDE 2000, junto con los atributos perceptuales de color matiz, saturación y luminosidad, emula a los expertos humanos en calidad de imagen con un alto grado de eficacia, por encima del 85%.
This work aims to provide a critical examination of different approaches to creating models of automated quality control systems for digital images in digitization projects for photographic heritage collections. After conducting a psychometric experiment with four human experts, we demonstrate that it is not possible to talk about commonly used, simplistic models based on continuous acceptance ranges for colour metrics on an isolated basis. This study demonstrates that a model based on a rule-based, machine-learning system employing metrics (CIE 1976 or CIEDE 2000) along with the colour perceptual attributes of hue, saturation and lightness, emulates the image quality experts with a high degree of efficacy, above 85%.
En el contexto de las digitalizaciones patrimoniales de fotografías y otros documentos con valor gráfico se ha venido imponiendo una perspectiva estricta de calidad que concibe las imágenes digitales como representaciones fieles a nivel físico y perceptual: las imágenes deben representar con fidelidad las características físicas de los documentos físicos originales y su apariencia ante unas condiciones de percepción determinadas durante el proceso de captura digital. Sólo así podrán ser usadas para las funciones de custodia, conservación, reproducción, análisis, estudio y divulgación a las que deben dar soporte, dentro de unos criterios éticos que no amparan el cambio de las características plásticas ni la reinterpretación de los mensajes icónicos y plásticos (Martínez y Muñoz,
De acuerdo al primero, el nivel de calidad puede ser medido objetivamente de forma sencilla aplicando atributos físicos de la imagen que han sido ampliamente estudiados en las últimas décadas desde los campos de la ingeniería de la imagen y la ciencia y tecnología del color, tales como la capacidad resolutiva obtenida en el registro de información gráfica, el error en la codificación del color, el rango dinámico, la OECF (Opto-Electronic Conversion Function), etc.; así como midiendo el grado de afectación de una serie de distorsiones de la señal digital que pueden afectar al rendimiento de los atributos, como ruido, aberraciones cromáticas, distorsiones geométricas, artefactos de compresión, etc. Ha habido incluso varios intentos de sistematizar estas características desde el contexto de la digitalización patrimonial de fondos y colecciones culturales de diversa tipología (Frey y Reilly,
De acuerdo al plano perceptual, la calidad de la imagen es la posibilidad de generar visualizaciones o reproducciones a partir de ésta que provoquen al usuario una percepción global similar a la que tendría si observara el documento original ante unas condiciones de observación determinadas y controladas, y sin distorsiones de ninguna clase. La apreciación global de calidad a nivel perceptual es un proceso subjetivo que se realiza comúnmente mediante la visualización por parte de un observador humano del documento físico junto a una reproducción o visualización de su correspondiente imagen digital. El observador humano tratará de cuantificar el grado en que la imagen digital se aleja perceptualmente de su correspondiente original, en unas condiciones de visualización normalizadas de acuerdo a estándares (ISO,
Dada la facilidad de computación de los atributos y distorsiones de tipo físico, una línea importante de investigación sobre la forma de desarrollar estos sistemas ha sido el intento de conectar los niveles de rendimiento físico y perceptual, de manera que se pueda derivar automáticamente la calidad global de una imagen a nivel perceptivo mediante el uso de medidas de tipo físico fácilmente computables, trabajando con un reducido número de atributos y rangos de valores, y con procesos altamente eficientes. Se emplea usualmente el término algoritmo visual para denominar este tipo de modelos matemáticos. El problema reside en que no es sencillo poder derivar directamente la fidelidad perceptual a partir de la fidelidad física. Muchos esfuerzos a la hora de crear un algoritmo visual robusto a nivel de la percepción subjetiva humana de la calidad global a partir de atributos de tipo físico han fracasado por no haber considerado suficientemente la multiplicidad de elementos y complejas interrelaciones que subyacen en este fenómeno en un modelo de calidad suficientemente exhaustivo (Engeldrum,
La aplicación de métodos de escalado multidimensionales que permiten analizar las complejas interacciones subyacentes en los atributos de calidad de las imágenes ha sido explicado por Lee (
En el contexto de los objetos gráficos patrimoniales los sistemas automatizados de calidad de las digitalizaciones se han venido basando fundamentalmente en pruebas encuadrables dentro del nivel físico, usándose exclusivamente un conjunto limitado de atributos de esta tipología, para los que se establecen unos rangos de aceptación de valores previamente determinados. Si atendemos a los principales trabajos que se han publicado sobre esta cuestión dentro del campo del patrimonio documental, podemos concluir que la mayoría de ellos se ha encaminado a la identificación y propuestas de métricas de medida de atributos exclusivamente físicos, pero sin profundizar en un modelo perceptual de calidad global de la imagen que guie a la hora de establecer los rangos de aceptación sistemáticos en el rendimiento de estos atributos y sus complejas interrelaciones durante el acto de percepción (Williams,
Nuestro trabajo se centra en el intento de establecer una vía de trabajo válida para la creación automática de algoritmos visuales altamente eficientes que puedan ser usados en sistemas de control de calidad de imágenes digitales provenientes de la digitalización de obras de tipo gráfico, y que permitan superar las limitaciones de los sistemas basados en modelos multidimensionales que usan un conjunto predefinido de atributos de calidad junto a sus rangos de valores de aceptación. Debido a la amplitud de este objetivo, abordaremos exclusivamente el uso de atributos de color. Tratamos de demostrar que es posible modelar los juicios perceptuales de valor de un experto o de un conjunto de expertos evaluadores humanos, en lo que respecta a la proximidad perceptual en color entre una imagen digital y su correspondiente original físico, mediante un algoritmo visual computable de forma eficiente que se base en el uso conjunto de métricas de medida de color estandarizadas y de atributos perceptuales del color. Ante la complejidad de las interacciones entre los atributos de color que se producen en el acto perceptivo se hace precisa la automatización del proceso de obtención del algoritmo visual. Para ello proponemos la aplicación de un método de aprendizaje automático basado en la inducción de reglas que no requiera predefinir de antemano los atributos de calidad más determinantes y sus rangos de aceptación y que pueda trabajar sobre un conjunto de datos obtenidos de procesos reales de evaluación humanos que se quieran modelar. En este trabajo hemos aplicado el algoritmo de aprendizaje automático a los datos obtenidos de un conjunto experimental de imágenes previamente evaluadas por un grupo de expertos humanos en evaluación de imágenes.
La prueba ha consistido en la emulación de un proceso real de evaluación de calidad con expertos humanos, aplicando unas condiciones de contexto de evaluación ideales, de acuerdo a la normativa estandarizada para realizar procesos de evaluación de calidad mediante el cotejo de los originales físicos con las imágenes digitales correspondientes en pantalla: ISO 3664 (ISO,
Hemos creado a continuación los másteres, digitalizando directamente las imágenes originales junto a una carta de color colorchecker con una cámara fotográfica digital réflex y aplicando gestión a través de perfiles de color ICC personalizados, para conseguir así imágenes con alta fidelidad de color y contraste a nivel colorimétrico y densitométrico. A partir de los másteres se creó una serie de entre 303 y 300 imágenes degradadas por cada original físico, mediante la edición de sus valores perceptuales HSL: Matiz/Hue (H), Saturación (S) y Luminosidad (L). Así se ha creado una secuencia de degradación que contempla una escala suficientemente amplia de cambios perceptibles en estas tres variables descriptivas de color. Para ello las imágenes han sido transformadas al sistema de color HSL y degradadas progresivamente en estas tres variables, respectivamente, desde -20 a 19 para Matiz (en una escala que va desde -100 a +100), desde -39 a +39 para Saturación (en una escala que va desde -100 a +100) y desde -20 a 20 valores para Luminosidad en una escala que va desde -100 a 99. Se han generado asimismo imágenes repetidas, con la finalidad de poder medir el grado de consistencia en las evaluaciones, analizando cómo varía su criterio selectivo a lo largo del tiempo de la prueba, en su caso, y poder determinar la probabilidad de respuesta aleatoria de los evaluadores durante toda la prueba. Las imágenes repetidas se han repartido a lo largo de cada serie de imágenes a evaluar.
Se han registrado automáticamente los datos de las imágenes a evaluar aplicando diferentes métricas de cotejo de diferencia de color y de imagen entre las fotografías originales y los másteres digitales y sus degradaciones, de las que hemos seleccionado sólo dos de ellas para las pruebas que presentamos en este trabajo: CIEDE 2000 -CIE00- (Luo y otros,
La evaluación visual de los expertos se realizó sobre la percepción de las imágenes digitales reproducidas en el monitor, por lo que se hizo preciso controlar minuciosamente todos los elementos que conforman el flujo de visualización, que son, además de la imagen digital: la calibración y perfilado ICC del monitor; la conversión desde el espacio de color de la imagen al espacio de color del monitor hecho por el Gestor del Color (CMS) del sistema operativo; la calidad del monitor y de sus condiciones de entorno de visualización; la calidad de la cabina de visualización de los originales físicos y de sus condiciones de visualización. El interfaz de pantalla fue diseñado con el programa Adobe Bridge de forma que en ésta sólo aparecía la imagen en proceso de evaluación y en su margen izquierdo una fina tira con las imágenes del grupo que servían a los evaluadores para ir seleccionando la siguiente imagen a visualizar y poderse mover por el lote. En la cabina de visualización se ubicó la carta colorchecker usada para hacer los másteres y el propio original con una ubicación muy similar a la que presentaban las imágenes de la prueba. La intensidad del color gris de fondo de la pantalla se hizo coincidir con el de la cabina. Los expertos pudieron asignar a cada imagen, según la calidad detectada, una puntuación basada en una escala de 3 valores: 1 (la imagen no pasaría un control de calidad profesional que mide la proximidad en apariencia de color y contraste entre una imagen en pantalla y una imagen en papel); 2 (la imagen pasaría el control de calidad pero con un criterio no muy riguroso); y 3 (la imagen pasaría el control de calidad con un criterio riguroso). Con ánimo de simplificar la primera aproximación analítica que hacemos en este estudio, hemos unido los valores 2 y 3, de manera que trabajaremos sólo con dos clases de calidad: imagen válida e imagen inválida.
Se seleccionaron cuatro expertos que cumplían la condición de ser profesionales con una dilatada experiencia en los sectores de la fotografía profesional y Artes Gráficas y en trabajos de evaluación de calidad de imágenes digitales (8, 14, 15 y 16 años de experiencia laboral de evaluación). El equipo de expertos fue instruido con el tiempo suficiente como para entender el tipo de evaluación de calidad que se requiere en el campo del patrimonio documental.
Con los datos recogidos se realizaron dos tipos de análisis:
1) Análisis de coherencia en los juicios de calidad de cada evaluador.
Sus objetivos han sido dos: detectar y estimar porcentualmente los errores por falta de consistencia en las evaluaciones de los expertos humanos participantes en la prueba, y poder comparar los porcentajes de error de los expertos con el del sistema de reglas que obtengamos posteriormente mediante aprendizaje automático. Hemos aplicado dos parámetros que nos permiten medir el grado de consistencia en las evaluaciones de cada evaluador humano (intra-evaluadores) y entre los evaluadores (inter-evaluadores).
a) Error de consistencia intra-evaluadores.
Este tipo de falta de consistencia es indicativa de la aplicación de procesos de evaluación aleatorios en algunos momentos de la prueba o de cambios en los criterios de calidad que se emplean a lo largo de ésta. La consistencia ha sido medida a través de las imágenes repetidas insertadas en las series. Para su cálculo se han sumado, para cada experto, todos los errores de consistencia ocurridos a lo largo de las tres series de imágenes, y el número total de imágenes repetidas, y se ha hallado el porcentaje que representan los primeros con respecto del total de aquellas. Se ha entendido un error de consistencia como una diferencia en la asignación de valoración a las imágenes repetidas idénticas.
b) Consistencia inter-evaluadores.
La falta de consistencia en este nivel se debe principalmente al uso de diferentes criterios o grados de exigencia durante la evaluación. Hemos aplicado tres indicadores:
Grado de exigencia de los expertos. Para su cálculo se ha hallado el porcentaje de imágenes seleccionadas como válidas de entre el total de imágenes evaluadas.
Grado de consistencia entre expertos con respecto a la coincidencia de valoraciones en las mismas imágenes. Para su cálculo hemos medido el porcentaje de coincidencia entre cada par de expertos en los tres grados de valoración permitidos en la prueba. Se trata de medir en qué proporción cuando un experto ha asignado un determinado valor a las imágenes de la serie el resto de expertos han coincidido con él.
Grado de coincidencia en las valoraciones de todas las imágenes por parte de los cuatro evaluadores. Representado por la suma de imágenes donde todos los expertos han coincido en el mismo valor y en la de las imágenes donde no ha habido esta coincidencia.
2) Análisis de regularidades en el comportamiento de las variables perceptuales de color HSL y de las métricas de diferencia de color CIE en los juicios de calidad de los evaluadores.
Hemos tratado de detectar si existen o no patrones regulares intra e inter-evaluadores en la dispersión de los valores de los diferentes atributos que expliquen el criterio de calidad que están aplicado los expertos, y cuáles son los atributos perceptuales del color que mejor permiten modelar el comportamiento de los expertos. La existencia de estos patrones facilitaría el trabajo de obtención de algoritmos visuales, a partir de los cuales se podrían generar sistemas de evaluación altamente eficientes y que se aproximen en precisión a los procesos de evaluación humanos. Tras analizar los resultados deberemos ser capaces de determinar si es viable generalizar modelos de calidad basados en unos rangos fijos de aceptación sobre las métricas de diferencia y atributos perceptuales de color considerados en este estudio.
Para ello hemos analizado los rangos de valores de aceptación (valoración de calidad 2 y 3) y rechazo (valoración de calidad 1) en las métricas y variables HSL para cada uno de los expertos e imágenes, intentando detectar alguna regularidad en ellos. Posteriormente hemos analizado, de forma comparativa, el comportamiento de los valores de las imágenes degradadas en las variables HSL con respecto a los valores de las métricas de diferencia de color en el grupo de las imágenes aceptadas como válidas y en el de las rechazadas.
La detección de patrones de comportamiento regulares en las variables analizadas ha reforzado la idea de la utilidad de aplicar técnicas de aprendizaje automático para la obtención de un algoritmo visual que modele los patrones de comportamiento de éstas con una alta capacidad predictiva. Hemos aplicado el algoritmo de inducción de reglas C4.5 (Quinlan,
a) Error de consistencia intra-evaluadores (véase
b) Consistencia inter-evaluadores.
Grado de exigencia de los expertos (véase
Grado de consistencia entre expertos con respecto a la coincidencia de valoraciones en las mismas imágenes.
Presentamos el promedio de los porcentajes obtenidos en las tres imágenes en varias tablas (véase
Grado de coincidencia en las valoraciones de todas las imágenes por parte de los cuatro evaluadores (véase
Hay errores de consistencia en todos los expertos con una variabilidad de entre un 5 y un 10%. Los porcentajes de error no son muy altos, por lo que podemos descartar una respuesta aleatoria sostenida, asumiendo que los expertos han evaluado guiados por su percepción de calidad de las imágenes y aplicando un criterio de calidad. El experto más experimentado en evaluación de patrimonio documental, el número 4, es el más consistente por lo que parece que la formación de partida ha sido un factor que ha influido en el rendimiento en este parámetro. Parece que el grado de exigencia de los cuatro expertos es en general muy alto, pues los porcentajes, salvo en la imagen 448, están por debajo del 20%. Sólo parece haber disparidad de opiniones en la imagen 448, donde la diferencia entre porcentajes es alta, y para uno de los expertos (experto 2), el más exigente, en la imagen 550. Podemos decir que la coincidencia es en general baja por lo que no podemos hablar de uniformidad en el criterio de los cuatros expertos. Por ello, sin un período previo de puesta en común de criterio entre los expertos humanos participantes, un control de calidad dará siempre una tasa de consistencia baja, ofreciendo poca fiabilidad y coherencia.
Los grados de consistencia intra e inter-evaluadores indican la dificultad de conseguir porcentajes de eficacia muy altos en un algoritmo visual que modele su comportamiento de forma muy precisa, ya que el algoritmo modelará también las inconsistencias. Las inconsistencias a nivel intra-evaluadores son menores, por lo que es factible obtener unas tasas de rendimiento mayores obteniendo algoritmos individuales para cada experto. En un caso real habría que tratar de analizar el por qué se producen las inconsistencias, mejorando la formación de los expertos para poder aumentar los niveles de consistencia antes de proceder a la obtención de un algoritmo visual, que pueda ser utilizado para el control automatizado de calidad, a través de este método.
Presentamos en primer lugar una tabla con los valores límite en todas las métricas y variables perceptuales del color para cada imagen (
Presentamos los rangos de las variables utilizadas en el estudio en una serie de gráficos (Véase
En todas las métricas, salvando el extremo más inferior en el CIE76, el rango para las no válidas incluye el rango para las válidas, excepto algunas discontinuidades interiores. El solapamiento en los rangos es muy alto, lo que impide establecer rangos de aceptación fijos sobre una sola métrica o variable perceptual de color de forma aislada. Parece que los expertos varían su criterio para cada tipo de imagen, no estando siempre en el mismo valor para las tres imágenes el rango de aceptación de las diversas métricas. Por ello, podemos concluir que el motivo icónico de la imagen es determinante con respecto al grado de exigencia que aplica el experto y a la percepción de problemas de color y tonales. A la vista de los resultados habría que revisar la utilidad de los rangos de aceptación fijos en las métricas CIE76 y CIE00 que podemos encontrar en muchos sistemas de control de calidad de imágenes, pues los rangos de aceptación son mucho más amplios que los considerados comúnmente en los sistemas de control de calidad patrimoniales y admiten un alto porcentaje de imágenes no válidas, para cuyo descarte habría que considerar también el rendimiento en atributos perceptuales de color y sus interrelaciones, aspectos que no parecen estar suficientemente bien modelados en las métricas CIE que hemos empleado.
Para poder comprobar el grado de similitud en los patrones de correlación entre juicios de calidad y variaciones de valor en los parámetros analizados de los diferentes expertos, hemos estudiado con detenimiento qué ocurre en las zonas de solapamiento. Las zonas de solapamiento son los intervalos dentro de los valores de una variable donde se dan tanto imágenes válidas como inválidas. La finalidad de este análisis es poder llegar a determinar los factores que provocan la consideración de válida o inválida una imagen dentro de esas zonas por cada experto y si existe una pauta regular en la actuación de estos factores que nos ayude a conseguir un modelo. Hemos analizado el papel que juega la variabilidad en HSL para que las imágenes se consideren válidas o inválidas dentro de un mismo intervalo, considerando la métrica CIE76 y una de las imágenes, la 448. Para ello hemos representado los datos individuales de cada experto y de cada imagen, dividiendo los valores de la métrica CIE76 en intervalos, entre los rangos 1 y 8 (deltas 1 a 8), y estudiando cómo se comporta la variación en las variables HSL. En el eje X hemos representado el número de orden de las imágenes, y en el Y el valor de las variables HSL y CIE76. Las imágenes han sido ordenadas de menor a mayor por su valor CIE76. Para simplificar los resultados presentamos sólo los datos de la comparativa entre los expertos 4 y 1, la imagen 448 y los rangos CIE76 delta 4 (
Si atendemos a estos gráficos, podemos observar cómo los patrones numéricos de las variables perceptuales de color HSL son muy diferentes dentro de un mismo rango de delta entre las imágenes aceptadas y las no aceptadas en los dos evaluadores; aunque también aparecen coincidencias, son muy escasas. Si asumimos el mismo porcentaje de inconsistencia que han tenido los expertos en las imágenes repetidas para el resto de imágenes del conjunto experimental, es lógico encontrar repetidos patrones de rechazo dentro de los patrones de aceptación y viceversa. Pero las diferencias encontradas en los patrones refuerzan la idea de que no es posible basar los modelos de control de calidad en unos rangos fijos de aceptación sobre métricas CIE Delta E 1976 o CIEDE 2000 sin considerar también comportamientos en las variables Matiz, Saturación y Luminosidad. Por ello, los modelos rígidos basados en rangos de métricas consideradas aisladas no deberían ser usados para conseguir una evaluación de calidad eficaz.
Sí que se puede confirmar la existencia de un modelo numérico similar en los valores HSL de las imágenes válidas y de las no válidas en los expertos 1 y 4, que se va haciendo prácticamente idéntico en las no válidas mientras sube el delta. Esta progresiva similitud se explica porque al haber mayor número de imágenes no válidas en los deltas más altos es más factible que aumente gradualmente la coincidencia de ambos expertos en las imágenes que han elegido como válidas y como inválidas.
A través del algoritmo C4.5 hemos obtenido un conjunto de reglas que permite clasificar nuevos ejemplos de imágenes como válidos o inválidos de forma a como lo haría el experto humano a partir de cuyos datos de evaluación ha inferido las reglas. A modo de ejemplo, en la
Para medir el grado de eficacia y eficiencia hemos utilizado diferentes indicadores. Entre ellos incluimos las tasas de precisión y de llamada. La primera expresa de entre las imágenes recuperadas por el sistema de reglas dentro en una clase, por ejemplo, la clase 1 (no válidas), la proporción de las que son correctas por corresponder a su clase y las que no. La tasa de llamada expresa la proporción de imágenes de una clase que han sido correctamente asignadas por el sistema de reglas con respecto a todas las imágenes correspondientes a esa clase. Para la imagen 448 véase la
Los porcentajes de acierto del sistema de reglas son siempre superiores al 85%, destacando la imagen 449 donde supera el 91,5%. Las tasas de precisión y llamada, excepto en la imagen 448 para el experto 1, son superiores siempre al 0,83. Las tasas de inconsistencia que hemos comprobado que tienen todos los expertos impedirían obtener un sistema de reglas directamente del análisis de su comportamiento que tenga un rendimiento del 100%, pues el sistema de reglas modela en cierta medida esa inconsistencia al inferir las reglas directamente de los datos obtenidos de los propios expertos.
Podemos asumir que el resultado de la prueba de aprendizaje automático refuerza la conclusión obtenida en el epígrafe anterior sobre la existencia de patrones regulares en los juicios de calidad de los expertos, que esos patrones se basan en el análisis visual de propiedades perceptuales del color y que es posible generar un modelo que represente esos patrones regulares mediante el uso combinado de métricas y atributos perceptuales de color fácilmente computables, tales como CIE76, CIE00 o HSL. Por tanto, entendemos que es posible generar un modelo numérico, que con un reducido juego de variables, arroje una tasa de acierto relativamente alta si la comparamos con las tasas de error que hemos encontrado en las evaluaciones de los expertos humanos participantes en el experimento. La representación matemática de ese modelo conformaría un algoritmo visual. Para poder valorar la complejidad que podría llegar a tener un algoritmo visual de estas características basado en reglas hemos de analizar la complejidad de los árboles de decisión. Salvo en la primera imagen, los tamaños obtenidos son reducidos, pues el número de reglas oscilan entre 13 y 19. En la primera imagen lo hacen entre las 33 y 40. Por ello, el algoritmo visual sería realmente eficiente con la potencia informática a nuestra disposición actualmente.
Hemos aplicado a continuación el algoritmo C4.5 exclusivamente para las métricas CIE76 y CIE00 aisladas, sin considerar los atributos HSL, usando los datos del experto 4, el más consistente, y la imagen en la que el algoritmo ofrece mayor porcentaje de acierto, la 448. Los resultados obtenidos de inferir las reglas sólo con las métricas CIE aisladas no son aceptables, pues el porcentaje de acierto es muy bajo, 66,4% para CIE76 y 61,5% para CIE00, como era de esperar tras observar el alto grado de solapamiento que se produce entre los datos de las imágenes válidas y no válidas de acuerdo a estas métricas.
Hemos de reflexionar sobre la disparidad de resultados entre las reglas obtenidas para cada imagen y por cada experto. Esta disparidad implica que los criterios que se aplican para los juicios de valor varían según el motivo de la imagen, y según el experto. Ambos tipos de inconsistencia son un problema para los sistemas de evaluación de calidad basados en expertos humanos. Por ello, se hace preciso realizar estudios que aborden con mayor profundidad cómo influye el tipo de motivo de la imagen en la percepción de calidad, y cuáles son los factores que provocan la falta de consistencia entre evaluadores. Los métodos de análisis que hemos empleado para este estudio pueden ser empleados para la detección y análisis de este tipo de problemas.
Los sistemas de control de calidad de digitalizaciones patrimoniales deben considerar el rendimiento de los parámetros de medida de calidad no sólo a nivel físico, sino también perceptual global, modelando en la medida de lo posible las complejas interacciones que a este nivel se dan entre los atributos de calidad de la imagen. Un modelo perceptual implica un conocimiento que debe ser obtenido mediante la experimentación con expertos humanos en calidad suficientemente formados en los objetivos de los proyectos. Estos experimentos chocan con el problema de la inconsistencia inter e intra-evaluadores, que debe ser medida previamente.
Concluimos que no puede hablarse de rangos de aceptación continuos para las métricas consideradas habitualmente en los sistemas de calidad en color y en el uso de estas métricas de forma aislada, por lo que se ha de indagar en modelos más complejos. En este estudio hemos tratado de obtener un modelo basado en un sistema de reglas con alto rendimiento para el caso considerado en el experimento presentado empleando las métricas CIE76 y CIE00 junto a los atributos perceptuales del color HSL. La detección de patrones de valores de estos atributos regulares en las zonas de solapamiento entre imágenes consideradas como válidas e inválidas por los expertos, nos ha conducido a considerar que esta combinación de atributos y métricas puede ser idónea para medir objetivamente la apreciación subjetiva de proximidad perceptual con un grado de acierto relativamente alto, que estará siempre limitado por los errores que comenten los expertos evaluadores humanos en su trabajo de evaluación.
Los resultados obtenidos tras la aplicación del algoritmo de aprendizaje automático C4.5 indican que es posible emular el proceso de valoración del experto con porcentajes de eficacia superiores al 85%. El porcentaje de error cometido por los expertos ha sido estimado entre un 10,87% y un 20%, por lo que podemos equiparar sus tasas de acierto con las del sistema obtenido creado. Dada la variabilidad de criterio detectada inter e intra-evaluadores, no puede generalizarse un único modelo para todo el conjunto de evaluadores, aunque es presumible que tras un período de formación suficientemente amplio y de puesta en común de resultados sea posible mejorar esa inconsistencia como para poder generar un único modelo altamente eficaz.