SciELO - Scientific Electronic Library Online

 
vol.27 número3Antena Compacta para Aplicaciones en Satélites de Reducido TamañoSistema de Información Agrícola para la disminución de Brechas entre Oferta y Demanda - AGROCRAFT índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Indicadores

Links relacionados

  • Em processo de indexaçãoCitado por Google
  • Não possue artigos similaresSimilares em SciELO
  • Em processo de indexaçãoSimilares em Google

Compartilhar


Información tecnológica

versão On-line ISSN 0718-0764

Inf. tecnol. vol.27 no.3 La Serena  2016

http://dx.doi.org/10.4067/S0718-07642016000300019 

Efecto de la Transformada Motif en Desarrollo de Descriptores de Textura para la Extracción de Imágenes

 

Effect of Motif Transform in the Development of Texture-based Descriptors for Content Based Image Retrieval

 

Gustavo Calderón, Atoany N. Fierro, Mariko Nakano* y Hector M. Pérez

Sección de Estudio de Posgrado e Investigación, ESIME-Culhuacan, Instituto Politécnico Nacional,

Av. Santa Ana No. 1000, Col. San Francisco Culhuacan, Coyoacan, CP. 04420. Ciudad de México, México. (e-mail: gus_auza@hotmail.com, afierror@hotmail.com, mnakano@ipn.mx, hmperezm@ipn.mx)

* Autor a quien debe ser dirigida la correspondencia.


Resumen

En este artículo se analiza el efecto de la transformada Motif en el diseño y desarrollo de descriptores para la extracción de imágenes de textura basada en su contenido (CBIR). La transformada Motif asigna un número del rango limitado a una región local de 2x2 o 3x3 pixeles para resumir características de textura y así reducir la dimensión de descriptor. Para llevar a cabo el análisis y evaluación de descriptores basados en la transformada de Motif, se evalúa el funcionamiento de cuatro descriptores que usan la transformada de Motif y se compara con el funcionamiento de descriptores comúnmente usados en la literatura. El funcionamiento de cada descriptor se evalúa a través de curva de recall-precisión y el promedio del rango de extracción modificado y normalizado (ANMRR) usando cuatro bases de datos de textura. Los resultados muestran que en general los descriptores basados en la transformada Motif proporcionan un valor de ANMRR aceptables con una dimensión reducida del descriptor, el cual es un requerimiento indispensable en cualquier sistema CBIR.

Palabras clave: CBIR; imágenes de textura; descriptores; curva de Recall-Precision; ANMRR; dimensión de descriptor


Abstract

In this paper, the effect of the Motif Transform to design and develop texture-based descriptors for the Content Based Image Retrieval (CBIR) task is analyzed. The Motif transform assigns a number of limited range to local region of 2x2 or 3x3 pixels, to summarize texture feature and reduce the dimension of the descriptor. To analyze and evaluate the retrieval performance of the Motif-transform based descriptors, the performance of four descriptors based on the Motif Transform and four commonly used texture descriptors in the literature are compared. The performance of each descriptor is assessed by means of the Recall-Precision curve and the Average Normalized Modified Retrieval Rank (ANMRR) using four texture databases. The experimental results show that the descriptors based on Motif transform provide acceptable performance, keeping sufficiently small dimension, which is an indispensable requirement for any CBIR system.

Keywords: CBIR; texture image; descriptors; Recall-Precisión curve; ANMRR; dimension of descriptor


 

INTRODUCCIÓN

Con el rápido avance del Internet y de la tecnología de información, el tamaño de las bases de datos de imágenes ha crecido exponencialmente, y extraer imágenes deseadas desde una base de datos con gran cantidad de imágenes se ha convertido en una tarea muy complicada, ya que el método tradicional de búsqueda de imágenes que está basado en palabras clave ha sido ineficiente para manejar una gran cantidad de imágenes con diversas características. En el método tradicional, anotadores humanos asignan palabras clave a cada imagen para que los usuarios puedan extraer imágenes usando esas palabras clave asignadas. Este método tradicional presenta diversas dificultades, ya que el proceso es manual y subjetivo, por lo tanto además de consumir mucho tiempo, los resultados de extracción no podrían ser satisfactorios debido a palabras clave inadecuadas que usó el usuario o el anotador (Vassilieva 2009; Korare et al. 2005; He et al. 2009). Sobre todo en caso de imágenes de textura, describir una imagen de textura con palabras no es tan sencillo.

La extracción de imágenes basadas en su contenido (CBIR: Content-Based Image Retrieval en sus siglas inglés) se considera como una solución viable para resolver los problemas presentados en el método tradicional (Vassilieva 2009; Korare et al. 2005). En el CBIR, en lugar de usar palabras clave, se introduce una imagen de consulta (Query image) y el sistema extrae cierta cantidad de imágenes con el orden de similitud. El tamaño de la ventana de búsqueda es el número de imágenes que se extraen el CBIR. Para llevar a cabo esta tarea, el CBIR utiliza los contenidos visuales de las propias imágenes, ya sea forma, color o textura. Estos contenidos extraídos de las características propias de las imágenes se conocen como descriptores. Durante las últimas dos décadas los sistemas CBIR se han convertido en un área de intensa investigación (Del Bimbo et al. 1999; Rui et al., 1999; Datta et al., 2008). En el diseño de descriptores para los sistemas CBIR, existen dos aspectos primordiales que hay que tomar en cuenta. El primer aspecto es la precisión en la extracción de las imágenes deseadas y el segundo aspecto es el tamaño del descriptor, el cual tiene que ser lo más compacto posible, ya que el descriptor de cada imagen se almacena en la base de datos junto con la imagen (Vassilieva 2009).

La mayor parte de las superficies naturales exponen textura, que es una de las características visuales más importantes de bajo nivel en los sistemas CBIR (Mao y Jain, 1992; Randen y Husoy 1999; Xu y Zhang 2006; Wang et al. 2011; Fernández et al., 2013). Especialmente para las imágenes satelitales, las imágenes médicas y las imágenes de materiales (Alvarez et al. 2010), la textura se considera como una de las principales características usada para su clasificación e indexación. Por lo tanto, el estándar de MPEG7 proporciona descriptores de texturas, los cuales son descriptores basados en histogramas de borde (EHD) y descriptores basados en filtro de Gabor (Manjunath et al. 2001). El filtro orientado es otro descriptor que muestra una idea similar al EHD, sin embargo el costo computacional es más alto aunque describe la imagen de textura con mayor precisión (Jacob y Unser 2004; Wang et al. 2011).

Hasta la fecha, se han propuesto una gran cantidad de descriptores basados en textura con diferentes propiedades para extraer imágenes de textura (Manjunath y Ma 1996; Kokare et al. 2005; He et al, 2009; Raghuwanshi y Tyagi 2016; Alvarez et al. 2010) e imágenes naturales tomadas por la cámara fotográfica (Manjunath et al. 2000; Vipparthi y Nagar 2014; Jhanwar et al. 2004). Entre ellos tenemos los descriptores basados en matrices de coocurrencia los cuales muestran una buena eficiencia, sin embargo generalmente presentan una dimensión muy elevada y una menor robustez a la rotación de la imagen (Weszka et al. 1976). Para aliviar el defecto de los descriptores de este tipo, algunos trabajos introdujeron el concepto de Motifs que representan diferentes patrones de pixeles (Jhanwar et al. 2004; Vipparthis y Nagar 2014; Calderón et al. 2015). Aquí, en lugar de aplicar la matriz de coocurrencia directamente a la imagen de textura, se aplica a la imagen de Motif. La imagen de Motif se genera asignando un valor a cada región local de un tamaño dado, siendo esta de un tamaño de 2x2, disminuyendo la dimensión del descriptor drásticamente, esta operación se llama transformada de Motif. Fierro et al. (2015) propusieron el uso del correlograma en lugar de la matriz de coocurrencia para reducir más la dimensión del descriptor. El correlograma es un concepto parecido al de la matriz de coocurrencia, sin embargo es más compacto debido al cálculo de la probabilidad. El patrón binario local (LBP por sus siglas en inglés) fue propuesto por Ojara et al. (2002) para clasificar eficientemente imágenes de textura y se considera como un excelente descriptor basado en textura. El LBP asigna un valor al pixel central de cada región local, determinado por el radio R (R=1,2,3..), dependiendo de los valores de sus vecinos. Desde el punto de vista de la operación que asigna un nuevo valor a cada región local, el proceso de LBP equivale a la transformada Motif, aunque el LBP opera en regiones traslapadas. Los valores que se asignan son [0, 255] en el caso de la región con R=1, y [0, 65535] con R=2. Finalmente se obtiene el histograma de los valores asignados por el LBP, el cual se considera como un descriptor de textura. Vipparthi y Nagar (2014) combinaron el concepto de Motif con el concepto de LBP, y mostraron su mejor funcionamiento comparado con los descriptores basado en LBP, CS-LBP (Heikkila et al. 2009) y BLK-LBP (Takala et al. 2005).

En este trabajo presenta el efecto de la transformada Motif en el desarrollo de descriptores para extraer imágenes de textura, analizando la eficiencia de transformada de Motif comparando con descriptores estándares y más comúnmente usados, desde el punto de vista de la eficiencia de extracción y la dimensión de cada descriptor. La eficiencia de descriptores se mide en el término de la curva "Recall-precision" y el promedio del rango de extracción modificado y normalizado (ANMRR: Average Normalized Modified Retrieval Rank en su sigla inglés). Los experimentos se realizaron usando cuatro diferentes bases de datos de textura, Kylberg (Kylberg 2011), UIUC (Lazbenik 2005), Outex (Ojala et al. 2002) y UMD (Xu et al., 2009) cada una de las cuales tiene con características diferentes (Bianconi y Fernández 2014; Hossain y Serikawa 2013); por ejemplo la base de datos Kylberg contiene texturas finas, pero con menor variación entre texturas de misma categoría, mientras que la UIUC contiene texturas finas y áspera, y la base de datos Outex contiene texturas rotadas dentro de cada categoría; mientras la base de datos UMD contiene texturas con diferentes escalas y puntos de vista. Los resultados muestran que el funcionamiento de cada descriptor varía considerablemente dependiendo de la base de datos. Consideramos que estos resultados de comparación pueden dar una idea para analizar el efecto de la transformada de Motif en el diseño y desarrollo de descriptores de textura para extracción de imágenes de texturas.

El resto del artículo está organizado de la siguiente manera. En la sección de descriptores basados en textura, se proporciona una descripción detallada de cada uno de los descriptores basados en la transformada de Motif y otros descriptores usados para la comparación. En la sección de métricas de evaluación, se explican diferentes medidas de distancias y las métricas más usadas para evaluar el sistema CBIR, las cuales son ANMRR y la curva "Recall-precision". Las características de las cuatro bases de datos usadas para la evaluación, los resultados de comparación de los descriptores basados en la transformada de Motif y el análisis de los resultados se proporcionan en la sección de resultados. Finalmente en la sección de conclusiones, se concluye este artículo proporcionando un análisis del efecto del uso de la transformada de Motif y sugerencias sobre el uso de los diferentes descriptores evaluados dependiendo de las aplicaciones y el tipo de imágenes de textura.

DESCRIPTORES DE TEXTURA

En este artículo, analizamos el efecto de la transformada Motif en el desarrollo de los descriptores para la extracción de imágenes de textura basados en su contenido (CBIR). Los cuatro descriptores basados en Motif (categoría A) y los descriptores usados comúnmente para la tarea de CBIR (categoría B). En la categoría B, están incluidos la matriz de coocurrencia aplicada directamente a imágenes de escala de grises (GLCM), el Patrón Local Binario Uniforme Invariante a Rotación (LBP-UIR), la cual es una versión mejorada del lBp, y los descriptores de textura estándares de MPEG7. La Tabla 1 muestra los descriptores con sus respectivas siglas y categorías indicadas por A o B; adicionalmente se proporcionan las fuentes donde se puede consultar más detalles de cada descriptor. Como se mencionó anteriormente, la operación de asignación del valor a la región local del LBP podría considerar como una transformada Motif, por lo tanto su categoría es AB. Cabe mencionar que en este artículo cada descriptor se refiere por su sigla que aparece en la segunda columna de la tabla.

Tabla 1: Descriptores de textura y sus respectivas siglas y fuentes

Descriptores basados en la transformada Motif

La matriz de coocurrencia (GLCM) es una representación directa de la textura, donde se analiza relación entre los pixeles de vecinos (Haralick et al. 1973). En general, la GLCM proporciona muy buena descripción de las imágenes de textura, sin embargo la dimensión de este descriptor es 216 (256 x 256), la cual podría ser mayor que la misma imagen de textura. La alta dimensión de este descriptor no es práctica en el CBIR.

Considerando esta limitación de GLCM, Jhanwar et al. (2004), Calderón et al. (2015), Fierro et al. (2015) y Vipparthi y Nagar (2014) introdujeron el concepto de Motif para reducir dimensión del descriptor, manteniendo un buen funcionamiento del mismo. En esta sub-sección se proporciona el concepto de Motif y cuatro descriptores de texturas que usan el Motif. En los cuatro descriptores, MCM, MCMD, MAC y DLMXoRPs primeramente se aplica la transformada Motif a las imágenes de textura. Seguidamente, los descriptores MCM y MCMD calculan matriz de coocurrencia de la imagen de Motif (Jhanwar et al. 2004; Calderón et al. 2015), mientras que en el descriptor MAC se calcula la probabilidad de coocurrencia de cada tipo de Motif con cierta distancia espacial, a lo cual se le llama el correlograma de Motif de la imagen de textura (Fierro et al. 2015). El correograma de Motif del descriptor MAC y matrices de coocurrencia de los MCM y MCMD proporcionan características similares de textura, sin embargo el descriptor de MAC es más compacto en comparación con el MCM y el MCMD, ya que el MAC proporciona un vector de probabilidad, mientras los MCM y MCMD proporcionan la matriz de coocurrencia. En el DLMXoRPs, se usa una transformada Motif diferente que la de MCM, MCDM y MAC, y después la operación OR-exclusiva se aplica a la imagen de Motif para obtener el descriptor. En esta sub-sección, se describe primero el desarrollo de los descriptores MCM, MCMD y MAC, seguidamente se describe el desarrollo del descriptor DLMXoRPs.

 

Un Motif puede ser definido como un patrón de intensidad de los niveles de gris de un pixel dado en una imagen, los cuales se extraen utilizando una ventana de 2x2. En general, es posible extraer 24 Motifs de una ventana de 2x2, sin embargo solo tomamos en cuenta los que parten de la posición (1,1) de la ventana, de manera que el número de Motifs se reduce a seis como se muestra en Fig. 1(a). La transformada Motif usada en MCM, MCDM y MAC se basa en la exploración de toda la imagen utilizando la ventana de 2x2 no traslapada, reemplazando cada ventana por la etiqueta correspondiente a cada Motif de acuerdo a la asignación mostrada por la Fig. 1(b). Finalmente obtenemos la transformada Motif de la imagen la cual contiene solamente seis valores diferentes.

Fig. 1 (a) Seis patrones de Motif, (b) Asignación de etiqueta a cada patrón de Motif

La Fig. 2 muestra un ejemplo de transformada Motif. El tamaño de la transformada Motif de la imagen es de , siendo MxN el tamaño de la imagen original.

Fig. 2 Transformada Motif. (a) Valores de los pixeles de imagen original, (b) Motif de cada bloque de 2x2, (c) transformada Motif de la imagen.

El descriptor MCM calcula la matriz de coocurrencia de la transformada Motif de la imagen, tomando en cuenta solamente los elementos adyacentes horizontales (Jhanwar et al. 2004). La Fig. 3 muestra un ejemplo de la construcción de la matriz de coocurrencia a partir de la transformada Motif de la imagen.

Fig. 3 Un ejemplo de matriz de coocurrencia de imagen transformada de Motif. (a) transformada Motif de la imagen, (b) Matriz de coocurrencia.

Como se puede observar de la Fig. 3(a), la transformada Motif contiene valores entre 1 y 6, ya que existen seis Motifs como se muestra en Fig. 1(b), por lo tanto la coocurrencia de un Motif y su adyacente horizontal se puede expresar con una matriz de 6 x 6, como se muestra en Fig. 3(b), cuya posición (x,y) contiene el número de veces que el Motif "x" tiene como su vecino derecho un Motif con valor "y". Por ejemplo el elemento (4,3) de la matriz de coocurrencia indica el número de veces que se encuentra el Motif con valor 4 junto con su vecino derecho en la transformada Motif con valor 3. En la Fig. 3(a), la combinación con un Motif del valor 1 y su vecino derecho de valor 2 se encuentra en dos ocasiones como se muestra parte sombreada, por lo tanto el valor del elemento (1,2) de la matriz de coocurrencia es 2, como se muestra Fig. 3(b). En la misma forma, se puede obtener todos los elementos de la matriz de coocurrencia. Este descriptor tiene una limitación para describir las características de textura ya que el patrón de textura se puede repetir en las diferentes direcciones no solamente en la dirección horizontal.

El descriptor MCMD es una mejora del MCM, considerando las cuatro direcciones [0°, 45°, 90° y 135°] de los elementos de la transformada Motif de la imagen (Calderón et al. 2015), como lo muestra la Fig. 4. Cuando se extraen imágenes más similares, se selecciona una matriz de coocurrencia con mayor similitud. Este descriptor caracteriza mejor las imágenes de textura que el MCM, ya que logra invariancia a la rotación, aunque la longitud del descriptor es cuatro veces más grande que el MCM.

Fig. 4 Representación de las direcciones que se pueden tomar para crear una matriz de coocurrencia.

El descriptor MAC está basado en el concepto de correlograma de color propuesto por Huang et al. (1997), el cual calcula la probabilidad de ocurrencia de cada tipo de Motif que aparece otra vez con cierta distancia espacial (Fierro et al. 2015). Dada la transformada Motif de la imagen, I, el MAC se define como:

(1)

Donde MACi(k)(l) es la probabilidad del Motif tipo i que aparece con la distancia k dentro de la transformada Motif de la imagen, I, Ii, es la transformada Motif del tipo i, i=1..,6, de la imagen I, m1 y m2 son dos elementos de I que se localizan en las posiciones (x1,y1) y (x2,y2) , |m1-m2| es la distancia de Manhattan dada por |m1 - m2| = max{|x1 - x2|, |y1 - y2|}. Se consideran cuatro distancias k = 1,3, 5 y 7 para el MAC, por lo tanto el número de elementos de este descriptor es (6 tipos de Motif) x (4 distancias) = 24 (Fierro et al. 2015).

Vipparthi y Nagar (2014) propusieron los Patrones Locales Motif Direccionales XoR (DLMXoRPs), cuyo concepto básico es una combinación de la transformada Motif y la operación OR-exclusiva. Para la obtención del DLMXoRPs, la imagen de textura se convierte en la transformada Motif de la imagen por la misma razón considerada en los descriptores basados en la matriz de coocurrencia y se extraen las características locales desde la transformada Motif de la imagen. Los patrones Motif para el DLMXoRPs están basados en la relación de los valores de tres pixeles consecutivos (Fig. 5(a)), los cuales son diferentes a aquellos usados en el MCM, el MCMD y el MAC (Jhanwar et al. 2004; Calderón et al. 2015; Fierro et al. 2015).

Fig. 5 Los Motifs y las orientaciones usadas (Vipparthi y Nagar, 2014). (a) Siete Motifs, (b) Cuatro orientaciones.

Una vez obtenida la transformada Motif de la imagen, IMotif , se extrae la característica local usando el operador OR-exclusivo como se muestra en (2).

(2)

donde es el operador OR-exclusivo aplicado a la transformada Motif de la imagen dado por

(3)

gc,gi ? {1,2,...,7} son el valor Motif del elemento gc y su i-esimo vecino, gi, respectivamente, de la transformada Motif de la imagen, P y R indican el número de vecinos y el radio. El valor de θ ? {0°,45°,90°,135°} indica el ángulo de rotación, el cual se aplica al momento de la generación de la transformada Motif de la imagen, seleccionando tres pixeles consecutivos con cuatro diferentes orientaciones como se muestra en la Fig. 5(b). Finalmente, el descriptor es el histograma de los valores de las características locales obtenidos por (2).

Descriptores comúnmente usados

Ojala et al. (2002) propusieron el Patrón Local Binario (LBP) y sus variantes para la clasificación de textura. Hasta la fecha el LBP y sus variantes se han usados para resolver diversos problemas de reconocimiento de patrones, tales como reconocimiento de rostros (Ahonen et al. 2006) y detección de humo (Yuan 2011) etc. El LBP obtiene una relación entre un pixel central y sus vecinos determinados por el radio R, y representa esta relación numéricamente calculando:

y gc es el valor en escala de grises del pixel central, gi es el valor del i-esimo vecino de gc, P indica el número de vecinos que consideran y R es el radio de círculo del vecino. El concepto de vecindad que usa en LBP se muestra en la Fig. 6.

Fig. 6 Concepto de vecindad que usa el LBP.

El patrón local binario invariante a rotación (LBP-IR) es una variante del LBP básico mostrado por (6) y está dado por (8).

(8)

Esta ecuación entrega el mismo valor de LBP independiente de la imagen está rotada. El patrón local binario uniforme es un patrón cuyo máximo número de transiciones es 2. Esto quiere decir que el patrón binario [g0, g1 ,..., g7 ] no contiene más de dos transiciones, esto es 0→1 o 1→0. Por ejemplo un patrón binario [1,0, 0, 0, 0, 1, 1, 1] es uniforme ya que contiene dos transiciones. En este caso al pixel central de la ventana se le asigna el valor dado por (8). Mientras que el patrón [0, 0, 0, 1, 1,0, 1,0] no es uniforme ya que contiene cuatro transiciones. El concepto de invariancia a rotación, dado por (8), se aplica solamente a los patrones uniformes, y a los patrones no-uniformes se les asignan un mismo valor, definido de antemano. El descriptor que realiza este proceso se llama patrón local binario uniforme invariante a rotación (LBP-UIR). Ejemplos sencillos del cálculo de LBP, LBP-IR y LBP-UIR se muestra en la Fig. 7.

Fig. 7 Un ejemplo sencillo de LBP, LBP-IR y LBP-UIR

Una vez calculado el valor de cada valor de textura de la imagen, el descriptor LBP-UIR se obtiene, calculando histograma de los valores , el cual está dado por

(9)

donde (i, j) es el valor del LBP invariante a rotación, calculado por (8), del pixel en la posición (i, j), donde la función h( x, l )está dado por (5).

Finalmente la ecuación (9) proporciona el descriptor LBP-UIR, cuyo número de elementos es 18.

El descriptor basado en el histograma de borde (EHD), como su nombre indica, caracteriza patrones de textura usando la frecuencia de bordes de diferentes orientaciones (Wu et al. 2001). En el EHD, las características locales son bordes de diferentes orientaciones en lugar de la relación local entre los pixeles vecinos que se usan en el LBP-UIR. El MPEG7 aprobó el EHD como un estándar para la descripción de textura y estableció su formato de almacenamiento (Manjunath et al. 2001). Para llevar a cabo la extracción de bordes de diferentes orientaciones, la imagen de textura se segmenta en sub-imágenes de 4x4 y se analiza la orientación de los bordes en cada sub-imagen independientemente. Los bordes se clasifican de acuerdo a su orientación en cinco grupos los cuales son: bordes horizontales, verticales, diagonales de 45°, diagonales de 135° y sin orientación específica. Para obtener la orientación de las sub-imágenes, se usan cinco filtros de dimensión 2x2 como se muestra en Fig. 8. Las respuestas de los 5 filtros se comparan entre sí y se selecciona la respuesta máxima. Si la respuesta máxima rebasa el valor de umbral predeterminado, se considera que la región local de 2x2 tiene la orientación del filtro que proporcionó la máxima respuesta. Este descriptor contiene 80 elementos esto es 5 bins por sub-imagen por 16 sub-imágenes.

Fig. 8 Filtros para detección de bordes con diferentes orientaciones

Otra forma de caracterizar la textura de una imagen es el uso de filtros específicos tales como: los filtros de Gabor y los filtros orientables. Ambos filtros se han usados para clasificar y segmentar la textura de las imágenes (Manjunath y Ma ,1996; Jacob y Unser, 2004). Generalmente los descriptores basados en filtrado presentan buen funcionamiento, aunque el costo computación para extraer características es mayor que los descriptores de algunas otras categorías. Manjunath y Ma (1996) propusieron un descriptor GF basado en el filtro de Gabor para caracterizar imágenes de textura, en el cual se preparan en total 24 filtros de Gabor con 4 frecuencias y 6 orientaciones diferentes. La ecuación (10) muestra un filtro de Gabor con frecuencia espacial ω y orientación Ø.

(10)

Usando estos 24 filtros de Gabor determinados por 4 frecuencias y 6 orientaciones se filtra la imagen, obteniendo 24 imágenes filtradas. La imagen filtrada por el filtro Gabor de una frecuencia ωi, i = 0..3y una orientación Øk, k = 0..5 muestra cierto nivel de coincidencia con un filtro de Gabor específico. Por lo tanto un vector con los valores medios y las desviaciones estándares de las 24 imágenes filtradas GF =  representa eficientemente la característica de la textura de la imagen.

Jacob y Unser (2004) propusieron un filtro llamado filtro orientable (Steering Filter) para el análisis de imágenes el cual ha sido empleado para el sistema del CBIR (Wang et al. 2011). El filtro orientable se sintetiza por medio de la combinación lineal de la función base y la función de interpolación con un ángulo deseado. En el descriptor basado en filtros orientables (SF), los filtros pasa-bandas direccionales se aplican a la imagen y se analiza la distribución de energía de las imágenes filtradas. Las imágenes filtradas por los filtros pasa-bandas están dadas por

(11)

donde I es la imagen cuya textura está bajo análisis y B es el i-esimo filtro pasa-banda direccional. La distribución de la energía Ei (x, y) de la imagen filtrada Si (x, y) se calcula como

  (12)

Como la distribución de energía indica las características de textura, los valores de la media y las desviaciones estándares de E¡ pueden describir adecuadamente la textura de la imagen. Finalmente el descriptor SF está dado por SF =

SIMILITUD Y MÉTRICA DE EVALUACIÓN

Cálculo de distancia

En el sistema del CBIR, los vectores característicos de todas las imágenes que se encuentran en la base de datos se extraen usando descriptores y se almacenan para construir una base de datos de característicos. Una vez que la base de datos está construida, el sistema CBIR recibe la imagen de consulta y obtiene el vector característico usando un descriptor. Las imágenes de la base de datos que presentan mayor similitud con la de consulta se extraen como salidas del sistema. Por lo tanto, en el sistema CBIR, la medida de similitud es muy importante por su funcionamiento.

Las medida de similitud comúnmente usada es la distancia de Minkowski (Zhang y Lu, 2003), dada por

(13)

donde Q = {Q0,Q1,...,QN-1} y T = [T0,T1,...,TN-1} son los vectores característicos de la imagen de consulta y de la imagen almacenada en la base de datos, respectivamente. Cuando p = 2, la distancia d2(Q,T) se conoce como la distancia Euclidiana (distancia L2) y cuando p = 1, esta distancia d1(Q,T) es llamada distancia de Manhattan (distancia L1) la cual se describe como

(14)

Cuando el rango dinámico de los valores de los vectores característicos varía considerablemente, es conveniente usar la distancia de Manhattan normalizada (distancia normalizada L1) dada por

(15)

Los vectores característicos obtenidos por el descriptor GF y SF contienen dos tipos de valores, valores medios y desviaciones estándares. Para estos dos descriptores, la distancia se calcula como suma de distancia de la media y distancia de la desviación estándar. Manjunath y Ma (1996) propusieron la medida de distancia para GF dada por (16), mientras Wang et al. (2011) propusieron ecuación (17) como la distancia para SF.

La Tabla 2 muestra la distancia usada para cada uno de los descriptores mencionados para su evaluación. Métricas de evaluación y comparación de los descriptores

Tabla 2. Medida de distancia usada por cada descriptor

Generalmente los descriptores dentro de los sistemas CBIR son evaluados con relación a su rendimiento usando la observación humana. Los descriptores fueron evaluados en términos de efectividad de recuperación, para lo cual recurrimos a dos métricas: La curva "Recall-Precisión" y la "Average Normalized Modified Retrieval Rank (ANMRR)".

Para realizar esta curva debemos calcular la media de precisión de extracción (ARP) y la tasa de extracción media (ARR) como se muestran a continuación. Para la imagen de búsqueda Iq la precisión (P) y Recall (R) se definen como:

donde DB es el número total de imágenes en la base de datos. El número total de imágenes extraídas se controla con un factor de α, como se muestra en (22).

 (22)

Una vez obtenidos los valores de ARR y ARP se grafican para así poder observar el comportamiento de cada descriptor. El ANMRR (Average Normalized Modified Retrieval Rank) está definido como (Manjunath et al. 2001):

(23)

Donde NQ es el número total de imágenes contenidas en la base de datos y NMRR es el rango de recuperación modificado normalizado con respecto al NG(q).

(24)

Donde NG(q) es el tamaño o el número de imágenes totales de una categoría dada dentro de una base de datos y MRR es el rango de recuperación modificado con respecto al NG(q). El valor del ANMRR se encuentra en el rango de [0,1] y conforme más se aproxime a cero el resultado, el rendimiento del método es mejor.

RESULTADOS

Para evaluar los diferentes métodos mencionados utilizamos cuatro bases de datos (Kylberg, UIUC, OUTEX y UMD), cuyas características se muestran en la Tabla 3. Se puede observar que las características son muy distintas en cada base de datos ya que las imágenes dependen de la superficie física tales como: aspereza, filamentos orientados que tienen a menudo una calidad táctil, la reflexión de la luz sobre el material o la rotación de la imagen como es el caso de la base de datos de OUTEX. Existe una gran cantidad de bases de datos de textura (Bianconi y Fernández 2014; Hossain y Senikawa 2013), nosotros seleccionamos estas cuatro bases de datos debido a que tienen un suficiente número de imágenes de textura por cada categoría para poder evaluar los descriptores con mayor tamaño de ventana de búsqueda. En la Fig. 9 se observan algunas imágenes contenidas en cuatro bases de datos utilizadas.

Tabla 3. Descripción de base de datos usados

Fig. 9 Tipos de Imágenes de textura en cada base de datos

Para evaluar el desempeño de los descriptores se comparan las métricas mencionadas anteriormente en cada base de datos. Las Figs. 10 - 11 - 12 - 13 muestran las curvas "Recall-Precisión" de los descriptores: MCM, MCMD, MAC, DLMXoRPs, LBP-UIR, GLCM, EHD, GF y SF, aplicando las cuatro diferentes bases de datos: Kylberg, UIUC, OUTEX y UMD, respectivamente. La Tabla 4 muestra los resultados experimentales de los descriptores con base a la métrica ANMRR usando cuatro bases de datos de texturas.

Fig. 10: Curva de RecaN-Precisión de los descriptores de textura usando base de datos de Kylberg.

Fig. 11: Curva de RecaN-Precisión de descriptores de textura usando base de datos de UIUC.

Fig. 12: Curva de RecaN-Precisión de los descriptores de textura usando base de datos de OUTEX.

Fig. 13: Curva de Recall-Precisión de los descriptores de textura usando base de datos de UMD

Tabla 4. Comparación del funcionamiento de descriptores usando la métrica ANMRR

Podemos observar de las Figs. 10 - 11 - 12 - 13 y la Tabla 4, que en general el descriptor basado en el filtro Gabor (GF) muestra buen funcionamiento para los cuatro tipos de bases de datos. Para la base de datos Kylberg, donde la mayoría de sus texturas son finas y la variación entre sí no es grande, el descriptor MCMD (Matrix de Coocurrencia Motif Direccional) muestra buen desempeño. Por su parte para la base de datos UIUC, el descriptor basado en filtros orientables (SF) muestra un buen funcionamiento después del GF. Para la base de datos OUTEX, la cual presenta imágenes cuyas texturas están rotadas, el Patrón Binario Local Uniforme Invariante a Rotación (LBP-UIR) muestra un mejor funcionamiento. Este resultado era de esperarse, considerando que el LBP-UIR está diseñado para ser robusto a la rotación de los patrones. El descriptor EHD muestra el peor funcionamiento para las tres bases de datos, aunque este descriptor está considerado como el estándar del MPG-7.

Como se había mencionado anteriormente, en el CBIR los vectores de características obtenidos por cada descriptor se almacenan junto con las imágenes de la base de datos. Por lo tanto desde el punto de vista de almacenamiento, un descriptor que produce un vector característico de menor longitud es mejor que aquellos con mayor longitud. La Tabla 5 muestra longitud del vector de características que genera cada uno de los descriptores que evaluamos. De esta tabla, podemos observar que los descriptores SF, LBP-UIR, MAC y MCM producen vectores muy compactos, mientras los descriptores GLCM y DLMXoRPs producen vectores con mayor longitud, sobre todo el descriptor GLCM es cuatro veces más grande que la propia imagen de textura en la base de datos OUTEX. Aunque la eficiencia de GLCM es alta en mayoría de las bases de datos de textura, el requerimiento de mayor espacio de almacenamiento hace totalmente impráctica el uso de este descriptor en la tarea de CBIR.

Tabla 5. Longitud de vectores de características generados por cada descriptor

Dentro de los descriptores basados en la transformada de Motif, DLMXoRPs y MCM proporcionan mejores precisión-recall característica, aunque DLMXoRPs produce un descriptor con 1024 elementos que podría causar problemas de almacenamiento y alta complejidad en la operación de comparación con el descriptor de la imagen de consulta.

CONCLUSIONES

En este artículo se analizó el efecto de la transformada de Motif para el diseño y desarrollo de descriptores para el sistema de extracción de imágenes de textura por su contenido (CBIR). Los descriptores de textura basados en la transformada de Motif que se evaluaron en este artículo son: Matriz de coocurrencia de Motif (MCM), Matriz de coocurrencia de Motif Direccional (MCMD), Auto-correlograma de Motif (MAC), Patrón Local Motif Direccionales XoR (DLMXoRPs). Con afán de evaluar los descriptores basados en la transformada de Motif, su funcionamientos se compararon con el de los descriptores de texturas comúnmente usados en la literatura, los cuales son: Matriz de Coocurrencia aplicada directamente a imágenes de escala de grises (GLCM), Patrón Binario Local-Uniforme Invariante a Rotación (LBP-UIR), Histograma de Borde (EHD), Filtro de Gabor (GF) y Filtro orientable (SF). La evaluación del funcionamiento de los descriptores se llevó a cabo por medio de la curva de Recall-Precisión y ANMRR usando cuatro bases de datos de texturas: Kylberg, UIUC, OUTEX y UMD.

Podemos observar de los resultados, en casi todas las bases de datos, el descriptor GLCM presenta buen desempeño con respecto a otros descriptores, sin embargo la dimensión de este descriptor es 216=65535, el cual es muy grande lo que lo hace impráctico en el sistema CBIR. En el sistema CBIR, el descriptor de cada imagen tiene que ser almacenado en base de datos junto con la imagen correspondiente, por lo tanto la dimensión de descriptor tiene que ser lo más compacto posible. Además del requerimiento de almacenamiento, que es muy importante, el descriptor con mayor dimensión requiere mayor tiempo de búsqueda que lo de descriptores con menor dimensión. El principal objetivo de la transformada Motif es reducir la dimensión de los descriptores, manteniendo buena precisión de extracción de imágenes similares.

El funcionamiento de ocho descriptores, MCM, MCMD, MAC, DLMXoRPs, LBP-UIR, EHD, GF y SF dependiendo de las bases de datos. Para la base de datos de Kylberg, la cual contiene imágenes de texturas finas con una variación pequeña dentro de una clase, el descriptor GF muestra mejor desempeño seguida del MCMD. Para la base de datos UIUC que contiene texturas menos finas, el descriptor SF muestra buen desempeño después del GF. Por su parte para la base de datos OUTEX que contiene versiones rotadas con diferentes grados de ángulo de una textura en cada categoría, el descriptor LBP-UIR muestra mejor funcionamiento. Este resultado es de esperarse, considerando que el LBP-UIR está diseñado para ser invariante a rotación. Con respecto a la dimensión de descriptores, los descriptores SF, LBP-UIR, MAC y MCM son suficientemente compacto que se puede ser práctica para el sistema CBIR. Con respecto a la complejidad computacional para generar cada descriptor, los descriptores GF y SF podrían ser más costosos, debido a la operación de filtro.

Esta investigación nos permite entender el efecto de la transformada Motif en el desarrollo de descriptor para extracción de imágenes de textura en el sistema CBIR. En este trabajo analizamos dos tipos de la transformada Motif, sin embargo debe haber más variedad y alguna otra transformada Motif podría ser más eficiente y compacto. Desarrollo de nueva transformada de Motif para el sistema CBIR es uno de nuestro trabajo futuro. Una combinación eficiente de diversas características, tales como color, forma y textura, para mejorar el funcionamiento del sistema CBIR es otro tema que se encuentra actualmente bajo estudio.

REFERENCIAS

Ahonen, T., A. Hadid y M. Pietikainen, Face Description with Local Binary Pattern. Application to face recognition, IEEE Trans. on Pattern Analysis and Machine Intelligence: 28 (12), 2037-2041 (2006)        [ Links ]

Alvarez, M. J., E. Gonzalez, F. Bianconi, J. Armesto y A. Fernández, Colour and texture Features for Image Retrieval in Granite induatry, Dyna: 77(161), 121-130 (2010)        [ Links ]

Bianconi, F. y A. Fernández, An Appendix to "Texture Database - A Comprehensive Survey", Pattern Recognition Letters: 45(1), 33-38 (2014)        [ Links ]

Calderón, G., A. Fierro, K. Toscano, M. Nakano y H. Perez, Extracción de Imagines de Textura usando MCMs Direccionales, Simposio Iberoamaricano Multidisciplinario de Ciencias e Ingenierias, Hidalgo, Meixco, 21-23 Septiembre (2015)        [ Links ]

Datta, R., D. Joshi, J. Li y J.Z. Wang, Image Retrieval: Ideas, Influences, and Trends of a New Age, ACM Computing Survey: 40(2), 5:3-5:60 (2008)        [ Links ]

Del Bimbo, A., V. Castelli, S. Chang y C. Li, Content-bases Access for Image and Video Libraries, Journal of Computer Visions and Image Understanding: 75(8), 1-2 (1999)        [ Links ]

Fernández, A., M.X. Alvarez y F. Bianconi, Texture Description through Histograms of Equivalent Patterns, Journal of Mathematical Imaging and Vision: 45(1), 76-102 (2013)        [ Links ]

Fierro, A.N., G. Calderón, M. Nakano y H. M. Pérez, Motif Correlogram for Texture Image Retrieval, Intelligent Software Methodologies, Tools and Techniques, 496-505, Naples, Italia, 15-17 de Septiembre (2015)        [ Links ]

Haralick, R.M., K. Shanmugam y I. Dinstein, Texture Features for Image Classification, IEEE Trans. on Systems, Man and Cybernetics: 3(6), 610-621 (1973)        [ Links ]

He, Z., X. You y Y. Yuan, Texture Image Retrieval based on Non-tensor Product Wavelet, Signal processing: 89(8), 1501-1510 (2009).         [ Links ]

Heikkila, M., M. Pietikainen y C. Schmid, Description of Interest Regions with Local Binary Patterns, Pattern Recognition: 42(3), 425-436 (2009)        [ Links ]

Hossain, S. y S. Serikawa, Texture Databases - A Comprehensive Survey, Pattern Recognition Letters: 34(15), 2007-2022 (2013)        [ Links ]

Huang, J., S. R. Kumar, M. Mitra y W.-J. Zhu, Image Indexing Using Color Correlograms. IEEE International Conference on Computer Vision and Pattern Recognition, 762-768, San Juan, Puerto Rico, 17-19 de Junio (1997)        [ Links ]

Jacob, M. y M. Unser, Design of Steerable Filters for Feature Detection using Canny-like Criteria, IEEE Trans. on Pattern Analysis and Machine Intelligence: 26 (8), 1007-1019 (2004)        [ Links ]

Jhanwar, N., S. Chaudhuri, G. Seetharaman y B. Zavideovique, Content-Based Image Retrieval Using Motif Cooccurrence Matrix, Image and Vision Computing: 22(3), 1211-1220 (2004)        [ Links ]

Korare, M., P.K. Biswas y B.N. Chatterji, Texture Image Retrieval using New Rotated Complex Wavelet Filters, IEEE Trans. on Systems, Man and Cybernetics-Part B: 35(6), 1168-1178 (2005)        [ Links ]

Kylberg, G., The Kylberg Texture Dataset v.1.0, Image Analysis, Swedish University of Agricultural Sciences and Uppsala University, (en línea: http://www.cb.uu.se/~gustaf/texture, acceso: 10 de octubre 2014), External report (Blue series) No. 35 (2011)        [ Links ]

Lazbenik, S., C. Schmid y J. Ponce, A Sparse Texture Representation using Local Affine Regions, IEEE Trans. on Pattern Analysis and Machine Intelligence, 27 (8), 1265-1278, (2005)        [ Links ]

Manjunath, B. S. y W.Y. Ma, Texture Features for Browsing and Retrieval of Image Data, IEEE Trans. on Pattern Analysis and Machine Intelligence: 18(8), 837- 842 (1996)        [ Links ]

Manjunath, B. S., J-R. Ohm, V. V. Vasudevan y A. Yamada, Color and Texture Descriptors, IEEE Trans. on Circuit and Systems for Video Technology: 11 (6), 703-715 (2001)        [ Links ]

Mao, J. y A. K. Jain, Texture Classification and Segmentation using Multiresolution Simultaneous Autoregressive Models, Journal Pattern Recognition: 25 (2), 173-188 (1992)        [ Links ]

Ojala, T., M. Pietikainen y T. Maenpaa, Multiresolution Gray-scale and Rotation Invariant Texture Classification with Local Binary Patterns, IEEE Trans. on Pattern Analysis and Machine Intelligence, 24(7), 971 -987 (2002)        [ Links ]

Raghuwanshi, G. y V. Tyagi, Texture Image Retrieval using Adaptive Retrolet Transforms, Digital Signal Processing: 48(1), 50-57 (2016)        [ Links ]

Randen, T y J. H. Husoy, Filtering for Texture Classification: A Comparative Study, IEEE Trans. on Pattern Analysis and Machine Intelligence, 21(4), 291-310 (1999)        [ Links ]

Rui, Y., T.S. Huang y S. Chang, Image Retrieval: Current Techniques, Promising Directions and Open Issues, Journal of Visual Communication and Image Representation, 10 (1), 39-62 (1999)        [ Links ]

Takala, V., T. Ahonen y M. Pietikainen, Block-based Methods for Image Retrieval using Local Binary Patterns, Springer LNCS 3540, 882-891 (2005)        [ Links ]

Vassilieva, N.S., Content-Based Image Retrieval Methods, Programming and Computer Software, 35(3), 158180 (2009)        [ Links ]

Vipparthi, S. K. y S.K. Nagar, Expert image retrieval system using directional local motif XoR patterns, Expert Systems with Applications: 41 (12), 8016-8026 (2014)        [ Links ]

Wang, Y. X., Y. J. Yu y H. Y. Yang, An Effective Image Retrieval Scheme Using Color, Texture and Shape Features, Journal Computer Standars & Interfaces: 33 (1), 59-68 (2011)        [ Links ]

Weszka, J., C. R. Dyer y A. Rosenfeld, A Comparative Study of Textures Measures for Terrain Classification, IEEE Trans. on Syst., Man, Cybern., 6 (4), 269-285 (1976)        [ Links ]

Wu, P. Y. M. Ro, C. S. Won y Y. Choi, Texture Descriptors in MPEG-7, doi: 10.1007/3-540-44692-3_4, Computer Analysis of Images and Patterns (en linea), 2124, 9, 21-28 (2001)        [ Links ]

Xie, X., M. Mirmehdi, A galaxy of texture features. In Mirmehdi, M., Xie, X., Suri, J. (eds.) Handbook of texture analysis, pp. 375-406. Imperial College Press (2008)        [ Links ]

Xu, F. y Y.J. Zhang, Evaluation and Comparison of Texture Descriptors Proposed in MPEG-7, Journal of Visual Communication and Image Representation: 17 (4), 701-716 (2006)        [ Links ]

Xu, Y., S. Huang y H. Ji, Integrating Local Feature and Global Statistics for Texture Analysis, Int. Conference on Image processing, 1377-1380, Cairo, Egypt 7-12 de noviembre (2009)        [ Links ]

Yuan, F., Video-based smoke detection with histogram sequence of LBP and LPBV pyramids, Fire Safety Journal, 46 (3) 132-139 (2011)        [ Links ]

Zhang, D. y G. Lu, Evaluation of Similarity Measurement for Image Retrieval, Conference on Neural Networks & Signal Processing, 14-17,Nanjing, China 14-17 de diciembre (2003)        [ Links ]

Recibido Nov. 11, 2015; Aceptado Ene. 12, 2016; Versión final Mar. 11, 2016, Publicado Jun. 2016

Creative Commons License Todo o conteúdo deste periódico, exceto onde está identificado, está licenciado sob uma Licença Creative Commons