SciELO - Scientific Electronic Library Online

 
vol.24 issue1Effect of Bran Wheat on the Physico-Chemical and Sensory Properties of Buffalo Milk YoghurtScheduling of School Hours based on Cognitive Rhythms using a Non-dominated Sorting Genetic Algorithm, NSGA-II author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

Share


Información tecnológica

On-line version ISSN 0718-0764

Inf. tecnol. vol.24 no.1 La Serena  2013

http://dx.doi.org/10.4067/S0718-07642013000100011 

Información Tecnológica Vol. 24(1), 87-102 (2013)

ARTÍCULOS

 

Algoritmo de Marca de Agua para Video basado en el  SVH, robusto a Múltiples Conversiones de Formato de Video

HVS-based Video Watermarking Algorithm, being Robust to Multiple Video Format Conversions

 

Antonio Cedillo-Hernández(1), Manuel Cedillo-Hernández(2), Mariko Nakano-Miyatake(1)* y Mireya García-Vázquez(3)

(1) Instituto Politécnico Nacional, Sección de Estudios de Posgrado e Investigación, Escuela Superior de Ingeniería Mecánica y Eléctrica Unidad Culhuacán, Av. Santa Ana No. 1000, Col. San Francisco Culhuacán, 04430, México D.F. México (e-mail: antoniochz@hotmail.com, mnakano@ipn.mx)
(2) Universidad Nacional Autónoma de México, Facultad de Ingeniería, División de Ingeniería Eléctrica, Ciudad Universitaria, 04510, México D.F.-México (e-mail: mcedillohdz@hotmail.com)
(3) Instituto Politécnico Nacional, Centro de Investigación y Desarrollo de Tecnología Digital, Av. Del Parque No. 1310, Tijuana, Baja California-México (e-mail: freemgarciav@gmail.com)

* Autor a quien debe dirigirse la correspondencia


Resumen

En este artículo se propone un algoritmo de marca de agua para video basado en normalización de imágenes, estimación de movimiento e información perceptual, desarrollado en el dominio de banda base. El algoritmo se diseño para sobrevivir operaciones legítimas y ataques maliciosos, enfocado en la robustez contra la conversión múltiple de formatos de video. Los procesos de inserción y detección se realizan en el dominio de la Transformada Discreta de Coseno y la normalización de imágenes se utiliza para obtener características geométricas invariantes de los cuadros de video. La energía de la marca de agua se adapta utilizando información perceptual y vectores de movimiento para obtener una mayor robustez e imperceptibilidad. La simulación de resultados muestra la robustez del algoritmo ante las múltiples conversiones de formatos de video más comunes, distorsiones geométricas así como ataques comunes de procesamiento de señales y ataques basados en cuadros de video.

Palabras clave: marca de agua en video,  normalización, conversión de formatos de video, sistema visual humano


Abstract

This paper proposes a video watermarking algorithm based on image normalization, motion estimation and perceptual information performed in the baseband domain. The proposed algorithm is designed to survive legitimate operations and malicious attacks, focused on the robustness against multiple video format conversion. Watermark embedding and detection are carried out in the Discrete Cosine Transform domain, and image normalization is used to get geometric invariant feature of video frames. The watermark energy is adapted using perceptual information and motion vectors to get higher imperceptibility and robustness. Computer simulation results show the watermark robustness to the most common video codec conversions, geometric distortions, as well as common signal processing and intentional frame-based attacks.

Keywords: video watermarking,  normalization, video format conversion, human visual system



INTRODUCCIÓN

La industria de la cinematografía estima que las pérdidas anuales causadas por la piratería son de casi un billón de dólares (Molina, 2008), ya que tan solo unos pocos días después o incluso antes del lanzamiento de una nueva película en el cine, existen versiones ilegales que se distribuyen ampliamente a través de internet o en el mercado informal. Una versión ilegal puede obtenerse gratuitamente o a un costo mucho menor en comparación con la versión original. Los creadores de copias piratas adquieren una copia ilegal de la película original y pueden distribuirla vía internet o venderla al mercado informal. Existen varias formas de adquirir ilegalmente una copia de una película tales como: videograbación en el cine, utilizando sistemas de tele-cine, etc. (Molina, 2008). Una vez que se obtiene una copia ilegal, se tratan de eliminar las señales usadas para proteger los derechos de autor a través de la conversión o re-conversión del formato de video utilizando herramientas de conversión que son fáciles de adquirir a través del Internet. La técnica que se utiliza más ampliamente para la protección de la propiedad intelectual y de los derechos de autor es la marca de agua digital (Deshpande et al., 2010), que consiste en insertar una señal imperceptible dentro del material de video digital, donde la señal de marca de agua insertada debe ser lo suficientemente robusta contra algunas operaciones de procesamiento de señales tales como: distorsiones geométricas incluyendo escalamiento, rotación, cambio de aspecto y transformaciones geométricas lineales, operaciones como contaminación por ruido, filtrado, compresión de video y por otro lado ataques basados en cuadros de video incluyendo promedio, eliminación e intercambio de cuadros de video.

Dentro de la literatura, se propusieron durante la última década varios algoritmos de marca de agua para video, éstos algoritmos se clasifican en tres categorías principales: algoritmos en el dominio de banda base, en los cuales la señal de marca de agua se inserta directamente en la secuencia original de cuadros de video antes del proceso de codificación (Liu y Zhao, 2010; Coria et al., 2008; Rajab et al., 2008); algoritmos en los que la señal de marca de agua se inserta durante el proceso de codificación (Kim et al., 2012; Lin et al. 2009; Noorkami y Mersereau, 2006) y algoritmos en los que la señal de marca de agua se inserta directamente en la secuencia codificada de video (Mansouri et al., 2009; Noorkami y Mersereau, 2008; Sridevi et al., 2010; Ling et al., 2011). Dentro del algoritmo de marca de agua para video propuesto por Liu y Zhao (2010), se aplica la transformada 1D DFT a un grupo de cuadros de video para obtener un dominio en el que se conserva la información espacial, y se obtiene la información temporal. Coria et al. (2008) insertan una secuencia de marca de agua a través de un árbol doble en el dominio de la transformada wavelet compleja para obtener robustez contra distorsiones geométricas. En Rajab et al. (2008) se propone un algoritmo de marca de agua robusto basado en la transformada discreta wavelet y la descomposición del valor singular (SVD).

Los algoritmos de marca de agua para video en los que la señal se inserta durante el proceso de codificación son naturalmente robustos contra los ataques de compresión del estándar que utilizan durante el proceso de inserción, sin incrementar la tasa de bits en las secuencias de video. En Kim et al. (2012), se propone un algoritmo para video H.264/AVC en que la marca de agua se inserta en el bit menos significativo (LSB) de los vectores de movimiento y del modo de predicción para los macro-bloques de tipo inter e intra respectivamente. Dentro del algoritmo propuesto en Lin et al. (2009), la marca de agua se inserta adaptando el número de coeficientes AC dentro de los bloques de luminancia. Noorkami y Mersereau (2006) proponen estimar regiones de movimiento, calculando la distribución espacial de movimiento de cuadros de video consecutivos y de esta forma una mayor cantidad de bits de marca de agua se insertan dentro de las regiones estáticas para evitar las degradaciones causadas por la señal de marca de agua.

Las técnicas que insertan la señal de marca de agua dentro de la secuencia codificada de video generalmente consumen un menor tiempo para llevar a cabo el proceso de inserción, sin embargo el número de bits de longitud de la señal de marca de agua es limitado debido a las altas tasas de compresión. En el artículo propuesto en Mansouri et al., (2009) se utiliza un análisis estadístico de los coeficientes en cada bloque para seleccionar las mejores posiciones para insertar la señal de marca de agua con el fin de evitar el ruido espacial, mientras que Noorkami y Mersereau, (2008), exploran la capacidad de los cuadros de video tipo P y el enmascaramiento temporal de señales de video comprimidas para aumentar la cantidad de bits de marca de agua a insertar. Así mismo en el algoritmo propuesto en Sridevi et al. (2010), la señal de marca de agua se inserta dentro de los coeficientes de crominancia de los cuadros de video de tipo I en el dominio de la DCT. Ling et al. (2011) proponen un esquema de marca de agua para video basado en características afines invariantes utilizando un detector de tipo Harris-Affine para obtener robustez contra distorsiones geométricas.

Tomando en cuenta las operaciones más comunes que se utilizan para eliminar las señales que protegen los derechos de autor en un material de video digital, la robustez contra el ataque de conversión de formatos de video debe considerarse al momento de diseñar un algoritmo de marca de agua eficiente. Entre las ventajas encontradas en los algoritmos que insertan la señal de marca de agua directamente en la trama codificada de video, se encuentra el bajo costo computacional y la posibilidad de ser muy precisos al insertar bits de marca de agua en regiones específicas del video, sin embargo, es posible generar desviaciones en la información codificada para la predicción espacial o temporal, provocando errores al momento de su decodificación. La posibilidad de adaptar la energía de marca de agua con criterios del dominio espacial es otra limitante relacionada con los algoritmos enfocados a la trama codificada de video. Adicionalmente, los algoritmos de marca de agua para video en los que la señal se inserta durante el proceso de codificación así como aquellos que insertan la señal de video dentro de la secuencia codificada se encuentran enfocados a ciertos formatos de video, provocando que en dichos algoritmos la señal de marca de agua sea a menudo vulnerable al ataque de conversión múltiple de formatos de video (Alattar et al.,2003). Por otro lado, utilizando la técnica de inserción directamente en la secuencia de cuadros de video se obtiene un costo computacional mayor, además de que es necesario insertar la señal de marca de agua con la energía suficiente para que ésta sobreviva los procesos de codificación de video, lo cual podría acarrear impactos en la calidad visual, pero que es posible resolver adaptando la energía de marca de agua con criterios del Sistema Visual Humano (SVH). No obstante, en este tipo de técnicas se puede obtener robustez contra la conversión de formatos de video. 

En este artículo se propone un algoritmo de marca de agua para video digital que se desarrolla en el dominio de la banda base cuyo principal objetivo es obtener robustez contra la conversión múltiple de formatos de video. El algoritmo propuesto se basa en el proceso de normalización de imágenes para obtener características geométricas invariantes de los cuadros de video y de esta forma obtener robustez frente a distorsiones geométricas. Se hace uso de tres criterios basados en el SVH para dotar de robustez a la señal de marca de agua mientras que se preserva la imperceptibilidad. El primer criterio se basa en las diferencias de  sensibilidad del SVH ante los componentes básicos de color, el segundo se apoya en la percepción de texturas por parte del SVH y el último criterio se fundamenta en la deficiencia del SVH para dar seguimiento a las regiones con mucho movimiento, el cual se determina a través de vectores de movimiento. Los resultados experimentales muestran la robustez del algoritmo frente a múltiples conversiones de formatos de video tales como DIV-X, WVC1, MPEG-1, MPEG-2, MPEG-4 y H.264 AVC; robustez frente a distorsiones geométricas incluyendo rotación, escalamiento, cambio de aspecto, transformaciones geométricas lineales, así como ante ataques comunes de procesamiento de señales y ataques comunes de video incluyendo eliminación, intercambio y promedio de cuadros de video. La imperceptibilidad de la señal de marca de agua dentro del algoritmo propuesto se evaluó en términos de dos métodos de evaluación de calidad de la imagen: relación pico de señal a ruido (PSNR) y el índice de similitud estructural (SSIM).

SISTEMA PROPUESTO

En esta sección se proporciona una descripción detallada de los procesos de inserción y detección de la marca de agua en el algoritmo propuesto.

Proceso de inserción de la marca de agua

El proceso de inserción de la señal de marca de agua está dividido en tres principales sub-procesos:  a) Cálculo de la energía de marca de agua basado en el SVH, b) Creación del patrón de marca de agua e c) Inserción de la marca de agua, los cuales se describen a detalle a continuación. La Figura 1 muestra un diagrama a bloques del proceso general de inserción de la marca de agua.

Cálculo de la energía de marca de agua basado en el SVH

Dentro del proceso de inserción de la marca de agua en el algoritmo propuesto se hace uso de tres criterios basados en el SVH para dotar de robustez a la señal de marca de agua mientras que se preserva la imperceptibilidad. El primer criterio consiste en utilizar la baja sensibilidad del ojo humano al componente azul, resultado de la descomposición de los cuadros de video en el modelo de color RGB (Rojo/Verde/Azul) lo cual constituye una ventaja para el esquema que será explicada con mayor detalle más adelante. El segundo criterio se basa en la diferencia de la sensibilidad del SVH a la percepción de regiones con detalle y a regiones planas de una imagen. Las propiedades más importantes del SVH para la codificación de imágenes son la sensibilidad a variaciones en la frecuencia, el enmascaramiento de texturas y de luminancia. La propiedad de enmascaramiento de texturas sugiere que cualquier distorsión en una imagen es percibida más fácilmente en regiones planas y de borde, que en regiones con muchas texturas (Lin y Jay, 2011). De esta forma, cada cuadro de video se divide en bloques de 8x8 pixeles a los cuales se les aplica la transformada DCT bidimensional. Los bloques se clasifican en bloques de textura, bloques planos y bloques de borde utilizando el algoritmo propuesto por Tong y Venetsanopoulos (1998) con el objetivo de adaptar el valor de energía de marca de agua para cada bloque dependiendo de su clasificación.

Fig.1: Sub-procesos de la inserción de la señal de marca de agua

El último criterio se basa en la deficiencia del SVH para dar seguimiento a las regiones con mucho movimiento. Al momento de observar un video, un espectador percibe la distorsión espacial en función del movimiento de la escena. La distorsión espacial es percibida con mayor facilidad en cuadros de video que generan menor movimiento en el contenido en comparación con aquellos de movimiento impredecible o de movimientos con gran aceleración (Chikkerur et al., 2011). Con el objetivo de explotar esta característica, cada cuadro de video se analiza tomando como referencia el cuadro de video anterior para clasificar regiones de movimiento y regiones estáticas utilizando el método propuesto en Cedillo et al. (2008).

Considerando lo anterior; cada una de las 20 secuencias de video utilizadas se someten al análisis de los dos últimos criterios del SVH, obteniendo una clasificación para cada bloque de 8x8 pixeles. Un bloque puede clasificarse como bloque plano, de borde o de textura dentro de una región estática o dentro de una región de movimiento. El valor de energía de marca de agua para cada condición se adaptó experimentalmente en función de dos valores. El primero es el error visual generado, procurando afectar lo mínimo posible la calidad visual de todas las secuencias de video utilizadas, medida a través del PSNR y el SSIM como se explica más adelante. El segundo valor es la tasa correcta de bits (BCR) obtenida en proceso de detección, que aumenta proporcionalmente con los valores de energía de inserción dotando de robustez al esquema pero impacta negativamente en la calidad visual de los cuadros de video. Así, cuando un bloque se clasifica como bloque plano dentro de una región estática, cualquier modificación en el mismo se percibe mayormente por el SVH, por lo que el cálculo experimental de los coeficientes concluye que dentro de un bloque con esta condición se debe insertar la mitad de la energía de la marca de agua original. Del mismo modo se encuentra adecuado un aumento en 0.5 para bloques de borde y de textura en regiones estáticas y del doble para regiones de movimiento. El resultado es mostrado en la Tabla 1, donde B8 corresponde a un bloque de 8x8 pixeles de un cuadro de video y Mbmov es un macro-bloque compuesto por cuatro bloques B8, clasificados como bloques de movimiento, Bplano, Bborde y Btext son bloques planos, bloques de borde y bloques de textura respectivamente.

Tabla 1. Coeficientes de energía de inserción de marca de agua

El sub-proceso de Cálculo de la energía de marca de agua basado en el SVH se describe a continuación:

1.

Obtener una versión en escala de grises de los cuadros de video originales para los tiempos t  y t-1 con una resolución de 8 bit/pixel.

2.

Cada cuadro de video se analiza con respecto al cuadro de video anterior para clasificarlo en regiones de movimiento y regiones estáticas. Aquellos macro-bloques que contengan vectores de movimiento de longitud mayor al promedio del cuadro de video se clasifican como regiones de movimiento (Cedillo et al., 2008).

3.

Dividir la versión en escala de grises del cuadro de video para el tiempo t en bloques de 8x8 pixeles con el objetivo de calcular la energía de marca de agua para cada bloque de acuerdo a la clasificación de movimiento y clasificación de texturas de dicho bloque propuesto por Tong y Venetsanopoulos (1998).

4.

Se crea el vector de energía de inserción de marca de agua α1, el cual se calcula asignando los valores de coeficiente de acuerdo a las condiciones de la Tabla 1 a cada bloque del cuadro de video.

La Figura 2 muestra dos cuadros de video consecutivos de la secuencia de video "Foreman", junto con su clasificación de texturas y los macro-bloques clasificados como regiones de movimiento.

Fig. 2: (a) y (b) son dos cuadros de video consecutivos de la secuencia de video "Foreman" (c) clasificación de texturas en bloques de textura (gris), bloques planos (negro) y bloques de borde (blanco) (d) macro-bloques clasificados como regiones de movimiento representados por flechas.

Creación del patrón de marca de agua

La Figura 3 muestra a detalle el sub-proceso de creación del patrón de marca de agua, el cual se describe a continuación:

1.

Obtener una versión en escala de grises del cuadro de video original con una resolución de 8 bits/pixel.

2.

Aplicar el proceso de normalización de imágenes a la versión en escala de grises del cuadro de video para obtener un cuadro de video normalizado.

3.

Generar un patrón bidimensional pseudo-aleatorio R de las mismas dimensiones que el cuadro de video original utilizando cualquier llave para generarlo. Debido a que el patrón R se utiliza únicamente como un soporte del patrón de marca de agua, es indistinto el valor de la llave que se utilice para su creación y por tanto no será necesario conservarlo.

4.

A partir del patrón R y el cuadro de video normalizado, crear una máscara pseudo-aleatoria MR con las mismas dimensiones y factor de rotación que el cuadro de video normalizado.

5.

Definir una región de marca de agua (WR) a partir del centro del patrón MR en la cual se insertará la señal de marca de agua. Para este caso, se determinó experimentalmente una región WR de 128 bloques de 8x8 pixeles. Esta definición determina la longitud del vector de marca de agua (n=128).

6.

Generar el vector de marca de agua que se insertará W=[w1,w2,…,wn] utilizando una llave de usuario secreta, donde wi = {1,-1}, i=1…n. El vector de marca de agua W se multiplica por un factor de ganancia α2 para generar el vector W ’ ={ α2wi | wi=1 o -1, i=1…n}, el cálculo del factor α2 se detalla más adelante.

7.

Ubicar la región de marca de agua WR y dividirla en bloques de 8x8 pixeles. Debido a que en una compresión de video agresiva el primer coeficiente AC1, del bloque DCT, sufre una menor pérdida de información en comparación con otros coeficientes de tipo AC y a que una modificación en el coeficiente DC no es viable debido al impacto visual que esto genera, el coeficiente AC1 de cada bloque de 8x8 pixeles se remplaza por un elemento del vector de marca de agua. Una vez realizado lo anterior se aplica la transformada IDCT a cada bloque para obtener finalmente el patrón MRW.

8.

Aplicar el proceso de normalización inverso al patrón MRW para obtener el patrón WP de las mismas dimensiones que el cuadro de video original.

Fig. 3: Sub-proceso de creación del patrón de marca de agua

Inserción de la marca de agua

Como se mencionó anteriormente, el primer criterio basado en el SVH toma ventaja de la baja sensibilidad del ojo humano al componente azul, resultado de la descomposición de los cuadros de video en el modelo de color RGB (Rojo/Verde/Azul). En la retina hay aproximadamente 7 millones de células de recepción de luz llamadas conos (Bennett, 2009), conocidos como L, M and S. Estos nombres se refieren a la sensibilidad de cada tipo de cono, clasificados como conos de longitud de onda L (larga), M (media) y S (corta). Los conos de tipo L son sensibles a las tonalidades rojas, los conos de tipo M son sensibles a tonalidades verdes, y los conos de tipo S responden a tonalidades azules. La relación en el número de conos L, M y S dentro de la retina es de 40:20:1, lo cual hace que el SVH sea menos sensitivo al color azul. Esta característica ha sido aprovechada en diversas investigaciones en el campo de las marcas de agua para video, como en el esquema propuesto por Liu y Zhao. (2010). Tomando en cuenta lo anterior y con el objetivo de proveer de imperceptibilidad al esquema, el algoritmo propuesto inserta la señal de marca de agua en el componente azul de cada cuadro de video en el modelo de color RGB. El sub-proceso de inserción de marca de agua se describe como sigue:

1.

El patrón WP se multiplica por el vector de energía de inserción de marca de agua α1, con lo cual se proporciona una fuerza de marca de agua calculada dinámicamente en función de la cantidad de movimiento y clasificación de textura de cada bloque sin causar distorsiones visuales en el cuadro de video. El resultado de esta multiplicación se inserta de forma aditiva dentro del componente azul Bo de cada cuadro de la secuencia de video original. Esta operación produce el componente marcado BW como se muestra en la ecuación (1).

Bw = Bo + (WP × α1) (1)

donde Bo y BW son los componentes original y  marcado de cada cuadro de la secuencia de video, respectivamente.

2. Los componentes rojo y azul originales se restauran con el componente marcado para obtener el cuadro de video marcado IW.

Proceso de extracción de la marca de agua

El proceso de extracción de la señal de marca de agua se realiza de la siguiente manera:

1.

Extraer los cuadros de video de la secuencia de video marcada y convertir cada cuadro de video al modelo de color RGB. Obtener el componente azul del cuadro de video con una resolución de 8 bits/pixel.

2.

Aplicar el proceso de normalización de imágenes al componente azul de cada cuadro de video marcado para obtener la versión normalizada de los cuadros de video marcados.

3.

De manera similar a la que se realizó en el proceso de inserción de la marca de agua, cada cuadro de video se divide en bloques de 8x8 pixeles y se localizan los bloques correspondientes a la región de marca de agua WR.

4.

Aplicar la transformada DCT a cada bloque de 8x8 pixeles correspondiente a la región de marca de agua WR y extraer el primer coeficiente de tipo AC (AC1) para formar el vector CW. Posteriormente a partir del vector CW se extrae el vector de marca de agua utilizando la ecuación (2).

ŵ = [w1, w2,…,wN-1, wN]

wk = sgn ( CWk ) (2)

donde wk es el valor de la marca de agua extraída del k-ésimo bloque y sgn corresponde la función signo. La Figura 4 muestra el proceso de extracción de la marca de agua.

RESULTADOS EXPERIMENTALES

Para evaluar el esquema propuesto, se utilizaron 20 secuencias de video con formato CIF a 30 FPS. Todas las secuencias de video tienen al menos 150 cuadros de video los cuales se encuentran disponibles en (ASU, 2011). El algoritmo propuesto se evalúa desde el punto de vista de imperceptibilidad y robustez de la marca de agua. Los resultados presentados corresponden al promedio de las pruebas individuales de imperceptibilidad y robustez de todas las secuencias de video.

Fig. 4: Proceso de extracción de la marca de agua

Configuración de los parámetros utilizados

El factor de ganancia de marca de agua α2 se incrementa desde 1 hasta 9.5 en intervalos de 0.5 con el objetivo de medir la relación entre este factor y la imperceptibilidad de la marca de agua dentro del material de video. Con este fin, el PSNR entre el cuadro de video original y el cuadro de video marcado se calcula para cada valor de α2. La Figura 5 (a) muestra el valor del PSNR calculado entre el cuadro de video original y el cuadro de video marcado con el algoritmo propuesto. De esta figura se deduce que la marca de agua insertada es imperceptible ya que el valor del PSNR es aproximadamente de 50dB con un valor de α2 igual a 2.5. La Figura 5(b) muestra el valor de BCR de la secuencia de bits de marca de agua extraídos respecto de la secuencia original de bits insertados sin ningún tipo de ataque. A partir de esta figura podemos observar que utilizando un valor de α2 igual a 2.5 el promedio del BCR es aproximadamente de 0.98.

Es necesario establecer un valor de umbral T, el cual se aplica al valor obtenido de BCR a partir de la secuencia de bits de marca de agua extraída para determinar si una señal de marca de agua se encuentra o no presente dentro de un cuadro de video. Considerando una distribución binomial con probabilidad de éxito igual a 0.5, la probabilidad de falsa alarma Pfa para n bits de datos de marca de agua está dada por la ecuación (3). De esta forma, el valor del umbral T debe controlarse con el objetivo de que el valor de Pfa sea menor que un valor predeterminado (Bas et al., 2002).

donde n es el número total de bits de marca de agua, cuyo valor se encuentra definido igual a 128 de acuerdo a lo explicado anteriormente. De esta forma, la probabilidad de falsa alarma debe ser menor que Pfa =10-5 para una detección confiable, y así un valor adecuado de umbral normalizado TN (=T/n) es igual a 0.7.

Fig. 5: (a) Valor de PSNR para secuencias de video marcadas con diferentes valores de energía de marca de agua α2 y (b) Valores de BCR para secuencias de video marcadas sin ningún tipo de ataque

Imperceptibilidad de la marca de agua

La imperceptibilidad del algoritmo propuesto se evalúa haciendo uso del PSNR  y el SSIM propuesto en Wang et al. (2004).

El valor del PSNR calculado entre el cuadro de video original y el cuadro de video marcado con el algoritmo propuesto se muestra en la Figura 5(a). El valor del índice SSIM se evalúa en un rango de [-1.0, 1.0] y constituye una medida que toma en cuenta la distorsión perceptual. El factor de ganancia de marca de agua α2 se incrementa desde 1 hasta 9.5 en intervalos de 0.5 con el objetivo de medir la relación entre este factor y la imperceptibilidad de la marca de agua medida a través del SSIM, los resultados se muestran en la Figura 6.  Ambas figuras muestran que los cuadros de video marcados mantienen muy buena calidad visual.

Fig. 6: Medición del valor de SSIM para el algoritmo propuesto

Robustez de la marca de agua

El algoritmo de marca de agua para video propuesto se diseño para resistir operaciones legítimas así como ataques maliciosos. Con el objetivo de medir la robustez de la marca de agua insertada, las secuencias de video marcadas se atacan utilizando tareas de procesamiento de señales comunes como lo son contaminación por ruido impulsivo y ruido Gaussiano, filtro pasa bajas, escalamiento volumétrico, ataques geométricos incluyendo rotación, remover columnas y renglones, escalamiento, deformación de planos paralelos, cambio de aspecto y distorsiones geométricas lineales así como ataques comunes de video incluyendo eliminación, intercambio y promedio de cuadros de video. De igual forma, las conversiones a formato de video DIV-X, WVC1, MPEG-1, MPEG-2, MPEG-4 y H.264 AVC se consideran para la evaluación de la robustez de la marca de agua.

El criterio de evaluación de robustez es el tasa correcta de bits (BCR). Cuanto mayor sea el valor del BCR significa una mayor robustez de la marca de agua, en el entendido de que el valor del BCR debe sobrepasar el valor del umbral normalizado TN determinado anteriormente. Los resultados de robustez se comparan con los reportados en el algoritmo propuesto en Ling et al. (2011), el cual es un algoritmo robusto de características similares al propuesto en este artículo.

Ataques de procesamiento de señales

Cada secuencia de marca de agua se sometió a ataques de procesamiento de señales incluyendo contaminación por ruido impulsivo y ruido Gaussiano, filtro pasa bajas y escalamiento volumétrico. Los resultados experimentales se muestran en la Figura 7. La Figura 7 (a) muestra que el algoritmo propuesto es en gran medida robusto contra el ataque de contaminación por ruido Gaussiano, en el cual el valor de la desviación estándar es incrementado de 0 a 30 obteniendo para todos los casos valores muy altos de BCR. Para el ataque de escalamiento volumétrico, los valores del factor de escalamiento se evaluaron desde 0.3 hasta 1.8. Los resultados se presentan en la Figura 7(b) en donde se aprecia la robustez del algoritmo propuesto contra este ataque. La Figura 7(c) muestra la robustez del algoritmo propuesto contra el ataque de filtro pasa bajas, mostrando nuevamente un buen desempeño contra este ataque. Por último se evaluó la robustez del algoritmo propuesto contra la distorsión producida por el ataque de contaminación por ruido impulsivo. Figura 7 (d) muestra una fuerte resistencia del algoritmo propuesto frente a este tipo de ataque encontrando un valor de BCR superior a 0.9 cuando el valor de la densidad de ruido es de 0.12.

Fig. 7: Robustez del algoritmo de marca de agua para video propuesto en comparación con el algoritmo propuesto por Ling contra los ataques de (a) Contaminación por ruido gaussiano, (b) Escala volumétrica, (c) Filtro pasa-bajas y (d) Contaminación por ruido impulsivo.

Ataques geométricos

La robustez contra ataques geométricos es uno de los requerimientos más complejos dentro del campo de investigación de las marcas de agua. No obstante, los ataques geométricos son comunes dentro del campo de las marcas de agua orientadas a video. Las evaluaciones de robustez del algoritmo propuesto para ataques geométricos incluyen pruebas contra escalamiento, rotación, remover columnas y renglones, cambio de aspecto, deformación de planos paralelos y distorsiones geométricas lineales. Los resultados de estas evaluaciones se listan en la Tabla 2 en conjunto con los obtenidos por el método de Ling bajo iguales condiciones.

Los resultados globales mostrados en la Tabla 2 revelan que el algoritmo propuesto puede resistir  ataques geométricos comunes tales como escalamiento, rotación, remover columnas y renglones, cambio de aspecto, deformación de planos paralelos y transformaciones geométricas lineales.

La evaluación de resultados muestra que en la mayoría de los casos el algoritmo propuesto obtiene un desempeño superior al método propuesto por Ling. Existen algunos casos tales como la deformación de planos paralelos y las distorsiones geométricas lineales en los que el desempeño del algoritmo de Ling es ligeramente superior al algoritmo propuesto, sin embargo en todos los casos el valor de BCR claramente supera el valor de umbral normalizado definido TN (0.7).

Para proveer una evaluación más completa del algoritmo propuesto, se llevó a cabo la evaluación de ataques geométricos con otros factores, por ejemplo, el ataque de rotación con ángulos de 45° y 90° obteniendo valores de BCR de 0.88 y 0.94 respectivamente, el valor de BCR decrece cuando el ángulo de rotación se acerca a 45° a causa de una mayor distorsión introducida por la interpolación. El desempeño del algoritmo propuesto también se evaluó para el ataque de remover columnas y renglones con un factor de 5 y 10, obteniendo para ambos casos un valor de BCR igual a 0.86.

Tabla 2.  Robustez del algoritmo propuesto contra ataques geométricos

Ataques orientados a cuadros de video

La eliminación, el promedio y el intercambio de cuadros de video son ataques intencionales para una secuencia de video. Este tipo de ataques explotan la redundancia temporal de una secuencia de video y tratan de remover la marca de agua insertada sin causar una degradación visual significante en la señal de video. Debido a que en el algoritmo propuesto se inserta la secuencia de marca de agua a lo largo de toda la secuencia de video en cada cuadro, la marca de agua insertada es naturalmente robusta ante este tipo de ataques. La evaluación de resultados muestra valores de BCR iguales a 0.98 para los ataques de eliminación, el promedio y el intercambio de cuadros de video.

Derivado de que la señal de marca de agua se inserta redundantemente en cada cuadro de video, es importante definir una estrategia que le permita ser robusto contra los ataques de confabulación entre cuadros de video. Para resolver lo anterior, puede introducirse un detector de escenas que permita insertar señales de marca de agua con diferentes llaves que pertenezcan a un mismo usuario para cada escena. Adicionalmente se debe tener en cuenta que en el algoritmo propuesto la energía de marca de agua se calcula dinámicamente para cada cuadro de video en función de la cantidad de movimiento y la clasificación de texturas asociada al mismo, por lo que la señal de marca de agua no es necesariamente la misma para cada cuadro de video, haciendo más difícil para un atacante llevar a cabo el ataque de confabulación.

Conversión Múltiple de Formatos de Video

El ataque de múltiple conversión de formatos de video consiste en decodificar la trama de video para obtener la secuencia original de cuadros de video y posteriormente codificar dicha secuencia utilizando un codificador diferente con el objetivo de obtener una trama de video con un nuevo formato. Para detectar la presencia de la señal de marca de agua dentro de una trama de video, dicha trama debe decodificarse y llevar a cabo el proceso de extracción de marca de agua explicado anteriormente. El ataque de múltiple conversión de formatos de video se evalúa utilizando seis de los más comunes codificadores de formatos: DIV-X, WVC1, MPEG-1, MPEG-2, MPEG-4 y H.264 AVC. La Tabla 3 muestra los resultados obtenidos para el algoritmo propuesto y el método de Ling, simulados bajo las mismas condiciones, ante el ataque de múltiple conversión de formatos de video, en la tabla se colocan el codificador empleado, el contenedor de video, la tasa de compresión obtenida, la tasa de bits y los cuadros de video por segundo (FPS). La tasa de compresión es utilizada para medir la compresión física de la cantidad de información antes y después de codificarse, y se define mediante la ecuación (4).

De la Tabla 3, podemos observar que el algoritmo propuesto tiene un excelente desempeño contra la múltiple conversión de formatos de video para todos los codificadores a los cuales se sometió. La tasa de bits presentada permite una alta calidad visual en la secuencia de video así como extraer la señal de marca de agua insertada correctamente. En todos los casos el valor del BCR excede el umbral normalizado definido anteriormente. De esta forma podemos concluir que derivado de que es posible detectar la presencia de la señal de marca de agua después de múltiples cambios de formato de video, el algoritmo propuesto es robusto ante este tipo de ataque. La evaluación de resultados muestra que en todos los tipos de conversión de formato de video, el algoritmo propuesto obtiene un mejor desempeño al método propuesto por Ling. Lo anterior se atribuye a la inestabilidad encontrada en el método de detección de puntos de tipo Harris-Affine en el que se basa el método propuesto en Ling et al. (2011), ante los cambios en la calidad de la imagen de video producida  por el cambio múltiple de formato.

Tabla 3. Robustez del algoritmo propuesto contra la múltiple conversión de formatos de video

Con el objetivo de evaluar la robustez del algoritmo propuesto a las variaciones en la tasa de bits, la Figura 8 presenta los resultados de la conversión de video con tasas de bits que varían entre 4 Mbps hasta 256 Kbps llevando a cabo el proceso de decodificación y re-codificación explicado anteriormente para todos los formatos de video. De la Figura 8 podemos observar un excelente desempeño para tasas de bits de 4 Mbps y hasta 512 Kbps para todos los formatos de video obteniendo valores de BCR superiores al umbral definido. Con tasas de bits de 256 Kbps, los codificadores de tipo MPEG-1, MPEG-2, MPEG-4 y WC1 reportan valores de BCR que no alcanzan el umbral definido.

Fig. 8: Robustez del algoritmo propuesto contra la variación en la tasa de bits

La Tabla 4 muestra los valores del BCR resultado de la evaluación del algoritmo propuesto con diferentes tasas de bits para los seis codificadores de video, mostrando además los valores de tasa de compresión y la medición de la calidad visual a través del PSNR y el índice SSIM. De la Tabla 4 podemos observar que cuando la tasa de bits decrece de 4Mbps hasta 256 Kbps, no es posible detectar la presencia de señal de marca de agua para algunos codificadores, sin embargo hay que tomar en cuenta que se presenta una tasa de compresión muy elevada, lo cual ocasiona que la calidad visual del video sea degradada obteniendo un valor de PSNR menor de 30 dB y por lo tanto dejando al material de video sin un valor comercial.

Tabla 4. Tasa de compresión y calidad visual con diferentes tasas de bits

Capacidad del detector

Como se mencionó anteriormente, el número de bits de marca de agua tienen una distribución binomial, dada por la ecuación (5).

donde n es el número total de bits de la marca de agua, i es el número de bits extraídos correctamente, T es el valor del umbral y Ps es la probabilidad de éxito.

Para un cuadro de video sin marcar, los bits extraídos pueden asumirse como una prueba de Bernoulli con probabilidad de éxito igual a 0.5, por lo tanto la probabilidad de falsa alarma con un una valor umbral de T se define por la ecuación (3). La probabilidad de detección de la marca de agua, cuando el cuadro de video contiene la marca de agua generada con la llave del usuario se calcula con la ecuación (5) utilizando diferentes valores de probabilidad de éxito Ps. El valor de la probabilidad de éxito Ps depende de los ataques que el cuadro de video marcado haya recibido, lo cual es determinado por la ecuación (6).

El número de bits correctos se obtienen después de que el cuadro de video se expuso a algún tipo de ataque. La probabilidad de éxito Ps de la señal de marca de agua contra algunos ataques se muestra en la Tabla 5.

Tabla 5. Probabilidades de éxito del algoritmo ante tres diferentes dificultades de detección

Las curvas características de operación del detector (ROC) para la detección de la marca de agua con diferentes Ps se muestran en la Figura 9. De dichas curvas ROC, la marca de agua insertada es suficientemente robusta a la compresión DIV-X con una tasa de bits de 4 Mbps; sin embargo la capacidad del detector desciende cuando el cuadro de video se codifica con la codificación WVC1 con una tasa de bits de 256 Kbps. La razón de que la capacidad descienda se explica arriba.

Fig. 9 Curvas características de operación del detector (ROC)

CONCLUSIONES

En este artículo se propone un algoritmo de marca de agua para video digital robusto ante múltiples conversiones de formatos de video, ataques geométricos y de procesamiento de señales.  Para mejorar la robustez en el proceso de detección de la señal de marca de agua al mismo tiempo de preservar la calidad de imagen del video, la marca de agua se inserta combinando un proceso de adaptación dinámica utilizando información perceptual y vectores de movimiento y utilizando el dominio de la DCT. Para obtener robustez contra los ataques de tipo geométrico tales como el escalamiento, la rotación y el cambio de aspecto, se utiliza el proceso de normalización para obtener características geométricas invariantes de los cuadros de video. Los resultados experimentales con respecto a la degradación visual causada en el video por el proceso de inserción de la señal de marca de agua muestran que ésta resulta imperceptible ya que se obtienen valores de PSNR de casi 50dB y un SSIM muy cercano a 1, tomando en cuenta que el SSIM es un buen indicador de la degradación de la calidad en la imagen. La robustez del algoritmo propuesto se evaluó utilizando una amplia gama de ataques obteniendo para todos ellos un muy buen desempeño, los cuales se compararon con los reportados por un algoritmo robusto de características similares al propuesto en este artículo. Para determinar si la señal de marca de agua se encuentra presente dentro de una trama de video, se definió un umbral normalizado TN el cual se calculó utilizando una distribución binomial.

La simulación de resultados muestra la robustez del algoritmo ante la conversión de seis formatos de video: DIV-X, WVC1, MPEG-2, MPEG-2, MPEG-4 y H.264 AVC, distorsiones geométricas incluyendo pruebas contra escalamiento, rotación, remover columnas y renglones, cambio de aspecto, deformación de planos paralelos y distorsiones geométricas lineales así como ataques comunes de procesamiento de señales y ataques basados en cuadros de video, es decir, eliminación, promedio e intercambio de cuadros de video. En el ataque de cambio de codificación de formatos de video se muestra que para ciertos tipos de codificación al cambiar la tasa de bits hasta 256Kbps, la robustez de la marca de agua se ve comprometida. Sin embargo, se muestra igualmente que en esta situación se presenta una tasa de compresión muy elevada, lo cual ocasiona que la calidad visual del video se vea degradada, obteniendo un valor de PSNR menor de 30 dB y por lo tanto se deja el material de video sin un valor comercial.

AGRADECIMIENTOS

Los autores agradecen al Consejo Nacional de Ciencia y Tecnología (CONACyT), al Instituto Politécnico Nacional y a la Universidad Nacional Autónoma de México por el apoyo otorgado para la realización de este trabajo.

NOTACION

 

REFERENCIAS

Alattar A. M., E. T. Lin y M. U. Celik, Digital Watermarking of Low Bit-Rate Advanced Simple Profile MPEG-4 Compressed Video, IEEE Transactions on Circuits and Systems for Video Technology, 13(8), 787–800 (2003)        [ Links ]

Arizona State University (ASU), Video Trace Library, http://trace.eas.asu.edu/yuv/index.html, Acesso: Diciembre de 2011        [ Links ]

Bas P., J. M. Chassery y B. Macq, Geometrically invariant watermarking using feature points, IEEE Trans. on Image Processing, 11(9), 1014-1028 (2002).         [ Links ]

Bennett M. Designing For An Individual's Eyes: Human-Computer Interaction, Vision And Individual Diferences. Tésis de Doctorado, Facultad de Ingeniería, Ciencias Físicas y Matemáticas, Colegio Universitario de Dublin, Irlanda (2009).         [ Links ]

Cedillo A., M. Nakano, H. Perez y L. Rojas, Watermarking technique for MEPG video using visual sensibility and motion vector (spanish),  Información Tecnológica, 19(2),  81-92 (2008)        [ Links ]

Chikkerur S., V. Sundaram, M. Reisslein, y L. J. Karam, Objective Video Quality Assessment Methods: A Classification, Review, and Performance Comparison, IEEE Transactions on Broadcasting, 57(2), 165 –182, (2011).         [ Links ]

Coria L. E., M. R. Pickering, P. Nasiopoulos y R. K. Ward, A video watermarking schme based on the dual-tree complex wavelet transform, IEEE Trans. Information Forensics and Security, 3(3), 466-474 (2008)        [ Links ]

Deshpande N., A. Rajurkar y R. Manthalkar, Review of robust video watermarking algorithms, Int. J. Comput. Sci. Info. Secur. (IJCSIS), 7(3), 237-246 (2010)        [ Links ]

Kim T., K. Park y Y. Hong, Video Watermarking Technique for H.264/AVC, Optical Enginnering, Society of Photo Optical Instrumentation Engineers (SPIE), ISSN: 1560-2303 (En línea) 51(4), (2012). http://opticalengineering.spiedigitallibrary.org/journal.aspx  Acceso: 17 de septiembre (2012)        [ Links ]

Lin S.D., C. Chuang, M. Chen y H. Meng, A Novel Video Watermarking Scheme in H.264/AVC Encoder, Fourth International Conference on Innovative Computing, Information and Control (ICICIC), 357-360, Kaohsiung, Taiwan, 7 al 9 de Diciembre (2009)        [ Links ]

Lin W.  y K.C.C. Jay, Perceptual visual quality metrics: A survey, Jounal of Visual Communication and Image Representation, 22(4), 297-312 (2011).         [ Links ]

Ling H., L. Wang, F. Zou, Z. Lu y P. Li, Robust video watermarking based on affine invariant regions in the compressed domain, Signal Processing,  91(8), 1863-1875, (2011).         [ Links ]

Liu Y. y J. Zhao, A new video watermarking algorithm based on 1D DFT and Radon transform, Signal Processing, 90(2), 626-639 (2010)        [ Links ]

Molina, E., CEO of USA Video Interactive Corp. (USVO), Video Piracy Brief, http://www.perfspot.com/docs/doc.asp?id=12975 (2008) Acesso: Septiembre de 2012        [ Links ]

Mansouri A., F. Torkamani, y A. Mahmoudi, Motion Consideration in H.264/AVC Compressed Video Watermarking, Proceedings of the 10th Pacific Rim Conference on Multimedia: Advances in Multimedia Information Processing, 877-886, Bangkok, Thailand, 15 al 18 de Diciembre (2009)        [ Links ]

Noorkami M. y R. M. Mersereau, Digital Video Watermarking in P-Frames With Controlled Video Bit-Rate Increase, IEEE Trans. Inf. Forensics Security, 3(3), 441–455 (2008)        [ Links ]

Noorkami M. y R. M. Mersereau, Improving  perceptual quality in video watermarking using motion estimation, IEEE International Conference on Image Processing, 520-523, Atlanta, EUA, 8 al 11 de Octubre (2006)        [ Links ]

Rajab, L., T. Al-Khatib y A. Al-Haj, Hybrid DWT-SVD video watermarking, International Conference on Innovations in Information Technology, 588-592, Al Ain, United Arab Emirates, 16 al 18 de Diciembre (2008)        [ Links ]

Sridevi T., B. Krishnaveni, V. V. Kumar, y Y. R. Devi, A video watermarking algorithm for mpeg videos,  Proceedings of the 1st Amrita ACM-W Celebration on Women in Computing in India, 35:1–35:6, Nueva York, USA, 16 al 17 de Septiembre (2010)        [ Links ]

Tong H.Y. y A. N. Venetsanopoulos, A Perceptual model for JPEG applications based on block classification, texture masking and luminance masking, Proceedings of International Conference on Image Processing, 428-432, Chicago, EUA, 4 al 7 de Octubre (1998)        [ Links ]

Wang Z., A. C. Bovik, H. R. Sheikh y E. P. Simoncelli, Image quality assesment: from error visibility to structural similarity, IEEE Trans. on Image Processing, 13(4), 600-612 (2004)        [ Links ]

Recibido Jul. 11, 2012; Aceptado Sep. 06, 2012; Versión final recibida Sep. 19, 2012

Creative Commons License All the contents of this journal, except where otherwise noted, is licensed under a Creative Commons Attribution License