Machine Learning en la detección forense de imágenes modificadas
Publicado: 14 Ago 2020, 23:06
Articulo 1: Constrained Convolutional Neural Networks: A New Approach Towards General Purpose Image Manipulation Detection
Descripción
Problema:
Pese a que, la investigación en forense de imágenes ha tenido desarrollos importantes, estos enfoques aún sufren importantes deficiencias. Con frecuencia, se desarrollan e incorporan nuevas operaciones de edición en software de edición como Adobe Photoshop. Después de eso, los investigadores deben identificar las huellas dejadas por estas nuevas operaciones y diseñar algoritmos de detección asociados. Por lo que, se deben ejecutar múltiples pruebas forenses para autenticar una imagen. Esto complica mucho el proceso, pues requiere de complejas tareas, como fusionar los resultados de múltiples pruebas forenses y controlar la tasa general de falsa alarma entre varios detectores forenses.
Solución:
La arquitectura propuesta, MISLnet, puede aprender automáticamente a detectar múltiples tipos de edición de imágenes directamente desde los datos. Esto elimina la necesidad de un análisis humano difícil y lento para diseñar características de detección forense. Los resultados muestran que el método propuesto puede lograr 99,97% precisión con cinco operaciones de manipulación diferentes utilizando datos a gran escala.
Las principales contribuciones del artículo son las siguientes:
• Proponemos una arquitectura CNN: MISLnet
• Presentamos nuestra propuesta capa convolucional restringida
Realizamos una evaluación experimental a gran escala de la arquitectura MISLnet
Proceso
La capa convolucional restringida se coloca al comienzo de una CNN diseñada para realizar una tarea forense. Esto sirve para suprimir el contenido de una imagen (ya que los errores de predicción en gran medida no contienen contenido de imagen) y proporciona a la CNN características forenses de bajo nivel. Las capas más profundas en la CNN aprenderán características de detección de manipulación de alto nivel de estas características forenses de bajo nivel.
Arquitectura de la CNN propuesta:

Para evaluar la confiablidad del modelo, se definieron los siguientes parámetros a alterar en las imágenes:
• Operación de edición Parámetro
• Filtrado medio (MF)
• Desenfoque gaussiano (GB) con adaptativo σ=1.1
• Ruido Gaussiano Blanco Aditivo (AWGN)
• Muestreo (RS) usando interpolación bilineal
• Compresión JPEG
Resultados
Luego de 1000 iteraciones de entrenamiento, se realizó un test con 2.5 millones de imagenes, se observó que el modelo presentó la siguiente matriz de confusión para cuando se modificaron los parámetros indicados.
Se utiliza la CNN entrenada para clasificar cada una de las imágenes en el conjunto de datos de prueba. La tasa general de identificación de manipulación de la CNN fue 99,66%. Se identificó con una precisión típicamente mayor que 99% a excepción de las imágenes originales y re-muestreadas que se detectaron con una precisión de 98,70% y 98,87% respectivamente.
Conclusiones
• Se requirió una cantidad muy elevada de iteraciones el poder conseguir tal margen de acierto que indican, esto requerirá grandes cantidades de tiempo y dinero.
• No se evaluó la situación en la que el modelo este sobreaprendiendo.
• Es bastante llamativo el beneficio que ofrece esta CNN para detectar todo tipo de imágenes modificadas, independiente del tipo de modificación que presente.
• Las posibilidades que ofrece la capa convolucional son todavía desconocidas, amerita investigar más sobre este tema.
Articulo 2: A multi-purpose image forensic method using densely connected convolutional neural networks
Descripción
Problema:
En la última década, el análisis forense multimedia ha sido un área de investigación activa y se han propuesto numerosas técnicas forenses ciegas para detectar operaciones de procesamiento de imágenes como la mejora de imágenes, filtrado medio, remuestreo y compresión.
Muchas investigaciones extraen estas características y diseñar clasificadores para detectar estadísticamente los rastros que quedan en una imagen. Sin embargo, hay inconvenientes importantes a tener en cuenta: 1) La extracción de características y el diseño del clasificador no pueden optimizarse conjuntamente. 2) Las características artificiales específicas se diseñan manualmente para operaciones específicas. 3) No son robustas contra la compresión JPEG.
Solución:
En este artículo, se propone un método forense multipropósito basado en CNN para detectar 11 operaciones típicas de procesamiento de imágenes. En lugar de incluir una capa de preprocesamiento específica, se diseña la arquitectura de red básica y el patrón de conectividad para garantizar que la CNN propuesta sea capaz de extraer características relacionadas con la manipulación de forma adaptativa para fines forenses. Se consideró cuidadosamente los componentes vitales de la arquitectura en el diseño de red, incluido el número de capas convolucionales, el tamaño de los núcleos convolucionales, las activaciones no lineales y el tipo de capa de agrupación.
Proceso
Los autores empiezan comentando algunos de los que consideran las principales operaciones usadas para el tratamiento de imágenes modificadas. Estas son:
• Detección de enmascaramiento de enfoque
• Detección de mejora de contraste
• Detección de filtrado espacial
• Detección de remuestreo
• Detección de compresión JPEG
• Detección de múltiples operaciones
Todos estos métodos aportan información que los autores utilizan como reformación el desarrollo del modelo CNN que plantean.
Se pasa a definir también las redes neuronales convolucionales como herramienta del análisis forense, explicando como el modelo propuesto presenta ventajas a los desarrollados hasta la fecha en cuanto a rendimiento y nivel de certeza.
Finalmente, se pasa a explicar el modelo de CNN propuesto:


Se observa que el primer bloque denso cuenta con 4 capaz, el segundo con 2, al igual que el tercero, y dentro de capa bloque, las capaz están conectadas mutuamente, de allí el nombre de esta red convolucional propuesta. Se observa que cada capa tiene los mismos 3 procesos, variando entre ellos las dimensiones según la profundidad de la capa.
Resultados
Se realizaron las siguientes 11 operaciones de modificación:
• Mejora espacial
o Afilado de máscara de enfoque (UMS)
o Corrección gamma (GC)
o Ecualización de histograma (HE)
• Filtrado espacial
o Filtrado de mediana (MF)
o Filtrado de Wiener (WF)
o Filtrado gaussiano (GF)
o Filtrado promedio (AF)
• Remuestreo
o Escala (S)
o Rotación (R)
• Compresión con pérdida
o JPEG
o JPEG 2000 (JPEG2)
Se tuvo una base de datos de 40000 imágenes, las cuales, fueron modificadas, por lo que se pasó a tener 80000. El modelo entrenó con 48000 imágenes (24000 pares) elegidas aleatoriamente y se validó el modelo con 12000 imágenes (6000 pares), usando estas para saber cuándo detener el entrenamiento.
Se obtienen resultados satisfactorios (más del 92%) para todas las operaciones de procesamiento de imágenes y la precisión de detección promedio es del 98.09%. También se observa que el método propuesto funciona casi perfectamente en la detección de algunas
operaciones, por ejemplo, filtrado medio (MF), filtrado Wiener (WF), filtrado gaussiano
(GF) y filtrado promedio (AF). También comparamos el rendimiento con un método
tradicional y tres métodos basados en CNN mencionados en la sección.
Conclusiones
• El gobierno Chino limita bastante el acceso a la información del modelo.
• Se requiere una cantidad inmensa de data para el entrenamiento
• Se requerirá mucho tiempo para el entrenamiento
• Les resultados esperados tendrán un nivel bastante elevado de acierto
Referencias
Artículo 1: https://ieeexplore.ieee.org/document/8335799
Artículo 2: https://doi.org/10.1007/s11554-019-00866-x
Descripción
Problema:
Pese a que, la investigación en forense de imágenes ha tenido desarrollos importantes, estos enfoques aún sufren importantes deficiencias. Con frecuencia, se desarrollan e incorporan nuevas operaciones de edición en software de edición como Adobe Photoshop. Después de eso, los investigadores deben identificar las huellas dejadas por estas nuevas operaciones y diseñar algoritmos de detección asociados. Por lo que, se deben ejecutar múltiples pruebas forenses para autenticar una imagen. Esto complica mucho el proceso, pues requiere de complejas tareas, como fusionar los resultados de múltiples pruebas forenses y controlar la tasa general de falsa alarma entre varios detectores forenses.
Solución:
La arquitectura propuesta, MISLnet, puede aprender automáticamente a detectar múltiples tipos de edición de imágenes directamente desde los datos. Esto elimina la necesidad de un análisis humano difícil y lento para diseñar características de detección forense. Los resultados muestran que el método propuesto puede lograr 99,97% precisión con cinco operaciones de manipulación diferentes utilizando datos a gran escala.
Las principales contribuciones del artículo son las siguientes:
• Proponemos una arquitectura CNN: MISLnet
• Presentamos nuestra propuesta capa convolucional restringida
Realizamos una evaluación experimental a gran escala de la arquitectura MISLnet
Proceso
La capa convolucional restringida se coloca al comienzo de una CNN diseñada para realizar una tarea forense. Esto sirve para suprimir el contenido de una imagen (ya que los errores de predicción en gran medida no contienen contenido de imagen) y proporciona a la CNN características forenses de bajo nivel. Las capas más profundas en la CNN aprenderán características de detección de manipulación de alto nivel de estas características forenses de bajo nivel.
Arquitectura de la CNN propuesta:
Para evaluar la confiablidad del modelo, se definieron los siguientes parámetros a alterar en las imágenes:
• Operación de edición Parámetro
• Filtrado medio (MF)
• Desenfoque gaussiano (GB) con adaptativo σ=1.1
• Ruido Gaussiano Blanco Aditivo (AWGN)
• Muestreo (RS) usando interpolación bilineal
• Compresión JPEG
Resultados
Luego de 1000 iteraciones de entrenamiento, se realizó un test con 2.5 millones de imagenes, se observó que el modelo presentó la siguiente matriz de confusión para cuando se modificaron los parámetros indicados.
Se utiliza la CNN entrenada para clasificar cada una de las imágenes en el conjunto de datos de prueba. La tasa general de identificación de manipulación de la CNN fue 99,66%. Se identificó con una precisión típicamente mayor que 99% a excepción de las imágenes originales y re-muestreadas que se detectaron con una precisión de 98,70% y 98,87% respectivamente.
Conclusiones
• Se requirió una cantidad muy elevada de iteraciones el poder conseguir tal margen de acierto que indican, esto requerirá grandes cantidades de tiempo y dinero.
• No se evaluó la situación en la que el modelo este sobreaprendiendo.
• Es bastante llamativo el beneficio que ofrece esta CNN para detectar todo tipo de imágenes modificadas, independiente del tipo de modificación que presente.
• Las posibilidades que ofrece la capa convolucional son todavía desconocidas, amerita investigar más sobre este tema.
Articulo 2: A multi-purpose image forensic method using densely connected convolutional neural networks
Descripción
Problema:
En la última década, el análisis forense multimedia ha sido un área de investigación activa y se han propuesto numerosas técnicas forenses ciegas para detectar operaciones de procesamiento de imágenes como la mejora de imágenes, filtrado medio, remuestreo y compresión.
Muchas investigaciones extraen estas características y diseñar clasificadores para detectar estadísticamente los rastros que quedan en una imagen. Sin embargo, hay inconvenientes importantes a tener en cuenta: 1) La extracción de características y el diseño del clasificador no pueden optimizarse conjuntamente. 2) Las características artificiales específicas se diseñan manualmente para operaciones específicas. 3) No son robustas contra la compresión JPEG.
Solución:
En este artículo, se propone un método forense multipropósito basado en CNN para detectar 11 operaciones típicas de procesamiento de imágenes. En lugar de incluir una capa de preprocesamiento específica, se diseña la arquitectura de red básica y el patrón de conectividad para garantizar que la CNN propuesta sea capaz de extraer características relacionadas con la manipulación de forma adaptativa para fines forenses. Se consideró cuidadosamente los componentes vitales de la arquitectura en el diseño de red, incluido el número de capas convolucionales, el tamaño de los núcleos convolucionales, las activaciones no lineales y el tipo de capa de agrupación.
Proceso
Los autores empiezan comentando algunos de los que consideran las principales operaciones usadas para el tratamiento de imágenes modificadas. Estas son:
• Detección de enmascaramiento de enfoque
• Detección de mejora de contraste
• Detección de filtrado espacial
• Detección de remuestreo
• Detección de compresión JPEG
• Detección de múltiples operaciones
Todos estos métodos aportan información que los autores utilizan como reformación el desarrollo del modelo CNN que plantean.
Se pasa a definir también las redes neuronales convolucionales como herramienta del análisis forense, explicando como el modelo propuesto presenta ventajas a los desarrollados hasta la fecha en cuanto a rendimiento y nivel de certeza.
Finalmente, se pasa a explicar el modelo de CNN propuesto:
Se observa que el primer bloque denso cuenta con 4 capaz, el segundo con 2, al igual que el tercero, y dentro de capa bloque, las capaz están conectadas mutuamente, de allí el nombre de esta red convolucional propuesta. Se observa que cada capa tiene los mismos 3 procesos, variando entre ellos las dimensiones según la profundidad de la capa.
Resultados
Se realizaron las siguientes 11 operaciones de modificación:
• Mejora espacial
o Afilado de máscara de enfoque (UMS)
o Corrección gamma (GC)
o Ecualización de histograma (HE)
• Filtrado espacial
o Filtrado de mediana (MF)
o Filtrado de Wiener (WF)
o Filtrado gaussiano (GF)
o Filtrado promedio (AF)
• Remuestreo
o Escala (S)
o Rotación (R)
• Compresión con pérdida
o JPEG
o JPEG 2000 (JPEG2)
Se tuvo una base de datos de 40000 imágenes, las cuales, fueron modificadas, por lo que se pasó a tener 80000. El modelo entrenó con 48000 imágenes (24000 pares) elegidas aleatoriamente y se validó el modelo con 12000 imágenes (6000 pares), usando estas para saber cuándo detener el entrenamiento.
Se obtienen resultados satisfactorios (más del 92%) para todas las operaciones de procesamiento de imágenes y la precisión de detección promedio es del 98.09%. También se observa que el método propuesto funciona casi perfectamente en la detección de algunas
operaciones, por ejemplo, filtrado medio (MF), filtrado Wiener (WF), filtrado gaussiano
(GF) y filtrado promedio (AF). También comparamos el rendimiento con un método
tradicional y tres métodos basados en CNN mencionados en la sección.
Conclusiones
• El gobierno Chino limita bastante el acceso a la información del modelo.
• Se requiere una cantidad inmensa de data para el entrenamiento
• Se requerirá mucho tiempo para el entrenamiento
• Les resultados esperados tendrán un nivel bastante elevado de acierto
Referencias
Artículo 1: https://ieeexplore.ieee.org/document/8335799
Artículo 2: https://doi.org/10.1007/s11554-019-00866-x