Ir al contenido

PGD | §2.9 – Contextos de aplicación: Captura de imágenes

< §2.8 – Histograma de una imagen

Como ya observamos, la ventaja principal de la digitalización de imágenes radica en las enormes posibilidades de proceso que esta tecnología permite. Sin pretender una clasificación general y absoluta, podemos reconocer varios contextos de aplicación para el procesamiento digital de imágenes:

  • Captura de imágenes desde el mundo real;
  • Representación y visualización;
  • Impresión de imágenes
  • Corrección y mejora, o realce y detección de características;
  • Reconocimento de patrones;
  • Síntesis de imágenes;
  • Análisis de atributos;
  • Compresión de imágenes.

Para limitarnos a los usos más frecuentes en la gráfica, nosotros nos ocuparemos de los tres primeros contextos de esta enumeración, es decir, la captura, representación e impresión de imágenes digitales, y veremos en cada uno la aplicación de los conceptos precedentes.

Captura y síntesis de imágenes

Existen diversos contextos donde se produce una imagen digital, relacionados con la naturaleza del objeto, escena o fenómeno a digitalizar y de la tecnología empleada en la materialización de la imagen resultante. En esencia, podemos reducir estos contextos a dos escenarios diferentes de obtención: la captura y la síntesis.

En el proceso de captura se trata de obtener un equivalente digital de un objeto o escena real perceptible por un ser humano con visión normal y por lo tanto formado por luz visible. En estos casos los dispositivos a emplear deben ser sensibles a la luz en el mismo rango de longitudes de onda del sistema visual humano y deben ser capaces de crear datos digitales que permitan al menos su visualización directa en un monitor o similar. Se pueden presentar a su vez dos casos de captura digital:

  • Captura directa: la imagen se obtiene directamente exponiendo un dispositivo sensible a la luz a la escena en cuestión. Esta modalidad es hoy la más frecuente, y es la que emplean las cámaras digitales o dispositivos equivalentes a tal fin (celulares, tabletas);
  • Captura indirecta: la imagen se obtiene mediante la digitalización de otra imagen ya capturada previamente en algún soporte analógico, típicamente a partir de una película o de un impreso, procedimiento conocido como escaneo, y es empleado por escáneres o dispositivos con la misma funcionalidad (fotocopiadoras y equipos multifunción).

En otras aplicaciones, en cambio, la imagen digital se sintetiza a partir de fuentes de información no necesariamente relacionadas con la captura de luz visible (por ejemplo fuentes de radiaciones en longitudes de onda no visibles), o bien sin relación con fuente de luz o radiación alguna. También aquí distinguimos dos casos:

    • Síntesis por adquisición: la imagen se produce a partir de información obtenida de fuentes de diverso origen, cuyos datos provienen de alguna magnitud física continua, tanto niveles de intensidad de algún tipo de radiación (visibles o no) como otras (temperaturas, velocidades, presiones, etc) que han sido muestreadas y digitalizadas para luego “asociarlas” a un color o canal específico del la imagen final. Un caso típico son las imágenes de radar con fines meteorológicos, donde por ejemplo la temperatura o la altura de las nubes, o componentes de radiación no visibles de la imagen (infrarrojos), se suman a la información en el rango visible y se “codifican” mediante un mapeo a ciertas colores e intensidades específicos.
synthetic
Imagen meteorológica sintética mostrando los niveles presentes de vapor de agua en la atmósfera (Origen: SMN)
    • Síntesis directa: a diferencia de los tres casos anteriores, son imágenes producidas directamente en un ambiente digital y por lo tanto no se aplica el procedimiento de muestreo o cuantificación. Ejemplos típicos son la generación de una imagen a partir de un modelo 3D, proceso conocidos como renderizado (aplicaciones CAD, animación por computadora), o la conversión de imágenes en formato vectorial a pixeles (exportación de PDF a JPEG o TIFF, interpretación de PostScript) usualmente llamado rasterizado.
synthetic-render
Imagen sintética producida por renderizado de un objeto en una aplicación 3D.

En este curso sólo analizaremos la captura de una imagen, ya que los procesos de síntesis tienen que ver más con aplicaciones técnicas y de video que con la gráfica; sin embargo, el proceso de rasterizado tendrá importancia al momento de estudiar las tecnologías PostScript y PDF.

Naturalmente, la captura de una imagen del mundo real será posible si contamos con un dispositivo que sea apropiadamente sensible al color e intensidad de la luz externa y pueda hacerlo en las dos dimensiones que abarca. Veamos las soluciones tecnológicas que se han desarrollado para este fin.

El sensor CCD

Esta tecnología, denominada dispositivo acoplado por carga o CCD (charge-coupled device), originalmente desarrollada para la construcción de memorias, permite la conducción de cargas eléctricas a través de la superficie de un semiconductor mediante transferencias entre zonas vecinas controladas por electrodos, un paso a la vez, aplicando pulsos de corriente en una secuencia apropiada.

Principio de funcionamiento de un CCD. Un voltaje aplicado en secuencia en cada electrodo logra desplazar una carga eléctrica. En un CCD de imagen, la carga se genera por exposición a la luz.

En una memoria, la carga procede de un electrodo externo que suministra la carga a almacenar; en un CCD para captura de imágenes, en cambio, la carga eléctrica a desplazar se genera por el efecto fotoeléctrico. Una vez expuesto el dispositivo a la luz, las diferentes cargas acumuladas (según la intensidad de luz en distintos puntos sensibles, llamados celdas) se desplazan secuencialmente a un electrodo exterior donde se “leen”. Un CCD puede ser plano, capaz de capturar simultáneamente toda una imagen, o bien lineal, capturando sólo una línea de muestras de luz por vez. Usando el primero es posible obtener una imagen en un solo paso, y es el empleado en las cámaras digitales conocidas (tanto profesionales como domésticas, celulares y tabletas). Los CCD de tipo lineal requieren un “barrido” de la imagen a capturar y son los empleados en equipos de fax y en los escáneres planos.

Captura directa de imágenes mediante cámaras digitales

Una cámara digital utiliza como elemento sensor un CCD plano, lo que permite la captura de la imagen en un solo paso. Sin embargo cada celda de un CCD es sensible solamente a la intensidad de luz; para obtener información de color es necesario recurrir a un solución, llamada matriz de filtros de color o CFA (Color Filter Array) con la cual cada celda se hace sensible sólo a un color determinado (rojo, verde o azul).

Bayer
Ejemplo de la matriz de filtros de color más sencilla (filtro de Bayer). Nótese que se destinan el doble de celdas al verde que al rojo o al azul. En cada celda la información RGB se obtiene a partir del color de la misma y de la interpolación de los colores de las celdas vecinas (demosaicing).

La disposición más simple de estos filtros de color, conocida como filtro de Bayer (desarrollado por Bruce Bayer, de Kodak), consiste en alternar los tres colores mencionados, de manera que existan el doble de celdas con filtro verde respecto a las de filtro rojo y azul. Hay dos razones para esto (que quedarán mejor aclaradas en el curso de Gestión de Color): por un lado, es en la zona de los verdes donde se concentra la mayor cantidad de información de brillo de la imagen; por el otro, la visión humana es más sensible a cambios o alteraciones en el brillo que en el color. Esto justifica tener más celdas sensibles al verde (que proporcionarán información de intensidad) que de rojo o azul, que junto a las primeras completarán la información de color.

Para obtener una imagen RGB normal con este sistema, cada celda (que dará origen al pixel correspondiente) obtiene los valores RGB a partir de la intensidad de la luz de esa celda para su canal y por interpolación de la de sus vecinos para los otros dos canales. Este procedimiento, denominado demosaicing (algo así como “deshacer el mosaico”), tiene lugar en el procesador interno de la cámara digital y debe repetirse para cada pixel; como resultado se obtiene la imagen RGB final que se guarda en un archivo (generalmente JPEG) en la memoria del equipo.

demosaicing
Procedimiento de demosaicing para obtener los datos RGB completos de una celda en un CCD con filtro de Bayer. En el ejemplo se muestra en la celda central (filtro verde) cómo se obtienen los valores de R y B faltantes para completar el G. Este simple algoritmo (promedio de intensidades vecinas) se muestra sólo a los fines didácticos, el cálculo real es diferente y puede abarcar a pixeles más allá de los vecinos inmediatos.

Desde el punto de vista digital, una cámara de este tipo toma muestras de una escena real; luego sólo puede hablarse de resolución en el sentido de resolver objetos de la imagen (es decir, la primera de las acepciones ya analizadas). Desde luego, no es este el uso que interesa en general en gráfica.

Ya que sólo disponemos de un conjunto de muestras, no tenemos una resolución puesto que no tenemos dimensiones métricas —un ancho y alto en mm, por ejemplo—. Luego, los únicos parámetros digitales de la imagen obtenida son las muestras en sentido horizontal y vertical NW y NH, y en consecuencia el número N = NWNH. Este último (total de muestras capturadas o pixeles) es el que especifica el fabricante, comúnmente llamado número de megapixeles, pixeles efectivos (effective pixels), tamaño de imagen (image size), o también de manera inapropiada “resolución”, de la cámara:

El número de megapixeles de una cámara se define como
el total de muestras efectivas entregadas por el equipo, dividido por 1.000.000:

Número de megapixeles = NW • NH / 1.000.000

Por ejemplo, si el CCD me entrega una imagen que luego del proceso interno es de 3.000 x 2.000 pixeles, la cámara se comercializa como de 6.000.000 de pixeles o 6 megapixeles.

Fijado el tamaño al que se empleará esta imagen, podemos conocer la resolución resultante y decidir si la cantidad de muestras entregadas por la cámara son suficientes o no. Si en el ejemplo anterior necesitamos imprimir esa imagen con un ancho de 15 cm, la resolución efectiva será

R = NW / W = 3.000 pixeles / 150 mm = 20 ppm = 508 ppi,

es decir, más que suficiente; en la práctica sería necesario incluso reducir el número de muestras. En cambio, si usáramos la misma imagen en un póster de 60 cm de ancho, el mismo cálculo nos da

R = NW / W = 3.000 pixeles / 600 mm = 5 ppm = 127 ppi,

con lo cual la misma imagen resulta ahora insuficiente para este fin. Obsérvese que no tiene sentido hablar de resolución de la cámara digital; sólo aparece una resolución real al decidir en qué espacio se dispondrán los pixeles, es decir, al momento de su materialización.

Ejemplo:

Se necesita una imagen para la tapa de una revista, cuyas dimensiones son 22 x 30 cm. Si la resolución requerida es 300 ppi, y la imagen se obtiene mediante una cámara digital, determinar el número mínimo de megapíxeles del equipo a emplear.

Para simplificar el problema, supondremos que las proporciones de la imagen entregada por la cámara coinciden con las de nuestra tapa; luego debemos simplemente calcular el número total de muestras de una imagen tal, que son las que en última instancia debe proveer la cámara. Aproximando 300 ppi a 12 ppm, para facilidad de cálculo, tendremos:

N = W • H • R2 = 220 mm • 300 mm • (12 ppm)2 = 9.504.000 pixeles.

En la práctica, deberemos emplear una cámara de 10 megapíxeles o superior. —

Captura indirecta de imágenes mediante escaneo

Para digitalizar una imagen ya capturada en un formato analógico (típicamente papel o película, llamado original fotográfico) se emplean equipos denominados escáneres (scanners) donde la imagen física se dispone de manera apropiada para recibir una luz controlada y así capturar la información de brillo y color en forma electrónica para su digitalización posterior. Según el tipo de original, la fuente de luz debe ubicarse del mismo lado que el dispositivo sensor (originales opacos) o en el lado opuesto (originales transparentes).

En la gráfica se emplean dos tipos de escáner:

  • El más reciente de ellos, el escáner de cama plana o escáner plano (flatbed scanner) utiliza la tecnología CCD como elemento de captura. En este equipo el original es barrido en una dimensión (escáner mesa móvil y óptica fija) o en las dos dimensiones (escáner X-Y, mesa fija y óptica móvil) típicamente por un CCD trilineal, esto es, tres CCD lineales cada uno dedicado a uno de los canales R, G y B. En este equipo el muestreo viene dado por construcción del CCD (el número y tamaño de las celdas) y por el movimiento mecánico relativo entre la mesa con el original y la óptica (el barrido). La cuantificación se produce sobre la corriente resultante del CCD.
  • El más antiguo, el escáner de tambor o escáner rotativo (drum scanner) utiliza un dispositivo diferente, llamado tubo fotomultiplicador o PMT (photo-multiplier tube).  El PMT es un tubo o válvula electrónica sensible a la luz, que posee una abertura en la que se dispone una placa fotosensible capaz de liberar electrones al recibir un haz luminoso. Los electrones liberados son tanto más numerosos cuanto mayor sea la intensidad de luz incidente; para convertir esos electrones en una corriente útil, se incorpora dentro del tubo un sistema de placas que actúa como amplificador, que dan origen al nombre de este dispositivo[1]. En el otro extremo del mismo, un conjunto de electrodos llevan al circuito exterior la corriente resultante. El escáner rotativo aplica esta tecnología de la forma siguiente: se dispone el original fotográfico sobre un cilindro de acrílico transparente, que luego se hace girar a gran velocidad mientras un conjunto óptico recibe luz proveniente de la imagen. La luz así capturada es analizada por 3 PMT idénticos (uno por cada canalRGB) y toma muestras sincrónicas con el giro del tambor, hasta completar una línea de barrido. Un sistema mecánico desplaza luego la óptica para repetir el proceso con la línea siguiente, hasta completar la imagen. De esta manera, el muestreo se obtiene de forma totalmente mecánica.

    Esquema de un tubo fotomultiplicador (PMT).

Cada una de estas tecnologías tiene, naturalmente, su punto débil. Por ejemplo, el escáner rotativo es generalmente más costoso que el plano, mientras que este último no suele alcanzar la calidad de digitalización del primero. De todas formas, desde el punto de vista gráfico, el proceso de escaneo que nos interesa analizar será válido para uno u otro tipo de escáner; luego podremos dar algunas precisiones respecto de como se comparan entre sí.

El escaneo desde el punto de vista digital

En un escáner profesional, cualquiera sea su tipo, se presenta la siguiente situación. Se dispone de un original (es decir, una imagen ya capturada y materializada en la forma de negativo, fotocolor, impreso, etc.) y se desea obtener una imagen digital. Normalmente, se sabe de antemano lo siguiente:

  • El tamaño al que se pretende usar la imagen digitalizada. Por lo común, ese tamaño es el mismo o, caso el más frecuente, mayor que el del original;
  • La resolución de esa imagen resultante. Este valor está definido por la aplicación que se hará de la misma; por ejemplo, podría ser de 300 ppi para impresión tradicional.

Para ir fijando ideas, comencemos con un ejemplo numérico. Tenemos un original fotográfico tipo negativo de 35 mm —cuyo tamaño útil de imagen es en realidad de 36 mm x 24 mm— que debe ser escaneado en posición horizontal para lograr una imagen digital de 180 mm de ancho (y por lo tanto 120 mm de alto si mantenemos su proporción). Para completar el problema, la resolución de esa imagen resultante debe ser 254 ppi, es decir, 10 ppm.

En estas condiciones, es fácil calcular el número de muestras que el escáner debe tomar. En efecto, sabemos ya que en sentido horizontal, por ejemplo, necesitamos obtener (aquí, tanto W como R se refieren a la imagen resultante):

NW = W • R = 180 mm • 10 pixeles/mm = 1800 pixeles.

Esto significa que nuestro escáner debe capturar 1800 muestras a lo largo de 36 mm; es decir, el escáner debe emplear una resolución de

R = NW / W = 1800 pixeles / 36 mm = 50 pixeles/mm = 1270 ppi.

donde ahora W se refiere a la medida del original fotográfico. Para evitar una posible confusión llamaremos dimensiones de entrada a las del original fotográfico, mientras que llamaremos dimensiones de salida a las de la imagen digital deseada. Nótese que para cumplir con lo especificado, un trabajo de escaneo de 254 ppi se convierte en uno de 1270 ppi. Para comprender la razón de esto, hagamos nuevamente el cálculo, pero de esta forma:

R =
1800 pixeles
36 mm
=
180 mm • 10 pixeles/mm
36 mm
=
180 mm
36 mm
10 pixeles/mm
(ampliación) (resolución)

donde observamos que el primer factor del último miembro no es más que la relación entre el tamaño deseado y el real, es decir la ampliación. Por lo tanto: para realizar el trabajo solicitado, nuestro escáner debe emplear una resolución que es igual a la ampliación requerida multiplicada por la resolución de la imagen final.

Ahora estamos en condiciones de plantear esto de manera formal. Denominaremos respectivamente HS y WS al alto y ancho de la imagen obtenida o tamaño de salida, y RS a su resolución, llamada análogamente resolución de salida. Por otro lado, el original fotográfico tendrá un alto y ancho que llamaremos HE y WE, es decir, un tamaño de entrada[2]. Si llamamos RE a la resolución que efectivamente el escáner debe emplear o resolución de entrada, el ejemplo anterior nos muestra que:

Ampliación:
A = H/ HE ó también A = W/ WE

Resolución de entrada en un escáner:
 RE = A • RS

Cuanto mayor sea el tamaño final y la resolución de salida deseados, tanto mayor será la resolución de entrada impuesta al escáner. Sin embargo, desde el punto de vista constructivo, todo equipo tiene un límite en la resolución con la que puede capturar muestras de un original, que depende, entre otras cosas, de aspectos mecánicos y ópticos. El límite de la resolución de entrada de un escáner particular se denomina resolución óptica o ROPT, y pone un techo a la máxima ampliación y/o resolución de salida que se desea obtener. En concreto:

Para que un trabajo dado sea posible en un cierto escáner debe cumplirse:
RE ≤ ROPT
Por lo tanto, si
A • RS > ROPT
el trabajo no puede hacerse en ese escáner.

Esta resolución óptica es un parámetro que el fabricante del equipo debe proveer, y constituye uno de los datos que permiten juzgar su calidad[3]. Valores típicos de resolución óptica en un equipo plano de alta gama se ubican alrededor de 3000 ppi, pudiendo llegar excepcionalmente hasta los 5000 ppi. Compárese con la resolución de un escáner rotativo, que puede superar fácilmente los 10.000 ppi.

En escáneres de escritorio de bajo costo suele darse la resolución mediante dos números, por ejemplo 600 x 1200 ppi. En estos casos sólo el valor menor corresponde a la resolución óptica, ya que la otra es un valor obtenido por interpolación mecánica, desplazando el CCD en pasos muy finos en la dirección perpendicular al CCD lineal.

Por último, en cuanto a la cuantificación de la luminosidad capturada, los equipos actuales son capaces de entregar entre 12 bits por canal (escáneres de 36 bits) y 16 bits por canal (equipos de 48 bits). No obstante, en general esta mayor profundidad sólo está disponible para el software de operación del equipo, entregando como archivo final una imagen RGB estándar de 24 bits (8 bits por canal). Opcionalmente, los sistemas profesionales pueden crear también imágenes en CMYK, obtenidas por conversión digital con parámetros seleccionables en el software de operación.

Ejemplo:

Una diapositiva de 4 x 5 cm debe escanearse para obtener una imagen final de 40 x 50 cm a 250 ppi. ¿Es posible obtenerla en un equipo cuya resolución óptica, según el fabricante, es de 3.000 ppi?

Para averiguar la respuesta, debemos obtener la resolución de entrada requerida y compararla con la resolución óptica del escáner. Según lo visto, la ampliación es 10 en este caso; luego,

RE = A • RS = 10 • 250 ppi = 2.500 ppi < 3.000 ppi.

Por ser inferior a la resolución óptica, el trabajo puede hacerse en este escáner (asumiendo, naturalmente, que el equipo puede escanear transparencias).

Continuación del ejemplo:

La misma diapositiva debe escanearse en el mismo equipo, pero ahora se pide una resolución final de 300 ppi a un tamaño de 48 x 60 cm. Determinar si es posible realizarlo.

La ampliación ahora es de 48 cm /4 cm = 12, por lo que la misma fórmula nos dice que

RE = A • RS = 12 • 300 ppi = 3.600 ppi > 3.000 ppi.

Por ser la resolución de entrada superior a la óptica del equipo, este escaneo no puede realizarse.

En este último caso, que el trabajo no pueda hacerse significa que no se pueden obtener ópticamente las muestras necesarias para cumplir con las condiciones impuestas; ello no impide escanear al máximo tamaño posible para después resamplear la imagen resultante en Photoshop u otro programa análogo para llegar al tamaño solicitado, que es la única forma de superar esta limitación sin pasar a un equipo superior.

Actividades para el capítulo §2.9

  1. De los ejemplos anteriores se deduce que al subir la exigencia de un tamaño de 40 x 50 cm a 250 ppi hasta 48 x 60 a 300 ppi, hemos pasado por algún límite que separa los casos posibles de los que no. Dejando la resolución de salida en 250 ppi, calcule cuál es el tamaño máximo que es posible obtener en ese escáner.
  2. Ahora considere ampliar el mismo original hasta 48 x 60 cm. Determine cuál es la máxima resolución de salida que es posible obtener.
§2.10 – Contextos de aplicación: Visualización de imágenes >

1 Dos efectos físicos intervienen en el funcionamiento de un PMT: el efecto fotoeléctrico, responsable de la generación de electrones a partir de luz, y la emisión secundaria, que suministra la amplificación.
2 Los términos entrada y salida se emplean desde el punto de vista del escaneo como proceso que toma un original fotográfico como entrada y nos entrega una imagen digital a la salida.
3 Otro de los parámetros de importancia (aunque no de naturaleza digital) es la densidad máxima o DMAX, que es la máxima densidad que el sensor puede diferenciar; densidades mayores a ese máximo serán interpretadas como negro. Este parámetro juzga el nivel de detalle que puede capturarse en las áreas de sombras de la imagen. En un escáner plano de buena calidad, DMAX es normalmente del orden de 3.5 o superior, mientras en uno rotativo este valor puede ser 4 o mayor.