Читать книгу Técnicas de análisis de imagen, (2a ed.) - José F. Pertusa Grau - Страница 10
Оглавление3. Análisis de imagen asistido por ordenador
3.1 Orígenes del análisis de imagen
A pesar de la importancia que han alcanzado los métodos cuantitativos basados en el análisis de imagen en la investigación biológica, estas técnicas no surgieron alrededor de las necesidades de la biología sino que son consecuencia de las necesidades que tenía la industria metalúrgica de disponer de métodos fiables y rápidos para el control de la calidad de los aceros.
Las plantas siderometalúrgicas producen aceros de diversas calidades que, obviamente, se venden a precios diferentes. Las variedades del acero dependen, básicamente, de la aleación del hierro con muy diversos elementos, entre los que ocupa un lugar preponderante el carbón. Tradicionalmente se determinaba la calidad de un acero por la proporción y el tamaño de las partículas de carbono en el interior del hierro, lo que se estimaba midiendo el tamaño medio de las inclusiones no metálicas en el hierro y su cantidad relativa en la aleación. Así, la industria del acero había creado una serie de patrones de calidad que relacionaban estas características estructurales con las propiedades fisicoquímicas del material y que se vendían a precios diferentes.
Para llevar a cabo la estima de las características estructurales se seguía el protocolo de trabajo largo y tedioso del método de la pesada (véase capítulo 2). Para la determinación del contenido de carbón de las muestras de acero, los técnicos del laboratorio ya contaban con una herramienta inestimable. Basándose en la propuesta de Delesse (1847), que se refiere a que «en un sólido bifásico, la proporción del área que ocupa una fase en una sección es igual a la fracción de volumen que ocupa la misma materia en el conjunto del sólido», los técnicos podían extrapolar el resultado del análisis de una muestra a todo el acero de ese lote. Por tal principio, era suficiente determinar qué proporción de la imagen microscópica estaba ocupada por el carbono y cuál estaba ocupada por el hierro.
A pesar de que el problema se resolvía adecuadamente, el método era muy lento porque la validación de los datos suponía un largo proceso de fotografiado, revelado, recortado y pesado, repitiendo la operación tantas veces como fuera necesario, tomando un cierto número de campos microscópicos, para validar estadísticamente los resultados. La seguridad del dato dependía del número de repeticiones, por lo que a la fiabilidad se le oponía la laboriosidad.
Para simplificar el proceso, la industria siderúrgica utilizaba un método alternativo generalizado que consistía en la comparación de fotografías de secciones de acero con una serie de plantillas de calidad conocida. Un grupo de técnicos especializados se encargaba de diagnosticar la calidad, lo que traía como consecuencia importantes diferencias entre centros de producción y entre técnicos de cada planta, debido a lo mucho de pericia y subjetividad que encerraba el método. Por tal motivo, y para evitar reclamaciones de los clientes, se solía rebajar la calidad final declarada, lo que traía aparejado pérdidas económicas importantes ya que se vendían aceros de calidades superiores como aceros de menor calidad. Este hecho fue lo que impulsó la investigación de métodos de análisis que permitiesen determinar las calidades de los aceros de la manera más objetiva posible; una importante coincidencia que completó el escenario necesario para la entrada de los primeros métodos analíticos de la imagen fue la aparición de la televisión y su incorporación a la instrumentación científica.
Teniendo en cuenta los avances que se han ido sucediendo en la técnica y el pensamiento científico, la historia del análisis de imagen se puede dividir en tres fases y unos prolegómenos.
Los prolegómenos se pueden situar alrededor de los años 50, cuando la televisión aún no había acabado de entrar en las aplicaciones tecnológicas. En aquel marco tecnológico surge el primer aparato para el análisis de imagen, basado en un sensor móvil que podía recorrer una fotografía dando saltos al azar. El sensor registraba los niveles de luz de los diversos puntos tomados aleatoriamente (por esta particular forma de trabajar se denominó flying spot, punto volante, a esta técnica de análisis). La probabilidad de que el punto volante registrase un campo oscuro u otro claro era proporcional a la fracción de área ocupada por la parte oscura y la parte clara de la imagen.
3.2 Los primeros analizadores
La primera fase histórica comenzó cuando la casa Metals Research Ltd sacó al mercado el equipo llamado Quantitative Television Microscope model A (abreviado como Quantimet A o QTM A). El avance que presentaba este equipo respecto al flying spot era la incorporación de un sistema de televisión; esto aceleraba notablemente el proceso de medida del contenido de incrustaciones metálicas, ya que la imagen se transfería mediante una cámara de vídeo desde el microscopio al televisor, con lo que se ahorraba el largo proceso fotográfico requerido con anterioridad. Las imágenes microscópicas se podían medir directamente sobre la misma pantalla.
El sistema se complicó al dotar al equipo QTM A de una memoria en la que mantener almacenada cierta información perteneciente a la imagen captada por la cámara. El nuevo modelo, llamado QTM B es, en cierta manera, el auténtico pionero de los modernos sistemas de análisis de imagen.
La forma de trabajar de estos revolucionarios modelos era rudimentaria, aunque eficaz. La utilización de la pantalla de televisión permitía eliminar el sensor móvil del flying spot, utilizando el propio mecanismo de barrido del tubo de rayos catódicos de la pantalla para medir el nivel de iluminación de los puntos de la imagen. La incorporación de la memoria permitió comparar una línea con la siguiente, al posibilitar almacenar la información de la primera línea de barrido antes de realizar el barrido de la siguiente. El cambio brusco de luz a oscuridad indicaba una transición de fase (un «evento» en la terminología de la época). Cuando dos eventos se encontraban separados el tiempo aproximado que tardaba el sensor en recorrer una línea completa, se podría considerar que se encontraba ante el borde de un objeto; igualmente, la altura del objeto podría ser medida como el número de líneas contiguas en el que aparecía el mismo evento.
El problema que se planteaba con QTM B era que los objetos de forma estrellada se contaban tantas veces como puntas tenía la estrella, con lo que se hacía una sobrevaloración del número de cuerpos oscuros presentes en la muestra.
A pesar de las limitaciones se llegaron a vender más de dos mil unidades, mayoritariamente en el sector siderometalúrgico.
Hacia el año 1968 las casas alemanas Leitz y Zeiss sacaron al mercado sendos equipos analógicos, Clasimat y MicroVideomat, que resolvían parcialmente el problema de las puntas de las estrellas mediante una nueva técnica que denominaron recuento topológico de objetos: mientras los objetos no presentasen agujeros en su interior, se contaban como elementos con independencia de su forma externa.
Al año siguiente la compañía norteamericana Bausch & Lomb sacó al mercado el analizador QMS, que era capaz de almacenar en memoria una imagen completa, a pesar de que la memoria de un ordenador de entonces no tenía capacidad para acumular una imagen en blanco y negro. Lo que hacía QMS era almacenar en la memoria las coordenadas (el número de línea vertical y tiempo desde el inicio de la línea) de los puntos en los que se producía transición brusca de claroscuro, o viceversa, es decir, un evento. Además, QMS incorporaba un lápiz óptico que permitía señalar sobre la pantalla un punto para marcar el objeto al que pertenecía u obtener cualquier información de dicho punto.
3.3 La era de la digitalización
Los avances se sucedían precipitadamente en estas fechas, tanto más para competir con un producto que aún estaba por perfeccionar que por acaparar un mercado todavía no preparado para absorber el gran coste económico que suponía un equipo de análisis de imagen. De esta manera, a finales de 1969 la compañía Metals Research Ltd comercializó el modelo Quantimet 720 que incorporaba un sistema especial de barrido del sensor óptico, con un cristal oscilante que hacía que el sensor avanzara a saltos de una longitud igual a la amplitud del campo de medida del propio sensor. Eso hacía que la imagen de estudio resultante fuese una especie de mosaico constituido por una serie de unidades mínimas de tamaño conocido y geometría cuadrada, que se llamó pixel (procedente del término ingles picture element).
Aunque en aquel año los requerimientos técnicos necesarios para almacenar en memoria una imagen compuesta por la adición de centenares de píxeles con muy diversos niveles de gris era algo inalcanzable, este intento fue la base de la digitalización de la imagen, que ha llegado a convertirse en la manera corriente de trabajo de cualquier sistema actual de análisis de imagen. Hasta entonces, todas las medidas que se realizaban de una imagen fotográfica o procedente de vídeo se realizaban respecto al conjunto de la imagen; es decir, se podía determinar la porción de área ocupada por una fase determinada o el número de objetos que constituían una fase concreta (los objetos oscuros, por ejemplo). Gracias a la digitalización y al abaratamiento de los componentes de memoria de los ordenadores se pudieron desarrollar operaciones que permitían tomar diversas medidas de objetos individuales dentro de las imágenes y almacenar las medidas de los objetos separadamente. Esto supuso el inicio de una importante herramienta para el reconocimiento de los objetos basada en sus características morfológicas.
Aquella novedad dio paso a otras potentes herramientas, diseñadas para el análisis de texturas y la identificación de los objetos, que se denominaron morfología matemática, y que se basaban en la evolución de las imágenes binarias.
La irrupción de la casa Joyce-Loebl con su equipo Magiscan supuso la incorporación a la estructura física del ordenador de muchas de las funciones que hasta entonces eran controladas a través de programas.
Fig. 3.1 Magiscan (versión de 1982).
3.4 La expansión de la memoria y el tratamiento de grises
A comienzos de los años 80, la firma alemana Kontron desarrolló un sistema de análisis de imagen que incluía el digitalizador como parte de los periféricos del sistema. Aquella máquina, el IBAS (acrónimo de Imagen Build Analisys System), supuso un antes y un después en el mundo de análisis. Hasta hoy en día los sistemas incluyen sistemáticamente dos criterios que provienen de aquel modelo: la digitalización como parte de la arquitectura del sistema y la definición de la paleta de color como apoyo, en forma de máscaras, a la segmentación binaria. Diversas casas comerciales comienzan a mejorar sus equipos en los años 80 como resultado del importante abaratamiento de los componentes informáticos. La profundidad de la imagen creció hasta seis y ocho bits, con lo que se podían representar las imágenes hasta con 256 niveles de gris e, incluso, almacenar en memoria cuatro, ocho o más imágenes simultáneamente.
Gracias a las innovaciones técnicas se desarrollaron algoritmos para el manejo de los niveles de gris que permitían clasificar los objetos por sus características cromáticas y los niveles de iluminación, además de por sus características morfológicas.
Fig. 3.2 Modelo IBAS2000 de KONTRON (versión de 1986).
Estamos trabajando, en el momento actual, con sistemas de análisis de imagen semejantes al modelo IBAS de Kontron, con las mejoras técnicas de nueva factura que ha permitido la microinformática, la miniaturización y la muy alta velocidad de los nuevos procesadores integrados. Ahora debemos enfrentarnos a los nuevos soportes de almacenamiento de la información; la digitalización de la imagen se está apoderando de los más simples sistemas de captura debido a que las nuevas cámaras de fotografía digital ya son un hecho corriente en la instrumentación biológica. Las nuevas imágenes son cada vez más voluminosas por la mejora en la resolución y el abaratamiento de los equipos, lo que está obligando a que los sistemas de almacenamiento de datos sean, a su vez, cada vez más grandes.
Fig. 3.3 Quantimet 600 de Leica (modelo de 1992).
3.5 Lo analógico y lo digital
3.5.1 Sistemas de referencia
Si tuviésemos que representar una imagen como una función matemática, deberíamos utilizar una función multidimensional. Considerando una imagen plana típicamente biológica, como es una imagen microscópica, cualquier punto de la imagen vendría caracterizado por su posición en el plano (sus coordenadas cartesianas respecto al origen), el brillo y el color de ese punto. Los biólogos utilizan un sistema de coordenadas en el plano para localizar un punto de interés en una muestra microscópica; de esa manera se le puede indicar a un colega una referencia con la que localizar la misma cosa cuando mira por el microscopio. Generalmente, las platinas de soporte de las preparaciones llevan adosadas una regla tipo nonius con el que calcular las coordenadas. Pero el brillo y el color acaban siendo una apreciación del observador y, para evitar vericuetos lingüísticos, los biólogos han desarrollado una jerga propia repleta de términos científicos.
Nosotros podemos utilizar ese mismo criterio para referirnos a las imá-genes. Se trata de aceptar un sistema de referencia, con una unidad de medida estándar que nos permita indicar cuántas unidades hay que desplazarse desde el origen en cada uno de los ejes para apuntar directamente a la región del punto. Si pudiésemos utilizar cualquier unidad de referencia para marcar las coordenadas, es claro que tendríamos tanta más precisión cuanto menor fuese el tamaño de la unidad de referencia. Así, no es lo mismo buscar el punto en la coordenada x=5 milímetros, sabiendo que la estructura más próxima que se puede marcar en ese eje se encuentra en la coordenada x=6 milímetros, que marcar coordenadas contiguas separadas entre sí por décimas de milímetro, de manera que entre el punto x=5 y x=6 haya nueve unidades de coordenada de diferencia. Esta preocupación por las magnitudes está muy agudizada en los microscopistas porque, de hecho, la limitación ante la que se encuentran inermes es la resolución de su instrumento de medida: el poder separador del microscopio. Pero saben que, con equipos más potentes, un punto que se encuentra en una coordenada (x, y) puede convertirse en dos elementos distintos
Por el momento dejaremos el problema que plantean el brillo y el color, pero bástenos decir por ahora que, sea cual sea la forma de medir estas dos características, su precisión también dependerá de la medida de referencia que utilicemos para ello.
3.5.2 Analógico/Digital
Hemos de hacer notar que con la obtención de la medida reducimos la propiedad estudiada a números, a un conjunto de dígitos, y que la expresión numérica de la cualidad supone la pérdida de información, en el sentido de que, en realidad, no podemos más que aproximarnos a la dimensión real del objeto.
Se entiende como analógico todo aquello que es susceptible de ser expresado con infinita exactitud, en función de la exactitud del instrumento de medida.
Por el contrario entendemos como digital todo aquello que se expresa en forma discreta, de manera que los saltos de magnitud son cantidades definidas. Entre dos estados contiguos no puede haber otro intermedio menor de un cuanto. Los relojes digitales se llaman así porque ésta es la forma que tienen de presentar la hora: los seis dígitos que muestran en su visor nos proporcionan la hora segundo a segundo; la unidad de tiempo «un segundo» es el menor cuanto de medida posible.
El clásico reloj de manecillas que mantiene las agujas en constante movimiento podría aportarnos la hora con precisión infinita, si fuésemos capaces de percibirla adecuadamente con nuestros sentidos. Estos últimos se llaman relojes analógicos.
En general, los fenómenos reales que nos rodean se pueden expresar como magnitudes analógicas. En ellos la precisión depende en gran medida del observador.
En el caso de la imagen, cualquiera de ellas que podamos analizar con el sistema binario ojo - cerebro, cualquier imagen real es captada por el ojo como una imagen analógica. Los matices captados son infinitos y son susceptibles de ser interpretados una y otra vez, especialmente el color de los objetos y la definición de sus perímetros.
Cuando la imagen es captada por un dispositivo electrónico, como una cámara de vídeo, los objetos comienzan a ser visibles cuando reflejan una luz suficientemente intensa como para excitar el material fotosensible de la cámara. Los objetos más brillantes que se pueden captar son aquellos que reflejan una cantidad de luz capaz de saturar la respuesta del elemento fotosensible. Para la mente humana que ha construido la cámara, es lógico que existan dos umbrales fuera de los cuales la luz no es capaz de producir cambios en la excitación de sus sensores lumínicos. Evidentemente, estos límites dependen en gran medida de la calidad de los materiales con los que se construyó la cámara.
La arquitectura de los sistemas de captación de imagen por vídeo impone una limitación capital, en lo que se refiere al rango de intensidades que la cámara puede captar. La cámara es capaz de captar luz de diversa intensidad. Cada vez que incide un «rayo de luz» sobre el sensor se genera un impulso eléctrico en la cámara cuya intensidad es equivalente a la intensidad de la luz incidente. La sensibilidad de la cámara se puede expresar en términos de cuáles son las diferencias mínimas de matiz que la cámara puede representar sobre una pantalla de televisión.
Así pues, tenemos:
1 un umbral inferior, por debajo del cual el sistema de captación no resulta estimulado y nosotros no tenemos imagen visible sino una pantalla en negro;
2 un límite superior, por encima del cual es indiferente que la intensidad de luz sea mayor que dicho límite; y, evidentemente,
3 un rango de intensidades comprendido entre el umbral y el límite superior que la cámara puede distinguir como estados distintos.
El umbral determina la sensibilidad de la cámara; al límite superior le denominaremos saturación; y el rango expresa la profundidad, puesto que determina con qué diferencias de matiz captamos la luz incidente.
3.5.3 El píxel
Hasta ahora nos estamos moviendo entre conceptos de tipo analógico, ya que los matices de luz que llegan a la cámara pueden ser infinitos y dependen únicamente de la propia luz que refleja cada objeto. La luz que incide sobre el sensor fotosensible de la cámara genera impulsos eléctricos de intensidades equivalentes a la de la luz. Los impulsos se transmiten por un cable y provocan el encendido de las pantallas de televisión. Y es aquí donde se encuentra el factor crítico para la representación de la imagen. En efecto, la primera limitación proviene de la estructura de la cámara; la captación de la imagen se produce en una placa constituida por un gran número de sensores puntuales, ordenados en filas y columnas. Los sensores analizan e integran la luz procedente de un sector del cuadrado de imagen que se está enfocando, y cada sector se representa en la pantalla de TV con una intensidad igual a la que la cámara envió al ser excitada por la luz.
La representación se puede aclarar con el siguiente ejemplo: el objetivo de la cámara «ve» un trozo de mundo rectangular, pongamos de 100x200 metros de lados, de manera que para poder contener una copia miniaturizada, divide la imagen real en cuadrados de 1x1 metros; cada cuadrado en el que se ha subdivi-dido la imagen recibe la luz correspondiente y manda una intensidad de corriente equivalente a la cantidad de luz de su cuadrado; la señal se manda al televisor, que tiene, al menos, tantos puntos como aquellos en los que se ha dividido la imagen, que se encienden con una intensidad equivalente y que nos permiten ver representada la imagen en la pantalla.
Cada uno de los puntos de información en los que hemos dividido la imagen le llamamos «píxel»; y lo podremos definir como la mínima fracción de información con la que podemos representar una imagen.
La resolución de los instrumentos de captación y representación (cámara y TV) depende exclusivamente del fabricante, con lo que serán tanto más precisos cuantos más puntos (píxeles) tengan para representar la imagen.
En lo tocante a la intensidad eléctrica en la que se traduce la intensidad lumínica, también depende del fabricante y, ya se ha dicho, viene caracterizada por el umbral, la saturación y el rango. Se entenderá que, si tomamos como valor cero (0) a la intensidad umbral y cien (100) al límite superior, y que el televisor no es capaz de mostrar diferencias de luz sino cuando hay una unidad entera de intensidad entre dos valores contiguos, tendremos un rango de 101 niveles distintos de intensidad. Así, el cero será negro, el 100 será blanco y el cincuenta gris. Según vayamos hacia el cero encontraremos los puntos más oscuros y cuando nos acerquemos al valor 100, encontraremos los puntos más claros.
Ahora podemos expresarnos de otra manera. Cada píxel estará iluminado con una intensidad entre cero y cien y la imagen puede escribirse en un papel poniendo 100 columnas de números en doscientas filas, de manera que los valores de esos números variarán entre cero y cien.
Cualquier ejemplo valdría, si tenemos en cuenta que la imagen es descompuesta, al ser captada, en cuadrados de información, píxeles, y que la información que contiene cada cuadrado se encuentra entre el umbral y el límite superior de sensibilidad de la cámara; el rango y el límite superior son números arbitrarios que representan dichas intensidades y que tienen su expresión lumínica en el encendido de los correspondientes píxeles de las pantallas de televisión.
Tal y como hemos expresado el problema, se podrá decir que la información de la imagen se puede expresar como una matriz (así se define una secuencia ordenada de números en filas y columnas), en la que el valor de cada elemento de ella se encuentra comprendido entre el umbral y el límite superior y dos números contiguos manifestarán una diferencia igual al salto mínimo de sensibilidad.
Como se podrá ver, la imagen real se está representando enteramente en forma de números, de dígitos. Ya no es la imagen real, porque el trasiego de información ha comenzado por dividir la imagen en cuadrados que hemos considerado equivalentes y que, por lo tanto, la intensidad de la luz que representa a cada cuadrado es el valor promedio. Pero la imagen está apareciendo en la pantalla del televisor, aunque sabemos que cuando la imagen viaja desde el fotomultiplicador de la cámara al aparato de televisión, lo está haciendo como una secuencia de números; esto es, se desplaza como dígitos: está digitalizada.
Quizá hayamos dado una gran vuelta para llegar aquí, pero el concepto de digitalización lleva implícito:
1 la representación numérica de la información;
2 la simplificación, o la pérdida, de información en el proceso;
3 la representación de la información a través de un nuevo código, arbitrario;
4 la reproducibilidad de la imagen sin pérdidas de calidad.
El instrumento que realiza el paso de imagen real a digitalizada, lo llamamos digitalizador y, evidentemente, digitalización será el proceso en sí.