Uploaded by gilperezalonso

Cubo de datos geoespaciales

advertisement
Producción y publicación de la Geomediana
Nacional a partir de las imágenes del
Cubo de Datos
Geoespaciales
de México.
Documento metodológico
Instituto Nacional de Estadística y Geografía
Producción y publicación de la Geomediana
Nacional a partir de las imágenes
del Cubo de Datos Geoespaciales
de México.
Documento metodológico
Catalogación en la fuente INEGI:
623.893
Instituto Nacional de Estadística y Geografía (México).
Producción y publicación de la Geomediana Nacional a partir de imágenes del
Cubo de Datos Geoespaciales de México : documento metodológico / Instituto
Nacional de Estadística y Geografía.-- México : INEGI, c2020.
11 p. : il.
1. Sistema de información geográfica - México. 2. Sistema de posicionamiento
global - México. 2. Satélites artificiales en navegación - Metodología.
Conociendo México
800 111 4634
www.inegi.org.mx
atencion.usuarios@inegi.org.mx
INEGI Informa
@INEGI_INFORMA
Registro en trámite
2020, Instituto Nacional de Estadística y Geografía
Edificio Sede
Avenida Héroe de Nacozari Sur 2301
Fraccionamiento Jardines del Parque, 20276 Aguascalientes,
Aguascalientes, Aguascalientes, entre la calle INEGI,
Avenida del Lago y Avenida Paseo de las Garzas.
Percepción Remota e Imágenes satelitales
1
Construcción del Cubo de Datos Geoespaciales
de México (CDGM)
Manejo y procesamiento de imágenes en el CDGM
3
4
Construcción de la geomediana
Cómputo de geomediana a nivel pixel
Integración de imágenes y mosaico de geomediana
nacional
Ventajas de la geomediana
5
6
6
7
Referencias
8
INEGI. Producción y publicación de la Geomediana Nacional a partir de las imágenes del Cubo de Datos Geoespaciales de México. Documento metodológico. 2020
Índice
La Percepción Remota es una disciplina basada en ciencia y tecnología que permite desarrollar, capturar,
procesar y analizar imágenes, junto con otros datos físicos de la Tierra, mediante imágenes captadas por
sensores montados en diversas plataformas; como por ejemplo, mediante el procesamiento y análisis
de imágenes satelitales es posible estudiar la superficie terrestre, los océanos y la atmósfera desde el
espacio.
Con apoyo de las imágenes de satélite es posible medir las afectaciones que la humanidad provoca,
de manera directa o indirecta, a la superficie de la Tierra; por ejemplo, se puede medir la reducción de
las áreas verdes causada por la tala inmoderada de árboles, el crecimiento de las ciudades, o incluso es
posible analizar la agricultura que se lleva a cabo en determinadas zonas.
La siguiente tabla muestra los principales satélites de percepción remota.
Principales satélites de percepción remota
Fuente: Tabla tomada de Toth, C., & Jóźków, G., (2016).
1
INEGI. Producción y publicación de la Geomediana Nacional a partir de las imágenes del Cubo de Datos Geoespaciales de México. Documento metodológico. 2020
Percepción Remota e Imágenes satelitales
INEGI. Producción y publicación de la Geomediana Nacional a partir de las imágenes del Cubo de Datos Geoespaciales de México. Documento metodológico. 2020
La constelación de satélites LANDSAT (LAND=tierra y SAT=satélite), que inicialmente se llamaron
ERTS (Earth Resources Technology Satellites), fue la primera misión de los Estados Unidos para el
monitoreo de los recursos terrestres. La forman 8 satélites de los cuales solo se encuentran activos el 7
y el 8. Su mantenimiento y operación está a cargo de la Administración Nacional de la Aeronáutica y del
Espacio (NASA) en tanto que la producción y comercialización de las imágenes depende del Servicio
Geológico de los Estados Unidos (USGS).
Los satélites Landsat llevan a bordo diferentes instrumentos. Su evolución buscó siempre captar más
información de la superficie terrestre, con mayor precisión y detalle, de ahí las mejoras radiométricas,
geométricas y espaciales que se incorporaron a los sensores pasivos; el primero, conocido como Multispectral
Scanner Sensor (MSS), seguido de Thematic Mapper (TM), que tiene mayor sensibilidad radiométrica que
su antecesor, Enhanced Thematic Mapper Plus (ETM+) que entre sus mejoras técnicas destaca una banda
espectral (pancromática) con resolución de 15 metros. El último satélite Landsat, Landsat-8, lleva a bordo
dos sensores de imágenes Operational Land Imager (OLI) y Thermal Infrared Sensors (TIIRS).
Dependiendo del satélite y sensor, las imágenes Landsat pueden estar compuestas de 4 (Landsat-1,
2, 3) y hasta 11 bandas espectrales (Landsat-8). Estas bandas incluyen un canal pancromático, rango
visible, una o más bandas infrarrojas, y una o dos bandas térmicas. Las resoluciones espaciales varían
entre 15, 30, 60 y 120 según el sensor y banda.
Otro aspecto a considerar es la resolución temporal de las imágenes. Los sensores Landsat tienen un
período de revisita de 16 días; sin embargo, en los períodos en los que coinciden los sensores en órbitas
la disponibilidad de datos se incrementa y, la resolución temporal de las observaciones es de 8 días.
Las imágenes provistas por los satélites Landsat son de utilidad para el monitoreo de la vegetación,
aplicaciones geológicas, en el estudio de los recursos naturales y de cultivos. Para más información
consulte (https://www.inegi.org.mx/temas/imagenes/imgLANDSAT).
2
El Cubo de Datos Geoespaciales de México (CDGM) hace uso de imágenes provenientes de los satélites
Landsat de la NASA/ USGS. Actualmente, se cuenta con un acervo histórico de imágenes desde 1984 hasta
abril de 2020, con una actualización mensual que mantiene el acervo con un mes de desfase con respecto al
mes actual. Para dar continuidad a lo largo del tiempo, desde Landsat-4 hasta Landsat-8, en el Cubo de Datos
Geoespaciales de México (CDGM) se tienen incorporadas las bandas espectrales Azul, Verde, Rojo, Infrarrojo
Cercano, Infrarrojo de Onda corta 1 e Infrarrojo de Onda corta 2, todas a 30 metros de resolución espacial.
El proceso de descarga de imágenes es a través de la página oficial del USGS, donde se solicitan las
imágenes del territorio nacional de un periodo de tiempo específico y con las características requeridas. El
proceso de corrección para que el USGS libere una imagen con las especificaciones de la más alta calidad
disponible toma, por lo general, un mes. Por este motivo, para el caso del CDGM, se colectan las nuevas
imágenes disponibles (con las correcciones propias de la colección de más alta calidad) en conjuntos con una
representación mensual; la primera imagen de cada conjunto mensual, tiene entonces, por lo mucho 2 meses
de antigüedad, mientras que la última imagen del conjunto se descarga precisamente un mes después de
la fecha de captación. Cada mes se recolectan alrededor de 500 imágenes y en conjunto tienen un tamaño
aproximado de 500 GB; son alrededor de 6 mil por año, las cuales requieren 6 TB de almacenamiento.
El CDGM es una adopción del Open Data Cube (ODC, https://www.opendatacube.org/). El INEGI
tomó la tecnología del ODC e instrumentó el Cubo de Datos Geoespaciales de México. Esta tecnología
tiene como objetivo aumentar el impacto de los datos satelitales al proporcionar una herramienta de
explotación abierta y de libre acceso, y fomentar una comunidad para desarrollar, mantener y aumentar
la amplitud y profundidad de las aplicaciones. Técnicamente, el CDGM es un conjunto de bibliotecas
Python, una base de datos PostgreSQL y un acervo de imágenes Landsat ordenadas. Estos recursos se
encuentran alojados en servidores del INEGI.
A través de una interfaz de programación (basada en el lenguaje Python), se accede a bibliotecas que
permiten catalogar e indexar miles de imágenes satelitales Landsat en su formato original. Esta interfaz
provee de un medio que facilita el manejo y acceso a grandes volúmenes de imágenes satelitales.
La base de datos PostgreSQL del CDGM no almacena las imágenes, sino que almacena la ruta
donde se ubica cada una dentro del almacenamiento al que tienen acceso los servidores. Además, la
base de datos también registra los metadatos de cada imagen; dichos metadatos contienen información
acerca de la misma, por ejemplo, su fuente, la fecha en que fue capturada, la región geográfica a la que
corresponde, las bandas espectrales que contiene, entre otros datos, los cuales son relevantes a la hora
de generar productos derivados.
Actualmente el acervo de imágenes del CDGM consta de más de 118 000 escenas Landsat con sus
metadatos. Se cuenta con un acervo de imágenes de todo el territorio nacional desde 1984 hasta 2020
con actualizaciones mensuales del acervo.Las imágenes del acervo corresponden en un 86.4% a
imágenes de Nivel 1 de Calidad de la Colección 1 de la NASA, 13.2% de Nivel 2 de Calidad y 0.4% de
Calidad RT. El Nivel 1 (T1) corresponde a escenas calibradas y consistentes con un máximo de 12 metros
de RMSE, el Nivel 2 (T2) son escenas calibradas, pero no alcanzan los estándares del Nivel 1, ya que
tienen un RMSE mayor a 12 metros, las imágenes Nivel Tiempo Real (RT) son escenas con procesamiento
3
INEGI. Producción y publicación de la Geomediana Nacional a partir de las imágenes del Cubo de Datos Geoespaciales de México. Documento metodológico. 2020
Construcción del Cubo de Datos Geoespaciales de México (CDGM)
INEGI. Producción y publicación de la Geomediana Nacional a partir de las imágenes del Cubo de Datos Geoespaciales de México. Documento metodológico. 2020
preliminar y sin ningún proceso de calibración (para información a detalle consultar https://www.usgs.gov/
land-resources/nli/landsat/landsat-collection-1). La siguiente gráfica muestra la disponibilidad de imágenes
por sensor para cada año.
Imágenes por Año/Sensor
Manejo y procesamiento de imágenes en el CDGM
Considerando que un año de imágenes (recientes) del territorio nacional representa hasta poco más de
6 TB de almacenamiento, la cantidad de espacio que ocuparía el CDGM con las imágenes de los 35
años, estimando un menor peso para las imágenes de años anteriores, se necesitaría más de 90 TB para
almacenar toda la información.Sin embargo, el CDGM optimiza el almacenamiento de estas imágenes
mediante un proceso de conversión de imágenes de GeoTIFF a netCDF. El formato netCDF reduce a una
tercera parte el espacio que ocupa una imagen sin perder información durante el proceso.
Las imágenes de todo el territorio nacional en formato GeoTIFF convertidas a netCDF ocupan
aproximadamente 2 TB de almacenamiento. Las imágenes netCDFtienen la misma funcionalidad que las
imágenes GeoTIFF y se pueden utilizar de igual manera para generar productos a partir de ellas. La generación
de productos con imágenes en formato netCDF no varía en el tiempo de procesamiento, pues se tardan el
mismo tiempo en generar el producto que las de GeoTIFF, y su resultado tiene las mismas características.
La base de datos del CDGM registra información de las imágenes que permite acceder a las
imágenes para procesarlas y así generar productos derivados. Por ejemplo, mediante las facilidades de
procesamiento que provee el CDGM es posible el cómputo de geomedianas. Un mosaico de geomedianas
provee una imagen típicamente libre de nubosidad sobre un territorio específico. Para la realización de
este producto se consideran todas las imágenes de un área y un periodo de tiempo determinados por el
usuario. Los tiempos de procesamiento varían dependiendo de la cantidad de imágenes que se posean
sobre el área en el periodo específico y del tamaño de la zona que se desea procesar.
El algoritmo utilizado para este producto es público y gratuito; este se encuentra disponible en un
repositorio de bibliotecas de código abierto en la siguiente dirección web:
https://github.com/opendatacube/datacube-stats/blob/master/datacube_stats/statistics/geomedian.py
Para el caso de una geomediana nacional con los datos registrados por el CDGM para un año
completo, el tiempo de procesamiento es de 24 horas, en promedio; y el resultado final tiene un tamaño
de 35 GB aproximadamente. A continuación, se describe el algoritmo para la generación de geomedianas
contenidas en el CDGM.
4
Existen varios métodos para la generación de mosaicos de cobertura nacional. Los mecanismos basados
en estadísticas de las series de tiempo de pixeles, consideran la secuencia de pixeles para cada banda
a través del tiempo y calcula alguna estadística que resume las observaciones para crear una imagen
compuesta. Una práctica común es estimar un estadístico unidimensional a cada una de las bandas, esta
alternativa suele arrojar buenas imágenes. Sin embargo, no preserva las relaciones espectrales. Una
composición que preserva las relaciones espectrales es deseable en los casos en los cuales la imagen
resultante será utilizada como puente de partida de procesos analíticos.
En esta entrega se aplica un método basado en la creación de imágenes de grandes extensiones
donde los pixeles pueden provenir de diferentes escenas Landsat que se combinan en función de algún
algoritmo de composición a nivel pixel, que se aplica a una serie temporal de observaciones.Con este
enfoque de composición de pixeles para la generación de mosaicos, se busca obtener, como resultado,
imágenes que presenten un balance de color mejorado.Uno de estos métodos de composición es la
geomediana para cuya generación se consideran 2 variables: 1) la región geográfica y 2) el periodo del
análisis. El producto final es un mosaico nacional de imágenes multiespectrales en formato TIFF. Estos
mosaicos representan las características del terreno en un periodo específico.
Así, la geomediana es un enfoque basado en la composición a nivel pixel que toma una colección de
observaciones de la Tierra y las colapsa en una sola imagen. Esta composición mantiene las relaciones
espectrales entre las bandas, proporcionando una buena representación de una observación típica que carece
de valores atípicos y con ruido espacial reducido. En el siguiente diagrama se puede apreciar el proceso para
la obtención de la geomediana desde la recolección de imágenes hasta la construcción de mosaicos.
Diagrama tomado de Roberts, D., Mueller, N., & McIntyre, A. (2017).
5
INEGI. Producción y publicación de la Geomediana Nacional a partir de las imágenes del Cubo de Datos Geoespaciales de México. Documento metodológico. 2020
Construcción de la geomediana
INEGI. Producción y publicación de la Geomediana Nacional a partir de las imágenes del Cubo de Datos Geoespaciales de México. Documento metodológico. 2020
En el resto de la sección se describe este proceso considerando que ya se cuenta con la serie temporal
de imágenes multi-espectrales que se encuentran indexadas en el CDGM.
Cómputo de geomediana a nivel pixel
La Geomediana es una generalización de la mediana llamada la mediana geométrica, también conocida
como la mediana L1, la mediana centro o la mediana espacial. Es introducida en Roberts, D., Mueller,
N., & McIntyre, A. (2017) como una alternativa para la composición de series de tiempo de imágenes
satelitales. Este estadístico es particularmente útil, ya que permite un tratamiento estadístico preservando
las relaciones entre las bandas espectrales.
Dado un conjunto
vectores
que corresponde a una serie temporal asociada a un pixel de p-bandas como
, la mediana geométrica de estas observaciones es:
Es decir, la geomediana es un punto en el espacio multidimensional que minimiza la suma de las
distancias al conjunto de observaciones. Como se puede apreciar, el espacio de búsqueda para la
obtención de la geomediana es infinito, por lo que un método de búsqueda exhaustivo no es viable.
Fuente: Diagrama tomado de Roberts, D., Mueller, N., & McIntyre, A. (2017).
En (Roberts, D. et al. 2017) se propone un método iterativo basado en el algoritmo de Weiszfeld, una
forma de mínimos cuadrados iterativos, en el cual, cada iteración representa una mejora respecto a la
anterior.
En cada paso se define una aproximación utilizando un promedio pesado. Los pasos de este promedio
están dados como el inverso de la distancia de cada dato con la aproximación anterior. Como aproximación
inicial se considera el centroide (media geométrica). Los criterios de paro del algoritmo son un número
máximo de iteraciones y un valor que determina la precisión de la aproximación. Este algoritmo converge
casi seguramente a la Geomediana del conjunto de observaciones. En los casos donde puede fallar, son
aquellos en los cuales, una de las aproximaciones coincida con alguna observación.
6
El paso final para la generación de un compuesto de pixeles de gran escala es mediante la composición
de 5 000 x 5 000 pixeles en una imagen TIFF. Esto es una simple agregación en un solo archivo sin
postprocesamiento adicional, usando la herramienta GDAL (www.gdal.org).
Para el caso de una geomediana Landsat nacional con los datos registrados por el CDGM para un año
completo, el tiempo de procesamiento es de 24 horas, en promedio; y el resultado final tiene un tamaño
de 35 GB aproximadamente.
Ventajas de la geomediana
La geomediana es una estadística robusta, es decir, tolera hasta poco menos del 50% de las observaciones
ruidosas sin verse afectada para calcular un píxel representativo; sin embargo, para reducir el potencial
efecto negativo en los pixeles resultantes se realiza un proceso de enmascaramiento, usando las bandas
de calidad entregadas por la agencia espacial, donde se eliminan los pixeles identificados como nube,
sombra de nube o saturados. En la práctica las máscaras de calidad no son perfectas, por ejemplo, los
algoritmos de detección de nubes y sombras suelen omitir los bordes de las nubes o no detectar nubes
muy delgadas. Sin embargo, la idea clave es usar las máscaras para reducir el número de pixeles de baja
calidad y mantener su número abajo del 50% para que el resultado siga siendo de alta calidad.
Aplicándolo a una región, se produce una imagen compuesta de pixeles resumen, la cual mantiene
consistencia espacial, incluso en los límites entre escenas; los resultados que se generan son libres del
ruido y, por tanto, típicamente, se obtienen imágenes continuas. Captar nubes no es considerado ruido,
debido a que corresponde a la condición real que fue observada por los sensores; sin embargo, desde el
inicio del cómputo de la geomediana, se descartan las observaciones de pixeles donde hay nubosidad,
por lo que la imagen resultante es libre de nubes, lo cual genera una importante ventaja para los analistas
e intérpretes.
El algoritmo trabaja con las 6 bandas del pixel a la vez, por lo que, además, se conserva la razón
entre estos valores; debido a ello, es posible utilizar el producto de estas operaciones como el insumo
de otros procesos de uso frecuente que parten de estas relaciones entre las bandas (como NDBI y
NDVI). Los mecanismos basados en estadísticas generan mosaicos tomando en cuenta una secuencia
de observaciones de pixeles para cada banda a través del tiempo y se calcula un resumen estadístico
para esas observaciones para crear la imagen compuesta. La práctica común es aplicar una estadística
de resumen a cada banda espectral por separado, y si bien esto puede producir una imagen agradable,
el compuesto resultante no conservará las relaciones espectrales correctas en la imagen compuesta
de salida. Mantener las relaciones espectrales es particularmente importante si se requiere un análisis
adicional de la imagen compuesta, como el cálculo de las relaciones de banda en la imagen compuesta
o la aplicación de algoritmos de aprendizaje automático. La geomediana es una solución a este problema
ya que se puede entender como una estadística de resumen multivariada que se aplica a todas las
bandas a la vez, de manera que se garantiza la preservación de las relaciones biofísicas entre todas las
bandas espectrales.
7
INEGI. Producción y publicación de la Geomediana Nacional a partir de las imágenes del Cubo de Datos Geoespaciales de México. Documento metodológico. 2020
Integración de imágenes y mosaico de geomediana nacional
INEGI. Producción y publicación de la Geomediana Nacional a partir de las imágenes del Cubo de Datos Geoespaciales de México. Documento metodológico. 2020
Referencias
Roberts, D., Mueller, N., & McIntyre, A. (2017). High-dimensional pixel composites from earth
observation time series. IEEE Transactions on Geoscience and Remote Sensing, 55(11), 6254-6264.
Toth, C., &Jóźków, G. (2016). Remote sensing platforms and sensors: A survey. ISPRS Journal of
Photogrammetry and Remote Sensing, 115, 22–36. https://doi.org/10.1016/j.isprsjprs.2015.10.004
8
Related documents
Download