Detalle del análisis de especies del Amazonas

Advertencia. Puede que esta lectura te resulte bastante pesada, pero si de verdad deseas saber qué hay detrás del análisis de datos, esto te va a aclarar el panorama.

Lo que te muestro aquí es el proceso del análisis de datos, en base a la información que los investigadores comparten en el sitio web. Lo que comparten en sus archivos es lo que se analizó. Por ejemplo, ellos dicen en su resumen que investigaron 317 especies, sin embargo en el dataset compartido, el conteo hace referencia a 371 especies. No soy científico, ni biólogo, y seguramente existirán especies que para ellos se clasifican de alguna manera. No lo puedo saber sin mayor investigación. Y tampoco sería correcto forzar en mostrar esas 317 especies. Los datos muestran lo que muestran. Este análisis es solo un ejercicio que indica los pasos a seguir. Al trabajar con datos, siempre será necesario que exista la contraparte, la de los investigadores, para que verifiquen que los resultados del análisis sean congruentes con la investigación.

En base a qué información realizaremos el análisis.

Los investigadores comparten una información de uso público de datasets en formato csv en su sitio web. Aunque en la descripción que ponen hacen referencia a una cantidad de datos recopilados de 154,123 registros, los datasets compartidos solo muestran una cantidad de datos de 50,307 registros. Aún así es información valiosa y muy representativa del conjunto de datos original. Esto es lo que hay y con lo que trabajaremos.

Esta imagen muestra el formato en el que viene la información original.

El proceso del análisis

Definir el objetivo

Todo análisis debe empezar con un objetivo claro. En este caso el objetivo será aportar un valor extra a este trabajo de investigación desarrollando un dashboard que permita mostrar de manera clara las especies animales, las zonas de ubicación y el área de las zonas donde se ubican.

Toda esta área es impactada por actividades humanas que causan pérdida del hábitat de estos animales. Es una zona amenazada. Veremos entonces cómo un dashboard puede ayudar a mostrar de manera clara esta información, luego de esto procederemos a extraer datos claros que ayuden a entender la potencial amenaza, para que un público general no técnico entienda.

Este dashboard mostrará qué especies animales se ven afectadas por país, las categorías a la que pertenecen (aves, mamíferos, reptiles), la información y foto del tipo de animal. Mostrando claramente lo que significa este trabajo, se puede llegar a financiadores, sensibilizar a la población, lograr cambios en políticas de uso de suelos en áreas protegidas, etc.

Entender los archivos de trabajo

La data de uso público proporcionada en el sitio web viene en 2 archivos con títulos de columnas similares. No queda clara la diferencia entre uno y el otro. La descripción que aportan los autores no es clara. Por este motivo trabajaremos el archivo que tiene la mayor cantidad de registros: El archivo UNIT que maneja 50,308 registros, mientras que el archivo AREA maneja 3,381 registros.

Carga de los datos en csv a Excel

El formato de estos datos viene en archivos csv. Es muy importante comparar el archivo fuente con la carga en Excel. En ciertos campos numéricos donde existen cifras en miles y tienen comas o puntos, la carga en Excel elimina el formato, dando lugar a información numérica errónea. En este caso cargamos los datos sin formato para evitar el problema.

Excel por default carga datos y trata de adaptarlos a algún tipo de formato. En este caso, las coordenadas dan error, se eliminan las comas al cargar a Excel. Lo que hice es cargar a Excel en Power Query y luego trabajarlos para colocarlos en el formato correcto.

Luego es fundamental en todo análisis verificar que el formato en la carga en Excel muestre los mismos datos (sobretodo numéricos, decimales y comas) que los datos en bruto originales (en este caso del archivo en csv).

Analizar la información, columnas y datos

Dentro del análisis de datos la limpieza es una de las tareas que más tiempo requieren, llega a ser tediosa. Sin embargo es de las más importantes. Datos sucios de inicio pueden dañar todo el análisis posterior y mostrar resultados fuera de la realidad. Se requiere mucha observación en esta fase.

Es importante entender la información, qué significa cada dato, de acuerdo al título de la columna, de acuerdo a las referencias de los autores. Una vez entendidos los datos y columnas y para enfocarnos en el análisis exclusivo de las especies, hay que decidir qué columnas son necesarias. Esto tiene 2 propósitos: seleccionar solo los datos necesarios para el análisis y evitar la carga de datos no necesarios que pueden ralentizar la carga en el software de análisis.

Eliminaremos 4 columnas con información referencial que no aportan nada al análisis en si: DATASET, DATA_TEAM, RECORD_ID, REFERENCE. Esta información en caso de necesitarse, queda disponible en el archivo, y gracias a la columna ORDEM_BD, puede vincularse con esta columna en caso de ser necesario.

Al revisar en más detalle los datos y columnas, veo que existen dos tipos de información: la primera es la vinculada a las especies mismas (el objetivo de este análisis) y la segunda es de carácter técnico acerca de las cámaras de vigilancia. Eliminaremos estas columnas ya que no contribuyen al análisis de especies, solo muestran la manera en la que se registraron.

Columna problemática: AREA_HA

Los datos originales del área tienen datos numéricos con puntos y comas, algunos están al revés, coma y punto, haciendo referencia a miles, otros están juntos. Es decir, existe una confusión a la hora de la toma de datos, al registrar de maneras distintas datos numéricos en miles.

A la hora de cargar a Excel, para mantener la información original, hay que hacerlo sin que cargue con formato. Luego, dentro de Excel trabajar esta columna, cambiar los puntos por comas, uniformar, luego pasar a Power BI.

Esta columna presenta incongruencias numéricas. Es necesario revisar en detalle. Sin más información que lo de la columna, se procede a solucionar los datos de esta columna AREA_HA por la importancia que tiene conocer la cantidad de superficie afectada.

Se nota que la recopilación de información del dataset se realizó por diferentes personas y luego se juntaron los datos en una sola tabla.

Vincular dataset en Power BI

Una vez realizada un primera limpieza en Excel, trabajamos con el software de inteligencia de negocios Power BI, donde empezaremos el segundo paso de análisis de datos, utilizando los conceptos ETL (Extract, Transform, Load -> Extraer, Transformar, Cargar).

Lo primero es ver la salud de los datos en este software (utilizaremos las opciones Column distribution, Profile y Quality). Si hay fechas, crearemos un calendario. Si hay datos con NAs (Not Available, o No Disponibles) en columnas de datos numéricos cambiaremos a valor Null y luego cambiaremos formato de columna a número.

En el caso de la columna de AREA_HA, existen datos NA. Tomo la decisión de transformarlos a valor numérico 0, es necesario que tengan un valor, para poder realizar cálculos.

Los datos numéricos de latitud y longitud venían con punto, debe colocarse coma (en Excel), para que sean detectados como números. Dentro de la configuración regional, se puede modificar los separadores decimales y de miles. Por ejemplo, en algunos países se utiliza la coma (,) como separador decimal y el punto (.) como separador de miles, mientras que en otros es al revés.

Análisis Exploratorio

Luego se procede con la parte interesante del análisis de datos: la exploración de la información.

Este dataset ha sido generado por especialistas en medio ambiente. Lo que hay que mostrar es el valor de su trabajo que es el de haber registrado la fauna que existe en el amazonas. Es información contundente para divulgar.

En cuanto a este tema, el dataset de estudio no tiene información acerca de incendios, áreas deforestadas u otro tipo de actividad humana relacionada, por lo que no hay manera de asociar estas áreas con actividades humanas. Sin embargo, es bien sabido que en el Amazonas existe actividad humana dañina.

El siguiente paso será transformar estos datos en una historia que impacte para llegar al objetivo del dashboard: mostrar que la Amazonía es el hábitat natural de cientos de especies animales, que es necesario hacer todos los esfuerzos para preservar esta zona y evitar muertes y posible extinción de las especies que se encuentran ahí.

Si logramos este impacto en el público, el dashboard y el análisis cumplieron su objetivo.