Introducción al
análisis de datos


¿Cómo utilizar las hojas de cálculo para mis investigaciones periodísticas?


Gianfranco Huamán S.
twitter: @giancohs

¿Qué es una hoja de cálculo?

¿Qué es una hoja de cálculo?

Excel, tabla, spredsheet, base de datos, dataset, data,

¿En qué momento me sirve crear una hoja de cálculo?

¿En qué momento me sirve crear una hoja de cálculo?

  • Para casi todo, pero depende del tipo de historia que estás contando y el tiempo que tienes disponible.
  • Ojo. El análisis de datos no reemplaza el reporteo tradicional.
  • Es necesario en la actualidad, cada día el Estado y organizaciones generan mucha información digitalizada y que el ciudadano de pie no accede o no le interesa. Nuestra labor es procesar esta información y contarla de la forma más simple.

¿Por dónde empiezo?

¿Por dónde empiezo?

¿Toda la información se puede estructurar? ¿Qué tipo de información se puede analizar?

Etapas del análisis de datos

Etapas del análisis de datos

  • Recolección
  • Procesamiento
  • Limpieza
  • Análisis
  • Comunicación

Herramientas para analizar datos

Herramientas para analizar datos

Microsoft Excel

Microsoft Excel

Open Refine

Open Refine

Python / R

Python / R

Google sheets
Hojas de cálculo de Google

Google sheets
Hojas de cálculo de Google

Demostración
Ejercicio práctico

Demostración
Ejercicio práctico

  • Analizar datos sobre Penalidades y multas a contratistas del Estado - Organismo Supervisor de Contrataciones del Estado (OSCE). Descargar dataset aquí
    • ¿Cuáles son las empresas con mayores multas?
    • ¿Cuáles son las entidades públicas que más multan?
    • ¿Cuántas multas se han registrado en los últimos 5 años?
    • ¿Cuáles son los tipos de multas más comunes?

Pasos a seguir

Pasos a seguir

  • Preparar nuestro entorno de trabajo
    • Crear una cuenta de Google (Si no tienes una).
    • Crear una carpeta con el nombre de nuestro proyecto. “Penalidades OSCE”.
  • Recolección
    • Descargamos el dataset y lo subimos a nuestra carpeta de Google Drive.

  • Procesamiento y limpieza
    • Importamos el dataset a Google Sheets.
    • Comprobamos el formato numérico de nuestro archivo. (Separadores de miles y decimales).
    • Comprobamos que los datos estén en el formato correcto. (Fechas, números, texto).
    • Creamos nuevas columnas para analizar la información.
    • Podemos usar filtros para hacer una revisión rápida, y también ayuda en la limpieza.
    • Limpiamos caracteres extraños o números. Podemos usar la herramienta “Buscar y reemplazar”
    • Comprobamos que no existan duplicados.
  • Análisis
    • Creamos tabla dinámica
  • Comunicación
    • Creamos visualizaciones
    • Redactamos un texto con los hallazgos

¿En qué momento puedo pedir ayuda?

¿En qué momento puedo pedir ayuda?

  • Cruces de base de datos
  • Por ejemplo, si queremos cruzar información de penalidades, con otra lista de empresas investigadas por fiscalía u otros antecedentes. (Miles de registros)
  • Los datos no están estructurados
  • Por ejemplo, si queremos analizar los datos de un PDF, o una imagen.
  • Los datos son públicos, pero no se pueden descargar
    • Por ejemplo, si queremos analizar los datos de una página web, pero no se puede descargar.

Preguntas

¡GRACIAS!