Migración de SAP a BigQuery: guía técnica con Fivetran MDLS

Replicar SAP a BigQuery se resuelve hoy con un patrón maduro: Fivetran Managed Data Lake Service (MDLS) lee los cambios desde SAP por log-based CDC, los aterriza en un bucket GCS como Parquet, y BigLake los expone como tablas BigQuery vivas. Sin impacto sobre el ERP, sin reescritura completa cada noche, con latencia de minutos y costo predecible.

El problema de mover SAP

SAP es un sistema rico y caro de leer: miles de tablas, esquema propietario, claves complejas, joins entre header e items, conversión de pools y clusters. Cualquier extracción mal hecha impacta el ECC, rompe SLAs y genera quejas del equipo de Basis. Por eso la migración a BigQuery se hace casi siempre vía un layer intermedio que no toca el origen en caliente.

Por qué Fivetran MDLS para este caso

Fivetran HVR (lo que ahora se ofrece como MDLS dentro de Fivetran) hace log-based CDC sobre SAP ECC y S/4HANA, soporta extracción de tablas pool/cluster, maneja delta keys y reinicios, y aterriza en GCS en formato Parquet particionado. La diferencia con Fivetran SaaS clásico es que MDLS está pensado para volúmenes SAP y tiene los conectores nativos.

La arquitectura de referencia

Fuente: SAP ECC o S/4HANA (RISE o on-prem).
Captura: Fivetran HVR / MDLS con CDC log-based sobre Oracle/HANA detrás de SAP.
Aterrizaje: bucket GCS con Parquet particionado por fecha.
Exposición: BigLake apuntando al bucket, tablas externas en BigQuery.
Consumo: dbt para modelado, Looker / Tableau para BI, Vertex AI y Merlina para IA.

Caso real: Caja Los Andes con Evolve

Caja Los Andes corría SAP en modalidad RISE y necesitaba habilitar analítica avanzada sin esperar a que el roadmap de SAP lo permitiera nativamente. Evolve diseñó e implementó la replicación con Fivetran MDLS hacia GCS, exposición vía BigLake en BigQuery, y modelado en dbt sobre una arquitectura Iceberg. El resultado: capa analítica viva, sin impacto en SAP, lista para alimentar agentes de IA y herramientas de BI.

Lo que típicamente se subestima

Tres cosas suelen romper estos proyectos cuando se hacen sin método. Primero, los permisos en SAP: la cuenta que lee logs necesita roles muy específicos y suele tardar más en habilitarse que el propio pipeline. Segundo, el modelado: replicar tablas crudas no sirve, hay que modelar con dbt en capas (raw, staging, marts). Tercero, gobierno: catalogar, documentar y aplicar políticas de calidad desde el día uno.

Costo y tiempo realistas

Para un alcance de unas 80 tablas SAP críticas (FI, CO, MM, SD), el setup típico es de 6 a 10 semanas si los permisos vienen rápido. El costo running depende del volumen de cambios; con CDC log-based suele ser una fracción del costo de soluciones batch o de scripts custom mantenidos por equipos internos.

← Volver a Insights

Migración de SAP a BigQuery: guía técnica con Fivetran MDLS

El problema de mover SAP

Por qué Fivetran MDLS para este caso

La arquitectura de referencia

Caso real: Caja Los Andes con Evolve

Lo que típicamente se subestima

Costo y tiempo realistas

Otros insights de Evolve

¿Qué es CDC (Change Data Capture) y cómo funciona con Fivetran?

Gobierno de datos: por dónde empezar en una empresa que recién madura

Fivetran vs Qlik Replicate: comparación de costo y rendimiento