Watch full webinar here: https://bit.ly/3oWOneG
Las técnicas de análisis en tiempo real prometen enriquecer los análisis tradicionales de datos en tiempo real. Esto es clave para muchos escenarios, como la gestión de la cadena de suministro o la atención al cliente. La virtualización de datos es bien conocida por ofrecer conectividad en tiempo real a diversas fuentes y capacidades de federación: los dos ingredientes básicos para la analítica en tiempo real. Sin embargo, construir una estrategia en torno a estos conceptos puede ser un reto. A menudo se menciona el impacto de las fuentes de datos delicadas, la seguridad y los problemas de rendimiento.
Asiste a este webinar para aprender más sobre:
- Cuáles son los escenarios en los que el valor de la analítica en tiempo real puede marcar la diferencia.
- Las capacidades básicas que las hacen posibles
- Las mejores prácticas clave para que tengan éxito
2. Agenda
1. Qué es la analítica en tiempo real
2. Porqué es importante
3. Opciones de implementación
4. Caso de éxito
5. Best practices y gestión de riesgos
6. Conclusiones
4. 4
Qué es la analítica en tiempo real
• La analítica en tiempo real incluye una seria de
técnicas de procesado que ayudan a la toma de
decisiones basado en datos actuales, “frescos”
• Es decir, tan pronto como los datos se crean,
están disponibles para analizar, en tiempo real
• El resultado es que la toma de decisiones es mas
reactiva y ajustada al momento
5. 5
5
Porque? Comencemos con un caso de estudio
• Necesidad de reducer los tiempo de entrega de paquetes para permanecer
competitivos
▪ Tiempo original rondaba los 3 dias
▪ Objetivo es entrega el dia siguiente
• Desde el momento de la compra online, hasta la entrega, los datos son gestionados
por varias aplicaciones
• La comunicacion entre aplicaciones anhade retrasos que se van acumulando durante el
proceso
• La analitica en tiempo real podria aportar una perspetiva mas
directa sobre los datos para acelerar el proceso
• Gran potencial de retorno de inversion
• Grandes retos
▪ Ecosustem de datos complejo, multiples aplicaciones, grandes
volumenes de datos
Fuente: https://www.denodo.com/es/webinar/caso-walmart-y-denodo-%C2%BFc%C3%B3mo-afrontar-con-%C3%A9xito-la-transici%C3%B3n-la-nube-de-las-arquitecturas-de
6. 6
6
Cual es el valor del “tiempo real”
• El paso de usar datos desactualizados a “datos frescos” es un objetivo fundamental de muchos proyectos
de optimizacion de proceso de negocio
• Los objetivos son diferentes de otras tendencias analiticas actuales (p. ej. Analitica predictive) que se
basan en el uso de grandes cantidades de datos historicos
• En esta caso, el valor anhadido viene de la visibilidad inmediata en el estado del proceso
• Por ejemplos
▪ Manufactura
▪ Optimizacion de la cadena de produccion
▪ Retail
▪ Gestion de inventario y almacenes
▪ Gestion del proceso de compra online
▪ Telecomunicaciones y electrica de consumo
▪ Gestion de caidas del sistema
▪ Call centers
▪ Y muchos otros
7. 7
7
Cuales son las opciones de implementación?
• Cuales son los requisites?
▪ Uso de datos actuales
▪ Integracion de datos provenientes de multiples sistemas y aplicaciones
• Hay tres aproximaciones tecnologicas para afrontar estos escenarios:
▪ Change Data Capture (CDC) y consolidacion en tiempo real
▪ Uso de flujos CDC para replicar los datos a un Sistema central (p. ej. Un ODS, o un data lake) donde se
realiza el analis
▪ Analisis en streaming
▪ Flujos basados en eventos (e.g. clickstreams, dispositivos IoT) se usan para gestionar mensajes y alertas,
que son procesados asincronamente tan pronto se reciben
▪ Virtualizacion de datos
▪ Acceso virtual a multiples sistemas y aplicaciones con capacidades de cruizar datos entre apliaciones para
relaizar el analsis
▪ Muy a menudo, la combinacion de varios de estos sistemas
8. 8
8
Cuales son las ventas de la virtualization?
• Comparada con otras alternativas, el uso de la virtualizacion tiene
algunas ventajas muy interesantes:
▪ Facil de usar y mantener
▪ Basado en SQL
▪ Infraestructura simple
▪ Bajo coste de operacion
▪ Agil al cambio
▪ Cambios en objetos virtuales solo implican metadatos
▪ Analisis de impact ontegrado para simplificar la
propagacion de cambios a otros objetos
• En la siguientes secciones explicaremos como funciona
10. 10
10
La “receta” general
1. Conectar fuentes de datos diversas
▪ Todos los datos se representan como tablas SQL en Denodo
2. Anhadir metadatos adicionales
▪ Tecnicos: claves primarias, estadisticas
▪ De negocio: descripciones, tags, etc.
3. Definir las relaciones entre objetos, especialmente entre distintas
fuentes de datos
▪ Simplifica el uso de los datos por usuarios no expertos
4. Crear vistas de negocio sobre los datos
▪ P.ej. Definicion de metricas corporativas para evitar inconsistencias
5. Definir las politicas de seguridad y acceso
6. “tunear” el Sistema para adaptarse las necesidad del caso de uso
▪ P. ej. Cacheado, mas detalle en la siguietne seccion
12. 12
Caso de estudio – Walmart Mexico
Sources Data Virtualization
STAGING
REPOSITORY
Data
Caching
Master
Catalog
Sensors
EDW
Early
Discovery
Global
Local
Social
Data Platform
ODS
No
SQL
Data
Products
DATA
MARTS
Cost
Based
Optimizer
Local Data Marts
& Consumption
External
Located on
Cloud
Located on
Premise
Custom
Catalog Files
Data Discovery / Self
Service
Advanced Analytics
DATA GOVERNANCE
Dashboards
Streaming
Batch
SQL
• Implementación rápida
durante la pandemia
• Aproximación no
intrusiva con los sistemas
existentes
• Tiempo medio de entrega
reducido de 3 a 1 día
• Aumento de la retención
de clientes
• Gran retorno de inversión
Fuente: https://www.denodo.com/es/webinar/caso-walmart-y-denodo-%C2%BFc%C3%B3mo-afrontar-con-%C3%A9xito-la-transici%C3%B3n-la-nube-de-las-arquitecturas-de
14. 14
14
Best practices y gestión de riesgos
• El uso de la virtualización para casos de
tiempo real es bastante intuitive, como se ha
visto en la “receta” de la sección anterior
• Sin embargo, hay ciertas áreas donde es
necesario gestionar los riesgos:
1. Impacto sobre las fuentes de datos originales
2. Optimizar el tiempo de respuesta
▪ Algunas fuentes son lentas y no están
adaptadas para este uso
▪ Volúmenes de datos importantes
15. 15
15
Gestionando el impacto sobre las fuentes de datos
• Ciertas fuentes de datos son “delicadas” y no pueden soportar cargas adicionales
• Denodo ofrece múltiples controles para gestionar este impacto en distintos niveles:
1. La conexión a la fuentes
▪ Pools de conexiones permites restringir el numero máximo de conexiones simultaneas a cada
fuente
2. Modelos de datos
▪ Pueden forzar filtros de entrada obligatorios
▪ Por ejemplo, la query solo se puede ejecutar si se filtra por ID de cliente para evitar queries mas
complejas
3. Gestor de recursos
▪ Permite la creación de reglas que aplican restricciones a la ejecución
▪ Por ejemplo, para un rol, o una hora determinada, se puede definir una acción a ejecutar:
denegar ejecución, establecer una cuota de max 10 queries a la hora, etc.
4. Cache y copias de datos
▪ Veremos ejemplos en la siguiente sección
16. 16
16
Optimizar el tiempo de respuesta
• El cuello de botella mas comun en estos escenarios es el
rendimiento de las propias fuentes de datos:
• P. ej. Datos externos via APIs, mainframes, bases de datos
operacionales con mucha carga
• Como Podemos acelerar una Fuente de datos?
▪ La unica opcion es el cache
• Pero si cacheamos, perdemos los datos “frescos”
• Hay alguna manera de combiner lo major del riempo real y
el cacheado?
17. 17
17
Queries incrementales: cache + cambios en tiempo real
merge
Customers changed /
added since 1:00AM
CACHE
Customers
updated at
1:00AM
18. 18
18
Microbatching
1. Pedir los cambios desde la
ultima carga de cache
2. Actualizar el contenido en
la cache con los cambios
3. Los datos modificados se
actualizan
automáticamente en base a
la clave primaria utilizando
procesos nativos de la
Fuente (UPSERT)
20. 20
Conclusions
• La analítica en tiempo real es una herramienta clave para la optimización
de procesos de negocio basado en datos
• Hay varias tecnologías que permiten implementar este concepto, por
ejemplo elCDC, Streaming y la virtualización de datos
• La virtualización de datos ofrece una aproximación muy flexible y de
bajo coste operacional
• Sin grandes cambios en la arquitectura de datos, Denodo permite añadir
análisis en tiempo real a un ecosistema de datos ya existente
• Los riesgos mas comunes, como el impacto sobre las fuentes
operacionales y la performance de las queries son sencillos de gestionar