SlideShare una empresa de Scribd logo
1 de 43
Descargar para leer sin conexión
Estadística y
Machine Learning
para Todos...TODOS!
Terminología, casos de uso, herramientas y caminos para
poner un pié en la Ciencia de Datos en México.
Copyright © @xuxoramos 2017
Objetivos
Que sepan cómo desmenuzar estadísticamente una
aseveración.
Que sepan qué es el aprendizaje automático y sus partes.
Que sepan para qué sirve el aprendizaje automático.
Que sepan por qué es importante para México ponerse
chingón en aprendizaje automático.
2Copyright © @xuxoramos 2017
Las noticias
Declaración típica de político:
3Copyright © @xuxoramos 2017
El enfoque periodísitico
● Comparar último mes del
PAN vs 1er mes del PRI.
● El PRI tiene mayor
número de sentencias.
● Pero luego bajan
rápidamente.
● Por tanto...
4Copyright © @xuxoramos 2017
El enfoque periodísitico
● Comparar último mes del
PAN vs 1er mes del PRI.
● El PRI tiene mayor
número de sentencias.
● Pero luego bajan
rápidamente.
● Por tanto...
5Copyright © @xuxoramos 2017
El enfoque estadístico
media(PAN)
media(PRI)
● Sacamos medias
del histórico
6
● PAN = 9480.33
PRI = 11590
● Son diferentes?
● Son
significativamente
diferentes?
Copyright © @xuxoramos 2017
El enfoque estadístico
Sacamos histograma
Fijamos distribución
7Copyright © @xuxoramos 2017
El enfoque estadístico
Sacamos histograma
Fijamos distribución
Probamos hipótesis:
calculamos la probabilidad
de que la diferencia entre
muestras sea debido al
azar (hipótesis nula), o si
es debido al factor que se
está explorando (hipótesis
alterna).
8Copyright © @xuxoramos 2017
El enfoque estadístico
Probamos hipótesis:
calculamos la probabilidad
de que la diferencia entre
muestras sea debido al
azar (hipótesis nula), o si
es debido al factor que se
está explorando (hipótesis
alterna).
Con 95% de confianza!
9Copyright © @xuxoramos 2017
El enfoque estadístico
Probamos hipótesis:
calculamos la probabilidad
de que la diferencia entre
muestras sea debido al
azar (hipótesis nula), o si
es debido al factor que se
está explorando (hipótesis
alterna).
Con 95% de confianza!
10Copyright © @xuxoramos 2017
El enfoque estadístico
Probamos hipótesis:
calculamos la probabilidad
de que la diferencia entre
muestras sea debido al
azar (hipótesis nula), o si
es debido al factor que se
está explorando (hipótesis
alterna).
Con 95% de confianza!
No hay suficiente evidencia de que la diferencia entre muestras sea
debido al factor explorado. Investígale mucho más!
Si hay suficiente evidencia de que la diferencia entre muestras sea
debido al factor explorado. Investígale poquito más!
11Copyright © @xuxoramos 2017
El enfoque estadístico
Cómo investigamos
más?
Controlando por factores!
Volviendo a probar
hipótesis.
"Diseño de experimentos"
Sentencias consignatorias…
Por partido
Por estado
Por año
Por antigüedad en el cargo
Por nivel administrativo
Por dependencia gubernamental
Si todos los experimentos confirman el
efecto del factor que exploramos, BINGO!
12Copyright © @xuxoramos 2017
Qué hueva! Como automatizo?
13Copyright © @xuxoramos 2017
Qué es Machine Learning?
Máquina
Programa
Datos
Contexto
Resultado de
negocio
Proyectos de Software
14Copyright © @xuxoramos 2017
Qué es Machine Learning?
Máquina
Resultado de negocio
Datos
Contexto
Programa
Proyectos de Machine Learning
15Copyright © @xuxoramos 2017
Tipos de Machine Learning
Máquina
Resultado de negocio
Datos
Contexto
Programa
Supervisado
16Copyright © @xuxoramos 2017
Tipos de Machine Learning
Máquina
Datos
Contexto
Programa
No-supervisado
17Copyright © @xuxoramos 2017
Tipos de Machine Learning
Máquina
Datos
Contexto
Programa
Reinforcement
Resultado de negocio
Ruido
18Copyright © @xuxoramos 2017
Objetivo
Identificar
patrones
equivocándose
lo menor posible.
19Copyright © @xuxoramos 2017
Cómo lo logra?
Balanceando
componentes del
error: sesgo +
varianza.
20Copyright © @xuxoramos 2017
Ejemplo
21
Posible sesgo de la muestra
Sesgo de selección
Varianza del fenómeno
Copyright © @xuxoramos 2017
Cómo balanceamos?
A mayor número
de variables,
mayor
complejidad.
También mayor
varianza.
Y menor sesgo.
22Copyright © @xuxoramos 2017
Cómo balanceamos?
Más/menos
variables
Mayor variables,
mayor complejidad.
Más/menos
renglones
Mayor num de
renglones DE LAS
VARIABLES
CORRECTAS,
menor sesgo.
CONTEXTO!
23Copyright © @xuxoramos 2017
Usos de Machine Learning
Clasificación
Partir el espacio
de datos en N
categorías con
funciones.
24Copyright © @xuxoramos 2017
Usos de Machine Learning
Regresión
Función que se
ajuste al espacio
de datos.
25Copyright © @xuxoramos 2017
Usos de Machine Learning
Agrupamiento/
Clustering
No
supervisado!
Descubrimiento
de grupos
emergentes.
26Copyright © @xuxoramos 2017
Usos de Machine Learning
Reducción de
dimensionalidad
Proyectar el
espacio de datos a
una sola
dimensión y
evaluar pérdida de
información.
27Copyright © @xuxoramos 2017
Y cómo lo aplico al ejemplo?
1. Definición del
problema
2. Recolección y
exploración de
datos
3. Inferencia
Estadística
4. Construcción
del modelo
5. Selección del
modelo.
28Copyright © @xuxoramos 2017
Y cómo lo aplico al ejemplo?
1. Definición del
problema
2. Recolección y
exploración de
datos
3. Inferencia
Estadística
4. Construcción
del modelo
5. Selección del
modelo.
Queremos ver si EPN miente?
Si sus fuentes mienten?
Si su comunicación es efectiva?
O si El Sabueso opera bien su metodología?
29Copyright © @xuxoramos 2017
Y cómo lo aplico al ejemplo?
1. Definición del
problema
2. Recolección y
exploración de
datos
3. Inferencia
Estadística
4. Construcción
del modelo
5. Selección del
modelo.
Queremos emular y validar la metodología de
El Sabueso.
Dependencia Nivel Motivo
Valor Inicial Valor final
Fecha
comparación
Valor de
Verdad
30Copyright © @xuxoramos 2017
Y cómo lo aplico al ejemplo?
1. Definición del
problema
2. Recolección y
exploración de
datos
3. Inferencia
Estadística
4. Construcción
del modelo
5. Selección del
modelo.
Queremos emular y validar la metodología de
El Sabueso.
Dependencia Nivel Motivo
Valor Inicial Valor final
Fecha
comparación
Valor de
Verdad
PREDICTORES
OBJETIVO
31Copyright © @xuxoramos 2017
Y cómo lo aplico al ejemplo?
1. Definición del
problema
2. Recolección y
exploración de
datos
3. Inferencia
Estadística
4. Construcción
del modelo
5. Selección del
modelo.
Conocer efecto de las variables seleccionadas
en la variable objetivo.
Dependencia Nivel Motivo
Valor Inicial Valor final
Fecha
comparación
Valor de
Verdad
32Copyright © @xuxoramos 2017
Y cómo lo aplico al ejemplo?
1. Definición del
problema
2. Recolección y
exploración de
datos
3. Inferencia
Estadística
4. Construcción
del modelo
5. Selección del
modelo.
Conocer efecto de las variables seleccionadas
en la variable objetivo.
SSP V Informe 13,000 18,000 ~2018 Falso
SE CONAGO 12.5 11.2 ~2016 Mayormente F
SHCP
Inaugurac
ión
8 10 ~2018
No se puede
probar
SEDESOL Visita 4mmdp 6.5mmdp ~2018 Engañoso
33Copyright © @xuxoramos 2017
Llevándolo a Producción
Labor entre la
Ingeniería de Datos
y la Ciencia de
Datos
Modelo
● Tolerancia a fallos
● 1000 hits por minuto
● Seguridad
● Monitoreo
API
34Copyright © @xuxoramos 2017
Cómo anda MX en esto?
113K Ingenieros de Software al año.
350 Matemáticos, actuarios, físicos y estadísticos.
No se conoce la diferencia entre Data Scientist (DS) y Data Engineer
(DE).
Tenemos miles de Data Engineers chingones.
No tenemos casi Científicos de Datos.
Tenemos muchos DE queriendo ser DS cuando no saben ni proba.
+
35Copyright © @xuxoramos 2017
Qué puede salir mal?
Telco importante dando créditos a sospechosos criminales.
Empresa importante de internet no le atina a predicción de AH1N1.
Gran empresa de software crea un bot sexualmente cargado y racista.
Empresa de internet clasifica foto de 2 afroamericanos como gorilas.
Crisis financiera de 2008.
Victoria de Trump.
36Copyright © @xuxoramos 2017
Debe México convertirse en un
hub de Ciencia de Datos?
La frontera norte se cierra a nuestros productos y servicios.
Poco petróleo, y a precio muy bajo.
Corrupción rampante.
Mercado interno débil.
Variables macroeconómicas malas.
La "mano de obra barata" no será relevante en la era de la
automatización.
37Copyright © @xuxoramos 2017
Cómo pueden ayudar?
Entra a un programa académico completo.
Regresa a la escuela a aprender mates.
Usa la educación abierta en internet para hacer tu propia maestría.
Únete a grupos profesionales.
Únete a comunidades.
38Copyright © @xuxoramos 2017
Mates aplicadas @ ITAM, UNAM, IPN
Física @ UNAM
Economía @ ITAM, UNAM
MSc Ciencia de Datos @ ITAM
MSc Inteligencia Analítica @ UAnáhuac
Programas académicos en MX*
+
* Evaluación de 63 candidatos para posiciones de Ciencia de Datos en Bolsa
Mexicana de Valores, GBM, TERAN/TBWA, Klustera, Globant, OPI y ConCrédito.
39Copyright © @xuxoramos 2017
Intro to Mathematical Thinking: Stanford + Coursera
Intro to Logic: Stanford + Coursera
Business Analytics: Wharton + Coursera
Data Science Specialization: JHU + Coursera
Machine Learning: Stanford + Coursera
Executive Data Science: JHU + Coursera
"Hága su propia maestría"*
* Ver ratings de cursos en https://www.class-central.com/ 40Copyright © @xuxoramos 2017
Sociedad de Científicos de Datos de México
Grupo más académico.
SocialTIC
Menos Ciencia, más visualización, periodismo e infoactivismo.
Instituto Internacional de Ciencia de Datos
Más governance y proyectos "empresariales".
Grupos Profesionales
41Copyright © @xuxoramos 2017
The Data Pub (FB: /thedatapub, TW: @thedatapub)
2500 miembros. Meetups cada último Jueves del mes.
Presentamos 2 proyectos donde el negocio o la vida humana sean
primero, las mates segundo, y la tecnología tercero.
Cursos de Stats & Machine Learning para Developers.
Job posting - porque sigue habiendo confusión entre DS y DE.
Badges - porque los endorsements de LinkedIn son "la hoguera de las
vanidades".
Comunidades
42Copyright © @xuxoramos 2017
Grax!
@xuxoramos
jesus@datank.ai
LinkedIn
Github
FB
43Copyright © @xuxoramos 2017

Más contenido relacionado

Destacado

Big Data, Big Flops: The gag reel of algorithms
Big Data, Big Flops: The gag reel of algorithmsBig Data, Big Flops: The gag reel of algorithms
Big Data, Big Flops: The gag reel of algorithmsJesus Ramos
 
Machine Learning For Organizations
Machine Learning For OrganizationsMachine Learning For Organizations
Machine Learning For OrganizationsJesus Ramos
 
Big Data, Big Disappointment (@TheDataPub)
Big Data, Big Disappointment (@TheDataPub)Big Data, Big Disappointment (@TheDataPub)
Big Data, Big Disappointment (@TheDataPub)Jesus Ramos
 
Wonderful Wacky Wide World of Data Analysis Applications
Wonderful Wacky Wide World of Data Analysis ApplicationsWonderful Wacky Wide World of Data Analysis Applications
Wonderful Wacky Wide World of Data Analysis ApplicationsJesus Ramos
 
Etiquetado de contenido editorial con bm25
Etiquetado de contenido editorial con bm25Etiquetado de contenido editorial con bm25
Etiquetado de contenido editorial con bm25Liliana Millán Núñez
 
Construyendo una Oficina de Datos de Alto Desempeño
Construyendo una Oficina de Datos de Alto Desempeño Construyendo una Oficina de Datos de Alto Desempeño
Construyendo una Oficina de Datos de Alto Desempeño Software Guru
 
Modelando la complejidad Urbana: Desde San LuisRío hasta la CDMX
Modelando la complejidad Urbana: Desde San LuisRío hasta la CDMXModelando la complejidad Urbana: Desde San LuisRío hasta la CDMX
Modelando la complejidad Urbana: Desde San LuisRío hasta la CDMXSoftware Guru
 
Emprendiendo con Data Science, Machine Learning y AI
Emprendiendo con Data Science, Machine Learning y AIEmprendiendo con Data Science, Machine Learning y AI
Emprendiendo con Data Science, Machine Learning y AISoftware Guru
 
Medio ambiente construido y su relación con la salud pública
Medio ambiente construido y su relación con la salud pública Medio ambiente construido y su relación con la salud pública
Medio ambiente construido y su relación con la salud pública Software Guru
 
Pentaho Data Integration: El ataque del Data Science
Pentaho Data Integration: El ataque del Data Science Pentaho Data Integration: El ataque del Data Science
Pentaho Data Integration: El ataque del Data Science Software Guru
 
Conservando empleos analíticos en México
Conservando empleos analíticos en México Conservando empleos analíticos en México
Conservando empleos analíticos en México Software Guru
 
¿Innovación en el gobierno?
¿Innovación en el gobierno?¿Innovación en el gobierno?
¿Innovación en el gobierno?Software Guru
 
¿Quién es Amazon Web Services?
¿Quién es Amazon Web Services?¿Quién es Amazon Web Services?
¿Quién es Amazon Web Services?Software Guru
 
Lo que Piensan los Ahorradores Mexicanos
 Lo que Piensan los Ahorradores Mexicanos  Lo que Piensan los Ahorradores Mexicanos
Lo que Piensan los Ahorradores Mexicanos Software Guru
 
Arquitectura empresarial como prerrequisito para ciencia de datos
Arquitectura empresarial como prerrequisito para ciencia de datos Arquitectura empresarial como prerrequisito para ciencia de datos
Arquitectura empresarial como prerrequisito para ciencia de datos Software Guru
 
Machine learning en la procuración de justicia laboral
Machine learning en la procuración de justicia laboral Machine learning en la procuración de justicia laboral
Machine learning en la procuración de justicia laboral Software Guru
 
AnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web ServicAnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web ServicSoftware Guru
 
Machine Learnig en Digital Media: Etiquetando Contenido Editorial
Machine Learnig en Digital Media: Etiquetando Contenido EditorialMachine Learnig en Digital Media: Etiquetando Contenido Editorial
Machine Learnig en Digital Media: Etiquetando Contenido EditorialSoftware Guru
 
Big Data Fortaleciendo Decisiones Empresariales
Big Data Fortaleciendo Decisiones Empresariales Big Data Fortaleciendo Decisiones Empresariales
Big Data Fortaleciendo Decisiones Empresariales Software Guru
 

Destacado (20)

Data science aplicado a periodismo
Data science aplicado a periodismoData science aplicado a periodismo
Data science aplicado a periodismo
 
Big Data, Big Flops: The gag reel of algorithms
Big Data, Big Flops: The gag reel of algorithmsBig Data, Big Flops: The gag reel of algorithms
Big Data, Big Flops: The gag reel of algorithms
 
Machine Learning For Organizations
Machine Learning For OrganizationsMachine Learning For Organizations
Machine Learning For Organizations
 
Big Data, Big Disappointment (@TheDataPub)
Big Data, Big Disappointment (@TheDataPub)Big Data, Big Disappointment (@TheDataPub)
Big Data, Big Disappointment (@TheDataPub)
 
Wonderful Wacky Wide World of Data Analysis Applications
Wonderful Wacky Wide World of Data Analysis ApplicationsWonderful Wacky Wide World of Data Analysis Applications
Wonderful Wacky Wide World of Data Analysis Applications
 
Etiquetado de contenido editorial con bm25
Etiquetado de contenido editorial con bm25Etiquetado de contenido editorial con bm25
Etiquetado de contenido editorial con bm25
 
Construyendo una Oficina de Datos de Alto Desempeño
Construyendo una Oficina de Datos de Alto Desempeño Construyendo una Oficina de Datos de Alto Desempeño
Construyendo una Oficina de Datos de Alto Desempeño
 
Modelando la complejidad Urbana: Desde San LuisRío hasta la CDMX
Modelando la complejidad Urbana: Desde San LuisRío hasta la CDMXModelando la complejidad Urbana: Desde San LuisRío hasta la CDMX
Modelando la complejidad Urbana: Desde San LuisRío hasta la CDMX
 
Emprendiendo con Data Science, Machine Learning y AI
Emprendiendo con Data Science, Machine Learning y AIEmprendiendo con Data Science, Machine Learning y AI
Emprendiendo con Data Science, Machine Learning y AI
 
Medio ambiente construido y su relación con la salud pública
Medio ambiente construido y su relación con la salud pública Medio ambiente construido y su relación con la salud pública
Medio ambiente construido y su relación con la salud pública
 
Pentaho Data Integration: El ataque del Data Science
Pentaho Data Integration: El ataque del Data Science Pentaho Data Integration: El ataque del Data Science
Pentaho Data Integration: El ataque del Data Science
 
Conservando empleos analíticos en México
Conservando empleos analíticos en México Conservando empleos analíticos en México
Conservando empleos analíticos en México
 
¿Innovación en el gobierno?
¿Innovación en el gobierno?¿Innovación en el gobierno?
¿Innovación en el gobierno?
 
¿Quién es Amazon Web Services?
¿Quién es Amazon Web Services?¿Quién es Amazon Web Services?
¿Quién es Amazon Web Services?
 
Lo que Piensan los Ahorradores Mexicanos
 Lo que Piensan los Ahorradores Mexicanos  Lo que Piensan los Ahorradores Mexicanos
Lo que Piensan los Ahorradores Mexicanos
 
Arquitectura empresarial como prerrequisito para ciencia de datos
Arquitectura empresarial como prerrequisito para ciencia de datos Arquitectura empresarial como prerrequisito para ciencia de datos
Arquitectura empresarial como prerrequisito para ciencia de datos
 
Machine learning en la procuración de justicia laboral
Machine learning en la procuración de justicia laboral Machine learning en la procuración de justicia laboral
Machine learning en la procuración de justicia laboral
 
AnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web ServicAnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web Servic
 
Machine Learnig en Digital Media: Etiquetando Contenido Editorial
Machine Learnig en Digital Media: Etiquetando Contenido EditorialMachine Learnig en Digital Media: Etiquetando Contenido Editorial
Machine Learnig en Digital Media: Etiquetando Contenido Editorial
 
Big Data Fortaleciendo Decisiones Empresariales
Big Data Fortaleciendo Decisiones Empresariales Big Data Fortaleciendo Decisiones Empresariales
Big Data Fortaleciendo Decisiones Empresariales
 

Similar a Estadistica y Machine Learning para Todos

Historias de Ciencia de Datos desde la Trinchera
Historias de Ciencia de Datos desde la TrincheraHistorias de Ciencia de Datos desde la Trinchera
Historias de Ciencia de Datos desde la TrincheraJesus Ramos
 
Inferencia Estadística para Periodistas
Inferencia Estadística para PeriodistasInferencia Estadística para Periodistas
Inferencia Estadística para PeriodistasJesus Ramos
 
Tarea 1. Resolución de cuestionario del capitulo 2. del texto
Tarea 1. Resolución de cuestionario del capitulo 2. del textoTarea 1. Resolución de cuestionario del capitulo 2. del texto
Tarea 1. Resolución de cuestionario del capitulo 2. del textoSteven Niño
 
Tema 3.3 introduccion al data science
Tema 3.3 introduccion al data scienceTema 3.3 introduccion al data science
Tema 3.3 introduccion al data scienceMauricio Arancibia
 
Tendencias de transformación digital - Aerolíneas
Tendencias de transformación digital - AerolíneasTendencias de transformación digital - Aerolíneas
Tendencias de transformación digital - AerolíneasFabian Garcia Guauque
 
El desafío del talento digital
El desafío del talento digitalEl desafío del talento digital
El desafío del talento digitalAMETIC
 
Modulo6 criptoactivos presentaciones-clase_final
Modulo6 criptoactivos presentaciones-clase_finalModulo6 criptoactivos presentaciones-clase_final
Modulo6 criptoactivos presentaciones-clase_finalJOSE ANGEL FERREIRA
 
Machine Learning in Investment Management March 2018
Machine Learning in Investment Management March 2018Machine Learning in Investment Management March 2018
Machine Learning in Investment Management March 2018Gerard Alba
 
datatons en Women Techmakers
datatons en Women Techmakersdatatons en Women Techmakers
datatons en Women TechmakersDatatons
 
Tendencias de transformación digital - Coworking spaces
Tendencias de transformación digital - Coworking spacesTendencias de transformación digital - Coworking spaces
Tendencias de transformación digital - Coworking spacesFabian Garcia Guauque
 
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdfSesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdfJuan225106
 
Análisis de Información: Generador de eficiencias en el margen de los productos
Análisis de Información: Generador de eficiencias en el margen de los productosAnálisis de Información: Generador de eficiencias en el margen de los productos
Análisis de Información: Generador de eficiencias en el margen de los productosAccenture México
 
PRESENTACIÓN-GENERAL-LCM-22.pdf
PRESENTACIÓN-GENERAL-LCM-22.pdfPRESENTACIÓN-GENERAL-LCM-22.pdf
PRESENTACIÓN-GENERAL-LCM-22.pdfjesusroque27
 

Similar a Estadistica y Machine Learning para Todos (20)

Historias de Ciencia de Datos desde la Trinchera
Historias de Ciencia de Datos desde la TrincheraHistorias de Ciencia de Datos desde la Trinchera
Historias de Ciencia de Datos desde la Trinchera
 
Inferencia Estadística para Periodistas
Inferencia Estadística para PeriodistasInferencia Estadística para Periodistas
Inferencia Estadística para Periodistas
 
Machine learning
Machine learningMachine learning
Machine learning
 
Tarea 1. Resolución de cuestionario del capitulo 2. del texto
Tarea 1. Resolución de cuestionario del capitulo 2. del textoTarea 1. Resolución de cuestionario del capitulo 2. del texto
Tarea 1. Resolución de cuestionario del capitulo 2. del texto
 
Tema 3.3 introduccion al data science
Tema 3.3 introduccion al data scienceTema 3.3 introduccion al data science
Tema 3.3 introduccion al data science
 
Entrevistas
EntrevistasEntrevistas
Entrevistas
 
Tendencias de transformación digital - Aerolíneas
Tendencias de transformación digital - AerolíneasTendencias de transformación digital - Aerolíneas
Tendencias de transformación digital - Aerolíneas
 
El desafío del talento digital
El desafío del talento digitalEl desafío del talento digital
El desafío del talento digital
 
TBDC
TBDCTBDC
TBDC
 
Modulo6 criptoactivos presentaciones-clase_final
Modulo6 criptoactivos presentaciones-clase_finalModulo6 criptoactivos presentaciones-clase_final
Modulo6 criptoactivos presentaciones-clase_final
 
Machine Learning in Investment Management March 2018
Machine Learning in Investment Management March 2018Machine Learning in Investment Management March 2018
Machine Learning in Investment Management March 2018
 
datatons en Women Techmakers
datatons en Women Techmakersdatatons en Women Techmakers
datatons en Women Techmakers
 
Tendencias de transformación digital - Coworking spaces
Tendencias de transformación digital - Coworking spacesTendencias de transformación digital - Coworking spaces
Tendencias de transformación digital - Coworking spaces
 
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdfSesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
 
Análisis de Información: Generador de eficiencias en el margen de los productos
Análisis de Información: Generador de eficiencias en el margen de los productosAnálisis de Información: Generador de eficiencias en el margen de los productos
Análisis de Información: Generador de eficiencias en el margen de los productos
 
Data Science: Correlación curricular
Data Science: Correlación curricularData Science: Correlación curricular
Data Science: Correlación curricular
 
METODOLOGÍA DE INVESTIGACIÓN Fase 2 grupo 3
METODOLOGÍA DE INVESTIGACIÓN Fase 2 grupo 3METODOLOGÍA DE INVESTIGACIÓN Fase 2 grupo 3
METODOLOGÍA DE INVESTIGACIÓN Fase 2 grupo 3
 
Fase 2 grupo 3
Fase 2 grupo 3Fase 2 grupo 3
Fase 2 grupo 3
 
PRESENTACIÓN-GENERAL-LCM-22.pdf
PRESENTACIÓN-GENERAL-LCM-22.pdfPRESENTACIÓN-GENERAL-LCM-22.pdf
PRESENTACIÓN-GENERAL-LCM-22.pdf
 
Ser tiempo
Ser tiempoSer tiempo
Ser tiempo
 

Más de Jesus Ramos

Formando Equipos de Ciencia de Datos
Formando Equipos de Ciencia de DatosFormando Equipos de Ciencia de Datos
Formando Equipos de Ciencia de DatosJesus Ramos
 
Practical Machine Ethics @ SXSW2019
Practical Machine Ethics @ SXSW2019Practical Machine Ethics @ SXSW2019
Practical Machine Ethics @ SXSW2019Jesus Ramos
 
Data Quality for Data Science Projects
Data Quality for Data Science ProjectsData Quality for Data Science Projects
Data Quality for Data Science ProjectsJesus Ramos
 
Algorithmic Transparency
Algorithmic TransparencyAlgorithmic Transparency
Algorithmic TransparencyJesus Ramos
 
WTF with Big Data?
WTF with Big Data?WTF with Big Data?
WTF with Big Data?Jesus Ramos
 
Big Data, Big Disappointment
Big Data, Big DisappointmentBig Data, Big Disappointment
Big Data, Big DisappointmentJesus Ramos
 

Más de Jesus Ramos (6)

Formando Equipos de Ciencia de Datos
Formando Equipos de Ciencia de DatosFormando Equipos de Ciencia de Datos
Formando Equipos de Ciencia de Datos
 
Practical Machine Ethics @ SXSW2019
Practical Machine Ethics @ SXSW2019Practical Machine Ethics @ SXSW2019
Practical Machine Ethics @ SXSW2019
 
Data Quality for Data Science Projects
Data Quality for Data Science ProjectsData Quality for Data Science Projects
Data Quality for Data Science Projects
 
Algorithmic Transparency
Algorithmic TransparencyAlgorithmic Transparency
Algorithmic Transparency
 
WTF with Big Data?
WTF with Big Data?WTF with Big Data?
WTF with Big Data?
 
Big Data, Big Disappointment
Big Data, Big DisappointmentBig Data, Big Disappointment
Big Data, Big Disappointment
 

Último

PPT Difusión Empresa tmert, material Achs de apoyo
PPT Difusión Empresa tmert, material Achs de apoyoPPT Difusión Empresa tmert, material Achs de apoyo
PPT Difusión Empresa tmert, material Achs de apoyoRalFranciscoMartinez
 
Trabajo herramientas informáticas trabajo pestel.pdf
Trabajo herramientas informáticas trabajo pestel.pdfTrabajo herramientas informáticas trabajo pestel.pdf
Trabajo herramientas informáticas trabajo pestel.pdfjggaratep
 
BASE DE DATOS - INSTALACION LARAGON 2024
BASE DE DATOS - INSTALACION LARAGON 2024BASE DE DATOS - INSTALACION LARAGON 2024
BASE DE DATOS - INSTALACION LARAGON 2024DiegoAlejandroFajard1
 
Tinkercad Mikaela Lagos- Skarleth Ayala .
Tinkercad Mikaela Lagos- Skarleth Ayala .Tinkercad Mikaela Lagos- Skarleth Ayala .
Tinkercad Mikaela Lagos- Skarleth Ayala .mikalagos1roa
 
Familias más ricas de México en la historia (2024) .pdf
Familias más ricas de México en la historia (2024) .pdfFamilias más ricas de México en la historia (2024) .pdf
Familias más ricas de México en la historia (2024) .pdfJC Díaz Herrera
 
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdfBOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdfIrapuatoCmovamos
 
Países el alto ingreso y stock per cápita en América Latina (1819-2024).pdf
Países el alto ingreso y stock  per cápita en América Latina (1819-2024).pdfPaíses el alto ingreso y stock  per cápita en América Latina (1819-2024).pdf
Países el alto ingreso y stock per cápita en América Latina (1819-2024).pdfJC Díaz Herrera
 
Familias más ricas de AL en la historia (2024).pdf
Familias más ricas de AL en la historia (2024).pdfFamilias más ricas de AL en la historia (2024).pdf
Familias más ricas de AL en la historia (2024).pdfJC Díaz Herrera
 
RED DE PARQUES NACIONALES DANIELA CASAS 4ºB
RED DE PARQUES NACIONALES DANIELA CASAS 4ºBRED DE PARQUES NACIONALES DANIELA CASAS 4ºB
RED DE PARQUES NACIONALES DANIELA CASAS 4ºBdanihouses0609
 

Último (9)

PPT Difusión Empresa tmert, material Achs de apoyo
PPT Difusión Empresa tmert, material Achs de apoyoPPT Difusión Empresa tmert, material Achs de apoyo
PPT Difusión Empresa tmert, material Achs de apoyo
 
Trabajo herramientas informáticas trabajo pestel.pdf
Trabajo herramientas informáticas trabajo pestel.pdfTrabajo herramientas informáticas trabajo pestel.pdf
Trabajo herramientas informáticas trabajo pestel.pdf
 
BASE DE DATOS - INSTALACION LARAGON 2024
BASE DE DATOS - INSTALACION LARAGON 2024BASE DE DATOS - INSTALACION LARAGON 2024
BASE DE DATOS - INSTALACION LARAGON 2024
 
Tinkercad Mikaela Lagos- Skarleth Ayala .
Tinkercad Mikaela Lagos- Skarleth Ayala .Tinkercad Mikaela Lagos- Skarleth Ayala .
Tinkercad Mikaela Lagos- Skarleth Ayala .
 
Familias más ricas de México en la historia (2024) .pdf
Familias más ricas de México en la historia (2024) .pdfFamilias más ricas de México en la historia (2024) .pdf
Familias más ricas de México en la historia (2024) .pdf
 
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdfBOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
 
Países el alto ingreso y stock per cápita en América Latina (1819-2024).pdf
Países el alto ingreso y stock  per cápita en América Latina (1819-2024).pdfPaíses el alto ingreso y stock  per cápita en América Latina (1819-2024).pdf
Países el alto ingreso y stock per cápita en América Latina (1819-2024).pdf
 
Familias más ricas de AL en la historia (2024).pdf
Familias más ricas de AL en la historia (2024).pdfFamilias más ricas de AL en la historia (2024).pdf
Familias más ricas de AL en la historia (2024).pdf
 
RED DE PARQUES NACIONALES DANIELA CASAS 4ºB
RED DE PARQUES NACIONALES DANIELA CASAS 4ºBRED DE PARQUES NACIONALES DANIELA CASAS 4ºB
RED DE PARQUES NACIONALES DANIELA CASAS 4ºB
 

Estadistica y Machine Learning para Todos

  • 1. Estadística y Machine Learning para Todos...TODOS! Terminología, casos de uso, herramientas y caminos para poner un pié en la Ciencia de Datos en México. Copyright © @xuxoramos 2017
  • 2. Objetivos Que sepan cómo desmenuzar estadísticamente una aseveración. Que sepan qué es el aprendizaje automático y sus partes. Que sepan para qué sirve el aprendizaje automático. Que sepan por qué es importante para México ponerse chingón en aprendizaje automático. 2Copyright © @xuxoramos 2017
  • 3. Las noticias Declaración típica de político: 3Copyright © @xuxoramos 2017
  • 4. El enfoque periodísitico ● Comparar último mes del PAN vs 1er mes del PRI. ● El PRI tiene mayor número de sentencias. ● Pero luego bajan rápidamente. ● Por tanto... 4Copyright © @xuxoramos 2017
  • 5. El enfoque periodísitico ● Comparar último mes del PAN vs 1er mes del PRI. ● El PRI tiene mayor número de sentencias. ● Pero luego bajan rápidamente. ● Por tanto... 5Copyright © @xuxoramos 2017
  • 6. El enfoque estadístico media(PAN) media(PRI) ● Sacamos medias del histórico 6 ● PAN = 9480.33 PRI = 11590 ● Son diferentes? ● Son significativamente diferentes? Copyright © @xuxoramos 2017
  • 7. El enfoque estadístico Sacamos histograma Fijamos distribución 7Copyright © @xuxoramos 2017
  • 8. El enfoque estadístico Sacamos histograma Fijamos distribución Probamos hipótesis: calculamos la probabilidad de que la diferencia entre muestras sea debido al azar (hipótesis nula), o si es debido al factor que se está explorando (hipótesis alterna). 8Copyright © @xuxoramos 2017
  • 9. El enfoque estadístico Probamos hipótesis: calculamos la probabilidad de que la diferencia entre muestras sea debido al azar (hipótesis nula), o si es debido al factor que se está explorando (hipótesis alterna). Con 95% de confianza! 9Copyright © @xuxoramos 2017
  • 10. El enfoque estadístico Probamos hipótesis: calculamos la probabilidad de que la diferencia entre muestras sea debido al azar (hipótesis nula), o si es debido al factor que se está explorando (hipótesis alterna). Con 95% de confianza! 10Copyright © @xuxoramos 2017
  • 11. El enfoque estadístico Probamos hipótesis: calculamos la probabilidad de que la diferencia entre muestras sea debido al azar (hipótesis nula), o si es debido al factor que se está explorando (hipótesis alterna). Con 95% de confianza! No hay suficiente evidencia de que la diferencia entre muestras sea debido al factor explorado. Investígale mucho más! Si hay suficiente evidencia de que la diferencia entre muestras sea debido al factor explorado. Investígale poquito más! 11Copyright © @xuxoramos 2017
  • 12. El enfoque estadístico Cómo investigamos más? Controlando por factores! Volviendo a probar hipótesis. "Diseño de experimentos" Sentencias consignatorias… Por partido Por estado Por año Por antigüedad en el cargo Por nivel administrativo Por dependencia gubernamental Si todos los experimentos confirman el efecto del factor que exploramos, BINGO! 12Copyright © @xuxoramos 2017
  • 13. Qué hueva! Como automatizo? 13Copyright © @xuxoramos 2017
  • 14. Qué es Machine Learning? Máquina Programa Datos Contexto Resultado de negocio Proyectos de Software 14Copyright © @xuxoramos 2017
  • 15. Qué es Machine Learning? Máquina Resultado de negocio Datos Contexto Programa Proyectos de Machine Learning 15Copyright © @xuxoramos 2017
  • 16. Tipos de Machine Learning Máquina Resultado de negocio Datos Contexto Programa Supervisado 16Copyright © @xuxoramos 2017
  • 17. Tipos de Machine Learning Máquina Datos Contexto Programa No-supervisado 17Copyright © @xuxoramos 2017
  • 18. Tipos de Machine Learning Máquina Datos Contexto Programa Reinforcement Resultado de negocio Ruido 18Copyright © @xuxoramos 2017
  • 20. Cómo lo logra? Balanceando componentes del error: sesgo + varianza. 20Copyright © @xuxoramos 2017
  • 21. Ejemplo 21 Posible sesgo de la muestra Sesgo de selección Varianza del fenómeno Copyright © @xuxoramos 2017
  • 22. Cómo balanceamos? A mayor número de variables, mayor complejidad. También mayor varianza. Y menor sesgo. 22Copyright © @xuxoramos 2017
  • 23. Cómo balanceamos? Más/menos variables Mayor variables, mayor complejidad. Más/menos renglones Mayor num de renglones DE LAS VARIABLES CORRECTAS, menor sesgo. CONTEXTO! 23Copyright © @xuxoramos 2017
  • 24. Usos de Machine Learning Clasificación Partir el espacio de datos en N categorías con funciones. 24Copyright © @xuxoramos 2017
  • 25. Usos de Machine Learning Regresión Función que se ajuste al espacio de datos. 25Copyright © @xuxoramos 2017
  • 26. Usos de Machine Learning Agrupamiento/ Clustering No supervisado! Descubrimiento de grupos emergentes. 26Copyright © @xuxoramos 2017
  • 27. Usos de Machine Learning Reducción de dimensionalidad Proyectar el espacio de datos a una sola dimensión y evaluar pérdida de información. 27Copyright © @xuxoramos 2017
  • 28. Y cómo lo aplico al ejemplo? 1. Definición del problema 2. Recolección y exploración de datos 3. Inferencia Estadística 4. Construcción del modelo 5. Selección del modelo. 28Copyright © @xuxoramos 2017
  • 29. Y cómo lo aplico al ejemplo? 1. Definición del problema 2. Recolección y exploración de datos 3. Inferencia Estadística 4. Construcción del modelo 5. Selección del modelo. Queremos ver si EPN miente? Si sus fuentes mienten? Si su comunicación es efectiva? O si El Sabueso opera bien su metodología? 29Copyright © @xuxoramos 2017
  • 30. Y cómo lo aplico al ejemplo? 1. Definición del problema 2. Recolección y exploración de datos 3. Inferencia Estadística 4. Construcción del modelo 5. Selección del modelo. Queremos emular y validar la metodología de El Sabueso. Dependencia Nivel Motivo Valor Inicial Valor final Fecha comparación Valor de Verdad 30Copyright © @xuxoramos 2017
  • 31. Y cómo lo aplico al ejemplo? 1. Definición del problema 2. Recolección y exploración de datos 3. Inferencia Estadística 4. Construcción del modelo 5. Selección del modelo. Queremos emular y validar la metodología de El Sabueso. Dependencia Nivel Motivo Valor Inicial Valor final Fecha comparación Valor de Verdad PREDICTORES OBJETIVO 31Copyright © @xuxoramos 2017
  • 32. Y cómo lo aplico al ejemplo? 1. Definición del problema 2. Recolección y exploración de datos 3. Inferencia Estadística 4. Construcción del modelo 5. Selección del modelo. Conocer efecto de las variables seleccionadas en la variable objetivo. Dependencia Nivel Motivo Valor Inicial Valor final Fecha comparación Valor de Verdad 32Copyright © @xuxoramos 2017
  • 33. Y cómo lo aplico al ejemplo? 1. Definición del problema 2. Recolección y exploración de datos 3. Inferencia Estadística 4. Construcción del modelo 5. Selección del modelo. Conocer efecto de las variables seleccionadas en la variable objetivo. SSP V Informe 13,000 18,000 ~2018 Falso SE CONAGO 12.5 11.2 ~2016 Mayormente F SHCP Inaugurac ión 8 10 ~2018 No se puede probar SEDESOL Visita 4mmdp 6.5mmdp ~2018 Engañoso 33Copyright © @xuxoramos 2017
  • 34. Llevándolo a Producción Labor entre la Ingeniería de Datos y la Ciencia de Datos Modelo ● Tolerancia a fallos ● 1000 hits por minuto ● Seguridad ● Monitoreo API 34Copyright © @xuxoramos 2017
  • 35. Cómo anda MX en esto? 113K Ingenieros de Software al año. 350 Matemáticos, actuarios, físicos y estadísticos. No se conoce la diferencia entre Data Scientist (DS) y Data Engineer (DE). Tenemos miles de Data Engineers chingones. No tenemos casi Científicos de Datos. Tenemos muchos DE queriendo ser DS cuando no saben ni proba. + 35Copyright © @xuxoramos 2017
  • 36. Qué puede salir mal? Telco importante dando créditos a sospechosos criminales. Empresa importante de internet no le atina a predicción de AH1N1. Gran empresa de software crea un bot sexualmente cargado y racista. Empresa de internet clasifica foto de 2 afroamericanos como gorilas. Crisis financiera de 2008. Victoria de Trump. 36Copyright © @xuxoramos 2017
  • 37. Debe México convertirse en un hub de Ciencia de Datos? La frontera norte se cierra a nuestros productos y servicios. Poco petróleo, y a precio muy bajo. Corrupción rampante. Mercado interno débil. Variables macroeconómicas malas. La "mano de obra barata" no será relevante en la era de la automatización. 37Copyright © @xuxoramos 2017
  • 38. Cómo pueden ayudar? Entra a un programa académico completo. Regresa a la escuela a aprender mates. Usa la educación abierta en internet para hacer tu propia maestría. Únete a grupos profesionales. Únete a comunidades. 38Copyright © @xuxoramos 2017
  • 39. Mates aplicadas @ ITAM, UNAM, IPN Física @ UNAM Economía @ ITAM, UNAM MSc Ciencia de Datos @ ITAM MSc Inteligencia Analítica @ UAnáhuac Programas académicos en MX* + * Evaluación de 63 candidatos para posiciones de Ciencia de Datos en Bolsa Mexicana de Valores, GBM, TERAN/TBWA, Klustera, Globant, OPI y ConCrédito. 39Copyright © @xuxoramos 2017
  • 40. Intro to Mathematical Thinking: Stanford + Coursera Intro to Logic: Stanford + Coursera Business Analytics: Wharton + Coursera Data Science Specialization: JHU + Coursera Machine Learning: Stanford + Coursera Executive Data Science: JHU + Coursera "Hága su propia maestría"* * Ver ratings de cursos en https://www.class-central.com/ 40Copyright © @xuxoramos 2017
  • 41. Sociedad de Científicos de Datos de México Grupo más académico. SocialTIC Menos Ciencia, más visualización, periodismo e infoactivismo. Instituto Internacional de Ciencia de Datos Más governance y proyectos "empresariales". Grupos Profesionales 41Copyright © @xuxoramos 2017
  • 42. The Data Pub (FB: /thedatapub, TW: @thedatapub) 2500 miembros. Meetups cada último Jueves del mes. Presentamos 2 proyectos donde el negocio o la vida humana sean primero, las mates segundo, y la tecnología tercero. Cursos de Stats & Machine Learning para Developers. Job posting - porque sigue habiendo confusión entre DS y DE. Badges - porque los endorsements de LinkedIn son "la hoguera de las vanidades". Comunidades 42Copyright © @xuxoramos 2017