2. Agrupamiento
! El agrupamiento es una técnica de aprendiza no
supervisado.
! El objetivo del agrupamiento es “juntar” un sub-
conjunto de datos en grupos, de tal forma que
3. Agrupamiento
! El agrupamiento es una técnica de aprendiza no
supervisado.
! El objetivo del agrupamiento es “juntar” un sub-
conjunto de datos en grupos, de tal forma que
! Los elementos del mismo grupo sean lo más parecido
posible.
4. Agrupamiento
! El agrupamiento es una técnica de aprendiza no
supervisado.
! El objetivo del agrupamiento es “juntar” un sub-
conjunto de datos en grupos, de tal forma que
! Los elementos del mismo grupo sean lo más parecido
posible.
! Los elementos de grupos diferentes sean lo más
diferente posible.
5. Agrupamiento
! Las técnicas de agrupamiento buscan crear
colecciones de datos con base en una medida de
semejanza.
! A través de una medida de semejanza son
comparados los elementos de todo el conjunto.
6. Medidas de Semejanza
! La semejanza puede ser vista como una cantidad
que refleja la relación entre dos elementos de un
conjunto.
7. Medidas de Semejanza
! La semejanza puede ser vista como una cantidad
que refleja la relación entre dos elementos de un
conjunto.
! Esta medida de semejanza está basada
comúnmente en una función de distancia,
8. Medidas de Semejanza
! La semejanza puede ser vista como una cantidad
que refleja la relación entre dos elementos de un
conjunto.
! Esta medida de semejanza está basada
comúnmente en una función de distancia,
! euclidiana,
! Manhatan,
! Minkowski,
! Coseno,
! etc.
9. Medidas de Semejanza
! Los grupos formados con base en estas medidas,
son de tal forma que dos datos en el mismo grupo
tiene un valor de distancia mínima, mientras que
dos datos de grupos diferentes presentan un valor
de distancia máximo, esta distancia se denomina
distancia del grupo.
10. Medidas de Semejanza
! La selección de la medida de semejanza está
directamente relacionada con la naturaleza del
conjunto de datos a agrupar
Conjunto de datos.
11. Medidas de Semejanza
! La selección de la medida de semejanza está
directamente relacionada con la naturaleza del
conjunto de datos a agrupar
Conjunto de datos.
Grupo1 Grupo2
12. Medidas de Semejanza
! La selección de la medida de semejanza está
directamente relacionada con la naturaleza del
conjunto de datos a agrupar
Conjunto de datos.
Grupo1 Grupo2
Distancia muy grande
entre puntos del
conjunto
Distancia
pequeña entre
puntos del
conjunto.
14. Medidas de Semejanza
Distancia Euclidiana
! Considerada como la métrica estándar para
problemas geométricos.
! La distancia euclidiana no es más que la raíz
cuadrada de la diferencia entre las coordenadas de
un par de objetos.
DXY = Xik − Xjk
( )
2
k=1
m
∑
15. Medidas de Semejanza
Distancia Coseno
! Determina la semejanza entre dos vectores
n-dimensionales a través del ángulo que se
forma entre ellos.
cosθ =
A⋅ B
A B
16. Medidas de Semejanza
Distancia Coseno
! Determina la semejanza entre dos vectores
n-dimensionales a través del ángulo que se
forma entre ellos.
! Esta medida va de [0, π], así que:
! Un valor de π significa que son opuestos.
! Un valor de π/2 significa independientes.
! Un valor de 0 significa iguales.
cosθ =
A⋅ B
A B
17. Medidas de Semejanza
Distancia Manhatan
! Es la distancia entre dos pares de puntos a lo largo
de ejes perpendiculares.
DXY = Xik − Xjk + Yik −Yjk
18. Medidas de Semejanza
Distancia Manhatan
! Es la distancia entre dos pares de puntos a lo largo
de ejes perpendiculares.
DXY = Xik − Xjk + Yik −Yjk
*Imagen tomada de internet
Figura 1*
19. Medidas de Semejanza
Distancia Jaccard
! La distancia Jaccard mide la semejanza de dos
conjuntos de datos y se calcula de la siguiente
forma:
J(A, B) =
A∩B
A∪B
23. Medidas de Semejanza
Distancia Minkowski
! La distancia de Minkowski es una métrica
generalizada de distancia euclidiana y distancia de
Manhattan.
DXY = Xik − Xjk
1
p
k=1
d
∑
⎛
⎝
⎜
⎞
⎠
⎟
p
24. Medidas de Semejanza
Distancia Minkowski
! La distancia de Minkowski es una métrica
generalizada de distancia euclidiana y distancia de
Manhattan.
! Si p=1 tenemos la distancia Manhatan.
! Si p=2 tenemos la distancia Euclidiana.
DXY = Xik − Xjk
p
k=1
d
∑
( )
1
p