SlideShare una empresa de Scribd logo
1 de 58
Descargar para leer sin conexión
Visualizing Data Using t-SNE
Teruaki Hayashi, Nagoya Univ.
번역 : 김홍배
목차
2
1. Introduction
2. Stochastic Neighbor Embedding
3. t-Stochastic Neighbor Embedding
4. Experiments
5. Applying t-SNE to large dataset
6. Discussion
7. Conclusion
목차
1. Introduction
2. Stochastic Neighbor Embedding
3. t-Stochastic Neighbor Embedding
4. Experiments
5. Applying t-SNE to large dataset
6. Discussion
7. Conclusion
3
Introduction
4
고차원 데이터의 시각화는 다양한 분야에서 중요한 과제
 다양한 차원을 취급
 예 : 유방암 관련 세포핵의 종류 → 30 종류
 예 : 문서를 표현하는 단어벡터 → 수천 차원
지금까지 다양한 방법이 연구되어왔다
 이미지 기반 기법(Image based)
 Chernoff faces [Chernoff, 1973]
 Pixel based technique [Keim, 2000]
 차원 감소 기법(Dimension reduction)
 Principal Component Analysis [Hotteling, 1993]
 Multi Dimensional Scaling [Torgerson, 1952]
Introduction
 Chernoff Face [Chernoff, 1973]
 다차원 데이터를 인간의 얼굴로 표시
 15 종류의 얼굴의 파라미터를 가짐
Chernoff face의 예
5
Introduction
 Pixel-based technique [Keim, 2000]
 고차원 데이터를 색상과 edge로 표현한다(?)
20년간의 일기를 가시화한 결과
6
Introduction
고차원 데이터의 시각화는 다양한 분야에서 중요한 과제
 다양한 차원을 취급
 예 : 유방암 관련 세포핵의 종류 → 30 종류
 예 : 문서를 표현하는 단어벡터 → 수천 차원
본논문의 목적
 고차원 데이터 𝑋 = {𝑥1, 𝑥2, … , 𝑥 𝑛 }를 도시 가능한
 저차원 데이터 𝑌 = {𝑦1, 𝑦2, … , 𝑦𝑛 } 로 표시
 데이터의 Local한 구조뿐만 아니라 다양체(Manifold)와 같은
구조를 유지한 체 가시화
7
Introduction
다양체 (manifold)란
 고차원 공간 중에 존재하는 실질적으로는 보다 저차원으로 표시 가능한 도형
다양체의 예:스위스 롤
8
Introduction
 Global 구조와 Local 구조를 모두 유지한다 란?
예:필기 숫자의 가시화
9
Introduction
클러스터가 생성되어있을 뿐만 아니라
9와 7과 같이 특징이 비숫한 경우
근방에 위치하고 있다.
10
 Global 구조와 Local 구조를 모두 유지한다 란?
예:필기 숫자의 가시화
1. Introduction
목차
2. Stochastic Neighbor Embedding
3. t-Stochastic Neighbor Embedding
4. Experiments
5. Applying t-SNE to large dataset
6. Discussion
7. Conclusion
11
SNE – (1)
유사도 높음
𝑥 𝑘
12
유사도 낮음
Stochastic Neighbor Embedding (SNE)
 고차원 공간에서 유클리드 거리(Euclidean distance)를 데이터 포인트의 유사성을
표현하는 조건부 확률(conditional probability)로 변환하는 방법
 𝑥𝑗 의 𝑥𝑖 에 대한 유사도를 나타내는 조건부 확률
 𝑥𝑖 를 중심으로 하는 가우스 분포(Gaussian distribution)의
밀도에 비례해 근방이 선택되도록
 조건부 확률이 높다 → 데이터 포인트가 가깝다
 조건부 확률이 낮다 → 데이터 포인트가 멀다
𝑥𝑖를 중심으로 하는 가우스 분포
𝑥𝑖 𝑥𝑗
SNE – (2)
Stochastic Neighbor Embedding (SNE)
 데이터 점 𝑥𝑖 에 대한 데이터 점 𝑥𝑗 의 조건부 확률은
 조건부 확률:𝑥𝑖 에 대한 𝑥𝑗 의 유사도 표현
 두점간의 유사도 모델링화에만 주목 → 𝑝𝑖|𝑖 = 0
𝑥𝑖 : 고차원 데이터 점
𝑥𝑗 : 고차원 데이터 점
𝜎𝑖: 𝑥𝑖 를 중심으로 한 가우스 분포의 분산
13
 고차원 공간에서 유클리드 거리(Euclidean distance)를 데이터 포인트의
유사성을 표현하는 조건부 확률(conditional probability)로 변환하는 방법
SNE – (3)
 고차원 데이터 포인트에 대응하는 저차원 데이터 포인트를 정의
xi , xj
고차원 공간표현
 맵점의 조건부 확률
14
yi , yj
저차원 공간표현(맵점)
 두 점 사이의 유사성 모델링에만 주목 → 𝑞𝑖|𝑖 = 0
 Map 포인트가 제대로 모델링 되었다면 𝑝𝑗 |𝑖 = 𝑞 𝑗| 𝑖
𝑝 𝑗| 𝑖 과 𝑞𝑗|𝑖 간의 KL거리를 최소화하도록 맵점을 탐사
SNE – (4)
구배법을 이용하여 KL 거리의 최소화를 수행
모든 데이터 포인트에 대한 KL 거리의 합
𝑃𝑖: 데이터 점 𝑥𝑖 대한 모든 데이터 점의 조건부 확률 분포
𝑄 𝑖: 맵점 𝑦𝑖대한 모든 맵점의 조건부 확률 분포
 KL거리는 비대칭
 맵상에서의 거리는 동일하게 가중되어있지 않다.
 맵상에서 먼 점을 가까운 데이터 점에 대응 → cost large
 맵상에서 가까운 점을 먼 데이터 점에 대응 → costsmall
15
맵상에서 Local한 구조를 유지한다.
SNE – (5)
16
 데이터 점 𝑥𝑖 대한 가우스 분포의 분산 선택
 단일 분산을 모든 데이터 점에 부여 → 부적절
 밀도 높은 영역의 데이터 점 → 분산 소
 밀도 얇은 영역의 데이터 점 → 분산 대
Perplexity scale에 의한 binary search의 도입
 𝑃𝑒𝑟𝑝: 데이터 점 𝑥𝑖 의 유효한 근방의 개수의 척도
 지정된 𝑃𝑒𝑟𝑝를 갖도록 𝜎𝑖 를설정
 일반적으로는 5~50사이를 𝑃𝑒𝑟𝑝로서 설정
 ※𝜎𝑖 에 대해서 𝑃𝑒𝑟𝑝는 일정하게 증가
Perplexity를 정의
SNE – (6)
 각 맵점의 구배는 놀랍도록 아주 심플
물리적인 구배의 해석
 맵점 𝑦𝑖와 다른 맵점 𝑦𝑗間 사이의 스프링에 의한 합성력
 스프링은 ( 𝑦𝑖 − 𝑦𝑗) 방향으로 작용
 맵점이 너무 가까우면 → 스프링은 반발
 맵점이 너무 멀면 → 스프링은 당김
 스프링의 힘은stiffness와 길이에 비례한다
17
( pj|i  qj|i  pi| j  qi| j ) ( yi  yj )
데이터 점의 유사도과
맵점의 유사도의 불일치
맵상에서의 거리
SNE – (7)
구배법에 의한 update
1. 평균 0에 분산이 작은 등방성 가우스 분포로부터
무작위로 초기 맵점을 샘플링
2. Local minimum에 빠지지 않도록 모멘텀을 도입
𝑌(𝑡)
𝜂
𝛼 𝑡
∶ 시간 𝑡에서의 맵점
∶ learning rate
∶ 시간 𝑡에서의 모멘텀
학습 초기 단계에서는 업데이트 후 gaussian 노이즈를 추가
점차 노이즈의 분산을 작게局所解か脱出するのを手助けする
18
Local minimum으로부터 탈출하는 것을 도움
SNE – (8)
SNE의 약점
 노이즈의 초기값과 감쇠율의 설정이 매우 중요
 위에서 매개 변수가 학습속도와 모멘텀도 관계
 매개 변수의 탐색에 상당한 시간이 소요
수렴이 보장된 다른 기법이 사용하기 쉽다
계산시간이 단축된 매개 변수의 탐색없이
좋은 결과를 얻을 수있는 최적화 기법이 필요
t-Distributed Stochastic
Neighbor Embedding
19
1. Introduction
2. Stochastic Neighbor Embedding
目次
3. t-Stochastic Neighbor Embedding
4. Experiments
5. Applying t-SNE to large dataset
6. Discussion
7. Conclusion
20
t-SNE
21
SNE : 상당히 합리적인 가시화를 실현하였으나
 Cost ft’n의 최적화가 어려움
 Crowding문제 (후술)로 인하여 처리가 곤란
t-SNE: 이러한 문제를 해결한 개량형 SNE
 개선점
 SNE의 cost ft'n을 대칭적 버젼을 사용
• 구배가 보다 심플해짐
 저차원 공간(맵)상에서의 두점간의 유사도의 계산을
gaussian distribution이 아닌 Student-t distribution
기준으로
• Crowding문제와 최적화의 어려움을 경감
Symmetric SNE – (1)
 SNE: 조건부 확률분포 𝑝 𝑗|𝑖와 𝑞 𝑗|𝑖의 KL 거리를 최소화
 대체안:동시확률분포 𝑝 𝑗𝑖와 𝑞 𝑗𝑖의 KL 거리를 최소화
 Cost ft’n은
22
 조건부 확률분포의 경우와 마찬가지로 𝑝𝑖 𝑗 = 𝑞𝑖 𝑗 = 0
 이경우를 Symmetric SNE라고 부름
 분포가 임의의 𝑖 와 𝑗 에 대하여 대칭( 𝑝𝑖 𝑗 = 𝑝𝑗 𝑖 , 𝑞𝑖 𝑗 = 𝑞𝑗 𝑖 )
Symmetric SNE – (2)
 Symmetric SNE의 맵점의 유사도
 Symmetric SNE의 데이터점의 유사도
 그러나 데이터점 𝑥𝑖 가 Out-lier시에 문제가 발생
(모든 데이터점에 대하여 가 클 경우)
23
Symmetric SNE – (3)
 Out-lier에 의한 악영향
1. 데이터점 𝑥𝑖가 out-lier인 경우 → 가 커짐
2. 동시확률 𝑝𝑖𝑗가 상당히 작아짐
3. 맵점 𝑦𝑖의 cost ft’n로의 영향력이 작아짐
4. 맵점의 위치가 잘 정해지지 않음.
 이를 방지하기 위해 데이터 점의 유사도 형태를 변경
이에 따라 모든 데이터점이 비용함수에 기여 !
 Symmetric SNE의 구배는 보다 심플
ij
2n
i|jj|ip  p
p  ( 𝑛 은 데이터 점의 총수)
24
Crowding problem – (1)
2차원 공간상에서 3개를 등간격
본질적으로 10차원을 갖는 고차원 공간에서의 다양체(Manifold)
 필기 숫자 문자 데이터 세트를 상상하면 된다
10차원 다양체에서의 거리를 정확하게 모델링 할 수 없다.
 예 : 10 차원 다양체에서 상호 등간격인 11개의 데이터점
 2차원 공간으로의 정확한 매핑은 불가능
 차원수+1까지의 개수 밖에 일정한 간격으로 배치할 수 없다
???
25
2차원 공간상에서 4개를 등간격
Crowding problem – (2)
26
 데이터점이 𝑥𝑖 의 주변에 균일하게 분포
 이차원 공간의 space를 생각하면
 𝑥𝑖 로부터 적당히 떨어진 점을 위한 space : 좁게
 𝑥𝑖 로부터 가깝게 위치한 점을 위한 space : 넓게
→ 차원이 많을수록 등간격으로 위치하는 점은 증가
→ 작은 거리를 정확하게 표현하면
적당히 떨어진 점은 아주 멀리 배치된다
 SNE에서는 상당히 떨어진 점에는 약간의 인력만
 그러나 중심에는 상당히 많은 인력이 모여 버려서,
잠재적인 클러스터를 형성하는 것을 방해함
 Crowding problem
Crowding problem – (3)
27
UNI-SNE [Cook et al., 2007]
 작은 혼동비(confusion ratio)를 가진 균일 배경분포
모델(uniform background distribution model)의 도입
 모든 스프링에 미세한 척력(repulsive force)을 추가
 SNE보다 뛰어난 성능을 보여 주지만, 최적화가 어려움
 UNI-SNE의 최적화
1. 일반 SNE으로 최적화
2. 혼합 비율을 약간 증가시켜 최적화
3. 클러스터를 형성하기 위한 갭(gap)이 생성된다
2개의 클러스터가 최적화 초기 단계에서 분리된 경우
그들을 다시 묶기 위한 힘은 없어진다
t-SNE – (1)
가우스 분포와 자유도 1의 t분포의 비교
보다멀리배치시킴
28
끝단이 퍼지는 다른 분포를 이용
고차원 공간 :가우스 분포유사도로 변환
저차원 공간 :자유도1의 t-분포 유사도로 변환
→ 적당히 떨어진 점을 맵에서 더 멀리 배치 가능
→ 데이터 점과 닮지 않은 점 사이의 인력을 제거 가능
보다 가깝게 배치시킴
t-SNE – (2)
 자유도 1의 t분포를 이용한 맵점의 동시확률
 1 + 𝑦𝑖 - 𝑦 𝑗
2 −1
로부터,맵상에서 큰거리
𝑦𝑖 − 𝑦𝑗 에 대하여 Inverse square rule 성립
 멀리 떨어진 점에 의한 맵의 스케일 변화에 불변
 클러스터 집합에 대해서도 동일하게 일어난다
 t 분포는 사실 다양한 분산의 무한혼합 가우스분포
(infinite mixed Gaussian distribution)와 같다
 표현력이 높으면서도 계산 비용도 낮음
29
자유도 1의 t분포를 이용하는 이유
t-SNE – (3)
 데이터점의 유사도와 맵점의 유사도
30
 이경우 구배는
구배의 도출 – (1)
 맵상의 동시확률
계산의 간소화를 위해 2개의 보조변수를 도입
 고차원 공간상의 대칭 조건부 확률
 KL거리에 기반한 cost ft’n
i jij
  ij
i i j
pij  pij qij  pij
q
loglog
p
p log ij
C  KL(P |Q)
dij  yi  yj
k l
 𝑦𝑖 가 변경된 경우, 변하는 것은 𝑑𝑖 𝑗 , 𝑑 𝑗𝑖만
kl
2 1
Z  (1 d )
31
구배의 도출 – (2)
 Cost ft’n은 C =
32
t-SNE의 장점 – (1)
1. 유사하지 않음 점을 맵상에서 가까운 거리로
모델링한 경우 제대로 척력이 작용
 SNE는 척력이 없다
 UNI-SNE 는 인력에 비해 척력이 약함
 UNI-SNE 는 맵상의 거리가 클 때 밖에 척력이
커지지 않는다.
33
t-SNE의 장점 – (2)
2. 척력이 너무 커지지 않는다.
 UNI-SNE은 척력이 저차원 공간에서의 거리에 비례
 데이터 점이 서로 상당히 멀리 떨어져 버린다
34
t-SNE의 장점 – (3)
t-SNE의 특징 정리
1. 데이터 점 사이의 거리가 큰 것을 유사하지 않은 점으로 모델링
2. 데이터 점 사이의 거리가 작은 것을 유사한 점으로 모델링
3. Cost ft’n의 최적화가 용이 (사전 매개 변수 탐색이 필요 없음)
35
t-SNE 알고리즘 – (1)
36
가장 단순한 알고리즘
이것만으로도 다른 방법에 비해 우수한 결과를 낸다.
t-SNE 알고리즘 – (2)
37
학습을 보다 효과적으로 하기 위한 두 가지 기법
1. Early Compression
 최적화 시작할 때 맵상의 점을 밀집하도록 한다
 비용 함수로 L2 norm regularization 항을 추가
 클러스터가 예쁘게 분리되는 것을 도와줌
2. Early exaggeration
 최적화 시작 시에 𝑝𝑖𝑗에 적당한 숫자(4)를 적용한다.
 𝑞𝑖 𝑗 은 매우 작기 때문에 𝑝𝑖 𝑗 에 대응하기 위해 크게
움직인다
 이에 따라 맵점이 널리 퍼지도록 만듬
 클러스터가 Global한 구조를 쉽게 찾을 수 있다
 학습효율을 높이기 위해 둘 중 어떤 것이라도 사용할 수 있다
t-SNE 알고리즘
38
 실제 여기에서 다루어 진 매개 변수
 Early exaggeration: 4를 처음에 50회
 Iteration : 1000회
 모멘텀 : 0.5 (𝑡 ≤ 250) 0.8 (𝑡 > 250)
 Learning rate :100+Adaptive learning rate의한 최적화
 Perplexity: 40
1. Introduction
2. Stochastic Neighbor Embedding
3. t-Stochastic Neighbor Embedding
목차
4. Experiments
5. Applying t-SNE to large dataset
6. Discussion
7. Conclusion
39
Experiments – (1)
아래 7개 방법과 비교
1. Sammon Mapping
2. Isomap
3. Locally Linear Embedding (LLE)
4. Curvilinear Components Analysis (CCA)
5. SNE
6. Maximum Variance Unfolding (MVU)
7. Laplacian Eigenmaps
여기서는 이상 3개만
40
Sammon Mapping
Sammon Mapping
고차원 공간에서의 거리와 투영된 이차원 공간에서
의 거리를 최대한 가깝게 만드는 차원 감소 기법
 Cost ft’n을 다음과 같이 정의
 구배법으로 update
𝑑∗ : 고차원 공간상의 거리𝑖 𝑗
𝑑 𝑖 𝑗 :저차원 공간상의 거리
Y
E
Y (t)
 Y (t1)

𝑌(𝑡) ∶ 시간 t에서의 맵점
𝜂 ∶ L.R
Cost ft’n의 변화량 만큼만
41
Isomap – (1)
Isomap
 k-nearest neighborhood graph를 이용하여 다양체의 측지선 거리
(geodesic distance)를 구해 다차원 척도 구성법(multi-dimensional
scaling)을 사용하여 저차원 공간에 투영한다
 측지선 거리(geodesic distance) 란 ?
 간단하게 말하면 "다양체에 따른 면상의 거리"
참고 :http://www.slideshare.net/kohta/risomap2차원 다양체 스위스롤
스위스롤을 펼치면
측지선 거리
42
 k-neighborhood graph 란 ?
 노드와 k개의이웃노드를직선거리에기반하여 directedlinks로연결한것
Isomap – (2)
𝑘 = 3인경우의neighborhoodgraph의예
참고 :http://www.slideshare.net/kohta/risomap
43
Isomap
 k-nearest neighborhood graph를 이용하여 다양체의 측지선 거리
(geodesic distance)를 구해 다차원 척도 구성법(multi-dimensional
scaling)을 사용하여 저차원 공간에 투영한다
Isomap – (3)
어떻게 측지선 거리를 측정하나 ?
 다양체에서도 가까운 지점 간에는 Euclidean distance 관계로
 k-neighborhood graph를 작성함으로서 측지선 거리를
가까운 점의 Euclidean distance를 합쳐서 근사화
44参考:http://www.slideshare.net/kohta/risomap
Isomap
 k-nearest neighborhood graph를 이용하여 다양체의 측지선 거리
(geodesic distance)를 구해 다차원 척도 구성법(multi-dimensional
scaling)을 사용하여 저차원 공간에 투영한다
다양체면을 k-NN graph로 근사 직선거리를 합쳐서 근사
 다차원 척도 구성법 (MDS) 이란 ?
 거리 데이터만 주어졌을 때 그 거리를 재현하는 것처럼 좌표계를
역산하는 방법
Isomap – (4)
데
이
터
점
취
득
N
N
그
래
프
작
성
측
지
선
거
리
계
산
다
차
원
척
도
구
성
법
에
의
한
좌
표
취
득
산
포
도
상
에
시
각
화
45参考:http://www.slideshare.net/kohta/risomap
Isomap
 k-nearest neighborhood graph를 이용하여 다양체의 측지선 거리
(geodesic distance)를 구해 다차원 척도 구성법(multi-dimensional
scaling)을 사용하여 저차원 공간에 투영한다
Locally Linear Embedding
Locally Linear Embedding
 다양체는 좁은 범위에서 보면 선형 공간으로 간주 할 수있다
 좁은 범위에서 구축한 선형모델을 매끄럽게 연결하면 다양체를
잘 표현할 수 있다
 각 데이터 점 𝑥𝑖 을 그 근방의 점의 선형 결합으로
 아래를 최소화하는 매개 변수 W을 구한다
매개 변수 W을 고정한 채로 저차원 좌표를 구한다
 아래를 최소화하는 좌표 Y을 구한다
2
jN(i)W
arg min xi  wij xj
𝑁(𝑖) : 𝑥𝑖 의 NN집합
제약조건 :
2
46
jN(i)Y
arg min yi  wij yj
𝑦 𝑖: 저차원 공간표현
Experiments – (2)
47
이용하는 데이터셋
1. MNIST dataset
28 × 28 = 784 (pixel) 의 0~9까지의 필기 숫자
60000개 데이터로부터 랜덤하게 6000개 샘플링
2. Olivetti faces dataset
40인의 얼굴사진으로 1인당 10매 (400매)
92 × 112 = 10,304 (pixel)
3. COIL-20 dataset
20종류의 물체의 72방향에서 촬영한 사진(1440매)
32 × 32 = 1024 (pixel)
MNIST dataset
48
Olivetti faces dataset
49
COIL-20 dataset
50
Experiments – (3)
51
실험의 절차
1. PCA에 의해 30차원으로 차원 압축
각 데이터 점 사이의 거리 계산 시간의 단축
Noise suppression
2. 각종 기법에 의해 2 차원으로 차원 압축
3. 분산도를 plot
 각 데이터 세트는 레이블을 가지고 있지만 차원 압축
에는 전혀 사용하지 않는다
 분산도의 색깔과 기호 선택에만 사용
Experiments – (4)
 실험에 사용한 매개변수
 Sammon Mapping
 Newton법에 의한 최적화 500 Iteration
 Isomap & LLE
 NN 그래프에서 가장 접속수가 많은 데이터점 군만을 가시화
52
MNIST dataset – (1)
53
MNIST dataset – (2)
54
Olivetti faces dataset – (1)
55
Olivetti faces dataset – (2)
동일 class의 이미지가 2개 cluster로 분리
56
COIL-20 dataset – (1)
57
COIL-20 dataset – (2)
The images from the front and back are
almost together
58
소시지 부분

Más contenido relacionado

La actualidad más candente

[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalizationDeep Learning JP
 
텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝찬웅 주
 
diffusion 모델부터 DALLE2까지.pdf
diffusion 모델부터 DALLE2까지.pdfdiffusion 모델부터 DALLE2까지.pdf
diffusion 모델부터 DALLE2까지.pdf수철 박
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝Jinwon Lee
 
Normalization 방법
Normalization 방법 Normalization 방법
Normalization 방법 홍배 김
 
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position EmbeddingRoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position Embeddingtaeseon ryu
 
[PR12] Spectral Normalization for Generative Adversarial Networks
[PR12] Spectral Normalization for Generative Adversarial Networks[PR12] Spectral Normalization for Generative Adversarial Networks
[PR12] Spectral Normalization for Generative Adversarial NetworksJaeJun Yoo
 
オセロゲームにおける強化学習を用いたゲーム戦略の獲得
オセロゲームにおける強化学習を用いたゲーム戦略の獲得オセロゲームにおける強化学習を用いたゲーム戦略の獲得
オセロゲームにおける強化学習を用いたゲーム戦略の獲得Ko Shira
 
ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理Sho Takase
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지deepseaswjh
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisPR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisHyeongmin Lee
 
[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터Donghyeon Kim
 
hands on machine learning Chapter 6&7 decision tree, ensemble and random forest
hands on machine learning Chapter 6&7 decision tree, ensemble and random foresthands on machine learning Chapter 6&7 decision tree, ensemble and random forest
hands on machine learning Chapter 6&7 decision tree, ensemble and random forestJaey Jeong
 
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior NetworksDeep Learning JP
 
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기NAVER Engineering
 
[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개Donghyeon Kim
 

La actualidad más candente (20)

[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization
 
텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝
 
diffusion 모델부터 DALLE2까지.pdf
diffusion 모델부터 DALLE2까지.pdfdiffusion 모델부터 DALLE2까지.pdf
diffusion 모델부터 DALLE2까지.pdf
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝
 
Normalization 방법
Normalization 방법 Normalization 방법
Normalization 방법
 
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position EmbeddingRoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position Embedding
 
[PR12] Spectral Normalization for Generative Adversarial Networks
[PR12] Spectral Normalization for Generative Adversarial Networks[PR12] Spectral Normalization for Generative Adversarial Networks
[PR12] Spectral Normalization for Generative Adversarial Networks
 
オセロゲームにおける強化学習を用いたゲーム戦略の獲得
オセロゲームにおける強化学習を用いたゲーム戦略の獲得オセロゲームにおける強化学習を用いたゲーム戦略の獲得
オセロゲームにおける強化学習を用いたゲーム戦略の獲得
 
ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
Contrastive learning 20200607
Contrastive learning 20200607Contrastive learning 20200607
Contrastive learning 20200607
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisPR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터
 
hands on machine learning Chapter 6&7 decision tree, ensemble and random forest
hands on machine learning Chapter 6&7 decision tree, ensemble and random foresthands on machine learning Chapter 6&7 decision tree, ensemble and random forest
hands on machine learning Chapter 6&7 decision tree, ensemble and random forest
 
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
 
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
 
[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개
 

Destacado

Binarized CNN on FPGA
Binarized CNN on FPGABinarized CNN on FPGA
Binarized CNN on FPGA홍배 김
 
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...홍배 김
 
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...홍배 김
 
MNIST for ML beginners
MNIST for ML beginnersMNIST for ML beginners
MNIST for ML beginners홍배 김
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator홍배 김
 
Learning by association
Learning by associationLearning by association
Learning by association홍배 김
 
Explanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expertExplanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expert홍배 김
 
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder홍배 김
 
Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events홍배 김
 
Meta-Learning with Memory Augmented Neural Networks
Meta-Learning with Memory Augmented Neural NetworksMeta-Learning with Memory Augmented Neural Networks
Meta-Learning with Memory Augmented Neural Networks홍배 김
 
Convolution 종류 설명
Convolution 종류 설명Convolution 종류 설명
Convolution 종류 설명홍배 김
 
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance SegmentationSingle Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance Segmentation홍배 김
 
Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)홍배 김
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향홍배 김
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)홍배 김
 
Q Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization홍배 김
 

Destacado (16)

Binarized CNN on FPGA
Binarized CNN on FPGABinarized CNN on FPGA
Binarized CNN on FPGA
 
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
 
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
 
MNIST for ML beginners
MNIST for ML beginnersMNIST for ML beginners
MNIST for ML beginners
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator
 
Learning by association
Learning by associationLearning by association
Learning by association
 
Explanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expertExplanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expert
 
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder
 
Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events
 
Meta-Learning with Memory Augmented Neural Networks
Meta-Learning with Memory Augmented Neural NetworksMeta-Learning with Memory Augmented Neural Networks
Meta-Learning with Memory Augmented Neural Networks
 
Convolution 종류 설명
Convolution 종류 설명Convolution 종류 설명
Convolution 종류 설명
 
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance SegmentationSingle Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
 
Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)
 
Q Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization
 

Similar a Visualizing data using t-SNE

Data Visualization and t-SNE
Data Visualization and t-SNEData Visualization and t-SNE
Data Visualization and t-SNEHyeongmin Lee
 
논문-정규분포변환
논문-정규분포변환논문-정규분포변환
논문-정규분포변환jdo
 
Anomaly Detection based on Diffusion
Anomaly Detection based on DiffusionAnomaly Detection based on Diffusion
Anomaly Detection based on Diffusionssuserbaebf8
 
Data Structure 2
Data Structure 2Data Structure 2
Data Structure 2yonsei
 
Deep Learning from scratch 5장 : backpropagation
 Deep Learning from scratch 5장 : backpropagation Deep Learning from scratch 5장 : backpropagation
Deep Learning from scratch 5장 : backpropagationJinSooKim80
 
3.unsupervised learing
3.unsupervised learing3.unsupervised learing
3.unsupervised learingHaesun Park
 
120427 celluar texture
120427 celluar texture120427 celluar texture
120427 celluar textureCARROTCG
 
Lecture 4: Neural Networks I
Lecture 4: Neural Networks ILecture 4: Neural Networks I
Lecture 4: Neural Networks ISang Jun Lee
 
Cop 2주차발표 복사본
Cop 2주차발표   복사본Cop 2주차발표   복사본
Cop 2주차발표 복사본jungyounjung1
 
제노블레이도 2 ray marching을사용한 구름 표현
제노블레이도 2 ray marching을사용한 구름 표현제노블레이도 2 ray marching을사용한 구름 표현
제노블레이도 2 ray marching을사용한 구름 표현민웅 이
 
사회 연결망의 링크 예측
사회 연결망의 링크 예측사회 연결망의 링크 예측
사회 연결망의 링크 예측Kyunghoon Kim
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational InferenceKyeongUkJang
 
Lecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningLecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningSang Jun Lee
 
3.unsupervised learing(epoch#2)
3.unsupervised learing(epoch#2)3.unsupervised learing(epoch#2)
3.unsupervised learing(epoch#2)Haesun Park
 
Eigendecomposition and pca
Eigendecomposition and pcaEigendecomposition and pca
Eigendecomposition and pcaJinhwan Suk
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)SANG WON PARK
 
10_무한 평면과 놀기
10_무한 평면과 놀기10_무한 평면과 놀기
10_무한 평면과 놀기noerror
 
Shadow mapping 정리
Shadow mapping 정리Shadow mapping 정리
Shadow mapping 정리changehee lee
 

Similar a Visualizing data using t-SNE (20)

Data Visualization and t-SNE
Data Visualization and t-SNEData Visualization and t-SNE
Data Visualization and t-SNE
 
논문-정규분포변환
논문-정규분포변환논문-정규분포변환
논문-정규분포변환
 
Anomaly Detection based on Diffusion
Anomaly Detection based on DiffusionAnomaly Detection based on Diffusion
Anomaly Detection based on Diffusion
 
Data Structure 2
Data Structure 2Data Structure 2
Data Structure 2
 
07. PCA
07. PCA07. PCA
07. PCA
 
Deep Learning from scratch 5장 : backpropagation
 Deep Learning from scratch 5장 : backpropagation Deep Learning from scratch 5장 : backpropagation
Deep Learning from scratch 5장 : backpropagation
 
3.unsupervised learing
3.unsupervised learing3.unsupervised learing
3.unsupervised learing
 
120427 celluar texture
120427 celluar texture120427 celluar texture
120427 celluar texture
 
Lecture 4: Neural Networks I
Lecture 4: Neural Networks ILecture 4: Neural Networks I
Lecture 4: Neural Networks I
 
Cop 2주차발표 복사본
Cop 2주차발표   복사본Cop 2주차발표   복사본
Cop 2주차발표 복사본
 
제노블레이도 2 ray marching을사용한 구름 표현
제노블레이도 2 ray marching을사용한 구름 표현제노블레이도 2 ray marching을사용한 구름 표현
제노블레이도 2 ray marching을사용한 구름 표현
 
사회 연결망의 링크 예측
사회 연결망의 링크 예측사회 연결망의 링크 예측
사회 연결망의 링크 예측
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational Inference
 
Variational AutoEncoder(VAE)
Variational AutoEncoder(VAE)Variational AutoEncoder(VAE)
Variational AutoEncoder(VAE)
 
Lecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningLecture 3: Unsupervised Learning
Lecture 3: Unsupervised Learning
 
3.unsupervised learing(epoch#2)
3.unsupervised learing(epoch#2)3.unsupervised learing(epoch#2)
3.unsupervised learing(epoch#2)
 
Eigendecomposition and pca
Eigendecomposition and pcaEigendecomposition and pca
Eigendecomposition and pca
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)
 
10_무한 평면과 놀기
10_무한 평면과 놀기10_무한 평면과 놀기
10_무한 평면과 놀기
 
Shadow mapping 정리
Shadow mapping 정리Shadow mapping 정리
Shadow mapping 정리
 

Más de 홍배 김

Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...홍배 김
 
Gaussian processing
Gaussian processingGaussian processing
Gaussian processing홍배 김
 
Lecture Summary : Camera Projection
Lecture Summary : Camera Projection Lecture Summary : Camera Projection
Lecture Summary : Camera Projection 홍배 김
 
Learning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robotsLearning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robots홍배 김
 
Robotics of Quadruped Robot
Robotics of Quadruped RobotRobotics of Quadruped Robot
Robotics of Quadruped Robot홍배 김
 
Basics of Robotics
Basics of RoboticsBasics of Robotics
Basics of Robotics홍배 김
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명홍배 김
 
Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용홍배 김
 
Anomaly detection using deep one class classifier
Anomaly detection using deep one class classifierAnomaly detection using deep one class classifier
Anomaly detection using deep one class classifier홍배 김
 
Optimal real-time landing using DNN
Optimal real-time landing using DNNOptimal real-time landing using DNN
Optimal real-time landing using DNN홍배 김
 
The world of loss function
The world of loss functionThe world of loss function
The world of loss function홍배 김
 
Machine learning applications in aerospace domain
Machine learning applications in aerospace domainMachine learning applications in aerospace domain
Machine learning applications in aerospace domain홍배 김
 
Anomaly Detection and Localization Using GAN and One-Class Classifier
Anomaly Detection and Localization  Using GAN and One-Class ClassifierAnomaly Detection and Localization  Using GAN and One-Class Classifier
Anomaly Detection and Localization Using GAN and One-Class Classifier홍배 김
 
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...홍배 김
 
Brief intro : Invariance and Equivariance
Brief intro : Invariance and EquivarianceBrief intro : Invariance and Equivariance
Brief intro : Invariance and Equivariance홍배 김
 
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs홍배 김
 

Más de 홍배 김 (16)

Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
 
Gaussian processing
Gaussian processingGaussian processing
Gaussian processing
 
Lecture Summary : Camera Projection
Lecture Summary : Camera Projection Lecture Summary : Camera Projection
Lecture Summary : Camera Projection
 
Learning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robotsLearning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robots
 
Robotics of Quadruped Robot
Robotics of Quadruped RobotRobotics of Quadruped Robot
Robotics of Quadruped Robot
 
Basics of Robotics
Basics of RoboticsBasics of Robotics
Basics of Robotics
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명
 
Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용
 
Anomaly detection using deep one class classifier
Anomaly detection using deep one class classifierAnomaly detection using deep one class classifier
Anomaly detection using deep one class classifier
 
Optimal real-time landing using DNN
Optimal real-time landing using DNNOptimal real-time landing using DNN
Optimal real-time landing using DNN
 
The world of loss function
The world of loss functionThe world of loss function
The world of loss function
 
Machine learning applications in aerospace domain
Machine learning applications in aerospace domainMachine learning applications in aerospace domain
Machine learning applications in aerospace domain
 
Anomaly Detection and Localization Using GAN and One-Class Classifier
Anomaly Detection and Localization  Using GAN and One-Class ClassifierAnomaly Detection and Localization  Using GAN and One-Class Classifier
Anomaly Detection and Localization Using GAN and One-Class Classifier
 
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
 
Brief intro : Invariance and Equivariance
Brief intro : Invariance and EquivarianceBrief intro : Invariance and Equivariance
Brief intro : Invariance and Equivariance
 
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs
 

Visualizing data using t-SNE

  • 1. Visualizing Data Using t-SNE Teruaki Hayashi, Nagoya Univ. 번역 : 김홍배
  • 2. 목차 2 1. Introduction 2. Stochastic Neighbor Embedding 3. t-Stochastic Neighbor Embedding 4. Experiments 5. Applying t-SNE to large dataset 6. Discussion 7. Conclusion
  • 3. 목차 1. Introduction 2. Stochastic Neighbor Embedding 3. t-Stochastic Neighbor Embedding 4. Experiments 5. Applying t-SNE to large dataset 6. Discussion 7. Conclusion 3
  • 4. Introduction 4 고차원 데이터의 시각화는 다양한 분야에서 중요한 과제  다양한 차원을 취급  예 : 유방암 관련 세포핵의 종류 → 30 종류  예 : 문서를 표현하는 단어벡터 → 수천 차원 지금까지 다양한 방법이 연구되어왔다  이미지 기반 기법(Image based)  Chernoff faces [Chernoff, 1973]  Pixel based technique [Keim, 2000]  차원 감소 기법(Dimension reduction)  Principal Component Analysis [Hotteling, 1993]  Multi Dimensional Scaling [Torgerson, 1952]
  • 5. Introduction  Chernoff Face [Chernoff, 1973]  다차원 데이터를 인간의 얼굴로 표시  15 종류의 얼굴의 파라미터를 가짐 Chernoff face의 예 5
  • 6. Introduction  Pixel-based technique [Keim, 2000]  고차원 데이터를 색상과 edge로 표현한다(?) 20년간의 일기를 가시화한 결과 6
  • 7. Introduction 고차원 데이터의 시각화는 다양한 분야에서 중요한 과제  다양한 차원을 취급  예 : 유방암 관련 세포핵의 종류 → 30 종류  예 : 문서를 표현하는 단어벡터 → 수천 차원 본논문의 목적  고차원 데이터 𝑋 = {𝑥1, 𝑥2, … , 𝑥 𝑛 }를 도시 가능한  저차원 데이터 𝑌 = {𝑦1, 𝑦2, … , 𝑦𝑛 } 로 표시  데이터의 Local한 구조뿐만 아니라 다양체(Manifold)와 같은 구조를 유지한 체 가시화 7
  • 8. Introduction 다양체 (manifold)란  고차원 공간 중에 존재하는 실질적으로는 보다 저차원으로 표시 가능한 도형 다양체의 예:스위스 롤 8
  • 9. Introduction  Global 구조와 Local 구조를 모두 유지한다 란? 예:필기 숫자의 가시화 9
  • 10. Introduction 클러스터가 생성되어있을 뿐만 아니라 9와 7과 같이 특징이 비숫한 경우 근방에 위치하고 있다. 10  Global 구조와 Local 구조를 모두 유지한다 란? 예:필기 숫자의 가시화
  • 11. 1. Introduction 목차 2. Stochastic Neighbor Embedding 3. t-Stochastic Neighbor Embedding 4. Experiments 5. Applying t-SNE to large dataset 6. Discussion 7. Conclusion 11
  • 12. SNE – (1) 유사도 높음 𝑥 𝑘 12 유사도 낮음 Stochastic Neighbor Embedding (SNE)  고차원 공간에서 유클리드 거리(Euclidean distance)를 데이터 포인트의 유사성을 표현하는 조건부 확률(conditional probability)로 변환하는 방법  𝑥𝑗 의 𝑥𝑖 에 대한 유사도를 나타내는 조건부 확률  𝑥𝑖 를 중심으로 하는 가우스 분포(Gaussian distribution)의 밀도에 비례해 근방이 선택되도록  조건부 확률이 높다 → 데이터 포인트가 가깝다  조건부 확률이 낮다 → 데이터 포인트가 멀다 𝑥𝑖를 중심으로 하는 가우스 분포 𝑥𝑖 𝑥𝑗
  • 13. SNE – (2) Stochastic Neighbor Embedding (SNE)  데이터 점 𝑥𝑖 에 대한 데이터 점 𝑥𝑗 의 조건부 확률은  조건부 확률:𝑥𝑖 에 대한 𝑥𝑗 의 유사도 표현  두점간의 유사도 모델링화에만 주목 → 𝑝𝑖|𝑖 = 0 𝑥𝑖 : 고차원 데이터 점 𝑥𝑗 : 고차원 데이터 점 𝜎𝑖: 𝑥𝑖 를 중심으로 한 가우스 분포의 분산 13  고차원 공간에서 유클리드 거리(Euclidean distance)를 데이터 포인트의 유사성을 표현하는 조건부 확률(conditional probability)로 변환하는 방법
  • 14. SNE – (3)  고차원 데이터 포인트에 대응하는 저차원 데이터 포인트를 정의 xi , xj 고차원 공간표현  맵점의 조건부 확률 14 yi , yj 저차원 공간표현(맵점)  두 점 사이의 유사성 모델링에만 주목 → 𝑞𝑖|𝑖 = 0  Map 포인트가 제대로 모델링 되었다면 𝑝𝑗 |𝑖 = 𝑞 𝑗| 𝑖 𝑝 𝑗| 𝑖 과 𝑞𝑗|𝑖 간의 KL거리를 최소화하도록 맵점을 탐사
  • 15. SNE – (4) 구배법을 이용하여 KL 거리의 최소화를 수행 모든 데이터 포인트에 대한 KL 거리의 합 𝑃𝑖: 데이터 점 𝑥𝑖 대한 모든 데이터 점의 조건부 확률 분포 𝑄 𝑖: 맵점 𝑦𝑖대한 모든 맵점의 조건부 확률 분포  KL거리는 비대칭  맵상에서의 거리는 동일하게 가중되어있지 않다.  맵상에서 먼 점을 가까운 데이터 점에 대응 → cost large  맵상에서 가까운 점을 먼 데이터 점에 대응 → costsmall 15 맵상에서 Local한 구조를 유지한다.
  • 16. SNE – (5) 16  데이터 점 𝑥𝑖 대한 가우스 분포의 분산 선택  단일 분산을 모든 데이터 점에 부여 → 부적절  밀도 높은 영역의 데이터 점 → 분산 소  밀도 얇은 영역의 데이터 점 → 분산 대 Perplexity scale에 의한 binary search의 도입  𝑃𝑒𝑟𝑝: 데이터 점 𝑥𝑖 의 유효한 근방의 개수의 척도  지정된 𝑃𝑒𝑟𝑝를 갖도록 𝜎𝑖 를설정  일반적으로는 5~50사이를 𝑃𝑒𝑟𝑝로서 설정  ※𝜎𝑖 에 대해서 𝑃𝑒𝑟𝑝는 일정하게 증가 Perplexity를 정의
  • 17. SNE – (6)  각 맵점의 구배는 놀랍도록 아주 심플 물리적인 구배의 해석  맵점 𝑦𝑖와 다른 맵점 𝑦𝑗間 사이의 스프링에 의한 합성력  스프링은 ( 𝑦𝑖 − 𝑦𝑗) 방향으로 작용  맵점이 너무 가까우면 → 스프링은 반발  맵점이 너무 멀면 → 스프링은 당김  스프링의 힘은stiffness와 길이에 비례한다 17 ( pj|i  qj|i  pi| j  qi| j ) ( yi  yj ) 데이터 점의 유사도과 맵점의 유사도의 불일치 맵상에서의 거리
  • 18. SNE – (7) 구배법에 의한 update 1. 평균 0에 분산이 작은 등방성 가우스 분포로부터 무작위로 초기 맵점을 샘플링 2. Local minimum에 빠지지 않도록 모멘텀을 도입 𝑌(𝑡) 𝜂 𝛼 𝑡 ∶ 시간 𝑡에서의 맵점 ∶ learning rate ∶ 시간 𝑡에서의 모멘텀 학습 초기 단계에서는 업데이트 후 gaussian 노이즈를 추가 점차 노이즈의 분산을 작게局所解か脱出するのを手助けする 18 Local minimum으로부터 탈출하는 것을 도움
  • 19. SNE – (8) SNE의 약점  노이즈의 초기값과 감쇠율의 설정이 매우 중요  위에서 매개 변수가 학습속도와 모멘텀도 관계  매개 변수의 탐색에 상당한 시간이 소요 수렴이 보장된 다른 기법이 사용하기 쉽다 계산시간이 단축된 매개 변수의 탐색없이 좋은 결과를 얻을 수있는 최적화 기법이 필요 t-Distributed Stochastic Neighbor Embedding 19
  • 20. 1. Introduction 2. Stochastic Neighbor Embedding 目次 3. t-Stochastic Neighbor Embedding 4. Experiments 5. Applying t-SNE to large dataset 6. Discussion 7. Conclusion 20
  • 21. t-SNE 21 SNE : 상당히 합리적인 가시화를 실현하였으나  Cost ft’n의 최적화가 어려움  Crowding문제 (후술)로 인하여 처리가 곤란 t-SNE: 이러한 문제를 해결한 개량형 SNE  개선점  SNE의 cost ft'n을 대칭적 버젼을 사용 • 구배가 보다 심플해짐  저차원 공간(맵)상에서의 두점간의 유사도의 계산을 gaussian distribution이 아닌 Student-t distribution 기준으로 • Crowding문제와 최적화의 어려움을 경감
  • 22. Symmetric SNE – (1)  SNE: 조건부 확률분포 𝑝 𝑗|𝑖와 𝑞 𝑗|𝑖의 KL 거리를 최소화  대체안:동시확률분포 𝑝 𝑗𝑖와 𝑞 𝑗𝑖의 KL 거리를 최소화  Cost ft’n은 22  조건부 확률분포의 경우와 마찬가지로 𝑝𝑖 𝑗 = 𝑞𝑖 𝑗 = 0  이경우를 Symmetric SNE라고 부름  분포가 임의의 𝑖 와 𝑗 에 대하여 대칭( 𝑝𝑖 𝑗 = 𝑝𝑗 𝑖 , 𝑞𝑖 𝑗 = 𝑞𝑗 𝑖 )
  • 23. Symmetric SNE – (2)  Symmetric SNE의 맵점의 유사도  Symmetric SNE의 데이터점의 유사도  그러나 데이터점 𝑥𝑖 가 Out-lier시에 문제가 발생 (모든 데이터점에 대하여 가 클 경우) 23
  • 24. Symmetric SNE – (3)  Out-lier에 의한 악영향 1. 데이터점 𝑥𝑖가 out-lier인 경우 → 가 커짐 2. 동시확률 𝑝𝑖𝑗가 상당히 작아짐 3. 맵점 𝑦𝑖의 cost ft’n로의 영향력이 작아짐 4. 맵점의 위치가 잘 정해지지 않음.  이를 방지하기 위해 데이터 점의 유사도 형태를 변경 이에 따라 모든 데이터점이 비용함수에 기여 !  Symmetric SNE의 구배는 보다 심플 ij 2n i|jj|ip  p p  ( 𝑛 은 데이터 점의 총수) 24
  • 25. Crowding problem – (1) 2차원 공간상에서 3개를 등간격 본질적으로 10차원을 갖는 고차원 공간에서의 다양체(Manifold)  필기 숫자 문자 데이터 세트를 상상하면 된다 10차원 다양체에서의 거리를 정확하게 모델링 할 수 없다.  예 : 10 차원 다양체에서 상호 등간격인 11개의 데이터점  2차원 공간으로의 정확한 매핑은 불가능  차원수+1까지의 개수 밖에 일정한 간격으로 배치할 수 없다 ??? 25 2차원 공간상에서 4개를 등간격
  • 26. Crowding problem – (2) 26  데이터점이 𝑥𝑖 의 주변에 균일하게 분포  이차원 공간의 space를 생각하면  𝑥𝑖 로부터 적당히 떨어진 점을 위한 space : 좁게  𝑥𝑖 로부터 가깝게 위치한 점을 위한 space : 넓게 → 차원이 많을수록 등간격으로 위치하는 점은 증가 → 작은 거리를 정확하게 표현하면 적당히 떨어진 점은 아주 멀리 배치된다  SNE에서는 상당히 떨어진 점에는 약간의 인력만  그러나 중심에는 상당히 많은 인력이 모여 버려서, 잠재적인 클러스터를 형성하는 것을 방해함  Crowding problem
  • 27. Crowding problem – (3) 27 UNI-SNE [Cook et al., 2007]  작은 혼동비(confusion ratio)를 가진 균일 배경분포 모델(uniform background distribution model)의 도입  모든 스프링에 미세한 척력(repulsive force)을 추가  SNE보다 뛰어난 성능을 보여 주지만, 최적화가 어려움  UNI-SNE의 최적화 1. 일반 SNE으로 최적화 2. 혼합 비율을 약간 증가시켜 최적화 3. 클러스터를 형성하기 위한 갭(gap)이 생성된다 2개의 클러스터가 최적화 초기 단계에서 분리된 경우 그들을 다시 묶기 위한 힘은 없어진다
  • 28. t-SNE – (1) 가우스 분포와 자유도 1의 t분포의 비교 보다멀리배치시킴 28 끝단이 퍼지는 다른 분포를 이용 고차원 공간 :가우스 분포유사도로 변환 저차원 공간 :자유도1의 t-분포 유사도로 변환 → 적당히 떨어진 점을 맵에서 더 멀리 배치 가능 → 데이터 점과 닮지 않은 점 사이의 인력을 제거 가능 보다 가깝게 배치시킴
  • 29. t-SNE – (2)  자유도 1의 t분포를 이용한 맵점의 동시확률  1 + 𝑦𝑖 - 𝑦 𝑗 2 −1 로부터,맵상에서 큰거리 𝑦𝑖 − 𝑦𝑗 에 대하여 Inverse square rule 성립  멀리 떨어진 점에 의한 맵의 스케일 변화에 불변  클러스터 집합에 대해서도 동일하게 일어난다  t 분포는 사실 다양한 분산의 무한혼합 가우스분포 (infinite mixed Gaussian distribution)와 같다  표현력이 높으면서도 계산 비용도 낮음 29 자유도 1의 t분포를 이용하는 이유
  • 30. t-SNE – (3)  데이터점의 유사도와 맵점의 유사도 30  이경우 구배는
  • 31. 구배의 도출 – (1)  맵상의 동시확률 계산의 간소화를 위해 2개의 보조변수를 도입  고차원 공간상의 대칭 조건부 확률  KL거리에 기반한 cost ft’n i jij   ij i i j pij  pij qij  pij q loglog p p log ij C  KL(P |Q) dij  yi  yj k l  𝑦𝑖 가 변경된 경우, 변하는 것은 𝑑𝑖 𝑗 , 𝑑 𝑗𝑖만 kl 2 1 Z  (1 d ) 31
  • 32. 구배의 도출 – (2)  Cost ft’n은 C = 32
  • 33. t-SNE의 장점 – (1) 1. 유사하지 않음 점을 맵상에서 가까운 거리로 모델링한 경우 제대로 척력이 작용  SNE는 척력이 없다  UNI-SNE 는 인력에 비해 척력이 약함  UNI-SNE 는 맵상의 거리가 클 때 밖에 척력이 커지지 않는다. 33
  • 34. t-SNE의 장점 – (2) 2. 척력이 너무 커지지 않는다.  UNI-SNE은 척력이 저차원 공간에서의 거리에 비례  데이터 점이 서로 상당히 멀리 떨어져 버린다 34
  • 35. t-SNE의 장점 – (3) t-SNE의 특징 정리 1. 데이터 점 사이의 거리가 큰 것을 유사하지 않은 점으로 모델링 2. 데이터 점 사이의 거리가 작은 것을 유사한 점으로 모델링 3. Cost ft’n의 최적화가 용이 (사전 매개 변수 탐색이 필요 없음) 35
  • 36. t-SNE 알고리즘 – (1) 36 가장 단순한 알고리즘 이것만으로도 다른 방법에 비해 우수한 결과를 낸다.
  • 37. t-SNE 알고리즘 – (2) 37 학습을 보다 효과적으로 하기 위한 두 가지 기법 1. Early Compression  최적화 시작할 때 맵상의 점을 밀집하도록 한다  비용 함수로 L2 norm regularization 항을 추가  클러스터가 예쁘게 분리되는 것을 도와줌 2. Early exaggeration  최적화 시작 시에 𝑝𝑖𝑗에 적당한 숫자(4)를 적용한다.  𝑞𝑖 𝑗 은 매우 작기 때문에 𝑝𝑖 𝑗 에 대응하기 위해 크게 움직인다  이에 따라 맵점이 널리 퍼지도록 만듬  클러스터가 Global한 구조를 쉽게 찾을 수 있다  학습효율을 높이기 위해 둘 중 어떤 것이라도 사용할 수 있다
  • 38. t-SNE 알고리즘 38  실제 여기에서 다루어 진 매개 변수  Early exaggeration: 4를 처음에 50회  Iteration : 1000회  모멘텀 : 0.5 (𝑡 ≤ 250) 0.8 (𝑡 > 250)  Learning rate :100+Adaptive learning rate의한 최적화  Perplexity: 40
  • 39. 1. Introduction 2. Stochastic Neighbor Embedding 3. t-Stochastic Neighbor Embedding 목차 4. Experiments 5. Applying t-SNE to large dataset 6. Discussion 7. Conclusion 39
  • 40. Experiments – (1) 아래 7개 방법과 비교 1. Sammon Mapping 2. Isomap 3. Locally Linear Embedding (LLE) 4. Curvilinear Components Analysis (CCA) 5. SNE 6. Maximum Variance Unfolding (MVU) 7. Laplacian Eigenmaps 여기서는 이상 3개만 40
  • 41. Sammon Mapping Sammon Mapping 고차원 공간에서의 거리와 투영된 이차원 공간에서 의 거리를 최대한 가깝게 만드는 차원 감소 기법  Cost ft’n을 다음과 같이 정의  구배법으로 update 𝑑∗ : 고차원 공간상의 거리𝑖 𝑗 𝑑 𝑖 𝑗 :저차원 공간상의 거리 Y E Y (t)  Y (t1)  𝑌(𝑡) ∶ 시간 t에서의 맵점 𝜂 ∶ L.R Cost ft’n의 변화량 만큼만 41
  • 42. Isomap – (1) Isomap  k-nearest neighborhood graph를 이용하여 다양체의 측지선 거리 (geodesic distance)를 구해 다차원 척도 구성법(multi-dimensional scaling)을 사용하여 저차원 공간에 투영한다  측지선 거리(geodesic distance) 란 ?  간단하게 말하면 "다양체에 따른 면상의 거리" 참고 :http://www.slideshare.net/kohta/risomap2차원 다양체 스위스롤 스위스롤을 펼치면 측지선 거리 42
  • 43.  k-neighborhood graph 란 ?  노드와 k개의이웃노드를직선거리에기반하여 directedlinks로연결한것 Isomap – (2) 𝑘 = 3인경우의neighborhoodgraph의예 참고 :http://www.slideshare.net/kohta/risomap 43 Isomap  k-nearest neighborhood graph를 이용하여 다양체의 측지선 거리 (geodesic distance)를 구해 다차원 척도 구성법(multi-dimensional scaling)을 사용하여 저차원 공간에 투영한다
  • 44. Isomap – (3) 어떻게 측지선 거리를 측정하나 ?  다양체에서도 가까운 지점 간에는 Euclidean distance 관계로  k-neighborhood graph를 작성함으로서 측지선 거리를 가까운 점의 Euclidean distance를 합쳐서 근사화 44参考:http://www.slideshare.net/kohta/risomap Isomap  k-nearest neighborhood graph를 이용하여 다양체의 측지선 거리 (geodesic distance)를 구해 다차원 척도 구성법(multi-dimensional scaling)을 사용하여 저차원 공간에 투영한다 다양체면을 k-NN graph로 근사 직선거리를 합쳐서 근사
  • 45.  다차원 척도 구성법 (MDS) 이란 ?  거리 데이터만 주어졌을 때 그 거리를 재현하는 것처럼 좌표계를 역산하는 방법 Isomap – (4) 데 이 터 점 취 득 N N 그 래 프 작 성 측 지 선 거 리 계 산 다 차 원 척 도 구 성 법 에 의 한 좌 표 취 득 산 포 도 상 에 시 각 화 45参考:http://www.slideshare.net/kohta/risomap Isomap  k-nearest neighborhood graph를 이용하여 다양체의 측지선 거리 (geodesic distance)를 구해 다차원 척도 구성법(multi-dimensional scaling)을 사용하여 저차원 공간에 투영한다
  • 46. Locally Linear Embedding Locally Linear Embedding  다양체는 좁은 범위에서 보면 선형 공간으로 간주 할 수있다  좁은 범위에서 구축한 선형모델을 매끄럽게 연결하면 다양체를 잘 표현할 수 있다  각 데이터 점 𝑥𝑖 을 그 근방의 점의 선형 결합으로  아래를 최소화하는 매개 변수 W을 구한다 매개 변수 W을 고정한 채로 저차원 좌표를 구한다  아래를 최소화하는 좌표 Y을 구한다 2 jN(i)W arg min xi  wij xj 𝑁(𝑖) : 𝑥𝑖 의 NN집합 제약조건 : 2 46 jN(i)Y arg min yi  wij yj 𝑦 𝑖: 저차원 공간표현
  • 47. Experiments – (2) 47 이용하는 데이터셋 1. MNIST dataset 28 × 28 = 784 (pixel) 의 0~9까지의 필기 숫자 60000개 데이터로부터 랜덤하게 6000개 샘플링 2. Olivetti faces dataset 40인의 얼굴사진으로 1인당 10매 (400매) 92 × 112 = 10,304 (pixel) 3. COIL-20 dataset 20종류의 물체의 72방향에서 촬영한 사진(1440매) 32 × 32 = 1024 (pixel)
  • 51. Experiments – (3) 51 실험의 절차 1. PCA에 의해 30차원으로 차원 압축 각 데이터 점 사이의 거리 계산 시간의 단축 Noise suppression 2. 각종 기법에 의해 2 차원으로 차원 압축 3. 분산도를 plot  각 데이터 세트는 레이블을 가지고 있지만 차원 압축 에는 전혀 사용하지 않는다  분산도의 색깔과 기호 선택에만 사용
  • 52. Experiments – (4)  실험에 사용한 매개변수  Sammon Mapping  Newton법에 의한 최적화 500 Iteration  Isomap & LLE  NN 그래프에서 가장 접속수가 많은 데이터점 군만을 가시화 52
  • 56. Olivetti faces dataset – (2) 동일 class의 이미지가 2개 cluster로 분리 56
  • 58. COIL-20 dataset – (2) The images from the front and back are almost together 58 소시지 부분