1. 기계 학습의 현재와 미래
Joon Hee Kim
KAIST
Users and Information Lab
1
2. 소개
• 김준희
= 카이스트 전산학과 박사 과정 (uilab.kaist.ac.kr, 마지막 학기!!)
+ 코노랩스 (kono.ai, 인공지능 스케쥴링 비서) 리서치 엔지니어
• 연구분야
베이지안 통계 모델, 텍스트 중심 빅 데이터, 유저 프로파일링
• 가장 최근 연구
클릭율이 높아지도록 자동으로 헤드라인 단어를 생성하는 기계 학습
모델
(headline.joonhee.kim, Yahoo! Research, KDD 2016)
29. 현재 딥 러닝의 쟁점
다 잘 되네. 그럼 이제 어디에 적용할까?
1. 기존에 있는 걸 더 잘하자: ex. 영상 의학 (시각), 챗봇 (텍스트)
2. 컨벌전스 (여러 도메인 합치기): ex. 적응형 VR (시각 + 텍스트)
3. 완전히 새로운 무언가 = ?
30. 현재 딥 러닝의 문제점
• 여전히 만연하는 연구의 쏠림 현상
(or 부익부 빈익빈 or 유행)
• 설명되지 않는 잔상
• 더 크게 더 많이가 아닌, 명확한 이론과 방향성이 필요
31. 2016 학회 동향
• NIPS: 기계 학습, 계산 신경학
115 / 569 (딥러닝 관련 / 전체 논문)
• ICML: 기계 학습
58 / 322
• KDD: 데이터 마이닝
10 / 208
32. 현재 딥 러닝의 도전 과제
• 구조
새로운 레이어, activation function
• 도메인
새로운 문제, 도메인, 학습법
• 베이지안
베이지안과 장단점 합치기
• 응용
강화학습, non-convex optimization, 비전, 텍스트, 시계열
데이터
• 해석
이게 왜 되지?
34. Learning What and Where to Draw
GAN
두개의 네트워크가 서로 경쟁
g-net: 최대한 비슷한 이미지 생성
d-net: 진짜와 가짜를 구분
35. ICML
• 키워드
새로운 레이어, 강화 학습
Why does X work?
• Pixel Recurrent Neural Networks
• Dueling Network Architectures
for Deep Reinforcement Learning 0
6
12
18
24
구조 도메인 베이지안 응용 설명
36. Pixel Recurrent Neural Networks
목표: 가려진 이미지 재구성 모델: Bi-directional LSTM
• 2차원 LSTM 을 구성
• CNN 이 아닌 RNN (LSTM) 을 맥락이라는 의미로 이미지에 적용
• 이미지의 다양한 재구성, 블러 없애기, 화질 증가 등에 사용
37. Dueling Network Architectures for
Deep Reinforcement Learning
이때 이렇게 행동해야지
강화학습
=
지금 이런 상황이야 이때 이렇게 행동해야지
- 상황과 행동 따로 학습
- 더 빠른 학습
- 더 효율적인 일반화
38. KDD
• 키워드: 어디에 사용할까?
• Transferring Deep Visual Semantic Features
to Large-Scale Multimodal Learning to Rank
0
2
4
6
8
구조 도메인 베이지안 응용 설명
39. Transferring Deep Visual Semantic
Features to Large-Scale Multimodal Learning to Rank
1. CNN 을 통하여 각 상품의 이미지+텍스트 생성
42. 딥 러닝
• 구조
새로운 레이어, activation function
• 도메인
새로운 문제, 도메인, 학습법
• 베이지안
베이지안과 장단점 합치기
• 응용
강화학습, non-convex optimization, 비전, 텍스트, 시계열
데이터
• 해석
이게 왜 되지?
43. 강화 학습
• 이론
- 현재 알고리즘은 (Q-Learning, Policy Gradients)
기존의 방법에 딥 러닝에 접목 시킨 정도
• 환경
- 적은 데이터와 적은 변수로 학습
- 다자간 학습
• 응용
- 온라인: 게임 외에 어떻게 사용 할 것인가?
- 오프라인: 무인 자동차, 드론, 로보틱스 (무한한 실험이 힘
들다)
- 새로운 적용 분야는?
44. 자연어 처리
1. 기계적 NLP (현재 위치)
- 문장 이해, 문장 생성
- 문맥 파악
- 기계 번역
2. 인간적 NLP
- 감정, 뉘앙스, 분위기 분석
- 사회적 대화
3. 새로운 생각 발생
- 연구 주제 생성
- 전략적 생각
- 시/소설 작성, 몽상
45. 비젼/음성
• 딥 러닝
새로운 레이어 구조, 생물학적 힌트
• one shot learning
• 비디오
• 언어와 연결
• 멀티미디어 생성
• 아름다움, 유행
47. 챗봇
• 개인 AI 비서
- 모바일, 모바일, 모바일
- iOS vs. Android 와 동일한 플랫폼의 문제
• 실제 사람의 AI 페르소나
- 살아 있을때 및 사후에도, 혹은 예전의 위인들도
48. 의학
• 약학, 유전학
• 영상의학과
- 암, 뇌, 눈, 폐 진단에서 인간과 비슷 혹은 그 이상
- 제 3세계
• 정신과
- 우울증 진단 및 치료
• 진단의학과
- Watson
- 치료를 넘어서, 발병 전 예측 및 향후 건강 예측
49. 엔터테인먼트
• 적응형 VR
- 생각하는 대로 실시간 시각 정보 생성
• 멀티미디어 추천 / 합성
- 현재 감정에 맞는 영화, 음악 추천
- 현재 보고 있는 스포츠 상황에 맞는 배경 음악 합성
- 자동 요약 및 리플레이
• 여행/관광
- VR/AR
- 컨텍스트에 맞는 나레이션 (detour)
50. 그외
• 금융
- 개인/회사 리스크 분석
• 교육
- 학생을 정확히 이해
• 유통, 소상공인
- 정확한 수요 예측, 컨설팅
51. Reference
• 딥 러닝 구조화 / 시각화
http://www.asimovinstitute.org/neural-network-zoo/
• 학회
https://nips.cc/
http://icml.cc/2016/
http://www.kdd.org/kdd2016/
• 좋은 딥 러닝 강의들
- Geoffrey Hinton @ Toronto
https://www.coursera.org/learn/neural-networks
- Nando de Freitas @ Oxford
https://www.cs.ox.ac.uk/people/nando.defreitas/
machinelearning/
- Deep Learning Summer School
http://videolectures.net/deeplearning2016_montreal/
52. Reference
• Silver, David, et al. "Mastering the game of Go with deep neural networks and tree
search." Nature 529.7587 (2016): 484-489.
• Zhang, Richard, Phillip Isola, and Alexei A. Efros. "Colorful Image Colorization."
arXiv preprint arXiv:1603.08511 (2016).
• Gatys, Leon A., Alexander S. Ecker, and Matthias Bethge. "A neural algorithm of
artistic style." arXiv preprint arXiv:1508.06576 (2015).
• Reed, Scott E., et al. "Learning what and where to draw." Advances In Neural
Information Processing Systems. 2016.
• van den Oord, Aaron, Nal Kalchbrenner, and Koray Kavukcuoglu. "Pixel Recurrent
Neural Networks." arXiv preprint arXiv:1601.06759 (2016).
• Wang, Ziyu, Nando de Freitas, and Marc Lanctot. "Dueling network architectures
for deep reinforcement learning." arXiv preprint arXiv:1511.06581 (2015).
• Lynch, Corey, Kamelia Aryafar, and Josh Attenberg. "Images Don't Lie: Transferring
Deep Visual Semantic Features to Large-Scale Multimodal Learning to Rank." arXiv
preprint arXiv:1511.06746 (2015).