SlideShare una empresa de Scribd logo
1 de 169
Descargar para leer sin conexión
알아두면 쓸데있는
신기한 강화학습
머신러닝 엔지니어
강화 학습
Reinforcement Learning (RL)
State 𝑠"
State 𝑠" Action 𝑎" = 2
Action 𝑎" = 2State 𝑠" Reward 𝑟" = 1
Action 𝑎" = 2State 𝑠" Reward 𝑟" = 1
Action 𝑎" = 0State 𝑠" Reward 𝑟" = −1
Action 𝑎" = 0State 𝑠" Reward 𝑟" = −1
행동을 하고 시행착오를 겪으며 학습
강화 학습
최근 강화 학습 연구들
Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533.
Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529.7587 (2016): 484-489.
Vinyals, Oriol, et al. "StarCraft II: A New Challenge for Reinforcement Learning."
이전의 강화학습은 잘 알려진 반면..
이후의 강화학습?
최근 강화 학습17.08.16
다섯 가지 트렌드
1.Multi Agent
3.Meta Learning
4.Guided RL
5.ETC Exploration, Continuous action, Imitation learning …
1.여러 로봇 학습하기
2.전략 세우기
3.배경 지식 활용하기
4.명령에 따라 다르게 행동하기
5.그 외 다양한 시도, 연속적인 행동, 따라하기, …
강화 학습이 처음이신 분께 다소 어려울 수 있기 때문에
전체적인 흐름 파악에만 집중해 주세요
하나씩 얕고 좁게..
1. 여러 로봇 학습하기
Multi Agent RL
Single Agent
협업 or 경쟁이 필요한 Multi Agent
자율 주행 자동차, 대화 AI, 대규모 공장 로봇 …
Peng, Peng, et al. "Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games." arXiv preprint arXiv:1703.10069 (2017).
Multi-Agent RL
다중 에이전트 강화 학습
Single Agent 학습 방식을
그대로 쓰기 어렵다
Deep Q­learning, Policy Gradient …
다양한 어려움이 있지만..
Multi-Agent RL
Non stationary environment
다른 Agent 때문에 생기는 불확실성 때문에 학습이 어렵고 기존의 경험을 바로 활용하기 어렵다
B에 가까이 갈 때 +1 reward
B에 가까이 갈 때 +1 reward
Q( ) = +2
Q(𝑎") : 각 행동 𝑎"가 가져울 미래 가치
Q( ) = +2
Q( ) = +4
Q(𝑎") : 각 행동 𝑎"가 가져울 미래 가치
Q( ) = +2
Q( ) = +4
Q( ) = -2
Q( ) = -4
Q(𝑎") : 각 행동 𝑎"가 가져울 미래 가치
Q( ) = +2
Q( ) = +4
Q( ) = -2
Q( ) = -4
Q(𝑎") : 각 행동 𝑎"가 가져울 미래 가치
B가 갑자기 움직이기 시작한다면?
Q( ) = ?
Q( ) = ?Q( ) = ?
Q( ) = ?
A가 이전에 배웠던 Q(𝑎")는 무쓸모
예를 들어 B가 갑자기 순간 이동을 한다고 했을때
B가 다른 reward를 받는 Agent라면?
학습하면서 행동을 바꾼다면
Q( ) = ?
Q( ) = ?Q( ) = ?
Q( ) = ?
Q-value 학습이 굉장히 불안정해 질 것
Q( ) = ?
Q( ) = ?Q( ) = ?
Q( ) = ?
다양한 시도
Multi-Agent RL
Mordatch, Igor, and Pieter Abbeel. "Emergence of Grounded Compositional Language in Multi-Agent Populations." arXiv preprint arXiv:1703.04908 (2017)
다른 모든 Agent에게 메세지 전달
Actor-Critic + Centralized Q-value
다른 Agent의 내부 정보를 공유
Lowe, Ryan, et al. "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments." arXiv preprint arXiv:1706.02275 (2017)
Centralized Q-value
2. 전략 세우기
Hierarchical RL + Model-based RL
Reward가 자주 생겨서 학습이 쉬움
Reward가 너무 드물어서 학습이 어려움
Sparse Reward
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016.
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017).
30번 정도의 올바른 행동 후에 0이 아닌 Reward을 얻음
밧줄을 타고 내려가서 해골을 피하고 사다리를 타서 열쇠를 얻어야 100점 얻음
Hierarchical RL
계층 강화 학습
Non-hierarchical RL
행동 𝑎"
Non-hierarchical RL
행동 𝑎"Reward 𝑟"
Non-hierarchical RL
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
목표1 목표2 목표3
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
밧줄 잡기
목표1 목표2 목표3
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
밧줄 잡기 사다리 내려가기
목표1 목표2 목표3
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
밧줄 잡기 사다리 내려가기 점프 하기
목표1 목표2 목표3
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
목표1 목표2 목표3
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
밧줄 잡기 사다리 내려가기 점프 하기
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
목표1 목표2 목표3
- - ON
목표 Ω
행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
𝑎*,"𝑎,," 𝑎-,"
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
목표1 목표2 목표3
- - ON
목표 Ω
행동 𝑎-,"행동 𝑎"Reward 𝑟"
Non-hierarchical RL Hierarchical RL
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
목표1 목표2 목표3
- - ON
목표 Ω
행동 𝑎-,"행동 𝑎"Reward 𝑟" Reward 𝑟"
Non-hierarchical RL Hierarchical RL
Montezuma 잘 풀었다
Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016
Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017)
Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
하지만, 암기로 풀 수 있음
암기로 풀 수 없는 문제
Weber, Théophane, et al. "Imagination-Augmented Agents for Deep Reinforcement Learning." arXiv preprint arXiv:1707.06203 (2017).
Weber, Théophane, et al. "Imagination-Augmented Agents for Deep Reinforcement Learning." arXiv preprint arXiv:1707.06203 (2017).
실제로 일어날 일을 시뮬레이션으로 (internal simulation) 상상해 보고 행동
Model-free RL + Model-based RL
Deep Q-learning
Policy Gradient
Model-free RL + Model-based RL
Weber, Théophane, et al. "Imagination-Augmented Agents for Deep Reinforcement Learning." arXiv preprint arXiv:1707.06203 (2017).
3. 배경 지식 활용하기
Meta Learning
사람처럼 기존의 경험을 활용해
새로운 환경에서 어떻게 잘 적응을 할 수 있을까?
Meta Learning
여러가지 접근법
Meta Learning
Weight Update를 빠르게 하려면?
최적의 네트워크를 찾으려면?
작은 데이터만 보고도 잘 분류하려면?
한번도 안 본 게임도 잘 클리어 하려면?
Meta Learning + RL
Meta Learning
Meta Learning + RL
Meta Reinforcement Learning
한번도 안 본 게임도 잘 클리어 하려면?
Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
한판 = 한 Episode
Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
Episode가 끝나도 정보를 리셋하지 않고 계속 사용
Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
N번의 Episode를 하나의 Trial로 정의
N번의 Episode를 통해서 최적의 플레이를 찾는 방법을 학습
Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
새로운 시도에는 새로운 게임(여기서는 새로운 맵)을 플레이
Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
새로운 시도에는 새로운 게임(여기서는 새로운 맵)을 플레이
좀 더 현실적인 예시: 마리오를 N번 플레이 내에 끝까지 클리어
다양한 마리오 게임을 학습하고 학습하지 않았던 마리오 게임을 플레이
다양한 레이싱 게임을 학습하고 학습하지 않았던 레이싱 게임을 플레이
ex. GTA, 실제 자율 주행 자동차
다양한 시도
Meta RL
RL2: Recurrent Network
Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016).
Episode의 Return이 아닌 Trial의 Return을 optimize
Model-Agnostic Meta-Learning
Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks." arXiv preprint arXiv:1703.03400 (2017).
여러 Task를 동시에 학습해 weight의 central point를 찾음
그리고 1번의 gradient update로 새 Task에 적응
4. 명령에 따라 다르게 행동하기
단 한가지 목표
단 한가지 목표 자율 주행 = 무한가지 목표
학교까지 주행
앞 차를 따라서 주행
주차장에 주차
Guided RL
명령에 따라 다르게 행동하도록 Agent를 학습
+ Guided RL
Teaching Machines to Understand Visual Manuals
via Attention Supervision for Object Assembly
Taehoon Kim1, Youngwoon Lee2, Joseph Lim2
사람처럼 새로운 환경에서 잘 적응하려면?
Generalization in Reinforcement Learning
의자 조립을 배운 사람
책상을 매뉴얼 없이 조립할 수 있을까?
하지만 매뉴얼이 있다면?
사람도 새로운 문제를 풀기 위해서는
매뉴얼을 봐야한다
칠교 퍼즐 가구 조립
Hierarchical Planning이 필요한 문제
State 𝑠"
State 𝑠" Manual 𝑚"
두가지 방법으로 접근
Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly. "Pointer networks." Advances in Neural Information Processing Systems. 2015.
Pointer Network
𝒔 𝒩,"
… …
Image segmentation + Pointer Network
하지만 Pointer Network 학습을 위해
추가적인 Supervision 필요
몇 번째 segment가 매뉴얼 조각을 포함하는지
Xu, Kelvin, et al. "Show, attend and tell: Neural image caption generation with visual attention." International Conference on Machine Learning. 2015.
메뉴얼에 해당하는 부분에 집중(Attention)
Attention maps
Context Fusion
Map Fusion
Guided Attention + A3C
그리고 복잡한 학습 과정을 거쳐서..
Curriculum Learning
Semi-supervised Learning
: 입력
: 입력
: 입력
다른 Guided RL 연구들
Text as Manual
Gated-Attention + A3C
Hermann, Karl Moritz, et al. "Grounded language learning in a simulated 3D world." arXiv preprint arXiv:1706.06551 (2017)
Self-Supervision + A3C
Chaplot, Devendra Singh, et al. "Gated-Attention Architectures for Task-Oriented Language Grounding." arXiv preprint arXiv:1706.07230 (2017)
물체들의 관계까지 이해해야 하는 Agent
5. ETC
Exploration, Continuous action, Imitation learning
지금까지 좋다고 생각했던 행동이 아닌 모험(랜덤 행동)을 하는 것
랜덤으로 모험(행동)을 하는 것
랜덤으로 모험(행동)을 하는 것
지금까지 배운 최선의 행동을 하는 것
Pathak,	Deepak,	et	al.	"Curiosity-driven	exploration	by	self-supervised	prediction." arXiv	preprint	arXiv:1705.05363 (2017)
Curiosity reward
Inverse Dynamics Model
Curriculum Learning
쉬운 문제부터 어려운 문제까지 차근차근 난이도를 올려가며 학습
학습 시간
난이도 하 중 상
Non-curriculum learning
특정 난이도의 문제 뽑을 확률
학습 시간
난이도 하 중 상
학습 처음부터 끝까지 모든 난이도를 동일한 확률로 뽑기
Non-curriculum learning
학습 시간
난이도 하 중 상
Curriculum learning
처음에는 가장 쉬운 문제를 많이 학습
학습 시간
난이도 하 중 상 하 중 상
Curriculum learning
특정 조건 달성 이후 좀 더 어려운 문제 풀기 시작
문제 하 성공률 80% 달성
학습 시간
난이도 하 중 상 하 중 상 하 중 상
문제 하 성공률 80% 달성 문제 중 성공률 80% 달성
Curriculum learning
특정 조건 달성 이후 좀 더 어려운 문제 풀기 시작
Curriculum Learning + GAN
Held,	David,	et	al.	"Automatic	Goal	Generation	for	Reinforcement	Learning	Agents." arXiv	preprint	arXiv:1705.06366 (2017)
Continuous Action
연속적인 행동을 가진 Agent의 학습 (ex. 로봇)
Discrete	Action	 𝑎"
∈ {0,1}
위 아래
ON -
Continuous	Action	−1 ≤ 𝑎"
≤ 1Discrete	Action	 𝑎"
∈ {0,1}
어깨 무릎 허리
0.1 -0.2 0.5
위 아래
ON -
Continuous Action
Schulman,	John,	et	al.	"Proximal	Policy	Optimization	Algorithms." arXiv	preprint	arXiv:1707.06347 (2017)
Continuous Action
Heess,	Nicolas,	et	al.	"Emergence	of	Locomotion	Behaviours	in	Rich	Environments." arXiv	preprint	arXiv:1707.02286 (2017)
Distributed PPO
이 외에도..
문제는 여전히 많다
강화 학습 캉화 학습 강화 학습 강화 학습
강화 학습 강화 학습 강화 학습 강화 학습
강화 학습 강화 학습 강화 학습 강화 학습
강화 학습 강화 학습 강화 학습 감화 학습
강화 학습 강화 학습 강화 학습 강화 학습
강회 학습 강화 학습 강화 학습 강화 학습
Neural Turing Machine
Differentiable Neural Computer
Neural Module Network
Neural Programmer-Interpreter
Programmable Agent
강화 학습 외에도 관심있는 분야
Graves, Alex, Greg Wayne, and Ivo Danihelka. "Neural turing machines." arXiv preprint arXiv:1410.5401 (2014).
Graves, Alex, et al. "Hybrid computing using a neural network with dynamic external memory." Nature 538.7626 (2016): 471-476.
Andreas, Jacob, et al. "Neural module networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
Reed, Scott, and Nando De Freitas. "Neural programmer-interpreters." arXiv preprint arXiv:1511.06279 (2015).
Denil, Misha, et al. "Programmable agents." arXiv preprint arXiv:1706.06383(2017).
다 이야기하고 싶지만 오늘은..
Generative Model
Berthelot, David, Tom Schumm, and Luke Metz. "Began: Boundary equilibrium generative adversarial networks." arXiv preprint arXiv:1703.10717 (2017).
Kim, Taeksoo, et al. "Learning to discover cross-domain relations with generative adversarial networks." arXiv preprint arXiv:1703.05192 (2017).
Shrivastava, Ashish, et al. "Learning from simulated and unsupervised images through adversarial training." arXiv preprint arXiv:1612.07828 (2016).
Generative Model + Audio
Generative Model + Audio
카카오뱅크가 개시 5일만에 100만 계좌를 돌파하면서 돌풍을 일으키고 있다.
CVPR2017 현장 풍경입니다. 많은 컴퓨터비전 연구자들이 네이버랩스 부스를 찾았습니다.
오늘의 날씨는 어제보다 3도 높습니다. 총 3개의 일정이 등록되어 있습니다.
Voice Synthesis Technologies for Developers
더 자세한건...

Más contenido relacionado

La actualidad más candente

Deep reinforcement learning from scratch
Deep reinforcement learning from scratchDeep reinforcement learning from scratch
Deep reinforcement learning from scratchJie-Han Chen
분산 강화학습 논문(DeepMind IMPALA) 구현
분산 강화학습 논문(DeepMind IMPALA) 구현분산 강화학습 논문(DeepMind IMPALA) 구현
분산 강화학습 논문(DeepMind IMPALA) 구현정주 김
RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기Woong won Lee
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기NAVER D2
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Suhyun Cho
[RLKorea] <하스스톤> 강화학습 환경 개발기
[RLKorea] <하스스톤> 강화학습 환경 개발기[RLKorea] <하스스톤> 강화학습 환경 개발기
[RLKorea] <하스스톤> 강화학습 환경 개발기Chris Ohk
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim
Python 활용: 이미지 처리와 데이터 분석
Python 활용: 이미지 처리와 데이터 분석Python 활용: 이미지 처리와 데이터 분석
Python 활용: 이미지 처리와 데이터 분석용 최
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018Taehoon Kim
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기NAVER Engineering
강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2Dongmin Lee
알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기Kwangsik Lee
[기초개념] Graph Convolutional Network (GCN)
[기초개념] Graph Convolutional Network (GCN)[기초개념] Graph Convolutional Network (GCN)
[기초개념] Graph Convolutional Network (GCN)Donghyeon Kim
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)SANG WON PARK
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전Modulabs
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)Euijin Jeong
오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것NAVER Engineering
Multi PPT - Agent Actor-Critic for Mixed Cooperative-Competitive Environments
Multi PPT - Agent Actor-Critic for Mixed Cooperative-Competitive EnvironmentsMulti PPT - Agent Actor-Critic for Mixed Cooperative-Competitive Environments
Multi PPT - Agent Actor-Critic for Mixed Cooperative-Competitive EnvironmentsJisang Yoon
Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)Dongmin Lee
윤석주, 신입 게임 프로그래머가 되는 법 - 넥슨 채용 프로세스 단계별 분석, NDC2019
윤석주, 신입 게임 프로그래머가 되는 법 - 넥슨 채용 프로세스 단계별 분석, NDC2019윤석주, 신입 게임 프로그래머가 되는 법 - 넥슨 채용 프로세스 단계별 분석, NDC2019
윤석주, 신입 게임 프로그래머가 되는 법 - 넥슨 채용 프로세스 단계별 분석, NDC2019devCAT Studio, NEXON

La actualidad más candente (20)

Deep reinforcement learning from scratch
Deep reinforcement learning from scratchDeep reinforcement learning from scratch
Deep reinforcement learning from scratch
분산 강화학습 논문(DeepMind IMPALA) 구현
분산 강화학습 논문(DeepMind IMPALA) 구현분산 강화학습 논문(DeepMind IMPALA) 구현
분산 강화학습 논문(DeepMind IMPALA) 구현
RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)
[RLKorea] <하스스톤> 강화학습 환경 개발기
[RLKorea] <하스스톤> 강화학습 환경 개발기[RLKorea] <하스스톤> 강화학습 환경 개발기
[RLKorea] <하스스톤> 강화학습 환경 개발기
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
Python 활용: 이미지 처리와 데이터 분석
Python 활용: 이미지 처리와 데이터 분석Python 활용: 이미지 처리와 데이터 분석
Python 활용: 이미지 처리와 데이터 분석
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2
알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기
[기초개념] Graph Convolutional Network (GCN)
[기초개념] Graph Convolutional Network (GCN)[기초개념] Graph Convolutional Network (GCN)
[기초개념] Graph Convolutional Network (GCN)
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
강화학습 기초_2(Deep sarsa, Deep Q-learning, DQN)
오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것
Multi PPT - Agent Actor-Critic for Mixed Cooperative-Competitive Environments
Multi PPT - Agent Actor-Critic for Mixed Cooperative-Competitive EnvironmentsMulti PPT - Agent Actor-Critic for Mixed Cooperative-Competitive Environments
Multi PPT - Agent Actor-Critic for Mixed Cooperative-Competitive Environments
Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)
윤석주, 신입 게임 프로그래머가 되는 법 - 넥슨 채용 프로세스 단계별 분석, NDC2019
윤석주, 신입 게임 프로그래머가 되는 법 - 넥슨 채용 프로세스 단계별 분석, NDC2019윤석주, 신입 게임 프로그래머가 되는 법 - 넥슨 채용 프로세스 단계별 분석, NDC2019
윤석주, 신입 게임 프로그래머가 되는 법 - 넥슨 채용 프로세스 단계별 분석, NDC2019


Differentiable Neural Computer
Differentiable Neural ComputerDifferentiable Neural Computer
Differentiable Neural ComputerTaehoon Kim
머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기HoChul Shin
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버준철 박
[IGC 2016] 넷게임즈 김복식 - 중국 모바일 게임과 캐주얼 게임 디자인
[IGC 2016] 넷게임즈 김복식 - 중국 모바일 게임과 캐주얼 게임 디자인[IGC 2016] 넷게임즈 김복식 - 중국 모바일 게임과 캐주얼 게임 디자인
[IGC 2016] 넷게임즈 김복식 - 중국 모바일 게임과 캐주얼 게임 디자인강 민우
[해외세미나]서울-키에프시 교통정책 및 빅데이터솔루션 지식공유 워크샵 강연
 [해외세미나]서울-키에프시 교통정책 및 빅데이터솔루션 지식공유 워크샵 강연 [해외세미나]서울-키에프시 교통정책 및 빅데이터솔루션 지식공유 워크샵 강연
[해외세미나]서울-키에프시 교통정책 및 빅데이터솔루션 지식공유 워크샵 강연bigdatacampus
빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종bigdatacampus
Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)Kiho Hong
서울시 빅데이터캠퍼스 안내
서울시 빅데이터캠퍼스 안내서울시 빅데이터캠퍼스 안내
서울시 빅데이터캠퍼스 안내bigdatacampus
네이버 오픈소스세미나 - 오픈소스 바르게 시작하기 NAVER 강희숙
네이버 오픈소스세미나 - 오픈소스 바르게 시작하기 NAVER 강희숙네이버 오픈소스세미나 - 오픈소스 바르게 시작하기 NAVER 강희숙
네이버 오픈소스세미나 - 오픈소스 바르게 시작하기 NAVER 강희숙NAVER Engineering
네이버 오픈소스 세미나 - 나의코드에서 모두의 코드로 UNIST 이한
네이버 오픈소스 세미나 - 나의코드에서 모두의 코드로 UNIST 이한네이버 오픈소스 세미나 - 나의코드에서 모두의 코드로 UNIST 이한
네이버 오픈소스 세미나 - 나의코드에서 모두의 코드로 UNIST 이한NAVER Engineering
네이버 오픈소스 세미나 - 오픈소스 프로젝트 참여하기 NAVER 박은정
네이버 오픈소스 세미나 - 오픈소스 프로젝트 참여하기 NAVER 박은정네이버 오픈소스 세미나 - 오픈소스 프로젝트 참여하기 NAVER 박은정
네이버 오픈소스 세미나 - 오픈소스 프로젝트 참여하기 NAVER 박은정NAVER Engineering
딥러닝프레임워크비교Junyi Song
Tensorflow for Deep Learning(SK Planet)
Tensorflow for Deep Learning(SK Planet)Tensorflow for Deep Learning(SK Planet)
Tensorflow for Deep Learning(SK Planet)Tae Young Lee
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 [데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 choi kyumin
20141223 머하웃(mahout) 협업필터링_추천시스템구현
20141223 머하웃(mahout) 협업필터링_추천시스템구현20141223 머하웃(mahout) 협업필터링_추천시스템구현
20141223 머하웃(mahout) 협업필터링_추천시스템구현Tae Young Lee
Scala dreaded underscore
Scala dreaded underscoreScala dreaded underscore
Scala dreaded underscoreRUDDER
카카오스토리 웹팀의 코드리뷰 경험
카카오스토리 웹팀의 코드리뷰 경험카카오스토리 웹팀의 코드리뷰 경험
카카오스토리 웹팀의 코드리뷰 경험Ohgyun Ahn
Docker (Compose) 활용 - 개발 환경 구성하기
Docker (Compose) 활용 - 개발 환경 구성하기Docker (Compose) 활용 - 개발 환경 구성하기
Docker (Compose) 활용 - 개발 환경 구성하기raccoony
Webservice cache strategy
Webservice cache strategyWebservice cache strategy
Webservice cache strategyDaeMyung Kang

Destacado (20)

Differentiable Neural Computer
Differentiable Neural ComputerDifferentiable Neural Computer
Differentiable Neural Computer
머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[IGC 2016] 넷게임즈 김복식 - 중국 모바일 게임과 캐주얼 게임 디자인
[IGC 2016] 넷게임즈 김복식 - 중국 모바일 게임과 캐주얼 게임 디자인[IGC 2016] 넷게임즈 김복식 - 중국 모바일 게임과 캐주얼 게임 디자인
[IGC 2016] 넷게임즈 김복식 - 중국 모바일 게임과 캐주얼 게임 디자인
[해외세미나]서울-키에프시 교통정책 및 빅데이터솔루션 지식공유 워크샵 강연
 [해외세미나]서울-키에프시 교통정책 및 빅데이터솔루션 지식공유 워크샵 강연 [해외세미나]서울-키에프시 교통정책 및 빅데이터솔루션 지식공유 워크샵 강연
[해외세미나]서울-키에프시 교통정책 및 빅데이터솔루션 지식공유 워크샵 강연
빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종
Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)
서울시 빅데이터캠퍼스 안내
서울시 빅데이터캠퍼스 안내서울시 빅데이터캠퍼스 안내
서울시 빅데이터캠퍼스 안내
네이버 오픈소스세미나 - 오픈소스 바르게 시작하기 NAVER 강희숙
네이버 오픈소스세미나 - 오픈소스 바르게 시작하기 NAVER 강희숙네이버 오픈소스세미나 - 오픈소스 바르게 시작하기 NAVER 강희숙
네이버 오픈소스세미나 - 오픈소스 바르게 시작하기 NAVER 강희숙
네이버 오픈소스 세미나 - 나의코드에서 모두의 코드로 UNIST 이한
네이버 오픈소스 세미나 - 나의코드에서 모두의 코드로 UNIST 이한네이버 오픈소스 세미나 - 나의코드에서 모두의 코드로 UNIST 이한
네이버 오픈소스 세미나 - 나의코드에서 모두의 코드로 UNIST 이한
네이버 오픈소스 세미나 - 오픈소스 프로젝트 참여하기 NAVER 박은정
네이버 오픈소스 세미나 - 오픈소스 프로젝트 참여하기 NAVER 박은정네이버 오픈소스 세미나 - 오픈소스 프로젝트 참여하기 NAVER 박은정
네이버 오픈소스 세미나 - 오픈소스 프로젝트 참여하기 NAVER 박은정
Tensorflow for Deep Learning(SK Planet)
Tensorflow for Deep Learning(SK Planet)Tensorflow for Deep Learning(SK Planet)
Tensorflow for Deep Learning(SK Planet)
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 [데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
20141223 머하웃(mahout) 협업필터링_추천시스템구현
20141223 머하웃(mahout) 협업필터링_추천시스템구현20141223 머하웃(mahout) 협업필터링_추천시스템구현
20141223 머하웃(mahout) 협업필터링_추천시스템구현
Scala dreaded underscore
Scala dreaded underscoreScala dreaded underscore
Scala dreaded underscore
카카오스토리 웹팀의 코드리뷰 경험
카카오스토리 웹팀의 코드리뷰 경험카카오스토리 웹팀의 코드리뷰 경험
카카오스토리 웹팀의 코드리뷰 경험
Docker (Compose) 활용 - 개발 환경 구성하기
Docker (Compose) 활용 - 개발 환경 구성하기Docker (Compose) 활용 - 개발 환경 구성하기
Docker (Compose) 활용 - 개발 환경 구성하기
Webservice cache strategy
Webservice cache strategyWebservice cache strategy
Webservice cache strategy

Más de Taehoon Kim

LLM에서 배우는 이미지 생성 모델 ZERO부터 학습하기 Training Large-Scale Diffusion Model from Scr...
LLM에서 배우는 이미지 생성 모델 ZERO부터 학습하기 Training Large-Scale Diffusion Model from Scr...LLM에서 배우는 이미지 생성 모델 ZERO부터 학습하기 Training Large-Scale Diffusion Model from Scr...
LLM에서 배우는 이미지 생성 모델 ZERO부터 학습하기 Training Large-Scale Diffusion Model from Scr...Taehoon Kim
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링Taehoon Kim
Random Thoughts on Paper Implementations [KAIST 2018]
Random Thoughts on Paper Implementations [KAIST 2018]Random Thoughts on Paper Implementations [KAIST 2018]
Random Thoughts on Paper Implementations [KAIST 2018]Taehoon Kim
카카오톡으로 여친 만들기 2013.06.29
카카오톡으로 여친 만들기 2013.06.29카카오톡으로 여친 만들기 2013.06.29
카카오톡으로 여친 만들기 2013.06.29Taehoon Kim
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Taehoon Kim
Dueling network architectures for deep reinforcement learning
Dueling network architectures for deep reinforcement learningDueling network architectures for deep reinforcement learning
Dueling network architectures for deep reinforcement learningTaehoon Kim
쉽게 쓰여진 Django
쉽게 쓰여진 Django쉽게 쓰여진 Django
쉽게 쓰여진 DjangoTaehoon Kim
영화 서비스에 대한 생각
영화 서비스에 대한 생각영화 서비스에 대한 생각
영화 서비스에 대한 생각Taehoon Kim

Más de Taehoon Kim (9)

LLM에서 배우는 이미지 생성 모델 ZERO부터 학습하기 Training Large-Scale Diffusion Model from Scr...
LLM에서 배우는 이미지 생성 모델 ZERO부터 학습하기 Training Large-Scale Diffusion Model from Scr...LLM에서 배우는 이미지 생성 모델 ZERO부터 학습하기 Training Large-Scale Diffusion Model from Scr...
LLM에서 배우는 이미지 생성 모델 ZERO부터 학습하기 Training Large-Scale Diffusion Model from Scr...
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
Random Thoughts on Paper Implementations [KAIST 2018]
Random Thoughts on Paper Implementations [KAIST 2018]Random Thoughts on Paper Implementations [KAIST 2018]
Random Thoughts on Paper Implementations [KAIST 2018]
카카오톡으로 여친 만들기 2013.06.29
카카오톡으로 여친 만들기 2013.06.29카카오톡으로 여친 만들기 2013.06.29
카카오톡으로 여친 만들기 2013.06.29
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
Dueling network architectures for deep reinforcement learning
Dueling network architectures for deep reinforcement learningDueling network architectures for deep reinforcement learning
Dueling network architectures for deep reinforcement learning
Deep Reasoning
Deep ReasoningDeep Reasoning
Deep Reasoning
쉽게 쓰여진 Django
쉽게 쓰여진 Django쉽게 쓰여진 Django
쉽게 쓰여진 Django
영화 서비스에 대한 생각
영화 서비스에 대한 생각영화 서비스에 대한 생각
영화 서비스에 대한 생각

알아두면 쓸데있는 신기한 강화학습 NAVER 2017