SlideShare una empresa de Scribd logo
1 de 33
February 2015
권재명
실리콘 밸리
데이터 사이언티스트의 하루
권재명
● 통계학자
o "빅데이터" + 머신 러닝 + 데이터 사이언스
● 경력
o Berkeley Transportation Systems (2000~2007): 대용량 교통 데이터
o Wichorus (2009): 와이파이 데이터 모델링
o AOL Platforms (2009-): 온라인 광고 데이터
o Percolata* (2015): 리테일 애널리틱 데이터
o Molocoads.com* (2015): 모빌 DSP
(* : 자문 / 투자)
2
실리콘 밸리 "데이터" 기업들
서비스 (검색,
추천, 뉴스, ...)
사용자
클릭, 구매, "
좋아요", ...
알고리즘 / 서
비스 개선
사용 데이터
서비스 이용
3
서비스 - 사용자 - 데
이터 선순환
(positive feedback)
데이터보다 성공적
인 서비스가 선행
광고 알고리즘
온라인 광고
사용자 (3rd
party)
광고 클릭 / 구
매
광고 알고리즘
개선
클릭 / 구매 데이터
온라인 광고
노출
4
빅데이터 / 데이터 사이언스 대
표 분야
하루에 몇조개의 관측치 생성
수백-수천개의 변량을 이용한
클릭/구매 예측모형
0.001초 내로 "클릭 확률 예측"
5
http://www.lumapartners.com/lumascapes/display-ad-tech-lumascape/
"빅데이터"
웹서버 로그. 검색엔진 문서 자료/인덱스. 온라인 광고 로그. 소셜 네트웍
로그. 교통자료. 과학 자료. 의료자료. 센서 자료. 사물인터넷...
컴한대로 저장/처리 불가 → 분산
기존 소프트웨어로 처리 불가 → 하둡+
수집 / 저장 / 처리 / 분석 / 예측
하둡과 아마존 웹 서비스 (AWS) 로 코모디티 화 완료
6
7
http://www.google.com/trends/
서비스-사용자-데이터 선순환
"간단한" 통계분석
애널리틱
리포팅
"복잡한" 통계
머신러닝
코어 알고리즘 개발
8
"데이터 인력"
데이터 인프라
온디매드 클라우드
컴퓨팅
오픈 소스 빅데이터
소프트웨어 (Hadoop)
데이터 엔
지니어
데이터 사이언
티스트
머신러닝 사이
언티스트
* 링크드인의 2014 구조조정
통계 / 머신 러닝
코딩
적용 영역 지식
데이터 사이언스
9
통계 / 머신
러닝
코딩 적용 영역 지
식
전통적인 통계학자
10
통계 / 머신 러닝
코딩
적용 영역 지식
"데이터 엔지니어"
11
통계 / 머신 러닝
코딩
적용 영역 지식
"데이터 사이언티스트"
12
통계 / 머신 러닝
코딩
적용 영역 지식
"머신러닝 사이언티스트" ("통계학자")
13
통계 / 머신 러닝
코딩
적용 영역 지식
네 직업군의 수요-공급*
14
머신 러닝 사이
언티스트
데이터 엔지니어
데이터 사이언
티스트
데이터 엔지니어
전통 통계학자
수요-공급 불균형의 이유?
"데이터 사이언티스트"로 입사한 똑똑한 이공계분야 신입사
원의 경우:
● 적용분야 지식: 1-3개월+
● 코딩: 6-12개월+
● 통계의 올바른 적용: 1년+
● 고급 모델링과 알고리즘 개발: 보통 석/박사를 뽑는다.
통계학 / 머신러닝이 쉽지 않다
15
16
http://scikit-learn.org/
예측 프로덕션 시스템
어려운 통계
모델 구축 (Build
model)
데이터 사이언티스트(팀)의 하루
자료 추출
(Acquire)
자료 청소
(Clean)
대화형 분석
(Interactive
Analysis)
시각화 분석
(Visual
Analysis)
탐색적 자료 분
석 (EDA)
자료 저장 / 관리
(Store)
자료 랭글링
(Wrangle)
스토리 텔링
(Story-telling)
보고서 쓰기
(Reporting)
엔지니어들과의 협
업
문제 정의
모델 디플로이
(Deploy Model)
모델 모니터
(Monitor model)
비즈니스의 필요
랩장/선임(chief scientist)의 리더쉽
연구원들간의 개방적인 토론
구글 닥을 통한 동기부여(motivation)와 요구사
항 (requirements) 공유
문제 정의
자료 추출
(Acquire)
Hadoop, RDBMS (SQL)
Python (Streaming), Hive ...
코딩 능력이 가장 많이 필요
보통 데이터 사이언티스트들이 자체적으로
해냄
종종 데이터 엔지니어들의 도움
Git 트랙킹 시작
자료 청소
(Clean)
생각보다 많은 시간이 걸림...
Unix + Python + R
스타일 가이드
(pylint, pep 8...)
Git 트랙킹
자료 저장 / 관리
(Store)
자료 랭글링
(Wrangle)
R (가끔 Python)
자료의 문제가 수시로
발견됨
Git 트랙킹
결과는 구글 닥 공유시각화 분석
(Visual
Analysis)
탐색적 자료 분
석 (EDA)
대화형 분석
(Interactive
Analysis)
R
통계 고수의 도움이 필요한
때
베이지안 모델
계층모형 (Hierarchical
model)
어려운 통계
스토리 텔링
(Story-telling)
고품질 작문 (writing)
고품질 시각화 (ggplot2)
구글 닥
팀내 공유 필수
전사 공유 권고
코드 리뷰
Git
보고서 쓰기
(Visual
Analysis)
프로덕션 시스템
모델 구축 (Build
model)
엔지니어들과의 협
업
모델 디플로이
(Deploy Model)
모델 모니터
(Monitor model)
Python (+R)
좀더 엄격한 코드 리뷰
요구사항은 Python Pseudocode로
Git 집중활용 (fork/pull model)
리서치 + 프로덕션 거리를 좁히려 노력
데이터 사이언스 툴채인
● Powerful text editor (Sublime)
● Python
● R / RStudio
● Unix / bash
● Git
● RDBMS (SQL)
● Google App / Slack / JIRA / ...: 개방된 협업
데이터 사이언스 베스트 프랙티스
26
1. 툴 채인 통일 (OSX/Unix, Sublime Editor, RStudio, ...)
2. 스타일 가이드 (R, Python, Bash, Java)
3. 도큐먼트 탬플릿
4. 적극적인 문서 / 코드 공유
5. 코드 리뷰 / 피어 코딩
6. 준-애자일 워크플로우 (Semi-Agile process)
7. 재생가능 연구 (reproducible research)
조금은 심한 개방 / 협업
28https://github.com/WhiteHouse/2016-budget-data https://www.atlassian.com/software/jira
https://www.atlassian.com/software/sourcetree/overviewhttps://www.atlassian.com/git/tutorials/comparing-workflows/gitflow-workflow
데이터 = 신호 + 잡음
y = μ + 𝜀
y = β x + 𝜀
사실 = 진실 + 우연
뉴스 = 역사 + 우연
주식주가 = 가치 + 우연
성공 = 실력 + 우연
통계적 세계관: 신호와 잡음
데이터 = 신호 + 잡음
오버피팅
오차한도 / 신뢰구간
샘플링 에러 ~ 1/sqrt(n)
한계효용 체감의 법칙
탐색적 자료분석 (EDA)
자료는 항상 오염되어 있다
베이지언 기법들 (데이터가 부족한 경우 / 초기화)
계층 모형 (변량이 많은 경우)
데이터 사이언스 필수 통계 개념들
데이터 사이언스의 사내 도입
데이터에 기반한 의사결정 문화가 선행되어야
"솔루션"은 상대적으로 덜 중요
데이터 사이언스 전문 인력 / 팀이 필요
애널리틱과 서비스를 만드는 팀은 보통 분리
통계 내공이 도움이 된다
"데이터 기업"은 데이터 사이언스 인력/팀에 충분한 독립성 부여
엔지니어 팀과의 긴밀한 협업과 소통이 중요
신뢰받는 테크 리더쉽 + 베스트 프랙티스
31
요약
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
32
Q&A

Más contenido relacionado

La actualidad más candente

스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)Yongho Ha
 
화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자Yongho Ha
 
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정PAP (Product Analytics Playground)
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영NAVER D2
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
 
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnABokyung Choi
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법Jeongsang Baek
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다승화 양
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템NAVER D2
 
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 [데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 choi kyumin
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석Seonggwan Lee
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기승화 양
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기NAVER D2
 
Data pipeline and data lake
Data pipeline and data lakeData pipeline and data lake
Data pipeline and data lakeDaeMyung Kang
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?Yongho Ha
 
실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트JeongMin Kwon
 
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화Minho Lee
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석YOO SE KYUN
 

La actualidad más candente (20)

스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
 
화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자
 
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
 
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 [데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
 
Data pipeline and data lake
Data pipeline and data lakeData pipeline and data lake
Data pipeline and data lake
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
 
실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트
 
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석
 

Destacado

분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질Sun Young Kim
 
Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나choi kyumin
 
ML + 주식 phase 2
ML + 주식  phase 2ML + 주식  phase 2
ML + 주식 phase 2HoChul Shin
 
머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기HoChul Shin
 
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표cbs15min
 
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장cbs15min
 
Jupyter notebook 이해하기
Jupyter notebook 이해하기 Jupyter notebook 이해하기
Jupyter notebook 이해하기 Yong Joon Moon
 
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요Yongho Ha
 
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례Jemin Huh
 
스프링 부트와 로깅
스프링 부트와 로깅스프링 부트와 로깅
스프링 부트와 로깅Keesun Baik
 
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
 
중국 VR 보고서 - 2016
중국 VR 보고서 - 2016중국 VR 보고서 - 2016
중국 VR 보고서 - 2016Brandon Lee
 
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.Yongho Ha
 

Destacado (14)

분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 
Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나
 
ML + 주식 phase 2
ML + 주식  phase 2ML + 주식  phase 2
ML + 주식 phase 2
 
머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기
 
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
 
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
 
Jupyter notebook 이해하기
Jupyter notebook 이해하기 Jupyter notebook 이해하기
Jupyter notebook 이해하기
 
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
 
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
 
스프링 부트와 로깅
스프링 부트와 로깅스프링 부트와 로깅
스프링 부트와 로깅
 
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
 
중국 VR 보고서 - 2016
중국 VR 보고서 - 2016중국 VR 보고서 - 2016
중국 VR 보고서 - 2016
 
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
 

Similar a 실리콘 밸리 데이터 사이언티스트의 하루

AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)Metatron
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Amazon Web Services Korea
 
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture상래 노
 
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining SuHyun Jeon
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWSKRUG - AWS한국사용자모임
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020Jinwoong Kim
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아K data
 
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2BruceDong WinnersLab
 
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼ABRC_DATA
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)Treasure Data, Inc.
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례Amazon Web Services Korea
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장eungjin cho
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망Open Cyber University of Korea
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019Sangkyu Kim
 
Week1 ot
Week1 otWeek1 ot
Week1 otEun Yu
 

Similar a 실리콘 밸리 데이터 사이언티스트의 하루 (20)

AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
 
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
 
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
 
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019
 
Week1 ot
Week1 otWeek1 ot
Week1 ot
 

Más de Jaimie Kwon (권재명)

효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁Jaimie Kwon (권재명)
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)Jaimie Kwon (권재명)
 
데이터분석의 길 4: “고수는 통계학습의 달인이다”
데이터분석의 길 4:  “고수는 통계학습의 달인이다”데이터분석의 길 4:  “고수는 통계학습의 달인이다”
데이터분석의 길 4: “고수는 통계학습의 달인이다”Jaimie Kwon (권재명)
 
데이터분석의 길 3 “r 워크플로우 (스토리텔링)”
데이터분석의 길 3   “r 워크플로우 (스토리텔링)”데이터분석의 길 3   “r 워크플로우 (스토리텔링)”
데이터분석의 길 3 “r 워크플로우 (스토리텔링)”Jaimie Kwon (권재명)
 
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2:  “고수는 최고의 연장을 사용한다” (툴채인)데이터분석의 길 2:  “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)Jaimie Kwon (권재명)
 
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)Jaimie Kwon (권재명)
 

Más de Jaimie Kwon (권재명) (6)

효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
 
데이터분석의 길 4: “고수는 통계학습의 달인이다”
데이터분석의 길 4:  “고수는 통계학습의 달인이다”데이터분석의 길 4:  “고수는 통계학습의 달인이다”
데이터분석의 길 4: “고수는 통계학습의 달인이다”
 
데이터분석의 길 3 “r 워크플로우 (스토리텔링)”
데이터분석의 길 3   “r 워크플로우 (스토리텔링)”데이터분석의 길 3   “r 워크플로우 (스토리텔링)”
데이터분석의 길 3 “r 워크플로우 (스토리텔링)”
 
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2:  “고수는 최고의 연장을 사용한다” (툴채인)데이터분석의 길 2:  “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
 
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
 

실리콘 밸리 데이터 사이언티스트의 하루

  • 2. 권재명 ● 통계학자 o "빅데이터" + 머신 러닝 + 데이터 사이언스 ● 경력 o Berkeley Transportation Systems (2000~2007): 대용량 교통 데이터 o Wichorus (2009): 와이파이 데이터 모델링 o AOL Platforms (2009-): 온라인 광고 데이터 o Percolata* (2015): 리테일 애널리틱 데이터 o Molocoads.com* (2015): 모빌 DSP (* : 자문 / 투자) 2
  • 3. 실리콘 밸리 "데이터" 기업들 서비스 (검색, 추천, 뉴스, ...) 사용자 클릭, 구매, " 좋아요", ... 알고리즘 / 서 비스 개선 사용 데이터 서비스 이용 3 서비스 - 사용자 - 데 이터 선순환 (positive feedback) 데이터보다 성공적 인 서비스가 선행
  • 4. 광고 알고리즘 온라인 광고 사용자 (3rd party) 광고 클릭 / 구 매 광고 알고리즘 개선 클릭 / 구매 데이터 온라인 광고 노출 4 빅데이터 / 데이터 사이언스 대 표 분야 하루에 몇조개의 관측치 생성 수백-수천개의 변량을 이용한 클릭/구매 예측모형 0.001초 내로 "클릭 확률 예측"
  • 6. "빅데이터" 웹서버 로그. 검색엔진 문서 자료/인덱스. 온라인 광고 로그. 소셜 네트웍 로그. 교통자료. 과학 자료. 의료자료. 센서 자료. 사물인터넷... 컴한대로 저장/처리 불가 → 분산 기존 소프트웨어로 처리 불가 → 하둡+ 수집 / 저장 / 처리 / 분석 / 예측 하둡과 아마존 웹 서비스 (AWS) 로 코모디티 화 완료 6
  • 8. 서비스-사용자-데이터 선순환 "간단한" 통계분석 애널리틱 리포팅 "복잡한" 통계 머신러닝 코어 알고리즘 개발 8 "데이터 인력" 데이터 인프라 온디매드 클라우드 컴퓨팅 오픈 소스 빅데이터 소프트웨어 (Hadoop) 데이터 엔 지니어 데이터 사이언 티스트 머신러닝 사이 언티스트 * 링크드인의 2014 구조조정
  • 9. 통계 / 머신 러닝 코딩 적용 영역 지식 데이터 사이언스 9 통계 / 머신 러닝 코딩 적용 영역 지 식
  • 10. 전통적인 통계학자 10 통계 / 머신 러닝 코딩 적용 영역 지식
  • 11. "데이터 엔지니어" 11 통계 / 머신 러닝 코딩 적용 영역 지식
  • 12. "데이터 사이언티스트" 12 통계 / 머신 러닝 코딩 적용 영역 지식
  • 13. "머신러닝 사이언티스트" ("통계학자") 13 통계 / 머신 러닝 코딩 적용 영역 지식
  • 14. 네 직업군의 수요-공급* 14 머신 러닝 사이 언티스트 데이터 엔지니어 데이터 사이언 티스트 데이터 엔지니어 전통 통계학자
  • 15. 수요-공급 불균형의 이유? "데이터 사이언티스트"로 입사한 똑똑한 이공계분야 신입사 원의 경우: ● 적용분야 지식: 1-3개월+ ● 코딩: 6-12개월+ ● 통계의 올바른 적용: 1년+ ● 고급 모델링과 알고리즘 개발: 보통 석/박사를 뽑는다. 통계학 / 머신러닝이 쉽지 않다 15
  • 17. 예측 프로덕션 시스템 어려운 통계 모델 구축 (Build model) 데이터 사이언티스트(팀)의 하루 자료 추출 (Acquire) 자료 청소 (Clean) 대화형 분석 (Interactive Analysis) 시각화 분석 (Visual Analysis) 탐색적 자료 분 석 (EDA) 자료 저장 / 관리 (Store) 자료 랭글링 (Wrangle) 스토리 텔링 (Story-telling) 보고서 쓰기 (Reporting) 엔지니어들과의 협 업 문제 정의 모델 디플로이 (Deploy Model) 모델 모니터 (Monitor model)
  • 18. 비즈니스의 필요 랩장/선임(chief scientist)의 리더쉽 연구원들간의 개방적인 토론 구글 닥을 통한 동기부여(motivation)와 요구사 항 (requirements) 공유 문제 정의
  • 19. 자료 추출 (Acquire) Hadoop, RDBMS (SQL) Python (Streaming), Hive ... 코딩 능력이 가장 많이 필요 보통 데이터 사이언티스트들이 자체적으로 해냄 종종 데이터 엔지니어들의 도움 Git 트랙킹 시작
  • 20. 자료 청소 (Clean) 생각보다 많은 시간이 걸림... Unix + Python + R 스타일 가이드 (pylint, pep 8...) Git 트랙킹 자료 저장 / 관리 (Store) 자료 랭글링 (Wrangle)
  • 21. R (가끔 Python) 자료의 문제가 수시로 발견됨 Git 트랙킹 결과는 구글 닥 공유시각화 분석 (Visual Analysis) 탐색적 자료 분 석 (EDA) 대화형 분석 (Interactive Analysis)
  • 22. R 통계 고수의 도움이 필요한 때 베이지안 모델 계층모형 (Hierarchical model) 어려운 통계
  • 23. 스토리 텔링 (Story-telling) 고품질 작문 (writing) 고품질 시각화 (ggplot2) 구글 닥 팀내 공유 필수 전사 공유 권고 코드 리뷰 Git 보고서 쓰기 (Visual Analysis)
  • 24. 프로덕션 시스템 모델 구축 (Build model) 엔지니어들과의 협 업 모델 디플로이 (Deploy Model) 모델 모니터 (Monitor model) Python (+R) 좀더 엄격한 코드 리뷰 요구사항은 Python Pseudocode로 Git 집중활용 (fork/pull model) 리서치 + 프로덕션 거리를 좁히려 노력
  • 25. 데이터 사이언스 툴채인 ● Powerful text editor (Sublime) ● Python ● R / RStudio ● Unix / bash ● Git ● RDBMS (SQL) ● Google App / Slack / JIRA / ...: 개방된 협업
  • 26. 데이터 사이언스 베스트 프랙티스 26 1. 툴 채인 통일 (OSX/Unix, Sublime Editor, RStudio, ...) 2. 스타일 가이드 (R, Python, Bash, Java) 3. 도큐먼트 탬플릿 4. 적극적인 문서 / 코드 공유 5. 코드 리뷰 / 피어 코딩 6. 준-애자일 워크플로우 (Semi-Agile process) 7. 재생가능 연구 (reproducible research) 조금은 심한 개방 / 협업
  • 27.
  • 29. 데이터 = 신호 + 잡음 y = μ + 𝜀 y = β x + 𝜀 사실 = 진실 + 우연 뉴스 = 역사 + 우연 주식주가 = 가치 + 우연 성공 = 실력 + 우연 통계적 세계관: 신호와 잡음
  • 30. 데이터 = 신호 + 잡음 오버피팅 오차한도 / 신뢰구간 샘플링 에러 ~ 1/sqrt(n) 한계효용 체감의 법칙 탐색적 자료분석 (EDA) 자료는 항상 오염되어 있다 베이지언 기법들 (데이터가 부족한 경우 / 초기화) 계층 모형 (변량이 많은 경우) 데이터 사이언스 필수 통계 개념들
  • 31. 데이터 사이언스의 사내 도입 데이터에 기반한 의사결정 문화가 선행되어야 "솔루션"은 상대적으로 덜 중요 데이터 사이언스 전문 인력 / 팀이 필요 애널리틱과 서비스를 만드는 팀은 보통 분리 통계 내공이 도움이 된다 "데이터 기업"은 데이터 사이언스 인력/팀에 충분한 독립성 부여 엔지니어 팀과의 긴밀한 협업과 소통이 중요 신뢰받는 테크 리더쉽 + 베스트 프랙티스 31
  • 32. 요약 1. 실리콘 벨리 데이터 기업들 2. 온라인 광고 사업 3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트 4. 실리콘 벨리 데이터 사이언티스트의 하루 5. 데이터 사이언스 툴채인 6. 데이터 사이언스 베스트 프랙티스 7. 데이터 사이언스 필수 통계 개념 8. 사내 데이터 사이언스 도입 32
  • 33. Q&A