21. Andrej Karpathy
“뉴럴넷은 단지 또 다른 종류의 분류기가 아니다.
그것은 우리가 소프트웨어를 작성하는 데 있어 근본적인
변화의 시작을 나타낸다. 그것은 소프트웨어 2.0이다.”
https://gist.github.com/haje01/d2518ea998ab2de102b072fed600c0a4
22. Andrej Karpathy
“실세계 문제 중 많은 것들이 명시적으로 프로그램을 짜기보다는 데이터
를 모으는 것이 훨씬 더 쉬운 속성을 가지고 있다는 것이 밝혀졌다.
미래의 프로그래머 중 많은 이들은 뉴럴넷에 공급할 데이터를 수집,
정리, 조작, 라벨링하고 분석 및 시각화하는 일을 할 것이다.”
https://gist.github.com/haje01/d2518ea998ab2de102b072fed600c0a4
30. Spark ⚡
•꼭 빅데이터가 아니어도 가능하지만…
•규모 가변성(Scalability)
•“많은 데이터가 영리한 알고리즘을 이긴다.”[1]
•최고의 빅데이터 플랫폼
•또한, 범용 분산 처리 플랫폼
[1] https://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf
31. Spark 분산 처리 예
•사례1) 대용량 텍스트 로그 정리
•중복 및 오류가 있는 원천 로그 파일의 정리 과제
•한 달 예상 -> 30대 클러스터 분산으로 하루에 완료
•사례 2) 기계학습된 모델로 대량 검출(Inference)
•학습된 RandomForest 모델을 분산해 검출
•10배 이상 속도 향상!
81. Embedding Convolution MaxPool Flatten
Concat
… …
Dropout
& FC
Softmax
“Sell Zen!”
SPAM!Convs of
4 Kernels
Text CNN 도해
82. 학습 후 적용 결과
메시지 스팸 학습에 사용 스팸 점수
W W W , A O A U E , C O M ,,,,, 100M Zen = 10 = USD O O 0.98
!!! W-W-W-,-A-O-A-U-E-,-C-O-M === 200M ZZen = 20 = USD !!! O X 0.96
WVVW,MMOAH,COM Sell cheap zen 10M=1.55$ O O 0.99
**** Hello there!, Just visit WWW,MMOA.C0M 4 chip gen O X 0.86
i want to fight :( for 100M USD! X X 0.37
We're gearning up for Cheap Items X X 0.27
How to trade with zen?! X X 0.71
83. 주의점 💢
•일반 메시지라도 주요 단어가 들어가면 스팸 점수 상승
•적절한 임계값과 빈도로 스패머 여부 판단
84. 향상된 점 📈
•잦은 모델 업데이트 없이 변형 스팸 대응
•일단위가 아닌 메시지 당 검출 가능
•빠른 검출 속도: 300 메시지 / 초 (1 CPU)