Nền tảng thuật toán của AI, Machine Learning, Big Data
Bắt đầu học data science
1. BẮT ĐẦU HỌC DATA SCIENCE
ÔNG XUÂN HỒNG – DATA ANALYST @ KNOREX
2. NỘI DUNG
Data science 101
Làm sao để
trở thành
Data Scientist
Rèn luyện thế
nào
Sự nghiệp
3. GIỚITHIỆU BẢNTHÂN
Full-stack web developer (PHP,Java)
Master @ JAIST (NLP)
Blogger (Machine Learning)
Working @ Knorex (Advertising analysis)
4.
5.
6. Tốc độ phát sinh dữ
liệu (dữ liệu phi cấu
trúc)
88%
Phân tích truyền
thống (dữ liệu có
cấu trúc)
12%
DATA ANALYST • Dữ liệu có cấu trúc:
được thiết kế kĩ lưỡng để
khai thác (SQL, OLAP, BI).
• Dữ liệu phi cấu trúc: văn
bản, comment, ảnh, video,
giọng nói, …
7. NHỮNG NHÀ NGHIÊN CỨU RA TAY
¡ Nghiên cứu mô hình kinh doanh của tổ chức để đưa ra giải pháp.
¡ Lấy và làm sạch dữ liệu, chuyển đổi thành thông tin hữu ích.
¡ Phân tích, đánh giá sơ lược dữ liệu thu thập được (Exploratory DataAnalysis).
¡ Suy diễn thông tin có ý nghĩa từ tập dữ liệu thu thập (Statistical inference).
¡ Xây dựng hệ thống hỗ trợ ra quyết định để giải quyết vấn đề.
10. DATA SCIENCE
Data Science
Văn bản Xử lý ngôn ngữ tự nhiên
Ảnh và video Thị giác máy tính
Âm thanh Xử lý tín hiệu số
Social network Phân tích đồ thị
Business Khai thác dữ liệu
DNA Tin sinh học
… …
14. KHÔNG CẦN BẰNG PHD
Big Data techs
Business domain
Project management
Teamwork
15. CODING…
Scripting
¡ Python: tổng hợp, tích hợp các nguồn dữ liệu,
prototype mô hình dự đoán.
¡ R: phân tích thống kê, trình bày biểu đồ.
¡ Julia
Low level
¡ Java:Web app,mobile app,NLP framework.
¡ Scala:Big Data processing.
¡ C++/Go:Big Data processing.
16. VIẾT BLOG CHIA SẺ
¡ Tổ chức lại kiến thức.
¡ Khi chia sẻ chính là lúc bạn đang học.
¡ Rèn luyện kĩ năng trình bày.
¡ Giúp ích cho cộng đồng.
¡ Mở rộng cơ hội nghề nghiệp.
18. RÀO CẢN BAN ĐẦU
¡ Học Toán không kĩ, đặc biệt là xác suất và thống kê.
¡ So sánh với các bạn cùng khoá làm mất tự tin và lo lắng.
¡ Quá nhiều thứ để học mà thời gian thì quá ít gây bối rối.
¡ Lo lắng việc làm khi ra trường.
¡ Mơ hồ về career path sau này.
19. TỐ CHẤT NÊN CÓ
¡ Tò mò, thích khám phá kiến thức mới.
¡ Thích lập trình, tìm tòi áp dụng những công cụ mới.
¡ Không ngại thử sai nhiều lần trong quá trình thực nghiệm.
¡ Yêu thích những phát hiện về khoa học tự nhiên.
¡ Quan tâm đến các bài toán của xã hội và mong muốn giải quyết.
21. XÁC ĐỊNH DOMAIN MUỐN LÀM
• Đọc blog.
• Đọc tin tức.
• Thầy cô giới thiệu.
• Bạn bè chia sẻ.
• Công việc đòi hỏi.
22. XÁC ĐỊNH BÀITOÁN QUANTÂM
Nghiên cứu Bài toán
Xử lý ngôn ngữ tự nhiên Language modeling,Part of speech tagging,Grammar
parsing,Word segmentation,Machine translation,Named
entity recognition,Question and Answering,Sentiment
analysis,Discourse analysis,Word sense disambiguation,
…
Thị giác máy tính Image processing,Medical imaging,Pattern recognition,
3D reconstruction,Face recognition,Computer human
interaction,Computer graphics,Object detection,Pose
estimation,Shape recognition,Scene construction …
Xử lý tín hiệu số Audio processing,Speech recognition,Noise reduction,
Audio/Video compression,…
Khai thác dữ liệu ExtractTransform Load, anomaly detection, association
rule learning,clustering,classification,regression,…
24. TÌM KHOÁ HỌC ONLINE
• Nắm kiến thức cơ bản.
• Có thể vừa học vừa làm.
• Thích học giáo trình nào thì học.
• Chi phí thấp.
• Học nhanh học chậm là do bạn.
29. HỌCTOÁN
¡ Giải tích (Analytics):tìm độ lỗi cực tiểu cho mô hình, cực đại hoá khả năng.
¡ Đại số tuyến tính (Linear algebra):nhân ma trận trong xử lý ảnh, biểu diễn và thao tác dữ liệu bảng.
¡ Toán rời rạc (Discrete mathematics):hỗ trợ phép đếm trong xác suất.
¡ Lý thuyết đồ thị (Graph theory):phân tích mạng xã hội.
¡ Xác suất thống kê (Statistics and probability):xây dựng mô hình dự đoán dựa vào dữ liệu quá khứ“educated
guess”.
32. HỌCTHUẬT
Đại học • 4 năm
Master • 2 năm
PhD • 3 năm
Postdoc • 2 năm
• Tầm sư học đạo 10 năm.
• Ít rủi ro.
• Được nghiên cứu lĩnh vực mình thích.
• Thường làm việc một mình hoặc nhóm nhỏ.
• Áp lực về xuất bản bài báo khoa học.
• Làm giảng viên, nghiên cứu sinh, hoặc nhà
tư vấn.
33. ĐI LÀM
¡ Data engineer.
¡ Data analyst.
¡ Data scientist.
¡ Project management.
¡ Business owner of a Start-up.
35. DATA ENGINEER
¡ Vai trò: thiết kế, xây dựng,bảo trì, giám sát hệ thống Big Data sao cho hệ thống có khả năng co giãn hợp lý, tiết
kiệm chi phí.
¡ Thách thức: mang lại trải nghiệm tốt về Big Data cho người dùng.
¡ Công nghệ: Docker,Zookeeper,Mesos,Chronos, Marathon,Spark, Redis, Kafka,AmazonWeb Service…
¡ Nhiệm vụ hằng ngày:
¡ Setup các hệ thống server.
¡ Tracking dữ liệu đến từ nhiều nguồn.
¡ Xây dựng hệ thống monitoring.
¡ Đảm bảo hệ thống duy trì ổn định.
36. LOGSTASH – ELASTICSEARCH - KIBANA
¡ Làm sao lấy access log cách đây 6 ngày trong khoảng thời gian 11:03 AM đến 08:16
PM?
¡ Logstash:ghi dữ liệu log từ nhiều nguồn.
¡ Elasticsearch:lưu trữ, tìm kiếm và phân tích dữ liệu log.
¡ Kibana:biểu diễn dữ liệu log, quan sát nhiều tác vụ trong một thời điểm.
37. DATA ANALYST
¡ Vai trò: thực hiện phân tích, theo dõi hệ thống Big Data.
¡ Thách thức: đảm bảo tính toàn vẹn của dữ liệu, xây dựng kế hoạch và xử lý nhanh những biến cố của hệ thống.
¡ Công nghệ: MongoDB,MySQL, PostgreSQL,Excel, …
¡ Nhiệm vụ hằng ngày:
¡ Hỗ trợ Extract Transform Load dữ liệu.
¡ Điều tra phân tích những sự cố về dữ liệu.
¡ Tổng hợp Big Data từ nhiều nguồn để phân tích.
38. LÀMVIỆCVỚI DỮ LIỆU
¡ Tổng hợp dữ liệu thành Data warehouse theo giờ, ngày,và tháng.
¡ Biểu diễn dữ liệu thành các bảng biểu và đồ thị để quan sát trực quan.
¡ Tích hợp dữ liệu từ Facebook,Google theo dạng chuẩn.
¡ Xuất file report Excel Big Data (> 100 MB).
39. DATA SCIENTIST
¡ Vai trò: xác định vấn đề và đưa ra giải pháp AI cho tổ chức.
¡ Thách thức: xây dựng được hệ thống có độ chính xác cao, hỗ trợ lãnh đạo ra quyết định tốt hơn.
¡ Công nghệ: Docker,Spark,AmazonWeb Service, Google cloud computing, MongoDB,PostgreSQL,Jupyter, …
41. BIDDING OPTIMIZER
¡ Có nên bid hay không?
¡ Nếu có thì bid với giá bao nhiêu để thắng?
¡ Dự đoán xem khi đăng quảng cáo này user có khả năng click là bao nhiêu?
¡ Mục tiêu: maximize số lượng win với điều kiện Budget và CPM cho trước bởi user.
42. PROJECT MANAGEMENT
¡ Vai trò: xây dựng và áp dụng những quy trình giúp hoàn thành dự án đúng thời hạn.
¡ Nhiệm vụ: phân công công việc và tài nguyên cho đúng người đúng việc.
¡ Công cụ: quản lý thời gian, quản lý quy trình.
¡ Thách thức:
¡ Làm hài lòng sếp.
¡ Làm hài lòng anh em.
¡ Làm hài lòng khách hàng.
43. BUSINESS OWNER
¡ Vai trò: nắm bắt và tạo ra xu hướng, truyền lửa, truyền cảm hứng, gửi gắm tầm nhìn vào sản phẩm.
¡ Nhiệm vụ: tìm mặt gửi vàng, phân phối tài nguyên và nguồn lực hợp lý.
¡ Công cụ: kĩ năng giao tiếp, đam mê, tiền bạc, và nhân cách.
¡ Thách thức:
¡ Làm hài lòng khách hàng.
¡ Chiêu dụ và giữ chân được nhân tài.
¡ Chấp nhận rủi ro bị phá sản.
¡ Cập nhật kịp thời xu hướng nhanh so với đối thủ cạnh tranh.
44. NỘI DUNG
Data science 101
Làm sao để
trở thành
Data Scientist
Rèn luyện thế
nào
Sự nghiệp