SlideShare una empresa de Scribd logo
1 de 31
Descargar para leer sin conexión
E T H A N Y I N - H A O T S U I
崔 殷 豪
2 0 1 4 / 0 4 / 0 9
資料科學與巨量資料分析
實際處理,以電子商務為例
• W E B L O G P R O C E S S I N G - > C L I C K S T R E A M D A T A
• B A S E D O N C L I C K S T R E A M D A T A , W H A T C A N W E
A N A L Y Z E ?
• R E C O M M E N D E R S Y S T E M S
• W O R K F L O W O F B I G D A T A A N A L Y S I S
• B I G D A T A 架 構 與 需 具 備 能 力
• Q & A
大綱
Web log 範例
Timestamp, sessionID, userID, cookieID, web page
2014/04/01:1323,xxxxxx,user1,cookie1,http://abc.com/index
2014/04/01:1324,xxxxxx,user1,cookie1,http://abc.com/item?itemid=1234
2014/04/01:1327,zzzzzz,null,cookie3,http://abc.com/item?itemid=2345
2014/04/01:1340,xxxxxx,user1,cookie1,http://abc.com/item?itemid=2837
2014/04/01:1341,xxxxxx,user1,cookie1,http://abc.com/category?cid=23
2014/04/01:1341,zzzzzz,null,cookie3,http://abc.com/search?kw=big data
2014/04/01:1343,xxxxxx,user1,cookie1,http://abc.com/item?itemid=4323
2014/04/01:1344,xxxxxx,user1,cookie1,http://abc.com/item?itemid=5372
2014/04/01:1344,yyyyyy,user2,cookie2,http://abc.com/top?by=lastweek
2014/04/01:1344,xxxxxx,user1,cookie1,http://abc.com/item?itemid=8899
2014/04/01:1345,xxxxxx,user1,cookie1,http://abc.com/item?itemid=5566
2014/04/01:1346,hhhhhh,user3,cookie3,http://abc.com/item?itemid=2179
2014/04/01:1348,xxxxxx,user1,cookie1,http://abc.com/item?itemid=297
2014/04/01:1348,xxxxxx,user1,cookie1,http://abc.com/category?cid=18
2014/04/01:1349,xxxxxx,user1,cookie1,http://abc.com/category?cid=24
2014/04/01:1350,yyyyyy,user2,cookie2,http://abc.com/item?itemid=2289
...
Web Log Processing Preparation
 RDBMS (PostgreSQL, MySQL)
 RAM建議要大,很大,用硬體換速度 (c/p值高)
 (16 cores CPU, 128GB RAM的1U server約1x萬一台)
 當RDBMS出現效能問題,加硬體都無法處理(慢)
 架設分散式sql-like資料庫,Cloudera impala, 或
Facebook Presto, Google BigQuery
 倒入web log資料
 用SQL-like language存取
 以java為例,可以透過JDBC存取impala
 讀到的資料再作後續處理
簡易統計
 某些商品,在某時間區間,點選次數
 某些頁面,在某時間區間,點選次數
 某些功能,在某時間區間,使用次數
 …
 效果較少!
Clickstream Data Construction (簡易版)
 先找出所有的cookieID(存在browser裡面)
 以每一個cookieID為單位(代表一個visitor),撈資
料,按照timestamp排序
 以List<VisitPageNode>的結構儲存每一個visitor的瀏
覽歷程
 可得到:
cookie1: index -> item(1234) -> item(2837) -> category(23) ->
item(4323) -> item(5372) -> …
cookie2: top(lastweek) -> item(2289)
cookie3: item(2345) -> search(big data) -> item(2179)
…
Clickstream Data Construction (簡易版)
(續)
 計算 上下頁統計
cookie1: index -> item(1234) -> item(2837) -> category(23) ->
item(4323) -> item(5372) -> …
cookie2: top(lastweek) -> item(2289)
cookie3: item(2345) -> search(‘big data’) -> item(2179)
index -> item: 1
item -> item: 2
item -> category: 1
item -> search: 1
top -> item: 1
search -> item: 1
Clickstream Data Construction 這麼簡單!?
 以上方法做出來的上下頁統計,僅供參考!!!
 這統計資料正確率不夠高!!!
 之後的分析會錯得很慘,甚至覺得此方法無效!!!
 問題在哪?
 User可能分很多次或間隔很久來瀏覽,所以每次瀏覽歷程最後一筆都
會跟下次的第一筆接起來了
 User可能開多分頁或回上頁,因此資料以List呈現,是錯的
例如:category(23) -> item(1234) -> item(5678)為例,問題是
item(1234)這一頁根本沒有link連到item(5678),user是看完了
item(1234)然後回上頁到category(23)再點item(5678)
 可能忽然點站外的連結或者書籤
 …
真正的Clickstream Data
 以每一個user為單位,應該是多棵甚至很多棵樹狀結構
category(23) -> item(1234) -> item(2345) -> item(3423)
-> item(5678)
index -> search(‘big data’) -> item(3333)
-> item(3457)
facebook -> item(3345) -> category(35) -> item(2137)
facebook -> item(3712)
yahooADs -> campaign(6) -> item(3181) -> addCart
item(3208) -> item(1820)
 以及更多、更多的細節魔鬼,就靠自己探索嘍!
注意:資料處理注意事項
 驗證!驗證!再驗證!
 力求此階段正確率達 99%以上
 因為在資料整理/資料分析是少數有答案的地方
 這階段是少數能拿高正確率的地方
(後面做預測的正確率都很低)
 這階段資料正確,有助於驗證你之後所提的預測模型
(不然,你之後所提的曠世預測模型,可能因為資料錯誤,誤以為無
效)
注意:資料處理注意事項(續)
 因為每一個環節的錯誤會嚴重影響後續的分析
(例如每個環節正確率是90%,到第四個環節正確率只剩下65.6%)
 驗證你所建立的結構是真實符合實際狀況
 耐著性子,隨機抽樣至少30~100筆 cookieID,看他們的
歷程,走訪一遍,看是否合理
 需要在web log多log一些資料,以建立正確的clickstream
 需要在發現建構出的clickstream錯誤的時候,調整資料結
構以及處理方法以達到正確率99%以上
Google Analytics新版的Visit定義
 “If a visitor arrives via one campaign, and then comes back via a different
campaign.”Counted as a new visit.
 Clickstream Data在正確的樹狀結構下,Visit從不同來源本來就是一個新的
樹
 所以,正確的資料結構來表示正在分析的資料是非常重要的!
 如何知道所用的資料結構是正確的呢?
 驗證!驗證!再驗證!!!
 References:
 http://rritw.com/a/bianchengyuyan/C__/20140405/488565.html
 https://support.google.com/analytics/answer/2731565?hl=en&ref_topic=4588493
基於正確Clickstream Data,可以分析…
 讓精準且正確的數據說話
 改善頁面與動線的依據
 了解使用者如何瀏覽網站與使用功能
 透過上下頁統計
 尋找網站的熱路徑(熱點形成的路徑)以及冷路徑或冷功能
 尋找網站的使用動線中,好的路徑迴圈以及壞的路徑迴圈
 偵測使用者迷路特徵或跳脫特徵
 追蹤訂單的每一個商品的『第一次看到商品的』來源
 若使用者來網站看該商品超過一次,第一次的來源才能真正代表該使用者從哪邊看到商品
 根據使用者瀏覽行為建立特徵分群,作為個人化學習的特徵之一
 A/B testing 有數據當依據
 計算商品間的轉換相關性特徵
好的路徑迴圈 -> 減低跳離率
 使用者在一商品頁,有兩個選項
 買或考慮買該商品
 不買該商品
 商品頁放商品推薦,可使不買該商品的使用者看到其
他可能有興趣的商品
 可由Clickstream Data找出容易離開的頁面與路徑,
放入能夠使其回到網站的誘因
冷路徑或冷功能 -> 剔除、簡化、提升
 修正路徑
 刪除沒人使用的功能,簡化頁面
 修正少有人使用的功能,使其效果提升
• 買 了 此 商 品 的 人 也 買 了 ( A L S O B O U G H T )
• 看 了 此 商 品 的 人 也 看 了 ( A L S O V I E W E D )
• 個 人 化 推 薦 ( P E R S O N A L I Z E D R E C O M M E N D A T I O N )
• 其 他 相 似 的 商 品 ( S I M I L A R I T E M S )
• 資 料 驗 證 方 法
• 10-fold cross-validation
Recommender Systems
(推薦系統)
Transaction Data (交易資料範例)
transactionID,userID,createDate,sequenceID,itemID,price,quantity
2014040001 user1 2014/04/01:1420 1 1234 800 1
2014040001 user1 2014/04/01:1420 2 8899 9900 1
2014040002 user3 2014/04/01:1521 1 2349 8000 1
2014040003 user2 2014/04/01:1621 1 2653 5000 1
…
買了此商品的人也買了(Also bought)
 可從交易資料整理出來
 同一訂單一起出現
 或消費者買過A商品後,在一個時間區間內,最常買哪些商品
 或按照商品的其他相關性
 建構出item-item的相依性
 注意:資料雜訊很多,需要花時間驗證與調整,才會
得到好的結果
看了此商品的人也看了(Also viewed)
 可從Clickstream Data整理出來
 消費者看過A商品後,在一個時間區間內,最常再看
哪些商品
 建構出item-item的相關性
 注意:資料雜訊很多,需要花時間驗證與調整,才會
得到好的結果
常用推薦方法
 協同篩選(Collaborative Filtering)
依據商品的評分,找出喜好相似的人,推薦其他已購買商品
 User-user
 Item-item
 缺點:
 當商品評分很少(台灣的現況),此機制無效
 如果改用已購買商品(已購: 1, 未購: 0)當基準,當大家距離都一樣的
時候,推薦商品會發散導致推薦清單不準
 較冷門商品或新商品沒有推薦的參考依據
 大作電影或熱門商品,經常得到一樣高分的評分,所以無參考價值
 每個人隨著心情不同,給予同一個商品的評分會有差異
 以所有使用者的瀏覽/購物記錄以及商品間的相關性混合
使用
個人化學習
 根據每一個使用者的瀏覽記錄、購買記錄,以及其他
特徵,建立每一個使用者的喜好特徵
 用處:
 個人化推薦
 建立銷售預測模型
 強化行銷效益
 可以從使用者喜好進行查詢
個人化推薦
 One-to-one marketing
 根據該使用者的過去歷程以及喜好,推薦他可能會喜
歡的商品
 例
 該使用者昨天才買了相機,今天就可以推薦他買其他人買了相
機後會買的配件等
 使用者上次買了bling bling衣服,這次優先推薦這類的商品
 使用者買了財金書籍,有新的財金書籍就主動推薦給他
 推薦準 比 推薦多 來得重要
 推薦準,對消費者來說是有用的資訊
 推薦不準,對消費者來說是垃圾信或廣告
資料驗證 – 10-fold cross-validation
 嚴格驗證自己建立的預測模型的正確率
 隨機抽樣計算正確率,可能因為剛好抽樣到很合你的
預測模型的資料,導致正確率高估或低估
 所以需要一個嚴格的驗證方法
K-fold cross-validation(交叉驗證)
N個
特徵
答
案
Fold-1
Fold-2
Fold-3
Training data
(訓練資料)
你的預測模型
1. 隨機將
資料分割
成3份
2. 用其中2
份建立訓
練模型
3. 用另1份當測試資
料,不看答案,從特徵
倒入預測模型推算出答
案,得到答對的正確率
4. 分別取另兩份當
作測試資料,將三次
答案的正確率曲平
均,即為你預測模型
的正確率Testing data
過去的資料
References
 書籍
 Programming Collective Intelligence
http://www.amazon.com/Programming-Collective-Intelligence-Building-Applications-
ebook/dp/B0028N4WM4/ref=tmm_kin_title_0?ie=UTF8&qid=1395990457&sr=1-1
 Predictive Analytics
http://www.amazon.com/Predictive-Analytics-Power-Predict-Click-
ebook/dp/B00BGC2WGQ/ref=pd_sim_kstore_22?ie=UTF8&refRID=1D6C9Q3RT3KPC4TC79JM
 Web page
 Deconstructing Recommender Systems
http://spectrum.ieee.org/computing/software/deconstructing-recommender-
systems
 Improving recommendation systems
http://web.mit.edu/newsoffice/2011/compare-recommendation-systems-
0708.html
 專利
 Personalized recommendations of items represented within a
database, https://www.google.com/patents/US7113917
Big Data 架構與需具備能力
Big data 架構
 基礎建設
(RDBMS, Hadoop, Hbase, Hive, Impala, Map/Reduce,
…)
 資料整理與匯入
 建立資料結構
 資料分析
 產生報表
 視覺圖表互動界面
Big Data 各架構需要能力
 基礎建設
(RDBMS, Hadoop, HBase, Hive, Impala, Map/Red
uce, …)
 Linux
 Software Installation
 Networking
 Performance tuning
 程式撰寫(資料匯入、建立資料結構、資料分析、產
生報表)
 Java
 Python
 (Perl, ruby, c++, 統計軟體)
Big Data 各架構需要能力(續)
 資料分析
 統計
 Data mining
 機率
 學習該分析工具或分析程式撰寫
 產生報表
 寫程式
 統計軟體
 視覺圖表互動界面
 寫程式
 統計軟體
此外,還需要
 興趣
 熱情
 恆心
 跨領域合作的溝通能力
 耐心(要跟資料當朋友,得耐著性子看資料做驗證)
 跨第二領域會有加分
 統計人學寫分散運算程式,程式人學統計
E T H A N Y I N - H A O T S U I
E M A I L : e t h a n 7 7 ( a t ) g m a i l . c o m
F A C E B O O K : e t h a n 7 7 ( a t ) g m a i l . c o m
Q & A

Más contenido relacionado

La actualidad más candente

Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Jazz Yao-Tsung Wang
 
Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Etu Solution
 
客戶數據分析四大難題一次解決: IBM 數據分析解決方案
客戶數據分析四大難題一次解決:  IBM 數據分析解決方案客戶數據分析四大難題一次解決:  IBM 數據分析解決方案
客戶數據分析四大難題一次解決: IBM 數據分析解決方案Randy Lin
 
Big Data for Retail 零售業大數據應用
Big Data for Retail 零售業大數據應用Big Data for Retail 零售業大數據應用
Big Data for Retail 零售業大數據應用Judy Wu
 
DSP 資料科學計畫簡介
DSP 資料科學計畫簡介DSP 資料科學計畫簡介
DSP 資料科學計畫簡介codefortomorrow
 
薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐hdhappy001
 
謝宗震/隨機對照實驗在公共領域的應用
謝宗震/隨機對照實驗在公共領域的應用謝宗震/隨機對照實驗在公共領域的應用
謝宗震/隨機對照實驗在公共領域的應用台灣資料科學年會
 
暴走漫画数据挖掘从0到1
暴走漫画数据挖掘从0到1暴走漫画数据挖掘从0到1
暴走漫画数据挖掘从0到1Michael Ding
 
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖Etu Solution
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道Etu Solution
 
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务hdhappy001
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Jazz Yao-Tsung Wang
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況Jazz Yao-Tsung Wang
 
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰台灣資料科學年會
 
Big Data vs. Open Data
Big Data vs. Open DataBig Data vs. Open Data
Big Data vs. Open DataFred Chiang
 

La actualidad más candente (20)

Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)
 
Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動
 
搜企网
搜企网搜企网
搜企网
 
客戶數據分析四大難題一次解決: IBM 數據分析解決方案
客戶數據分析四大難題一次解決:  IBM 數據分析解決方案客戶數據分析四大難題一次解決:  IBM 數據分析解決方案
客戶數據分析四大難題一次解決: IBM 數據分析解決方案
 
Big Data for Retail 零售業大數據應用
Big Data for Retail 零售業大數據應用Big Data for Retail 零售業大數據應用
Big Data for Retail 零售業大數據應用
 
DSP 資料科學計畫簡介
DSP 資料科學計畫簡介DSP 資料科學計畫簡介
DSP 資料科學計畫簡介
 
薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐
 
謝宗震/隨機對照實驗在公共領域的應用
謝宗震/隨機對照實驗在公共領域的應用謝宗震/隨機對照實驗在公共領域的應用
謝宗震/隨機對照實驗在公共領域的應用
 
Hadoop.TW : Now and Future
Hadoop.TW : Now and FutureHadoop.TW : Now and Future
Hadoop.TW : Now and Future
 
暴走漫画数据挖掘从0到1
暴走漫画数据挖掘从0到1暴走漫画数据挖掘从0到1
暴走漫画数据挖掘从0到1
 
Data Pipeline Matters
Data Pipeline MattersData Pipeline Matters
Data Pipeline Matters
 
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道
 
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況
 
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
 
Big Data vs. Open Data
Big Data vs. Open DataBig Data vs. Open Data
Big Data vs. Open Data
 

Destacado

Amazon Athena Capabilities and Use Cases Overview
Amazon Athena Capabilities and Use Cases Overview Amazon Athena Capabilities and Use Cases Overview
Amazon Athena Capabilities and Use Cases Overview Amazon Web Services
 
管理程式對AWS LAMBDA持續交付
管理程式對AWS LAMBDA持續交付管理程式對AWS LAMBDA持續交付
管理程式對AWS LAMBDA持續交付Amazon Web Services
 
可靠分布式系统基础 Paxos的直观解释
可靠分布式系统基础 Paxos的直观解释可靠分布式系统基础 Paxos的直观解释
可靠分布式系统基础 Paxos的直观解释Yanpo Zhang
 
BDA303 Serverless big data architectures: Design patterns and best practices
BDA303 Serverless big data architectures: Design patterns and best practicesBDA303 Serverless big data architectures: Design patterns and best practices
BDA303 Serverless big data architectures: Design patterns and best practicesAmazon Web Services
 
GLOA:A New Job Scheduling Algorithm for Grid Computing
GLOA:A New Job Scheduling Algorithm for Grid ComputingGLOA:A New Job Scheduling Algorithm for Grid Computing
GLOA:A New Job Scheduling Algorithm for Grid ComputingLINE+
 
Tackle Your Dark Data Challenge with AWS Glue - AWS Online Tech Talks
Tackle Your Dark Data  Challenge with AWS Glue - AWS Online Tech TalksTackle Your Dark Data  Challenge with AWS Glue - AWS Online Tech Talks
Tackle Your Dark Data Challenge with AWS Glue - AWS Online Tech TalksAmazon Web Services
 
Cephfs架构解读和测试分析
Cephfs架构解读和测试分析Cephfs架构解读和测试分析
Cephfs架构解读和测试分析Yang Guanjun
 
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)Amazon Web Services
 
(Slides) Task scheduling algorithm for multicore processor system for minimiz...
(Slides) Task scheduling algorithm for multicore processor system for minimiz...(Slides) Task scheduling algorithm for multicore processor system for minimiz...
(Slides) Task scheduling algorithm for multicore processor system for minimiz...Naoki Shibata
 
Connecting Your Data Analytics Pipeline
Connecting Your Data Analytics PipelineConnecting Your Data Analytics Pipeline
Connecting Your Data Analytics PipelineAmazon Web Services
 
初探AWS 平台上的 NoSQL 雲端資料庫服務
初探AWS 平台上的 NoSQL 雲端資料庫服務初探AWS 平台上的 NoSQL 雲端資料庫服務
初探AWS 平台上的 NoSQL 雲端資料庫服務Amazon Web Services
 
淺談系統監控與 AWS CloudWatch 的應用
淺談系統監控與 AWS CloudWatch 的應用淺談系統監控與 AWS CloudWatch 的應用
淺談系統監控與 AWS CloudWatch 的應用Rick Hwang
 
The Power of Big Data - AWS Summit Bahrain 2017
The Power of Big Data - AWS Summit Bahrain 2017The Power of Big Data - AWS Summit Bahrain 2017
The Power of Big Data - AWS Summit Bahrain 2017Amazon Web Services
 
Introduction to YARN and MapReduce 2
Introduction to YARN and MapReduce 2Introduction to YARN and MapReduce 2
Introduction to YARN and MapReduce 2Cloudera, Inc.
 
如何利用 Amazon EMR 及Athena 打造高成本效益的大數據環境
如何利用 Amazon EMR 及Athena 打造高成本效益的大數據環境如何利用 Amazon EMR 及Athena 打造高成本效益的大數據環境
如何利用 Amazon EMR 及Athena 打造高成本效益的大數據環境Amazon Web Services
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pubChao Zhu
 
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)Kuo-Chun Su
 

Destacado (20)

Introduction to AWS Glue
Introduction to AWS GlueIntroduction to AWS Glue
Introduction to AWS Glue
 
Amazon Athena Capabilities and Use Cases Overview
Amazon Athena Capabilities and Use Cases Overview Amazon Athena Capabilities and Use Cases Overview
Amazon Athena Capabilities and Use Cases Overview
 
管理程式對AWS LAMBDA持續交付
管理程式對AWS LAMBDA持續交付管理程式對AWS LAMBDA持續交付
管理程式對AWS LAMBDA持續交付
 
可靠分布式系统基础 Paxos的直观解释
可靠分布式系统基础 Paxos的直观解释可靠分布式系统基础 Paxos的直观解释
可靠分布式系统基础 Paxos的直观解释
 
BDA303 Serverless big data architectures: Design patterns and best practices
BDA303 Serverless big data architectures: Design patterns and best practicesBDA303 Serverless big data architectures: Design patterns and best practices
BDA303 Serverless big data architectures: Design patterns and best practices
 
GLOA:A New Job Scheduling Algorithm for Grid Computing
GLOA:A New Job Scheduling Algorithm for Grid ComputingGLOA:A New Job Scheduling Algorithm for Grid Computing
GLOA:A New Job Scheduling Algorithm for Grid Computing
 
Tackle Your Dark Data Challenge with AWS Glue - AWS Online Tech Talks
Tackle Your Dark Data  Challenge with AWS Glue - AWS Online Tech TalksTackle Your Dark Data  Challenge with AWS Glue - AWS Online Tech Talks
Tackle Your Dark Data Challenge with AWS Glue - AWS Online Tech Talks
 
Cephfs架构解读和测试分析
Cephfs架构解读和测试分析Cephfs架构解读和测试分析
Cephfs架构解读和测试分析
 
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
 
(Slides) Task scheduling algorithm for multicore processor system for minimiz...
(Slides) Task scheduling algorithm for multicore processor system for minimiz...(Slides) Task scheduling algorithm for multicore processor system for minimiz...
(Slides) Task scheduling algorithm for multicore processor system for minimiz...
 
Connecting Your Data Analytics Pipeline
Connecting Your Data Analytics PipelineConnecting Your Data Analytics Pipeline
Connecting Your Data Analytics Pipeline
 
初探AWS 平台上的 NoSQL 雲端資料庫服務
初探AWS 平台上的 NoSQL 雲端資料庫服務初探AWS 平台上的 NoSQL 雲端資料庫服務
初探AWS 平台上的 NoSQL 雲端資料庫服務
 
淺談系統監控與 AWS CloudWatch 的應用
淺談系統監控與 AWS CloudWatch 的應用淺談系統監控與 AWS CloudWatch 的應用
淺談系統監控與 AWS CloudWatch 的應用
 
The Power of Big Data - AWS Summit Bahrain 2017
The Power of Big Data - AWS Summit Bahrain 2017The Power of Big Data - AWS Summit Bahrain 2017
The Power of Big Data - AWS Summit Bahrain 2017
 
Introduction to YARN and MapReduce 2
Introduction to YARN and MapReduce 2Introduction to YARN and MapReduce 2
Introduction to YARN and MapReduce 2
 
如何利用 Amazon EMR 及Athena 打造高成本效益的大數據環境
如何利用 Amazon EMR 及Athena 打造高成本效益的大數據環境如何利用 Amazon EMR 及Athena 打造高成本效益的大數據環境
如何利用 Amazon EMR 及Athena 打造高成本效益的大數據環境
 
The Impala Cookbook
The Impala CookbookThe Impala Cookbook
The Impala Cookbook
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
 
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)
 
Micro service
Micro serviceMicro service
Micro service
 

Similar a 電子商務資料分析 上課投影片

網路2.0時代情報蒐集術
網路2.0時代情報蒐集術網路2.0時代情報蒐集術
網路2.0時代情報蒐集術基欽 劉
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
N世代情報收集術
N世代情報收集術N世代情報收集術
N世代情報收集術基欽 劉
 
Web Analytics 2.0 的新世界
Web Analytics 2.0 的新世界Web Analytics 2.0 的新世界
Web Analytics 2.0 的新世界Vista Cheng
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Etu Solution
 
数据化导向设计方法
数据化导向设计方法数据化导向设计方法
数据化导向设计方法Robert Luo
 
搜索 VS 查询
搜索 VS 查询搜索 VS 查询
搜索 VS 查询liluming
 
4 association rule
4 association rule4 association rule
4 association ruleFEG
 
Customer behavior analysis
Customer behavior analysisCustomer behavior analysis
Customer behavior analysisFEG
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计PMCamp
 
Realtime analytics with Flink and Druid
Realtime analytics with Flink and DruidRealtime analytics with Flink and Druid
Realtime analytics with Flink and DruidErhwen Kuo
 
Google Analytics 使用者行為分析 @ Front-End Developers Taiwan Party - 9
Google Analytics 使用者行為分析 @ Front-End Developers Taiwan Party - 9Google Analytics 使用者行為分析 @ Front-End Developers Taiwan Party - 9
Google Analytics 使用者行為分析 @ Front-End Developers Taiwan Party - 9Hans Shih
 
20151016 中興大學 big data + machine learning
20151016 中興大學 big data + machine learning20151016 中興大學 big data + machine learning
20151016 中興大學 big data + machine learningMeng-Ru (Raymond) Tsai
 
IxDC2011 中国交互设计体验日_数据分析在网页评估中的作用_淘宝_王雯
IxDC2011 中国交互设计体验日_数据分析在网页评估中的作用_淘宝_王雯IxDC2011 中国交互设计体验日_数据分析在网页评估中的作用_淘宝_王雯
IxDC2011 中国交互设计体验日_数据分析在网页评估中的作用_淘宝_王雯IxDC
 
A Concept of Network Analysis Tool by Data Mining
A Concept of Network Analysis Tool by Data MiningA Concept of Network Analysis Tool by Data Mining
A Concept of Network Analysis Tool by Data MiningJhang Raymond
 
海量資料與圖書館
海量資料與圖書館海量資料與圖書館
海量資料與圖書館皓仁 柯
 
優化宅的日常-數據分析篇
優化宅的日常-數據分析篇優化宅的日常-數據分析篇
優化宅的日常-數據分析篇Wanju Wang
 
腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍George Ang
 
Data Thinking Workshop 02
Data Thinking Workshop 02Data Thinking Workshop 02
Data Thinking Workshop 02Chia-Hsin Liu
 

Similar a 電子商務資料分析 上課投影片 (20)

網路2.0時代情報蒐集術
網路2.0時代情報蒐集術網路2.0時代情報蒐集術
網路2.0時代情報蒐集術
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
N世代情報收集術
N世代情報收集術N世代情報收集術
N世代情報收集術
 
Web Analytics 2.0 的新世界
Web Analytics 2.0 的新世界Web Analytics 2.0 的新世界
Web Analytics 2.0 的新世界
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
 
数据化导向设计方法
数据化导向设计方法数据化导向设计方法
数据化导向设计方法
 
搜索 VS 查询
搜索 VS 查询搜索 VS 查询
搜索 VS 查询
 
4 association rule
4 association rule4 association rule
4 association rule
 
Enterprise Data Lake in Action
Enterprise Data Lake in ActionEnterprise Data Lake in Action
Enterprise Data Lake in Action
 
Customer behavior analysis
Customer behavior analysisCustomer behavior analysis
Customer behavior analysis
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计
 
Realtime analytics with Flink and Druid
Realtime analytics with Flink and DruidRealtime analytics with Flink and Druid
Realtime analytics with Flink and Druid
 
Google Analytics 使用者行為分析 @ Front-End Developers Taiwan Party - 9
Google Analytics 使用者行為分析 @ Front-End Developers Taiwan Party - 9Google Analytics 使用者行為分析 @ Front-End Developers Taiwan Party - 9
Google Analytics 使用者行為分析 @ Front-End Developers Taiwan Party - 9
 
20151016 中興大學 big data + machine learning
20151016 中興大學 big data + machine learning20151016 中興大學 big data + machine learning
20151016 中興大學 big data + machine learning
 
IxDC2011 中国交互设计体验日_数据分析在网页评估中的作用_淘宝_王雯
IxDC2011 中国交互设计体验日_数据分析在网页评估中的作用_淘宝_王雯IxDC2011 中国交互设计体验日_数据分析在网页评估中的作用_淘宝_王雯
IxDC2011 中国交互设计体验日_数据分析在网页评估中的作用_淘宝_王雯
 
A Concept of Network Analysis Tool by Data Mining
A Concept of Network Analysis Tool by Data MiningA Concept of Network Analysis Tool by Data Mining
A Concept of Network Analysis Tool by Data Mining
 
海量資料與圖書館
海量資料與圖書館海量資料與圖書館
海量資料與圖書館
 
優化宅的日常-數據分析篇
優化宅的日常-數據分析篇優化宅的日常-數據分析篇
優化宅的日常-數據分析篇
 
腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍
 
Data Thinking Workshop 02
Data Thinking Workshop 02Data Thinking Workshop 02
Data Thinking Workshop 02
 

電子商務資料分析 上課投影片

  • 1. E T H A N Y I N - H A O T S U I 崔 殷 豪 2 0 1 4 / 0 4 / 0 9 資料科學與巨量資料分析 實際處理,以電子商務為例
  • 2. • W E B L O G P R O C E S S I N G - > C L I C K S T R E A M D A T A • B A S E D O N C L I C K S T R E A M D A T A , W H A T C A N W E A N A L Y Z E ? • R E C O M M E N D E R S Y S T E M S • W O R K F L O W O F B I G D A T A A N A L Y S I S • B I G D A T A 架 構 與 需 具 備 能 力 • Q & A 大綱
  • 3. Web log 範例 Timestamp, sessionID, userID, cookieID, web page 2014/04/01:1323,xxxxxx,user1,cookie1,http://abc.com/index 2014/04/01:1324,xxxxxx,user1,cookie1,http://abc.com/item?itemid=1234 2014/04/01:1327,zzzzzz,null,cookie3,http://abc.com/item?itemid=2345 2014/04/01:1340,xxxxxx,user1,cookie1,http://abc.com/item?itemid=2837 2014/04/01:1341,xxxxxx,user1,cookie1,http://abc.com/category?cid=23 2014/04/01:1341,zzzzzz,null,cookie3,http://abc.com/search?kw=big data 2014/04/01:1343,xxxxxx,user1,cookie1,http://abc.com/item?itemid=4323 2014/04/01:1344,xxxxxx,user1,cookie1,http://abc.com/item?itemid=5372 2014/04/01:1344,yyyyyy,user2,cookie2,http://abc.com/top?by=lastweek 2014/04/01:1344,xxxxxx,user1,cookie1,http://abc.com/item?itemid=8899 2014/04/01:1345,xxxxxx,user1,cookie1,http://abc.com/item?itemid=5566 2014/04/01:1346,hhhhhh,user3,cookie3,http://abc.com/item?itemid=2179 2014/04/01:1348,xxxxxx,user1,cookie1,http://abc.com/item?itemid=297 2014/04/01:1348,xxxxxx,user1,cookie1,http://abc.com/category?cid=18 2014/04/01:1349,xxxxxx,user1,cookie1,http://abc.com/category?cid=24 2014/04/01:1350,yyyyyy,user2,cookie2,http://abc.com/item?itemid=2289 ...
  • 4. Web Log Processing Preparation  RDBMS (PostgreSQL, MySQL)  RAM建議要大,很大,用硬體換速度 (c/p值高)  (16 cores CPU, 128GB RAM的1U server約1x萬一台)  當RDBMS出現效能問題,加硬體都無法處理(慢)  架設分散式sql-like資料庫,Cloudera impala, 或 Facebook Presto, Google BigQuery  倒入web log資料  用SQL-like language存取  以java為例,可以透過JDBC存取impala  讀到的資料再作後續處理
  • 6. Clickstream Data Construction (簡易版)  先找出所有的cookieID(存在browser裡面)  以每一個cookieID為單位(代表一個visitor),撈資 料,按照timestamp排序  以List<VisitPageNode>的結構儲存每一個visitor的瀏 覽歷程  可得到: cookie1: index -> item(1234) -> item(2837) -> category(23) -> item(4323) -> item(5372) -> … cookie2: top(lastweek) -> item(2289) cookie3: item(2345) -> search(big data) -> item(2179) …
  • 7. Clickstream Data Construction (簡易版) (續)  計算 上下頁統計 cookie1: index -> item(1234) -> item(2837) -> category(23) -> item(4323) -> item(5372) -> … cookie2: top(lastweek) -> item(2289) cookie3: item(2345) -> search(‘big data’) -> item(2179) index -> item: 1 item -> item: 2 item -> category: 1 item -> search: 1 top -> item: 1 search -> item: 1
  • 8. Clickstream Data Construction 這麼簡單!?  以上方法做出來的上下頁統計,僅供參考!!!  這統計資料正確率不夠高!!!  之後的分析會錯得很慘,甚至覺得此方法無效!!!  問題在哪?  User可能分很多次或間隔很久來瀏覽,所以每次瀏覽歷程最後一筆都 會跟下次的第一筆接起來了  User可能開多分頁或回上頁,因此資料以List呈現,是錯的 例如:category(23) -> item(1234) -> item(5678)為例,問題是 item(1234)這一頁根本沒有link連到item(5678),user是看完了 item(1234)然後回上頁到category(23)再點item(5678)  可能忽然點站外的連結或者書籤  …
  • 9. 真正的Clickstream Data  以每一個user為單位,應該是多棵甚至很多棵樹狀結構 category(23) -> item(1234) -> item(2345) -> item(3423) -> item(5678) index -> search(‘big data’) -> item(3333) -> item(3457) facebook -> item(3345) -> category(35) -> item(2137) facebook -> item(3712) yahooADs -> campaign(6) -> item(3181) -> addCart item(3208) -> item(1820)  以及更多、更多的細節魔鬼,就靠自己探索嘍!
  • 10. 注意:資料處理注意事項  驗證!驗證!再驗證!  力求此階段正確率達 99%以上  因為在資料整理/資料分析是少數有答案的地方  這階段是少數能拿高正確率的地方 (後面做預測的正確率都很低)  這階段資料正確,有助於驗證你之後所提的預測模型 (不然,你之後所提的曠世預測模型,可能因為資料錯誤,誤以為無 效)
  • 11. 注意:資料處理注意事項(續)  因為每一個環節的錯誤會嚴重影響後續的分析 (例如每個環節正確率是90%,到第四個環節正確率只剩下65.6%)  驗證你所建立的結構是真實符合實際狀況  耐著性子,隨機抽樣至少30~100筆 cookieID,看他們的 歷程,走訪一遍,看是否合理  需要在web log多log一些資料,以建立正確的clickstream  需要在發現建構出的clickstream錯誤的時候,調整資料結 構以及處理方法以達到正確率99%以上
  • 12. Google Analytics新版的Visit定義  “If a visitor arrives via one campaign, and then comes back via a different campaign.”Counted as a new visit.  Clickstream Data在正確的樹狀結構下,Visit從不同來源本來就是一個新的 樹  所以,正確的資料結構來表示正在分析的資料是非常重要的!  如何知道所用的資料結構是正確的呢?  驗證!驗證!再驗證!!!  References:  http://rritw.com/a/bianchengyuyan/C__/20140405/488565.html  https://support.google.com/analytics/answer/2731565?hl=en&ref_topic=4588493
  • 13. 基於正確Clickstream Data,可以分析…  讓精準且正確的數據說話  改善頁面與動線的依據  了解使用者如何瀏覽網站與使用功能  透過上下頁統計  尋找網站的熱路徑(熱點形成的路徑)以及冷路徑或冷功能  尋找網站的使用動線中,好的路徑迴圈以及壞的路徑迴圈  偵測使用者迷路特徵或跳脫特徵  追蹤訂單的每一個商品的『第一次看到商品的』來源  若使用者來網站看該商品超過一次,第一次的來源才能真正代表該使用者從哪邊看到商品  根據使用者瀏覽行為建立特徵分群,作為個人化學習的特徵之一  A/B testing 有數據當依據  計算商品間的轉換相關性特徵
  • 14. 好的路徑迴圈 -> 減低跳離率  使用者在一商品頁,有兩個選項  買或考慮買該商品  不買該商品  商品頁放商品推薦,可使不買該商品的使用者看到其 他可能有興趣的商品  可由Clickstream Data找出容易離開的頁面與路徑, 放入能夠使其回到網站的誘因
  • 15. 冷路徑或冷功能 -> 剔除、簡化、提升  修正路徑  刪除沒人使用的功能,簡化頁面  修正少有人使用的功能,使其效果提升
  • 16. • 買 了 此 商 品 的 人 也 買 了 ( A L S O B O U G H T ) • 看 了 此 商 品 的 人 也 看 了 ( A L S O V I E W E D ) • 個 人 化 推 薦 ( P E R S O N A L I Z E D R E C O M M E N D A T I O N ) • 其 他 相 似 的 商 品 ( S I M I L A R I T E M S ) • 資 料 驗 證 方 法 • 10-fold cross-validation Recommender Systems (推薦系統)
  • 17. Transaction Data (交易資料範例) transactionID,userID,createDate,sequenceID,itemID,price,quantity 2014040001 user1 2014/04/01:1420 1 1234 800 1 2014040001 user1 2014/04/01:1420 2 8899 9900 1 2014040002 user3 2014/04/01:1521 1 2349 8000 1 2014040003 user2 2014/04/01:1621 1 2653 5000 1 …
  • 18. 買了此商品的人也買了(Also bought)  可從交易資料整理出來  同一訂單一起出現  或消費者買過A商品後,在一個時間區間內,最常買哪些商品  或按照商品的其他相關性  建構出item-item的相依性  注意:資料雜訊很多,需要花時間驗證與調整,才會 得到好的結果
  • 19. 看了此商品的人也看了(Also viewed)  可從Clickstream Data整理出來  消費者看過A商品後,在一個時間區間內,最常再看 哪些商品  建構出item-item的相關性  注意:資料雜訊很多,需要花時間驗證與調整,才會 得到好的結果
  • 20. 常用推薦方法  協同篩選(Collaborative Filtering) 依據商品的評分,找出喜好相似的人,推薦其他已購買商品  User-user  Item-item  缺點:  當商品評分很少(台灣的現況),此機制無效  如果改用已購買商品(已購: 1, 未購: 0)當基準,當大家距離都一樣的 時候,推薦商品會發散導致推薦清單不準  較冷門商品或新商品沒有推薦的參考依據  大作電影或熱門商品,經常得到一樣高分的評分,所以無參考價值  每個人隨著心情不同,給予同一個商品的評分會有差異  以所有使用者的瀏覽/購物記錄以及商品間的相關性混合 使用
  • 21. 個人化學習  根據每一個使用者的瀏覽記錄、購買記錄,以及其他 特徵,建立每一個使用者的喜好特徵  用處:  個人化推薦  建立銷售預測模型  強化行銷效益  可以從使用者喜好進行查詢
  • 22. 個人化推薦  One-to-one marketing  根據該使用者的過去歷程以及喜好,推薦他可能會喜 歡的商品  例  該使用者昨天才買了相機,今天就可以推薦他買其他人買了相 機後會買的配件等  使用者上次買了bling bling衣服,這次優先推薦這類的商品  使用者買了財金書籍,有新的財金書籍就主動推薦給他  推薦準 比 推薦多 來得重要  推薦準,對消費者來說是有用的資訊  推薦不準,對消費者來說是垃圾信或廣告
  • 23. 資料驗證 – 10-fold cross-validation  嚴格驗證自己建立的預測模型的正確率  隨機抽樣計算正確率,可能因為剛好抽樣到很合你的 預測模型的資料,導致正確率高估或低估  所以需要一個嚴格的驗證方法
  • 24. K-fold cross-validation(交叉驗證) N個 特徵 答 案 Fold-1 Fold-2 Fold-3 Training data (訓練資料) 你的預測模型 1. 隨機將 資料分割 成3份 2. 用其中2 份建立訓 練模型 3. 用另1份當測試資 料,不看答案,從特徵 倒入預測模型推算出答 案,得到答對的正確率 4. 分別取另兩份當 作測試資料,將三次 答案的正確率曲平 均,即為你預測模型 的正確率Testing data 過去的資料
  • 25. References  書籍  Programming Collective Intelligence http://www.amazon.com/Programming-Collective-Intelligence-Building-Applications- ebook/dp/B0028N4WM4/ref=tmm_kin_title_0?ie=UTF8&qid=1395990457&sr=1-1  Predictive Analytics http://www.amazon.com/Predictive-Analytics-Power-Predict-Click- ebook/dp/B00BGC2WGQ/ref=pd_sim_kstore_22?ie=UTF8&refRID=1D6C9Q3RT3KPC4TC79JM  Web page  Deconstructing Recommender Systems http://spectrum.ieee.org/computing/software/deconstructing-recommender- systems  Improving recommendation systems http://web.mit.edu/newsoffice/2011/compare-recommendation-systems- 0708.html  專利  Personalized recommendations of items represented within a database, https://www.google.com/patents/US7113917
  • 27. Big data 架構  基礎建設 (RDBMS, Hadoop, Hbase, Hive, Impala, Map/Reduce, …)  資料整理與匯入  建立資料結構  資料分析  產生報表  視覺圖表互動界面
  • 28. Big Data 各架構需要能力  基礎建設 (RDBMS, Hadoop, HBase, Hive, Impala, Map/Red uce, …)  Linux  Software Installation  Networking  Performance tuning  程式撰寫(資料匯入、建立資料結構、資料分析、產 生報表)  Java  Python  (Perl, ruby, c++, 統計軟體)
  • 29. Big Data 各架構需要能力(續)  資料分析  統計  Data mining  機率  學習該分析工具或分析程式撰寫  產生報表  寫程式  統計軟體  視覺圖表互動界面  寫程式  統計軟體
  • 30. 此外,還需要  興趣  熱情  恆心  跨領域合作的溝通能力  耐心(要跟資料當朋友,得耐著性子看資料做驗證)  跨第二領域會有加分  統計人學寫分散運算程式,程式人學統計
  • 31. E T H A N Y I N - H A O T S U I E M A I L : e t h a n 7 7 ( a t ) g m a i l . c o m F A C E B O O K : e t h a n 7 7 ( a t ) g m a i l . c o m Q & A