SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
Rubinの論文
(の行間)を読んでみる
傾向スコア解析の理論
2015/06/15 学生セミナー
バイオ統計センターM1 宜保光一郎
http://faculty.smu.edu/Millimet/classes/eco7377/papers/rosenbaum%20rubin%2083a.pdf
http://www.
stat.harvard
.edu/DonRu
bin70/
Introduction
• 1983年の論文を意訳していきます
• 重要な「large sampleで傾向スコアがなぜ機能
するか」の証明まで。
• 証明は元論文ではわかりにくいので、前述した2
015年出版の書籍での証明をさらに噛み砕くこ
とを狙う(一部?のところはあるが..)
• 条件付き期待値のもろもろの定理を駆使して証
明していくので、以下のURLなどを参照。
• http://math.arizona.edu/~tgk/464_07/cond_exp.pdf
• 実践的な話はナシです。
Notation
• i: ユニットの番号
• r: アウトカム
• z: 割り付けの指標。z={1,0}
• r1i: 1の割り付けをされたユニットiの周辺アウト
カム→後述
• xi: ユニットiの観察された共変量(ベクトル)
Causal Inference
• ある割り付けをされたとき(e.g. treatment V.S
. control)に、その割り付けによる効果について
の推定をしたい
• その効果を因果効果(causal effect)とよぶ。
• 効果の推定を以下の式で表すときに
• これをAverage treatment effect(ATE) と呼ぶ
E(r1)−E(r0)
Motivation
• ATEはRCTにおいては直接測定できる。
• なぜなら、割り付けはランダムに行われおり、
両群の背景は同一と考えられるから。
• (後述するが、割り付けはランダムなので、アウ
トカムと独立しているから)
• しかし、非RCTにおいてはATEを直接推定する
ことは困難。
• なぜか?
E(r1∣z=1)−E(r0∣z=0)
Motivation
• ATEはRCTにおいては直接測定できる。
• なぜなら、割り付けはランダムに行われおり、
両群の背景は同一と考えられるから。
• (後述するが、割り付けはランダムなので、アウ
トカムと独立しているから)
• しかし、非RCTにおいてはATEを直接推定する
ことは困難。
• なぜか?
E(r1∣z=1)−E(r0∣z=0)
Rubin’s potential outcome
E[r1
| z=1]
i=1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
8
ATE
E[r0
| z=0]
Rubin’s potential outcome
E[r1
| z=1]
i=1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
8
ATE
E[ r0 | z=1 ]
E[ r1 | z=0 ]
E[r0
| z=0]
Rubin’s potential outcome
z=1 z=0
E[ r1 ] E[ r1 | z=1 ] E[ r1 | z=0 ]
E[ r0 ] E[ r0 | z=1 ] E[ r0 | z=0 ]
Rubin’s potential outcome
z=1 z=0
E[ r1 ] E[ r1 | z=1 ] E[ r1 | z=0 ]
E[ r0 ] E[ r0 | z=1 ] E[ r0 | z=0 ]
この周辺和の差がATE
現実では欠測している(反事実)
Rubin’s potential outcome
z=1 z=0
E[ r1 ] E[ r1 | z=1 ] E[ r1 | z=0 ]
E[ r0 ] E[ r0 | z=1 ] E[ r0 | z=0 ]
この周辺和の差がATE
現実では欠測している(反事実)
現実はこの両者しか直接推定で
きない(因果推論の根本問題)
RCT
z=1 z=0
E[ r1 ] E[ r1 | z=1 ]
E[ r0 ] E[ r0 | z=0 ]
ランダム割り付け
=
=
(r1 ,r0)⊥z
Strongly ignorable treatment assignment
z=1 z=0
E[ r1 ] E[ r1 | z=1 ]
E[ r0 ] E[ r0 | z=0 ]
(観測された)共変量 x
(r1 ,r0)⊥z∣x
目標はこれを利用することだが
、xはベクトルなので使いづらい。
よってxを簡易にしたものを探
すことにする
Strongly ignorable treatment assignment
• 観測された共変量xで条件づけると、アウトカム
と割り付けの確率は独立になる=RCTのように
比較ができるという、仮定
• かなり強い仮定のように思えるが、この仮定が
傾向スコア解析の肝
• この仮定が本当に成り立っているかは、非常に
重要なのだが直接確かめる方法は存在しないた
め、間接的な確認を行う。
Balancing score
• 定義:バランシングスコアb(x)とは、共変量xか
ら成る関数で、それで条件付けると割り付けzと
共変量xが独立になるようなものである
• 条件つき独立の性質からb(x)=xとなり得るのは
自明である
• 一番関心があるのはb(x)がスカラーとなる場合
→これが後の傾向スコアとなる
z ⊥ x∣b(x)
Propensity score
• 定義:傾向スコアe(x)は共変量xから成る関
数で、z=1に割り付けされる確率である。
• (前述のバランシングスコアとの関係は定義
上では明らかでないことに注意)
• i={1,2,..,n}の同時確率は、独立なベルヌー
イ分布を考え、次のように表すことができる
e(x)= pr(z=1∣x)
Pr(z1 ,..., zn∣x1 ,..., xn)=∏
n
e(xi)
xi
[1−e(xi)]
1−xi
定理
• これからいくつかの定理を証明する。示したい
ことは
• 1. 傾向スコアはバランシングスコアである
• 2. 全てのバランシングスコアに適当な関数をと
れば、傾向スコアと等しくなる(最も”粗い”もの
が傾向スコア)
• 3. もし、共変量xのもとでstorngly ignorableで
あれば、バランシングスコアで条件付けてもそ
うである
Theorem 1
•      を証明できれば、z ⊥x∣e(x)
Pr(z=1∣x ,e(x))=E(z∣x ,e(x))
=E(z∣x)
=e(x)
Pr(z=1∣e(x))=E(z∣e(x))
=E[E(z∣x ,e(x))∣e(x)]
=E[e(x)∣e(x)]
=e(x)
Pr(z=1∣x ,e(x))=Pr(z=1∣e(x))⇔ z⊥x∣e(x)∴
∵
Definition of Conditional Independence
E[ A∣B , g (B)]=E[A∣B]∵
E[E(A∣B ,C)∣B]=E[A∣B]∵
E[g (A)∣A]=g (A)
e(x)⊆b(x)
Theorem 2
バランシングスコアの定義からe(x)=f{b(x)}であることを
背理法で証明する。
全てのb(x)に対しe(x)≠f{b(x)}とすると、e(x1)≠e(x2)かつ
b(x1)=b(x2)となる2つの異なるx1, x2が存在する。よって、
e(x1)=E(z∣x1)=E(z∣b(x1), x1)=E(z∣b(x1))=E(z∣b(x2))=E(z∣x2)
E[ A∣B , g (B)]=E[A∣B] Definition of balancing score
e(x1)=e(x2)となり矛盾。ゆえに、バランシングスコアが定義され
れば、e(x)=f{b(x)}が言える。(逆も言える。証明可能。)
Theorem 3
• 目標は
• 同様に、b(x)をe(x)としても成り立つ。
E[E(A∣B ,C)∣B]=E[A∣B]
Strongly ignorable treatment assignment
Definition of balancing score
Tower property of conditional expectation
(r1 ,r0)⊥ z∣b(x)
Pr(z=1∣r1 ,r0 ,b(x))=E[z∣r1 ,r0 ,b(x)]
=E[E(z∣r1 , r0 , x ,b(x))∣r1 ,r0 ,b(x)]
=E[E(z∣x ,b(x))∣r1 ,r0 ,b(x)]
=E[E(z∣b(x))∣r1 ,r0 ,b(x)]
=E(z∣b(x))
=Pr(z=1∣b(x))
z=1 z=0
E[ r1 ] E[ r1 | z=1 ]
E[ r0 ] E[ r0 | z=0 ]
バランシングスコアb(x)
E[r1
| z=1,
b(x)]
E[r0
| z=0,
b(x)]
Theorem 4
E(r1∣z=1,b(x))−E(r0∣z=0,b(x))
=E(r1∣b(x))−E(r0∣b(x))
=E(r1−r0∣b(x))
Theorem 3
さらに期待値をとると、
E[E(r1−r0∣b(x))]=E(r1−r0) Law of iterative expectations
よって、E(r1
-r0
|b(x))を推定量と考えると
E(r1
-r0
)=ATEの不偏推定量となる
(ちなみに条件付き確率の期待値は確率変数)
Summary
•バランシングスコア(傾向スコアはその一
部)で条件付けると、割り付けz=1,0の両群の
アウトカムの平均値の差は、ATEの不偏推定量
となる。つまりATEの推定が可能となる。
•バランシングスコアの中でも傾向スコアは
最も粗く、1次元のスカラーなので、今後はこ
の傾向スコアを使用する
傾向スコアによる条件付け
① マッチング
② 層別化
③ 傾向スコアを共変量としての回帰モデル調
整
④ 傾向スコアによる重み付け推定法(IPW法)
それぞれに長所と短所がある。
ここまでで、とりあえず終了
Remarks
•論文はこの後”small sample
theory”,”some applications”と続いていく
•“strongly ignorable assumption”は最近は
”unconfoundness”と記述されることも多い
•実践的な適応については多くの資料が出回
っているので今回はパス

Más contenido relacionado

La actualidad más candente

負の二項分布について
負の二項分布について負の二項分布について
負の二項分布についてHiroshi Shimizu
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章Shuyo Nakatani
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫るKen'ichi Matsui
 
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)Kazuyuki Wakasugi
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択kazutantan
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説Shiga University, RIKEN
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにShushi Namba
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333Issei Kurahashi
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)ryotat
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析aa_aa_aa
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoSatoshi Kato
 

La actualidad más candente (20)

負の二項分布について
負の二項分布について負の二項分布について
負の二項分布について
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫る
 
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
 

Similar a Rubinの論文(の行間)を読んでみる-傾向スコアの理論-

ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRDaisuke Yoneoka
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章nocchi_airport
 
Rm20150513 4key
Rm20150513 4keyRm20150513 4key
Rm20150513 4keyyouwatari
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient DescentRyutaro Yamauchi
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』koji ochiai
 
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証Kow Kuroda
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場Daisuke Yoneoka
 

Similar a Rubinの論文(の行間)を読んでみる-傾向スコアの理論- (9)

ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
 
第2回DARM勉強会
第2回DARM勉強会第2回DARM勉強会
第2回DARM勉強会
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
 
Rm20150513 4key
Rm20150513 4keyRm20150513 4key
Rm20150513 4key
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』
 
Regression2
Regression2Regression2
Regression2
 
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
 

Más de Koichiro Gibo

生存時間分析数理の基礎
生存時間分析数理の基礎生存時間分析数理の基礎
生存時間分析数理の基礎Koichiro Gibo
 
Covid19対策本部の作り方と走らせ方公開用
Covid19対策本部の作り方と走らせ方公開用Covid19対策本部の作り方と走らせ方公開用
Covid19対策本部の作り方と走らせ方公開用Koichiro Gibo
 
分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門Koichiro Gibo
 
データベース時代の疫学研究デザイン
データベース時代の疫学研究デザインデータベース時代の疫学研究デザイン
データベース時代の疫学研究デザインKoichiro Gibo
 
マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法Koichiro Gibo
 
多重代入法の書き方 公開用
多重代入法の書き方 公開用 多重代入法の書き方 公開用
多重代入法の書き方 公開用 Koichiro Gibo
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-Koichiro Gibo
 

Más de Koichiro Gibo (7)

生存時間分析数理の基礎
生存時間分析数理の基礎生存時間分析数理の基礎
生存時間分析数理の基礎
 
Covid19対策本部の作り方と走らせ方公開用
Covid19対策本部の作り方と走らせ方公開用Covid19対策本部の作り方と走らせ方公開用
Covid19対策本部の作り方と走らせ方公開用
 
分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門
 
データベース時代の疫学研究デザイン
データベース時代の疫学研究デザインデータベース時代の疫学研究デザイン
データベース時代の疫学研究デザイン
 
マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法
 
多重代入法の書き方 公開用
多重代入法の書き方 公開用 多重代入法の書き方 公開用
多重代入法の書き方 公開用
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-
 

Rubinの論文(の行間)を読んでみる-傾向スコアの理論-