Enviar búsqueda
Cargar
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
•
14 recomendaciones
•
6,945 vistas
Koichiro Gibo
Seguir
有名な1983年のRubin&Rosenbaumの論文をナナメ読みしていきます
Leer menos
Leer más
Ciencias
Denunciar
Compartir
Denunciar
Compartir
1 de 26
Descargar ahora
Descargar para leer sin conexión
Recomendados
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
傾向スコアの概念とその実践
傾向スコアの概念とその実践
Yasuyuki Okumura
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
takehikoihayashi
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
Koichiro Gibo
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Takashi J OZAKI
アンサンブル学習
アンサンブル学習
Hidekazu Tanaka
Recomendados
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
傾向スコアの概念とその実践
傾向スコアの概念とその実践
Yasuyuki Okumura
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
takehikoihayashi
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
Koichiro Gibo
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Takashi J OZAKI
アンサンブル学習
アンサンブル学習
Hidekazu Tanaka
負の二項分布について
負の二項分布について
Hiroshi Shimizu
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
Shuyo Nakatani
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
最適輸送入門
最適輸送入門
joisino
ベータ分布の謎に迫る
ベータ分布の謎に迫る
Ken'ichi Matsui
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
Kazuyuki Wakasugi
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
Shushi Namba
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
Issei Kurahashi
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
ryotat
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
Shuyo Nakatani
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
効果測定入門 Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
aa_aa_aa
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
takehikoihayashi
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
Satoshi Kato
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
Daisuke Yoneoka
第2回DARM勉強会
第2回DARM勉強会
Yoshitake Takebayashi
Más contenido relacionado
La actualidad más candente
負の二項分布について
負の二項分布について
Hiroshi Shimizu
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
Shuyo Nakatani
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
最適輸送入門
最適輸送入門
joisino
ベータ分布の謎に迫る
ベータ分布の謎に迫る
Ken'ichi Matsui
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
Kazuyuki Wakasugi
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
Shushi Namba
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
Issei Kurahashi
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
ryotat
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
Shuyo Nakatani
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
効果測定入門 Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
aa_aa_aa
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
takehikoihayashi
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
Satoshi Kato
La actualidad más candente
(20)
負の二項分布について
負の二項分布について
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
最適輸送入門
最適輸送入門
ベータ分布の謎に迫る
ベータ分布の謎に迫る
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
ベイズファクターとモデル選択
ベイズファクターとモデル選択
不均衡データのクラス分類
不均衡データのクラス分類
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Stanコードの書き方 中級編
Stanコードの書き方 中級編
効果測定入門 Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
Similar a Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
Daisuke Yoneoka
第2回DARM勉強会
第2回DARM勉強会
Yoshitake Takebayashi
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
nocchi_airport
Rm20150513 4key
Rm20150513 4key
youwatari
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Ryutaro Yamauchi
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』
koji ochiai
Regression2
Regression2
Yuta Tomomatsu
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
Kow Kuroda
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
Daisuke Yoneoka
Similar a Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
(9)
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
第2回DARM勉強会
第2回DARM勉強会
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
Rm20150513 4key
Rm20150513 4key
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』
Regression2
Regression2
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
コーパス事例の観察に基づく日本語清掃表現の記述的一般化,並びに自作例による妥当性の検証
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
Más de Koichiro Gibo
生存時間分析数理の基礎
生存時間分析数理の基礎
Koichiro Gibo
Covid19対策本部の作り方と走らせ方公開用
Covid19対策本部の作り方と走らせ方公開用
Koichiro Gibo
分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門
Koichiro Gibo
データベース時代の疫学研究デザイン
データベース時代の疫学研究デザイン
Koichiro Gibo
マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法
Koichiro Gibo
多重代入法の書き方 公開用
多重代入法の書き方 公開用
Koichiro Gibo
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-
Koichiro Gibo
Más de Koichiro Gibo
(7)
生存時間分析数理の基礎
生存時間分析数理の基礎
Covid19対策本部の作り方と走らせ方公開用
Covid19対策本部の作り方と走らせ方公開用
分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門
データベース時代の疫学研究デザイン
データベース時代の疫学研究デザイン
マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法
多重代入法の書き方 公開用
多重代入法の書き方 公開用
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
1.
Rubinの論文 (の行間)を読んでみる 傾向スコア解析の理論 2015/06/15 学生セミナー バイオ統計センターM1 宜保光一郎
2.
http://faculty.smu.edu/Millimet/classes/eco7377/papers/rosenbaum%20rubin%2083a.pdf http://www. stat.harvard .edu/DonRu bin70/
3.
Introduction • 1983年の論文を意訳していきます • 重要な「large
sampleで傾向スコアがなぜ機能 するか」の証明まで。 • 証明は元論文ではわかりにくいので、前述した2 015年出版の書籍での証明をさらに噛み砕くこ とを狙う(一部?のところはあるが..) • 条件付き期待値のもろもろの定理を駆使して証 明していくので、以下のURLなどを参照。 • http://math.arizona.edu/~tgk/464_07/cond_exp.pdf • 実践的な話はナシです。
4.
Notation • i: ユニットの番号 •
r: アウトカム • z: 割り付けの指標。z={1,0} • r1i: 1の割り付けをされたユニットiの周辺アウト カム→後述 • xi: ユニットiの観察された共変量(ベクトル)
5.
Causal Inference • ある割り付けをされたとき(e.g.
treatment V.S . control)に、その割り付けによる効果について の推定をしたい • その効果を因果効果(causal effect)とよぶ。 • 効果の推定を以下の式で表すときに • これをAverage treatment effect(ATE) と呼ぶ E(r1)−E(r0)
6.
Motivation • ATEはRCTにおいては直接測定できる。 • なぜなら、割り付けはランダムに行われおり、 両群の背景は同一と考えられるから。 •
(後述するが、割り付けはランダムなので、アウ トカムと独立しているから) • しかし、非RCTにおいてはATEを直接推定する ことは困難。 • なぜか? E(r1∣z=1)−E(r0∣z=0)
7.
Motivation • ATEはRCTにおいては直接測定できる。 • なぜなら、割り付けはランダムに行われおり、 両群の背景は同一と考えられるから。 •
(後述するが、割り付けはランダムなので、アウ トカムと独立しているから) • しかし、非RCTにおいてはATEを直接推定する ことは困難。 • なぜか? E(r1∣z=1)−E(r0∣z=0)
8.
Rubin’s potential outcome E[r1 |
z=1] i=1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 ATE E[r0 | z=0]
9.
Rubin’s potential outcome E[r1 |
z=1] i=1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 ATE E[ r0 | z=1 ] E[ r1 | z=0 ] E[r0 | z=0]
10.
Rubin’s potential outcome z=1
z=0 E[ r1 ] E[ r1 | z=1 ] E[ r1 | z=0 ] E[ r0 ] E[ r0 | z=1 ] E[ r0 | z=0 ]
11.
Rubin’s potential outcome z=1
z=0 E[ r1 ] E[ r1 | z=1 ] E[ r1 | z=0 ] E[ r0 ] E[ r0 | z=1 ] E[ r0 | z=0 ] この周辺和の差がATE 現実では欠測している(反事実)
12.
Rubin’s potential outcome z=1
z=0 E[ r1 ] E[ r1 | z=1 ] E[ r1 | z=0 ] E[ r0 ] E[ r0 | z=1 ] E[ r0 | z=0 ] この周辺和の差がATE 現実では欠測している(反事実) 現実はこの両者しか直接推定で きない(因果推論の根本問題)
13.
RCT z=1 z=0 E[ r1
] E[ r1 | z=1 ] E[ r0 ] E[ r0 | z=0 ] ランダム割り付け = = (r1 ,r0)⊥z
14.
Strongly ignorable treatment
assignment z=1 z=0 E[ r1 ] E[ r1 | z=1 ] E[ r0 ] E[ r0 | z=0 ] (観測された)共変量 x (r1 ,r0)⊥z∣x 目標はこれを利用することだが 、xはベクトルなので使いづらい。 よってxを簡易にしたものを探 すことにする
15.
Strongly ignorable treatment
assignment • 観測された共変量xで条件づけると、アウトカム と割り付けの確率は独立になる=RCTのように 比較ができるという、仮定 • かなり強い仮定のように思えるが、この仮定が 傾向スコア解析の肝 • この仮定が本当に成り立っているかは、非常に 重要なのだが直接確かめる方法は存在しないた め、間接的な確認を行う。
16.
Balancing score • 定義:バランシングスコアb(x)とは、共変量xか ら成る関数で、それで条件付けると割り付けzと 共変量xが独立になるようなものである •
条件つき独立の性質からb(x)=xとなり得るのは 自明である • 一番関心があるのはb(x)がスカラーとなる場合 →これが後の傾向スコアとなる z ⊥ x∣b(x)
17.
Propensity score • 定義:傾向スコアe(x)は共変量xから成る関 数で、z=1に割り付けされる確率である。 •
(前述のバランシングスコアとの関係は定義 上では明らかでないことに注意) • i={1,2,..,n}の同時確率は、独立なベルヌー イ分布を考え、次のように表すことができる e(x)= pr(z=1∣x) Pr(z1 ,..., zn∣x1 ,..., xn)=∏ n e(xi) xi [1−e(xi)] 1−xi
18.
定理 • これからいくつかの定理を証明する。示したい ことは • 1.
傾向スコアはバランシングスコアである • 2. 全てのバランシングスコアに適当な関数をと れば、傾向スコアと等しくなる(最も”粗い”もの が傾向スコア) • 3. もし、共変量xのもとでstorngly ignorableで あれば、バランシングスコアで条件付けてもそ うである
19.
Theorem 1 • を証明できれば、z
⊥x∣e(x) Pr(z=1∣x ,e(x))=E(z∣x ,e(x)) =E(z∣x) =e(x) Pr(z=1∣e(x))=E(z∣e(x)) =E[E(z∣x ,e(x))∣e(x)] =E[e(x)∣e(x)] =e(x) Pr(z=1∣x ,e(x))=Pr(z=1∣e(x))⇔ z⊥x∣e(x)∴ ∵ Definition of Conditional Independence E[ A∣B , g (B)]=E[A∣B]∵ E[E(A∣B ,C)∣B]=E[A∣B]∵ E[g (A)∣A]=g (A) e(x)⊆b(x)
20.
Theorem 2 バランシングスコアの定義からe(x)=f{b(x)}であることを 背理法で証明する。 全てのb(x)に対しe(x)≠f{b(x)}とすると、e(x1)≠e(x2)かつ b(x1)=b(x2)となる2つの異なるx1, x2が存在する。よって、 e(x1)=E(z∣x1)=E(z∣b(x1),
x1)=E(z∣b(x1))=E(z∣b(x2))=E(z∣x2) E[ A∣B , g (B)]=E[A∣B] Definition of balancing score e(x1)=e(x2)となり矛盾。ゆえに、バランシングスコアが定義され れば、e(x)=f{b(x)}が言える。(逆も言える。証明可能。)
21.
Theorem 3 • 目標は •
同様に、b(x)をe(x)としても成り立つ。 E[E(A∣B ,C)∣B]=E[A∣B] Strongly ignorable treatment assignment Definition of balancing score Tower property of conditional expectation (r1 ,r0)⊥ z∣b(x) Pr(z=1∣r1 ,r0 ,b(x))=E[z∣r1 ,r0 ,b(x)] =E[E(z∣r1 , r0 , x ,b(x))∣r1 ,r0 ,b(x)] =E[E(z∣x ,b(x))∣r1 ,r0 ,b(x)] =E[E(z∣b(x))∣r1 ,r0 ,b(x)] =E(z∣b(x)) =Pr(z=1∣b(x))
22.
z=1 z=0 E[ r1
] E[ r1 | z=1 ] E[ r0 ] E[ r0 | z=0 ] バランシングスコアb(x) E[r1 | z=1, b(x)] E[r0 | z=0, b(x)]
23.
Theorem 4 E(r1∣z=1,b(x))−E(r0∣z=0,b(x)) =E(r1∣b(x))−E(r0∣b(x)) =E(r1−r0∣b(x)) Theorem 3 さらに期待値をとると、 E[E(r1−r0∣b(x))]=E(r1−r0)
Law of iterative expectations よって、E(r1 -r0 |b(x))を推定量と考えると E(r1 -r0 )=ATEの不偏推定量となる (ちなみに条件付き確率の期待値は確率変数)
24.
Summary •バランシングスコア(傾向スコアはその一 部)で条件付けると、割り付けz=1,0の両群の アウトカムの平均値の差は、ATEの不偏推定量 となる。つまりATEの推定が可能となる。 •バランシングスコアの中でも傾向スコアは 最も粗く、1次元のスカラーなので、今後はこ の傾向スコアを使用する
25.
傾向スコアによる条件付け ① マッチング ② 層別化 ③
傾向スコアを共変量としての回帰モデル調 整 ④ 傾向スコアによる重み付け推定法(IPW法) それぞれに長所と短所がある。 ここまでで、とりあえず終了
26.
Remarks •論文はこの後”small sample theory”,”some applications”と続いていく •“strongly
ignorable assumption”は最近は ”unconfoundness”と記述されることも多い •実践的な適応については多くの資料が出回 っているので今回はパス
Descargar ahora