Enviar búsqueda
Cargar
LDA等のトピックモデル
•
36 recomendaciones
•
12,498 vistas
Mathieu Bertin
Seguir
Arte y fotografía
Denunciar
Compartir
Denunciar
Compartir
1 de 21
Descargar ahora
Descargar para leer sin conexión
Recomendados
トピックモデルの基礎と応用
トピックモデルの基礎と応用
Tomonari Masada
潜在ディリクレ配分法
潜在ディリクレ配分法
y-uti
トピックモデルの話
トピックモデルの話
kogecoo
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
LDA入門
LDA入門
正志 坪坂
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
Hitomi Yanaka
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
Recomendados
トピックモデルの基礎と応用
トピックモデルの基礎と応用
Tomonari Masada
潜在ディリクレ配分法
潜在ディリクレ配分法
y-uti
トピックモデルの話
トピックモデルの話
kogecoo
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
LDA入門
LDA入門
正志 坪坂
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
Hitomi Yanaka
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
トピックモデル
トピックモデル
貴之 八木
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
西岡 賢一郎
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
Ayako_Hasegawa
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Deep Learning JP
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
StudyCo_DocumentAI による OCR と LLM で紙文書をデータ化する(試み)
StudyCo_DocumentAI による OCR と LLM で紙文書をデータ化する(試み)
Taku Yoshida
Elasticsearch勉強会#44 20210624
Elasticsearch勉強会#44 20210624
Tetsuya Sodo
統計的係り受け解析入門
統計的係り受け解析入門
Yuya Unno
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
20171128分散深層学習とChainerMNについて
20171128分散深層学習とChainerMNについて
Preferred Networks
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
Kai Sasaki
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
ゼロから始める転移学習
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
Topic model
Topic model
saireya _
Twitterテキストのトピック分析
Twitterテキストのトピック分析
Nobuyuki Kawagashira
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
Yusuke Fukasawa
Más contenido relacionado
La actualidad más candente
トピックモデル
トピックモデル
貴之 八木
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
西岡 賢一郎
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
Ayako_Hasegawa
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Deep Learning JP
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
StudyCo_DocumentAI による OCR と LLM で紙文書をデータ化する(試み)
StudyCo_DocumentAI による OCR と LLM で紙文書をデータ化する(試み)
Taku Yoshida
Elasticsearch勉強会#44 20210624
Elasticsearch勉強会#44 20210624
Tetsuya Sodo
統計的係り受け解析入門
統計的係り受け解析入門
Yuya Unno
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
20171128分散深層学習とChainerMNについて
20171128分散深層学習とChainerMNについて
Preferred Networks
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
Kai Sasaki
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
ゼロから始める転移学習
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
Topic model
Topic model
saireya _
La actualidad más candente
(20)
トピックモデル
トピックモデル
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
StudyCo_DocumentAI による OCR と LLM で紙文書をデータ化する(試み)
StudyCo_DocumentAI による OCR と LLM で紙文書をデータ化する(試み)
Elasticsearch勉強会#44 20210624
Elasticsearch勉強会#44 20210624
統計的係り受け解析入門
統計的係り受け解析入門
グラフィカルモデル入門
グラフィカルモデル入門
20171128分散深層学習とChainerMNについて
20171128分散深層学習とChainerMNについて
2019年度チュートリアルBPE
2019年度チュートリアルBPE
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
ゼロから始める転移学習
ゼロから始める転移学習
Topic model
Topic model
Destacado
Twitterテキストのトピック分析
Twitterテキストのトピック分析
Nobuyuki Kawagashira
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
Yusuke Fukasawa
料理レシピサービスにおける検索語の意味変化に関する分析
料理レシピサービスにおける検索語の意味変化に関する分析
Yusuke Fukasawa
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
Yusuke Fukasawa
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
Yusuke Fukasawa
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類
Kouhei Nakaji
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
Yusuke Fukasawa
DeNAの報告書を可視化して雰囲気をつかむ
DeNAの報告書を可視化して雰囲気をつかむ
Yusuke Fukasawa
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA
Masayuki Isobe
RではじめるTwitter解析
RではじめるTwitter解析
Takeshi Arabiki
Destacado
(10)
Twitterテキストのトピック分析
Twitterテキストのトピック分析
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
料理レシピサービスにおける検索語の意味変化に関する分析
料理レシピサービスにおける検索語の意味変化に関する分析
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
DeNAの報告書を可視化して雰囲気をつかむ
DeNAの報告書を可視化して雰囲気をつかむ
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA
RではじめるTwitter解析
RではじめるTwitter解析
LDA等のトピックモデル
1.
トピックモデル 難しい話 考え方、アウトプットイメージ、履歴、ツール、事例 超難しい話 ベイズ統計、生成モデル、サンプリング
超難しい話 Dirichlet分布 1
2.
トピックモデルのアウトプット
言葉 トピック 言葉 文書 (または顧客) トピックの定義 ぞれぞれのトピックに対してどうい う言葉が大事 トピック 文書 (または顧客) トピックの割合 それぞれのユーザに ついて、どういうトピッ クが大事 2
3.
履歴の概要 ●LSA (1988) フレームワーク:線型代数学 (マトリクス対角化)
文書 出典: http://en.wikipedia.org/wiki/Latent_semantic_analysis 言葉 ・問題: アウトプットは使いにくい 3
4.
履歴の概要 ●PLSA (1999) 確率理論のフレームワーク
文書 トピック 言葉 出典: http://en.wikipedia.org/wiki/PLSA 言葉数 文書数 ・モデル学習: EMアルゴリズム ・問題: 過剰適合が多い (特に文書群が小さい場合) 4
5.
履歴の概要 ●LDA(2003) 最初の本物のトピックモデル
ベイズ統計フレームワーク ある言葉 文書に トピックに のトピック 言葉 トピックの分布 言葉の分布 ハイパー ハイパー パラメーター パラメーター 出典: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation 言葉数 文書数 トピック数 5
6.
LDAの展開 LDAに基づくモデル: ●パチンコモデル: トピックの間の関連を考慮 例えば、トピック「データ分析」があるなら、トピック「コンピューター」もある可能性が高いけど、トピック 「ファッション」の確率が低い ●作者・トピックモデル: 作者によりトピックの確率が変わる ●関連トピックモデル:
モデルの関連を考慮 例えば:html資料のハイパーリンク、論文の引用 LDAは言葉だけでなく、運用範囲は今研究中 例えば:画像処理 6
7.
LDAツール:
MALLET MALLETとは、「MAchine Learning for Language Toolkit」 http://mallet.cs.umass.edu/index.php Andrew McCallum, of the University of Massachusetts Amherst 無料、オープンソース、Javaベース 7
8.
難しい話 考え方、履歴、アウトプットイメージ、ツール、事例 超難しい話 ベイズ統計、生成モデル、サンプリング
超難しい話 Dirichlet分布 8
9.
ベイズ統計の基本原則 考え方:データの構造について強気で仮説を立つ E → H
の代わりに、H → E をモデル化する H E E: データ、観測出来る情報 例えば: 文書群 H: 隠れてる情報 例えば:トピックの定義、文書ごとのトピック割合 :生成モデル、全ての情報の構造 (仮説に基づく) 計算したいこと: P( H | E) データから、トピックを計算 でも、そのままで計算しにくい 𝑷(𝑯) ベイズルール: P(H | E) = * P(E | H) ∝ P(H) * P(E | H) 𝑷(𝑬) 事後確率 事前確率 尤度 仮説する 生成モデルから 簡単で計算する 9
10.
LDAの生成モデル 仮説: あるロボットが文書群を作りました。 そのロボットは生成モデルを使って文書ずつ、言葉ずつ、文書群を書きました For (1:K)
: トピックを生成 β For each文書 : 文書のトピック分布を生成 θ For each 言葉 : トピックをランダムで選択 Z 言葉をランダムで選択 W 10 出典: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
11.
LDA生成モデル(例) For (1:トピック数) :
トピックを生成 トピックID キャンペーン 限定 日焼け 肌 風呂 。。。 1 12% 8% 0.6% 0.2% 1.2% 2 1.3% 0.6% 9% 14% 2% 3 0.3% 0.8% 0.6% 2% 16% 各トピック= 全ての有り得る言葉に対しての確率分布 11
12.
LDA生成モデル(例) For (1:トピック数) :
トピックを生成 トピックID キャンペーン 限定 日焼け 肌 風呂 。。。 1 12% 8% 0.6% 0.2% 1.2% 2 1.3% 0.6% 9% 14% 2% 3 0.3% 0.8% 0.6% 2% 16% For each文書 : 文書のトピック分布を生成 文書 トピック1 トピック1 トピック3 1 56% 24% 20% 12
13.
LDA生成モデル(例) For (1:トピック数) :
トピックを生成 トピックID キャンペーン 限定 日焼け 肌 風呂 。。。 1 12% 8% 0.6% 0.2% 1.2% 2 1.3% 0.6% 9% 14% 2% 3 0.3% 0.8% 0.6% 2% 16% For each文書 : 文書のトピック分布を生成 文書 トピック1 トピック2 トピック3 1 56% 24% 20% この分布によりランダム抽出 For each 言葉 : トピックをランダムで選択: トピック1 13
14.
LDA生成モデル(例) For (1:トピック数) :
トピックを生成 トピックID キャンペーン 限定 日焼け 肌 風呂 。。。 1 12% 8% 0.6% 0.2% 1.2% 2 1.3% 0.6% 9% 14% 2% 3 0.3% 0.8% 0.6% 2% 16% For each文書 : この分布によりランダム抽出 文書のトピック分布を生成 文書 トピック1 トピック2 トピック3 1 56% 24% 20% For each 言葉 : トピックをランダムで選択: トピック1 言葉をランダムで選択: “限定” 14
15.
モンテカルロの基本原則 P(β 、 θ
、 Z | W) を計算したい。 それは多次元と連続値の確率密度なので正しく計算出来ない → サンプリングを使って確率密度を近似する For each サンプル: 生成モデルを使って{β 、 θ 、 Z}を生成 生成モデルを元に生成された{β、 θ、 Z}の事前確率を計算 → P (β、 θ、 Z ) 生成モデルと{β 、 θ 、 Z}により W の尤度を計算 → P (W | β、 θ、 Z ) 事前確率と尤度からサンプルの事後確率を計算 P(β 、 θ 、 Z | W) ∝ P (β、θ、Z) * P (W | β、θ、Z ) サンプルが多かったら多いほど事後確率の分布に近づく 出典: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation 15
16.
難しい話 考え方、履歴、アウトプットイメージ、ツール、事例 超難しい話 ベイズ統計、生成モデル、サンプリング
超難しい話 Dirichlet分布 16
17.
なぜ 「LDA」?
For (1:トピック数) : トピックを生成 β Dirichlet 分布 For each文書 : 文書のトピック分布を生成 θ Dirichlet 分布 For each 言葉 : トピックをランダムで選択 Z Categorical 分布 言葉をランダムで選択 W Categorical 分布 出典: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation 17
18.
Categorical分布とは? For (1:トピック数) :
トピックを生成 β Dirichlet 分布 For each文書 : 文書のトピック分布を生成 θ Dirichlet 分布 For each 言葉 : トピックをランダムで選択 Z Categorical 分布 言葉をランダムで選択 W Categorical 分布 トピックID キャンペーン 限定 日焼け 肌 風呂 。。。 1 x1 = 12% x2 = 8% x3 = 0.6% x4 = 0.2% x5 = 1.2% K値があり得る。 K=言葉種類の全体数 全ての値 i に対して、確率 xi がある。 確率分布なので: x1 + x2 + x3 + 。。。 + xk = 1 18
19.
Dirichlet分布とは? For (1:トピック数) :
トピックを生成 β Dirichlet 分布 For each文書 : 文書のトピック分布を生成 θ Dirichlet 分布 For each 言葉 : トピックをランダムで選択 Z Categorical 分布 言葉をランダムで選択 W Categorical 分布 Categorical 分布を生成する為 ⇒ 確率分布の確率分布 (!) キャンペーン 限定 日焼け 肌 風呂 。。。 x1 = 12% x2 = 8% x3 = 0.6% x4 = 0.2% x5 = 1.2% 0.3% x1 = 1.3% x2 = 0.6% x3 = 9% x4 = 14% x5 = 2% 0.7% x1 = 0.3% x2 = 0.8% x3 = 0.67% x4 = 2% x5 = 16% 0.2% Dirichlet式 有り得る {x1, … xK} のスペース 確率密度 19
20.
Dirichlet分布とは?
Dirichlet式 有り得る {x1, … xK} のスペース 20
21.
まとめ ●LDAとは、文書群からトピックを統計的に抽出する手法です ●パワフール、使いやすいなので、活用と研究は広がっている状態 ●ベイズ統計、確率計算に基づくので、ベイジアンネットワークとの連携がしやすい
言葉 トピック 言葉 文書(または顧客) LDA トピック 文書(または顧客) 21
Descargar ahora