Submit Search
Upload
コーパス学習による Apache Solr の徹底活用
•
5 likes
•
5,274 views
Koji Sekiguchi
Follow
第14回Solr勉強会の発表資料です。
Read less
Read more
Technology
Report
Share
Report
Share
1 of 24
Download now
Download to read offline
Recommended
情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介
Koji Sekiguchi
Geolocation gurunavi
Geolocation gurunavi
Jun Chiba
Geolocation4 system
Geolocation4 system
Jun Chiba
Pythonのガベージコレクション
Pythonのガベージコレクション
Atsuo Ishimoto
HMM viterbi
HMM viterbi
Koji Sekiguchi
Apache Solr 検索エンジン入門
Apache Solr 検索エンジン入門
Yahoo!デベロッパーネットワーク
みんな現像ってどうしてる?
みんな現像ってどうしてる?
玲 佐藤
Making AutoRun USB HID Device / 自動入力するHIDデバイスを安く簡単に作る
Making AutoRun USB HID Device / 自動入力するHIDデバイスを安く簡単に作る
玲 佐藤
Recommended
情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介
Koji Sekiguchi
Geolocation gurunavi
Geolocation gurunavi
Jun Chiba
Geolocation4 system
Geolocation4 system
Jun Chiba
Pythonのガベージコレクション
Pythonのガベージコレクション
Atsuo Ishimoto
HMM viterbi
HMM viterbi
Koji Sekiguchi
Apache Solr 検索エンジン入門
Apache Solr 検索エンジン入門
Yahoo!デベロッパーネットワーク
みんな現像ってどうしてる?
みんな現像ってどうしてる?
玲 佐藤
Making AutoRun USB HID Device / 自動入力するHIDデバイスを安く簡単に作る
Making AutoRun USB HID Device / 自動入力するHIDデバイスを安く簡単に作る
玲 佐藤
WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成
Koji Sekiguchi
マーケティング科学第1回(スライドシェア用)
マーケティング科学第1回(スライドシェア用)
Shinya Fujimura
数式を(ちょっとしか)使わずに隠れマルコフモデル
数式を(ちょっとしか)使わずに隠れマルコフモデル
Yuya Takashina
概要と具体例で学ぶHMM(隠れマルコフモデル)
概要と具体例で学ぶHMM(隠れマルコフモデル)
thinkn1108
10年前「Microsoftの社員だと思って働け!」と教育されて嫌気がさして出てった人から見た「外の世界」の話 #JCCMVP
10年前「Microsoftの社員だと思って働け!」と教育されて嫌気がさして出てった人から見た「外の世界」の話 #JCCMVP
Kazuhito Miura
IoTって何が良いの? 〜言うてるオレもわからんわ〜 #kinoko_iot
IoTって何が良いの? 〜言うてるオレもわからんわ〜 #kinoko_iot
Kazuhito Miura
Poor Self-esteem: Just Beat It!
Poor Self-esteem: Just Beat It!
SlideShop.com
Build Features, Not Apps
Build Features, Not Apps
Natasha Murashev
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Koji Sekiguchi
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出
Koji Sekiguchi
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
Koji Sekiguchi
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boost
Koji Sekiguchi
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
Koji Sekiguchi
An Introduction to NLP4L
An Introduction to NLP4L
Koji Sekiguchi
Nlp4 l intro-20150513
Nlp4 l intro-20150513
Koji Sekiguchi
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
Koji Sekiguchi
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizer
Koji Sekiguchi
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
Koji Sekiguchi
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Koji Sekiguchi
Html noise reduction
Html noise reduction
Koji Sekiguchi
Lucene terms extraction
Lucene terms extraction
Koji Sekiguchi
More Related Content
Viewers also liked
WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成
Koji Sekiguchi
マーケティング科学第1回(スライドシェア用)
マーケティング科学第1回(スライドシェア用)
Shinya Fujimura
数式を(ちょっとしか)使わずに隠れマルコフモデル
数式を(ちょっとしか)使わずに隠れマルコフモデル
Yuya Takashina
概要と具体例で学ぶHMM(隠れマルコフモデル)
概要と具体例で学ぶHMM(隠れマルコフモデル)
thinkn1108
10年前「Microsoftの社員だと思って働け!」と教育されて嫌気がさして出てった人から見た「外の世界」の話 #JCCMVP
10年前「Microsoftの社員だと思って働け!」と教育されて嫌気がさして出てった人から見た「外の世界」の話 #JCCMVP
Kazuhito Miura
IoTって何が良いの? 〜言うてるオレもわからんわ〜 #kinoko_iot
IoTって何が良いの? 〜言うてるオレもわからんわ〜 #kinoko_iot
Kazuhito Miura
Poor Self-esteem: Just Beat It!
Poor Self-esteem: Just Beat It!
SlideShop.com
Build Features, Not Apps
Build Features, Not Apps
Natasha Murashev
Viewers also liked
(8)
WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成
マーケティング科学第1回(スライドシェア用)
マーケティング科学第1回(スライドシェア用)
数式を(ちょっとしか)使わずに隠れマルコフモデル
数式を(ちょっとしか)使わずに隠れマルコフモデル
概要と具体例で学ぶHMM(隠れマルコフモデル)
概要と具体例で学ぶHMM(隠れマルコフモデル)
10年前「Microsoftの社員だと思って働け!」と教育されて嫌気がさして出てった人から見た「外の世界」の話 #JCCMVP
10年前「Microsoftの社員だと思って働け!」と教育されて嫌気がさして出てった人から見た「外の世界」の話 #JCCMVP
IoTって何が良いの? 〜言うてるオレもわからんわ〜 #kinoko_iot
IoTって何が良いの? 〜言うてるオレもわからんわ〜 #kinoko_iot
Poor Self-esteem: Just Beat It!
Poor Self-esteem: Just Beat It!
Build Features, Not Apps
Build Features, Not Apps
More from Koji Sekiguchi
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Koji Sekiguchi
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出
Koji Sekiguchi
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
Koji Sekiguchi
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boost
Koji Sekiguchi
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
Koji Sekiguchi
An Introduction to NLP4L
An Introduction to NLP4L
Koji Sekiguchi
Nlp4 l intro-20150513
Nlp4 l intro-20150513
Koji Sekiguchi
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
Koji Sekiguchi
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizer
Koji Sekiguchi
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
Koji Sekiguchi
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Koji Sekiguchi
Html noise reduction
Html noise reduction
Koji Sekiguchi
Lucene terms extraction
Lucene terms extraction
Koji Sekiguchi
Visualize terms network in Lucene index
Visualize terms network in Lucene index
Koji Sekiguchi
NLP x Lucene/Solr
NLP x Lucene/Solr
Koji Sekiguchi
OpenNLP - MEM and Perceptron
OpenNLP - MEM and Perceptron
Koji Sekiguchi
自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門
Koji Sekiguchi
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0
Koji Sekiguchi
Pre rondhuit-naming-story
Pre rondhuit-naming-story
Koji Sekiguchi
More from Koji Sekiguchi
(20)
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boost
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L
An Introduction to NLP4L
Nlp4 l intro-20150513
Nlp4 l intro-20150513
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizer
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Html noise reduction
Html noise reduction
Lucene terms extraction
Lucene terms extraction
Visualize terms network in Lucene index
Visualize terms network in Lucene index
NLP x Lucene/Solr
NLP x Lucene/Solr
OpenNLP - MEM and Perceptron
OpenNLP - MEM and Perceptron
自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0
Pre rondhuit-naming-story
Pre rondhuit-naming-story
Recently uploaded
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
Recently uploaded
(9)
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
コーパス学習による Apache Solr の徹底活用
1.
コーパス学習による Apache Solr
の徹底活用 関口宏司@ロンウイット 1
2.
情報検索の性能指標 ドキュメントの全体集合 2
3.
情報検索の性能指標 正解 3
4.
情報検索の性能指標 システム出力正解 4
5.
情報検索の性能指標 精度 :
P = B / ( A + B ) 再現率 : R = B / ( B + C ) A B C システム出力正解 5
6.
精度と再現率 精度と再現率はトレードオフの関係にある! 6
7.
精度と再現率 精度と再現率はトレードオフの関係にある! 正解
7
8.
精度と再現率 精度と再現率はトレードオフの関係にある! システム出力正解
高精度 低再現率 8
9.
精度と再現率 精度と再現率はトレードオフの関係にある! システム出力正解
低精度 高再現率 9
10.
Apache Solr の徹底活用
表記揺れへの対応 絞り込み検索による 漸次的精度改善 ランキング チューニング 10
11.
Apache Solr の徹底活用
表記揺れへの対応 絞り込み検索による 漸次的精度改善 ランキング チューニング 11
12.
表記揺れへの対応後 システム出力正解 12
13.
漸次的精度改善 13
14.
漸次的精度改善 q=ハワイ システム出力正解
14
15.
漸次的精度改善 システム出力正解 予算(10~15万円)
で絞り込む 15
16.
漸次的精度改善 システム出力正解 予算(10~15万円)
で絞り込む 出発地(羽田空港) で絞り込む 16
17.
構造化文書 ID ツアー名価格出発地
1 ハワイオアフ島7日間9万円成田 2 ハワイオアフ島&マウイ島燃油込み12万円羽田 17
18.
非構造化文書はどうする? • 非構造化文書の例
• WordやPDFファイル • 新聞記事 • 書籍 18
19.
非構造化文書 ID 記事
1 安倍首相は12日、甲府市で開かれた自民党ゴルフコンペで… 2 モスクワで開かれている世界陸上の男子100m予選で、日本の高校生桐 生が… : : 19
20.
非構造化文書の構造化 ID 記事人名地名イベント…
1 安倍首相は12日、甲府市で開かれた 自民党ゴルフコンペで… 安倍甲府市ゴルフコ ンペ 2 モスクワで開かれている世界陸上の 男子100m予選で、日本の高校生桐生 が… 桐生モスクワ、 日本世界陸上 : : 20
21.
アーキテクチャ Update Request
Processor CRFsuite Corpus Model InSdoelrx Docs 21
22.
ビジネス志向のタグ ACCESS FOOD
PLAN DATETIME LANGUAGE PRINTING DISEASE LOCATION PRODUCT EVENT ORGANIZATION TITLE FACILITY PERSON VEHICLE 22
23.
参考文献 • Apache
Solr 無料セミナー(毎月開催) • http://www.rondhuit.com/services/ seminars.html • 情報検索のための自然言語処理ツール群の開発 • https://dspace.jaist.ac.jp/dspace/handle/ 10119/12033 23
24.
ご静聴ありがとう ございました 24
Download now