SlideShare una empresa de Scribd logo
1 de 33
Descargar para leer sin conexión
講演
2012/2/2 @ 東北北⼤大学  産学連携講義:先端技術の基礎と実践




   ⼤大規模データ時代に求められる
        ⾃自然⾔言語処理理

        株式会社Preferred Infrastructure
                岡野原  ⼤大輔
           hillbig@preferred.jp



今回の発表内容は個⼈人の意⾒見見であり、
会社の意⾒見見ではありません
⾃自⼰己紹介

l  名前:岡野原  ⼤大輔
l  経歴:
    l  福島県いわき市⽣生まれ、磐城⾼高校(ラグビー部)

    l  東京⼤大学理理科⼀一類→同情報理理⼯工学研究科コンピュータ科学博⼠士課程

        2010年年3⽉月終了了、情報理理⼯工学博⼠士(その間未踏2本、ユース1本)
    l  株式会社プリファードインフラストラクチャー 2006年年創業

          l    研究開発チームのリーダー&戦略略&企画&開発&雑⽤用などいろいろ


l    専⾨門分野は統計的⾃自然⾔言語処理理、機械学習、データ構造
      (主に簡潔データ構造)、データ圧縮、データマイニング
l    twitter @hillbig
会社紹介
株式会社  Preferred Infrastructure (略略称PFI)
l  社是:最⾼高の技術を最短で世の中に届ける
l  社員数:フルタイム 19⼈人(4⽉月に25⼈人) + バイト10⼈人弱
     l  4名を除き、全員研究、エンジニア

     l  ICPC世界⼤大会出場者や未踏経験者が多い。redcoderも多い

l  検索索/推薦⽂文やでの製品開発・販売・サービス提供
     l  ⼤大⼿手メディア、サービス会社のバックエンドのエンジンを提供

     l  提供先例例:朝⽇日新聞、NHK、はてな、NII、イプロス、電通、⽇日経BP

l  ⼤大規模分散コンピューティング分野での技術提供
     l  各社との共同研究開発、システム開発

     l  ⼤大規模分散リアルタイム解析システム  Jubatus
今後PFIをどのような会社にしていきたいか

l    研究・開発・ビジネス(世の中)をもっと近づけたい
      l  それが達成できるような⼈人材・組織作りをしたい



l  (短期的には)IT業務の形を変えたい
    l  エンジニアが⾃自⽴立立し、⾃自分で考えて仕事をできるようにしたい

    l  受託ではなく、我々も問題を⼀一緒に考えて、それを社会で共有する

l  (⻑⾧長期的には)世の中を変えるようなソフトウェアを開発したい
    l  ⾃自⽴立立した優秀なエンジニアを集め、それぞれが責任をもって能動的

        に業務できるような組織作りを⾏行行う
    l  数⼗十年年後には今の産業を⽀支え、新しい産業を作りたい
本⽇日の話

l    ⾃自然⾔言語処理理の実世界への応⽤用について次のテーマで話す
       l  どこで使われているのか

       l  何が必要とされているか



l    ビジネス的な観点や、実際どういうプレイヤーが存在するかなどに
      ついても突っ込んで話します。
      l  今後社会に出た時役に⽴立立つかもしれません
⾃自然⾔言語処理理の
実世界への応⽤用
⾃自然⾔言語処理理の基本技術

  ⾃自然⾔言語(⼈人が書いたり話した⾔言語)を処理理するための技術は⾮非常に広く
  毎年年のように各分野で新しい技術が⽣生まれている


要素技術
       単語分割    構⽂文解析     意味解析      辞書構築


       ⽂文書分類   ⾃自動要約     情報抽出      著者推定


       機械翻訳    ⾳音声認識識    情報検索索     質問応答
複合技術
⾃自然⾔言語処理理の現状

l    以前の⾃自然⾔言語処理理は⾔言語学のエキスパートが処理理するための辞書、
      ルールを⼈人⼿手で作っていた(演繹的⼿手法)
      l  問題:メンテナンスコストが⼤大きい、新分野への対応コストが⼤大きい



l    90年年代後半から統計的⾃自然⾔言語処理理が主流流に(帰納的)
       l  ⼤大量量の⾔言語データを元に辞書、ルールを⾃自動的に獲得する

       l  統計学、データマイニング、機械学習との融合

       l  ルールベースと⽐比較しても同程度度もしくはそれを超える性能を達成



l    しかし、まだ実⽤用化されていない部分も多い
      l    この原因については最後の⽅方で話します
⾃自然⾔言語処理理を⽀支える技術

l    ⾔言語学はもちろんだが、それ以外にも様々な分野の技術が必要


l  データ構造
     l  例例:数千万キーワードの辞書を1台で保持し、⾼高速マッチングを⾏行行う

l  統計学
     l  例例:単語の珍しさを単語の重要度度する

l  機械学習
     l  例例:分類済みの⽂文書セットが与えられた時、そこから分類ルールを学

         習し、新しい⽂文書を適切切に分類する
l  ⼤大規模数値最適化
      l    例例:⽂文書と⽂文書の関係を、それらの中に出現する単語の情報を⽤用いて
            求めたい.⽂文書を⾏行行、単語を列列とする⾏行行列列を特異異値分解し分析する
⾃自然⾔言語処理理はどこで使われているのか?

l    ⾔言語情報があるところならどこでも使われている
       l  そして⾔言語情報は今やどこにでも存在し電⼦子化されている

       l  それらの情報年年電⼦子化されコンピュータが扱えるようになった



l    PFIでの具体例例を通じ、技術の利利⽤用例例をいくつか紹介する
       l  検索索エンジン  

       l  情報整理理

       l  業務改善

       l  属性情報分析
応⽤用例例1:検索索エンジン

l    世の中には様々な種類の検索索エンジンが存在する
      l  Web検索索については前回のGoogleの賀沢さんが話したはず



l  エンタープライズ検索索
l  EC検索索
l  ⽂文献特許検索索


l    ちなみに今回は⾃自然⾔言語処理理がテーマなので省省略略するが、
      ⽣生物情報向け検索索エンジンの需要は⾮非常に⾼高くなっている
       l  次世代シーケンサの低価格化/普及 → オーダーメイド医療療

      l    ⾔言語情報と⽣生物情報の解析に利利⽤用する要素技術は殆ど同じ
エンタープライズ検索索

l    企業内検索索:業務中に発⽣生する⽂文書を検索索する
      l  メール、議事録、掲⽰示板、契約書、設計書、部品書



l    エンタープライズ検索索の現状
      l  国内市場は100億円程度度だが、近年年ビッグデータ解析の流行ととも

          にデータベース市場、BI市場と融合してきつつある
      l  ビッグデータ解析の要素技術として重要であり、世界最⼤大⼿手は皆買

          収された.Fast(MS)、Autonomy (HP)、Endeca(Oracle)


l    ⽂文書の⾃自動分類(タグ付)、整理理、組織名や⼈人名、製品名の抽出、
      そして、それらの名寄せが利利⽤用される
      l  ⽂文書分類、固有表現抽出、照応解析
E-commerce 検索索

l    楽天、Amazonなど⼤大量量の商品を扱うサイトが利利⽤用する検索索
      l  ECサイトの多くは、外部検索索エンジン(Googleなど)から直接

          来た後に商品を絞り込むために利利⽤用する場合が多い
      l  ECサイトによって⾃自作と購⼊入している⼩小さい場合は半々程度度

            l    各ECサイトの検索索エンジンを考察してみるのは⾯面⽩白い
                  楽天、Amazon、ZOZOTOWN などなど
l    必要なNLP技術
      l  クエリ拡張(製品名などはまずそのままヒットしない)

      l  商品属性の抽出(製品名、原材料料、⾊色、キャッチコピー)

      l  名寄せ  この商品とこの商品は同じ?バージョン違い?

      l    レコメンド
            l    商品情報の⽂文章から、お薦めできるかどうかを分析する
⽂文献・特許検索索

l    研究機関やコンサルタントが⽂文献や特許を調査する際に利利⽤用
      l  漏漏れは許されない.関連結果を全て調べる.数千件⾒見見る場合も

      l  概念念が似たキーワード、⽂文書を分析し漏漏れ無く取得したい

      l  「IPS細胞」で検索索したら、それに関係しそうな概念念も全て調べる

          必要がある
      l  各企業、政府が今どのような⽅方針をとっているのかも調べたい

          →⾦金金融業界などでの利利⽤用も多い


l  誰が⾔言っているのか、影響はどのくらいかの分析も重要
l  情報フィルタリングと同じように、クエリを仕掛けておいて、新し
      い情報が⼿手に⼊入ったらすぐアラートを⾶飛ばす仕組みも
応⽤用例例2:情報整理理

l    関連ニュース記事のレコメンド
      l  ある記事と関連のある記事を出したい

            l    過去に同じようなことはあったか?
            l    関連する⼈人や企業に関する記事は?
      l    以前は、記事投稿の際、似ている記事を⼈人⼿手で⾒見見つけていた.
      l    記事に対し、関連ニュース、tweet、⼈人などを⾃自動で紐紐付けられた
l    鍵となる⾃自然⾔言語処理理技術はキーワード抽出とスコアリング
      l  どのキーワードがどのように重要か?

            l    ⼈人名、事件名、イベント名、
            l    Wikipedia、クエリログなどから⼤大規模辞書を構築+未知語処理理
      l    ⾼高速な推薦
            l    登録された記事全てに対して、毎回レコメンドを調べる
例例:どのキーワードが⽂文書を特徴付けるのに重要
か?
⽇日本電信電話株式会社(東京都千代⽥田区、代表取締役社⻑⾧長:三浦  惺、
以下「NTT」)と株式会社プリファードインフラストラクチャー(東
京都⽂文京区、代表取締役社⻑⾧長:⻄西川徹、以下「PFI社」)は、ビッグ
データ*1と呼ばれる⼤大規模データをリアルタイムに⾼高速分析処理理する
基盤技術「Jubatus*2」(第1版)を開発しました。


これらのキーワードをどのように抽出する?
  辞書ベース/⽂文脈情報ベース/頻度度ベース
この情報で「東京都⽂文京区」より「ビッグデータ」が重要と、どう機
械的に判断するか?
→珍しさ、辞書、⽂文書中位置、⽂文書集合での関係、流流⾏行行度度など
情報フィルタリング

l    関連する情報だけを⼊入⼿手する
      l  アドホック検索索:クエリが動的、対象⽂文書が静的

            l    Googleなどのウェブ検索索などいわゆる普通の剣作
      l    情報フィルタリング:クエリが静的、対象⽂文書が動的
            l    近年年のSocial News Readerがこれらの技術に近づいている

                         クエリが動的            クエリが静的
                         (ユーザーが毎回⼊入⼒力力)    (決まっている)
                         結果はpull型          結果はpush型
⽂文書が動的                                     情報フィルタリング
(ニュース、                                     (はてブのカテゴリと
twitter)                                   か、Social News
                                           Readerなど)
⽂文書が静的(ウェブ               アドホック検索索
ページ、製品情報)                (ウェブ検索索など⼀一般の
                         検索索の概念念はこれ)
応⽤用例例3:業務改善

l    ⽂文書と組織のマッチング
       l  情報と⼈人のマッチングを⾔言語情報を介して⾏行行い、情報を共有すべき

           ⼈人に⾃自動的に必要な情報をpushする
       l  組織変更更があった時に、どの⽂文書(情報)をどの組織に割り当てる

           のかの設定を⼈人⼿手で⾏行行うのは⾮非常に困難だが、それを⾃自動で⾏行行う


l    ⼈人事への応⽤用
       l  その⼈人の持っているスキルと,そのレベルをレジュメなどを元に⾃自

           動推定し、その結果を検索索などで利利⽤用できるようにする
         l    レジュメを⽂文書分類する.正解データはクラウドソーシングで作る
         l    転職斡旋会社や、⼤大企業の⼈人事などで使われる
         l    linkedinなどで⼤大規模な適⽤用例例をみることができる
⼈人事・取引・業務情報の管理理

l    取引情報
      l  取引先の会社は数百社から数千社からなるため、どこに商談の可能

          性があるかを⾃自動的に分析する
      l  ミーティングの場所、出席者、議題などを⾃自動抽出



l    業務情報
      l  プロジェクトの進捗管理理

             l    redmineなどのチケットを分析する


l    この領領域を狙っている企業は最近多くなっている
      l    salesforce, linkedin, yammer
例例:業務⽂文書で必要な解析

l  ⼈人・組織に関係する処理理が多くなる
l  毎⽇日様々な⽂文書が⽣生成され(⼈人の出⼊入りも多いので)、⽂文書がある
    ⼈人に関係する/しないという判断が困難になってくる


l    ⽂文書分類のラベルセットが、⼈人/部署になってくる
       l  これまで読んだ⽂文書(もしくは読んでよかった⽂文書が正解データ)



l    組織変更更があったら、それに追従して⽂文書割り当てを決める
      l  企業は定期的に組織変更更、合併、分裂裂が発⽣生する

      l  必要な⽂文書を再度度全部割り振り直すのはかなり困難な作業
応⽤用例例4:属性分析

l    ユーザーの属性分析
      l  プロフィール、tweet内容から、性別、年年齢、職種、趣味、家族構

          成、年年収、各製品/企業への嗜好などが分析できる
      l    ある商品がどのような⼈人にウケている、外れているといったマーケ
            ティング分析への利利⽤用
      l    第三者広告配信の広まりとともに、ユーザーと広告のマッチングは
            キーテクノロジーになっている
                             この⼈人なら、この広告は⾼高確率率率
l    第三者配信                   で押すから、⾼高値で⼊入札!

                                          広告を
                      広告                  出したい⼈人達


広告を出せる枠を持った⼈人
(ウェブサイトを持っている⼈人)               第三者配信
属性分析

l    ⾔言語情報だけに限らず、いまやあらゆる情報を利利⽤用してユーザーの
      情報は分析され利利⽤用されている
       l  アクセス時間、パターン

       l  IPアドレス

       l  クリックログ

       l  クエリログ



l    これらの情報はサイト間を超えて共有されつつある
      l  あるサイトで広告をクリックしたら、他のサイトでも、同じ広告ば

          かりが出るようになったなど
⾃自然⾔言語処理理の基本技術

  ここまで以下のオレンジ⾊色のついた周辺のことを話しました



要素技術
       単語分割    構⽂文解析    意味解析     辞書構築


       ⽂文書分類   ⾃自動要約    情報抽出     著者推定


       機械翻訳    ⾳音声認識識   情報検索索    質問応答
複合技術
何が必要とされているか

l    ⾃自然⾔言語処理理の実⽤用化において何が必要とされるのかを紹介


l    多⾔言語対応
l    コーパス作成からのビジネス化
l    ⼤大量量・⾼高速・リアルタイム処理理
l    統合技術の実⽤用化
l    幅広いスキルを持った⼈人材
何が必要とされているか?
1. 多⾔言語対応
l  ⼀一つの⾔言語だけではなく、複数の⾔言語を同時に処理理したいニーズは
    あらゆる⾔言語処理理の応⽤用分野で⾼高まっている
     l  英語 14億, 中国語 10億, ヒンディー 7億⼈人, スペイン語 3億

         フランス語  2億, アラビア語 1.7億, ポルトガル語 1.6億
         マレー語 1.6億  ベンガル語 1.5億  ⽇日本語 1.2億  ドイツ語 1億
     l  ⽇日本語だけが処理理できるのでは売れない、使ってもらえない

     l  スマートフォンの普及により、英語が話せる知識識階層以外の利利⽤用も

         急速に進みつつある
l  これまで紹介してきた技術はどの⾔言語でも使いたい
     l  例例:キーワード抽出の重み付けが「⽇日本語」固有の⽅方法だと、他の

       ⾔言語に応⽤用するのは難しい
l    機械翻訳以前に⾔言語横断で分析したいという要望も⼤大きい
1. 多⾔言語対応(続)

l  NLP研究の多くは英語、中国語、⽇日本語など主要⾔言語が多い
l  ⾔言語処理理ツールは主要⾔言語のみで整備される場合が多い
     l  海外企業では、CJK部隊が設置されるがうまくいかない場合が多い

     l  ⽇日本語処理理のノウハウを持っていても海外では通⽤用しない



l    ⾃自然⾔言語処理理は、⾔言語に対してスケールしなければならない
       l  Google翻訳は数年年で50⾔言語強にスケールした

            l    ⾔言語のスケーラビリティに対する徹底的な意識識


      l    ⽇日本だけで閉じているとジリ貧に
何が必要とされているか?
2. コーパス作成のビジネス化
l  統計的⾃自然⾔言語処理理は辞書・ルールを得るために「タグ付きコーパ
    ス」と呼ばれる正解付き⾔言語データを利利⽤用している
    l  ⽂文書分類の場合は、⽂文書とそのタグのペア、

    l  キーワード抽出の場合は、⽂文とその中に含まれるキーワードの位置

        情報など
l  限定されたドメイン向けの研究⽤用のコーパスしか存在していない
    l  ⽇日本は古くは京都コーパス、最近は均衡コーパスなど研究者が⼤大き

        なコーパスをいくつか作っている
    l  企業が、⾃自分の製品情報などに特化した⾔言語処理理器を作ろうとした

        時、⾃自分たちですぐにコーパスを作れる仕組みはできないか
コーパス作成のビジネス化(続)

l    クラウドソーシング(Amazon Mechanical Turks)など安価にデー
      タを構築する⼿手段は揃いつつあるが、もっと有効なデータが⾃自由に
      売買される時代がやってくる
      l  既に広告配信などでは、配信最適化に有効なデータは売買されはじ

          めている
何が必要とされているか?
3. ⼤大量量・⾼高速処理理
l    Google, MSなど巨⼤大企業のみならず、⼀一般の⼈人でも⼤大量量のデータ
      (ビッグデータ)が⼿手に⼊入れられるような時代になってきた
       l  例例:twitterの場合秒間1万tweet弱。

       l  1台で秒間10万程度度までなら単語分割、重要語抽出、分類、タグ付

           は可能だが、それ以上の分析は難しい


l    世の中のデータは年年率率率45%ずつ増えており、2020年年には現在の40
      倍になると推定されている
      l  ありとあらゆる種類のデータが増えている

      l  今記録されていない⾳音声データや議事録といったデータなども記録

        され、処理理される時代はすぐやってくる
⼤大量量・⾼高速処理理(続)

l    ⼤大量量の情報をリアルタイムで処理理できると世界が変わる
       l  データを保持する必要はなくなる

       l  ⼤大量量のデータを利利⽤用して真⾯面⽬目に計算せずに⼀一部のデータ、もしく

           は要約されたデータから分析をする技術が重要になる
           Sampling, Sketching
       →Jubatus プロジェクト(リアルタイム+分散+深い解析)
何が必要とされているか
4. 統合技術の実⽤用化
l    統合技術の実⽤用化は進みつつある
      l  情報検索索

      l  機械翻訳 (Google, MS)

      l  ⾳音声認識識  質問応答(Apple Siri、IBM Watson →診断への応⽤用)



l    こうした開発には要素技術は数百と使われている
      l  優れた要素技術を発⾒見見し、組合せるようなスキルが必要

      l  精度度を上げれば良良かった要素技術の研究の時とは違った問題設定

            l    ゴールが明確でなく、誰にどのように提供すればよいか、そのため
                  に今そろっている道具で何ができるかを考える必要がある
      l    例例:ネジやシャーシ、エンジンなどの部品がある時、どのように⾃自
            動⾞車車を作るかと似ている.    どこで妥協するか、コストなども
何が必要とされているか
幅広いスキルを持った⼈人材
l  ⾃自然⾔言語処理理に限らず、⼀一般的に⾔言える話
l  下のスキルのうち2つ、3つできる⼈人は増えつつあり多く持った⼈人が
    活躍できる世の中になってきている
     l  技術

     l  開発

     l  設計

     l  運⽤用

     l  企画

     l  デザイン・UX

     l  マネジメント

      l    ビジネス化
      l    (ソーシャル?)
まとめ

l    ⾃自然⾔言語処理理は社会のあらゆる分野で利利⽤用されてきている
       l  ⾔言語情報を介して業務、⼈人、社会などを知ることができる



l    データは今後も増える⼀一⽅方であり、⼈人では処理理できなくなる
      l  ⼈人が処理理できる情報量量には上限がある.機械の⼿手助けにより

          本当に重要な情報だけを⼈人が処理理するようにしなければならない


l    ⾃自然⾔言語処理理の実⽤用化はまだまだこれから
       l  要素技術の改善と同時に、これらを組合せることでいかにして、世

           の中に不不可⽋欠な技術にしていくか

Más contenido relacionado

La actualidad más candente

企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)Yuya Unno
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来Preferred Networks
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理Yuya Unno
 
深層学習時代の 自然言語処理ビジネス
深層学習時代の自然言語処理ビジネス深層学習時代の自然言語処理ビジネス
深層学習時代の 自然言語処理ビジネスYuya Unno
 
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案Masanori Kado
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)Shuyo Nakatani
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
最適化超入門
最適化超入門最適化超入門
最適化超入門Takami Sato
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫るKen'ichi Matsui
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
大規模データに基づく自然言語処理
大規模データに基づく自然言語処理大規模データに基づく自然言語処理
大規模データに基づく自然言語処理JunSuzuki21
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得Yuya Unno
 
統計的係り受け解析入門
統計的係り受け解析入門統計的係り受け解析入門
統計的係り受け解析入門Yuya Unno
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展Naoaki Okazaki
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明Seiichi Uchida
 

La actualidad más candente (20)

企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 
深層学習時代の 自然言語処理ビジネス
深層学習時代の自然言語処理ビジネス深層学習時代の自然言語処理ビジネス
深層学習時代の 自然言語処理ビジネス
 
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫る
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
大規模データに基づく自然言語処理
大規模データに基づく自然言語処理大規模データに基づく自然言語処理
大規模データに基づく自然言語処理
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
 
統計的係り受け解析入門
統計的係り受け解析入門統計的係り受け解析入門
統計的係り受け解析入門
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
 
明日使えないすごいビット演算
明日使えないすごいビット演算明日使えないすごいビット演算
明日使えないすごいビット演算
 

Similar a 大規模データ時代に求められる自然言語処理

研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011Preferred Networks
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 
Oss magic
Oss magicOss magic
Oss magicK5_sem
 
Oss magic2
Oss magic2Oss magic2
Oss magic2K5_sem
 
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みLinked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みShun Shiramatsu
 
20120620 idg(ontrox) v1.6
20120620 idg(ontrox) v1.620120620 idg(ontrox) v1.6
20120620 idg(ontrox) v1.6ONTROX
 
ソフト業界生き残りの条件
ソフト業界生き残りの条件ソフト業界生き残りの条件
ソフト業界生き残りの条件Katsuhide Hirai
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方Shohei Hido
 
Uec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみたUec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみたAtsushi Hayakawa
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜
地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜
地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜Toru Takahashi
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Shohei Hido
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーションYuya Unno
 
エンジニアのキャリアを考える
エンジニアのキャリアを考えるエンジニアのキャリアを考える
エンジニアのキャリアを考えるMKT International Inc.
 

Similar a 大規模データ時代に求められる自然言語処理 (20)

bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
 
研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011
 
mlabforum2012_okanohara
mlabforum2012_okanoharamlabforum2012_okanohara
mlabforum2012_okanohara
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
自然言語処理紹介(就職編)
自然言語処理紹介(就職編)自然言語処理紹介(就職編)
自然言語処理紹介(就職編)
 
aiconf2017okanohara
aiconf2017okanoharaaiconf2017okanohara
aiconf2017okanohara
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
Oss magic
Oss magicOss magic
Oss magic
 
Oss magic2
Oss magic2Oss magic2
Oss magic2
 
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みLinked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試み
 
20120620 idg(ontrox) v1.6
20120620 idg(ontrox) v1.620120620 idg(ontrox) v1.6
20120620 idg(ontrox) v1.6
 
ソフト業界生き残りの条件
ソフト業界生き残りの条件ソフト業界生き残りの条件
ソフト業界生き残りの条件
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
 
Uec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみたUec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみた
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜
地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜
地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション
 
エンジニアのキャリアを考える
エンジニアのキャリアを考えるエンジニアのキャリアを考える
エンジニアのキャリアを考える
 

Más de Preferred Networks

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57Preferred Networks
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Preferred Networks
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...Preferred Networks
 
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Preferred Networks
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演Preferred Networks
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Preferred Networks
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)Preferred Networks
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)Preferred Networks
 
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るKubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るPreferred Networks
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Preferred Networks
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会Preferred Networks
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2Preferred Networks
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Preferred Networks
 
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...Preferred Networks
 
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...Preferred Networks
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50Preferred Networks
 

Más de Preferred Networks (20)

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
 
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
 
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るKubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
 
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
 
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
 

大規模データ時代に求められる自然言語処理

  • 1. 講演 2012/2/2 @ 東北北⼤大学  産学連携講義:先端技術の基礎と実践 ⼤大規模データ時代に求められる ⾃自然⾔言語処理理 株式会社Preferred Infrastructure 岡野原  ⼤大輔 hillbig@preferred.jp 今回の発表内容は個⼈人の意⾒見見であり、 会社の意⾒見見ではありません
  • 2. ⾃自⼰己紹介 l  名前:岡野原  ⼤大輔 l  経歴: l  福島県いわき市⽣生まれ、磐城⾼高校(ラグビー部) l  東京⼤大学理理科⼀一類→同情報理理⼯工学研究科コンピュータ科学博⼠士課程 2010年年3⽉月終了了、情報理理⼯工学博⼠士(その間未踏2本、ユース1本) l  株式会社プリファードインフラストラクチャー 2006年年創業 l  研究開発チームのリーダー&戦略略&企画&開発&雑⽤用などいろいろ l  専⾨門分野は統計的⾃自然⾔言語処理理、機械学習、データ構造 (主に簡潔データ構造)、データ圧縮、データマイニング l  twitter @hillbig
  • 3. 会社紹介 株式会社  Preferred Infrastructure (略略称PFI) l  社是:最⾼高の技術を最短で世の中に届ける l  社員数:フルタイム 19⼈人(4⽉月に25⼈人) + バイト10⼈人弱 l  4名を除き、全員研究、エンジニア l  ICPC世界⼤大会出場者や未踏経験者が多い。redcoderも多い l  検索索/推薦⽂文やでの製品開発・販売・サービス提供 l  ⼤大⼿手メディア、サービス会社のバックエンドのエンジンを提供 l  提供先例例:朝⽇日新聞、NHK、はてな、NII、イプロス、電通、⽇日経BP l  ⼤大規模分散コンピューティング分野での技術提供 l  各社との共同研究開発、システム開発 l  ⼤大規模分散リアルタイム解析システム  Jubatus
  • 4. 今後PFIをどのような会社にしていきたいか l  研究・開発・ビジネス(世の中)をもっと近づけたい l  それが達成できるような⼈人材・組織作りをしたい l  (短期的には)IT業務の形を変えたい l  エンジニアが⾃自⽴立立し、⾃自分で考えて仕事をできるようにしたい l  受託ではなく、我々も問題を⼀一緒に考えて、それを社会で共有する l  (⻑⾧長期的には)世の中を変えるようなソフトウェアを開発したい l  ⾃自⽴立立した優秀なエンジニアを集め、それぞれが責任をもって能動的 に業務できるような組織作りを⾏行行う l  数⼗十年年後には今の産業を⽀支え、新しい産業を作りたい
  • 5. 本⽇日の話 l  ⾃自然⾔言語処理理の実世界への応⽤用について次のテーマで話す l  どこで使われているのか l  何が必要とされているか l  ビジネス的な観点や、実際どういうプレイヤーが存在するかなどに ついても突っ込んで話します。 l  今後社会に出た時役に⽴立立つかもしれません
  • 7. ⾃自然⾔言語処理理の基本技術 ⾃自然⾔言語(⼈人が書いたり話した⾔言語)を処理理するための技術は⾮非常に広く 毎年年のように各分野で新しい技術が⽣生まれている 要素技術 単語分割 構⽂文解析 意味解析 辞書構築 ⽂文書分類 ⾃自動要約 情報抽出 著者推定 機械翻訳 ⾳音声認識識 情報検索索 質問応答 複合技術
  • 8. ⾃自然⾔言語処理理の現状 l  以前の⾃自然⾔言語処理理は⾔言語学のエキスパートが処理理するための辞書、 ルールを⼈人⼿手で作っていた(演繹的⼿手法) l  問題:メンテナンスコストが⼤大きい、新分野への対応コストが⼤大きい l  90年年代後半から統計的⾃自然⾔言語処理理が主流流に(帰納的) l  ⼤大量量の⾔言語データを元に辞書、ルールを⾃自動的に獲得する l  統計学、データマイニング、機械学習との融合 l  ルールベースと⽐比較しても同程度度もしくはそれを超える性能を達成 l  しかし、まだ実⽤用化されていない部分も多い l  この原因については最後の⽅方で話します
  • 9. ⾃自然⾔言語処理理を⽀支える技術 l  ⾔言語学はもちろんだが、それ以外にも様々な分野の技術が必要 l  データ構造 l  例例:数千万キーワードの辞書を1台で保持し、⾼高速マッチングを⾏行行う l  統計学 l  例例:単語の珍しさを単語の重要度度する l  機械学習 l  例例:分類済みの⽂文書セットが与えられた時、そこから分類ルールを学 習し、新しい⽂文書を適切切に分類する l  ⼤大規模数値最適化 l  例例:⽂文書と⽂文書の関係を、それらの中に出現する単語の情報を⽤用いて 求めたい.⽂文書を⾏行行、単語を列列とする⾏行行列列を特異異値分解し分析する
  • 10. ⾃自然⾔言語処理理はどこで使われているのか? l  ⾔言語情報があるところならどこでも使われている l  そして⾔言語情報は今やどこにでも存在し電⼦子化されている l  それらの情報年年電⼦子化されコンピュータが扱えるようになった l  PFIでの具体例例を通じ、技術の利利⽤用例例をいくつか紹介する l  検索索エンジン   l  情報整理理 l  業務改善 l  属性情報分析
  • 11. 応⽤用例例1:検索索エンジン l  世の中には様々な種類の検索索エンジンが存在する l  Web検索索については前回のGoogleの賀沢さんが話したはず l  エンタープライズ検索索 l  EC検索索 l  ⽂文献特許検索索 l  ちなみに今回は⾃自然⾔言語処理理がテーマなので省省略略するが、 ⽣生物情報向け検索索エンジンの需要は⾮非常に⾼高くなっている l  次世代シーケンサの低価格化/普及 → オーダーメイド医療療 l  ⾔言語情報と⽣生物情報の解析に利利⽤用する要素技術は殆ど同じ
  • 12. エンタープライズ検索索 l  企業内検索索:業務中に発⽣生する⽂文書を検索索する l  メール、議事録、掲⽰示板、契約書、設計書、部品書 l  エンタープライズ検索索の現状 l  国内市場は100億円程度度だが、近年年ビッグデータ解析の流行ととも にデータベース市場、BI市場と融合してきつつある l  ビッグデータ解析の要素技術として重要であり、世界最⼤大⼿手は皆買 収された.Fast(MS)、Autonomy (HP)、Endeca(Oracle) l  ⽂文書の⾃自動分類(タグ付)、整理理、組織名や⼈人名、製品名の抽出、 そして、それらの名寄せが利利⽤用される l  ⽂文書分類、固有表現抽出、照応解析
  • 13. E-commerce 検索索 l  楽天、Amazonなど⼤大量量の商品を扱うサイトが利利⽤用する検索索 l  ECサイトの多くは、外部検索索エンジン(Googleなど)から直接 来た後に商品を絞り込むために利利⽤用する場合が多い l  ECサイトによって⾃自作と購⼊入している⼩小さい場合は半々程度度 l  各ECサイトの検索索エンジンを考察してみるのは⾯面⽩白い 楽天、Amazon、ZOZOTOWN などなど l  必要なNLP技術 l  クエリ拡張(製品名などはまずそのままヒットしない) l  商品属性の抽出(製品名、原材料料、⾊色、キャッチコピー) l  名寄せ  この商品とこの商品は同じ?バージョン違い? l  レコメンド l  商品情報の⽂文章から、お薦めできるかどうかを分析する
  • 14. ⽂文献・特許検索索 l  研究機関やコンサルタントが⽂文献や特許を調査する際に利利⽤用 l  漏漏れは許されない.関連結果を全て調べる.数千件⾒見見る場合も l  概念念が似たキーワード、⽂文書を分析し漏漏れ無く取得したい l  「IPS細胞」で検索索したら、それに関係しそうな概念念も全て調べる 必要がある l  各企業、政府が今どのような⽅方針をとっているのかも調べたい →⾦金金融業界などでの利利⽤用も多い l  誰が⾔言っているのか、影響はどのくらいかの分析も重要 l  情報フィルタリングと同じように、クエリを仕掛けておいて、新し い情報が⼿手に⼊入ったらすぐアラートを⾶飛ばす仕組みも
  • 15. 応⽤用例例2:情報整理理 l  関連ニュース記事のレコメンド l  ある記事と関連のある記事を出したい l  過去に同じようなことはあったか? l  関連する⼈人や企業に関する記事は? l  以前は、記事投稿の際、似ている記事を⼈人⼿手で⾒見見つけていた. l  記事に対し、関連ニュース、tweet、⼈人などを⾃自動で紐紐付けられた l  鍵となる⾃自然⾔言語処理理技術はキーワード抽出とスコアリング l  どのキーワードがどのように重要か? l  ⼈人名、事件名、イベント名、 l  Wikipedia、クエリログなどから⼤大規模辞書を構築+未知語処理理 l  ⾼高速な推薦 l  登録された記事全てに対して、毎回レコメンドを調べる
  • 16. 例例:どのキーワードが⽂文書を特徴付けるのに重要 か? ⽇日本電信電話株式会社(東京都千代⽥田区、代表取締役社⻑⾧長:三浦  惺、 以下「NTT」)と株式会社プリファードインフラストラクチャー(東 京都⽂文京区、代表取締役社⻑⾧長:⻄西川徹、以下「PFI社」)は、ビッグ データ*1と呼ばれる⼤大規模データをリアルタイムに⾼高速分析処理理する 基盤技術「Jubatus*2」(第1版)を開発しました。 これらのキーワードをどのように抽出する?   辞書ベース/⽂文脈情報ベース/頻度度ベース この情報で「東京都⽂文京区」より「ビッグデータ」が重要と、どう機 械的に判断するか? →珍しさ、辞書、⽂文書中位置、⽂文書集合での関係、流流⾏行行度度など
  • 17. 情報フィルタリング l  関連する情報だけを⼊入⼿手する l  アドホック検索索:クエリが動的、対象⽂文書が静的 l  Googleなどのウェブ検索索などいわゆる普通の剣作 l  情報フィルタリング:クエリが静的、対象⽂文書が動的 l  近年年のSocial News Readerがこれらの技術に近づいている クエリが動的 クエリが静的 (ユーザーが毎回⼊入⼒力力) (決まっている) 結果はpull型 結果はpush型 ⽂文書が動的 情報フィルタリング (ニュース、 (はてブのカテゴリと twitter) か、Social News Readerなど) ⽂文書が静的(ウェブ アドホック検索索 ページ、製品情報) (ウェブ検索索など⼀一般の 検索索の概念念はこれ)
  • 18. 応⽤用例例3:業務改善 l  ⽂文書と組織のマッチング l  情報と⼈人のマッチングを⾔言語情報を介して⾏行行い、情報を共有すべき ⼈人に⾃自動的に必要な情報をpushする l  組織変更更があった時に、どの⽂文書(情報)をどの組織に割り当てる のかの設定を⼈人⼿手で⾏行行うのは⾮非常に困難だが、それを⾃自動で⾏行行う l  ⼈人事への応⽤用 l  その⼈人の持っているスキルと,そのレベルをレジュメなどを元に⾃自 動推定し、その結果を検索索などで利利⽤用できるようにする l  レジュメを⽂文書分類する.正解データはクラウドソーシングで作る l  転職斡旋会社や、⼤大企業の⼈人事などで使われる l  linkedinなどで⼤大規模な適⽤用例例をみることができる
  • 19. ⼈人事・取引・業務情報の管理理 l  取引情報 l  取引先の会社は数百社から数千社からなるため、どこに商談の可能 性があるかを⾃自動的に分析する l  ミーティングの場所、出席者、議題などを⾃自動抽出 l  業務情報 l  プロジェクトの進捗管理理 l  redmineなどのチケットを分析する l  この領領域を狙っている企業は最近多くなっている l  salesforce, linkedin, yammer
  • 20. 例例:業務⽂文書で必要な解析 l  ⼈人・組織に関係する処理理が多くなる l  毎⽇日様々な⽂文書が⽣生成され(⼈人の出⼊入りも多いので)、⽂文書がある ⼈人に関係する/しないという判断が困難になってくる l  ⽂文書分類のラベルセットが、⼈人/部署になってくる l  これまで読んだ⽂文書(もしくは読んでよかった⽂文書が正解データ) l  組織変更更があったら、それに追従して⽂文書割り当てを決める l  企業は定期的に組織変更更、合併、分裂裂が発⽣生する l  必要な⽂文書を再度度全部割り振り直すのはかなり困難な作業
  • 21. 応⽤用例例4:属性分析 l  ユーザーの属性分析 l  プロフィール、tweet内容から、性別、年年齢、職種、趣味、家族構 成、年年収、各製品/企業への嗜好などが分析できる l  ある商品がどのような⼈人にウケている、外れているといったマーケ ティング分析への利利⽤用 l  第三者広告配信の広まりとともに、ユーザーと広告のマッチングは キーテクノロジーになっている この⼈人なら、この広告は⾼高確率率率 l  第三者配信 で押すから、⾼高値で⼊入札! 広告を 広告 出したい⼈人達 広告を出せる枠を持った⼈人 (ウェブサイトを持っている⼈人) 第三者配信
  • 22. 属性分析 l  ⾔言語情報だけに限らず、いまやあらゆる情報を利利⽤用してユーザーの 情報は分析され利利⽤用されている l  アクセス時間、パターン l  IPアドレス l  クリックログ l  クエリログ l  これらの情報はサイト間を超えて共有されつつある l  あるサイトで広告をクリックしたら、他のサイトでも、同じ広告ば かりが出るようになったなど
  • 23. ⾃自然⾔言語処理理の基本技術 ここまで以下のオレンジ⾊色のついた周辺のことを話しました 要素技術 単語分割 構⽂文解析 意味解析 辞書構築 ⽂文書分類 ⾃自動要約 情報抽出 著者推定 機械翻訳 ⾳音声認識識 情報検索索 質問応答 複合技術
  • 24. 何が必要とされているか l  ⾃自然⾔言語処理理の実⽤用化において何が必要とされるのかを紹介 l  多⾔言語対応 l  コーパス作成からのビジネス化 l  ⼤大量量・⾼高速・リアルタイム処理理 l  統合技術の実⽤用化 l  幅広いスキルを持った⼈人材
  • 25. 何が必要とされているか? 1. 多⾔言語対応 l  ⼀一つの⾔言語だけではなく、複数の⾔言語を同時に処理理したいニーズは あらゆる⾔言語処理理の応⽤用分野で⾼高まっている l  英語 14億, 中国語 10億, ヒンディー 7億⼈人, スペイン語 3億 フランス語  2億, アラビア語 1.7億, ポルトガル語 1.6億 マレー語 1.6億  ベンガル語 1.5億  ⽇日本語 1.2億  ドイツ語 1億 l  ⽇日本語だけが処理理できるのでは売れない、使ってもらえない l  スマートフォンの普及により、英語が話せる知識識階層以外の利利⽤用も 急速に進みつつある l  これまで紹介してきた技術はどの⾔言語でも使いたい l  例例:キーワード抽出の重み付けが「⽇日本語」固有の⽅方法だと、他の ⾔言語に応⽤用するのは難しい l  機械翻訳以前に⾔言語横断で分析したいという要望も⼤大きい
  • 26. 1. 多⾔言語対応(続) l  NLP研究の多くは英語、中国語、⽇日本語など主要⾔言語が多い l  ⾔言語処理理ツールは主要⾔言語のみで整備される場合が多い l  海外企業では、CJK部隊が設置されるがうまくいかない場合が多い l  ⽇日本語処理理のノウハウを持っていても海外では通⽤用しない l  ⾃自然⾔言語処理理は、⾔言語に対してスケールしなければならない l  Google翻訳は数年年で50⾔言語強にスケールした l  ⾔言語のスケーラビリティに対する徹底的な意識識 l  ⽇日本だけで閉じているとジリ貧に
  • 27. 何が必要とされているか? 2. コーパス作成のビジネス化 l  統計的⾃自然⾔言語処理理は辞書・ルールを得るために「タグ付きコーパ ス」と呼ばれる正解付き⾔言語データを利利⽤用している l  ⽂文書分類の場合は、⽂文書とそのタグのペア、 l  キーワード抽出の場合は、⽂文とその中に含まれるキーワードの位置 情報など l  限定されたドメイン向けの研究⽤用のコーパスしか存在していない l  ⽇日本は古くは京都コーパス、最近は均衡コーパスなど研究者が⼤大き なコーパスをいくつか作っている l  企業が、⾃自分の製品情報などに特化した⾔言語処理理器を作ろうとした 時、⾃自分たちですぐにコーパスを作れる仕組みはできないか
  • 28. コーパス作成のビジネス化(続) l  クラウドソーシング(Amazon Mechanical Turks)など安価にデー タを構築する⼿手段は揃いつつあるが、もっと有効なデータが⾃自由に 売買される時代がやってくる l  既に広告配信などでは、配信最適化に有効なデータは売買されはじ めている
  • 29. 何が必要とされているか? 3. ⼤大量量・⾼高速処理理 l  Google, MSなど巨⼤大企業のみならず、⼀一般の⼈人でも⼤大量量のデータ (ビッグデータ)が⼿手に⼊入れられるような時代になってきた l  例例:twitterの場合秒間1万tweet弱。 l  1台で秒間10万程度度までなら単語分割、重要語抽出、分類、タグ付 は可能だが、それ以上の分析は難しい l  世の中のデータは年年率率率45%ずつ増えており、2020年年には現在の40 倍になると推定されている l  ありとあらゆる種類のデータが増えている l  今記録されていない⾳音声データや議事録といったデータなども記録 され、処理理される時代はすぐやってくる
  • 30. ⼤大量量・⾼高速処理理(続) l  ⼤大量量の情報をリアルタイムで処理理できると世界が変わる l  データを保持する必要はなくなる l  ⼤大量量のデータを利利⽤用して真⾯面⽬目に計算せずに⼀一部のデータ、もしく は要約されたデータから分析をする技術が重要になる Sampling, Sketching →Jubatus プロジェクト(リアルタイム+分散+深い解析)
  • 31. 何が必要とされているか 4. 統合技術の実⽤用化 l  統合技術の実⽤用化は進みつつある l  情報検索索 l  機械翻訳 (Google, MS) l  ⾳音声認識識  質問応答(Apple Siri、IBM Watson →診断への応⽤用) l  こうした開発には要素技術は数百と使われている l  優れた要素技術を発⾒見見し、組合せるようなスキルが必要 l  精度度を上げれば良良かった要素技術の研究の時とは違った問題設定 l  ゴールが明確でなく、誰にどのように提供すればよいか、そのため に今そろっている道具で何ができるかを考える必要がある l  例例:ネジやシャーシ、エンジンなどの部品がある時、どのように⾃自 動⾞車車を作るかと似ている.    どこで妥協するか、コストなども
  • 32. 何が必要とされているか 幅広いスキルを持った⼈人材 l  ⾃自然⾔言語処理理に限らず、⼀一般的に⾔言える話 l  下のスキルのうち2つ、3つできる⼈人は増えつつあり多く持った⼈人が 活躍できる世の中になってきている l  技術 l  開発 l  設計 l  運⽤用 l  企画 l  デザイン・UX l  マネジメント l  ビジネス化 l  (ソーシャル?)
  • 33. まとめ l  ⾃自然⾔言語処理理は社会のあらゆる分野で利利⽤用されてきている l  ⾔言語情報を介して業務、⼈人、社会などを知ることができる l  データは今後も増える⼀一⽅方であり、⼈人では処理理できなくなる l  ⼈人が処理理できる情報量量には上限がある.機械の⼿手助けにより 本当に重要な情報だけを⼈人が処理理するようにしなければならない l  ⾃自然⾔言語処理理の実⽤用化はまだまだこれから l  要素技術の改善と同時に、これらを組合せることでいかにして、世 の中に不不可⽋欠な技術にしていくか