研究紹介Research Introduction
日本情報技術協会の大規模言語コードデータベースを使った 分かち書きシステム開発
BERTが活躍すると 分かち書きは大切になりました。今後 日本情報技術協会のコードと映像とのラベリング作業による自然言語が 分かち書きのリーダー的存在になると期待されております。
現在 プログラマーが英語でその言葉を選択するのが 一番の問題となっています。当協会も今までパソコンでやろうと試みましたが断念し 新たに人工知能のスパコンが使えるところを探していました。
ですが条件が合わず断念したのです。しかし 分かち書きシステム開発は ABCIとAWSで演算能力と学習済みストレージの能力で解決され 自動的に選択出来きるようになってきました。
ここで 一番問題になるのが自動で選ぶことはできても 量子コンピュータを使わないと検索が終わらず時間がかかりすぎるという問題です。ですが演算能力 学習済みストレージで分かち書きシステムは整理され推論が早くより正確に処理されるようになりました。
またこのことによって 日本情報技術協会のデータベースコードをBERTによって整理し そして日本語と英語の対応を行うということで飛躍的にAIが進歩するのです。
さらに IMAGE BERTで画像とテキストの同時埋め込みのために 新しいビジョン言語の事前トレーニングモデルによりトランスフォーマーベースの入力としてさまざまなモダリティを取り それらの間の関係をモデル化します。
このモデルは
- マスク言語モデリング(MLM)
- マスクオブジェクト分類(MOC)
- マスク領域特徴回帰(MRFR)
- イメージテキストマッチング(ITM)
の 4つのタスクで同時に事前トレーニングされています。事前トレーニングの品質をさらに向上させるために Webから大規模な Weak監視付き画像テキスト(LAIT)データセットを収集します。
最初にこのデータセットでモデルを事前トレーニングし 次に概念キャプションと画像キャプションで 第2段階の事前トレーニングを実施します。マルチステージの事前トレーニング戦略が シングルステージの事前トレーニングよりも優れています。
日本情報技術協会のコードデータベースを IMAGE BERTによって整理し いままで不可能だった画像と言語の対応を行うということで論文・本・映画等の挿入画像・グラフの相互関係の問題が解決します。
科学技術基本法改正で人文・社会学を加え AIは社会システムの現象解析に強い学術的な取り組みが重要な時代に入りました。視野を狭めるのではなく ずっと幅広い様々な選択肢と意思決定で あらゆる学問の相互関係・アップデートが必要となり 全ての学部で人工知能専攻が重要な役割を果たすとことを期待しております。
日本情報技術協会のデータベースでテキストマイニングは日本語を他言語 - 他言語から日本語へ
AI(人工知能)の自然言語データと密接な関わりを持つテキストマイニングは 自由形式で記述された文章を分析するための手法です。
たとえば SNSへの投稿をはじめとした大量の文字情報を ビッグデータとして有効に活用するうえでも重要な技術です。
テキストマイニング自体 大量な文章から有益な情報を得るために効果的ですが万能というわけではありません。日本語の場合 同じ意味を表す言葉に多数のバリエーションがあったり 逆に同じ単語が複数の意味を持っていたりすることが多いため 英語に比べると難易度は高くなってしまいます。
しかし「日本語ではテキストマイニングは役に立たない」というわけではありません。解析時の判定で誤りの生じやすい単語についても 日本情報技術協会のデータのアップデートによって対応が可能です。
また 英語と同レベルの精度での解析は現状では難しいことですが 当法人データベースを利用し テキストマイニングを実施することで十分な効果を期待できると言えるでしょう。
個人が SNSで情報発信をすることが当たり前になった今 ネット上に集まるユーザーの本音は各研究者にとって非常に重要なデータです。テキストマイニングは それらの情報を収集する上で重要な技術となってきているのです。
- Excel関数
- テキストマイニングで使う Excel関数
- COUNTIF関数
- 単語の出現回数を集計する場合などに使用
- SUM関数
- 特定の範囲の単語の個数を集計する場合などに COUNTIF関数とあわせて使用
- INDEX関数
- 指定したセルの値を表示できる SUM関数とあわせて使うことで 指定したセルから INDEX関数で指定した範囲までの合計値を求める場合などに使用