研究のご紹介 Introduction of research

Printing
 

日本情報技術協会の持つ大規模言語コードデータベースを使った分かち書きシステム開発

BERTが活躍すると分かち書きは大切になりました。

日本情報技術協会のコード、映像とのラベリング作業による自然言語が分かち書きのリーダー的存在にになると期待されております。

現在プログラマーが英語でその言葉を選択するのが1番の問題になります。

今までパソコンでやろうとしたので断念して、人工知能スパコン使えるところを探していましたが、条件が合わず断念してましたが、分かち書きシステム開発はabciとAWSで演算能力と学習済みストレージの能力で解決され自動的に選択出来きるようになります。

1番の問題になるのは自動で選びますが量子コンピュータを使わないと検索が終わらなくて時間がかかりすぎる問題でした。

演算能力、学習済みストレージで分かち書きシステムは整理され推論が早くより正確に処理されるという事です。

日本情報技術協会のコードデータベースをBERTによって整理し、そして日本語と英語の対応を行うということで飛躍的にAIが進歩します。

さらにIMAGE BERTで画像とテキストの同時埋め込みのために、新しいビジョン言語の事前トレーニングモデルによりトランスフォーマーベースの入力としてさまざまなモダリティを取り、それらの間の関係をモデル化します。このモデルは、マスク言語モデリング(MLM)、マスクオブジェクト分類(MOC)、マスク領域特徴回帰(MRFR)、イメージテキストマッチング(ITM)の4つのタスクで同時に事前トレーニングされています。事前トレーニングの品質をさらに向上させるために、Webから大規模なweAk監視付き画像テキスト(LAIT)データセットを収集。最初にこのデータセットでモデルを事前トレーニングし、次に概念キャプションと画像キャプションで第2段階の事前トレーニングを実施します。マルチステージの事前トレーニング戦略がシングルステージの事前トレーニングよりも優れています。

日本情報技術協会のコードデータベースをIMAGE BERTによって整理し、いままで不可能だった画像と言語の対応を行うということで論文、本、映画等の挿入画像、グラフの相互関係の問題が解決します。

科学技術基本法改正で人文、社会学を加え AIは社会システムの現象解析に強い学術的な取り組みが重要な時代に入りました。視野を狭めるのではなく、ずっと幅広い様々な選択肢と意思決定で、あらゆる学問の相互関係、アップデートが必要となり、全ての学部で人工知能専攻が重要な役割を果たすとことを期待しております。

日本情報技術協会のデータベースでテキストマイニングは日本語を他言語
他言語から日本語へ

AI(人工知能)の自然言語データと密接な関わりを持つテキストマイニング。自由形式で記述された文章を分析するための手法です。たとえばSNSへの投稿をはじめとした大量の文字情報をビッグデータとして有効に活用するうえでも重要な技術です。

大量の文章から有益な情報を得るために効果的なテキストマイニングですが、万能というわけではありません。日本語の場合、同じ意味を表す言葉に多数のバリエーションがあったり、逆に、同じ単語が複数の意味を持っていたりすることが多いため、英語に比べると難易度は高くなってしまいます。 しかし、「日本語ではテキストマイニングは役に立たない」というわけではありません。解析時の判定で誤りの生じやすい単語についても、日本情報技術協会のデータによりアップデートによって対応が可能です。英語と同レベルの精度での解析は現状では難しいことが当法人データベースを利用しテキストマイニングを実施することで十分な効果を期待できると言えるでしょう。個人がSNSで情報発信をすることが当たり前になった今、ネット上に集まるユーザーの本音は各研究者にとって非常に重要なデータです。テキストマイニングは、それらの情報を収集する上で重要な技術となってきているのです。

テキストマイニングで使うExcel関数

COUNTIF関数
単語の出現回数を集計する場合などに使用

SUM関数
特定の範囲の単語の個数を集計する場合などにCOUNTIF関数とあわせて使用

INDEX関数
指定したセルの値を表示できる関数。SUM関数とあわせて使うことで、指定したセルからINDEX関数で指定した範囲までの合計値を求める場合などに使用

 
新着情報INFORMATION
 
news

Break Time