東京大学 野村証券 共同開発

aiQ-index 開発者BLOG

2017-11-27

aiq-index

AIによる文書のセンチメント理解

近年のディープラーニング技術の発展により、徐々にAIにも人間のような文書の意味理解が可能となってきました。身近なところでは、Google翻訳がディープラーニングを用いた機械翻訳を実装し、大きく精度を上げたことが知られています。

我々のaiQ指数はTwitterや掲示板のようなSNS文書をAIで評価・数値化し、これを集計することで指数化しています。この時、AIは株価に対してポジティブ(買いたい)な書き込みをプラスに、ネガティブ(売りたい)な書き込みをマイナスと評価します。このような文書のポジティブ度/ネガティブ度を評価するタスクはセンチメント分析と呼ばれ、AIによる文書評価の中でも特に成功している分野の一つと言えます。

AIの学習

ここでは、AI学習データの一つである、「景気ウォッチャー調査」データを用いて、AIの学習について簡単に説明します。なお、我々は多様な価値判断が可能となるよう、景気ウォッチャー以外の様々な学習データを用いており、これについては後日説明予定です。

景気ウォッチャー調査は内閣府が実施する統計調査で、タクシーの運転手や小売店の店員など、景気に敏感な人々(景気ウォッチャー)から毎月約3,000件(現状、先行)の景気判断に関する判断結果とその判断理由から成ります。2017年9月時点で、40万件以上のテキストが収録されている。AIの学習では、この判断理由のテキストから判断結果を当てるという問題を繰り返し行います。40万件のデータから繰り返し学習させることで、AIは徐々に文書に使われている単語や文脈の特徴を捉え、その回答者が景気はポジティブ(良くなる)と言っているか、ネガティブ(悪くなる)と言っているかが判断できるようになります。

図表 1景気ウォッチャーの学習データ

精度の検証

精度については2016年に人工知能学会で発表したペーパー(https://kaigi.org/jsai/webprogram/2016/pdf/219.pdf)から引用しますが、ニューラルネットワーク(下表のRNN, BRNN)では概ね95%近い精度(二値分類)があり、ほとんどの文章を正しく分類できていることが分かります。ディープラーニング以前に主流だったtf-idfと呼ばれる出現単語を単純に数える(bag of words=BOWと言います)手法で推定した結果では85%強です。ディープラーニングの登場で間違えるサンプルは3分の1に減っていることが分かります。

RNN

BRNN

tf-idf

二値分類(現状)

0.930

0.928

0.859

二値分類(先行き)

0.939

0.946

0.869

二値分類(現状・先行き)

0.940

0.947

0.878

回帰(現状・先行き)

0.346

0.340

0.536

*) “二値”では良い/悪いの二値分類問題の正答率を記載。”回帰”では 悪い=-2, やや悪い=-1, …, 良い=+2 とした回帰問題の平均二乗誤差(mse)を記載

センチメント分析の応用

ここまで得られたAIを景気に関するSNS文書に適用すると、人間が読まずとも、AIがポジティブ/ネガティブを判定し、SNS全体の景況感を瞬時に判定できるようになります。これを応用したのが経済産業省の委託事業で開発したSNS×AI 景況感指数で、BigData-STATS(https://bigdata-statistics.meti.go.jp/)で公表されています。

さらに、aiQ-Indexでは多様な学習データを用いることで、景況感だけでなく株価や商品など、様々な基準でポジティブ/ネガティブを評価できるようAIを鍛え、指数化しています。次回は指数化のロジックについて説明する予定です。

aiQ-indexに関するご案内をいち早くメールにてお届けします。

今すぐ先行利用に参加する!