IBM Watson トライアルその4/4

isana.net
2016年3月31日
読了時間: 5分

更新日：2019年12月24日

■前回までの内容

これまで過去3回、Watson APIを1つ1つ、順番にトライアルを実施してまいりました。

■APIの紹介

今回が最後の紹介です。残りのデモをトライアルしていきます。

Speech To Text

喋った内容がテキストに変換されるデモです。

リアルタイムに認識されていく経過がテキストとして表示されていて興味深いです。メインの認識結果のほかに、信頼度が低い（同音異義語や認識が曖昧な）個所について別の認識単語に置き換えた結果も提示されます。

このAPIは日本語に対応していますので、色々と試してみました。発音認識わとそんワトソンにほんご日本語ぐーぐるＧｏｏｇｌｅきしゃのきしゃはきしゃできしゃした記者の貴社は帰社で帰社したじゅうだいのくるま十代の頃も十代車くるまがじゅうだい車が渋滞車が十台じゅうだいのおとこのこ十代の子じゅうだいなじこ重大な事故とうきょうとっきょきょかきょく東京特許許可局きょうはあつい今日は暑いあついほん厚い本あついてつ熱い鉄もーつぁると大阪城あいふぉんＩＰｈｏｎｅはいふんハイフンあいろんあれ

上記には記載していませんが、周りで別の人が会話していたりとマイクの環境が良くなかったせいか、発音の聞き取りの時点で全く認識できなかったことも結構ありました。おそらく、話し手が複数いる場合にはうまく対応できないのかもしれません。

同音異義語については、文章の流れを意識してその場に相応しい単語が選択されているようですが、IMEによる一発変換と比較して大きな差を感じるほどではありませんでした。音声から抑揚などテキスト以外の情報を聞きとって利用しているのかなどについてはよくわかりませんでした。当たり前ですが、前後の関係性を認識しやすい長文の方が短文よりも得意そうですし、話し言葉やくだけた文章よりも硬い文章の方が得意そうでした。

Text To Speech

入力したテキストが音声に変換されるデモです。

このAPIは日本語に対応していますので、いろいろと日本語のニュースを読ませてみました。イントネーションや文章の区切りなどに若干の違和感があるものの、概ね聞き取れる程度の発音でしゃべってくれました。

例えば、以下のような部分でも問題なく発音されます。テキスト発音103.5%ひゃくさんてんごぱーせんと3700億円さんぜんななひゃくおくえん

前後の文の内容で読み方が変わるので、必ずしもそのような発音にはならないのですが、以下の様な読み間違いが発生していました。テキスト発音一般相対性理論いち　はんあいたいせいりろん無線LANむせんえるえーえぬ１＋１＝２いち　いち　に

略語を含め英字記載部分部分はアルファベット読みに、記号はそもそも発音されないような傾向です。たしかに、「かっこ」や「ハイフン」などを読み上げられると困りますから、そのように学習（もしくは、インプットとして無視）しているのでしょう。しかし、略語は一般的な発音を期待したいところです。

Tone Analyzer

テキストから感情、文体などを分析し、文章全体と文ごとにその結果を表示するデモです。

いくつかのニュース記事本文を分析してみます。アメリカ大統領選Emotion Language Style SocialAnger0.09 Analytical0.45 Openness0.67Disgust0.34 Confident0.34 Conscientiousness0.81Fear0.01 Tentative0.23 Extraversion0.49Joy0.00 Agreeableness0.57Sadness0.01 Emotional Range0.22

宇宙飛行士が地球に帰還Emotion Language Style SocialAnger0.30 Analytical0.68 Openness0.40Disgust0.02 Confident0.87 Conscientiousness0.26Fear0.04 Tentative0.38 Extraversion0.75Joy0.00 Agreeableness0.69Sadness0.02 Emotional Range0.63

億万長者Emotion Language Style SocialAnger0.15 Analytical0.13 Openness0.82Disgust0.51 Confident0.09 Conscientiousness0.84Fear0.01 Tentative0.00 Extraversion0.12Joy0.01 Agreeableness0.42Sadness0.03 Emotional Range0.11

なぜか、AngerやDisgustに満ちた結果になってしまいました。ニュースのような文章の場合、内容を的確に伝えることを目的としているために、このような結果になってしまったのではないかと推測しています。

宇宙飛行士のニュースではAnalyticalやConfidentの分析値が高くでており、科学的、学術的な内容であることが伺えます。

ディズニーランドの紹介テキストではどうでしょうか。ディズニーランドEmotion Language Style SocialAnger0.02 Analytical0.07 Openness0.68Disgust0.20 Confident0.20 Conscientiousness0.78Fear0.09 Tentative0.00 Extraversion0.60Joy0.55 Agreeableness0.50Sadness0.06 Emotional Range0.13

こちらはさすがにJoyが高いですね。

自分が書いたメールや記事などを分析させて、相手にどのような印象を与えるか、Chatやメールコミュニケーションで相手がどのような感情状態であるのかなどを分析、対応するなどの目的で利用されることを想定しているとのことです。

Tradeoff Analytics

トレードオフの関係のあるいくつかの要素を分析し、最適と考えられる選択肢を提案するデモですが、残念ながらデモサイトに接続することができませんでした。

車や携帯電話など、スペックと価格であったり、スペックの個別の要素間にトレードオフの関係のあるようなものを購入する際の意思決定のサポートなどに利用されることを想定しているとのことです。

Visual Recognition

画像認識の言葉通り、画像を認識し、分類するデモです。

トレーニングされた画像のみを認識可能なようなので、用意された学習データを用いてトレーニングし、その認識率を確認します。トレーニングデータはゴールデンレトリバー。

Google画像検索で出てきたゴールデンレトリバーとそれ以外の画像を幾つか与えてみます。画像イメージ判定ゴールデンレトリバー、立ち77%ゴールデンレトリバー、座り75%ゴールデンレトリバー、顔のアップ82%ゴールデンレトリバー、子犬6匹77%ゴールデンレトリバーのぬいぐるみ78%クーバース（ゴールデンレトリバーに似た犬種）68%グレートデーン否定（50%未満）チワワ55%狼否定（50%未満）ノルウェージャンフォレストキャット否定（50%未満）ゴールデンレトリバーのフィギュア（チョコエッグ）56%ゴールデンレトリバーのイラスト否定（50%未満）

なんとなく認識できているような感触が得られました。一部誤認識している部分については学習データが少ないのが原因だと思われます。沢山のデータで学習した場合にどの程度の精度になるのか気になります。チョコエッグのフィギュアの判定についてはフィギュアの出来がいいのか、画像認識側が頑張ったのか面白い結果が出ました。