IBM Watson トライアルその3/4

isana.net
2016年3月31日
読了時間: 3分

更新日：2019年12月24日

■前回の内容

前回までに、全体の1/3程度のAPIを試しました。

■API紹介

今回もどんどんトライアルを続けてまいります。

Language Translation

特定の分野における翻訳のデモです。デモでは会話、ニュース、特許の分野に特化した翻訳機能を試すことができます。

ニュース記事で英語→フランス語を試してみました。

入力した英語と出力されたフランス語をGoogle翻訳にかけて日本語にすることで翻訳の精度を評価したところ、微妙な違いがでていますが、大きな差は無い印象です。

違いが発生した部分が理解の妨げになる可能性も考えられるため、精度や影響の割合について気になります。たとえば、上記のフランス語の結果をLanguage Translationを用いてさらに英語に戻した場合には、主題が揺らいだり、内容の一部が消えてしまったりなど、その差が無視できない程度に大きくなってしまいました。

Natural Language Classifier

気象に関する質問文から、温度または天候条件のどちらに関する質問なのかを分類するデモです。

英語に不自由なので、日本語文をGoogle翻訳して試してみます・・・。質問文カテゴリ信頼度Is it likely to dry laundry today ?天気99%Tomorrow, Will I need a muffler ?温度77%Is there a risk of freezing ?温度93%Will I need an umbrella ?天気96%Will this rain change to snow ?天気99%What temperature does it snow?温度50%

あやしい文章でも頑張って分類されています。正しく分類されたか誤って分類されたかは、質問文の内容によっては判断が難しいところです。人によってとらえ方が異なるような感覚を感じます。

Personality Insights

ある人物が著した文章を元に、性格やニーズ、価値観などを分析するデモです。

デモとして用意されているレディー・ガガさん（以下、敬称略）のツイートと、マララ・ユスフザイさん（以下、敬称略）の国連演説の内容を分析してみます。

分析項目が多いので一部のみを抜粋します。レディー・ガガマララ・ユスフザイ % %Introversion/Extraversion74% Introversion/Extraversion94%Conscientiousness73% Agreeableness91%Openness63% Emotional range65%Agreeableness61% Openness51%Emotional range34% Conscientiousness23% % %Challenge84% Love100%Closeness75% Practicality99%Ideal75% Harmony97%Structure73% Closeness94%Stability72% Challenge92% % %Tradition71% Helping others100%Taking plesure in life67% Stimulation22%Stimulation57% Achivement22%Helping others54% Tradition19%Achivement13% Taking plesure in life1%

本人を知っているわけではないので、分析が正しいかどうかを確かめるすべはありませんが、世間の評判と比べて納得する、なるほどと感じる部分があるといったところでしょうか。どちらかというと、結果よりもどうやって学習させたかが気になります。

Relationship Extraction

文章から、本質に関わる部分を抽出し、文章に対する関連性を提示するデモです。

Googleの自動運転車に関してのルール作りの記事を解析させてみました。項目関連性U.S.GPENational Highway Traffic Safety AdministrationORGANIZATIONcarsVEHICLEdriversPEOPLEcompaniesORGANIZATIONvehiclesVEHICLEdriverPERSONoccupantsPEOPLElocationLOCATIONroadsFACILITY

・・・以下略

本質に関わる部分かと問われるとそうかもしれないですが、つかみどころを見つけるのが難しいアウトプットが得られました。このAPIは、得られた関連性に基づいて広告の提示や提案を行うことを想定しているとのことです。

Retrieve and Rank

機械学習と標準的な検索を比較するデモです。

航空力学に関する質疑応答資料から、利用者からの質問文に適した情報を検索し、提示するデモです。このデモでは自由な検索文を入力することはできず、用意された質問からランダムなものが選ばれ、それに対しての検索結果とランクを返します。何回か試してみたところ、概ね機械学習による検索結果の方が関連性の高い結果を返しているようですが、デモの中の限られた学習範囲での結果なので、正しく判断するには実際にアプリケーションを作成する必要を感じました。

コールセンターにおいて、専門知識が無いオペレータでも適切な回答ができるようなシステムなどに利用されることを想定しているとのことです。