すでに私たちのそばにあるAI[後編]

「AI」という言葉を日常的にもよく目にするようになった昨今。言葉だけがひとり歩きして、実際に「AI」がいったい何なのか、しっかりと理解できてない人も多いはず。そこでAI分野のキーパーソンに「AIとは何か」インタビューを通して解説していきます。

前回は、オムロンサイニックエックス*¹の牛久祥孝さんに、ITジャーナリストの弓月ひろみさんが、これまでのAIについてお伺いしました。今回は、牛久さんが現在取り組んでいる「ディープラーニングによる視覚×自然言語の融合」を通して、今のAIがどういった可能性を持っているかをお聞きしています。

*¹ オムロンの考える"近未来デザイン"を創出する戦略拠点。
https://www.omron.com/sinicx/

 

テキストと画像を融合させたAI

弓月ひろみ(以下、弓月):牛久さんが研究されている「視覚と自然言語の融合」というのは、具体的にどういった使われ方をしているのか教えてください。

牛久祥孝(以下、牛久):今までの画像認識AIというのは、スマートフォンで顔認識ができますとか、工場の生産ラインで流れてくる製品の良品・不良品を判断できますといった感じで、分類をするということが主な機能でした。つまり、基本的にはラベルを付ける作業なんです。そのため画像の中に人が写っていますとか、クルマが写っていますという判断だけでした。ただ人間は、ぱっと何かをみたとき、その中にもっと豊かな意味を見いだして、自然言語(テキスト)で表現しますよね。

例えばクロード・モネの美術作品を目にしたときに、その作品が作られた背景を語りあったりしますよね。人間は、無意識のうちにリッチな情報を言葉にして表現できるわけです。そのように「視覚」と「視覚から得られるデータの背後にあるもの=人間だったら何らかのテキストとして記述できるもの」を結びつけるという研究に2010年頃から取り組んでいます。

一番初めに取り組んだのは、画像のキャプションを機械が自動で生成するという研究です。人が写っている画像に対して、今までの画像認識だと、人がどこに写っているか検出のみを機械学習で行っていました。私が取り組んでいる研究はそれだけではなくて、この画像を見たら人間はどのようなテキストでこれを説明するかなということをAIが考えるというものです。

330_2.png

弓月:例えばこのような画像だと、人が写っていますということだけではなくて「家族がテーブルを囲んで食事をしている」、もしかするとAIが「誕生日会」をしているといったところまで記載できるという感じでしょうか?

牛久:そうです。そういうところまでちゃんと見分けていきたい。現在はさらに精度は上がっていて細かいところも言語化できるようになっています。さらに写真や画像だけでなく、動画にも応用して、映画からひとつの小説が生成できるといったレベルにまで進めています。みなさんの暮らしに身近なものだと、料理工程の写真や、実際に人間が調理している動画をもとに、自動でレシピを生成してくれる研究やそのためのデータを収集する研究を京都大学や東京大学、クックパッドと共同で行っています。機械学習手法による学習済みモデルが食材の種類や、野菜がしんなりしているといった状態まで認識し、自動でテキストを生成し、食材から料理が完成するプロセスを推定して、レシピに自動変換するものです。
これを応用すると、日々のさまざまな作業、たとえば工場での部品組み立て、クリエーターが音楽や絵を完成させるといった一連の流れを観測し、そのデータから作業手順をテキスト化できる。また、そのプロセスのどこの作業をやっているのかがコンピューターも分かるようになるので、次はどのステップがふさわしいのか、仮に手順を間違えていれば助言できる。作業とそれに紐づく自然言語を結びつけることで、いろんなアプリケーションを考え出せたらなと思っています。

また話はガラッと変わりますが、これは翻訳業務にも応用できるのではと考えられています。最近は翻訳でもAIが使われていますよね。たとえば日本語と英語の翻訳を産業用に提供しているサービスもありますが、まだ訳を間違えてしまうケースがあります。

そのときに、もしも手がかりとして画像があったら、翻訳精度が上がるんじゃないかと。英単語の「seal」を日本語に翻訳するときに、文字だけだとペタペタと貼り付ける「シール」を思い浮かべる人が多いかと思いますがアザラシも同じスペルの「seal」です。なので、どちらの意味か判別するときに、画像がついていたらわりやすいですよね。

弓月:写真のキャプションや動画のテロップが自動でつけられたらYouTuberの人たちもすごく助かりますね。

牛久:時々、そういうことはできませんかという相談をいただきます(笑)。

330_1.jpg

オムロン サイニックエックス 牛久祥孝

画像や映像を見ながら人とAIが対話する世界

330_3.jpg

牛久:ここに犬が野菜を噛んでいる画像があります。弓月さん、この野菜は何かわかりますか?

弓月:ニンジンですか?

牛久:そうです。こういった画像を見せて、質問に対する回答をAIで行う研究もしています。「犬が噛んでいるものは何か?」という質問をされたときに、写真のどの部分を見れば答えを見つけられるか、AIが勝手に判断して、その結果「ニンジン」と答える。

弓月:「噛んでいる」というワードがあるから、犬の口元を見ればいいとAIが判断するわけですね?

牛久:そのとおりです。この研究をしていると、「同じ質問を人間にしたときに、その人は写真の中のどこを見るのか、視線の動きを学習して反映させているのでは?」とよく聞かれます。そのような手法もAIと言えばAIで、実際に行われている研究のひとつです。

ですが私の研究では、そういった視線データの学習は行っておらず、画像と質問文、その答えという3つのデータの組み合わせで学習しています。なので、先ほどまさにおっしゃったように、犬が何かを「噛んでいる」という単語から、犬の口元を見ればいいという判断を、テキストと写真だけで学習しているわけです。

こういった技術分野で画像がなく単純に自然言語のみで質問に答えるものを「Q&Aシステム」といい、AIの研究としてずっと取り組まれてきた歴史ある研究分野です。2011年にIBMの高性能コンピューター「Watson(ワトソン)」がアメリカのクイズ番組で人間のチャンピオンに勝ったという出来事がありました。これは、すでに大量のデータがあれば、それを機械に入れ込む、そして質問に対して大量のデータから検索して答えるシステムです。 でも、質問には自然言語のみだけでなく、画像と自然言語が組み合わさったのもあるので、そこから回答を生成することが必要になります。そういったところに私の研究している「ビジュアルQ&A」が使えると思っています。

将来的には、レントゲン写真を撮って、病名はなんだとか、ここの影に写っているものは何かを判断するというような医療診断への応用も期待できそうです。もっと進化させて、ペルソナ=人格を与えられたものを作れば、AIとテレビを見ながらお互いに感想を言い合う、「AIと対話する」ということも実現できるようになるのかなと。

牛久:また、AIと対話の事例として、他の人の研究テーマになりますが画像を使って対話をするというのもあります。例えば靴屋で店員さんに、どのような靴が欲しいか話しているとします。店員さんはいろいろとオススメの商品を見せてくれるので、お客さんはその見せてもらった靴の中から「最後に見た靴のデザインで、もうすこしヒールが低いもの」といえば、その要望に合った新しい商品を提案してくれる。このように、言葉だけでやりとりするのではなく、実際にそこで見た商品の視覚的情報も使いながら会話を進めていきます。AIも人間同士が当たり前にやっているリッチなやりとり、視覚的情報をもとに対話するということができれば、AIがコンシェルジュのようにいくつかの靴を提案してくれて、お客さんとの対話を通して、それぞれの好みに合った靴をオススメするということができるかと思います。

画像を使った対話、自然言語を使った対話、その両方を使って対話を自由に行き来できるようにすれば、もっとできることが増えていくよねという考えです。これがいま取り組んでいる「視覚と自然言語の融合」のポイントです。

弓月:毎日のファッションチェックを、AIに相談できるようなものもできたら面白いですね。

牛久:私の友人がまさにそういう研究をしています。とくにファッションは地域によってもトレンドが変わります。それを大量のデータから可視化して、トレンドに合っているかどうか判断してくれます。

中国で人が服をバーチャル上でフィッティングできるAIが開発されたというニュースがありましたよね。単純に商品をフィッティングできるだけでなく、直近のトレンドまでも理解できるような研究もやってみたいですね。

最終目標はドラえもん

弓月:牛久さんの取り組んでいる研究を突き進めていくと、どんな未来が待っていますか?

牛久:最終的にやりたいのは「ドラえもん」を開発したいんです。そう言っている人はたくさんいるので、あまり言いたくないのですが(笑)。AIと会話する、ラベルを付けるだけのような関係だけではなく、ドラえもんのいる世界のように、人と機械が一緒に見たり、聞いたり、食べたり、触ったりしたものを共有できるといいなと。

人間が見聞きしてわかっているものを、ロボットも何らかの手段でセンシングして判断する。例えば製品の状態が今はこうだから、この人は次にレンチを取り出して作業するはず。それならばレンチを取ってあげようとロボットが判断して、動いて欲しいわけです。人間がどうしても判断すべきことは人間がやって、他はロボット(=助手)が相手のことを配慮してやってくれる。オムロンでいう人と機械の協調ですね。

弓月:師匠と弟子のような関係ですね。

牛久:そういう信頼関係を築きたいですね。ただ師匠も人間なので、時々何か工程を間違えるかもしれない。そのときには「忘れていますよ」とコッソリ教えてくれるといいなと。これが、私の中でやりたいことですね。
機械にできることは機械に任せる、そして人は新しいアイディアを生み出すなどより創造性を発揮する分野で活躍する、それを社会に広げるための機械、ツールとしてのロボットや、ソフトウェアとしてのAIを使っていくのが、今後の社会に期待されているところだと思います。

[まとめ]
「自然言語と視覚の相互理解」によってロボットとの自然な会話を目指している牛久さんの研究。「ドラえもん」の例もありましたが、SFの世界のような話が、実はもうそこまで来ているようです。AIの進化が行き着く先はどうなるのか。興味は尽きませんね。

【プロフィール】
オムロン サイニックスエックス株式会社
プリンシパルインベスティゲーター
牛久祥孝(うしく・よしたか)
2014年、東京大学大学院情報理工学系研究科博士課程修了、NTTコミュニケーション科学基礎研究所入所。2016年に東京大学情報理工学系研究科講師を経て、2018年10月より、オムロン サイニックスエックス株式会社のプリンシパルインベスティゲーターに就任。2019年より、株式会社Ridge-i Chief Research Officer、現在に至る。主として画像キャプション生成など機械学習によるクロスメディア理解の研究に従事。

ITジャーナリスト
弓月ひろみ(ゆづき・ひろみ)
iPad仕事術など、Apple関係の記事執筆のほか、海外テック情報を動画でリポート。iPhoneケース専門家として「マツコの知らない世界」等に出演。YouTube「ガジェタッチ」配信中。

関連リンク