すでに私たちのそばにあるAI[前編]

「AI」という言葉を日常的にもよく目にするようになった昨今。言葉だけがひとり歩きして、実際に「AI」とはいったい何なのか、しっかりと理解できてない人も多いはず。そこでAI技術のキーパーソンに「AIとは何か」インタビューを通して解説していきます。

1回目はオムロンサイニックエックス*¹の牛久祥孝さんを迎えITジャーナリストの弓月ひろみさんがインタビュー。コンピュータビジョンや自然言語処理を対象として、画像キャプション生成の第一人者として研究に取り組んでいる牛久さんに、過去から現在にいたる「AI」についてお話を伺いました。

*¹ オムロンの考える"近未来デザイン"を創出する戦略拠点。
https://www.omron.com/sinicx/

 

当たり前になってAIと呼ばなくなっている

弓月ひろみ(以下、弓月):現在「AI」が自分たちの使っている身近な製品のなかで、どんなものに活用されているのでしょうか?

牛久祥孝(以下、牛久):実はこれ、簡単なようで難しい質問なんです。今まで機械でできなかったことが機械でできるようになった瞬間、それはAIとなります。例えばスマートフォンで、人の顔にピントが合ってきれいに写真が撮れる、インターネットの検索エンジンで文字を入力すると変換候補に単語や文章が表示される、動画配信サービスで「次にこういう作品みたいですか?」と訊いてくれる、これらはすべて「機械学習」という今のAIを支える基盤技術をフルに駆使してやっています。

でも、カメラの顔認識って今は普通に搭載されている機能ですよね。だんだん機械でできることが当たり前になってくると、将来的には「AI」と呼ばれなくなっていく。インターネット検索で、一番上に自分が本当に知りたいことが表示されるのは機械学習のおかげですが、それはAIとは言わず「検索エンジン」と呼ばれています。スマートスピーカーの音声認識をする部分も今の「第3次AIブーム」で出てきた機械学習の成果なのですが、最近では単に「音声認識エンジン」と呼ばれてきています。

これまで機械でできなかったことができるようになることで「AI」と呼ばれ、それが当たり前となって「AI」と呼ばれなくなっていく。この現象を「AI効果」と言います。

「第3次AIブーム」の前、1980年代にあった「第2次AIブーム」のときにも、AIを搭載した炊飯器などの家電が数多く登場していました。それらの機能はいつのまにか当たり前になり、今ではちょっと賢い制御をしてくれるものっていう位置づけです。第3次AIブームの機械学習の成果を搭載したものは、カメラだったり、スマートスピーカーだったり、身近にたくさんありますが、それも同じ状況なんです。

人間が感じるもの、AIはそれ以上のことを知覚する

弓月:一般的には、なんとなくアップルのシリ(Siri)やアマゾンのアレクサ(Alexa)、グーグルのGoogleアシスタントのように、人が話しかけたら答えてくれるものがAIみたいなイメージがあると思うんですけど、それだけではないんですね。

牛久:そうですね。音を理解するという意味では、そういったサービスも間違いなくAIです。ただ音だけではなく、人間が見て聞いて、さらに触っているものを感じ取れる、こういったことが、AI技術として急激に進化が起こっているところですね。

例えば、ネットショッピングで「他の人はこんな商品も買っています」と表示されるデータは、人がそのサービスを利用することで自動的に増え、かつ意味や解釈(他にこんなクエリで検索した/こんな商品を買ったという情報)もそのまま自動で与えられており、大量にデータとして生成されます。それを背景としたAIエンジンの開発は、インターネットの普及とともに行われていました。

現在行われているのは、FacebookやGoogleフォトのように、大量に撮った写真がアップロードされている状態から、AIのエンジンを作る作業です。ユーザーは投稿した写真に「何が写っている」というデータを与えないので、言語化や記号化はされていないわけです。

そのため言語化、記号化されていないものを機械自身が意味を理解し、解釈を与えなければいけません。こうしたデータの理解を機械自らできるようになってきたのが、この10年ぐらいの大きな技術的進歩です。

自動運転の場合、クルマに搭載したカメラやLiDARといった複合的なセンシングから、三次元的にクルマと周りの関係はどうなっているかを検出します。つまり人間の目の代わり、それに近いものを実現しようとする技術は、今も進んでいます。他の例でいうと、オムロン サイニックエックスでは、ロボットハンドに人間の触感を再現できるようセンサーなどを付けて、実際に握ったときの手の触覚をAIが理解して、ハンドリングして部品の組み立て作業をするといった、人間の知覚を賢く理解するという分野も研究しています。

弓月:人間の知覚を賢く理解するというのは、人間ができることとほぼ同じことを機械ができるようにするということですか?

牛久:そうですね。一方で人間はできないけど、機械ならできることもあります。例えば人間の目は暗いところや雨がひどく降っているような状況ではよく見えませんが、センサーなどの機械だと赤外線を感知できるので、周囲のクルマや人を見つけられます。そういう人間のできないことが機械にできるようになると、なお良いかなと思います。

324_2.jpg

オムロン サイニックスエックス 牛久 祥孝

今は第3次AIブームの時代

弓月:先ほどまでの話の中で「機械学習」という言葉が出てきていますが、機械学習とはAIを育てるためのものなのか、それともAIのひとつの分野なのでしょうか?

牛久:これはAIを知る上で、非常にいい質問です。実は「AI」という言葉と「機械学習」という専門分野が一緒になったのは、この10年ぐらいなんです。まさに今起きている「第3次AIブーム」までは機械学習とAIは別のものでした。

1950年代から60年代に起こった第1次AIブームのときに研究されていたのは、迷路などの探索問題。2015年には囲碁でプロ棋士に人工知能が勝ったのですが、あれは探索に加え機械学習も使っています。これは、第1次AIブームに端を発する「探索をするアルゴリズム」にブレークスルーが起きて開発が進められた結果といえます。

第1次AIブームでは、そういった探索などだけを突き詰めた「賢いアルゴリズム」によって迷路の探索や、数学の証明問題も機械が答えられるようになりました。そのときに「探索をするアルゴリズム」つまり理論的な思考をAIに任せれば、もう人間の知能がわかることは全部わかる、そう思われていました。

ただそれだけでは全然うまくいかないということが、研究や開発を進めていくとわかってきました。そこで第2次AIブームでは、人間のプロ(専門家)を連れてきて、そのプロがやることを再現したソフトウェアを作って、機械に実装すると、それがAIになるんじゃないかという考え方をしました。

例えばお医者さんが人間の口の中から粘膜を採取して、そこにいる菌を同定するといった作業があるとします。まずこの作業手順をお医者さんにインタビューをします。最初にどういう試験をして、ある反応が出た場合は複数の菌に候補が絞られ、次のテストでさらに絞り込んでいく。最終的に緑膿菌だと判定する手順です。

このお医者さんの作業手順を、「If」や「Then」といった「もしこうだったら次のようにする」というプログラミング言語を使ってプログラミングをしていきます。このようにして作り上げたものはエキスパートシステム(特定の問題に対して専門家のように受け答えをする)という名前がついています。

お医者さん以外にも、炭鉱を発見するエキスパートや農作物を効率良く収穫するエキスパートなど、それぞれのエキスパートを呼んできて「If-thenルール」を構築する。これが第2次AIブームで取り組まれていたことのひとつです。

また、そういう人間の知識みたいなものを全部データベースとして蓄えて活用するというのも第2次AIブームのポイントです。ここまで機械学習というのは一切できていません。

第3次AIブームでディープラーニング(深層学習)が登場してきたことで、「AI」と「機械学習」という専門分野がひとつになったのです。

人がやっていた学習設計もAIに任せちゃえ

弓月:さきほどでてきた「ディープラーニング」(深層学習)とは?

牛久:今までの機械学習では、特徴量とよばれる、学習させる情報みたいなものを人間が設計していました。例えば機械学習で、写真を見てどういう品種の猫が写っているか識別させたいときには、人間がまず猫の写真をたくさん見て、どういう特徴量設計をしたらいいかを考えます。全体的な形、色味、毛並み、エッジ成分(色が変化する境目)だとか。それをいかに上手に抽出できるかを技術者たちが考えます。そして色味やエッジ成分はこれくらいと全部数字に起こします。
その数字を元に何かしらの猫の写真を見た場合、これはペルシャ猫だとか品種を判別するような学習をさせる。機械が自動的にどういうパターンが来たら、どの品種だというのを事前に学習させる必要があったのが、今までの機械学習です。

機械学習では特徴量設計がとても大事になります。特に画像認識の分野では、それぞれの画像データを数値化させることから行う必要があり、手間がかかります。猫の品種の次にりんごの品種を判別したいといった場合、新たな特徴量設計をしないといけないのが非常に大変。そこでディープラーニングでは、その特徴量設計からすべてを機械学習で自動化させています。

画像を集めたら、あとは特徴量設計的なところもAIに任せて、画像からこういう猫の種類が判別できればOKという一連の流れをすべて自動で行えるように学習させることができるのがディープラーニングの特徴です。

弓月:語学を習得するときに、先生がテキストを用意して教えるのが機械学習で、いきなり海外に留学させて現地で覚えるのがディープラーニングというイメージですか?

牛久:その例えはわかりやすいですね。私も使わせてもらいます(笑)。

324_3.jpg

ITジャーナリスト 弓月 ひろみ

[まとめ]
牛久さんから、半世紀にわたるAIの研究について解説していただきました。次回は実際に牛久さんが取り組んでいる「ディープラーニングによる視覚×自然言語の融合」などをメインに、最先端のAIについてお話いただきます。

【プロフィール】
オムロン サイニックスエックス株式会社
プリンシパルインベスティゲーター
牛久祥孝(うしく・よしたか)
2014年、東京大学大学院情報理工学系研究科博士課程修了、NTTコミュニケーション科学基礎研究所入所。2016年に東京大学情報理工学系研究科講師を経て、2018年10月より、オムロン サイニックスエックス株式会社のプリンシパルインベスティゲーターに就任。2019年より、株式会社Ridge-i Chief Research Officer、現在に至る。主として画像キャプション生成など機械学習によるクロスメディア理解の研究に従事。

ITジャーナリスト
弓月ひろみ(ゆづき・ひろみ)
iPad仕事術など、Apple関係の記事執筆のほか、海外テック情報を動画でリポート。iPhoneケース専門家として「マツコの知らない世界」等に出演。YouTube「ガジェタッチ」配信中。

関連リンク