tr?id=1970953653177752&ev=PageView&noscript=1

ディープラーニングによる自然言語処理が、機械をツールからパートナーへと変える

ディープラーニングによる自然言語処理が、機械をツールからパートナーへと変える

1,920view

2019/04/26

言葉は、人と人をつなぐ絆そのものだと言える。言葉を通じたコミュニケーションのない生活、仕事、社会活動など、想像することすらできない。書籍からの知識や気づき、友人からのメッセージからの癒やし、取引先からの指示や注文、これらはみな言葉を通じて得られるものだ。私たちは、言葉を操ることができるからこそ、自分一人では解決できない問題に立ち向かうことができるし、知恵やスキルを積み上げて成長することもできる。

ところが近年、テクノロジーの発達によって、言葉を巧みに操る機械が数多く登場するようになった。その代表例が、AIスピーカーと呼ばれるパーソナル・アシスタントである。「今日の天気は」とか「部屋の灯りを消して」といった、知りたいことやして欲しいことを直接話しかければ、即座に対応してくれる便利なデバイスだ。また、チャット上で、あたかも人と言葉を交わしているかのように錯覚させるチャットボットも出てきている。今や、言葉を通じて絆を結ぶ相手は、人だけではなく、機械にも広がってきたのかもしれない。

20190426_01.png
(左)AIスピーカー、(右)チャットボット
出典:AdobeStock

ディープラーニングが機械に言葉を操る力を与えた

機械が言葉を操ることができるようになったのは、話し言葉をテキストに変換する音声認識技術、さらには文の構成や内容を分析する自然言語処理技術が進歩したからだ。ここ数年の音声認識や自然言語処理の進歩は目覚ましく、それを活用したプロダクトが次々と市場投入されてきた。

全米民生技術協会(CTA:Consumer Technology Association)によると、音声認識技術を使った単語の認識率は、1995年当時にはほぼ0%に近い状態だったという。ところが、2013年には77%にまで急上昇し、今や人間とほぼ変わらないレベルに達した。そして、2014年に米Amazon.com社が、日常的な会話を認知できるパーソナル・アシスタント「Alexa」搭載のAIスピーカー「Amazon Echo」を発売し、音声認識技術の急激な進歩を知らしめた。こうした音声認識技術の急激な発展には、人工知能(AI)、特にディープラーニング(深層学習)の進化が大きく貢献している。日本語の認識に関しても、英語ほど足早に進化しているわけではないが、認識率が高まっているのは確かだろう。

一方、自然言語処理応用の代表格である機械翻訳の精度の向上も著しい。米Google社がインターネット上で無料開放している翻訳サービスは、2016年秋ごろを境に急激に精度が向上した。プロ翻訳者による翻訳品質を100点として機械翻訳の品質を評価すると、それまで50点とされていたものが、90点レベルへと急上昇したのだという。従来の機械翻訳では、訳の規則を厳密に定めた“ルールベース翻訳”や、大量の対訳例を参照して最適な訳を探る“統計翻訳”と呼ばれる手法が使われていた。これに対し、Google社の翻訳サービスでは、ディープラーニングを活用して、自然な文の流れとして解析・翻訳するシステムに切り替えたことで、精度の劇的向上を実現したのである。単語の意味だけでなく、文法、単語の位置なども考慮した訳が得られるようになった。いまでは、機械翻訳をベースに、プロの翻訳者が手直しすることで作業を効率化した翻訳サービスさえ登場している。

ディープラーニングは認識率や翻訳精度を飛躍的に高める潜在能力を秘めている。ただし、その学習には、大量のデータが欠かせない。インターネット上で交わされる、膨大なテキストや音声のデータを活用できる環境が整ったからこそ、機械が言葉を巧みに操ることが可能になったのだ。

言葉を操る機械は人との距離をグンと縮める

機械が言葉を巧みに操るようになることで、私たちの生活や仕事はどのように変わっていくのだろうか。一言で表現すれば、「人と機械の距離がグンと近くなる」と言えるのではないか。

20190426_02.png
出典:AdobeStock

音声認識技術の進歩によって、機械を操作するためのユーザーインタフェースは大幅に簡略化されてきた。多機能である反面、操作用のボタンやダイヤルが多すぎて使いにくい機械は数多くある。機械マニアにとっては心躍る見映えかもしれないが、ユーザーの広がりを阻害する要因であることは確かだろう。日常的なコミュニケーション同様、音声で操作することができれば、誰もが機能を使いこなせるようになる。実際、Amazon EchoなどのAIスピーカーでは、話しかけるだけで、知りたい情報を探し出して教えてくれ、ネットにつながる家電製品などを操作してくれる。

AIスピーカーでできることは、パソコンのキーボードやマウス、スマートフォンのタッチ操作を通じても可能かもしれない。しかし、自然なコミュニケーション手段である会話を通じて機械を扱えるようになることで、高齢者のような操作に不慣れな人も使え、炊事をしている時のような手が離せないシーンでも活用できるようになる。つまり、機械が、より多くの人にとって、より身近な存在になるということだ。実際、AIスピーカーに語り掛けるのが楽しくて仕方がないという高齢者も多くいると聞く。

クラウド上のAIが機械をツールからパートナーへと変える

AIスピーカーなどインターネットにつながるデバイスは、ユーザーの操作によって動くだけの機械ではない。システムの頭脳となるAIなどがクラウド上にあり、AIが会話の内容を逐一分析している。音声認識機能を備えた機械は、人と仮想空間とをつなぐ入り口なのだ。ここが、これからの機械の位置付けと、そこでの言葉の役割を考えるうえで、とても重要な点である。目の前の機械自体に何の変化もなくても、クラウド上のAIが新たな機能を獲得したり、能力が向上したりすることで、私たちに新たな影響をもたらす可能性がでてきているのである。

米Apple社の「iPhone」に搭載されているパーソナル・アシスタント「Siri」を日々使っている人の中には、「いつもと同じ言葉を話しかけているのに、返ってくる答えの内容が変わった」という経験をしたことがある人もいることだろう。付き合いが長くなるにつれ、Siriがそれぞれのユーザーに寄り添い始めるのだ。気心の知れた仲間とは、多くを語らなくても相手の気持ちを推測して行動できる。同様に、使い続けていくことで、機械が単なるツールからパートナーへと変わっていく。ただし、これは音声をテキストに変換する音声認識技術の効果ではなく、この後に紹介する自然言語処理技術の効果である。

膨大な文書から価値ある情報を抽出、データから分かりやすい文書を作成

自然言語処理技術の進歩は、既にビジネスに大きなインパクトを生み出しつつある。例えば、応用例として、膨大な文書を解析して価値ある知見を抽出する“テキストマイニング”と呼ばれるものがある。例えば、日々蓄積していく営業日報の束の中から「成約率が最も高かった地域はどこか」「製品への最も多かった不満点は何か」といった情報を抜き出す、といった利用シーンが考えられる。

どんな企業でも、パソコンや文書棚の中に大量の文書を保有しているものである。しかし、膨大な文書をただ保有しているだけで、そこに書かれた内容を有効活用できる状態にはなっていないところがほとんどではないか。近未来はデータから得た知見によって社会や産業にイノベーションを生み出す “データ駆動型社会”になると言われている。ただし、単純にデータを大量保有しているだけでは宝の持ち腐れどころか、単なる保管コスト増大要因にしかならない。

20190426_03.png
出典:AdobeStock

文書を有効活用するには、求める情報を記した文書に簡単にアクセスできる仕組みはもちろんのこと、保有している文書全体を横断的に俯瞰して全体の傾向を見つけ出す仕組みがあればこそ効果を期待できる。先に紹介したように、AIスピーカーが使っているうちにユーザーに寄り添うようになってくるのは、自然言語処理技術を活用したテキストマイニングと同様の処理が行われているからだ。

既存の文書を解析するのとは逆に、自然言語処理技術を活用して、データから新たに文書を作り出す取り組みも進んでいる。米Narrative Science社は、データを基にその説明文書を自動作成するソフトウェアを開発している。同社の代表製品である「Quill」は、財務データから株主向けレポートなどを起こすことができる。この技術が評価され、2014年には、USAA(米軍関係者とその家族向けの保険会社)から1,000万米ドル(約11億円)の出資を受けた。同社は、そのほかにも野球の試合経過や結果、スコアブックのデータから、スポーツ記事を作る技術も構築している。

ビジネス・インテリジェンス(BI)と呼ばれる、データを可視化し、分析しやすいグラフなどに加工するシステムが多く使われるようになった。もちろんBIシステムで得られるグラフなどを見て、ビジネスの状況を深く理解できる人もいるだろう。しかし、人間は言葉を通じて今の状態や起きている現象を理解するのに慣れているため、平易な言葉で表現した方が、より多くの人にデータの意味を伝えやすい。

ディープラーニングは万能ではない、複合的アプローチが必須

自然言語処理技術はディープラーニングを応用することで飛躍的に性能向上が実現した。ただし、大量の文書を迅速に処理することでは人間を上回る能力を持っているものの、精度に関してはスキルの高い専門家を超えられない状況だ。この点は、機械翻訳、テキストマイニング、文書作成など、自然言語処理技術のすべての応用について言える。

これには、ディープラーニングが持つ本質的欠点が関連していると見る研究者は多い。文書化されたテキストには、話し言葉のような曖昧さが許されない。読み手が、時間を掛けて熟読する可能性があるからだ。話し言葉では文法上の間違いは当たり前のことであり、言葉足らずだったり、表現が曖昧だったりしてもある程度の意味が伝わる。聞き手が一定の曖昧さを許容するのが前提でコミュニケーションが成り立っているようなところがある。

ディープラーニングは、高確率で正解だと思われる答えを出すことはできるが、論理的に裏付けされた答えを導き出せない。人間の脳で言うならば、直感的な機能を担う右脳の機能に近い特性を持っているのがディープラーニングだと言える。よって、論理的処理を担う左脳のような正確な処理が求められるテキストを扱おうとすると、どうしても超えられない壁がある。

こうしたディープラーニングの限界を補うため、既存の情報処理技術や人間による処理を組み合わせて、効率的かつ効果的な自然言語処理を行おうとする動きも出てきている。たとえば、先に紹介したNarrative Science社は、ディープラーニングと専門家が書いた文書の枠組みを活用した自然言語処理を組み合わせて、データを基に精度の高い文書を作成するシステムを構築している。

20190426_04.png
出典:AdobeStock

ビジネスや文化、地政学的構図に巨大なインパクトをもたらす可能性も

これから、音声認識技術や自然言語処理技術はさらに進歩していくことだろう。これら言葉を扱う技術から、どのような新しい応用が生み出されていくのだろうか。想定される応用を二つ紹介したい。

一つは、音声認識と自然言語処理の両方を組み合わせることで実現する自動同時通訳だ。文書を対象にした自動翻訳と違って、自動同時通訳は話し言葉を扱う。このため、文書を対象にした厳密な自然言語処理は不要だ。そもそも、プロの同時通訳者であっても、通訳の精度に関しては決して完璧ではない。曖昧な話し言葉の中から迅速にベターな訳を見つけ出す力が求められ、これはディープラーニングの応用に適している。既にその先駆けとなる製品も登場しており、インターネット広告などで目にしたことがある人も多いだろう。その精度がプロの同時通訳者を超える日は近いのではないか。

20190426_05.png
(左)自動同時通訳、(右)場の空気を読んで対処するAIスピーカー
出典:AdobeStock

英語が事実上の標準語となっているビジネスの世界では、非英語圏の人は英語の学習に膨大な時間と費用を投じなければならない。また、言葉の壁による意思疎通の不足が、トラブルの原因となることもある。自動同時通訳の実現により、こうした問題が解消され、ビジネスや文化、地政学的構図に大きなインパクトをもたらす可能性がある。

もう一つは、場の空気、時代や社会の気分を機械が鋭敏に感じ取り、それに合わせるようになる可能性があることだ。AIスピーカーに向けて語りかける時、その声を拾うマイクには周囲の様々な環境音も同時に入ってくる。そして、現在のAIスピーカーには、ユーザーの声と環境音を自動的に分離する機能が備わっている。

たとえば、Amazon Echoには合計7個のマイクが搭載されており、それぞれに入力された音声のわずかな違いからユーザーがいる方向を特定できる。この機能は、現時点では周囲の環境音を取り除いてユーザーの言葉を確実に拾うために活用されているのだが、技術的には、会議の席で参加者全員の発言内容を個別に記録することを可能にするポテンシャルを持つ。さらに、同様の技術を応用して、環境音から場の空気を分析する技術を開発する企業も出てきている。ユーザー自身では気づかない環境の変化に目配りし、そっと対処してくれるパートナーがいつも側にいたら、どんなに心強いことか。これは、クルマの衝突防止ブレーキと同様の機能が、日々の生活の中で利用できるようになるということだ。

あらゆるモノがインターネットにつながるIoT時代、あらゆる機器にAIスピーカーと同等の機能が組み込まれていくことだろう。そして、様々な場所で人間の生活と社会の情勢に聞き耳を立てることになる。それによって未来の機械は、私たちが何を求めているかを推測して動いてくれるようになるかもしれない。

この記事が気に入ったら
いいね!しよう

INNOVATION HUBの最新情報をお届けします