INFONEEDS

「声を自由に変えられる技術」でコミュニケーションはどう変わる?

「声を自由に変えられる技術」でコミュニケーションはどう変わる?

 

■□記事抜粋:ITmedia□■

最近、VR(仮想現実)空間で男性が美少女キャラクターの姿になれるサービスやツールが話題になっている。もちろん女性がイケメンの姿になることもできる。生身の体に付けた専用パーツをカメラやセンサーでトラッキングすることで、自らの動きとVR上の3Dモデルの動きを同期できるのだ。

自身の姿が変わると自然としぐさも変わってくるらしく、VRに夢中な編集部の男性記者も女性アバターになるとつい女性らしいかわいらしい動き(「kawaiiムーブ」と呼ばれる)をしてしまうという。

最新の技術で変えられるのは見た目だけではない。「声」も、リアルタイムで別人のものに変換することが可能になりつつある。

例えば、クリムゾンテクノロジーが作るiOS向けアプリ「リアチェンvoice~ジュラ紀版」では、自らの声をリアルタイムにキャラクターの声に変換できる。オプション購入で、声優の佐藤聡美さんや小岩井ことりさんの声モデルも使用できる。

東芝デジタルソリューションズは、リアルタイム性はないものの、声を収録して自分の声モデルを作り、自身の声モデルや使用したい他人の声モデルから音声を合成するといった構想を持つプラットフォーム「コエステーション」をスマートフォンアプリとして提供している(現時点ではiOS版のみ)。

従来も「ボイスチェンジャー」で声の高低や性別程度であればリアルタイムで変えられたが、リアチェンvoiceでは特定の他人の声質になれる。こうした「音声変換技術」は、人のコミュニケーションにどのような影響を及ぼすのだろうか。

クリムゾンテクノロジーに音声変換技術について協力し、この「音声言語インタフェース最前線」特集で音声合成技術「WaveNet」について語ってもらった名古屋大学の戸田智基教授に、音声変換技術の現在やこれからについて伺った。

 

リアルタイムの音声変換は「体の拡張」

戸田教授は、研究目的の1つに「できないことをできるようにしたい」という理念を持つ。

「人には『体』という制約がある。手術で声帯を摘出すれば、声は出なくなってしまう。音声変換技術で、そんな人でもまた話せるようになるのではないか」──音声変換研究の最終目的は「体の制約を超えて発声する機能を獲得すること」だと戸田教授は話す。

一部の発声器官を失ったとしても、音声変換アルゴリズムによって正常な発声器官をシミュレートすることで正常な声を取り戻せる(完全に器官を失った場合は極めて困難)。そんな物理的制約を取り払う身体拡張機能を作れないかと研究している過程でできた成果が、リアチェンvoiceのような「他人の声へのリアルタイム変換」だったという。

「リアチェンvoiceのこだわりは、まさにリアルタイム性にある」と戸田教授。

「これまでの音声認識やテキスト音声合成は、ある一連の音声や、1つの文を入力として渡し、端末やクラウドで処理をして認識・合成結果を戻すという形式だったため、入力し始めてから変換結果を得るまでにタイムラグがあった」(同)

「これまでの音声変換もそうで、例えば『おはよう』という声を変換するなら、まず一連の音声を録音し、録音データを処理に渡して変換するという方式だった」と戸田教授は振り返る。

「リアチェンvoiceでは、録ったその場でどんどん変換していくアルゴリズムを用いているため、face to faceのコミュニケーションに重要なリアルタイム性を確保できている」と優位性を語る。

リアルタイム性確保のため、変換処理はスマートフォンのみで行えるほど軽い処理で行っているともいう。処理が軽いのは使用アルゴリズムが単純だからで、そのため変換精度に限界もあるが、「WaveNet」のようなディープラーニングの技術を発展させて今後取り入れていくことでもっと精度が良くなっていく見込みだ。

 

音声変換技術で「テレパシー」も実現?

リアルタイム音声変換の応用の1つとして戸田教授が取り組んでいるのが、「テレコミュニケーション」だ。方法としては、聴診器型マイクで小さな声を拾い、聞き取れる明瞭な声に変換して相手のイヤフォンなどに届けるというもの。

「キャッチーなのでテレパシーと言っているが、実際には小さな声を出さないといけない。人によっては気持ち悪いと思うかも」と、コンシューマー向けに受け入れられるかどうかはまだ分からないとしている。

「むしろ、特殊な環境の方が導入としては向いているかもしれない。例えば、大きな声を出したら困るような職場や、ものすごくうるさい環境で話さないといけない場合など。聴診器型マイクでの録音は外部の音を抑えられるので有効なはず」(戸田教授)

骨伝導を利用したイヤフォンなどを同時に利用すれば、耳にも口にもデバイスを付けていないのに、(ひそひそ声で)遠くの相手とコミュニケーションできる──そんなテレパシーのアイデアだが、実用化までには壁もあるという。

「小さな声から明瞭な声への変換処理の精度向上には、どうしてもたくさんのデータが必要。そのためには収録用のマイクセンサーがたくさん必要で、企業に作ってもらわなければいけないが、企業が作るには売れるものでないといけない。売れるものであるためにはサービスが必要で……」と、サービス開発とマイクセンサーの製造に“鶏が先か、卵が先か”のようなジレンマがあると戸田教授は悩む。

データが取れればサービスが作れ、サービスを利用してもらうことで更にデータを蓄積し改善していける。そんなサイクルについては、米Googleの「Voice Search」(音声検索機能)に学ぶべきところがあるという。

「Voice Searchがスマートフォンアプリとしてローンチしたのは、まだディープラーニングが組み込まれる前(英語版リリースは08年、日本語対応は09年)だったが、それでも十分使えると話題になった。人々に使われつつ、大量のリアルなデータを集めて精度改善につなげる枠組みを作ったことが重要であり、ディープニューラルネットワークによる学習・認識の性能を引き出す上でも大きな礎になったという背景があるだろう」(戸田教授)

Googleのような大企業ではない立場で、いかに大量のリアルなデータを集められるかが実用化に向けた課題だ。

 

周知しなければいけない「悪用の可能性」

「音声変換の技術向上も大事だが、技術を社会に周知することも大事」と戸田教授はいう。

他人の声に成り済ませるということは、「オレオレ詐欺」のように電話口で人をだますこともできる。「そうした悪用が行われることは避けては通れないだろう」(戸田教授)とした上で、「例えば、画像だったら自由に編集できることは多くの人がもう知っているから、疑ってかかることもできる。音声についても、詐欺などの可能性を疑えるようしっかり周知していかなければいけない」(同)と危機感を抱く。

「技術を広めていく立場である以上、悪用の可能性があることを隠すのではなく、知ってもらう方が良い。そんな中でも使い方を間違わなければ、ものすごく役に立つということも理解してほしい」──良い面と悪い面の両方を知ってもらうことが、音声変換技術を研究し広めていく上で大事なことだと戸田教授は締めくくった。

 

 

▶▶▶全文は下記リンクより

情報源: ITmedia

Sponsor

URL :
TRACKBACK URL :

Leave a reply

*
DigiPress

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

相互RSS

フォローする

アーカイブ

Return Top
%d人のブロガーが「いいね」をつけました。