より効率的でインクルーシブな会話を音声 UI のためにデザインする | アドビ UX 道場 #UXDojo

出典：Justin Cheong

音声技術の採用は急速に広がっています。Strategy Analytics のレポートによると、スマートスピーカーは近い将来消費者向け電子機器のトップセラーになると予測されています。音声によるインタラクションは、ますます身近なものになりつつあります。

しかしその一方では、音声対応デバイスの高度化に伴いイライラさせられたり、次に何をすればよいのか途方に暮れる人々が増えています。さらには、そうしたデバイスの反応や動作にバイアスがあったり、時には有害でさえある可能性が指摘されています。では、状況を改善するにはどうすればよいでしょうか？重要なのは、会話型インターフェイスも他の製品やサービスと同様に、最初から倫理を念頭において、人間中心のアプローチでデザインすることです。

この記事は、会話によるインタラクションデザインの専門家 5 人に聞いた、より効果的で、より自然で、よりインクルーシブな音声 UI をつくり出すためのヒントを紹介します。

音声 UI が使われるコンテクストを理解する

会話 AI とチャットボットの代理店 GreenShoot Labs で Chief Design Officer として働く、音声 UX デザイナー兼ストラテジストの Maaike Coppens は、会話は世界から孤立して存在するものではなく、与えられたコンテクストの中で発生し、その場の暗黙のルールと関係性に従う情報の交換であることを強調します。会話が効果であるためには、そのコンテクストを理解しなければなりません。

コンテクストはさまざまな階層に存在します。例を挙げると、環境（騒がしい、慣れ親しんだ）、状況（楽しい、繊細、集団、単独）、ユーザーの事情（経験値、期待）、会話の背景（初めて使用、これまでのインタラクション）などが挙げられます。これらすべての領域について価値のある情報を発見するには、メンタルモデルと言語の使い方を特に重視したユーザーリサーチが不可欠です。

「そうしたリサーチを行うための優れた方法に、スピーチ・シャドウイングがあります」と Coppens は説明します。「デザインチームをデザインする対象である現実の環境や状況に晒します。例えば、ホームセンターの体験をデザインするなら、売り場へ実際に行って売り手や顧客と話し、彼らがどのように質問を構成し、商品を指定するのかに注意を払います。そうすれば、より深い理解が得られることでしょう」

性別や人種が異なる声を提供する

Google Assistant のデザインマネージャーで、『Designing Voice User Interfaces』の著者、そしてアドビの Design Circle のメンバーでもある Cathy Pearl は、システムへの入力と同様に、出力についても考慮することを推奨します。そして、音声を制作する際は、録音であれコンピュータで合成された音声であれ、さまざまな声を確保するよう勧めています。

「若い女性の声を使うという既定の概念は忘れましょう」と Pearl は提案します。「異なる性別や人種を選択肢としてユーザーに提供すべきです。また、ひとつの声をデフォルトに固定すべきではありません。ユーザーにさまざまな声を体験させて、それを変更できるようにするべきです。コンピュータが生成した多様な音声を提供する企業が増えていますが、こうした様々な音声の利用を当たり前にすることは重要です」

出典: Google

多様な認知スタイルを考慮する

音声認識に関して Pearl が強調するのは、システムとやりとりする人々の、さまざまに異なる認知スタイルを許容する必要性です。誰もが同じように話し、同じ順番で情報を提供し、同じ数の単語を使い、同じ量の雑談をするわけではありません。

Pearl は次のように警告します。「もし、会話エージェントがたった一つの方法で応えるようユーザに求めたら、すべての人を平等に支援することはできないでしょう。例えば、『昨夜の注文についての確認です。注文番号は 4630 です』と先にすべての情報を提供したい人もいれば、『注文の確認をさせてほしいのですが』とか、『こんにちは。今お時間よろしいでしょうか？』から会話を始める人だっているでしょう」

また、会話の修復の努力を惜しんではなりません。誰かがシステムが理解できないことを言った場合（ほとんどいつでも起きることだと Pearl は指摘します）、「すみません、理解できませんでした」のような一般的な反応に陥らないようにすべきです。Pearl は、その場のコンテキストに合わせてエラーメッセージを調整し、エラーの重要度を提供し、可能であれば人と話すよう提案することを勧めています。

多様な方言の忠実な表現を目指す

『Voice Content and Usability』の著者で、プロダクトアーキテクト兼ストラテジストの Preston So は、音声 UI にインクルーシブな会話を構築することの重要性について Pearl と同意見で、それは合成された話し方の方言や口調だけにとどまらないと指摘します。訓練を受けた言語学者である So は、多くの会話デザイナー達が、社会に内在する単一言語主義のためか、あるいは英語が主要言語であるという特権のためか、人々が自分を表現するために、時には発言の途中でさえも、しばしば異なる方言や言語を使い分けていることを理解していない、あるいは認識していないことに気づきました。

「会話をデザインする人は、特にコードスイッチングやダイグロシアといった社会言語学的な現象を意識して、対象ユーザーの話し方に同調する必要があります」と So は指摘します。

コードスイッチングとは、話者が対話する相手によって方言を切り替えることです。例えば、黒人のアメリカ人は、必要に応じてアフリカ系アメリカ人固有の英語と白人向けの方言を使い分けています。一方、ポルトガル語やギリシャ語などの言語では高度なダイグロシアが見られます。すなわち、話者は状況に応じて、文法や語彙が大きく異なるフォーマルな言語とインフォーマルな言語を使い分けています。

So が、文字によるチャットボットと音声によるボットの両方の会話型 UI に通用する解決案を実装しようとしている会話デザイナーに推奨するのは、ユーザーを正しく理解するよう努めることです。デザイナーは、ユーザーがインターフェイスに対して、どの程度きちんとしたあるいはくだけた口調を期待しているのかに、細心の注意を払う必要があります。

情報のための会話と取引のための会話を明確に区別する

また、So は、これらの配慮は、情報を伝えるための（チャットボットデザイナーの Amir Shevat がトピック主導型と呼ぶ）音声インタラクションにおいて特に重要であることを強調します。

「全く異なる生活を体験してきた人々の心に響くように会話をデザインし、信頼と権威を確立することは、情報やコンテンツを扱う音声インターフェイスにとって大きな挑戦です」と So は主張します。「決済や取引ではなく、情報を提供する会話をデザインすることが難しい理由は、時間をかけずに、会話として理解しやすい（あるいは聞き取りやすい）方法で情報を提供するために求められるニュアンスにあります」

ストレス状況を考慮し、危害を加える可能性を探る

『Conversations with Things』の共著者で、会話デザイナーの Rebecca Evanhoe は、インクルーシブデザインの実践の目的は、多くの人にとって良い製品をデザインすることにあると強調しますが（例：誰もが簡単に使えるか？顧客の問題を解決するか？）、その裏返しとして、製品や機能が問題を引き起こす可能性や人々に害を与える可能性を調べるために時間を割くことも重要だと述べています。

「製品を使う人が、ストレスやフラストレーションを感じていることはよくあります。それがユーザーの口調や言葉や伝え方に影響する可能性があります」と Evanhoe は説明します。「そのような変化を考慮しないと、製品を最も必要とする人々が、時として排除されることになるかもしれません」

人によっては、害を及ぼす意図を持って製品を使おうとすることさえあるでしょう。実際、多くのテクノロジーは、人々をこっそり追跡したり、だましたりするために使用できます。Evanhoe は、この種のケースを取り上げた Eva PenzeyMoog の著書『Design for Safety』を引用して、「テクノロジーが最も有害でない場合はユーザーに不満を抱かせ、最も有害な場合は実際に生死にかかわる問題になり得る」と警告します。

「他の重要な機能を扱うときと同じように時間をかけて、製品開発中に有害な使い方の可能性を探り、害を減らす解決策を決定してテストすれば、製品の改善に大きく前進できるでしょう」と Evanhoe は勧めています。

Rececca Evanhoe と Diana Deibel による『Conversations with Things』には、製品やサービスが引き起こす可能性のある害についての議論を始めるのに役立つ質問のリストが掲載されている

コンテンツのローカライズは慎重に

『Conversations with Things』のもう一人の共著者で、デジタル製品デザインのコンサルタント会社 Grand Studio のデザインディレクターを務める Diana Deibel は、仕事をしていると、翻訳を簡単に済ませようとする場面に定期的に遭遇すると話します。

「単純に会話を自動翻訳ツールにかけて、新しいバージョンの会話を吐き出させようと考える企業は実際に存在します」と彼女は言います。「残念ながら、言語、特に会話はそれほど単純なものではありません。会話には多くのもの、すなわち地域の方言、文化的な習慣、ユーモアなどが含まれています。それらを理解している現地の人がいない状態で行われた翻訳には、信頼できる正確な会話に不可欠なニュアンスが失われているでしょう。そして、その結果として、話されていることを解釈するために、聞き手により重い認知的な負荷がかかります。このことを理解するのはとても重要です」

非常に単純化された例として、動物園に行ったことがあるかを質問する際に、「行った？これまでに？動物園に？」のように言葉を並べた場合を考えてみることを Deibel は勧めます。相手が何を言おうとしているのかはわかるとしても、それを理解するためには一瞬考えなければなりません。

「これが何回も繰り返されると、会話を続けることが面倒になって、脳が集中できなくなってしまいます」と Deibel は警告します。「会話によって体験が左右される場合は特に深刻です。この件に対処するには、翻訳作業およびユーザビリティテストの両方に『ネイティブスピーカーである人』を採用し、役に立ち信頼できる使いやすい会話を作成することが求められます」

誰でも使え意味のある音声コンテンツの提供

音声体験を支えるテクノロジーは、急速に進化しています。次に行うべきことは、音声体験が自然で信頼できるものであることを妨げる、固有の、そしてしばしば意識されていないバイアスを回避するために、ユーザーと真剣に向き合うことです。

デザイナーが必ずしもすべてをコントロールできるわけではありませんが、広範なユーザー調査とユーザーテストを実施して共感以上のものを得られれば、ステークホルダーにより正確に現実世界を表現する利点を説得するためのツールを手に入れているはずです。その結果、より多くの人々が、使用しているテクノロジーに自身が反映されているのを耳にして、そのブランド、サービス、企業とより強い結びつきを感じられるようになるでしょう。

この記事は Design more effective and inclusive conversations for Voice UIs（著者: Oliver Lindberg）の抄訳です

https://blog.adobe.com/jp/publish/2022/06/13/cc-web-baronfig-new-website-a-thinkers-journey

https://blog.adobe.com/jp/publish/2022/05/30/cc-web-krystal-higgins-better-user-onboarding

https://blog.adobe.com/jp/publish/2022/05/16/cc-web-mindful-design-for-digital-well-being