ゲームシステムにおけるコンシューマサラウンド基準とは

teslawireのサラウンド活用のために何らかの基準を用意しておく必要があると考えている。これはなかなか難しい作業で、率直に言ってゲーム業界では無視されていると言っても良い。ゲームエンジンが良いゲームの作り方をあまり示唆しないのと同様に、ゲームプラットフォームやWWise、FMOD、ADXのようなオーディオミドルウェアは良いサラウンドサウンドデザインとそのデリバリについて良いソリューションを示していない。

コンシューマサラウンドとは

平たく言えば、"映画を家で見る環境において実現されているサウンド環境"と要約できる。据置モバイル問わず、演出を要求するようなゲームは映画の視聴環境にadoptすることが求められる。ゲーム専用の環境はSonyYamahaのAVアンプ等では用意されているが、まだまだ市場規模という面では厳しいものが有る。
劇場映画の殆どは(アニメ映画を除くと)サラウンド制作であり、コンシューマメディアでもかなりの割合でサラウンドオーサリングされている(FIXME: 割合?)。このため、映画のサウンド環境は事実上サラウンド環境となっている。そして、コンシューマ環境であっても、映画を視聴する環境を整えていればサラウンドに対して一定の考察が必要になる。これをコンシューマサラウンド(造語)と呼ぶ。
コンシューマサラウンドの重要な特徴は多様性にある。

  • ディスクリート5.1/7.1/moreチャンネルスピーカー
    • heightまたはプレゼンススピーカーチャネルを含むもの
  • 2chにおける仮想サラウンドエフェクト
    • ヘッドホンベースのもの
    • スピーカ用のもの
  • 単純なdownmix
    • スピーカ
    • ヘッドホン

たぶん、実際の商用ゲームではここまでの考察を提供することは難しいので、現状は7.1環境向けにゲームを作り、ユーザのデバイスがそれを良く再生することを祈るのが現実的な選択と言える。ただ、現状のエンドユーザがどのような環境でゲームオーディオと付きあっているかを考察することは今後のためにも必要なことだと考えている。

目的

コンシューマサラウンドオーサリング基準の目的は:

  1. どのような環境でも破綻のないオーディオ表現を実現する
  2. 統合/統一されたUIを提供する
  3. コンシューマに基準と調整のチャンスを与える
  4. (将来の)自動構成に対する考察を用意する

点にある。
現状はコンシューマハードウェア/PC/モバイルの何れを取ってもサラウンド再生には罠が多く、安心してサラウンドサウンドをゲーム側から提供できる状況にはなっていない。ゲーム制作側としても全てのサラウンド環境を取り揃えてオーサリングするのは不可能であるため、ゲームにどのようなオプションを用意するべきかは迷いが生じている現状がある。
コンシューマサラウンドオーサリング基準は多様化しているオーディオ再生環境に対応できるrobustnessのための基準となることを目指す。
(よい演出手法のための基準ではない)

アーキテクチャの想定

teslawireはオブジェクトベースオーディオと4ch mixの2通りのオーディオmix戦略を持つ。オブジェクトベースオーディオは特定デバイス向けに事前に調整したものなのでここでは扱わない。4ch mixはオブジェクトベースオーディオから生成される。
例えば、通常のステレオ出力を行う場合は、DPL IIxのようなマトリクスサラウンドエンコードを施す:

この場合、5.1ディスクリート環境ではLFEとcenterが空くことになる。
サウンドバーやPC向けオーディオで2chオーディオをサラウンド化するとは、以下のように一旦5.1ch音声を2ch音声から生成し、さらに仮想サラウンドエフェクトを適用する構成となっていることが多い。

基準はこのようなアーキテクチャを想定している。

overall

環境間で共通の事項としては以下のようなものが考えられる:

  1. ゲーム固有の音量調整を用意することSony VPTのようにエフェクトのゲインを備えない(!)ものが存在するため。
  2. ゲーム中SFXはオブジェクトベースオーディオを基準にすること。スピーカーの配置やヘッドホン専用mixが必要なケースに対応するため。
  3. 調整画面を提供することが好ましい。GTAVやInfamous等in-gameで直接調整可能にしているケースも有る。
  4. 重要なセリフやUI SFXは中央定位となるようにすること。映画ではセンタースピーカはセリフ用に使用されるため、オーディオ環境も特別に配慮していることが多い。逆に目立つ必要のない音やベル、金物を中央に置かないこと。
  5. 独立したマスタリングプロセスを配置すること。全ての素材を単純に足し合わせるのではなく、マスタリング段を設けて音量や音質を最終段で制御できるようにすることが望ましい。特にTV対応のために音量を制御する必要が有る場合に素材のパラメタを調整してまわるのは非常に辛い。

現状、コンフィグ中にモノラル/ステレオ/サラウンドの区別は必要無いように見える。モノラルスピーカしか備えないデバイスは多いため配慮が必要かもしれない。サラウンドmixは逆位相を使用するため、ステレオ→モノラルのdownmix時に背後に定位する音がそのまま失われてしまう。
音量調整が様々なゲームに存在するのは不思議なことだが、実際、Sony VPTのような一部のエフェクトは大音量を入力するとクリッピングしてしまうことが有るため音量の調整はどうしても必要になってしまう。また、歴史的にゲームに音量調整が付いてくるのが普通だったため、ユーザから要望されてしまうこともある。

ディスクリート5.1/7.1 ch

日本では限りなくゼロに近いユーザしか居ないが北米では10 - 30%近くのユーザはリアスピーカを装備していることになっている(本当 ?)。

  1. 後部スピーカの配置を選択可能にすることITU配置は後部スピーカはかなり角度が開いている( http://ja.wikipedia.org/wiki/%E3%82%B5%E3%83%A9%E3%82%A6%E3%83%B3%E3%83%89#/media/File:ITUKreis_Ruhnke.jpg )が実際にはこのように配置していない人も居るため。パンの振り方が不自然になる可能性がある。例えばGTAV等がこの選択を提供している。
  2. 2ch mixのupmixを期待しないこと。このため、全てのゲームはディスクリート出力をサポートする必要がある。一部のコンシューマハードウェアやPCには2chストリームを用意できない環境も存在する。PCの場合、プログラムから設定を変更することは避けるべき。

PC/据置の場合は最低でもサウンドデザイナはディスクリートサラウンド環境を用意するべきということになる。
HDMI接続で音声を伝送する場合、PC側が8ch設定になっているとAVアンプは2ch用のエフェクトを自動的に無効化してしまう傾向にある。PC側を2ch設定にした場合はどうなのかは今のところ不明で調査の必要がある。

サウンドバー / 2.1chスピーカシステム

日本においてはディスクリート5.1chシステムは設置性の問題から敬遠される傾向にあるため、代わりにサウンドバーやリアスピーカを含まないスピーカシステムが好まれる傾向にある。

  1. HDMIまたはS/PDIF接続を推奨すること。この手のスピーカシステムは仮想サラウンドをサポートしていることが多いがマルチチャンネル伝送はアナログ接続やbluetooth接続では行えない。
  2. S/PDIF接続を行っている場合はビットストリーム出力を推奨すること。ただし、PCは標準ではビットストリーム出力をサポートしていないことがある。

VIZIO等の提供している廉価なサウンドバーはHDMI接続をサポートしていない。このためS/PDIFで接続する必要がある。

内蔵スピーカ

TV等に内蔵されたスピーカが(ヘッドホンを除くと)最も有力なデバイスとなる。このため、この環境で破綻を起こさないことが最低限求められる。

  1. 情報量の多いオーディオを避けること。5.1環境でオーディオを調整した場合、TVの出力は通常期待を遥かに下回るものになる。このため、ゲームUIをオーディオに頼るものにすることは避ける必要があり、企画段階ではTVを使用することが推奨される。
  2. ラウドネス基準を尊重すること。TV業界では -24.0LKFS を基準として現状運用しているのでエンドユーザも通常のTV番組を見る際の音量はこの程度にしていると想定できる。
  3. LFEを使用しないこと。LFEが正常にmixされるかどうかはかなり運任せになる。

ラウドネス基準をゲームに適用するためにはゲームを通して測定するしかない。そしてサラウンドソースに関しては良い標準が無く、ステレオdownmixを行うか単純なステレオmixを行うかでも音量レベルは異なってしまう。

サラウンドヘッドホン

サラウンドヘッドホンは非常に限られた品種しか提供されていない。このため現状は良い考察が提供できるレベルにない。

  1. サラウンドヘッドホンに直ちにヘッドホンmixを適用しないこと。サラウンドヘッドホンの多くは現実のスピーカ配置をシミュレートするため。ただしアナログ接続のものは例外。
  2. サラウンドヘッドホンの接続形態をUSB、アナログ、S/PDIFHDMIで区別すること。USB/アナログには追加の考察が必要な可能性が有る。USB接続のサラウンドヘッドホンは現実のスピーカ配置をシミュレートしたものが多い。アナログ接続のものはほぼ全てゲーミングヘッドセットの類いとなる。

Sony MDR-HW700DSや各社家電ベンダのサラウンドヘッドホンは上のサウンドバーと同様の考察が適用できる。そもそもこの手のデバイスは普及率が低いため、明示的にサポートする必要性は正直微妙としか言いようがない。

ヘッドホン

ヘッドホンは非常に有力なデバイスで、基本的に全てのゲームは専用のmixと良いサポートを提供する価値がある。

  1. ヘッドホン専用のmixを提供すること。パンを振ったときに不自然な動きになってしまう。
  2. HRTFエフェクト/バイノーラル録音ソースを使用する場合はエフェクトを無効化させること。メーカ製PCの場合はDolby Home Theaterやdts UltraPC等が有効になっている可能性がある。これはゲーム側のエフェクトの有効性を低下させる。
  3. 再生ポーズ/再開にフェードin-outを適用すること。ヘッドホンオーディオはユーザに直接健康被害を及ぼす危険性が有る。一般に再生ポーズは避けるべき。

"エフェクトを無効化させること"と言っても、これがなかなか難しい。。近年のpure/hi-res audioの盛りあがりに合わせてエフェクトの無効化スイッチを設けていることは多いし、WASAPIの排他モードを使用するという手も有る。

マトリクスエンコード

2chトランスポート(アナログ接続やBluetooth)では、マトリクスエンコードすることになる。今のところ、2chへのdownmix手段としては4ch mix + マトリクスエンコードが個人的に最も評価が高い。単純な2ch mixをスピーカやTVのサラウンド拡張で聞くよりも自然で"ふらつき"の少い出力が得られるように聞こえる。
ただ、これを良く評価するのは非常に難しいので客観評価の方法を考え中。。

  1. マトリクスエンコードを行う場合は2chで出力する。AVアンプ等のPro Logic IIデコードは2chソースに対してのみ有効となる。このため、明示的に2ch接続を行わせる必要がある。本来多チャンネル接続を行なえる環境であれば通常のサラウンド出力を行えば良い。
  2. マトリクスデコーダとしてPro Logic IIxを使用する。現状最も普及しているマトリクスデコーダはPro Logic IIxであり、他のデコーダはPro Logicソースに対する再生互換を通常考慮している。
  3. 方向性を持たせるオブジェクトは同時に1つにする。Pro Logicの動作原理として、オーディオのL/R比率を使用して方向を予測する方法、いわゆる"ステアリング"が有る。これは原理的に注目できるオブジェクトは1つに限られる。周波数領域で動作するデコーダは原理的に複数のステアリングを持てるが、実際にそのような実装が存在するかどうかは何とも言えない。

他のdownmix手法としては、リアスピーカー分の2chからは高域を落とす方法が有る。