Bench Talk for Design Engineers: 2月 2021

(出典: Scharfsinn/Shutterstock.com)

スマートコミュニティのセキュリティ

未来の人間社会を語る上で、もはや「スマートコミュニティ」を抜きにすることはできません。中国政府も2020年5月の政府活動報告で、スマートコミュニティに向けた「2つの新型プロジェクト、1つの重要プロジェクト」を重点的に支援すると表明しています。

スマートコミュニティには、新型インフラの建設、新型都市と交通の建設、水利工事などの大規模プロジェクトが必要になります。このうち最初の2つのプロジェクトである新型インフラと新型都市化には、スマートコミュニティが重要な位置づけとなります。

スマートコミュニティには、日常生活の質を高め、人が快適に暮らせるために多くの新しいテクノロジーが活用されます。典型的なアプリケーションには、無人スーパー、スマートホーム、自動駐車場など数多くありますが、その中でも最も重要になるのが、コミュニティのセキュリティシステムです。近隣・住宅用ビル入退室管理システムからコミュニティ全体のカメラネットワークまで、スマートシステムは、これまでの人間の警備員に代わって、人物の識別、近隣監視、危険報知などを行ってくれます。

米国CBSのテレビドラマ『PERSON of INTEREST 犯罪予知ユニット』では、強力な機能を持つ高度な人工知能によるセキュリティシステムが描かれています。町中に張り巡らされたカメラネットワークが、人物の身元や行動はもちろん、人間関係にいたるまで、ありとあらゆる情報を記録し、システム中枢がその情報を解析して脅威を割り出し、将来起こりうる脅威についても予測します。もちろん、ドラマの中のこのような「神」に近いAIシステムは、現時点ではまだSFの領域に過ぎません。とは言え、ここで描かれているシステムが少しずつ現実になろうとしているのも事実です。スマートコミュニティやスマートシティでは、インテリジェントなセキュリティシステムが、顔認識、行動認識、人物識別が統合されたAIシステムとして機能するのです。

顔認識技術

コンピュータによる顔認識技術の研究は、20世紀半ばから本格的に始まりました。最初はパターン認識の研究が行われていましたが、その後、顔検出、フェイスアライメント、顔属性認識、顔認証・顔認識などの様々なアルゴリズムが次々と開発され、進化を遂げていきました。こうした技術は、スマートフォンやカメラでは顔キャプチャ機能、職場では出退勤管理のための自動顔認識、新しくできたコミュニティでは顔認識技術を搭載した入退室管理システムなど、今や日常生活でも普及してきました。

顔検出

顔認識のアルゴリズムを開発するための最初のステップは、ある顔が画像やビデオに存在しているかを判定し、その顔に対応するピクセル範囲を特定することです。2001年、ポール・ビオラとマイケル・ジョーンズによって、後の顔検出アルゴリズムの基礎となる、今では有名なあのビオラ・ジョーンズ検出法が共同で考案されました。

このビオラ・ジョーンズ法というアルゴリズムは、特徴量と分類器という2つの要素から構成されます。このアルゴリズムは人間の顔のハール特徴量を活用しています。ハール特徴量とは、対象の複数の局所領域の明暗差を示す白・黒の矩形から求められる特徴量です。例えば、目元より明るい鼻、一般的に他の領域より暗い口元など、対象の顔に存在する明暗差のある領域を検出するのに使用されます。この特徴量を使って、対象画像のある候補フレームに一致させ、それをAdaBoost分類器に渡し、Face、またはNo Faceタグを出力します。注目すべきなのは、ビオラ・ジョーンズアルゴリズムでは複数の分類器が連結して1つの分類器に統合されているという点です。これにより、候補フレームの数を徐々に減らし、アルゴリズムの処理スピートを向上するという利点が生まれます。

その後の研究でも特徴量と分類器に基づいて問題が取り扱われてきました。特徴量に関して言えば、今日のセキュリティシステムでは、ハール特徴量に代わって、比較的複雑な別の特徴量が使用されています。システムの検出率を向上させるほか、カメラの正面を向いていない顔の検出エラーを上手に解消できるからです。分類器については、NMS（非最大値抑制）手法を使えば、位置とサイズの類似した候補フレームをまとめることで、候補フレーム数を大量に削減することができます。これに対して、ディープニューラルネットワークは、グラフィックカードを使って必要な処理のほとんどを行い、処理速度を大幅に向上させることができます。

フェイスアライメント

ある顔を標準として使用すると、顔認識などのアルゴリズムの結果がより安定します。そこで、次の重要なステップはフェイスアライメントと呼ばれるプロセスで、異なる角度と解像度をもつ顔を標準位置にアルゴリズム的に一致させることが必要になります。この観点から、人間の顔をすべて、標準顔のアフィン変換（拡大縮小、回転、平行移動）の結果としてとらえることができるのですが、フェイスアライメント・アルゴリズムの目的とは、対象顔の特徴点に基づいてこの変換プロセスを逆転させることです。

コンピュータ科学者は当初、人間の顔の主な特徴として大まかに捉えられる68個の特徴点を定義しました。アルゴリズムを開発するための典型的なアプローチは、この特徴点を使って、標準顔画像がどのように実際の画像に段階的に変換されてゆくのかをコンピューターに学習させることです。標準顔画像を実際の顔画像にマッピングするには、一連のリグレッサ｛独立変数｝を学習させますが、それによって変換された情報を学習することができます。

顔属性認識

顔属性には、性別、人種、年齢、表情があり、こうした属性を正確に識別することにより、対象となる人物の好みや心理状態をより正確に判断することができます。顔認識とフェイスアライメントを行えば、顔属性認識は比較的簡単になります。基本的には、ビッグデータによる画像の分類と回帰だけになります。

2015年、マイクロソフトは、ユーザーによる画像に写った人物の年齢を予測する年齢判定アプリ（how-old.net）を開発しました。このシステムでは、まず顔が枠線で囲まれます。次に、抽出された特徴ベクトルが分類器を通して性別ラベルを割り当て、その後、年齢回帰分析器を使って対応する年齢データが取得されます。ディープニューラルネットワークを使用すると、特徴抽出と分類・回帰が1つのアルゴリズムに統合され、複数の属性を同時にリアルタイムで予測することができます。同様に、顔の表情も分類され、回帰の対象になります。これをスマートホーム制御システムやセキュリティシステムに利用することにより、危険を察知した際に直ちに警報を出すことが可能になります。

顔認証とアイデンティティの識別

このアルゴリズムを使えば、顔認証と呼ばれるプロセスで2つの画像が同一人物のものであるかが判定ができます。さらに、顔画像が入力されれば、コンピュータはデータベースから該当する人物のデータを照合し、顔認識と呼ばれるプロセスで、その人物のアイデンティティ情報と属性情報を出力することができます。（図１）

図１：コンピュータは顔認識アルゴリズムを使って、データベースから該当する人物のデータを照合し、その人物のアイデンティティ情報と属性情報を出力することができます。（写真： metamorworks/Shutterstock.com）

入力された画像は、データーベースの中の膨大な数の画像と比較する必要があることから、ユーザーが快適な使用感を得るためには、アルゴリズムの速度が非常に重要になります。その解決策として、各対象画像から特徴量を抽出する方法が挙げられます。主成分分析（PCA）はその方法の1つですが、これは、検出した顔選択フレームから顔の特徴を抽出し、相関分析を行って最も近い一致を見つける手法です。もう1つの重要な手法にSIFT（スケール不変の特徴変換）があります。これは、ある画像が回転やスケール変化していたり、異なるカメラにより解像度が変わっていても、その画像の特徴点を高い精度でマッチングさせることができます。

人間の顔は照明環境やメディアの種類によって異なって見えます。直接特徴抽出では、すべての顔認識シナリオのニーズに対応できないことがあるため、照明データなどの情報から対象となる顔の特徴を切り分けることが重要になります。この照明情報を取り除くために、LBP（ローカルバイナリパターン）アルゴリズムがよく使用されています。LBPでは、各画素を隣の画素と比較して、画像全体の画素間のサイズ関係を保持しながら、特定の値を排除します。こうして顔の特徴を保持ながら、照明やテクスチャによる画素シフトが排除されます。近年考案された新しい手法Disentangled Representation（特徴のもつれを解くの意）も、同様の発想で、ディープニューラルネットワークから抽出した顔の特徴を形状と外観に分割し、顔画像の特徴をより正確に保存しながら、認識精度を向上させます。

行動認識と識別技術

顔認識技術のほかに、行動認識と識別技術もスマートセキュリティシステムを構成する重要な要素になります。行動認識とは、ビデオに写っている人物の行動を分類することを指します。それに対して、アイデンティティ認識は、一連のカメラから同一人物を識別することを指し、それによってその人物の動きの軌跡を把握し、不審者であるかを判断します。アイデンティティ認識と行動認識を組み合わせることで、ビデオに写った人物の状況をより適切に判断できるようになります。

行動認識

行動認識は当初、画像分類の特殊なケースとして取り扱われていました。分類対象が画像から動画に変わると、もはや物体や顔ではなく、行動そのものが分類の対象になったのです。スマートセキュリティシステムで主記憶媒体として使用されているビデオは、複数の画像を組み合わせることができるため、画像分類手法（深層学習アルゴリズムなど）をそのまま使って、行動認識ができます（図2）。しかし、人物の行動には本来、時間的性質があるため、関連する時間的特徴を利用することで精度を向上させることができます。オプティカルフローは、動画に適用されるこのような時間的特徴の一つで、ある画像の2つの連続するフレーム間のある対応点の移動軌跡を示します。複数の連続するフレームの対応点と周辺の画素情報を1つの特徴量に符号化すると、動画の軌跡が生成されます。この軌跡を複数組み合わせることで、より明確な行動情報が提供されます。

図 2：画像分類手法（深層学習アルゴリズムなど）は行動認識にそのまま利用できます。（写真: Scharfsinn/Shutterstock.com）

深層学習アルゴリズムは、近年、行動認識の分野で目覚ましい進歩を遂げました。香港中文大学のコンピュータ科学者が提案した時間セグメントネットワーク（TSN）アルゴリズムは、行動認識の精度を向上させています。TSNアルゴリズムでは、生のビデオ画像とそれに対応するオプティカルフローマップを同時に使って、ディープニューラルネットワークを訓練し、1つのモデルで外観情報と動的情報の両方を符号化することができます。また、同じビデオをランダムにサンプリングして複数の組み合わせを作り、同じ動作の異なる速度も認識できます。TSNのようなアルゴリズムのほかに、シンガポールの南洋理工大学（NTU）も、病院や介護施設で共通して見られる動作（座る、横になる、倒れるなど）を集めた大規模なタグ付き行動認識データベース（NTU RGB+D）を発表しています。このようなアルゴリズムとデータによって訓練された行動認識システムは、対象となる人物やエリアの監視に適しています。

アイデンティティ認識

アイデンティティの識別に使用される特徴には、顔の特徴、身体的特徴、姿勢の特徴、動作の特徴、服装の特徴など、あらゆるものが含まれます。カメラの解像度に限界があるため、顔の特徴はアイデンティティ認識には補助的にしか使用できません。それに対して、人間の目と同様に認識プロセスでは、姿勢、動作、服装などの大きい特徴が主要な情報として使用され、中でも服装はより大きな特徴となります。したがって、アイデンティティ認識アルゴリズムを構築するには、複数の特徴をいかに最大限に活用するかが鍵となります。

深層学習アルゴリズムはここでも重要な役割を果たしています。深層学習アルゴリズムにより、ディープニューラルネットワークは大量のデータを入力することで、自動的に特徴を抽出し、それぞれの特徴に重みを付けることができます。同時に、複数の分類器を学習させ、様々な次元で判断を行います。特に、アイデンティティ認識のアルゴリズムは、外観分類（服装、バックパック、ペンダントなど）、体型分類（性別、身長など）、構成要素分類（腕、脚、胴など）などの複数の対象を組み合わせ、その最終的な結果は、複数の分類器の重み付けされた組み合わせになります。近年では、個人間の差異を増幅させ、なおかつ異なるシナリオにある同一人物の差異を低減できるよう、トリプレットロス関数が深層学習アルゴリズムに導入されるようになりました。これにより3つのサンプルを識別するよう訓練することで、期待する結果が得られるようになります。

技術的課題と展望

顔認識と行動認識・アイデンティティ認識は、いずれもセキュリティシステムアプリケーションの分野で大きな進歩を遂げています。まず第一に、コンピュータは人間にはとうてい不可能な24時間の完全監視を可能にし、監視範囲を広げることでシステム全体のセキュリティを向上させています。第二に、強力なコンピュータであれば、大量のデータ量を高速処理できるため、セキュリティ上の危険を検出できる速度が大幅に上がります。また、利用する情報は外部情報（顔、行動、服装など）なので、容易に取得できるだけでなく、本人に知られることなく、徹底した監視と解析を行うことができます。しかし、こうした機能を搭載したスマートカメラが一部の公共の場やコミュニティで実用化され始めていますが、大規模な導入に踏み切る前に、ここである技術的な課題に取り組む必要があります。

システムの堅牢性

顔認識では、メガネ、サングラス、マスクなどで顔がよく見えないことがあります。行動・アイデンティティ認識でも、腕や脚がよく見えないことが多々あります。この問題がアルゴリズムに重要な課題を投げかけているのです。照明に関する一部の問題は、デカップリングアルゴリズムにより、ある程度解消できますが、暗い周囲環境や解像度が変化するカメラなどのような環境条件は、今でもアルゴリズムの精度に影響を与えかねません。似ている顔、似たような服装や動作、時間の経過によって生まれる顔や動作の特徴の変化なども、人物の識別エラーにつながります。

データ範囲とフィードバック速度

理論的には、データ量が多ければ多いほど、コンピュータはより徹底的に学習できます。ところが実際には、顔、行動などのアイデンティティ認識データセットは膨大なため、手動でタグ付けがされなければ、機械学習アルゴリズムを訓練するために使用することはできません。その結果、タグ付けにはかなりの人的投資が必要になります。また一方で、セキュリティシステムが導入されれば、コンピュータは毎秒膨大な量の新しいデータを処理しなければならないため、フィードバックの速度が低下します。セキュリティシステムでは、コンピュータはデータから主要な特徴と情報を抽出し、統合してより複雑な情報を取得する必要があります（図３）。現在、アルゴリズムの活躍は、顔検出や行動認識のような一部の機能にとどまっています。今後、データセットサイズやコンピュータの能力があるレベルに達したときには、様々な角度からの情報を統合して、セキュリティ管理者に迅速にフィードバックできる、新しいアルゴリズムが必要になることでしょう。

図3：セキュリティシステムはデータから主要な特徴と情報を抽出し、統合してより複雑な情報を取得する必要があります。（写真：MONOPOLY919/Shutterstock.com）

データとアルゴリズムのセキュリティ

セキュリティシステム自体のセキュリティ性能は、システムを評価する上で重要な基準となります。しかし、インターネット時代において、データセキュリティは深刻な課題となっています。ソーシャルメディアの普及により、多くの人の顔データやアイデンティティ情報がネット上でアクセスできます。この情報に対してイメージング技術や3D印刷が利用されれば、顔認識システムが危険にさられれる可能性があります。事実、現在、一部の研究者の間では、そのような潜在的なセキュリティの脅威から防御するために、実際の顔と偽の顔との区別をどのように顔認識システムに組み込むかが研究されています。

その他のアルゴリズムも絶えず進化しており、既存の認識技術に新たな課題を投げかけています。例えば、近年では、敵対的生成ネットワークが実際の顔の画像を生成したり、また、自動的に顔が入れ替わる動画も普及するようになりました。こうして生成された顔は現在の顔認識システムを欺くことができます。さらに最近の論文では、アイデンティティ認識システムに電波妨害が行われると、アルゴリズムのアイデンティティの照合結果が、現実を反映しないように修正される可能性があると伝えています。犯罪者はシステムによる追跡から逃れるためにアルゴリズムを妨害することもできるのです。

まとめ

以上見てきたように、スマートコミュニティのためのスマートセキュリティを実現するためには、新しいアルゴリズムの開発が不可欠です。大規模なデータ処理に向けて既存のアルゴリズムの堅牢性を改善させ、新しい種類のデータやアルゴリズムのための保護メカニズムを徐々に導入し、新たな課題や要求に対応していく必要があります。コンピュータ科学者は、こうした困難を克服するために絶え間ない研究を行っています。わずかな情報で認識できる顔認証システムは、顔の一部が隠れていても顔を認識することが可能で、特殊な環境で生成されたデータに対する顔認識アルゴリズムの処理能力の向上につながっています。認識アルゴリズムを訓練しながら、敵対的生成ネットワークやマイグレーションラーニングのような学習メカニズムを導入し、展開時にはコンテナ技術やフェデレーションラーニングを活用することができます。これによりアルゴリズムが認識タスクを実行するでけでなく、異なるデータソースや悪意のある攻撃を見分けることができるようにより、システムのデータとアルゴリズムはより安全に保護されます。今後も、アルゴリズムはこの分野で繰り返し改良を続け、さらに高度な自動認識技術がスマートコミュニティ・シティで重要な役割を果たすようになるでしょう。

★★★★★★★★★★★★★★★★★★★★

Mouserブログをもっと読む

　➡　Mouserサイト・英語（あらゆる種類・最新トピックの記事）

　➡　日本語ページ（ピックアップして翻訳した記事）

★★★★★★★★★★★★★★★★★★★★

著者

Wang Dongang

シドニー大学の博士課程に在籍中。研究内容は医療画像撮影、人工知能、脳科学、映像解析に及ぶ。また機械学習技術の日常生活への応用について常に努力を注いでいる。CVPRやECCVなど有名な国際会議にて論文を発表。米国IEEEのTransactions on Circuits and Systems for Video Technology（映像技術の回路及びシステムに関するトランザクション）及びTransactions on Multimedia（マルチメディアに関するトランザクション）を含むジャーナル誌、AAAI及びICMLを含む会議の評議員として参加。機械学習及びコンピュータービジョンのアルゴリズム開発において豊富な経験を持つ。多視点映像による行動認識、監視ビデオに基づく道路管理、脳のCT用自動トリアージシステムなどを含むプロジェクトにおいて、中国、アメリカ、オーストラリアの企業及び機関に協力している。

Bench Talk
for Design Engineers

2021年2月17日水曜日

スマートセキュリティのいたちごっこ。認識技術の発展にゴールはない。