株式会社アジラ | Activate all streams !!

行動認識AIに特化した映像解析事業で、犯罪や事故を未然に防ぐ世界を目指す株式会社アジラの公式ウェブサイトです。

多彩なサービスを実現する人物の姿勢推定モデル「AsillaPoseV4 Lite」

インテリジェントビデオ分析(IVA)は、ビデオ監視業界でますます人気が高まっています。最近では、複数のカメラをまたぐ人物の行動認識と人物の追跡が魅力的な研究分野になっています。

それらのパフォーマンスは、「人物の姿勢推定」能力に大きく依存します。私たちは、AIスタートアップとして「AsillaPose」と名付けられた独自の姿勢推定モデルを開発してきました。

この記事では、AsillaPoseの最新バージョンである「AsillaPose V4 Lite」をご紹介します。これは、AsillaPoseの中で、最小・最高速のモデルであり、「OpenPose」と比較して優れたパフォーマンスを発揮することができます。

現在、世界中に姿勢推定モデルは多数ありますが、それらのほとんどは、特にセキュリティと監視の分野で、実用性の高いアプリケーションとして利用が困難です。そこで開発目標としてセキュリティおよび監視業界に焦点を当てた実際のアプリケーションと互換性があり、かつ高速で堅牢な姿勢推定モデルを構築することとしました。

以下、次の3つの指標についてアジラの「AsillaPose V4 Lite」と、カーネギーメロン大学の「OpenPose」とを比較します。

  1. 精度
  2. 速度
  3. システム要件

併せて市場の要求を十分に満たすことができる「AsillaPose V4 Lite」の特徴的な機能をご紹介します。

1.精度

「AsillaPose V4 Lite」と「OpenPose」の精度評価と比較には、5000枚の画像を含む COCO2017 検証データセットを使用しました。 OKS(オブジェクトのキーポイントの類似性)、適合率および再現率が評価に使用されます。

「AsillaPose V4 Lite」モデルは、224x224 と 320x320 の2つの入力解像度と互換性があります。入力解像度ごとに2つの実験を行いました。

COCO検証データセットの結果は次のとおりです。

f:id:asilla:20210131103929p:plain


上記の結果は、「AsillaPose V4 Lite」推定モデル(青)の精度が「OpenPose」推定モデル(赤)と比較して著しく高いことを示しています。

以下は、「AsillaPose V4 Lite」モデルと「OpenPose」モデルの両方のオーバーレイ画像です。

f:id:asilla:20210131104047p:plain



f:id:asilla:20210131104123p:plain

1 これは特にセキュリティー及び、監視業界の実際のアプリケーションで遭遇する急勾配のセキュリティアングルでうまく機能します。

2 Asilla Pose V4 Liteは、カメラから遠く離れた場所にいる人のポーズを推定することができます。

3 Asilla Pose V4 Liteは、人々が座っている時、歩いている時、走っている時など、様々なポーズを検出できます。

2.速度

リアルタイム・アプリケーションに関して言えば、速度は克服すべき最大の課題の1つです。

「AsillaPose V4 Lite」は、NVIDIA JetsonNanoなどのエッジデバイスでも非常に高速に実行可能です。OpenPoseとの速度評価のために、どちらもNVIDIA JetsonNanoデバイスで実行しました。

デバイスのシステム構成は次のとおりです。

f:id:asilla:20210131104201p:plain

 

「AsillaPose V4 Lite」と「OpenPose」の推定速度の比較を以下に示します。

 

f:id:asilla:20210131104226p:plain

左側のグラフは”GPUサポート有り”、右側のグラフは”GPUサポート無し(*)”の結果です。
(*) CPUのみのモデル(CPU構成-Intel(R) Core(TM) i7-8700K CPU @ 3.70 GHz、RAM 32GB)

「AsillaPose V4 Lite」は「OpenPose」と比べて、リアルタイム・アプリケーションに適した高い推定速度を備えていることを示しています。 
また、”GPUサポート無し”の場合は、さらに高速度を達成していることが分かります。

下記は、検出人数を増やした場合の速度の比較を示しています。人数が10人、11人、、、18人と増えても、60fps以上のパフォーマンスのまま同時に姿勢推定が可能です。 

f:id:asilla:20210131104253p:plain

3.システム要件

システム要件は以下です。「AsillaPose」はメモリ消費量が少なくて済みます。

f:id:YudaiVlog:20210203201227p:plain
姿勢推定モデルの開発だけが私たちの仕事ではありません。「世界の守り人」になることを最終目標としており、直近では以下の技術開発が進行中です。

これらは特にセキュリティ関連及び映像を用いるあらゆる業界で活用することができると考えています。

  1. 侵入検知
  2. 複数のカメラによる人物同定
  3. 違和感行動の検知

f:id:asilla:20210131104505p:plain

1.侵入検知について
「AsillaPose V4 Lite」は、既存のセキュリティカメラからのビデオ映像を分析することにより、疑わしい出入りを検出するのに適用できます。これにより、例えば、現在侵入の検出に使用されている赤外線センサー、マイクロ波センサーなどの設備コストの削減が期待できます。

2.複数のカメラによる人物同定について
大規模な施設をすべて監視するには複数台のカメラが必要ですが、現在のシステムではカメラだけで人物を追跡することは困難です。 「AsillaPose V4 Lite」は、夜間でも同時に複数台のカメラ映像から複数の人物を追跡することを可能にします。

3.違和感行動の検知について
私たちの姿勢推定モデルは、人の動きを時系列に分析することにより、よろめき、喧嘩、転倒などの人物の行動を検知することで、事件/事故の未然防止をサポートすることができます。

現在上記3つの機能を備えた開発キット(Asilla SDK)の開発を進めています。
Asilla SDKは、2021年3月に東京で開催されるイノベーションリーダーズサミット(ILS2021)で正式にリリース予定です。