視聴検出の系統別分類とアプローチ方法
ギルドラボでは、単視点カメラの映像、画像から人を検出し、広告効果を測定する技術開発を行っています。測定するカメラ映像、画像を近距離、中距離、長距離の3種類に分類し別々のアプローチをします。また、広告効果測定に最適な中距離、長距離の検出技術開発を中心に進めています。
近距離:PCのウェブカメラなど、単一の人間の顔から視線を検出
- 精密な視線の向きを検出(eye tracking)が可能
- 複数人を検出する広告効果測定には不向き
中距離:20メートル以内程度の映像から、十数人〜数十人を検出
- 人間の顔を検出し、広告側を向いている顔の数をカウント(広告の視聴数)
- 性別や年齢の推測を行い、ターゲットの選別が可能
- 姿勢を検出(open pose等)することで、より高度に視線の向きを推定
長距離:数十メートル以上の画像から数百人規模を検出
- 数百〜数千人規模の人が映ったイベント等の画像から、人数を推測しカウントする、クラウドカウンティング技術
システム概念図
中距離における技術開発
- 2~30m以内程度の検出技術
- 数十人(環境や条件により~百数十人)程度に対応
- デジタルサイネージや小規模ヴィジョン広告向け
- ある程度の視線情報や、性別、年齢などの属性を検出可能
- 時間帯別にデータを集計することにより、広告効果測定による効率的なターゲッティングが行える
効果測定例
中距離:簡単な顔検出
- カメラ側に搭載したコンピューターによって、簡単に顔を検出可能
- カメラ方向を向いた顔しか検出しないため、広告側にカメラを装着することによって、広告の方向を向いた顔の数を測定
~問題点~
- 現状、15m程度が限界距離
- マスクをした顔などは検出できない
弊社ベランダからの実験(動画)
中距離:姿勢検出
- 数十メートル以内の映像、画像から、複数人の人間の姿勢を検出
- 肩の位置や首の角度からどちらを向いているかが推定できる
渋谷ライブストリーム映像を用いた実験
画質が粗く、手前の数人しか検出できていない
より高画質の映像を用いることで精度を上げられる可能性がある
「姿勢解析」Machine Learning Model をエッジ側で実行
OpenPose(カーネギーメロン大学研究所による実装)
近年、単視点カメラ画像(動画)からの人間の姿勢推定の精度が上がっている。
より低い計算コストで、リアルタイムに、多人数姿勢推定をする精度が上がっている。
(DeepPose: Human Pose Estimation via Deep Neural Networks 2014, Alexander Toshev が発端)
中距離:マスク問題
- コロナの影響から、ほとんどの人がマスクをつけている
→ 顔検出が困難 - マスクをつけている人の画像をAIに学習させることで、マスク装着状態の顔を検出する技術の開発
- マスクをつけた状態からの性別推定、年齢推定も研究されている
中距離:マスクの検出
- 高画質画像に対し、処理の重い高度な推論モデルなら、そのままマスク顔の検出が可能
- モデルの処理が重く、エッジ側(カメラ側)のコンピューターでは回しきれない
arrow_downward
- マスク付き画像を学習させることで、ある程度荒い画像に対して比較的軽い推論モデルでも検出が可能
- 高画質画像なら、大人数も可能
中距離:性別推論
性別の推論も可能 → 性別ごとのターゲティングが可能
検出例
画像左上に付与されたアルファベット
M:男性 F:女性 + 確率
検出イメージ
長距離における技術開発
長距離:クラウドカウンティング
- 長距離写真について、群衆の密度を推論
→ 数百人規模の人数を測定することが可能 - 頭数を数えるのではなく、密度を推論しているため、ある程度荒い画像などでも可能
- 大規模なヴィジョン広告などは、この技術で通行人数を時間ごとに計測することで効果を測定
- 固定カメラで定期的に集計することで、不動産価値の決定材料などにも使える可能性
画像から人の密度を算出、色分けしてに表示
長距離:今後の開発方向性や論点
- 各技術の精度向上
- 高画質映像、画像を用いた実証実験
論点
- 性別推定やマスク顔検出等、高度な処理を行う場合、エッジ側(カメラ側)のコンピューターリソースでは推論しきれない可能性
→ サーバーなどの環境構築や、通信環境の整備が必要
→ それに伴う予算感などの決定 - 高画質画像、本番環境での実証実験の必要性、動画データや実験場所