【Pythonコラム】Pythonで始める！MediaPipe超入門 - リアルタイム画像・動画処理の世界へ飛び込もう

トップページ>コラム一覧>【Pythonコラム】Pythonで始める！MediaPipe超入門 - リアルタイム画像・動画処理の世界へ飛び込もう

Pythonで始める！MediaPipe超入門 - リアルタイム画像・動画処理の世界へ飛び込もう

近年、AI技術の進化は目覚ましく、画像や動画をリアルタイムで解析・処理する技術も身近なものになってきました。その中でも特に注目を集めているのが、Googleが開発したオープンソースのフレームワーク、 MediaPipe です。

MediaPipeは、顔認識、姿勢推定、手認識、物体検出など、様々なタスクを高速かつ高精度に実行できるのが特徴です。Webカメラやスマートフォンアプリなど、多様なプラットフォームで動作するため、応用範囲も非常に広いと言えるでしょう。

この記事では、Pythonを使ってMediaPipeを始めるための第一歩を、初心者にもわかりやすく解説します。

MediaPipeって何ができるの？

MediaPipeは、主に以下の処理を得意としています。

顔検出 (Face Detection): 画像や動画から顔を検出し、その位置や特徴点を特定します。
顔メッシュ (Face Mesh): 顔の細かな形状をメッシュで表現し、表情の変化を分析することができます。
手認識 (Hand Tracking): 手の位置や指の動きを認識し、ジェスチャー操作などを実現できます。
姿勢推定 (Pose Estimation): 人の骨格を推定し、姿勢や動作を分析します。
物体検出 (Object Detection): 画像や動画から特定の物体を検出し、その位置を特定します。

これらの機能は、例えば、ビデオ会議での背景ぼかしやアバターの作成、ゲームにおけるモーションキャプチャ、スポーツにおけるフォーム分析など、様々な分野で活用されています。

準備をしよう！ MediaPipeのインストール

MediaPipeを使うためには、まずPython環境にMediaPipeをインストールする必要があります。ターミナルまたはコマンドプロンプトを開き、以下のコマンドを実行してください。

pip install mediapipe

このコマンドを実行すると、必要なライブラリが自動的にインストールされます。

最初のステップ！顔検出を試してみよう

MediaPipeの基本的な使い方を理解するために、まずは顔検出を試してみましょう。以下のPythonコードを記述し、実行してみてください。

import cv2
import mediapipe as mp

# MediaPipeの顔検出モジュールを初期化
mp_face_detection = mp.solutions.face_detection
mp_drawing = mp.solutions.drawing_utils

# Webカメラを起動
cap = cv2.VideoCapture(0)

# 顔検出モデルを初期化
with mp_face_detection.FaceDetection(
    model_selection=0, min_detection_confidence=0.5) as face_detection:

    while cap.isOpened():
        # Webカメラからフレームを取得
        success, image = cap.read()
        if not success:
            print("Ignoring empty camera frame.")
            continue

        # 処理速度向上のため、画像を書き込み不可にする
        image.flags.writeable = False
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

        # 顔検出を実行
        results = face_detection.process(image)

        # 画像を書き込み可能に戻す
        image.flags.writeable = True
        image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)

        # 顔が検出された場合、バウンディングボックスを描画
        if results.detections:
            for detection in results.detections:
                mp_drawing.draw_detection(image, detection)

        # 結果を表示
        cv2.imshow('MediaPipe Face Detection', image)
        if cv2.waitKey(5) & 0xFF == 27:
            break

cap.release()
cv2.destroyAllWindows()

このコードを実行すると、Webカメラが起動し、画面に映る顔がリアルタイムで検出され、バウンディングボックスで囲まれるはずです。

コードの解説:

import cv2: OpenCVライブラリをインポートします。OpenCVは、画像や動画の処理によく使われるライブラリです。
import mediapipe as mp: MediaPipeライブラリをインポートします。as mpは、MediaPipeをmpという名前で使えるようにするためのエイリアスです。
mp.solutions.face_detection: MediaPipeの顔検出モジュールを指します。
mp.solutions.drawing_utils: 検出結果を描画するためのユーティリティモジュールです。
cv2.VideoCapture(0): Webカメラを起動します。引数0は、デフォルトのカメラを指定します。
face_detection.process(image): 画像に対して顔検出を実行します。
mp_drawing.draw_detection(image, detection): 検出された顔の周りにバウンディングボックスを描画します。
cv2.imshow(...): 画像を画面に表示します。
cv2.waitKey(...): キー入力を待ちます。27はESCキーのASCIIコードです。