【Pythonコラム】CNNってなんだ？画像認識の秘密兵器を解き明かす！

トップページ>コラム一覧>【Pythonコラム】CNNってなんだ？画像認識の秘密兵器を解き明かす！

CNNってなんだ？画像認識の秘密兵器を解き明かす！

皆さんは、スマートフォンで写真を撮るとき、顔認識機能が働いて自動でピントが合うのを見たことがあるでしょう。あるいは、SNSでアップロードされた写真に、友達の名前が自動でタグ付けされる機能も体験したことがあるかもしれません。これらの技術の裏側で活躍しているのが、Convolutional Neural Network (CNN)、日本語では畳み込みニューラルネットワークと呼ばれる、強力な画像認識技術です。

「畳み込み」とか「ニューラルネットワーク」とか、なんだか難しそうな言葉が並んでいますが、ご安心ください。一つ一つ丁寧に見ていけば、CNNの基本的な仕組みは意外とシンプルです。

CNNの得意技：画像の特徴を捉える

CNNの一番の得意技は、画像全体を一度に見るのではなく、小さな領域（フィルター）をスライドさせながら、特徴的なパターンを捉えることです。

例えば、猫の写真を認識したいとしましょう。CNNは、まず、猫の輪郭、目、鼻、ヒゲなどの特徴的な部分を認識します。これらの特徴は、画像全体に共通するパターンとして捉えられます。次に、これらの特徴を組み合わせて、「猫らしさ」を判断します。

この「小さな領域をスライドさせる」という動作が、まさに「畳み込み」と呼ばれる処理なのです。

CNNの構成要素：主要なレイヤーたち

CNNは、主に以下のレイヤーで構成されています。

Convolutional Layer (畳み込み層): 先ほど説明したように、フィルターを使って画像の特徴を抽出します。フィルターのサイズや種類を変えることで、様々な特徴を捉えることができます。
Pooling Layer (プーリング層): 畳み込み層で抽出された特徴マップのサイズを縮小します。これにより、計算量を減らし、より重要な特徴だけを残すことができます。MaxPoolingという方式がよく使われ、指定された領域の中で最も大きな値を選択します。
Activation Function (活性化関数): 各ニューロンの出力を決定する関数です。ReLU (Rectified Linear Unit)という関数がよく使われます。
Fully Connected Layer (全結合層): 畳み込み層とプーリング層で抽出された特徴を基に、最終的な分類を行います。

これらのレイヤーを組み合わせることで、CNNは複雑な画像認識タスクをこなすことができるのです。

簡単な例：数字の認識

具体的な例として、手書き数字の画像認識を考えてみましょう。

import tensorflow as tf
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

# モデルの定義
model = tf.keras.models.Sequential([
    Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
    MaxPooling2D((2, 2)),
    Conv2D(64, (3, 3), activation='relu'),
    MaxPooling2D((2, 2)),
    Flatten(),
    Dense(10, activation='softmax')
])

# モデルのコンパイル
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# MNISTデータセットのロード
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()

# データの正規化
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0
x_train = x_train.reshape(-1, 28, 28, 1)
x_test = x_test.reshape(-1, 28, 28, 1)


# モデルの学習
model.fit(x_train, y_train, epochs=5)

# モデルの評価
loss, accuracy = model.evaluate(x_test, y_test, verbose=0)
print(f'Accuracy: {accuracy}')

このコードは、TensorFlowとKerasというライブラリを使って、手書き数字の画像認識を行うCNNの簡単な例です。

Conv2Dレイヤー: 画像から特徴を抽出します。ここでは、32個と64個のフィルターを使用しています。input_shapeは入力画像のサイズ（28x28ピクセル、グレースケール）を指定します。
MaxPooling2Dレイヤー: 特徴マップのサイズを縮小します。
Flattenレイヤー: 2次元の特徴マップを1次元のベクトルに変換します。
Denseレイヤー: 全結合層です。10個のニューロンがあり、それぞれが0から9までの数字に対応します。softmax活性化関数は、各数字の確率を出力します。