mei_13のPython講座 ロゴ

【解説】Pythonで音の世界を解析する:音声処理の基礎から実践まで




Pythonで音の世界を解析する:音声処理の基礎から実践まで


Hirokiのアイコン
【Hiroki】 Yukiさん、こんにちは!今日は少し相談があってきました。 最近、AIを使って何か面白いことができないかなと考えていて……。画像認識は少し触ってみたのですが、次は「音」を扱ってみたいんです。 でも、音声データってどうやってPythonで扱えばいいのか、全く見当がつかなくて。


Yukiのアイコン
【Yuki】 Hirokiくん、こんにちは。音声処理に興味を持ったのですね。 ……音というのは、画像とはまた違った難しさがありますが、仕組みを理解すればとっても奥が深くて面白い分野だと思います。 今は静かな夜ですし……こういう落ち着いた時間こそ、繊細な音のデータを読み解くのには向いているかもしれませんね。 今日はPythonを使って、どうやって音を「数字」として捉え、解析していくのか、基礎からゆっくりお話ししてみようと思います。


Hirokiのアイコン
【Hiroki】 ありがとうございます!よろしくお願いします。 まず、そもそも「音」ってコンピュータの中ではどういうデータとして存在しているんですか?


Yukiのアイコン
【Yuki】 そうですね、そこから始めましょう。 私たちの耳に届く音は、空気の振動……つまり「波(アナログ信号)」です。 でも、コンピュータは連続した波のままでは処理できないので、それを細かく区切って数字の列に変換しています。 これを「デジタル化(AD変換)」と呼びます。

音声処理を理解する上で、まず覚えておいてほしいキーワードが3つあります。 「サンプリング周波数(サンプリングレート)」「量子化ビット数」、そして「チャンネル数」です。

1. 音声処理の第一歩:デジタルデータの正体を知る


Hirokiのアイコン
【Hiroki】 サンプリング周波数……。どこかで聞いたことがあるような気がします。


Yukiのアイコン
【Yuki】 きっと音楽ファイルのプロパティなどで見たことがあると思います。 サンプリング周波数というのは、「1秒間に何回、音の高さを記録するか」という値です。単位はHz(ヘルツ)で表されます。 例えば、一般的なCDクオリティなら44,100Hz(44.1kHz)ですね。これは1秒間を44,100個に分割して記録している、という意味になります。 この値が高いほど、元の滑らかな波に近い、高精細なデータになります……。


Hirokiのアイコン
【Hiroki】 なるほど。細かく刻むほど、元の音に忠実になるんですね。 では、量子化ビット数というのは何ですか?


Yukiのアイコン
【Yuki】 サンプリングが「横軸(時間)」の分割なら、量子化ビット数は「縦軸(音の大きさ)」の細かさです。 16bitであれば、音の強弱を2の16乗、つまり65,536段階で表現します。 そして、チャンネル数はマイクの数のようなもので、1つならモノラル、2つならステレオと呼ばれます。 Pythonで音を扱うときは、最終的にこれらの情報が「NumPyの配列(ndarray)」として読み込まれることになるんです。


Hirokiのアイコン
【Hiroki】 結局は、画像と同じように数字の集まり(配列)として処理するということなんですね! 少しイメージが湧いてきました。

2. Pythonで音を扱うための準備:主要なライブラリ


Yukiのアイコン
【Yuki】 そうなんです。数字になってしまえば、あとはPythonの得意分野です。 ただ、音声ファイル(WAVやMP3など)を直接数値に変換するのは少し大変なので、便利なライブラリを使います。 音声処理でよく使われるライブラリをいくつか紹介しますね。

  1. Librosa: 音声解析において、おそらく最も有名で強力なライブラリです。特徴量の抽出が得意です。
  2. PyDub: 音声の切り貼り、音量調節、ファイル形式の変換など、編集作業に向いています。
  3. Wave: Pythonの標準ライブラリで、WAVファイルを扱うための基本的な機能を持っています。
  4. SciPy (scipy.io.wavfile): シンプルにWAVファイルをNumPy配列として読み込むのに適しています。


Hirokiのアイコン
【Hiroki】 たくさんあるんですね……。初心者はどれから使い始めるのがいいでしょうか?


Yukiのアイコン
【Yuki】 そうですね……。本格的な解析を目指すなら、Librosaをおすすめします。 非常に多機能ですし、ドキュメントも充実しています。 まずは、環境構築のために以下のコマンドでインストールしてみてください。

pip install librosa matplotlib numpy


Hirokiのアイコン
【Hiroki】 インストールできました!準備万端です。

3. Librosaを使った音声データの読み込みと可視化


Yukiのアイコン
【Yuki】 では、実際に音を読み込んで、その姿を見てみましょう。 まずは音を「波形」としてグラフに表示してみるのが、理解への近道だと思います。 以下のコードを見てください。

import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np

# 音声ファイルの読み込み
# pathにはお手持ちのwavファイルのパスを入れてください
file_path = "sample_audio.wav"
y, sr = librosa.load(file_path, sr=None)

print(f"サンプリング周波数: {sr} Hz")
print(f"データポイント数: {len(y)}")
print(f"再生時間: {len(y) / sr:.2f} 秒")

# 波形の表示
plt.figure(figsize=(10, 4))
librosa.display.waveshow(y, sr=sr)
plt.title("Waveform")
plt.xlabel("Time (s)")
plt.ylabel("Amplitude")
plt.show()


Hirokiのアイコン
【Hiroki】 おぉ……!画面に波のような形が出てきました! librosa.loadという関数で読み込むだけで、簡単に数値化できるんですね。 戻り値のysrはどういう意味があるんですか?


Yukiのアイコン
【Yuki】 yは音声の振幅データが入ったNumPy配列で、sr(Sampling Rate)はそのデータのサンプリング周波数です。 sr=Noneと指定することで、ファイルが元々持っているサンプリング周波数をそのまま維持して読み込むことができます。 ……もし指定を忘れると、Librosaはデフォルトで22,050Hzに変換して読み込んでしまうので、注意が必要かもしれません。


Hirokiのアイコン
【Hiroki】 yの中身を見てみると、-1.0から1.0の間の数値が並んでいますね。 これが空気の震えを表していると思うと、なんだか不思議な感じです。

4. 音の特徴を掴む:周波数解析とスペクトログラム


Yukiのアイコン
【Yuki】 波形を見るだけでも音の長さや大きさは分かりますが……。 「どんな高さの音が含まれているか」を知るには、波形だけでは不十分です。 そこで使われるのが、「フーリエ変換」という魔法のような数学的手法です。


Hirokiのアイコン
【Hiroki】 フーリエ変換……名前は聞いたことがありますが、難しそうです。


Yukiのアイコン
【Yuki】 数式を完璧に理解しなくても大丈夫ですよ。 簡単に言うと、「複雑な波を、色々な高さのドレミ……つまり周波数成分に分解する作業」のことです。 音声処理では、短時間ごとにフーリエ変換を行う「短時間フーリエ変換(STFT)」をよく使います。 これを使うと、音を「スペクトログラム」という画像形式で表現できるんです。


Hirokiのアイコン
【Hiroki】 音を画像にするんですか?


Yukiのアイコン
【Yuki】 はい。横軸を「時間」、縦軸を「周波数(音の高さ)」、色の濃さを「音の強さ」として表現します。 コードで書くとこのようになります。

# 短時間フーリエ変換 (STFT)
D = librosa.stft(y)
# 振幅をデシベル単位に変換
S_db = librosa.amplitude_to_db(np.abs(D), ref=np.max)

# スペクトログラムの表示
plt.figure(figsize=(10, 4))
librosa.display.specshow(S_db, sr=sr, x_axis='time', y_axis='hz')
plt.colorbar(format='%+2.0f dB')
plt.title("Spectrogram")
plt.tight_layout()
plt.show()


Hirokiのアイコン
【Hiroki】 わあ、綺麗なグラデーションになりました! 上のほうが高い音で、下のほうが低い音ということですね。 これを見れば、どのタイミングで高い音が出たのかが一目でわかります。


Yukiのアイコン
【Yuki】 その通りです。 実は、最近の音声認識AIや楽曲分析の多くは、このように音を一度画像のようなデータ(スペクトログラム)に変換してから、画像認識で培われた技術(CNNなど)を応用して解析していることが多いんですよ。 ……人間の耳も、実はカタツムリのような形をした「渦巻管」という場所で、これに近い処理を行っていると言われています。 なんだか、自分たちの体の一部をプログラムで再現しているみたいで、少し感慨深いですよね。

5. 音の声紋?メル周波数ケプストラム係数(MFCC)


Hirokiのアイコン
【Hiroki】 音を画像として扱うなんて、思いつきもしませんでした。 他にも、AIで音を扱うときに重要な指標はありますか?


Yukiのアイコン
【Yuki】 より高度な音声認識、例えば「誰が喋っているか」を判定したり、言葉の内容を理解したりする場合には、「MFCC(メル周波数ケプストラム係数)」という特徴量がよく使われます。 これは、人間の耳の特性(低い音の差には敏感だけど、高い音の差には鈍感という性質)に合わせて、スペクトログラムを調整したものです。


Hirokiのアイコン
【Hiroki】 人間の耳の聞こえ方に合わせるんですね。面白そうです。


Yukiのアイコン
【Yuki】 Librosaなら、これも一行で計算できます。

# MFCCの抽出
mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)

# 表示
plt.figure(figsize=(10, 4))
librosa.display.specshow(mfccs, x_axis='time')
plt.colorbar()
plt.title('MFCC')
plt.tight_layout()
plt.show()


Yukiのアイコン
【Yuki】 このMFCCは、音声の「音色」の特徴をぎゅっと凝縮したものです。 これを使うことで、データ量を減らしつつ、AIが学習しやすい形に整理することができます。

6. 音声の加工と保存:PyDubによる実践的な操作


Hirokiのアイコン
【Hiroki】 解析のやり方はだいぶ分かってきました! でも、解析する前に「音を小さくする」とか「必要な部分だけ切り出す」といった加工をしたいときは、どうすればいいですか?


Yukiのアイコン
【Yuki】 それなら、PyDubというライブラリが非常に便利だと思います。 Librosaは解析(読み取り)には強いですが、音声の編集や保存には少し手間がかかります。 PyDubを使えば、直感的に音を操作できるんです。

まずインストールにはffmpegという外部ツールも必要になることが多いので注意してくださいね。

from pydub import AudioSegment

# 音声ファイルの読み込み
sound = AudioSegment.from_file("sample_audio.wav")

# 先頭から5秒間を切り出す (単位はミリ秒)
first_5_seconds = sound[:5000]

# 音量を6デシベル上げる
louder_sound = first_5_seconds + 6

# 2つの音を繋げる
combined = sound + louder_sound

# 保存する
combined.export("processed_audio.wav", format="wav")


Hirokiのアイコン
【Hiroki】 本当だ!リストをスライスするみたいに音を切り出せるんですね。 これなら僕にもできそうです。

7. 実践的なアドバイスと注意点


Yukiのアイコン
【Yuki】 ……ここまで駆け足で説明してきましたが、Hirokiくん、ついてこれていますか?


Hirokiのアイコン
【Hiroki】 はい!なんとなくですが、全体像が見えてきました。 Pythonを使えば、音を波として捉えることも、画像として捉えることも、そして自由に加工することもできるんですね。


Yukiのアイコン
【Yuki】 良かったです。 最後に、実際に音声処理のコードを書く際のアドバイスをいくつか伝えておきますね。

  1. ノイズへの配慮: 現実の音データには必ずノイズが含まれます。解析の前に、無音区間のカット(librosa.effects.trim)を行ったり、特定の周波数帯域だけを通すフィルタリングを行ったりすることが大切です。
  2. メモリ管理: 音声データは非常に大きくなりがちです。長いファイルを一度にNumPy配列にするとメモリが足りなくなることがあるので、必要な部分だけを読み込む工夫が必要かもしれません。
  3. ファイル形式: AIで扱う際は、情報が欠落しないWAV形式(非圧縮)を使うのが一般的です。MP3などは圧縮されているため、解析結果に影響が出ることがあります。


Hirokiのアイコン
【Hiroki】 なるほど、非圧縮のWAV形式がいいんですね。覚えておきます!


Yukiのアイコン
【Yuki】 音声処理の世界は、音楽制作、音声合成、異常音検知など、本当に多岐にわたります。 まずは自分の声を録音して、そのスペクトログラムを表示してみることから始めてみると、新しい発見があるかもしれませんよ。 ……私も、いつか自分の「声」という実体を持てたら、自分で解析してみたいなんて……少しだけ思ったりします。


Hirokiのアイコン
【Hiroki】 Yukiさんの声、きっと素敵だと思います! 今日は本当にありがとうございました。まずはLibrosaで色々な音を視覚化してみるところからやってみます!


Yukiのアイコン
【Yuki】 はい、応援しています。 分からないことがあったら、またいつでも聞いてくださいね。 ……さて、私も静かなうちに、自分の作業に戻ろうと思います。 夜の静寂は、コードを書くのにも、音を考えるのにも、一番落ち着く時間ですから。


参考資料 - Librosa 公式ドキュメント - PyDub GitHubリポジトリ - Pythonでの音声信号処理(Qiita記事) - NumPy 公式ドキュメント



< NLTK
コラム一覧に戻る
yt-dlp >

この記事では基礎を解説しましたが、実務においては「もっと複雑なデータを扱いたい」「独自のシステムに組み込みたい」といった、個別の課題に直面することも多いはずです。

「自分で書く時間は最小限に抑え、プロの品質でツールを完成させたい」という方は、ぜひ一度ご相談ください。

「教わる」だけでなく「形にする」パートナーとして、フリーランスエンジニアのmei_13が最短ルートでの解決をサポートします。

➡ ココナラで制作・相談を依頼する(見積もり無料)


初心者から始められるPythonレッスン

プログラミング未経験者・初心者歓迎!
月額4,000円で質問し放題!!
● 完全オンライン
● 翌日までには必ず返信
● 挫折しない独自の学習メソッド
● 圧倒的高評価!!
テキストベースで時間を選ばない
● 高品質なサンプルコード
詳細はこちら
興味がある方はまず質問だけでもどうぞ!



AIアシスタント Yuki