【Pythonコラム】Pythonで始める音声処理入門：音と友達になろう！

トップページ>コラム一覧>【Pythonコラム】Pythonで始める音声処理入門：音と友達になろう！

Pythonで始める音声処理入門：音と友達になろう！

「音声処理」と聞くと、なんだか難しそうなイメージを持つかもしれません。でも、大丈夫！Pythonを使えば、初心者でも気軽に音声の世界に足を踏み入れることができます。今回は、Pythonを使った音声処理の基本的な概念や、簡単なサンプルコードを通して、音声処理の楽しさを体験してみましょう。

音声処理って何？

音声処理とは、コンピュータを使って音声を分析、加工、生成する技術のことです。身近なところでは、スマートフォンの音声アシスタント、音楽制作ソフト、ノイズキャンセリング機能などが音声処理の応用例として挙げられます。

Pythonで音声処理を始める準備

Pythonで音声処理を行うためには、いくつかのライブラリが必要になります。

librosa: 音声データの分析や特徴抽出に特化した強力なライブラリです。
sounddevice: スピーカーやマイクを使って音声を録音・再生するためのライブラリです。
scipy: 科学技術計算ライブラリ。音声データの読み書きや信号処理に利用します。
numpy: 数値計算ライブラリ。音声データを効率的に扱うために必要です。

これらのライブラリは、pipを使って簡単にインストールできます。

pip install librosa sounddevice scipy numpy

音声データの読み込みと再生

まずは、音声ファイルを読み込んで再生してみましょう。librosaを使うと、簡単に音声ファイルを読み込むことができます。

import librosa
import sounddevice as sd
import numpy as np

# 音声ファイルを読み込む
audio_file = librosa.ex('trumpet') # librosaにサンプル音源があります。

y, sr = librosa.load(audio_file)

# y: 音声データ (numpy array)
# sr: サンプリングレート (1秒あたりのサンプル数)

# 音声を再生する
sd.play(y, sr)
sd.wait() # 再生が終わるまで待機

このコードでは、librosa.load()関数を使ってaudio_fileで指定された音声ファイルを読み込み、yに音声データ、srにサンプリングレートを格納しています。そして、sounddevice.play()関数を使って音声を再生しています。sd.wait()は、音声の再生が終わるまでプログラムの実行を一時停止するために使用します。

音声データの可視化

音声データを波形として可視化してみましょう。matplotlibを使うと、簡単にグラフを描画できます。

import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np

# 音声ファイルを読み込む
audio_file = librosa.ex('trumpet')
y, sr = librosa.load(audio_file)

# 波形を描画する
plt.figure(figsize=(12, 4))
librosa.display.waveshow(y, sr=sr)
plt.title('Waveform')
plt.xlabel('Time (s)')
plt.ylabel('Amplitude')
plt.show()

このコードでは、librosa.display.waveshow()関数を使って音声データの波形を描画しています。plt.title(), plt.xlabel(), plt.ylabel()でグラフのタイトルや軸ラベルを設定し、plt.show()でグラフを表示します。

周波数分析：フーリエ変換

音声データを周波数成分に分解するために、フーリエ変換を行います。numpy.fftモジュールを使うと、簡単にフーリエ変換を実行できます。

import librosa
import numpy as np
import matplotlib.pyplot as plt

# 音声ファイルを読み込む
audio_file = librosa.ex('trumpet')
y, sr = librosa.load(audio_file)

# フーリエ変換を実行する
fft = np.fft.fft(y)

# 周波数軸を作成する
freq = np.fft.fftfreq(y.size, d=1/sr)

# 片側スペクトルを表示する
plt.figure(figsize=(12, 4))
plt.plot(freq[:len(freq)//2], np.abs(fft[:len(fft)//2]))
plt.title('Frequency Spectrum')
plt.xlabel('Frequency (Hz)')
plt.ylabel('Amplitude')
plt.show()

このコードでは、np.fft.fft()関数を使ってフーリエ変換を実行し、np.fft.fftfreq()関数を使って周波数軸を作成しています。そして、周波数と振幅の関係をグラフで表示しています。

最後に

今回は、Pythonを使った音声処理の基本的な部分を紹介しました。今回紹介した内容以外にも、ノイズ除去、音声認識、音楽生成など、音声処理には様々な応用分野があります。ぜひ、色々なライブラリを試したり、独自のアイデアを形にしたりして、音声処理の世界を探求してみてください。最初は難しいかもしれませんが、少しずつステップアップしていくことで、きっと面白い発見があるはずです！

< NLTK

コラム一覧に戻る

yt-dlp >

レッスン概要

◯月額4,000円で質問し放題!!
◯完全オンライン
◯翌日までには必ず返信
◯挫折しない独自の学習メソッド
◯圧倒的高評価!!
◯テキストベースで時間を選ばない
◯高品質なサンプルコード
詳細はこちら
興味がある方はまず質問だけでもどうぞ!