Konsep Dasar: Pitch dan Frekuensi Dasar (F0)
Pitch adalah persepsi tinggi atau rendahnya suara. Secara teknis, pitch berkaitan dengan frekuensi dasar getaran pita suara yang disebut Fundamental Frequency (F0) dan diukur dalam Hertz (Hz). Pita suara adalah struktur biologis; ketegangan otot, aliran udara, posisi tubuh, dan artikulasi memengaruhi hasil getarannya. Karena sifatnya yang dinamis, nilai F0 tidak pernah benar-benar identik pada dua pengucapan yang berbeda, bahkan ketika katanya sama.
Mengapa Pitch Dapat Berubah Antar Rekaman?
Perubahan pitch antar rekaman adalah bagian dari intra-speaker variability (variabilitas alami dalam diri pembicara yang sama). Tabel ringkas berikut merangkum faktor umum penyebab pergeseran pitch:
| Faktor | Dampak terhadap Pitch (F0) |
|---|---|
| Kondisi fisik (segar, lelah, tegang) | Mengubah tegangan pita suara; pitch dapat bergeser alami |
| Pola napas & tekanan udara | Mempengaruhi kestabilan getaran pita suara |
| Posisi tubuh & artikulasi | Perubahan kecil di laring dapat menggeser F0 |
| Intensitas suara (lebih tegas/lebih pelan) | Dapat menaikkan/menurunkan F0 dalam batas wajar |
| Kondisi perekaman | Jarak mikrofon & akustik ruang memengaruhi estimasi F0 |
Kesimpulannya, mengharapkan nilai pitch yang persis sama di dua rekaman dari pembicara yang sama tidak realistis.
Apa Itu delta pitch?
Delta pitch adalah selisih antara nilai pitch rata-rata (F0) pada dua rekaman yang dibandingkan. Misal: Rekaman A = 118 Hz, Rekaman B = 140 Hz, maka delta pitch = 22 Hz. Selisih semacam ini tidak serta-merta menandakan dua pembicara yang berbeda; perlu dilihat dalam konteks variasi vokal manusia.
Rentang Variasi Pitch yang Masih Dianggap Alami
Literatur fonetik menunjukkan bahwa pergeseran pitch tertentu masih dapat dikategorikan sebagai variasi alami pembicara yang sama. Peterson & Barney (1952) mendokumentasikan kisaran rata-rata pitch pria di sekitar 110 Hz ± 20 Hz dan wanita di sekitar 220 Hz ± 30 Hz. Nolan (1983) menekankan sifat fluktuatif pitch antar rekaman, sementara Kinoshita et al. (2009) menunjukkan bahwa dua rekaman dari pembicara yang sama bisa memiliki distribusi pitch yang bergeser secara horizontal (delta pitch), tetapi pola akustiknya masih serupa.
Dengan mengacu pada pengamatan tersebut, kisaran sekitar 20–30 Hz sering digunakan sebagai gambaran variasi yang masih wajar bagi pembicara yang sama. Ini adalah referensi observasional, bukan standar baku.
Rasionalitas Nilai Referensi sekitar 25 Hz
Angka sekitar 25 Hz dipakai sebagian praktisi sebagai representasi tengah dari rentang variasi alami tadi. Tujuannya bukan untuk menetapkan angka mutlak, melainkan memberi pegangan awal yang masuk akal. Tiga pertimbangan ringkas:
- Statistik populasi: pria ~110±20 Hz, wanita ~220±30 Hz → tengahnya sekitar 25 Hz.
- Persepsi nada: perubahan pada kisaran ini biasanya belum mengubah karakter dasar suara.
- Perbandingan antar-individu: selisih pitch antarpembicara berbeda umumnya jauh lebih besar (sering > 50–80 Hz).
Ilustrasi Persepsi: delta pitch dan Skala Semitone
Perubahan pitch juga bisa dilihat dalam skala semitone (logaritmik), yang merepresentasikan persepsi nada manusia. Rumus yang lazim dipakai:
Semitone = 12 × log₂(F₂ / F₁)
Contoh ilustratif (bukan patokan wajib): jika F₁ = 120 Hz dan F₂ = 145 Hz (delta pitch ≈ 25 Hz), maka perubahan ≈ 3 semitone. Dalam kajian persepsi, pergeseran hingga sekitar 2–3 semitone pada suara bicara umumnya masih berada pada batas perubahan yang tidak mengubah karakter dasar suara. Ilustrasi ini membantu menjelaskan mengapa perbedaan sekitar “20–30 Hz” sering masih dapat diterima sebagai variasi wajar tanpa menjadikannya angka keharusan.
Delta pitch sebagai Indikator Variasi, Bukan Penentu Identitas
Pitch bersifat dinamis. Karena itu, delta pitch lebih tepat dipahami sebagai indikator variasi vokal daripada penentu identitas. Jika selisih berada di kisaran moderat (mis. sekitar 20–30 Hz), hal ini dapat dipandang sebagai variasi alami. Selisih yang jauh lebih besar dari kisaran tersebut dapat mendorong pemeriksaan lebih lanjut terhadap aspek lain dari suara, sesuai kebutuhan analisis. Prinsip utamanya: gunakan “sekitar 25 Hz” sebagai referensi untuk memahami dinamika suara manusia bukan sebagai angka mutlak.