OpenAI Whisper, state-of-the-art automatic speech recognition (ASR) modelidir. 99 dilde yüksek doğrulukla konuşmayı metne çevirir. API ve açık kaynak model olarak kullanılabilir.
Whisper Özellikleri
- 99 dilde transkripsiyon
- Çeviri (herhangi dil → İngilizce)
- Timestamp'li çıktı
- Gürültülü ortamlarda dayanıklılık
- Çeşitli aksanlara uyum
Model Boyutları
| Model | Parametre | VRAM |
|---|---|---|
| tiny | 39M | ~1GB |
| base | 74M | ~1GB |
| small | 244M | ~2GB |
| medium | 769M | ~5GB |
| large-v3 | 1.5B | ~10GB |
OpenAI API Kullanımı
from openai import OpenAI
client = OpenAI()
# Transkripsiyon
audio_file = open("konusma.mp3", "rb")
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
response_format="verbose_json",
timestamp_granularities=["segment"]
)
print(transcript.text)
Yerel Kullanım
# Kurulum
pip install openai-whisper
# Python
import whisper
model = whisper.load_model("medium")
result = model.transcribe("audio.mp3", language="tr")
print(result["text"])
# CLI
whisper audio.mp3 --model medium --language Turkish
Uygulama Alanları
- Meeting transkripsiyon
- Podcast/video altyazı
- Voice-to-text input
- Call center analytics
- Accessibility (işitme engelli)
- Dil öğrenme uygulamaları
faster-whisper
# 4x hızlı implementasyon
from faster_whisper import WhisperModel
model = WhisperModel("large-v3", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", language="tr")
for segment in segments:
print(f"[{segment.start:.2f}s - {segment.end:.2f}s] {segment.text}")
Best Practices
- Ses kalitesi önemli (16kHz+)
- Uzun dosyaları chunk'layın
- Language hint verin
- GPU kullanın (CPU yavaş)
Whisper, ses tanımada game-changer. Açık kaynak yapısıyla yerel deployment mümkün.