Whisper Small Uyghur ASR Model

Fine-tuned Whisper-small model for Uyghur automatic speech recognition.

Model Description

This is a fine-tuned version of OpenAI Whisper Small specifically optimized for Uyghur language speech recognition using the THUYG-20 dataset.

Training Details

Base Model: openai/whisper-small
Dataset: THUYG-20 (Uyghur Speech Recognition Dataset)
Training Steps: 1000+
Language: Uyghur (Uyghur)
Task: Speech Recognition (Transcription)

Evaluation Results

Metric	Base Model	Fine-tuned
CER	17.94%	7.14%
WER	-	29.93%

Quick Start

Installation

pip install transformers datasets evaluate torch

Inference

import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor

# Load model and processor
model = WhisperForConditionalGeneration.from_pretrained("your-repo/whisper-small-uyghur")
processor = WhisperProcessor.from_pretrained("your-repo/whisper-small-uyghur")

# Forced decoder IDs for Uyghur transcription
forced_decoder_ids = [
    [1, 51865],  # Language: Uyghur
    [2, 50359],  # Task: transcribe
    [3, 50363]   # No timestamps
]

# Transcribe
inputs = processor(audio_array, sampling_rate=16000, return_tensors="pt")
generated_ids = model.generate(**inputs, forced_decoder_ids=forced_decoder_ids)
transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(transcription)

Training Configuration

per_device_train_batch_size: 8
gradient_accumulation_steps: 1
learning_rate: 5e-5
warmup_steps: 50
max_steps: 3000
fp16: True

Hardware

GPU: NVIDIA Tesla T4 (15GB VRAM)
Training batch size: 8

License

MIT License

Citation

If you use this model, please cite:

@misc{whisper-small-uyghur,
  author = {Your Name},
  title = {Whisper Small Uyghur ASR},
  year = {2026},
  publisher = {HuggingFace},
  url = {https://huggingface.co/your-repo/whisper-small-uyghur}
}

Downloads last month: 2

Safetensors

Model size

0.2B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support