DiaCTC — Wav2Vec2 (ClArTTS)

Fine-tuned Wav2Vec2 CTC model for Arabic diacritic restoration from speech + undiacritized transcript, trained on ClArTTS (Classical Arabic).

This checkpoint is used with DiaCTC constrained WFST decoding. Try the interactive demo: DiaCTC Space.

Results (ClArTTS training)

Test set	WER ↓	DER ↓
ClArTTS	11.21	3.53
ArVoice	39.89	12.04

Base encoder: jonatasgrosman/wav2vec2-large-xlsr-53-arabic.

Usage

from diactc.models import Wav2Vec2DiacritizationModel

model = Wav2Vec2DiacritizationModel(
 "rufaelfekadu/diactc-wav2vec2-clartts",
 device="cuda",
 use_blank_token=True,
 use_no_diac_token=True,
 use_unk_diac_token=True,
)
text, rtf = model.diacritize(
 undiacritized_text,
 audio_path,
 constrained=True,
 method="wfst",
)

Citation

@article{marew2026constrained,
 title = {Constrained CTC Decoding for Efficient Diacritic Restoration},
 author = {Marew, Rufael and Keleg, Amr and Aldarmaki, Hanan},
 journal = {arXiv preprint arXiv:TBD},
 year = {2026}
}

Downloads last month: 84

Safetensors

Model size

0.3B params

Tensor type

F32

Model tree for rufaelfekadu/diactc-wav2vec2-clartts

Base model

jonatasgrosman/wav2vec2-large-xlsr-53-arabic

Finetuned

(21)

this model

URL: https://huggingface.co/rufaelfekadu/diactc-wav2vec2-clartts

⇱ rufaelfekadu/diactc-wav2vec2-clartts · Hugging Face

DiaCTC — Wav2Vec2 (ClArTTS)

Results (ClArTTS training)

Usage

Citation

Model tree for rufaelfekadu/diactc-wav2vec2-clartts

Dataset used to train rufaelfekadu/diactc-wav2vec2-clartts

Space using rufaelfekadu/diactc-wav2vec2-clartts 1