Abstract
Vietnamese has a phonetic orthography, where each grapheme corresponds to at most one phoneme and vice versa. Exploiting this high grapheme-phoneme transparency, we propose ViSpeechFormer (\textbf{Vi}etnamese \textbf{Speech} Trans\textbf{Former}), a phoneme-based approach for Vietnamese Automatic Speech Recognition (ASR). To the best of our knowledge, this is the first Vietnamese ASR framework that explicitly models phonemic representations. Experiments on two publicly available Vietnamese ASR datasets show that ViSpeechFormer achieves strong performance, generalizes better to out-of-vocabulary words, and is less affected by training bias. This phoneme-based paradigm is also promising for other languages with phonetic orthographies. The code will be released upon acceptance of this paper.
Abstract (translated)
Tiếng Việt có hệ thống chính tả âm thanh, nơi mỗi ký tự đối ứng với không quá một âm tiết và ngược lại. Lợi dụng tính trong suốt cao của sự tương ứng giữa các ký tự và âm tiết, chúng tôi đề xuất ViSpeechFormer (Việtnam Speech TransFormer), một phương pháp dựa trên âm tiết cho nhận dạng giọng nói tiếng Việt tự động (ASR). Theo kiến thức của chúng tôi, đây là khung ASR đầu tiên dành cho tiếng Việt mô hình hóa rõ ràng các biểu diễn âm tiết. Các thí nghiệm trên hai tập dữ liệu ASR Tiếng Việt công khai cho thấy ViSpeechFormer đạt được hiệu suất mạnh mẽ, tổng quát tốt hơn đối với từ ngoài danh sách và ít bị ảnh hưởng bởi thiên lệch huấn luyện. Phương pháp dựa trên âm tiết này cũng hứa hẹn cho các ngôn ngữ khác có hệ thống chính tả âm thanh. Mã nguồn sẽ được phát hành sau khi bài báo được chấp nhận.
URL
https://arxiv.org/abs/2602.10003