TTS là gì (Text To Speech)

Nguồn: Internet
Người gửi: Mi brand
Ngày gửi: 14h:23' 01-08-2021
Dung lượng: 21.5 KB
Số lượt tải: 0
Mô tả:
Trong giới công nghệ thường nhắc tới khái niệm TTS. Vậy TTS là gì? Bài viết này chúng ta sẽ cùng tìm hiểu chi tiết về TTS và các thành phần liên quan đến nó.
1. TTS là gì?
TTS trong tiếng anh là Text To Speech, hay có thể hiểu TTS là công nghệ chuyển văn bản thành giọng nói. Hoặc có thể hiểu TTS là việc tạo ra giọng nói giống như của con người từ đầu vào là văn bản hay các mã hóa việc phát âm (Hay còn được gọi là tổng hợp giọng nói).
2. Công nghệ tổng hợp giọng nói
Hai tính chất quan trọng của chất lượng hệ thống tổng hợp giọng nói là mức độ tự nhiên và mức độ dễ nghe. Mức độ tự nhiên của giọng nói tổng hợp chỉ đến sự giống nhau giữa giọng tổng hợp và giọng nói tự nhiên của người thật. Mức độ dễ nghe chỉ đến việc câu phát âm có thể hiểu được dễ dàng không.
Một máy tổng hợp giọng nói lý tưởng cần vừa tự nhiên vừa dễ nghe, và mục tiêu xây dựng máy tổng hợp giọng nói là làm gia tăng đến mức tối đa hai tính chất này. Một số hệ thống thiên về mức độ dễ nghe hơn, hoặc mức độ tự nhiên hơn; tùy thuộc vào mục đích mà công nghệ được lựa chọn. Có hai công nghệ chính được dùng là tổng hợp ghép nối và tổng hợp cộng hưởng tần số; ngoài ra cũng có một số công nghệ khác.
3. Ngôn ngữ đánh dấu cho tổng hợp giọng nói (TTS)
Có nhiều ngôn ngữ đánh dấu đã được hình thành cho việc tạo giọng nói từ văn bản, phù hợp với chuẩn XML. Một ví dụ cho ngôn ngữ kiểu này là SSML được W3C đề xuất. Các ngôn ngữ đánh dấu cũ hơn có SABLE và JSML. Các ngôn ngữ này đều được đề xuất là chuẩn chung, nhưng chưa có ngôn ngữ nào được dùng đủ rộng rãi để thiết lập thành chuẩn chung. Một tập con của CSS 2 chứa ACSS cũng phục vụ mục đích tổng hợp giọng nói.
Ngôn ngữ đánh dấu tổng hợp giọng nói khác với ngôn ngữ đánh dấu đàm thoại (như VoiceXML). Các ngôn ngữ đánh dấu đàm thoại, ngoài chứa các thông tin chuyển văn bản sang giọng nói, còn có các thẻ cho phép nhận dạng giọng nói, quản lý đàm thoại và thông tin về quay số điện thoại bằng âm thanh.


Các ý kiến mới nhất