Speech Tasks

Automatic Speech Recognition (ASR) – 음성을 텍스트로 변환
- 예시: 유튜브 자동 자막 생성, 음성 비서(Siri, Google Assistant)가 사용자의 말을 텍스트로 변환
Speech Translation (ST) – 한 언어의 음성을 다른 언어로 번역
- 예시: 한국어로 말하면 영어 자막이 생성되는 실시간 번역 앱
Speaker Identification (SID) – 발화자의 신원을 확인
- 예시: 전화 고객센터에서 발성만으로 본인 인증, 여러 사람이 말하는 회의에서 각 화자의 신원 파악
Text-to-Speech (TTS) – 텍스트를 자연스러운 음성으로 변환
- 예시: 네비게이션 음성 안내, 시각장애인을 위한 전자책 낭독
Voice Conversion (VC) – 한 화자의 음성을 다른 화자의 음성으로 변환
- 예시: 특정 배우의 목소리를 유지하면서 다른 언어로 더빙, 감정을 반영한 음성 스타일 변환
Speech Enhancement (SE) – 음성 신호에서 잡음을 제거하거나 음질 개선
- 예시: 화상회의에서 배경 소음을 제거하는 기능, 오래된 녹음 파일의 음질 복원