모임 개요
- 일시: 2025년 04월 11일 16:30 ~ 19:30
- 장소: 자율주행스튜디오
- 참가자 명단: 전원 참가
- 사진


-
김종민
공부한 내용:
- 음성·텍스트·영상 데이터를 동시에 학습시키는 멀티태스크 학습(Multi-task Learning) 기법을 도입해 보았습니다.
- Self-supervised pretraining으로 얻은 음성 표현을 downstream TTS 모델에 전이(Transfer)해 성능 변화를 관찰했습니다.
- Whisper, Tacotron, WaveNet, 그리고 Transformer 기반 모델들을 앙상블해 합성 음성의 자연스러움을 비교 평가했습니다.
소감:
- 멀티태스크 학습으로 모델이 다양한 정보를 동시에 배우면서 더 안정적이고 풍부한 음성 표현을 만들어내는 것을 확인했습니다.
-
김성호
공부한 내용:
- 실시간 스트리밍 환경에서 오디오 파이프라인을 마이크→서버→클라이언트 구조로 구성해 보았습니다.
- GPU 클러스터를 활용해 배치 처리(batch processing)와 스트리밍 처리를 병행하는 하이브리드 워크플로우를 실습했습니다.
- 대규모 음성 데이터셋을 여러 노드에 분산 저장하고, 각 노드에서 모델 평가를 자동화하는 스크립트를 작성했습니다.
소감:
- 하이브리드 처리 방식이 실제 서비스에서 안정성과 효율성을 모두 잡을 수 있음을 체감했습니다.
-
정성원
공부한 내용:
- End-to-End STT/TTS 파이프라인에 “도메인 어댑테이션(Domain Adaptation)” 레이어를 추가해, 서로 다른 화자·환경에서도 일관된 성능을 유지하도록 실험했습니다.
- Neural Vocoder의 latency(지연 시간)를 측정하고, 경량화(Quantization) 기법을 적용해 실시간 합성 속도를 개선했습니다.
- 서비스 로그를 분석해 실제 에러 패턴을 분류하고, 자동 리트라이(retry) 로직을 설계했습니다.
소감:
- 도메인 어댑테이션으로 화자마다 다른 음색을 잘 따라가는 것을 보고, 실전 서비스 품질 관리의 중요성을 느꼈습니다.
-
박수연
공부한 내용:
- 다양한 배경 잡음(카페, 거리, 실내 등) 데이터를 합성해 학습 데이터에 추가하고, 노이즈 강건성(robustness)을 테스트했습니다.
- 음향 특징 정규화 과정에서 스펙트로그램 정규화와 피치 보정(pitch correction)을 병행 적용해 모델 입력 품질을 높였습니다.
- 실제 음성 인식 시스템 로그를 기반으로 “자주 틀리는 발음” 패턴을 찾아내고, 그에 맞춘 전처리 파이프라인을 개선했습니다.
소감:
- 현실적인 잡음 환경을 적극 반영하니 모델이 더 견고해졌고, 작은 전처리 차이가 결과에 큰 영향을 준다는 것을 깨달았습니다.
-
한준교
공부한 내용:
- 오픈소스 TTS/STT 모델에 “스피커 임베딩(speaker embedding)” 레이어를 추가해, 특정 화자의 목소리를 더욱 정확히 재현하도록 파인튜닝했습니다.
- Data Augmentation 기법 중 “SpecAugment”과 “Mixup”을 적용해 음성 데이터 다양성을 높이고, 모델 과적합(overfitting)을 방지했습니다.
- TensorFlow Lite로 모델을 변환해 모바일 환경에서 테스트하고, 경량화된 모델의 성능과 품질을 비교했습니다.
소감:
- 스피커 임베딩을 넣으니 개인 목소리 재현력이 크게 향상되었고, 모바일 최적화 과정에서 경량화 기법의 실용성을 확인할 수 있었습니다.