모임 개요
- 일시: 2025년 04월 04일 16:30 ~ 19:30
- 장소: 복지관 311
- 참가자 명단: 전원 참가
- 사진


-
김종민
공부한 내용:
- 음성, 텍스트, 영상 데이터를 함께 분석하는 방법을 연구해 보았습니다.
- Self-supervised learning 기법을 실제 음성 합성 실험에 적용해 보면서, 여러 데이터가 어떻게 서로 도움을 주는지 살펴보았습니다.
- Whisper, Tacotron, WaveNet 등 기존 모델과 Transformer 기반 새로운 모델들을 같이 사용해 성능 차이를 비교했습니다.
소감:
- 여러 종류의 데이터를 함께 사용하면서 나타나는 시너지 효과를 확인할 수 있었고, 앞으로의 연구 방향에 대한 아이디어를 얻었습니다.
-
김성호
공부한 내용:
- librosa, torchaudio, pyannote.audio 같은 고급 라이브러리를 사용해, 실시간 스트리밍 환경에서 음성 신호를 처리하는 방법을 배웠습니다.
- GPU를 활용해 데이터를 빠르게 처리하는 분산 처리 방법도 실습해 보았습니다.
- 대량의 음성 데이터를 사용해 모델의 성능을 평가하고, 개선할 수 있는 방법을 찾았습니다.
소감:
- 실제 환경에서 음성 데이터를 처리해보니, 정교한 전처리와 빠른 데이터 처리가 얼마나 중요한지 느낄 수 있었습니다.
-
정성원
공부한 내용:
- End-to-End 방식의 STT/TTS 시스템에 전이 학습을 적용해 다양한 환경에서도 잘 작동하는 모델을 만드는 방법을 연구했습니다.
- Neural Vocoder의 성능을 높이기 위해 여러 조건에서 테스트하는 방법을 실습했습니다.
- 실제 서비스에서 발생하는 문제들을 해결하기 위한 개선 방안을 모색했습니다.
소감:
- 이론과 실습을 통해, 실제 운영 환경에서 문제가 생겼을 때 어떻게 대처해야 하는지 구체적으로 배울 수 있었습니다.
-
박수연
공부한 내용:
- 잡음 제거와 음향 특징 정규화 같은 오디오 데이터 전처리 기법을 심화 학습했습니다.
- 음성 변환 모델이 잘못된 결과를 내는 원인을 분석하는 방법을 실습하며, 잡음에 강한 알고리즘을 연구했습니다.
- 실제 음성 인식 시스템에서 발생하는 문제들을 해결하기 위한 방법을 찾아보았습니다.
소감:
- 다양한 상황에서 음성 데이터를 다루어 보면서, 실제 문제를 해결하는 능력이 크게 향상되었습니다.
-
한준교
공부한 내용:
- 오픈소스 TTS/STT 모델을 실제 데이터에 맞게 조정하는 방법을 배웠습니다.
- 노이즈 제거와 데이터 증강 기법을 사용해 모델의 성능을 높이는 방법을 실습했습니다.
- 최신 라이브러리(TensorFlow, PyTorch 등)를 활용해 모델을 더욱 개선하는 실험을 진행했습니다.
소감:
- 모델을 세밀하게 조정하면서 이론이 실제 성능에 미치는 영향을 체감할 수 있었고, 실무에 적용하기 위한 좋은 경험을 쌓았습니다.