모임 개요
- 일시: 2025년 03월 21일 16:30 ~ 19:30
- 장소: 자율주행스튜디오
- 참가자 명단: 전원 참가
- 사진


팀원별 활동 내용
- 김종민
- 공부한 내용:
- 최신 AI 음성 모델 연구 동향 및 Multi-Modal 학습 기법 심화
- Self-supervised learning을 활용한 음성 데이터 전처리 및 특성 추출 기법
- 기존 음성 모델(Whisper, Tacotron, WaveNet 등)과 최신 변형 모델 비교 분석
- 소감:
- 기존 연구를 넘어, 최신 딥러닝 기법들이 음성 처리에 어떻게 적용되는지 살펴보며 새로운 가능성을 발견할 수 있었습니다. 특히 self-supervised learning 기법의 잠재력에 큰 흥미를 느꼈습니다.
- 김성호
- 공부한 내용:
- Python의 고급 오디오 처리 라이브러리(torchaudio) 활용 심화
- 실시간 음성 데이터 처리 및 스트리밍 환경에서의 샘플링 기법 연구
- 음성 데이터를 활용한 머신러닝 파이프라인 구성 및 모델 평가 방법론 조사
- 소감:
- 기존의 기본 개념을 넘어서, 실시간 데이터 처리와 고급 라이브러리 활용법을 익히며 음성 데이터의 깊이 있는 분석이 가능하다는 점에 대해 새롭게 인식하게 되었습니다.
- 정성원
- 공부한 내용:
- 최신 TTS 아키텍처와 Neural Vocoder 기법 심화 분석
- End-to-End STT 파이프라인 구성 및 성능 개선을 위한 전이 학습(Transfer Learning) 적용 사례 연구
- AI 음성 변환 서비스의 실제 운영 환경에서의 문제점과 개선 방안 탐구
- 소감:
- 텍스트와 음성 간의 변환 기술이 단순한 기능을 넘어 복잡한 데이터 처리와 모델 최적화의 산물이라는 점을 깨달았습니다. 실제 운영 환경에서의 문제점을 미리 경험해봄으로써, 향후 기술 적용에 대한 통찰력을 얻을 수 있었습니다.
- 박수연
- 공부한 내용:
- 오디오 데이터의 고급 전처리 기법 및 딥러닝 기반 특징 추출 방법 심화
- 최신 음성 변환 모델의 한계와 에러 분석을 통한 개선 전략 연구
- 음성 인식 시스템에서 발생할 수 있는 노이즈 및 불필요한 잡음 제거 기법 조사
- 소감:
- 음성 데이터를 단순히 다루는 것을 넘어서, 복잡한 문제 상황에서의 개선 방안을 모색하는 과정이 매우 도전적이면서도 유익했습니다. 다양한 에러 케이스를 분석하며 실질적인 문제 해결 능력을 기를 수 있었습니다.
- 정찬우
- 공부한 내용:
- 오픈소스 TTS/STT 모델의 커스터마이징 및 파인튜닝(Fine-tuning) 기법 연구
- 노이즈 제거 및 데이터 증강(Data Augmentation)을 통한 모델 성능 향상 방안 탐구
- 음성 데이터 특성 분석을 위한 최신 알고리즘 및 라이브러리 활용 사례 조사
- 소감:
- 단순히 모델을 사용하는 데서 벗어나, 직접 파인튜닝과 커스터마이징을 통해 모델의 성능을 극대화하는 방법에 대해 깊이 고민해볼 수 있었습니다. 다양한 알고리즘을 비교 분석하며 한 단계 더 발전된 음성 기술의 가능성을 확인했습니다.