모임 개요
- 일시: 2025년 03월 28일 16:30 ~ 19:30
- 장소: 자율주행스튜디오
- 참가자 명단: 전원 참가
- 사진


팀원별 활동 내용
- 김종민
- 공부한 내용:
- 최신 Multi-Modal 딥러닝 기법을 음성, 텍스트, 영상 데이터를 융합하여 분석하는 방법론 연구
- Self-supervised learning 기법을 실제 음성 모델 학습 파이프라인에 적용하는 실험 설계 및 결과 해석
- Whisper, Tacotron, WaveNet 등 기존 음성 모델과 최근 Transformer 기반 변형 모델들의 학습 효율 및 성능 비교 분석
- 소감:
- 기존 이론을 실제 연구 데이터와 실험 결과로 연결하는 과정이 매우 도전적이었지만, 복합 데이터 융합의 잠재력을 직접 확인하며 앞으로의 연구 방향에 대한 통찰력을 얻었습니다.
- 김성호
- 공부한 내용:
- Python의 고급 오디오 처리 라이브러리(librosa, torchaudio, pyannote.audio)를 활용해 실시간 스트리밍 환경에서의 음성 신호 전처리 및 특성 추출 심화
- GPU 가속 기반의 실시간 음성 데이터 처리 파이프라인 구축 실습 및 오디오 신호의 고차원 분석 기법 적용
- 대용량 음성 데이터셋을 활용한 모델 평가 및 성능 지표 개선 방법론 연구
- 소감:
- 고급 라이브러리와 실시간 처리 기법을 직접 구현해보며, 데이터 전처리의 세밀함이 모델 성능에 미치는 영향을 체감할 수 있었습니다. 이를 통해 실무 적용 가능성이 크게 확장됨을 느꼈습니다.
- 정성원
- 공부한 내용:
- 최신 End-to-End STT 및 TTS 파이프라인에서 전이 학습(Transfer Learning) 기법 적용 사례를 분석하고, 대규모 데이터셋 기반의 모델 최적화 전략 연구
- Neural Vocoder의 성능 개선을 위한 실시간 피드백 및 다중 조건 학습법 실습
- 실제 서비스 운영 환경에서 발생하는 지연 및 에러 케이스를 분석하고, 이를 해결하기 위한 아키텍처 개선 방안 모색
- 소감:
- 단순 기능 구현을 넘어, 실전 환경에서의 문제 해결 과정을 경험하며 이론과 실습의 결합이 기술 발전에 얼마나 중요한지 깨달았습니다. 전이 학습을 통한 성능 개선의 다양한 가능성에 매료되었습니다.
- 박수연
- 공부한 내용:
- 오디오 데이터의 고급 전처리 기법(예: 잡음 제거, 음향 특징 정규화)과 딥러닝 기반 특징 추출의 최신 알고리즘 심화
- 음성 변환 모델의 에러 원인을 체계적으로 분석하는 프레임워크 설계 및 실습, 특히 잡음 및 외란에 대한 대응 전략 연구
- 실제 음성 인식 시스템에서 발생하는 예외 케이스를 분석하고, 이를 개선하기 위한 알고리즘적 접근 방법 탐구
- 소감:
- 이론과 함께 다양한 실습 사례를 통해, 음성 데이터의 복잡성을 정밀하게 분석하는 능력이 크게 향상되었습니다. 다양한 에러 케이스를 다루며 실질적인 문제 해결 역량을 체험할 수 있었습니다.
- 정찬우
- 공부한 내용:
- 오픈소스 TTS/STT 모델의 커스터마이징 및 파인튜닝 기법을 최신 논문 기반으로 심화 분석하고, 실제 데이터셋에 적용하는 실습 진행
- 노이즈 제거 및 데이터 증강(Data Augmentation)을 통한 모델 성능 최적화 전략 연구 – 특히, adversarial training을 도입한 사례 분석
- 음성 데이터 특성 분석을 위한 최신 알고리즘과 라이브러리(TensorFlow, PyTorch, Hugging Face Transformers 등) 활용 심화
- 소감:
- 모델의 파인튜닝과 커스터마이징 과정에서 다양한 하이퍼파라미터 조절 및 데이터 증강 기법을 직접 적용해보며, 이론적 지식이 실제 성능에 어떻게 반영되는지 깊이 이해할 수 있었습니다. 기술의 세밀한 조정이 실무에서 얼마나 큰 차이를 만드는지 확인하는 귀중한 경험이었습니다.