01 멘토 소개
김찬란
•
Multimodal 인식팀
◦
Text-to-Image Generation
백열민
•
Multimodal 인식팀
◦
Text-to-Image Generation
김봉모
•
Multimodal 인식팀
◦
Text-to-Image Generation
이희열
•
Multimodal인식팀
◦
Text-to-Image Generation
◦
DL Model Serving
02 프로젝트 소개
저희는 이번 프로젝트를 통해 아래와 같은 기술을 개발하고 싶습니다.
•
현재 생성 모델의 기술 수준은 매우 높아졌으며, 대규모 데이터셋에서 학습한 컨셉의 고품질 이미지를 생성할 수 있습니다. 하지만, 매번 생성할 때마다 대상이 너무 크게 변합니다. 예를들어서, 강아지를 생성한다고 하면 매 생성 때마다 다른 강아지가 생성될 것입니다. 따라서 사용자는 자신의 컨셉(얼굴, 애완동물, 장소, 옷 등)을 활용하여 이미지를 생성하고자 할 때가 있습니다. 소수의 샘플 이미지를 통해 새로운 컨셉을 빠르게 학습하고, 이를 반영하는 것은 이미지 생성서비스에 사용자가 큰 만족감을 느낄 수 있습니다.
•
새로운 컨셉을 학습하고 적용하는 방법에는 Texutal Inversion, Hyper Network, Dreambooth, LoRA 등 다양한 방법들이 있습니다. 그런데, 적용하고자하는 새로운 컨셉이 2개 이상인 경우 mixing되어 나타나는 문제가 있습니다. 예를 들어 남녀 커플 2명을 학습하는 경우 두 얼굴의 개성이 섞여 나타나곤 합니다.
•
이를 개선하기 위한 다양한 시도들이 제시되고 있으며, 이러한 것들을 기술적으로 비교하고 개선을 시도하는 것이 이번 프로젝트의 목표입니다.
03 이런 Fellows를 찾습니다
•
최신 기술에 대한 높은 관심과 이해
•
기초적인 생성모델과 Stable Diffusion에 대한 이해