Our Mission
home
About us
home

08. Multi-concept text-to-image Generation

분야
AI
세부 설명
■ 연구 내용 - 이미지 생성시 컨셉을 유지/적용하는 방법(Texutal Inversion, Hyper Network, Dreambooth, LoRA 등)을 동시에 여러 컨셉으로 적용하면, 원치 않게 혼합되는 경우들이 발생합니다. 컨셉의 종류와 범위에 따라 서로에게 간섭을 최소화하여 원하는 대로 이미지를 생성하는 기술을 연구개발하고자 합니다. ■ 연구 목적 - Generative AI는 생성 품질면에서 많은 성장을 이루고, 서비스적으로도 활용되고 있습니다. 한가지 컨셉만을 적용하는 것은 현재 서비스에까지 적용되고 있지만, 2가지 이상의 컨셉을 적용하는 것은 도전적인 문제입니다. 이에 시행착오를 경험하는 것만으로도 큰 가치가 있으며, 문제를 해결할 경우 논문 발표 혹은 높은 기술 수준을 달성할 수 있습니다. ■ 활용 계획 - 멀티 컨셉을 활용한 이미지 생성 서비스 적용 ■ 관련 경험/역량 - 최신 기술에 대한 높은 관심과 이해 - 기초적인 생성모델과 Stable Diffusion에 대한 이해
과제 번호
08

01 멘토 소개

김찬란

Multimodal 인식팀
Text-to-Image Generation

백열민

Multimodal 인식팀
Text-to-Image Generation

김봉모

Multimodal 인식팀
Text-to-Image Generation

이희열

Multimodal인식팀
Text-to-Image Generation
DL Model Serving

02 프로젝트 소개

저희는 이번 프로젝트를 통해 아래와 같은 기술을 개발하고 싶습니다.
현재 생성 모델의 기술 수준은 매우 높아졌으며, 대규모 데이터셋에서 학습한 컨셉의 고품질 이미지를 생성할 수 있습니다. 하지만, 매번 생성할 때마다 대상이 너무 크게 변합니다. 예를들어서, 강아지를 생성한다고 하면 매 생성 때마다 다른 강아지가 생성될 것입니다. 따라서 사용자는 자신의 컨셉(얼굴, 애완동물, 장소, 옷 등)을 활용하여 이미지를 생성하고자 할 때가 있습니다. 소수의 샘플 이미지를 통해 새로운 컨셉을 빠르게 학습하고, 이를 반영하는 것은 이미지 생성서비스에 사용자가 큰 만족감을 느낄 수 있습니다.
새로운 컨셉을 학습하고 적용하는 방법에는 Texutal Inversion, Hyper Network, Dreambooth, LoRA 등 다양한 방법들이 있습니다. 그런데, 적용하고자하는 새로운 컨셉이 2개 이상인 경우 mixing되어 나타나는 문제가 있습니다. 예를 들어 남녀 커플 2명을 학습하는 경우 두 얼굴의 개성이 섞여 나타나곤 합니다.
이를 개선하기 위한 다양한 시도들이 제시되고 있으며, 이러한 것들을 기술적으로 비교하고 개선을 시도하는 것이 이번 프로젝트의 목표입니다.

03 이런 Fellows를 찾습니다

최신 기술에 대한 높은 관심과 이해
기초적인 생성모델과 Stable Diffusion에 대한 이해