01 멘토 소개
[참고] 장ㅇㅇst. profile 사진 (feat.생성AI 기술)
황문경
AI서비스사업부 | AI Assistant | 미디어서비스 | 미디어Tech
•
에이닷 미디어 AI Shorts 서비스 담당
•
다수 영상처리 프로젝트 수행
정지연
AI서비스사업부 | AI Assistant | 미디어서비스 | 미디어Tech
•
에이닷 미디어 AI Shorts 서비스 - AI엔진 개발
•
근본있는 SKT 공채 & Infra 출신 (말다했지모)
기타
•
AI Fellowship 3기 멘토
◦
흑백 이미지 Colorization 기술 개발 및 상용화
◦
최우수상 수상
◦
특허 출원 및 논문 발표(2023 AAAI Poster)
02 프로젝트 소개
#1. 우리가 함께 할 연구, Virtual Try-On
기술 콘셉은 심플그잡채
REFERENCE 1 Outfit Anyone: Ultra-high quality virtual try-on for Any Clothing and Any Person
e-Commerce 활성화를 위해 Virtual Try-On 서비스를 도입하고 있는 유명한 패션, 악세사리, 뷰티 업체들이 증가하고 있습니다. 온라인상에서 사용자가 실제 상품을 fitting 하지 못하는 한계를 극복하고 오프라인보다 수월하게 fitting/make-up을 가상으로 시도할 수 있는 사용자 친화적인 서비스를 선보이고 있습니다.
학계에서는 열심히 모델 개발 중 그리고 패션&뷰티 산업계에서는 이미 활발한 상용 서비스 중
#take_my_money
연구 방향성
Computer Vision 분야에서 GAN 기반의 연구들이 Virtual Ttry-On 태스크의 성능 향상에 기여했음에도 불구하고, 상용 서비스에 접목 하기에는 다소 아쉬운 부분들이 있었습니다. 최근 Diffusion 기반의 Virtual Try-On 기술 연구 및 개발이 공개 됨에 따라 보다 Realistic한 결과가 나타나고 있습니다. 드!디!어! 서비스에 본 기술을 접목할 시기가 온 것 같다고 생각되어 에이닷향 신규 서비스 발굴을 위한 PoC 연구를 함께 하고자 합니다.
REFERENCE 2 Google's Training Model for Virtual Try-On
하지만 여전히 General 서비스 상용화를 위해 해결해야 할 숙제가 많이 남아있다고 판단하고 있습니다. 현재 에이닷에서 취급하는 스포츠 영상에서의 인물들은 자세가 역동적인 경우가 많아 기존 SOTA 기술로 상용서비스를 커버하기 어려운 점이 있기 떄문이죠. Diffusion 모델 기반의 Virtual Try-On 네트워크에 대한 추가 학습을 통해 인물의 체형 혹은 의류 형태의 아티팩트를 최소할 수 있도록 고도화 개발에 집중하려 합니다. 또한 논문에서 어필하는 단순 정량적인 성능 지표보다는 주관적 User-Study를 통해 최적의 Model과 Chcekpoint를 찾고자 합니다.
TO DO LIST
•
Virtual Try-On 관련 기술 동향 파악 및 분석
•
차별화 방안 모색 및 기술 구현
•
Target 서비스에 Customization하기 위한 추가 학습 및 추론 테스트
•
간단한 App Demo 준비
#2. 멘토들이 일하는 조직, A. 미디어서비스
에이닷 AI Shorts 서비스
A.미디어 캡쳐 화면 AI Shorts (프로야구, 프로농구, 프로골프)
짧은 시간에 강렬한 임팩트를 전달하는 숏폼을 자동으로 생성할 수 있는 미디어 서비스를 하고 싶었습니다.
그래서 저희는 핵심적인 시간적 구간에 대해 가로형 Long-form 콘텐츠를 세로형 Short-form으로 자동으로 생성할 수 있는 AI숏폼 기술을 개발하여 에이닷에서는 AI Shorts라는 서비스를 개발 및 운영하고 있습니다. 현재는 편집이 가능한 스포츠 중계 영상 타겟으로 프로야구, 농구, 프로골프로 AI 미디어 상용 서비스 종목을 확장하고 있습니다.
AWS 환경에서 AI Reframe, Speech-to-Text와 LLM을 활용한 자동 Captioning 생성, Image Retreival 등 다양한 AI엔진들을 통합한 시스템을 구축하여 본 서비스를 개발하고 있어요. 서비스 런칭 이후에도 조금이라도 더 나은 아이디어가 있다면 agile하게 서비스에 반영하는 업무에 희열을 느낀답니다..
A.미디어서비스 팀은 무슨 일을 할까요?
에이닷 사용자들의 미디어 서비스 경험을 더욱 풍부하게 만드는 미디어 AI기술을 개발하고 있습니다. 저희가 담당하고 있는 AI Shorts 서비스 외에도 영상 내 하이라이트를 자동으로 추출하는 AI Highlight와 사용자 선호도 기반 콘텐츠 추천 및 serving하는 AI Curation 기술 등을 서비스하고 있습니다.
✱평소에 관심있거나 궁금한 AI기술, AWS시스템, 서비스가 있다면 아주 자연스럽게 담당자 연결해 드림
#3. 우리가 함께 이루고자 하는 목표, 성장
커머스향 미디어 기술의 Potential 120%만 끌올하기!
OOTD Diffusion결과 PoC
🅞🅑🅙🅔🅒🅣🅘🅥🅔
현재 버젼에서는 골프웨어 구매 욕구 뿜뿜할 수 있도록 Virtual Try-On 기술을 활용한 AI 숏폼 콘텐츠를 생성하여 에이닷 내에 상용화 할 수 있는 서비스를 기획하고 있습니다.
서비스 기획은 기술 파급효과에 따라 추후에 변동 가능성 있습니다
🅖🅡🅞🅦🅣🅗
확실한 동기부여와 Output으로 여러분의 포트폴리오에 도움이 될 수 있는 멘토링 약속
Virtual Try-On 프로젝트 하면서 우리 함께 쑥쑥- 성장해보아요
03. 이런 Fellows들로 구성된 팀을 찾아요!
기본 역량
Computer Vision 기반의 Video/Image Processing 연구 개발 경험 있는 분
Generative AI 연구 및 개발 경험 있는 분
Python 자유자재 활용 가능
우대 사항
App(iOS or AOS) 개발 혹은 데모 App 개발 가능하신 분
특허 출원 및 논문 투고 경험 있으신 분
그렇게 까다롭지 않다고 생각했는데 꽤 까다롭네요? 팀원별로 잘하는 거 하나라도 있다면 합격 목걸이 드림
04. Reference
FAQ
Q1. virtual try-on task 관련 : 해당 task가 image 생성까지인지 아니면 더 나아가 video 생성까지 인지 궁금합니다. 아무래도 연구 계획서 작성 시에 image 생성과 video 생성은 비슷하지만 조금은 다르게 접근을 해야될거같아서 둘다를 함께 고려해야할지, 아니면 하나만 고려해서 작성해야 하는지 궁금합니다.
A1. image와 video 입력에 대해서 접근 방법이 다를 수 있고, image에 비해 video 처리 기술 난이도가 높을 것 같습니다. 우선은 image에 초점을 두고 기술 완성도를 높이는 것에 집중하고자 합니다.
하지만 image기반의 Virtual Try-on 기술 개발을 하면서 video 기반의 기술로 고도화 할 수 있는 방안을 같이 고민하고 연구하려는 팀에게 가산점을 줄 것 같습니다
Q2. datasets 관련 : masking data 같은 경우는 이미 구축이 되어있는 것인지, 아니면 저희가 과제를 참여했을 때 masking까지도 해야되는 것인지가 궁금합니다.
A2. 공개되어 있는 data를 활용할 예정입니다. 혹은 모델의 성능을 customizing하거나 fine-tuning을 위해서 일부 masking dataset을 생성이 필요할 수도 있습니다.
Q3. 현재 에이닷 앱에서 사용하는 virtual try on 서비스의 아키텍쳐나 구체적인 모델을 알 수 있을까요? 관련 논문을 찾아보고 있는데 사용하는 아키텍쳐마다 특징이 달라서, 조금더 상세한 조건을 알면 공부하기 좋을것 같습니다.
A3. 특정 아키텍쳐를 제한하고 있지 않고 본 프로젝트를 통해 Diffusion기반의 SOTA 기술들을 리서해서 우리의 서비스 시나리오에 활용하기에 적합한 아키텍쳐를 찾고자 합니다. 현재 저희가 참고하고 있는 기술은 Outfit Anyone과 OOTD Diffusion입니다.
Q4. 최종목표가 비디오에서 가져온 스포츠 의류를, 사용자가 원하는 사진에 virtual try on을 시키는 것인지 궁금합니다!
A4. 1)사용자 사진에 스포츠 의류를 입히는 것과 2)중계 영상에서의 프로선수에 스포츠 의류를 입히는 시나리오를 타겟하고 있습니다.
Q5. 현재 에이닷에서 취급하는 스포츠 영상에서의 인물들은 자세 역동적인 경우가 많아 문제가 된다고 하셨는데, 역동적이라고 언급하신 것이 스포츠 영상의 인물인지 혹은 virtual try on 을 체험하게 될 고객인지 궁금합니다. 학습 대상이 역동적인지, 타겟이 역동적인지 혼란스러워 문의드립니다.
A5. 중계 영상에서 프로 선수의 역동적인 움직임으로 인해 virtual try on을 적용하는 것이 정적인 이미지에 적용하는 것보다 기술 난이도가 높다는 설명이었습니다. :)
Q6. 기술적으로 기존에 나온 모델의 성능을 단순 향상시키는게 아닌 에이닷 이용 고객 맞춤형 주관적 모델 개발이 더 주된 목표인것 같은데, 혹시 에이닷 Ai 서비스 이용 고객의 주요 연령층이나 타겟으로 생각하고 계신 사람들의 대상을 간략하게라도 알 수 있을까요?
A6. 골프를 좋아하는 고객님들을 타겟팅하므로 연령대를 국한하고 있지 않습니다만, 골프웨어에 관심있는 20~50대를 주요 타겟층으로 잡으면 좋을 것 같습니다.