Our Mission
home
About us
home
📷

09. AI 기반 광고 컨텐츠 생성 및 Layout Generation

분야
AI
Generative AI (Model)
Generative AI (Application)
Video/Image Processing
DeepLearning
세부 설명
■ 연구 내용 - 광고 배경 이미지나 영상 생성 뿐 아니라 배치되는 캡션, 이미지/비디오 클립 등 구성 요소들의 레이아웃을 결정하는 생성형 (Diffusion-Based) AI 모델 개발 - 광고 컨셉이나 상황에 맞춤형으로 캡션모양, 폰트종류, 색상과 크기를 결정해 생성하고 Dynamics 까지 부여할 수 있는 기술 개발 (우선 순위에 따른 선별 가능) - 상기 기능을 위해 개발된 AI 엔진의 실제 학습 (환경 제공) ■ 연구 목적 - AI 광고/미디어 제작 솔루션의 최종 완결성 부여 ■ 활용 계획 - ‘24년 출시한 SKT AI 카피라이터 상품에 적용 - ‘24년 신규 개발 중인 Btv 우리동네광고 AI 광고 영상 제작 솔루션에 적용 ■ 관련 경험/역량 - 단순 추론을 떠나 생성형 AI 엔진을 직접 설계하고 학습해보고자 하는 열정 - 혼자가 아닌 팀단위 협업으로 시너지 창출할 수 있는 역량 - 이미지/비디오 생성형 AI 기술 및 CV 분야에 대한 관심 및 경험 - AWS 인프라를 활용한 어플리케이션 / 모델 개발 경력 우대 (없어도 무관) - 술자리와 사람을 좋아하는 휴머니즘 보유한 팀 우대
과제 번호
09

01 멘토 소개

사내TV 출연!
이경승 (TINO)
GST(Global Solution Tech, 기술원) Media Gen AI개발팀 소속
생성형 AI 광고 제작 플랫폼 과제 개발
Generative AI 를 활용한 이미지/비디오 생성 알고리즘 개발
AWS 기반 SUPERNOVA (AI 미디어 복원/개선 기술) 개발
AI SoC 기반의 Embedded DL 디바이스 플랫폼 개발
Vision AI 및 AI Platform / 디바이스 과제 다수 수행
정현희 (Esther)
‘24년 GST Media Gen AI개발팀 JT 입사
B tv ZEM키즈 및 SKT AI 카피라이터에 미디어 생성형 AI 기술 적용
‘21년 AI Fellowship 3기 프로젝트 수행

02 프로젝트 소개

우리 팀은 SK텔레콤과 SK브로드밴드의 미디어 관련 서비스 및 사업을 위한 기술 개발을 담당하고 있습니다. 특히 올해는 사내외에서 필요로 하는 생성형 AI 기술을 집중적으로 개발하고 있습니다. 열정적인 팀장님과 개성이 뚜렷한 아홉명의 팀원분들로 구성되어 있으며, AI 펠로우십은 비단 멘토님들 뿐 아니라 팀 전체가 케어하는 좋은(?) 전통이 있습니다. 한번 맺은 인연은 소중하다는 기치 아래 예전에 함께했던 AI 펠로우십 참여자분들과도 좋은 관계를 유지하고 있습니다.
‘24년 AI 펠로우십을 통해 저희와 소중한 연을 맺을 분들을 기다립니다!

 제안 배경

광고에 쓰이는 영상이나 배너를 디자인하고 제작할 때, 일반적으로 광고 업계에서 통용되는 템플릿이 존재합니다.
전문 디자이너가 아닌 일반인이 “적당한 템플릿”을 만들어서 사용하는 것은 폰트 크기, 배경 생성 및 텍스트 배치를 조화롭게 하기 위한 너무나도 큰 노력이 필요합니다.
올해 고도화 과제를 진행하고 있는 B tv 우리동네 광고는 소상공인 분들이 직접 광고 영상을 제작할 수 있는 툴을 제공하고 있으나 결과물의 품질이 너무 낮고 사용법도 어렵습니다.
저희는 SK텔레콤 AI Marketing팀과도 그리고 SK브로드밴드 광고팀과도 각각 카피라이트부터 광고 컨셉 그리고 이미지/비디오 그리고 TTS/BGM까지 자동으로 생성해 광고 영상을 자동으로 제작하는 Total AI 솔루션을 개발하고 있습니다.
필요한 다양한 요소 기술들 중에서도 광고에서 텍스트와 이미지 등을 자동으로 배치해주는 Deep Learning 기반의 Graphic Layout Generation 기술을 우선 개발하고자 합니다.
Content aware Layout Generation 예시 (출처 https://arxiv.org/pdf/2311.06495.pdf)
더 나아가서는 광고 카피라이트 문구와 생성된 배경 이미지/비디오, 음성/BGM 정보를 입력받아 AI가 창의적으로 캡션크기와 폰트 종류 가능하다면 색상까지 결정하게 하는 기술 Feasibility를 확인해 보고자 합니다.

 개발하려는 기술

Diffusion 기반의 광고에 적합한 배경 생성
Diffusion 모델은 데이터를 점진적으로 노이즈를 추가하여 변형시키고, 이 과정을 역으로 모사하여 고해상도 이미지나 데이터를 생성하는 모델입니다.
이 기술을 기반으로 하여 입력으로 주어진 상품에 대한 프로모션, 가격, 상품명 등에 맞는 배경을 생성하는 모델을 개발*하고자 합니다. (* 모델 개발의 경우, AWS 내에서 컨테이너로 실행할 예정입니다)
Diffusion, Saliency map, LLM 등 다양한 접근법 기반의 광고 포스터 Layout Optimization
광고 배경, 광고 텍스트, 상품 이미지를 조화롭게 배치한 광고 템플릿을 생성하는 모델을 개발하여 광고생성 분야의 생산성과 효율성을 크게 증대해보고자 합니다.
광고 영상에 특화된 Layout Generation
광고 포스터와 같은 이미지에 대한 Layout 뿐 아니라, 광고 영상에도 적용할 수 있는 Layout Generation 기술을 연구, 개발하여 다양한 Application에 적용해보고자 합니다.
상황에 따른 광고 요소 Dynamics 인가 (Optional)

 기술 적용처

SKT AI 카피라이터
우리 회사는 광고와 프로모션 문구를 제작하는 AI 기반의 서비스인 ‘AI 카피라이터’를 출시했습니다. SKT, 구독형 AI 콜센터·AI 카피라이터 출시…AI 기반 B2B 사업 확대 | 한국경제 (hankyung.com)
이 상품에 AI가 실제 광고 포스터까지도 제작하는 기술을 개발하여 솔루션에 도입해보고자 하며 SK스토아와 베네피아가 결과를 궁금해하고 있습니다.
실제 포스터
현재..AI 수준
B tv 우리동네광고
광고 영상제작에서도 Layout Generation을 도입하여 생산성과 효율성을 크게 개선하고자 합니다.
연말에 정식 론칭 예정인 AI 광고 제작 솔루션에 여러분들이 만들 기술을 탑재하는 영광을 누려보시기 바랍니다. (개발자 크레딧에 포함시켜드리는 건 덤….)

 저희에게 지원해야 하는 이유

DALLE3, 미드저니, Stable Diffusion, 그리고 끝판왕 Sora까지 엄청난 녀석들이 등장해, 그 결과물들이 난무하고 있지만, 이를 특정 Application에 바로 적용할 수는 없습니다. (게다가 ) 우리는 Application에 특화된 자체 엔진들을 개발하고 있으며, 여러분들의 성과물이 여기에 포함될 것입니다.
연구 결과가 실험실에만 머무르지 않고 이를 상용화하는데 최고의 실력을 갖춘 팀과 함께 경험치를 쌓을 수 있습니다.
‘21년 AI Fellowship 주제: 구작 SD 영상 화질 개선 방법 연구 → SK브로드밴드 B tv 상용화 SKB, 포켓몬스터 콘텐츠 고화질(HD) 서비스 개시 < 포토 < 스마트&모바일 < 기사본문 - IT비즈뉴스(ITBizNews)
‘22년 AI Fellowship 주제: 시대 상황을 반영한 흑백 이미지의 컬러 변환 기술 연구 → 독립기념관, 옛전남도청복원추진단 사업을 통한 상용화
‘23년 AI Fellowship 주제: 비디오 아웃페인팅 기법을 활용한 영상 화면비 확장 기술 → 애니메니션 전문 방송사 대원미디어와 기술 검증 Feasibility Test 예정
연구 결과가 특허와 논문제출로 이어질 수 있도록 적극 지원합니다.
2021~2023 AI Fellowship 주제 관련 총 6건 특허 출원 (발명자 순서는 학생들 우선!)
Top Tier급 Vision/AI Conference 투고: AAAI 2023(발표), WACV 2024(발표), WACV 2025 (준비중)
‘23년 AI Fellowship은 처음으로 학부생들로만 구성된 팀을 선발했지만, 대상 수상, 팀내 박사님들과 함께 논문 작성 중 (학부생들도 자신있게 지원하세요!)
미디어 AI 기술 분야 최고 전문가 멘토님들로부터 코칭을 받을 수 있습니다.
2021~2022 AI Fellowship 최우수상 수상, 2023년 대상 수상
‘21년 사내 우수 발명팀 선정, 대한민국 임팩테크대상 수상 등
‘23년 AI Fellowship 대상 수상
‘21년 우수 발명팀 선정
‘21년 과기정통부장관상 수상

03 이런 Fellows를 찾아요!

연구와 상용화에 대한 열정이 뛰어난,
AI 개발자로서 성장에 대한 욕심이 많은,
서로 화합해 팀으로서 성과를 창출하고자 하는,
분들로 구성됨 멋진 팀을 찾습니다

04 Reference

FAQ

Q1. 활동기간 중 데이터셋의 구성과 관련하여: 관계사(SK스토어와 베네피아, B tv 우리동네광고)와 협력해 기존 작업물을 협조받을 수 있을지 궁금해요!
A1. 최종 Output을 내는데 참고할 수 있을 수준의 작업물을 받을 수는 있으나, 학습할 수 있을 정도의 양과 퀄리티를 갖춘 데이터를 제공하는 것은 검토가 필요합니다. 기존 Layout Generation 모델들이 명확한 한계점을 가지고 있으므로, 이 모델들의 한계를 알고리즘 면에서 개선하고, 이를 관계사 데이터에 테스트해볼 예정입니다.
Q2. 영상 광고 데이터셋 확보를 위해, Btv 우리동네광고에서 제작된 광고들을 사용할 수 있나요? 가능하다면, 해당 광고 영상들의 원본(이미지 혹은 동영상 클립)을 제공받을 수 있는지도 궁금해요!
A2. Btv에서 제작된 광고들을 학습용 데이터로 사용하지는 않습니다. Public으로 사용 가능한 (논문에 report된) 데이터셋들을 활용해서 알고리즘들을 테스트하고, 디벨롭 해볼 예정이며, 해당 알고리즘을 기반으로 Btv 광고에 테스트해볼 예정입니다.
Q3. Layout Generation에 LLM을 활용하는 경우에 관해 GPT4 API를 사용할 예정이라고 답변을 주셨었는데, 이때 API를 사용하는 비용(fine-tuning 학습 혹은 API 호출 비용)은 저희가 지급 받는 연구 비용에 포함하여 계획서를 작성해야 하나요? 아니면 이는 연구 비용에서 제외되는 항목인가요?
A3. 지급받는 연구 비용에 포함하여 계획서를 작성해야 합니다. 정확히 과금되는 금액은 예측하기 어려우니, 대략적인 수치로만 계획서에 포함하시면 될 것 같습니다.
Q4. 광고 의뢰인이 입력한 텍스트나 AI 카피라이터가 생성한 텍스트가 하나의 문장 혹은 문단 형태일 경우, 이에 대한 줄바꿈 및 대략적인 텍스트 간의 위치/관계는 AI 카피라이터에서 처리가 된 후에 Layout Generation 모델로 넘어오게 되는 건가요?
A4. 하나의 텍스트(ex. SKT AI Fellowship 6기 공개모집!)라고 하더라도 다른 컴포넌트 위치에 따라 줄바꿈을 해야하는 케이스가 있기 때문에 전체 텍스트를 토큰별로 나눈후, attribute (질문주신 맥락에서는 카테고리)을 부여하여 모델이 입력받게 됩니다. 또한 토큰 배치 또한 수직, 수평 배치로 한정짓지 않고 다양한 방향 (ex.대각선으로 배치 등)으로 배치할 수 있음도 고려 부탁드립니다.
Q5. 현재 Btv 우리동네광고에서는 15초, 30초 위주의 광고 영상을 제작하고 있는데, 저희 task에서도 비슷한 길이의 광고를 생성한다고 생각해도 될까요? A5. 네. 맞습니다. 현 기획은 15초/30초 두가지 경우입니다.
Q6. 이전 메일 답변에서 “실제 상용화 시나리오에서는 LLM을 활용하여 소상공인 보유 사진(가게 사진, 상품 이미지, 로고 등)/영상 및 필수 기재 정보인 업체명/소개/지역 정보/원하는 광고 컨셉 등을 입력으로 일정의 광고 콘티를 생성합니다. (캡션은 이때 생성됩니다)” 라고 말씀해주셨는데, 여기서 언급된 ‘광고 콘티’가 구체적으로 어떤 형태인지, 어떤 내용을 포함하고 있는지가 궁금합니다. A6. 광고 콘티는 광고 전체의 연속성 있는 시나리오라고 생각하시면 됩니다. 광고에는 배경 컨셉(이미지 혹은 비디오, 배경 장면 설명(e.g. 가게 내 전경을 비추는 장면)), 배경 효과(이미지/비디오 자체에 부여되는 효과, 뽀샤시 혹은 style transfer 등), 장면 당 길이, BGM(종류/시작 및 종료 타임라인 등), TTS(문구/길이/시작 및 종료 타임라인 등), 화면 내 텍스트 박스(위치/색상/크기 등) 둥 광고를 구성하기 위해 필요한 모든 요소를 순서대로 설명한 것입니다. 순서대로 설명한다고 말씀드린 이유는 예를 들어 보통 광고 영상은 한 장면이 3초를 넘지 않게 되므로, TTS/BGM 등은 여러 장면에 걸치게 되고 이에 대한 고려가 되어야 하기 때문입니다.
Q7. 광고 영상을 제작하기 위한 Layout Generation을 수행할 때, 모델이 입력으로 받는 것이 완성된 비디오가 아니라 “transition 효과를 적용할 예정인 이미지 혹은 이미 생성된/준비된 2~3초 내외의 clip 영상”인 것이 맞나요? A7. 네. 맞습니다. 단, 사용자 클립은 최대 5초까지 제한하여 입력 받을 예정입니다.
Q8. LLM 모델을 사용할 경우, GPT 등의 API를 호출하여 사용한다고 생각해야 할까요? 아니면 SKT 내부적으로 구축되어 있거나 활용할 수 있는 LLM 모델이 있는지 궁금합니다. A8. 본 과제에서는 상용 LLM 의 API 호출을 활용할 예정입니다. (현 후보는 chatGPT4)
Q9. 이전 메일 답변에서 “모델은 단일 모델로 구성함을 원칙으로 하고, 출력 사이즈 정보를 지정하는 형태로 생각하고 있습니다.” 라고 말씀해주셨는데, 하나의 모델이 Image와 Video를 모두 처리할 수 있도록 구성하는 것으로 이해하면 될까요? A9. 본 과제 최초 제안 시 비디오 입력에 직접 레이아웃을 자동 배치하는 것은 너무 복잡도가 올라갈 것으로 판단하였습니다. 이에 비디오 입력을 사용할 때는 키프레임을 추출하여 이 키프레임 이미지 내에 layout generation 하는 것을 가정하고 있습니다. 단일 모델이라 말씀드린 것은, 위와 같은 측면에서 포스터/광고 영상 배경 내 layout 생성시 이미지만 기반으로 생성하는 것을 전제하였기 때문이며, 최종 생성해야 하는 해상도/종횡비가 달라도 단일 모델에서 Layout generation 이 가능해야 함을 의미합니다. 하지만, 과제의 구현 방식에 대해 최대한 가능성을 열어두고자 하며, 이미지/비디오를 모두 입력 받을 수 있는 Layout generation 모델 구현을 진행해 주셔도 무관합니다. :) 단일 모델에서 이미지와 비디오 입력을 모두 활용할 수 있도록 개발되는 것이 가장 이상적이나, 여러 가지 상황(모델 사이즈 등)을 함께 고려하며 진행하면 좋을 것 같습니다.