01 멘토 소개
이규남
•
Web3 Value 혁신팀 Data Scientist
•
타겟 마케팅/추천 시스템 Back-end AI 개발
•
AutoML Framework 전략 수립 및 개발
•
고객 관심사 분석 및 인사이트 분석
기타 (연구 성과/특허 경험 등)
•
국내외 저널 논문 다수 Publish
•
MAU 200만 금융 서비스 추천 시스템 개발, 연 매출 120억 달성
•
MAU 800만 통신 서비스 추천 시스템 개발
강예진
•
Web3 Value 혁신팀 Data Analyist
•
PASS 데이터 분석
•
5G Access 네트워크 품질 데이터 분석
02 프로젝트 소개
생성형 AI를 활용한 데이터 인텔리전스 구현
우리의 프로젝트는 생성형 AI를 이용하여 데이터 인텔리전스를 구현하는데 있습니다. 생성형 AI는 현재 돌풍을 일으키고 있는 ChatGPT, Claude 등의 서비스로 외부 LLM 서비스를 활용하거나, SKT 자체 개발 LLM 을 활용 혹은 직접 LLM을 개발하시는 방향 중 적절한 방향을 멘토와 논의하여 진행할 예정입니다. 우리는 데이터 인텔리전스를 두 가지로 구현하고자 합니다.
프로젝트의 주요 내용과 목표
생성형 AI로 자연어 쿼리 Tool 개발
데이터 분석가 외에도 기획자나 마케터가 데이터를 기반으로 기획하거나 참조하는 일이 많습니다. 많은 기획자나 마케터가 직접 추출을 못하여 업무 요청을 통해 개발자나 분석가에게 데이터 추출을 요청하고, 데이터 분석가나 개발자는 요청받은 데이터를 추출해주느라 과제를 수행할 업무 시간이 부족해지는 경우가 아직 더러 존재합니다. 이러한 현상을 타파하기 위하여 생성형AI를 활용해서 기획자나 마케터, 혹은 개발자가 빠르게 데이터를 추출할 때 활용할 수 있도록 자연어로 데이터를 추출할 수 있는 Tool을 생성형 AI로 개발하고자 합니다. 대상 데이터는 온체인 데이터로 생성형 AI를 활용하여 블록체인 네트워크에서 필요한 데이터를 효과적으로 추출합니다.
생성형 AI로 피쳐 엔지니어링 Tool 개발
생성형 AI를 활용하여 데이터로부터 유의미한 정보를 추출하여 분석 가능한 형태로 변환하는 과제입니다. 딥러닝이 각광받고 좋은 성과를 내고 있지만 해석 가능한 모델링과 학습/추론 속도 및 인프라 구성(ex. GPU, TPU 등)의 비용으로 인해 DL보다 ML을 사용하는 경우가 더러 있습니다. ML을 활용하는 경우 보통 특성 정보를 보다 잘 구성하여 학습을 해야하기 때문에 분석가의 노하우(해석 가능을 위함)를 활용하여 특성을 추출하거나 엔지니어링을 수행합니다. 이 과정에서 많은 시간이 소요되기 때문에 피쳐 엔지니어링의 과정을 생성형 AI를 활용해서 해결하고자 합니다. 최종적으로 생성형 AI가 Tabular 데이터에서 피쳐 엔지니어링을 수행하고 이 데이터로 ML의 성능을 향상시킴과 동시에 분석 결과로부터 인사이트를 추출하는 일까지 동시에 수행할 수 있도록 하는 과제입니다. 대상 데이터는 통신 데이터 혹은 온체인 데이터입니다.
저희는 Web3 조직에서 온체인 데이터와 통신 고객 데이터를 분석하는 일을 하고 있습니다. 당 프로젝트에 참여하게 되면 여러분들이 만든 알고리즘을 논문으로 작성 및 투고하고 특허 출원까지 잇고자 합니다. 또한 저희가 목적으로 하고 있는 온체인/통신 데이터 추출과 분석에도 활용을 검토할 예정입니다. 참여하시는 분들은 아래와 같은 이점이 있습니다.
프로젝트의 매력 포인트
1.
혁신적인 기술과 성장의 기회: 생성형AI를 활용하여 데이터를 추출하고 분석하는 최신 기술과 비즈니스 활용의 두마리 토끼를 잡을 수 있는 매력적인 프로젝트입니다. 게다가 온체인 데이터를 추출할 수 있는 Tool 로의 개발까지 이어질 경우 블록체인과 생성형 AI를 결합한 최첨단 프로젝트로 여러분은 이 분야의 선구자가 되어 포트폴리오를 잘 구축할 수 있고 남들보다 앞서갈 기회를 갖게 됩니다.
2.
실용적인 학습: Python을 활용해 실제 데이터를 다루며, 데이터 과학과 소프트웨어 개발 능력을 동시에 키울 수 있습니다. 이 프로젝트를 통해 블록체인, 생성형AI, 데이터 과학 분야에서 깊은 이해와 경험을 쌓을 수 있습니다.
3.
협업과 네트워킹: 다양한 배경을 가진 동료들과 협력할 수 있고, 블록체인과 AI라는 영역에서 실제로 근무하고 있는 실무자와의 네트워킹 기회를 얻을 수 있습니다.
4.
논문 투고와 특허 출원 개발자 : 개발된 기술이 기술적으로 의미가 있을 경우, 개발된 알고리즘을 학회 논문 제출과 특허 출원까지 진행할 수 있도록 하여 포트폴리오에 도움이 될 것입니다.
5.
비즈니스에서의 활용 레퍼런스 : 개발된 기술이 효과적인 경우 멘토의 소속 조직에서의 온체인 데이터 추출 및 분석에 활용하여 학술적 가치 외에도 비즈니스적 가치를 동시에 가져갈 수 있습니다.
03 이런 Fellows를 찾아요!
우리가 찾는 사람
•
블록체인 온체인 데이터, 생성형 AI에 대한 지식: 온체인 데이터와 생성형 AI에 대한 흥미와 지식 보유
•
•
능동적인 사람: 새로운 프로그래밍 언어와 패러다임을 학습하는데 두려움 없고 능동적인 자
•
패러다임을 즐기지만, 패러다임의 트랩에서 빠져나올 때와 즐길 때를 구분할 수 있을 것
우대 사항
•
오픈 소스 프로젝트 (Python 언어 기반)에 직접 참여한 경험이 있는 개발자
•
온체인 데이터 분석 및 스마트 컨트랙트 프로그래밍 有 경험자
•
논문 투고 혹은 특허 제출해본 개발자
고려하지 않는 사항
•
AI 전공 무관 : AI 전공 했다면 좋은 경험을 한 것이지만, 본 프로젝트를 수행하는데 필수 역량은 아닙니다.
함께 성장하는 방법:
•
기술 습득: Python, 블록체인, AI와 같은 최신 기술을 직접 사용하며 배웁니다.
•
창의적 해결: 실제 문제를 해결하며 창의적인 사고와 문제 해결 능력을 키웁니다.
•
네트워크 형성: 같은 목표를 가진 동료들과 협력하며 프로페셔널 네트워크를 구축합니다.
FAQ
Q1. Feature Engineering 툴 과제에 대한 설명으로서, 그림으로서는(데이터프레임이 그려진 툴)을 보면, TypeCasting 및 기타 전처리(결측치 처리 등)에 대한 automated tool을 개발하는 방향으로서 생각이 되는데, 설명(글) 상으로서는 도메인 지식에 기반한(데이터 분석가가 원래 하는 일인) 피쳐들을 알아서 추가적으로 만들어주는, 이른 바 feature 생성 의 역할을 자동화하는 과제 처럼 느껴집니다. 즉, task가 feature imputation이나 범주형 변수에 대한 encoding 등으로 여러가지 task가 존재할 수 있을 것이고, feature 생성의 과제가 될 수 도 있을 것입니다.
연구 계획서를 작성함에 있어, 이러한 분석 사이클에 있어서 발생하는 여러가지 task 중 집중하고자 하는 한 task에 대해 deep-dive하는 방향으로 작성하면 될지가 궁금합니다.
A1. 그림은 오로지 이해를 돕기위해 매우 쉽게 추상화한 예시일 뿐이며, 단순 작업 대체가 목표는 아닙니다 그러므로 피쳐엔지니어링 툴 개발은 "feature 생성으로 집중"하시면 좋을 것 같습니다.