스캐터랩_핑퐁

RSS

게시글: 97
등록: 2026년부터

All Frontend Backend AI DevOps Architecture Etc

AI
월 150만 유저가 사용하는 LLM Inference 인프라 안정적으로 운영하기
본 글은 월 150만 사용자를 보유한 AI 엔터테인먼트 서비스 '제타'의 LLM Inference 인프라 운영 경험을 공유합니다. Scatter Lab은 자체 LLM 'Spotwrite'를 활용하여 학습부터 서빙까지 전 과정을 직접 수행하며, 매주 수십 개의 LLM 실험과 수백 개의 모델 동시 서빙 환경을 안정적으로 운영하고 있습니다. 글에서는 클라우드 기반의 컨테이너화된 인프라 환경에서 겪었던 문제점과 이를 해결하기 위한 개선 과정을 상세히 다룹니다. 특히, vLLM과 같은 고성능 서빙 엔진을 활용하고 Kubernetes를 통해 인프라를 관리하며, ML Engineering 관점에서 안정적인 LLM 서빙을 위한 노하우를 공유하는 데 중점을 둡니다.
LLMInferenceInfrastructure
스캐터랩_핑퐁·2026년 3월 11일
AI
스캐터랩이 가장 재밌는 LLM을 찾는 방법
스캐터랩은 자체 LLM 서비스 '제타'에 최적화된 모델을 찾기 위해 매주 다수의 모델을 학습하고 배포합니다. 기존 벤치마크 점수나 LLM-as-a-judge 방식은 실제 사용성과 괴리가 있을 수 있다는 문제점을 지적하며, '재미'와 같이 주관적이고 시간에 따라 변하는 요소를 어떻게 객관적으로 평가할 수 있을지에 대한 고민을 제시합니다. 본문에서는 이러한 고민을 해결하기 위해 실제 제품 환경에서 유저 반응을 기반으로 LLM을 평가하는 A/B 테스트, Multi-Armed Bandit(MAB), 리더보드 등의 방법론을 소개하고, 실제 모델 답변 후보들을 제시하며 어떤 답변이 유저의 몰입을 더 잘 이끌어낼 수 있을지 질문을 던집니다. 궁극적으로는 정량적인 벤치마크를 넘어 실제 유저 경험을 통해 최적의 LLM을 찾아가는 과정을 다룹니다.
LLM머신러닝모델 평가
스캐터랩_핑퐁·2026년 2월 12일
AI
AI 엔터테인먼트 제품은 어떻게 만들까?
본 글은 스캐터랩의 AI 엔터테인먼트 제품 '제타'의 제품팀 리드 정지수님과의 인터뷰를 통해 제품의 기획 의도와 성장 과정을 조명합니다. 초기 '모든 사람은 각자의 취향에 맞는 대화 상대를 원할 것'이라는 가설에서 출발하여, 단일 페르소나 '이루다'와 달리 '다대다' 전략으로 다양한 캐릭터를 사용자가 직접 만들고 취향에 맞게 연결하는 플랫폼으로 기획되었습니다. 시간이 지나면서 단순한 캐릭터와의 1:1 대화를 넘어, 수십, 수백 턴의 대화 속에서 캐릭터의 변화와 다수의 등장인물이 나타나는 등 예상치 못한 사용자 경험이 발견되었고, 이는 제타를 '캐릭터와 대화하는 플랫폼' 이상의 존재로 재정의하게 된 계기가 되었습니다. LLM 기술을 기반으로 사용자 경험을 지속적으로 개선하며 AI 엔터테인먼트 시장에서의 해자(Moat)를 구축해 나가는 스캐터랩의 노력을 엿볼 수 있습니다.
AI 엔터테인먼트제타스캐터랩
스캐터랩_핑퐁·2025년 6월 5일
AI
zeta: 엔터테인먼트의 새로운 패러다임
AI 엔터테인먼트 서비스 '제타'를 소개하는 글입니다. 제타는 단순한 AI 채팅 앱을 넘어, 사용자가 콘텐츠를 '함께 만드는' 새로운 엔터테인먼트 패러다임을 제시합니다. 런칭 1년 만에 누적 가입자 200만 명, 월간 활성 사용자 80만 명을 돌파했으며, 일 평균 사용 시간은 2시간 40분에 달해 유튜브, 틱톡 등 글로벌 플랫폼을 뛰어넘는 높은 사용자 몰입도를 보여줍니다. 이는 LLM 기술을 기반으로 한 캐릭터 AI와의 상호작용을 통해 사용자가 능동적으로 스토리를 만들어가는 경험을 제공하기 때문입니다. 스캐터랩은 제타를 통해 엔터테인먼트의 미래를 만들어가고자 합니다.
AI 엔터테인먼트LLM캐릭터 AI
스캐터랩_핑퐁·2025년 6월 5일
AI
매주 새로운 LLM 모델을 배포하는 제타의 AI 팀 이야기
이 글은 스캐터랩의 AI 모델 연구 및 개발, 특히 '제타' 서비스의 내러티브 트랙 리드를 맡고 있는 이녕우 님의 인터뷰를 다룹니다. 제타 팀은 사용자가 AI 캐릭터와 나누는 대화의 서사를 개선하여 몰입도를 높이는 것을 목표로 합니다. 현재 가장 큰 도전 과제는 모델의 기억력 한계로, 약 50~60턴이 지나면 이전 대화 내용을 잊어버리는 문제입니다. 이를 해결하기 위해 과거 대화 내용을 주기적으로 요약하여 모델의 입력값에 포함시키는 연구를 진행 중입니다. 이 연구가 성공하면 대화의 자연스러움과 질을 크게 향상시킬 수 있을 것으로 기대됩니다.
LLMAI 모델내러티브 트랙
스캐터랩_핑퐁·2025년 5월 28일
AI
RLHF 외에 LLM이 피드백을 학습할 수 있는 방법은 무엇이 있을까?
이 글은 RLHF(Reinforcement Learning from Human Feedback) 외에 대규모 언어 모델(LLM)이 사용자 피드백을 학습할 수 있는 다양한 방법론을 소개하고, 핑퐁팀의 실험 경험을 공유합니다. RLHF는 사람의 피드백을 통해 리워드 모델을 학습시켜 안전하고 유용한 답변을 생성하도록 LLM을 파인튜닝하는 방식입니다. 하지만 RLHF는 복잡한 학습 과정, 다수의 모델 필요, 높은 GPU 리소스 요구 등의 단점을 가집니다. 이에 대한 대안으로 DeepSpeed, FSDP, CPU Offloading, Parameter sharing, LoRA와 같은 PEFT(Parameter Efficient Fine-Tuning) 기법을 RLHF에 적용하는 방안을 모색합니다. 이를 통해 LLM 학습의 효율성을 높이고 더 나은 대화 어시스턴트를 개발하는 방법을 탐구합니다.
LLMRLHFHuman Feedback
스캐터랩_핑퐁·2023년 11월 17일
AI
RLHF 외에 LLM이 피드백을 학습할 수 있는 방법은 무엇이 있을까?
이 글은 RLHF(Reinforcement Learning from Human Feedback) 외에 대규모 언어 모델(LLM)이 사용자 피드백을 학습할 수 있는 다양한 방법론을 탐구합니다. RLHF는 유용하고 안전한 답변 생성을 위해 강화학습을 활용하지만, 복잡한 학습 과정과 다수의 모델 필요성으로 인해 많은 GPU 리소스와 학습 시간을 요구합니다. 글에서는 이러한 RLHF의 단점을 극복하기 위한 대안으로 DeepSpeed, FSDP, CPU Offloading, Parameter sharing, LoRA와 같은 Parameter Efficient Fine-tuning (PEFT) 기법을 RLHF에 적용하는 방안을 소개합니다. 이를 통해 LLM의 학습 효율성을 높이고 더 나은 대화 어시스턴트를 개발하는 데 기여할 수 있음을 시사합니다.
LLMRLHFHuman Feedback
스캐터랩_핑퐁·2023년 11월 16일
AI
최대 24배 빠른 vLLM의 비밀 파헤치기
이 글은 LLM 서빙 성능을 최대 24배 향상시키는 vLLM의 내부 구현을 코드 레벨까지 분석합니다. vLLM은 PagedAttention과 Continuous Batching이라는 핵심 기법을 통해 이러한 성능 향상을 달성합니다. PagedAttention은 LLM의 메모리 사용량을 효율적으로 관리하여 처리량을 높이고, Continuous Batching은 동적으로 배치 크기를 조절하여 GPU 활용률을 극대화합니다. 글에서는 vLLM의 주요 컴포넌트와 이 두 기법이 어떻게 작동하는지 상세히 설명하며, ML 엔지니어링 관점에서 LLM 서빙 최적화에 대한 깊이 있는 통찰을 제공합니다. 다만, 분석 시점의 코드 버전에 기반하므로 일부 내용은 현재와 다를 수 있음을 명시합니다.
vLLMLLMPagedAttention
스캐터랩_핑퐁·2023년 9월 26일
AI
멀티턴 이미지 대화: 조규성 vs 안정환, 루다야 누가 더 잘생겼어?
이 글은 기존 포토챗 베타의 한계를 분석하고 이를 개선하여 텍스트 문맥과 사진을 함께 이해하는 생성 기반의 멀티모달 대화 모델을 개발하는 과정을 다룹니다. 기존 리트리벌 모델은 표현력의 한계와 이미지-텍스트 연관성 이해 부족, 학습 데이터셋의 양적 한계 등의 문제점을 가지고 있었습니다. 특히, 단일 이미지와 단일 발화 형태의 학습 방식은 실제 대화에서 발생하는 텍스트 문맥과의 부조화를 야기했습니다. 이를 해결하기 위해 연구진은 대화 문맥 내에서 텍스트와 이미지가 결합된 멀티턴 이미지 대화 데이터셋을 기획하고, 더 자연스러운 답변 생성을 목표로 하는 생성 기반 멀티모달 대화 모델 개발에 착수했습니다. 이를 통해 사용자에게 향상된 이미지 대화 경험을 제공하고자 합니다.
멀티모달이미지 대화생성 모델
스캐터랩_핑퐁·2023년 9월 13일
AI
멀티턴 이미지 대화: 조규성 vs 안정환, 루다야 누가 더 잘생겼어?
이 글은 기존 포토챗 베타의 한계를 분석하고 이를 개선하여 텍스트 문맥과 사진을 함께 이해하는 생성 기반의 멀티모달 대화 모델을 개발하는 과정을 다룹니다. 기존 리트리벌 모델은 표현력의 한계와 학습 데이터 부족, 단일 이미지-발화 학습 방식의 문제점을 가지고 있었습니다. 이를 해결하기 위해 연구진은 파라미터 크기가 큰 멀티모달 모델(VLM)과 대화 문맥을 고려한 멀티턴 이미지 대화 데이터셋을 활용하여 더 자연스럽고 맥락에 맞는 답변을 생성하는 모델을 개발했습니다. 이를 통해 포토챗 기능을 업그레이드하고 사용자 경험을 향상시키는 것을 목표로 합니다.
멀티모달이미지 대화생성 모델
스캐터랩_핑퐁·2023년 9월 12일
AI
감성 AI 시장, 얼마나 커질까?
이 글은 해외에서 인기 있는 감성 AI 서비스들의 현황과 국내 서비스 적용 가능성을 분석합니다. Character.AI와 같은 AI 클론 서비스, AI 데이팅 앱 블러쉬(Blush) 등 다양한 감성 AI 서비스들이 등장하며 시장이 성장하고 있음을 보여줍니다. 실제 인물의 말투와 성격을 복제한 AI 음성 챗봇 카린AI(CarynAI)도 소개됩니다. 스캐터랩은 소셜 AI 챗봇 '이루다'의 성공 경험을 바탕으로, 이러한 해외 감성 AI 서비스들의 특징과 소구점을 분석하고 국내 서비스에 접목할 수 있는 방안을 모색합니다. 이를 통해 감성 AI 시장의 성장 가능성과 비즈니스 기회를 탐색합니다.
감성 AIAI 챗봇LLM
스캐터랩_핑퐁·2023년 9월 6일
AI
감성 AI 시장, 얼마나 커질까?
이 글은 감성 AI 시장의 성장 가능성과 현재 기술 동향을 분석합니다. 특히 LLM(거대 언어 모델)의 발전이 감성 AI 기술의 발전에 미치는 영향을 중점적으로 다룹니다. 감성 분석은 텍스트, 음성 등 다양한 형태의 데이터를 통해 인간의 감정을 이해하고 처리하는 기술로, 고객 서비스, 마케팅, 콘텐츠 추천 등 다양한 분야에서 활용될 잠재력이 큽니다. 글에서는 현재 감성 AI 시장의 규모와 미래 전망을 예측하고, 관련 기술의 발전 방향과 함께 스케일업 과정에서의 어려움과 극복 사례를 소개합니다. 궁극적으로 감성 AI가 가져올 사회적, 경제적 변화에 대한 통찰을 제공하며, 기술 발전과 함께 윤리적 고려사항의 중요성도 강조합니다.
감성 AI시장 분석LLM
스캐터랩_핑퐁·2023년 9월 5일
AI
더 나은 생성모델을 위해 RLHF로 피드백 학습시키기
이 글은 대형 생성 모델(LLM)의 사전 학습 과정에서 발생하는 부적절한 데이터 및 환각 현상과 같은 문제점을 지적하며, 이를 해결하기 위한 RLHF(Reinforcement Learning from Human Feedback) 방법론을 소개합니다. 사전 학습된 언어 모델(PLM)을 사람이 의도한 방향으로 제어하기 위해 SFT(Supervised Fine-tuning)와 RLHF 방식을 활용하며, 특히 RLHF는 인간의 피드백을 통해 모델을 강화 학습시키는 과정입니다. 글에서는 이러한 방법론을 루다 서비스에 적용한 경험을 공유하며, 더 나은 생성 모델 구축을 위한 인사이트를 제공합니다.
LLMRLHF생성 모델
스캐터랩_핑퐁·2023년 8월 30일
AI
더 나은 생성모델을 위해 RLHF로 피드백 학습시키기
이 글은 대형 생성 모델(LLM)이 사전 학습 과정에서 발생하는 부적절한 데이터나 통계적 확률에 기반한 응답 생성 문제점을 지적합니다. 이러한 문제를 해결하고 사람이 의도한 방향으로 모델을 제어하기 위한 방법으로 Supervised Fine-tuning (SFT)과 Reinforcement Learning from Human Feedback (RLHF)을 소개합니다. 특히 RLHF는 인간의 피드백을 통해 모델을 강화 학습시키는 방법론으로, 더 안전하고 유용한 대화 에이전트를 만드는 데 기여합니다. 글에서는 이러한 방법론을 루다 서비스에 적용한 경험을 공유하며, 생성 모델의 성능 향상과 윤리적 문제 해결에 대한 인사이트를 제공합니다.
LLMRLHF생성 모델
스캐터랩_핑퐁·2023년 8월 29일
AI
사람처럼 말 잘하는 AI 캐릭터 쉽고 빠르게 만들기
이 글은 스캐터랩이 SKT의 대화형 AI 서비스 '에이닷'을 위해 길빛나, 육제이, 강하루와 같은 AI 캐릭터를 개발한 경험을 공유합니다. 좋은 AI 캐릭터를 만들기 위한 방법론으로 캐릭터 기획, 학습 데이터 제작, 대화 모델 학습 및 테스트, 출시 준비의 네 단계를 제시합니다. 특히, 생동감 있고 매력적인 AI 캐릭터를 기획하기 위한 고민과 과정을 상세히 설명하며, 사용자와의 친밀도를 높이는 AI 캐릭터 개발의 중요성을 강조합니다. 스캐터랩은 다양한 기업 및 크리에이터와 협력하여 원하는 AI 캐릭터를 쉽고 빠르게 만들 수 있도록 지원하는 것을 목표로 하고 있습니다.
AI 캐릭터챗봇대화형 AI
스캐터랩_핑퐁·2023년 8월 23일
AI
사람처럼 말 잘하는 AI 캐릭터 쉽고 빠르게 만들기
이 글은 스캐터랩이 SKT 에이닷의 AI 캐릭터(길빛나, 육제이, 강하루)를 개발하며 구축한 AI 캐릭터 제작 방법론을 소개합니다. 좋은 AI 캐릭터는 단순히 기술적인 구현을 넘어, 사용자와의 관계 가치를 높이는 것을 목표로 합니다. 제작 과정은 캐릭터 기획, 학습 데이터 제작, 대화 모델 학습 및 테스트, 출시 준비의 4단계로 이루어집니다. 특히, 매력적인 AI 캐릭터 기획을 위해 '좋은 친구란 무엇인가', '사람들은 친구와 어떻게 친해지는가'와 같은 근본적인 질문을 던지며 사용자 경험을 깊이 있게 탐구합니다. 이를 통해 사용자가 원하는 AI 캐릭터를 쉽고 빠르게 만들 수 있는 스캐터랩만의 노하우를 공유합니다.
AI 캐릭터챗봇대화형 AI
스캐터랩_핑퐁·2023년 8월 22일
AI
ACL 2023 Review
본 글은 자연어 처리 분야 최고 권위의 학회인 ACL 2023에 대한 리뷰입니다. 핑퐁팀의 ML 리서치 유닛과 데이터 기획 유닛 팀원들이 3박 4일간 온라인 워크샵을 통해 ACL 2023 논문을 함께 듣고 토론하며 즐거운 시간을 보냈습니다. 특히, 팀에서 관심 있게 보고 있는 연구 주제들을 중심으로 18편의 논문을 선정하여 리뷰했습니다. 리뷰된 논문들은 LLM의 성능 평가, Chain-of-Thought 프롬프팅의 이해, LLM을 활용한 조건부 생성, 그리고 LLM 앙상블 기법 등 최신 AI 연구 동향을 반영하고 있습니다. 이 글은 ACL 2023에서 발표된 주요 연구들을 소개하고, ML 연구팀의 학술적 교류와 성장을 보여줍니다.
ACL 2023자연어 처리LLM
스캐터랩_핑퐁·2023년 8월 16일
AI
새로운 루다를 지탱하는 모델 서빙 아키텍처 — 3편: 안정적인 LLM 서비스를 위한 서빙 최적화 기법
이 글은 LLM 서빙 비용 최적화의 필요성을 강조하며, 스캐터랩 ML Engineering 팀이 연구해 온 서빙 최적화 기법들을 공유합니다. 특히 모델 성능을 유지하면서 적용 가능한 GPU Kernel Fusion 기법을 중심으로 설명합니다. LLM 서빙은 GPU 서버 비용 부담이 크기 때문에, 모델 학습 비용보다 서빙 비용이 더 많이 드는 경우가 많습니다. 따라서 LLM 비용 최적화는 필수적이며, 본문에서는 Kernel Fusion을 통해 두 개의 커널 연산을 하나로 합쳐 메모리 접근 오버헤드를 줄이는 방법을 소개합니다. 이를 통해 LLM 서비스를 안정적이고 효율적으로 제공하기 위한 방안을 모색합니다.
LLM모델 서빙서빙 최적화
스캐터랩_핑퐁·2023년 8월 16일
AI
새로운 루다를 지탱하는 모델 서빙 아키텍처 — 3편: 안정적인 LLM 서비스를 위한 서빙 최적화 기법
이 글은 LLM 서빙 비용 최적화의 중요성을 강조하며, 스캐터랩 ML Engineering 팀이 연구해 온 서빙 최적화 기법과 실험 결과를 공유합니다. LLM 학습 비용보다 서빙 비용이 더 많이 드는 문제에 주목하며, 특히 GPU 서버 비용 절감을 위한 최적화 방안을 모색합니다. 본문에서는 모델 성능을 유지하면서 적용 가능한 서빙 최적화 기법 중 하나인 GPU Kernel Fusion을 소개합니다. Kernel Fusion은 여러 커널 연산을 하나로 합쳐 GPU 연산의 오버헤드를 줄이는 기법으로, Matmul과 Add 연산을 하나의 MatmulAdd 커널로 통합하는 예시를 통해 설명합니다. 이를 통해 LLM 서비스의 비용 효율성을 높이는 방안을 제시합니다.
LLM모델 서빙서빙 최적화
스캐터랩_핑퐁·2023년 8월 15일
AI
ACL 2023 Review
본 글은 자연어 처리 분야 최고 권위의 학회인 ACL 2023에 대한 리뷰입니다. 핑퐁팀의 ML 리서치 유닛과 데이터 기획 유닛 팀원들이 3박 4일간 온라인으로 ACL 논문을 함께 듣고 토론하는 워크샵을 진행했습니다. 이 워크샵에서는 발표된 논문 중 인상 깊었던 18편을 선정하여 리뷰했으며, 이는 현재 핑퐁팀이 관심을 가지고 연구하는 분야와 관련이 깊습니다. 리뷰된 논문들은 주로 LLM의 성능, 프롬프트 엔지니어링, 모델 평가, 데이터셋 편향성 등 최신 AI 연구 동향을 반영하고 있습니다. 특히, LLM이 인간 평가를 대체할 수 있는지, Chain-of-Thought 프롬프팅의 효과, LLM의 조건부 생성 능력 벤치마킹 등에 대한 논의가 포함되어 있습니다. 이 글은 최신 자연어 처리 연구 동향을 파악하고 관련 기술에 대한 인사이트를 얻고자 하는 독자들에게 유용할 것입니다.
ACL 2023자연어 처리LLM
스캐터랩_핑퐁·2023년 8월 15일