Case study

네이버 스마트스토어 AI 챗봇

agent·69 commits·2026

Architecture

drag to pan · ⌘/Ctrl + scroll to zoompinch to zoom · drag to pan

Stack

Python 3.12
FastAPI
LangGraph StateGraph
LangChain ReAct Agent
OpenAI GPT-4o
Supabase
A2A SDK

External integrations

Naver Commerce API
Apollo API
OpenAI
Supabase PostgreSQL
Slack Webhook

Highlights

인텐트별 독립 ReAct 에이전트 (프롬프트 + 툴 분리)
LangGraph StateGraph 7-intent router
최소 권한 툴 장착으로 불필요한 외부 호출 차단

문제정의

네이버여행 톡톡 채널(naver-talktalk)을 8개월 운영하면서, 두 종류의 자산이 쌓여 있었다.

자산	내용
검증된 패턴	Hexagonal · LangGraph 인텐트 라우팅 · 환각 가드 5종 · Slack 핸드오버 · Langfuse 추적
운영 사고에서 배운 정책	추측성 표현 금지 · sycophancy 차단 · 요일 검증 · 데이터 SSoT 기반 응답 · 세션 윈도잉

스마트스토어 채널 확장 요청이 들어왔다. 도전 과제는 단순한 복제가 아니라 — 같은 실수를 반복하지 않고 첫 출시부터 안정 상태로 도달할 수 있는가.

차이도 명확했다.

백엔드는 Naver Commerce API (네이버여행 CAS와 다른 도메인)
상품 = 일반 상품 (여행 예약과 다른 라이프사이클)
메시지 제약: 톡톡 송신 메시지에 마크다운 미지원
신규 도구로 referer URL 활용 — 사용자가 어느 상품/주문 페이지에서 채팅을 시작했는지 무료로 알 수 있는 컨텍스트

drag to pan · ⌘/Ctrl + scroll to zoompinch to zoom · drag to pan

목표는 세 가지로 좁혔다.

검증된 패턴을 즉시 이식 — 8개월 학습을 16일로 압축.
모델 분리로 비용 곡선을 평탄화 — 분류는 작은 모델로, 응답만 큰 모델로.
출시와 동시에 회귀 차단 — 벤치마크 자산을 처음부터 인프라로.

구현

Day 1: 통째 스캐폴드

2026-03-30 단일 작업 세션에서 인프라 전체를 푸시했다. 톡톡 웹훅 · Commerce·Apollo 클라이언트 · 7 인텐트 핸들러 · pytest 스위트 · Containerfile · Slack 핸드오버 · Langfuse 추적 · A2A SDK까지. naver-talktalk의 V3 구조가 머릿속에 명확히 있었기에 가능했다.

7 인텐트 × ReAct 에이전트

talktalk V3에서 검증된 인텐트별 독립 에이전트 패턴 그대로:

인텐트	전용 툴	비고
`product` · `product_request`	`get_product_info` (Commerce + Apollo)	상품 정보·요청 처리
`reservation_confirm`	`get_reservation_info`	주문 조회
`cancel_or_refund`	`call_counselor` (Slack)	취소·환불 → 상담사 인계
`product_availability` · `product_review`	(LLM only)	외부 호출 없이 응답
`out_of_scope`	(없음)	LLM 호출 없이 고정 응답 → 비용 0

out_of_scope를 LLM에 보내지 않는 게 작아 보이지만 누적 비용에서 큰 절감이다.

모델 분리 (nano/mini)

talktalk엔 없던 새 인사이트. 인텐트 분류는 작은 결정이고, 응답 생성은 표현력이 필요하다.

drag to pan · ⌘/Ctrl + scroll to zoompinch to zoom · drag to pan

사전 컨텍스트 적재 + referer 프리페치

LangGraph StateGraph가 노드 단위로 fetch_order → fetch_product → classify_intent 순으로 컨텍스트를 적재한다. 핵심 차별점은 referer URL에서 무료 컨텍스트를 뽑는다는 점.

drag to pan · ⌘/Ctrl + scroll to zoompinch to zoom · drag to pan

사용자가 어느 페이지에서 채팅을 시작했는지가 의도 분류 정확도를 그냥 끌어올린다. talktalk엔 없던 차별화 패턴.

운영 학습의 직접 이식

talktalk 운영에서 잡힌 정책들을 첫 출시 프롬프트에 박아 넣었다 — 운영 중 발견해서 패치하는 게 아니라 사전 차단.

추측성 표현 전면 금지 (talktalk B2)
사용자의 잘못된 가정에 동의하지 않음 (sycophancy 방지, talktalk B4)
데이터 SSoT 기반 응답만 허용
세션 자정 리셋 + 메모리 윈도잉 (talktalk에서 누적된 컨텍스트 사고 방지)
마크다운 금지 (톡톡 메신저 미지원 — 채널 특수성)
상담사 개입 후 봇 이중 응답 방지 (talktalk 운영 사고 학습)

벤치마크 인프라를 출시 직후 (Week 2)

talktalk의 "Next" 후보였던 자동 평가셋을 smartstore에서는 출시 2주차에 인프라화했다.

상품 질문 벤치 (assets + 비교 도구)
예약 질문 벤치
상품 의도 분류 벤치 + 기준 데이터
벤치 결과 viewer

회귀가 시작되기 전에 측정 체계가 박힌 셈이다.

출시

빠른 푸시 + 점진 보강 패턴:

시기	주요 변경
Day 1 (2026-03-30)	인프라 전체 스캐폴드 · 7 인텐트 핸들러 · 모델 분리 · Slack 핸드오버
Week 1 (~04-03)	운영 정책 이식 (추측 금지, 핸드오버 정책, 마크다운 금지)
Week 2 (~04-08)	벤치마크 인프라 · 일별 접속 추적 (Supabase)
Week 3 (~04-15)	Cloud Run prod 배포 · referer 컨텍스트 프리페치 · 봇 이중 응답 방지 · 상담사 전환 Slack 알림

3주차에 referer 기반 주문 컨텍스트 프리페치와 봇 이중 응답 방지까지 들어가면서 운영 안정 상태로 도달.

결과학습

항목	결과
안정화 기간	16일 (talktalk 대비 8개월 → 16일)
인텐트 커버리지	7 (스마트스토어 도메인 전체)
모델 비용 곡선	분류는 nano, 응답은 mini, OOS는 LLM 호출 0
벤치마크 자산	출시 2주차에 인프라화 (talktalk이 Next로 미뤘던 항목)
신규 컨텍스트 채널	referer 프리페치 — 채팅 시작 페이지로 의도 신호 확보

기술·운영적으로 가져간 학습은 네 가지다.

이전 프로젝트의 운영 학습은 최고 ROI 자산이다. 8개월 사고 로그 → 정책 → 새 프로젝트 초기 프롬프트. 같은 실수를 반복하지 않는 것이 새 기능보다 가치 크다.
모델 분리는 가장 큰 비용 레버다. 인텐트 분류처럼 정답이 좁은 결정은 nano로 충분. mini는 표현력이 필요한 응답에만. OOS는 아예 LLM 호출 0.
벤치마크 인프라는 출시 직후가 회귀를 못 본다는 변명의 마지노선. 회귀가 시작되기 전에 측정 체계가 박혀야 한다.
무료 컨텍스트를 놓치지 말 것. referer URL은 사용자의 의도 신호가 그냥 들어있는 채널. 비용 0의 정확도 향상.

drag to pan · ⌘/Ctrl + scroll to zoompinch to zoom · drag to pan

모델 분리 비용 효과 정량 측정 — nano/mini 분리가 실제로 얼마나 비용을 줄였는지 Langfuse 데이터로 산출.
벤치 기준 데이터를 운영 트래픽으로 업데이트 — 현재는 초기 케이스. 운영 대화에서 회귀 의심 케이스를 지속 흡수.
talktalk과의 공통 도메인 코어 추출 — 양쪽이 공유하는 인텐트 라우팅 · 환각 가드 · Slack 핸드오버 · 세션 관리를 agents-core 패키지로 빼면 다음 채널(zendesk 등) 온보딩이 더 빨라진다.

프로젝트를 불러오는 중…

Case study

네이버 스마트스토어 AI 챗봇

agent·69 commits·2026

Architecture

drag to pan · ⌘/Ctrl + scroll to zoompinch to zoom · drag to pan

Stack

Python 3.12
FastAPI
LangGraph StateGraph
LangChain ReAct Agent
OpenAI GPT-4o
Supabase
A2A SDK

External integrations

Naver Commerce API
Apollo API
OpenAI
Supabase PostgreSQL
Slack Webhook

Highlights

인텐트별 독립 ReAct 에이전트 (프롬프트 + 툴 분리)
LangGraph StateGraph 7-intent router
최소 권한 툴 장착으로 불필요한 외부 호출 차단

문제정의

네이버여행 톡톡 채널(naver-talktalk)을 8개월 운영하면서, 두 종류의 자산이 쌓여 있었다.

자산	내용
검증된 패턴	Hexagonal · LangGraph 인텐트 라우팅 · 환각 가드 5종 · Slack 핸드오버 · Langfuse 추적
운영 사고에서 배운 정책	추측성 표현 금지 · sycophancy 차단 · 요일 검증 · 데이터 SSoT 기반 응답 · 세션 윈도잉

차이도 명확했다.

백엔드는 Naver Commerce API (네이버여행 CAS와 다른 도메인)
상품 = 일반 상품 (여행 예약과 다른 라이프사이클)
메시지 제약: 톡톡 송신 메시지에 마크다운 미지원
신규 도구로 referer URL 활용 — 사용자가 어느 상품/주문 페이지에서 채팅을 시작했는지 무료로 알 수 있는 컨텍스트

drag to pan · ⌘/Ctrl + scroll to zoompinch to zoom · drag to pan

목표는 세 가지로 좁혔다.

검증된 패턴을 즉시 이식 — 8개월 학습을 16일로 압축.
모델 분리로 비용 곡선을 평탄화 — 분류는 작은 모델로, 응답만 큰 모델로.
출시와 동시에 회귀 차단 — 벤치마크 자산을 처음부터 인프라로.

인텐트	전용 툴	비고
`product` · `product_request`	`get_product_info` (Commerce + Apollo)	상품 정보·요청 처리
`reservation_confirm`	`get_reservation_info`	주문 조회
`cancel_or_refund`	`call_counselor` (Slack)	취소·환불 → 상담사 인계
`product_availability` · `product_review`	(LLM only)	외부 호출 없이 응답
`out_of_scope`	(없음)	LLM 호출 없이 고정 응답 → 비용 0

out_of_scope를 LLM에 보내지 않는 게 작아 보이지만 누적 비용에서 큰 절감이다.

추측성 표현 전면 금지 (talktalk B2)
사용자의 잘못된 가정에 동의하지 않음 (sycophancy 방지, talktalk B4)
데이터 SSoT 기반 응답만 허용
세션 자정 리셋 + 메모리 윈도잉 (talktalk에서 누적된 컨텍스트 사고 방지)
마크다운 금지 (톡톡 메신저 미지원 — 채널 특수성)
상담사 개입 후 봇 이중 응답 방지 (talktalk 운영 사고 학습)

벤치마크 인프라를 출시 직후 (Week 2)

talktalk의 "Next" 후보였던 자동 평가셋을 smartstore에서는 출시 2주차에 인프라화했다.

상품 질문 벤치 (assets + 비교 도구)
예약 질문 벤치
상품 의도 분류 벤치 + 기준 데이터
벤치 결과 viewer

회귀가 시작되기 전에 측정 체계가 박힌 셈이다.

출시

빠른 푸시 + 점진 보강 패턴:

시기	주요 변경
Day 1 (2026-03-30)	인프라 전체 스캐폴드 · 7 인텐트 핸들러 · 모델 분리 · Slack 핸드오버
Week 1 (~04-03)	운영 정책 이식 (추측 금지, 핸드오버 정책, 마크다운 금지)
Week 2 (~04-08)	벤치마크 인프라 · 일별 접속 추적 (Supabase)
Week 3 (~04-15)	Cloud Run prod 배포 · referer 컨텍스트 프리페치 · 봇 이중 응답 방지 · 상담사 전환 Slack 알림

3주차에 referer 기반 주문 컨텍스트 프리페치와 봇 이중 응답 방지까지 들어가면서 운영 안정 상태로 도달.

결과학습

항목	결과
안정화 기간	16일 (talktalk 대비 8개월 → 16일)
인텐트 커버리지	7 (스마트스토어 도메인 전체)
모델 비용 곡선	분류는 nano, 응답은 mini, OOS는 LLM 호출 0
벤치마크 자산	출시 2주차에 인프라화 (talktalk이 Next로 미뤘던 항목)
신규 컨텍스트 채널	referer 프리페치 — 채팅 시작 페이지로 의도 신호 확보

기술·운영적으로 가져간 학습은 네 가지다.

이전 프로젝트의 운영 학습은 최고 ROI 자산이다. 8개월 사고 로그 → 정책 → 새 프로젝트 초기 프롬프트. 같은 실수를 반복하지 않는 것이 새 기능보다 가치 크다.
모델 분리는 가장 큰 비용 레버다. 인텐트 분류처럼 정답이 좁은 결정은 nano로 충분. mini는 표현력이 필요한 응답에만. OOS는 아예 LLM 호출 0.
벤치마크 인프라는 출시 직후가 회귀를 못 본다는 변명의 마지노선. 회귀가 시작되기 전에 측정 체계가 박혀야 한다.
무료 컨텍스트를 놓치지 말 것. referer URL은 사용자의 의도 신호가 그냥 들어있는 채널. 비용 0의 정확도 향상.

drag to pan · ⌘/Ctrl + scroll to zoompinch to zoom · drag to pan

모델 분리 비용 효과 정량 측정 — nano/mini 분리가 실제로 얼마나 비용을 줄였는지 Langfuse 데이터로 산출.
벤치 기준 데이터를 운영 트래픽으로 업데이트 — 현재는 초기 케이스. 운영 대화에서 회귀 의심 케이스를 지속 흡수.
talktalk과의 공통 도메인 코어 추출 — 양쪽이 공유하는 인텐트 라우팅 · 환각 가드 · Slack 핸드오버 · 세션 관리를 agents-core 패키지로 빼면 다음 채널(zendesk 등) 온보딩이 더 빨라진다.