M4: 테스트 및 최종 발표¶

항목	내용
기간	2026-05-25 -- 2026-06-19 (Week 13--16)
상태	미시작 (0%)
핵심 목표	통합 테스트, 사용자 수용 테스트(UAT), 문서화, 최종 발표

개요¶

M4 단계는 전체 시스템의 통합 테스트, 문서화, 사용자 수용 테스트(UAT), 최종 발표를 수행한다. M3의 백엔드, 프론트엔드, Docker 구현이 완료된 후 진입할 예정이다.

의존성¶

M4 착수를 위해 M3에서 아래 항목이 완료되어야 한다.

의존 항목	M3 상태	비고
FastAPI 백엔드 서버	구현 중	vLLM + RAG 통합 API
Figma MCP 기반 프론트엔드	예정	동서대 디자인학부 협업
Docker 컨테이너화	예정	멀티 컨테이너 배포
RAG 파이프라인	구현 중	FAISS + BM25 하이브리드

주차별 계획¶

Week 13: 통합 테스트¶

전체 시스템을 구성하는 각 모듈(vLLM 추론, RAG 검색, API 서버, 프론트엔드)을 연결하여 종합적으로 검증한다.

계획 산출물:

integration_test_report.md -- 통합 테스트 결과 리포트
performance_benchmark.md -- 전체 KPI 최종 검증 벤치마크
bug_fix_log.md -- 통합 테스트 중 발견된 버그 수정 로그

테스트 범위:

테스트 항목	검증 내용	기준
API 엔드포인트	모든 REST API 정상 동작	5xx 에러 0건
추론 성능	vLLM 답변 생성 레이턴시	p95 < 3.0s
RAG 검색	FAISS 유사 사례 검색 정확도	Recall@5 >= 80%
보안	API Key 인증, Rate Limiting	무인증 요청 차단 확인
에이전트	멀티턴 대화 세션 관리	5턴 이상 대화 유지

Week 14: 문서화¶

개발된 시스템의 사용 방법과 기술 구조를 문서로 정리한다.

계획 산출물:

user_manual.md -- 사용자 매뉴얼 (공무원 대상)
technical_docs.md -- 기술 문서 (API, 아키텍처)
installation_guide.md -- 설치 가이드 (폐쇄망 배포)
README.md 최종 업데이트

Week 15: 사용자 수용 테스트 (UAT)¶

실제 사용 시나리오에 기반하여 시스템의 실용성을 검증한다.

계획 산출물:

uat_plan.md -- UAT 계획서
uat_results.md -- UAT 결과 리포트
feedback_summary.md -- 피드백 요약

UAT 시나리오:

시나리오	설명	성공 기준
민원 분류	민원 본문 입력 시 카테고리 자동 제안	정확도 >= 85%
유사 사례 검색	민원 본문으로 과거 사례 검색	관련 사례 Top-3 내 포함
답변 초안 생성	RAG 기반 표준 답변 생성	수정 없이 사용 가능 비율 >= 30%
멀티턴 대화	답변 수정 요청 처리	자연어 지시 반영 확인
오프라인 동작	인터넷 연결 없이 전체 기능 동작	모든 기능 정상 동작

Week 16: 최종 발표¶

프로젝트의 전체 성과를 정리하고 발표한다.

계획 산출물:

final_presentation.pptx -- 최종 발표 자료
demo_video.mp4 -- 데모 영상
retrospective.md -- 프로젝트 회고록

완료 기준¶

기준	목표	측정 방법
KPI 전체 달성	모든 핵심 KPI 충족	벤치마크 결과 리포트
UAT 통과	사용자 만족도 >= 3.5/5.0	UAT 설문 결과
문서화 완료	README, 매뉴얼, 기술 문서	문서 리뷰 완료
최종 발표	발표 및 데모 성공	멘토 승인

테스트 전략 개요¶

단위 테스트 (M2/M3에서 수행)
    |
    v
통합 테스트 (Week 13)
    |  -- API 엔드포인트 + vLLM + RAG + DB
    v
성능 테스트 (Week 13)
    |  -- 전체 KPI 벤치마크
    v
사용자 수용 테스트 (Week 15)
    |  -- 실제 시나리오 기반 검증
    v
최종 검증 (Week 16)
    |  -- 발표 및 데모
    v
릴리즈

PRD 핵심 KPI 최종 검증 대상¶

M4에서 최종 검증할 PRD v3.4 기준 핵심 성과 지표이다.

KPI	목표값	측정 방법
답변 생성 속도 (p95)	< 3초	vLLM 응답 시간 측정
ROUGE-L F1	>= 0.30	테스트 데이터셋 1,265건 기준
BERTScore F1	>= 80%	한국어 멀티링구얼 모델 기준
벡터 검색 속도 (p95)	< 1초	FAISS 검색 레이턴시
시스템 가용성	Uptime >= 99.5%	주간 업무시간 기준