M4: 테스트 및 최종 발표¶
| 항목 | 내용 |
|---|---|
| 기간 | 2026-05-25 -- 2026-06-19 (Week 13--16) |
| 상태 | 미시작 (0%) |
| 핵심 목표 | 통합 테스트, 사용자 수용 테스트(UAT), 문서화, 최종 발표 |
개요¶
M4 단계는 전체 시스템의 통합 테스트, 문서화, 사용자 수용 테스트(UAT), 최종 발표를 수행한다. M3의 백엔드, 프론트엔드, Docker 구현이 완료된 후 진입할 예정이다.
의존성¶
M4 착수를 위해 M3에서 아래 항목이 완료되어야 한다.
| 의존 항목 | M3 상태 | 비고 |
|---|---|---|
| FastAPI 백엔드 서버 | 구현 중 | vLLM + RAG 통합 API |
| Figma MCP 기반 프론트엔드 | 예정 | 동서대 디자인학부 협업 |
| Docker 컨테이너화 | 예정 | 멀티 컨테이너 배포 |
| RAG 파이프라인 | 구현 중 | FAISS + BM25 하이브리드 |
주차별 계획¶
Week 13: 통합 테스트¶
전체 시스템을 구성하는 각 모듈(vLLM 추론, RAG 검색, API 서버, 프론트엔드)을 연결하여 종합적으로 검증한다.
계획 산출물:
integration_test_report.md-- 통합 테스트 결과 리포트performance_benchmark.md-- 전체 KPI 최종 검증 벤치마크bug_fix_log.md-- 통합 테스트 중 발견된 버그 수정 로그
테스트 범위:
| 테스트 항목 | 검증 내용 | 기준 |
|---|---|---|
| API 엔드포인트 | 모든 REST API 정상 동작 | 5xx 에러 0건 |
| 추론 성능 | vLLM 답변 생성 레이턴시 | p95 < 3.0s |
| RAG 검색 | FAISS 유사 사례 검색 정확도 | Recall@5 >= 80% |
| 보안 | API Key 인증, Rate Limiting | 무인증 요청 차단 확인 |
| 에이전트 | 멀티턴 대화 세션 관리 | 5턴 이상 대화 유지 |
Week 14: 문서화¶
개발된 시스템의 사용 방법과 기술 구조를 문서로 정리한다.
계획 산출물:
user_manual.md-- 사용자 매뉴얼 (공무원 대상)technical_docs.md-- 기술 문서 (API, 아키텍처)installation_guide.md-- 설치 가이드 (폐쇄망 배포)README.md최종 업데이트
Week 15: 사용자 수용 테스트 (UAT)¶
실제 사용 시나리오에 기반하여 시스템의 실용성을 검증한다.
계획 산출물:
uat_plan.md-- UAT 계획서uat_results.md-- UAT 결과 리포트feedback_summary.md-- 피드백 요약
UAT 시나리오:
| 시나리오 | 설명 | 성공 기준 |
|---|---|---|
| 민원 분류 | 민원 본문 입력 시 카테고리 자동 제안 | 정확도 >= 85% |
| 유사 사례 검색 | 민원 본문으로 과거 사례 검색 | 관련 사례 Top-3 내 포함 |
| 답변 초안 생성 | RAG 기반 표준 답변 생성 | 수정 없이 사용 가능 비율 >= 30% |
| 멀티턴 대화 | 답변 수정 요청 처리 | 자연어 지시 반영 확인 |
| 오프라인 동작 | 인터넷 연결 없이 전체 기능 동작 | 모든 기능 정상 동작 |
Week 16: 최종 발표¶
프로젝트의 전체 성과를 정리하고 발표한다.
계획 산출물:
final_presentation.pptx-- 최종 발표 자료demo_video.mp4-- 데모 영상retrospective.md-- 프로젝트 회고록
완료 기준¶
| 기준 | 목표 | 측정 방법 |
|---|---|---|
| KPI 전체 달성 | 모든 핵심 KPI 충족 | 벤치마크 결과 리포트 |
| UAT 통과 | 사용자 만족도 >= 3.5/5.0 | UAT 설문 결과 |
| 문서화 완료 | README, 매뉴얼, 기술 문서 | 문서 리뷰 완료 |
| 최종 발표 | 발표 및 데모 성공 | 멘토 승인 |
테스트 전략 개요¶
단위 테스트 (M2/M3에서 수행)
|
v
통합 테스트 (Week 13)
| -- API 엔드포인트 + vLLM + RAG + DB
v
성능 테스트 (Week 13)
| -- 전체 KPI 벤치마크
v
사용자 수용 테스트 (Week 15)
| -- 실제 시나리오 기반 검증
v
최종 검증 (Week 16)
| -- 발표 및 데모
v
릴리즈
PRD 핵심 KPI 최종 검증 대상¶
M4에서 최종 검증할 PRD v3.4 기준 핵심 성과 지표이다.
| KPI | 목표값 | 측정 방법 |
|---|---|---|
| 답변 생성 속도 (p95) | < 3초 | vLLM 응답 시간 측정 |
| ROUGE-L F1 | >= 0.30 | 테스트 데이터셋 1,265건 기준 |
| BERTScore F1 | >= 80% | 한국어 멀티링구얼 모델 기준 |
| 벡터 검색 속도 (p95) | < 1초 | FAISS 검색 레이턴시 |
| 시스템 가용성 | Uptime >= 99.5% | 주간 업무시간 기준 |