1 / 10
TEAM 낫또를 왜 거기에 낫또

PICTORNATOR

사진을 이해하고, 평가하고,
최적의 레퍼런스를 찾아주는 시스템.

멘토  윤종민
발표  박유건
개발  박유건
기획  이서현, 김아현, 전유진
Technology
iOS App Apple Vision Python / Flask OpenCLIP Qwen3.5-35B-A3B gpt-oss-120b In-house Algorithm NVIDIA DGX Spark
System Architecture

전체 플로우

On-device에서 먼저 분석하고, 서버에서 정교하게 판단해요.

01
촬영 / 입력
iOS 앱에서 사진을 촬영하거나 기존 이미지를 선택
02
On-device 분석
Apple Vision으로 포즈, 얼굴, 실루엣을 1차 분석
03
서버 전송
분석 데이터와 이미지를 Flask 서버로 전송
04
모델 기반 평가
OpenCLIP, LLM, 자체 알고리즘으로 정교한 평가 수행
05
결과 반환
점수, 코멘트, 레퍼런스 매칭 결과를 앱으로 전달
iPhone 16 Pro Max Mockup
실기기 레퍼런스 촬영

iPhone 실기기에서 레퍼런스 촬영 모드를 직접 실행한 화면입니다. 사용자가 촬영 가이드를 보며 자세를 맞추고, 분석 결과와 피드백이 어떻게 반영되는지 실제 흐름 그대로 보여줍니다.

실제 iPhone 화면 녹화
레퍼런스 촬영 유도와 평가 결과 확인 과정 시연
OpenCLIP Logo
Vision-Language Model
OpenCLIP
ViT-H/14
이미지와 텍스트를 동일한 임베딩 공간에 매핑하여 의미적 유사도를 계산하는 오픈소스 CLIP 모델. 초반 분류와 feature extraction에 핵심적인 역할을 수행합니다.
Architecture ViT-H/14
Training Data LAION-2B
Embedding Dim 1024
Model 01

OpenCLIP

LAION / OpenAI 기반 오픈소스
프로젝트 내 역할

입력된 사진의 모드를 분류하고, 이미지 feature를 추출하여 유사도 비교 및 레퍼런스 매칭의 기반 데이터를 생성합니다.

모드 분류 주요 역할
유사도 비교 활용 방식
1024 특징 벡터 차원
Local LLM Judge
Qwen3.5
35B-A3B
Mixture-of-Experts 아키텍처 기반의 경량 활성화 대규모 언어 모델. 로컬 환경에서 상세한 사진 평가와 코멘트 생성을 담당합니다.
Total Parameters 35B
Active Parameters 3B (MoE)
Deployment On-premise
Model 02

Qwen3.5-35B-A3B

Alibaba Cloud / Qwen Team
프로젝트 내 역할

현재 메인 로컬 판단 모델로, 사진에 대한 상세 코멘트와 구도/조명/표현력 등 다차원 평가를 수행합니다. DGX Spark에서 로컬로 구동됩니다.

35B Total Params
3B Active Params
66tok/s Average generation speed
gpt-oss Logo
Reasoning Comparison
gpt-oss
120B
대규모 추론 모델로, Qwen과의 비교 판단 및 교차 검증 역할을 수행합니다. 복잡한 reasoning이 필요한 판단에서 보조적으로 활용됩니다.
Parameters 120B
Role Comparison Judge
Deployment On-premise
Model 03

gpt-oss-120b

Open-source Community
프로젝트 내 역할

비교용 추론 판단 모델로, Qwen의 평가 결과를 교차 검증하고 복잡한 판단이 필요한 경우 reasoning comparison을 수행합니다.

120B Parameters
5.1B Active Params
50tok/s Average generation speed
Apple Vision Logo
On-device Framework
Apple
Vision
Apple의 on-device 컴퓨터 비전 프레임워크. 네트워크 없이 디바이스에서 직접 포즈, 얼굴, 실루엣을 분석하여 빠른 1차 처리를 수행합니다.
Platform iOS / Apple Silicon
Processing On-device
Latency Real-time
Model 04

Apple Vision

Apple Inc.
프로젝트 내 역할

촬영 즉시 on-device에서 포즈 추정, 얼굴 감지, 실루엣 분석을 수행합니다. 네트워크 지연 없이 실시간으로 1차 처리 결과를 제공하여 사용자 경험을 향상시킵니다.

Real-time Processing Speed
On-device Execution
Zero Network Dependency
Core Logic
In-house
Scoring Algorithm
구도, 조명, 선명도, 모드별 점수, 유사도, 촬영 준비 상태를 종합적으로 판단하는 자체 개발 핵심 알고리즘입니다.
Type Proprietary
Scoring Axes Multi-dimensional
Developed by In-house
Model 05

In-house Algorithm

자체 개발 핵심 로직
프로젝트 내 역할

모든 평가의 최종 판단을 담당합니다. 구도, 조명, 선명도를 개별 채점하고, 모드별 가중치를 적용하여 종합 점수를 산출합니다. 레퍼런스 유사도 비교와 촬영 준비 상태(Capture-ready) 판단까지 이 알고리즘이 수행합니다.

Composition Score
Similarity Score
Capture-ready
NVIDIA DGX Spark
Infrastructure

NVIDIA DGX Spark × 2

2-node virtual cluster로 구성된 로컬 AI 인프라

256GB
통합 메모리
GB10 2×
GPU
40cores
Arm CPU (20 per node)
273GB/s
Memory Bandwidth
ConnectX-7 연결 구현
Direct Node-to-Node Link
최대 405B 모델 실험 가능
Benchmark

서버 실측 성능

Endpoint Type Average P95 Description Performance
/api/photo/review fast 18.51ms 26.40ms 빠른 사진 리뷰 평가
Excellent
/v1/photo/review LLM 14.41s 14.94s LLM 기반 상세 리뷰
Bottleneck
/api/reference/analyze fast 42.32ms 47.54ms 레퍼런스 이미지 분석
Excellent
/api/reference/live-match fast 40.05ms 46.93ms 실시간 레퍼런스 매칭
Excellent
/api/reference/final-review mid 76.66ms 81.67ms 최종 레퍼런스 리뷰
Good
대부분의 endpoint는 sub-100ms 수준으로 응답하며, 실시간 처리에 적합한 성능을 보입니다.
현재 병목은 local LLM judge이며, 모델 최적화 및 양자화를 통해 개선 가능한 영역입니다.
Reference pose 경로는 현재 fallback 상태로, 안정화 이후 추가 최적화가 예정되어 있습니다.