TEAM 낫또를 왜 거기에 낫또

PICTORNATOR

사진을 이해하고, 평가하고,
최적의 레퍼런스를 찾아주는 시스템.

멘토 윤종민

발표 박유건

개발 박유건

기획 이서현, 김아현, 전유진

Technology

iOS App Apple Vision Python / Flask OpenCLIP Qwen3.5-35B-A3B gpt-oss-120b In-house Algorithm NVIDIA DGX Spark

System Architecture

전체 플로우

On-device에서 먼저 분석하고, 서버에서 정교하게 판단해요.

01

촬영 / 입력

iOS 앱에서 사진을 촬영하거나 기존 이미지를 선택

02

On-device 분석

Apple Vision으로 포즈, 얼굴, 실루엣을 1차 분석

03

서버 전송

분석 데이터와 이미지를 Flask 서버로 전송

04

모델 기반 평가

OpenCLIP, LLM, 자체 알고리즘으로 정교한 평가 수행

05

결과 반환

점수, 코멘트, 레퍼런스 매칭 결과를 앱으로 전달

실기기 레퍼런스 촬영

iPhone 실기기에서 레퍼런스 촬영 모드를 직접 실행한 화면입니다. 사용자가 촬영 가이드를 보며 자세를 맞추고, 분석 결과와 피드백이 어떻게 반영되는지 실제 흐름 그대로 보여줍니다.

실제 iPhone 화면 녹화

레퍼런스 촬영 유도와 평가 결과 확인 과정 시연

Vision-Language Model

OpenCLIP
ViT-H/14

이미지와 텍스트를 동일한 임베딩 공간에 매핑하여 의미적 유사도를 계산하는 오픈소스 CLIP 모델. 초반 분류와 feature extraction에 핵심적인 역할을 수행합니다.

Architecture ViT-H/14

Training Data LAION-2B

Embedding Dim 1024

Model 01

OpenCLIP

LAION / OpenAI 기반 오픈소스

프로젝트 내 역할

입력된 사진의 모드를 분류하고, 이미지 feature를 추출하여 유사도 비교 및 레퍼런스 매칭의 기반 데이터를 생성합니다.

모드 분류 주요 역할

유사도 비교 활용 방식

1024 특징 벡터 차원

Local LLM Judge

Qwen3.5
35B-A3B

Mixture-of-Experts 아키텍처 기반의 경량 활성화 대규모 언어 모델. 로컬 환경에서 상세한 사진 평가와 코멘트 생성을 담당합니다.

Total Parameters 35B

Active Parameters 3B (MoE)

Deployment On-premise

Model 02

Qwen3.5-35B-A3B

Alibaba Cloud / Qwen Team

프로젝트 내 역할

현재 메인 로컬 판단 모델로, 사진에 대한 상세 코멘트와 구도/조명/표현력 등 다차원 평가를 수행합니다. DGX Spark에서 로컬로 구동됩니다.

35B Total Params

3B Active Params

66tok/s Average generation speed

Reasoning Comparison

gpt-oss
120B

대규모 추론 모델로, Qwen과의 비교 판단 및 교차 검증 역할을 수행합니다. 복잡한 reasoning이 필요한 판단에서 보조적으로 활용됩니다.

Parameters 120B

Role Comparison Judge

Deployment On-premise

Model 03

gpt-oss-120b

Open-source Community

프로젝트 내 역할

비교용 추론 판단 모델로, Qwen의 평가 결과를 교차 검증하고 복잡한 판단이 필요한 경우 reasoning comparison을 수행합니다.

120B Parameters

5.1B Active Params

50tok/s Average generation speed

On-device Framework

Apple
Vision

Apple의 on-device 컴퓨터 비전 프레임워크. 네트워크 없이 디바이스에서 직접 포즈, 얼굴, 실루엣을 분석하여 빠른 1차 처리를 수행합니다.

Platform iOS / Apple Silicon

Processing On-device

Latency Real-time

Model 04

Apple Vision

Apple Inc.

프로젝트 내 역할

촬영 즉시 on-device에서 포즈 추정, 얼굴 감지, 실루엣 분석을 수행합니다. 네트워크 지연 없이 실시간으로 1차 처리 결과를 제공하여 사용자 경험을 향상시킵니다.

Real-time Processing Speed

On-device Execution

Zero Network Dependency

Core Logic

In-house
Scoring Algorithm

구도, 조명, 선명도, 모드별 점수, 유사도, 촬영 준비 상태를 종합적으로 판단하는 자체 개발 핵심 알고리즘입니다.

Type Proprietary

Scoring Axes Multi-dimensional

Developed by In-house

Model 05

In-house Algorithm

자체 개발 핵심 로직

프로젝트 내 역할

모든 평가의 최종 판단을 담당합니다. 구도, 조명, 선명도를 개별 채점하고, 모드별 가중치를 적용하여 종합 점수를 산출합니다. 레퍼런스 유사도 비교와 촬영 준비 상태(Capture-ready) 판단까지 이 알고리즘이 수행합니다.

— Composition Score

— Similarity Score

— Capture-ready

Infrastructure

NVIDIA DGX Spark × 2

2-node virtual cluster로 구성된 로컬 AI 인프라

256GB

통합 메모리

GB10 2×

GPU

40cores

Arm CPU (20 per node)

273GB/s

Memory Bandwidth

ConnectX-7 연결 구현

Direct Node-to-Node Link

최대 405B 모델 실험 가능

Benchmark

서버 실측 성능

Endpoint	Type	Average	P95	Description	Performance
/api/photo/review	fast	18.51ms	26.40ms	빠른 사진 리뷰 평가	Excellent
/v1/photo/review	LLM	14.41s	14.94s	LLM 기반 상세 리뷰	Bottleneck
/api/reference/analyze	fast	42.32ms	47.54ms	레퍼런스 이미지 분석	Excellent
/api/reference/live-match	fast	40.05ms	46.93ms	실시간 레퍼런스 매칭	Excellent
/api/reference/final-review	mid	76.66ms	81.67ms	최종 레퍼런스 리뷰	Good

대부분의 endpoint는 sub-100ms 수준으로 응답하며, 실시간 처리에 적합한 성능을 보입니다.

현재 병목은 local LLM judge이며, 모델 최적화 및 양자화를 통해 개선 가능한 영역입니다.

Reference pose 경로는 현재 fallback 상태로, 안정화 이후 추가 최적화가 예정되어 있습니다.