Skip to content

export-png: VLM 프리셋 확장 (GPT-4V / Gemini / Qwen-VL / LLaVA) #613

@edwardkim

Description

@edwardkim

배경

PR #599 (Task #588 후속) 의 export-png CLI 에 VLM (Vision-Language Model) 친화 프리셋이 추가되었습니다. 첫 단계는 Claude Vision 프리셋만 구현 (--vlm-target claude).

본 task 는 다른 VLM provider 들의 프리셋 확장.

추가 대상 프리셋

Provider 권장 해상도 한 변 한도 비고
GPT-4V (OpenAI) "low": 512×512 / "high": 768×2000 tile 단위 768×768 tile 기반, --vlm-target gpt4v-low / gpt4v-high
Gemini (Google) 768~3072 px 3072 px --vlm-target gemini
Qwen-VL 448 / 980 px (multi-resolution) 2240 px 28×28 patch, --vlm-target qwen-vl
LLaVA / 기타 OSS 336 / 672 px (CLIP backbone) 변동 --vlm-target llava

사용 예시

# GPT-4V high-detail (현재 미지원)
rhwp export-png input.hwp --vlm-target gpt4v-high

# Gemini (현재 미지원)
rhwp export-png input.hwp --vlm-target gemini

# LLaVA / Qwen-VL (현재 미지원)
rhwp export-png input.hwp --vlm-target llava

기존 구현 활용

PR #599 본 사이클에서 추가된 VlmTarget::Claude 분기를 같은 패턴으로 확장 — src/renderer/skia/renderer.rs + CLI 옵션 파싱 (src/main.rs::export_png).

참고

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Projects

    No projects

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions