Портативный генератор описаний и тегов для фото/видео — Qwen3 Vision, 50+ шаблонов, установка в один клик, 100% офлайн.
Qwen3-VL — это мультимодальная модель от Alibaba Cloud, способная понимать изображения и видео. Модель анализирует визуальный контент и генерирует текстовые описания.
Важно: Qwen3-VL работает только с визуальной информацией (изображения, видеокадры). Модель не понимает аудио — музыку, речь и звуковые эффекты она не анализирует.
Ключевые возможности модели:
- Понимание изображений любого разрешения
- Анализ видео (покадровый)
- OCR на 20+ языках
- Object Detection с координатами
- Режим рассуждений (Thinking) для сложных задач
Подробнее: Qwen3-VL на GitHub
| Функция | Описание |
|---|---|
| Описание изображений | Генерация описаний в 50+ стилях: формальный, креативный, SEO, товарный, для соцсетей и др. |
| OCR | Распознавание текста с любых изображений |
| Object Detection | Обнаружение и локализация объектов с bounding boxes |
| Сравнение изображений | Анализ нескольких изображений (до/после, контроль качества) |
| Пакетная обработка | Обработка сотен изображений одновременно |
| Функция | Описание |
|---|---|
| Анализ видео | Описание видеоконтента по кадрам с таймстампами |
| Обнаружение действий | Определение моментов конкретных действий в видео |
| Анализ монтажа | Оценка переходов, темпа, стиля съёмки |
| Пакетная обработка видео | Обработка множества видеофайлов |
| Функция | Описание |
|---|---|
| Thinking Mode | Режим рассуждений (Chain-of-Thought) для сложных задач |
| Решение задач | Математические задачи и логические вопросы пошагово |
| Анализ графиков | Извлечение данных из диаграмм и визуализаций |
| Причинно-следственный анализ | Понимание последовательности событий |
| Функция | Описание |
|---|---|
| Экспорт TXT | Один файл на каждое изображение |
| Экспорт JSON | Все результаты в структурированном формате |
| Экспорт CSV | Табличный формат для Excel/Google Sheets |
| Пресеты промптов | Сохранение и загрузка часто используемых промптов |
- Описательный (формальный) — детальное формальное описание
- Описательный (неформальный) — дружелюбное непринуждённое описание
- Описание товара — для интернет-магазинов и маркетплейсов
- SEO описание — оптимизированное для поисковиков (до 160 символов)
- Пост для соцсетей — привлекательная подпись для Instagram/VK/Telegram
- Промпт Stable Diffusion — детальный промпт для воссоздания изображения в SD
- Промпт MidJourney — промпт в формате MidJourney
- Теги Booru — теги в стиле Danbooru/Gelbooru через запятую
- Анализ искусствоведа — композиция, стиль, цвет, освещение
- Извлечь весь текст — полное OCR всех слов, цифр и символов
- Текст с координатами — текст + позиции в формате JSON с bbox
- Таблица в HTML — конвертация таблиц в HTML-теги
- Структурированный JSON — извлечение в key-value формате
- Сравнить товары — анализ различий между продуктами
- Сравнение до/после — оценка изменений и улучшений
- Анализ временного ряда — тренды и прогнозы по последовательности
- Контроль качества — выявление дефектов, сортировка брак/годный
- Обнаружить объекты с местоположением — JSON с bbox_2d и labels
- Визуальная привязка — описание с координатами каждого объекта
- Найти и указать местоположение — поиск конкретных объектов
- Математика пошагово — решение задач с подробными шагами
- Логический анализ — структурированный разбор сцены
- Причинно-следственный анализ — понимание "что произошло и почему"
- Внимательный анализ — глубокое изучение перед ответом
- Анализ графиков — тип, оси, тренды, выводы
- Визуализация данных — извлечение числовых данных
- Медицинское изображение — анализ с медицинской терминологией
- Техническая диаграмма — компоненты и их взаимодействие
- Извлечение из документа — структурированные данные в JSON
- Научное изображение — описание научных явлений
- Временная шкала событий — хронология с таймстампами
- Обнаружение действий — поиск конкретных действий в видео
- Резюме длинного видео — краткое содержание
- Анализ монтажа — оценка переходов и стиля
- Объясни концепцию — простое объяснение сложного
- Решение задачи из учебника — пошаговые вычисления
- Исторический анализ — контекст и значимость
- Лабораторная работа — описание оборудования и процедуры
- Цветовой анализ — палитра, контрасты, гармония, настроение
- Архитектурный анализ — стиль, материалы, культурное значение
- Анализ блюда — как шеф-повар: ингредиенты, техника, подача
- Презентация/Слайд — содержание и структура слайда
- Промышленная безопасность — риски и рекомендации
- Анализ композиции по слоям — фон, средний план, передний план
- Пространственный анализ — компоновка, перспектива, отношения объектов
- Поиск проблем — что работает, что улучшить
Помимо готовых шаблонов вы можете писать любые собственные промпты на естественном языке — модель их поймёт. Просто опишите что вам нужно: "Опиши эту фотографию как будто ты турагент", "Найди все ошибки на этом скриншоте", "Составь список покупок по фото холодильника" и т.д.
Совет: При выборе шаблона его текст появляется в поле ввода — вы можете сразу отредактировать его под свою задачу.
Приложение поддерживает пакетную обработку для массовой генерации описаний:
- Загрузите несколько файлов — перетащите папку или выберите несколько изображений/видео
- Выберите промпт — один промпт будет применён ко всем файлам
- Запустите обработку — результаты генерируются последовательно
- Экспортируйте результаты — в TXT (отдельный файл на каждое изображение), JSON или CSV
Особенности:
- Прогресс отображается в реальном времени
- Можно остановить обработку в любой момент
- Результаты сохраняются даже при прерывании
- Поддерживается экспорт в папку с исходными файлами
| Модель | Размер | VRAM (4-bit) | Особенности |
|---|---|---|---|
| Huihui-Qwen3-VL-2B-Instruct-abliterated | 2B | ~2 GB | Быстрая, для слабых GPU |
| Huihui-Qwen3-VL-2B-Thinking-abliterated | 2B | ~2 GB | С режимом рассуждений |
| Huihui-Qwen3-VL-4B-Instruct-abliterated | 4B | ~4 GB | Баланс скорости и качества |
| Huihui-Qwen3-VL-4B-Thinking-abliterated | 4B | ~4 GB | С режимом рассуждений |
| Huihui-Qwen3-VL-8B-Instruct-abliterated | 8B | ~6 GB | Высокое качество |
| Huihui-Qwen3-VL-8B-Thinking-abliterated | 8B | ~6 GB | С режимом рассуждений |
| Huihui-Qwen3-VL-32B-Instruct-abliterated | 32B | ~20 GB | Максимальное качество |
| Huihui-Qwen3-VL-32B-Thinking-abliterated | 32B | ~20 GB | С режимом рассуждений |
| Модель | Размер | VRAM (4-bit) |
|---|---|---|
| Qwen3-VL-2B-Instruct | 2B | ~2 GB |
| Qwen3-VL-4B-Instruct | 4B | ~4 GB |
| Qwen3-VL-8B-Instruct | 8B | ~6 GB |
Thinking модели включают режим Chain-of-Thought — модель "думает вслух", показывая ход рассуждений перед финальным ответом. Полезно для сложных задач.
-
Скачайте и распакуйте архив
-
Запустите
install.batдля установки зависимостей -
Выберите версию CUDA при установке:
- Появится список поколений видеокарт NVIDIA с версиями CUDA
- Введите номер вашей видеокарты (например,
3для RTX 30xx) и нажмите Enter - Нажмите Enter ещё раз для подтверждения выбора
-
Запустите
run.batдля запуска приложения
Используйте run_with_update.bat для автоматической проверки и загрузки обновлений при каждом запуске:
run_with_update.bat
Скрипт автоматически:
- Проверяет наличие обновлений в git-репозитории
- Скачивает новые версии кода
- Запускает приложение
# Клонирование репозитория
git clone https://github.com/timoncool/SuperCaption_Qwen3-VL.git
cd qwen3-vl
# Создание виртуального окружения
python -m venv venv
# Активация (Windows)
venv\Scripts\activate
# Активация (Linux/Mac)
source venv/bin/activate
# Установка зависимостей
pip install -r requirements.txt
# Запуск
python app.pyПриложение запустится на http://localhost:7860
qwen3-vl/
├── app.py # Основное приложение (веб-интерфейс Gradio)
├── install.bat # Установщик для Windows
├── run.bat # Запуск приложения
├── run_with_update.bat # Запуск с автообновлением из git
├── requirements.txt # Зависимости Python
├── prompts/ # Папка для пресетов промптов
├── temp/ # Временные файлы
├── output/ # Результаты экспорта
├── datasets/ # Датасеты для обучения
├── screenshots/ # Скриншоты интерфейса
└── README.md
- Git — для автообновлений (скачать: git-scm.com)
- Python 3.10+ (встроен в портативную версию)
- CUDA совместимая видеокарта (NVIDIA)
- VRAM: 4 GB (для 2B модели с 4-bit квантизацией)
- RAM: 8 GB
- VRAM: 8+ GB (для 8B модели)
- RAM: 16+ GB
- SSD: для быстрой загрузки моделей
- Используйте модель меньшего размера (2B или 4B)
- Включите 4-bit квантизацию
- Закройте другие приложения использующие GPU
- Уменьшите max_tokens
- Проверьте подключение к интернету
- Убедитесь что достаточно места на диске (модели от 2 до 20 GB)
- Модели кэшируются в
~/.cache/huggingface/или локально вmodels/
- Используйте 4-bit квантизацию
- Выберите модель меньшего размера
- Уменьшите количество кадров для видео
- Убедитесь что ffprobe/ffmpeg установлен
- Проверьте формат видео (поддерживаются MP4, AVI, MOV, MKV)
- Увеличьте значение Max Tokens в настройках
- Модель прекращает генерацию когда достигает лимита токенов
- Рекомендуемые значения: 512-2048 для коротких описаний, 2048-4096 для длинных
- Уменьшите значение Max Tokens в настройках
- Слишком большой лимит токенов может приводить к зацикливанию генерации
- Попробуйте значения: 256-512 для простых задач, 1024 для сложных
Этот проект — отличная начальная точка для создания вашего собственного приложения на базе Qwen3-VL. Просто удалите ненужные шаблоны промптов и добавьте вашу бизнес-логику. Структура проекта готова для расширения.
Оригинальная модель: Qwen3-VL от Alibaba Cloud
Проект использует модели Qwen под лицензией Apache 2.0.
Другие проекты @timoncool
| Проект | Описание |
|---|---|
| ACE-Step Studio | AI-студия музыки — песни, вокал, каверы, клипы |
| Foundation Music Lab | Генерация музыки + редактор таймлайна |
| VibeVoice ASR | Портативное распознавание речи |
| LavaSR | Портативное улучшение аудио |
| Qwen3-TTS | Портативный TTS с клонированием голоса |
| VideoSOS | AI-видеопродакшн в браузере |
- Nerual Dreming (t.me/nerual_dreming) — neuro-cartel.com | основатель ArtGeneration.me
- Нейро-Софт (t.me/neuroport) — репаки и портативки нейросетей
- Slait
Я создаю опенсорс софт и занимаюсь исследованиями в области ИИ. Большая часть всего, что я делаю, находится в открытом доступе. Ваши пожертвования позволяют мне создавать и исследовать больше, не отвлекаясь на поиск еды для продолжения существования =)
Все способы поддержки | dalink.to/nerual_dreming | boosty.to/neuro_art
- BTC:
1E7dHL22RpyhJGVpcvKdbyZgksSYkYeEBC - ETH (ERC20):
0xb5db65adf478983186d4897ba92fe2c25c594a0c - USDT (TRC20):
TQST9Lp2TjK6FiVkn4fwfGUee7NmkxEE7C







