首页
学习
活动
专区
圈层
工具
发布
综合排序最热优先最新优先
时间不限
Qwen3.5本地部署终极指南,Qwen3.5-27B
Qwen3.5 轻量版来了,更智能,更小巧,量化版本地部署,消费级显卡轻松跑 一文中测试了,十分建议:首选 Qwen3.5-27B,无论是官方benchmark测评还是其他网友评价,都支持这一结论 Qwen3.5 全阵容:阿里这次玩了个大的 阿里最新发布的 Qwen3.5,不再只是单个模型,而是一整个军团: 型号 类型 总参数 激活参数 定位 Qwen3.5-27B Dense 27B 27B 稳扎稳打型 Qwen3.5 -35B-A3B MoE 35B 3B 极速小钢炮 Qwen3.5-122B-A10B MoE 122B 10B 中杯选手 Qwen3.5-397B-A17B MoE 397B 17B 旗舰巨兽 两个关键词 硬件需求速查 这是最实际的部分,别收藏了不看: 型号 4-bit 量化 8-bit 量化 原始 FP16 Qwen3.5-27B 17 GB 30 GB 54 GB Qwen3.5-35B-A3B 22 GB 38 GB 70 GB Qwen3.5-122B-A10B 70 GB 132 GB 245 GB Qwen3.5-397B-A17B 214 GB 512 GB 810 GB 翻译成人话
Ai学习的老章
2026-03-02
20.4K0
标签:
Qwen3.5 本地部署
Unsloth Dynamic 2.0 量化 Unsloth 其实是第一时间就发布了 Qwen3.5-397B-A17B 的 GGUF 格式文件(Qwen 给了 Unsloth day zero 访问权限 /llama.cpp/llama-server \ --model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4 /Qwen3.5-397B-A17B --port 8000 --continuous-batching # 或者直接命令行对话 transformers chat Qwen/Qwen3.5-397B-A17B --reasoning-parser qwen3 vLLM: vllm serve Qwen/Qwen3.5-397B-A17B \ --port 8000 \ --tensor-parallel-size -397B-A17B # 视觉 + 文本推理(原生多模态) pip install mlx-vlm mlx_vlm.chat --model Qwen/Qwen3.5-397B-A17B 工具调用(
Ai学习的老章
2026-03-02
6.3K0
标签:
Qwen Code + 微信=王炸!
在~/.qwen/settings.json中添加:展开代码语言:JSONAI代码解释{"experimental":{"cron":true}}3️⃣Qwen3.6Plus正式上线免费使用! 查看PR#2897立即升级展开代码语言:BashAI代码解释npminstall-g@qwen-code/qwen-code@latest有问题或建议?欢迎在GitHubIssues反馈! 总结一下本周更新堪称重量级:✅Channels系统让QwenCode突破终端限制,微信钉钉都能用✅Cron定时任务让AI自动打工,解放双手✅Qwen3.6Plus免费上线,性能强悍✅/plan规划模式让复杂任务更有条理
GoLang学习记
2026-04-16
4290
标签:
实测Qwen2.5-Math效果
Qwen2.5全家桶发布,特别是在中间还整了一个Qwen2.5-Math模型,特定针对数学能力进行推理。这不免让人想起前段时间OpenAI才发布的o1大模型。 到底Qwen2.5-Math效果怎么样,可以直接拿数学题目给他进行测试。 Qwen2.5-Math一直到这里还是得出的正确的步骤。但是后面的步骤有点看不懂了。 但是由于o1大模型得出的步骤和答案离正确答案更加接近,因此从评分上看效果要比Qwen2.5-Math要好一点。 本人还是很看好Qwen模型系列的,而且它还没有加入COT这种推理逻辑大杀器,推理能力上就能够和o1大模型差不多了,期望Qwen3的出现能够超越国外的大模型。
算法一只狗
2024-09-22
8310
标签:
Qwen-7B-Chat WebDemo
Qwen-7B-Chat WebDemo 环境准备 在autodl平台中租一个3090等24G显存的显卡机器,如下图所示镜像选择PyTorch–>2.0.0–>3.8(ubuntu20.04)–>11.8 /Qwen-7B-Chat', cache_dir='/root/autodl-tmp', revision='v1.1.4') 代码准备 首先clone代码,打开autodl平台自带的学术镜像加速。 unset http_proxy && unset https_proxy 修改代码路径,将 /root/autodl-tmp/Qwen/web_demo.py中 13 行的模型更换为本地的/root/ autodl-tmp/qwen/Qwen-7B-Chat。 运行以下命令即可启动推理服务 cd /root/autodl-tmp/Qwen python web_demo.py --server-port 6006 将 autodl 的端口映射到本地的 http
git clone firc-dataset
2025-07-17
4400
标签:
Qwen-7B-Chat Lora 微调
Qwen-7B-Chat Lora 微调 概述 本节我们简要介绍如何基于 transformers、peft 等框架,对 Qwen-7B-Chat 模型进行 Lora 微调。 本节所讲述的代码脚本在同级目录 04-Qwen-7B-Chat Lora 微调 下,运行该脚本来执行微调过程,但注意,本文代码未使用分布式框架,微调 Qwen-7B-Chat 模型至少需要 24G 及以上的显存 tokenizer = AutoTokenizer.from_pretrained('/root/autodl-tmp/qwen/Qwen-7B-Chat', use_fast=False, trust_remote_code /qwen/Qwen-7B-Chat/', use_fast=False, trust_remote_code=True) tokenizer.pad_token_id = tokenizer.eod_id /qwen/Qwen-7B-Chat/', trust_remote_code=True, torch_dtype=torch.half, device_map="auto") model.enable_input_require_grads
git clone firc-dataset
2025-07-17
9890
标签:
Qwen Code 新特性:支持Git worktree
我想尝试一种新的架构方案,但又担心把主分支搞乱。传统的做法是开个新分支,但分支切换需要提交或暂存当前改动,这对于还在探索阶段的代码来说太麻烦了。
GoLang学习记
2026-05-29
1140
标签:
阿里Qwen3.6-27B实测
阿里在Qwen3.6-Plus和Qwen3.6-35B-A3B之后,于4月22日正式开源了千问3.6系列的稠密模型——Qwen3.6-27B。 )、qwen3.6-plus(70.7%,第13位)、Qwen3.5-27B(70.6%,第15位)、qwen3.6-27b(68.8%,第23位)、Qwen3.6-35B-A3B(68.1%,第26位 开源排名上,Qwen3.5-122B-A10B(70.9%)、Kimi-K2.5-Thinking(70.8%)、GLM-5.1(70.7%)、Qwen3.5-27B(70.6%)等均高于qwen3.6 id=qwen3.6-27b)及发布信息,Qwen3.6-27B的核心定位是“智能体编程”,并在多项专项基准上取得了“以小博大”的成绩。 -31B、Qwen3.5-27B乃至体量15倍于自身的Qwen3.5-397B-A17B等开源模型,部分基准上可媲美Claude Opus 4.5等闭源模型。
用户12446504
2026-05-06
1.5K0
标签:
Qwen-7B-chat 全量微调
Qwen-7B-chat 全量微调 修改代码 首先我们要准训练模型的代码,这里我们使用的 modelscope 上的 Qwen-7B-chat 模型,大家自行下载即可。 只不过在全量微调的时候没有加载 LoraConfig,那我就直接给出代码,如果对代有什么问题,大家可以先自行探索Qwen lora的代码解释,有什么不懂的地方可以提Issue。 /model/qwen/Qwen-7B-Chat/") # 用于处理数据集的函数 def process_func(example): MAX_LENGTH = 128 # Llama分词器会将一个中文字切分为多个 labels = [-100] * len(instruction["input_ids"]) + response["input_ids"] + [tokenizer.pad_token_id] # Qwen /output/Qwen" \ --per_device_train_batch_size=1 \ --gradient_accumulation_steps=1 \ --logging_steps
git clone firc-dataset
2025-07-17
6120
标签:
Qwen-7B-Chat Ptuning 微调
Qwen-7B-Chat Ptuning 微调 Ptuning原理 参考transformers-code 数据加载与模型配置与LoRa一致,在此具体讲一下Ptuning的细节: 基本原理为冻结主模型全部参数 labels = [-100] * len(instruction["input_ids"]) + response["input_ids"] + [tokenizer.pad_token_id] # Qwen /output/Qwen", per_device_train_batch_size=2, gradient_accumulation_steps=2, logging_steps /Qwen-7B-Chat', use_fast=False, trust_remote_code=True) tokenizer.pad_token_id = tokenizer.eod_id ds.column_names) # 创建模型并以半精度形式加载 model = AutoModelForCausalLM.from_pretrained('/root/autodl-tmp/qwen
git clone firc-dataset
2025-07-17
4790
标签:
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档