Posts | 鸭哥每日AI要闻

Featured Post

[鸭哥 AI 手记] 2026-03-28

[鸭哥 AI 手记] 2026-03-28 > 当模型能力越过某条线之后，你的 agent 系统面对的对手模型和基础设施假设会同时失效。懒人包：Anthropic Mythos 泄露让网安股一天跌了 7%，但对 AI 实践者来说，真正该更新的是 agent runtime 的安全设计。与此同时，agent 正在倒逼互联网基础层的重新定义：邮件从遗留协议变成 agent 通信首选，.md 域名被抢注，AgentMail 刚融了 600 万美元。旧协议的回归和旧假设的失效，是同一件事的两面。 Mythos 泄露之后，网安股为什么跌了，你的 agent 又该改什么 3 月 27 日，Anthropic 因 CMS 配置错误泄露了约 3,000 份未发布资产，其中一份草稿描述了代号 Mythos（内部称 Capybara）的下一代模型。泄露稿的核心 claim 是：Mythos 在 coding、reasoning 和 cybersecurity 上有显著进展，且在 cyber 能力上"far ahead of any other AI...

about 5 hours ago • 1 min read

[鸭哥 AI 手记] 2026-03-27

[鸭哥 AI 手记] 2026-03-27 > AI 让个人快了 40%，企业却没感觉。瓶颈从来不在模型，在于谁来重写模型工作的环境。懒人包：NBER 调查显示超过 80% 的企业报告 AI 生产力提升为零，Goldman Sachs 也找不到 AI 与生产力之间的统计关系。群里课代表写了一篇长文拆解原因：激励错配和组织摩擦吃掉了所有个人效率增益。同一天，胥老师展示了他 75000 行的 skill 文档体系和 1.6M 的 PRD 如何驾驭大规模 AI 编程。两件事指向同一个判断：AI 的收益取决于你是否愿意重新设计它的工作环境。 80% 的企业感受不到 AI，问题出在哪群里课代表发了一篇文章，开头的数据很刺眼：AI 让个人效率提升了 15-40%，超级个体甚至做到 10 倍以上，但企业层面看到的可衡量提升接近于零（Superlinear Academy）。这不是他的主观判断。NBER 在 2025-2026 年间对约 6000 名企业高管做了问卷调查，超过 80% 的企业表示没有感知到 AI 带来的可衡量生产力提升（NBER Working Paper）。Goldman...

1 day ago • 1 min read

[鸭哥 AI 手记] 2026-03-26

[鸭哥 AI 手记] 2026-03-26 > 当 agent 从一层变成三层，当组织从金字塔变成 pod，问题都一样：每多一个接口，误差就多一次放大的机会。懒人包：群里有人用 XSD schema 给 agent 之间的通信做形式化验证，因为 99% 的正确率在 300 步流水线里约等于灾难。同一天，Meta 把千人团队拆成 AI-native pod，鸭哥的分析引发了群里关于"转型还是重建"的激烈辩论。两件事的共同点：放大器放大一切，好的和坏的。 Agent 做大了，靠的是编译器而不是更大的模型群里一位实践者分享了他的三层 agent 架构。最底层是持有单个 skill 的原子化 agent，每个 agent 接收一个 XML 输入、输出一个 XML，中间必须通过 XSD schema 验证。第二层分主动的任务触发和被动的自循环优化，最外层是人的交互层。他的原话是："99% 正确率次数多了也会出错。不这么玩完全做不了大型任务。" 这个工程选择背后有精确的数学支撑。Google 与 MIT 今年 2 月发表的一项研究量化了 agent 系统中的误差传播：独立运行的...

2 days ago • 1 min read

[鸭哥 AI 手记] 2026-03-25

[鸭哥 AI 手记] 2026-03-25 > 执行成本趋零之后，组织和代码面对同一个问题：谁来保证结果是对的？懒人包：Meta 把千人团队拆成 AI pod，取消传统职能头衔，群里热议这对每个人意味着什么。与此同时，群友们在 agent 编排层的深水区摸出了一套可靠性工程：熔断、门控、形式化验证。两件事看起来不同，底层逻辑一样：当执行变便宜，验证变成最贵的环节。另外，LiteLLM 被投毒，AI 供应链安全问题正式摆上台面。当执行成本归零，你的岗位靠什么定价 3 月 25 日，Business Insider 拿到一份 Meta Reality Labs 泄露备忘录：一个千人规模的开发者工具团队正在全面重组，所有人只剩三种头衔：AI Builder、AI Pod Lead、AI Org Lead（Business Insider）。备忘录原话是 fundamentally rewiring how we operate, how we are structured, and how we support each other。同一天，Meta 裁掉了数百名 Reality...

3 days ago • 1 min read

[鸭哥 AI 手记] 2026-03-24

[鸭哥 AI 手记] 2026-03-24 > 你的 AI 环境和你的上下文窗口面临同一个问题：塞进去的东西越多，每一个坏零件造成的伤害就越大。懒人包：LiteLLM 的 PyPI 包今天被劫持，恶意版本感染同环境里所有 Python 进程，Karpathy 都出来喊话了。同一天，群里几条独立的讨论线索指向同一个转折：给 AI 的上下文不是越多越好，真正拉开差距的是上下文的组织和治理。这两件事看似无关，底层逻辑一样：系统里的坏信号会级联放大，前置检查比事后补救便宜得多。一个 .pth 文件感染了整个 Python 环境今天 AI 工程圈最大的安全事件：LiteLLM 的 PyPI 包被 TeamPCP 黑客组织劫持。鸭哥在群里发了详细分析（原文），关键事实值得再强调一遍：恶意版本 1.82.8 里塞了一个 litellm_init.pth 文件，这个文件会在 Python 解释器启动时自动执行，你甚至不需要 import litellm。只要它被装进了某个虚拟环境，该环境里跑的 Flask、Jupyter、pytest 都会中招。影响面有多大？LiteLLM 月下载量...

4 days ago • 1 min read

[鸭哥 AI 手记] 2026-03-23

[鸭哥 AI 手记] 2026-03-23 > 模型能力已经过剩，谁能管好上下文，谁就拿到了下一阶段的门票。懒人包：群里一场关于 skill 缓存的技术讨论，揭示了 AI 编程工具真正的效率瓶颈已从模型智力转向上下文管理。同一个规律也出现在更大尺度上：USCC 刚刚发布报告，正式将中美 AI 竞争的重心从"谁的模型更强"扩展到"谁的模型被用得更多"。你的 AI 编程工具，90% 的钱花在了重复读同一段话上群友 Nemo 在读 Codex 源码时发现了一个反直觉的事实：AI 编程工具最大的成本浪费，来自每一轮对话都重新处理已有的上下文。tools 参数一变，整个 KV cache 就失效了，几十万 token 得从头算。Codex 团队专门做了优化（GitHub PR #2611），把 MCP 工具注册方式改了，就是为了让 cache 能续上。这个问题的经济学很直白。Anthropic 的 prompt caching 对缓存命中的 token 打一折：Opus 4.6 的 input 从 $5/M 降到 $0.50/M，cache 写入则是 1.25...

5 days ago • 1 min read

[鸭哥 AI 手记] 2026-03-22

[鸭哥 AI 手记] 2026-03-22 > 当代码生成成本趋零，谁还在保护代码本身，谁就在保护一个正在消失的资产。懒人包：中国软著新规要求开发者声明"没用过 AI"，但法院判例和全球趋势都在往相反方向走，这条规则打击的是诚实者而非滥用者。群里一场企业 agent 落地分享揭示了同一个底层逻辑：底层 token 没有价值，应用层产生的 token 才有。微信正式接入 OpenClaw，agent 的分发渠道开始成型。软著要你保证没用 AI，但值得保护的早就不是代码了 3 月 15 日起，中国版权保护中心要求软著申请人手抄一段承诺：确认软件是"人的独立开发"，未使用 AI 编写代码、撰写文档或生成申请材料。签名附身份证号，虚假声明上失信名单、记个人征信。群里有人提到这个新规，鸭哥直接把申请表全文发到群里，还附了一篇完整分析（鸭哥调研）。规则的治理目标可以理解。澎湃新闻报道，版权保护中心针对的是代办机构用 AI 批量生成模板化材料的乱象（澎湃新闻）。2025 年全国软著登记量 318 万件，相当一部分是为了凑高企认定的 10 件门槛而批量申请的。高企认定能把企业所得税从...

6 days ago • 1 min read

[鸭哥 AI 手记] 2026-03-21

[鸭哥 AI 手记] 2026-03-21 > 当每个平台都在划定 AI 的边界时，真正的竞争力在于你能在多少条边界之间自由移动。懒人包：Anthropic 封杀了第三方工具调用 Claude Code subscription，鸭哥被迫开发新 workflow 绕行。同一天，腾讯给微信装了一个 Agent 遥控器，但这个遥控器只能单向发指令。群里则在讨论一个更底层的问题：AI 编程工具的价值到底在代码还是在约束代码的环境？三件事指向同一个判断：AI 工具生态正在从"谁的模型好"转向"谁的围墙高"。你的 AI subscription 能在哪里用，正在变成一个产品决策群里 Stone 说早上发现自己的 Claude Max 被禁了。鸭哥紧接着解释了原因：Anthropic 封堵了 OpenCode 等第三方工具对 Claude Code subscription 的调用。鸭哥的原话是"claude code 把 opencode 封了，我在被迫探索新 workflow"。这件事的背景是 Anthropic 自 2026 年 1...

7 days ago • 1 min read

[鸭哥 AI 手记] 2026-03-20

[鸭哥 AI 手记] 2026-03-20 > 当底座模型变成可替换零件，真正值钱的是你在上面叠了什么。懒人包：Cursor Composer 2 被扒出底座是 Kimi K2.5，揭开了 AI 编程工具"模型代工"的行业现实。群里 Meta 员工说自己"全靠吟唱一行代码没写"，Harness 调查 700 名工程师却发现 AI 重度用户部署故障率高 69%。两件事指向同一个判断：代码生产已经不是瓶颈，验证闭环才是。 Cursor 换了底座，但这件事本身比底座更重要 3 月 19 日 Cursor 发布 Composer 2，当天就有开发者在 API 流量中捕获了模型 ID：kimi-k2p5-rl-0317-s515-fast。Moonshot AI 预训练负责人确认了 tokenizer 匹配，随后删帖。几小时后 Moonshot 官方发声明，措辞微妙：承认 Kimi K2.5 "provide the foundation"，同时指出 Cursor 在 K2.5 之上做了继续预训练和高计算量 RL 训练（The Open Source Press）。Cursor 通过...

8 days ago • 1 min read

[鸭哥 AI 周报] 2026-03-21

[鸭哥 AI 周报] 2026-03-21 覆盖周期：2026/03/14 — 2026/03/21 一、本周事实表前沿模型与产品事实证据层级来源 OpenAI 计划将 ChatGPT、Codex、Atlas 浏览器合并为桌面 superapp，由 Fidji Simo 主导 [一手报道] WSJ, CNBC, The Verge OpenAI 计划年底前将员工从 4,500 扩至约 8,000，重点投入产品、工程、研究和销售 [一手报道] CNBC（引 FT） MiniMax 发布 M2.7 专有模型，SWE-Pro 56.22%，GDPval-AA Elo 1495，hallucination rate 34% [官方] VentureBeat GPT-5.4 "thinking" model 在 GDPVal benchmark 取得 83% [行业分析] supercarblondie（引 Fortune 报道）企业竞争与市场格局事实证据层级来源 Ramp 数据显示 Anthropic 占首次购买 AI 工具企业支出的 73%，10 周前这个比例还是...

8 days ago • 2 min read