“普通人”日常是怎么用 AI 的？

橙皮书

“普通人”日常是怎么用 AI 的？

0:00

-2:02:35

“普通人”日常是怎么用 AI 的？

leon

Mar 09, 2026

这期播客首先是做给我自己听的。

目力所及，人们对 AI 有两种态度，一种是狂热的学习新技术，生怕自己落后，另一种是放弃，实在跟不上技术演进，索性不跟了。

也有人是两者之间横跳，比如我。学是要学的，跟不上也是真跟不上，放弃？那是不愿意放弃的，典型的又菜又爱玩。

看多了网上大神的教程，我就愈发想看看，身边会用AI的朋友，真实的日常操作是怎样的？不是那种炫技式的分享，我们看了也学不会的，而是菜鸟看完也能有收获，自己回家日常也能用的经验。

于是有了这一期和超哥的聊天，他不是工程师，但是之前有产品工程相关的经验，日常工作更像研究，每天用 AI 的时间平均在六小时以上。我们聊了两小时，期间他还现场演示了如何 Vibe coding 做出一个 AI 投资委员会的产品。

一般来说这里应该总结一下我最大的收获是什么，但是这次我不想总结，我强烈建议你完整的听一遍或者读一遍文字稿，不要用 AI 总结，如果你和我一样又菜又爱玩的话。

接下来我想做一系列 AI 相关的内容，如果这期你听完有什么灵感或者建议，欢迎跟我聊～我的微信是 ksintmelody

Highlights

14:37 如果你有一个想法，现在就可以把它付诸实践，以极低的成本。过去有很多想法是没有机会去实践的，成本太高。这个想法是否能获得商业的成功，不是重点。

27:49 野生研究员的春天。

34:36 现场演示vibe coding AI投资委员会。

37:35 如何一步步开始做一个项目。

48:59 没有工程经验，也可以上手做，只是可能做出来的和你开始预期的不一样，需要返工。

76:49 如果没有AI的话，有什么事情是你完全不会去做的？

80:43 AI这种魔法有代价吗？

84:13 AI会代替你思考么？

89:05 工具强大之后，发心是最稀缺的。

112:48 即使我已经把很多时间用在AI上了，但依然用的不够充分。

参考链接

超哥的twitter

https://x.com/chaowxyz

现场演示的原始文档，生成的代码和成功run的那次结果文档。

https://pan.quark.cn/s/c553e3e33322

和超哥聊 AI Agent ：这次不一样 E30

https://www.xiaoyuzhoufm.com/episode/6777ad197317752df1048bc6?s=eyJ1IjogIjVlN2VhN2M5MWJmYmJjM2RhZDgyN2IxMSJ9

文字稿

橙皮书：我非常想知道我身边那些很会用 AI 的人，他们到底在怎么用 AI？如果 AI 是一种魔法的话，我觉得我现在是一个麻瓜，在我眼里你们都是魔法师，所以我想知道你们作为巫师，是怎么去使用 AI 这个魔法的？

超哥：你前天跟我提这个事情的时候，我其实特别惶恐。我平时会听大量跟 AI 相关的播客，偶尔也会听到有人介绍自己是怎么用 AI 的，每次听到我就觉得，哇，这个用的太牛了，我跟他们完全不在一个 level。所以当时你说想聊聊我怎么用 AI，我就很惶恐，我用的很熟，天天在用，但自认为整个体系和方法论是很落后的，只是满足了一些特定需求，勉强过得去而已。不过我也很好奇，你觉得你是麻瓜，你怎么麻瓜了呢？大家不都是在跟 chatbot 聊吗，能麻瓜到哪去？

橙皮书：我觉得我是麻瓜，是因为我并没有用这个魔法变出什么东西，比如说做出一个产品，或者用 vibe coding 做出一个东西。我现在还没有，而且我在尝试 vibe coding 的时候，发现连装软件都装得非常吃力，各种环境问题、网络问题。所以我就自我判定为麻瓜了。我以为巫师应该是具备写代码或者做出东西的能力的。

超哥：我理解了，就是聊当然是有很多深度的沟通和学习，但是在 coding 层面没做过什么东西。

橙皮书：没错。而且我对这个工具还有很多不理解的地方，比如怎么构建长期记忆，怎么让 AI 更了解我、更了解我的需求，这些我都不会，所以我觉得我是麻瓜。

超哥：其实这是所有用 AI 的人的痛点。构建长期记忆这件事，如果真能有一个特别好的解决方案，那就出去创业了，那是有巨大商业价值的。所以其实大家都差不多，这也是为什么你找我聊，我会惶恐。

不过这个视角其实很有参考性。我虽然不是文科生，学过计算机，但过去这么多年工作里，实际上没有做过任何跟代码相关的工作。所以从这个角度来说，我用 AI 来 coding，跟文科生也没太大区别，当然，毕竟当年学过，还是略微有一点点优势。但是你会发现，我们待会演示的工具，中间一行代码都不用看的。所以普通人完全也能用，都是一样的。

橙皮书：这是我头一次录播客的时候，不是自己准备问题，而是让 GPT 来给我出题。我发现它给的题目比我自己准备的要好很多。所以我就想问几个它提的问题。你是从什么时候开始发现 AI 是一个魔法型工具的？就是它跟之前所有的工具都不一样的那种感觉。

超哥：从 ChatGPT 一发布就发现了。发布的时候，当时就赶紧想办法注册账号用上了。那时候 GPT-3.5 大部分时间其实是在胡扯，但那种胡扯，你会发现明显跟当年你跟 Siri 或者小度聊天是完全不一样的。它虽然不靠谱，但你很明显能感觉到它是有自己的思考和创造能力的。这也是为什么那时候大家开始用生成式 AI，早期还有个词叫 AIGC，流行过大概半年到一年，后来就不提了。所以那时候就发现了，觉得这事很厉害。

橙皮书：在 AI 之前，你第一次接触互联网的时候，会有这种魔法的时刻吗？

超哥：接触互联网会有。我进入互联网非常早，那是 1998 年，我印象特别深，98 年 5 月 17 号，那是电信日，我们那个小城市才真正开通互联网。那时候我在读高中，对科技很感兴趣，就跑到电信营业厅去体验，觉得，哇，怎么着就能看到那么多东西？

那时候大家对信息的获取还没习以为常，你突然发现能上一个网站，里面有大量你不知道的东西，不管是中文还是英文，就觉得这是一片新天地。99 年就开始办了接入，用猫拨号上网，然后从 99 年一直到后来好几年，其实一直都有巨大的新鲜感，不断地在互联网上发现一些好奇的、从没想到这个世界上竟然存在的东西。那几年就一直沉浸在互联网世界里。

橙皮书：我现在回想起来，我当时接触互联网其实也有非常震撼的时刻，但我那时候可能太年轻了，大概 10 岁左右，年轻的时候好像每天都在被各种东西冲击，反而没有特别的感觉。但现在我会感觉，从 20 岁到 30 岁，好像已经慢慢有点疲劳了，很少有什么设备或者产品会让我觉得有魔法。但后来发现 AI 不一样，它一开始是魔法，现在好像又在被证明是更强大、被低估的魔法，感觉它可以 do everything。就像你刚才说的，十年内甚至可能解决所有科研问题。那我想问，这个 AI 魔法是不是和以前的魔法不一样？

超哥：肯定不一样。过去所有的东西，从来没有哪一个是真正有「智能体现」的。过去的工具，不管是蒸汽机还是其他的，都是从工程或者物理层面解决某个具体问题。而 AI 这个东西，是从思维层面给你新的东西，从这个角度来说是完全不一样的。

最早 GPT-3.5 出了以后，大家第一时间都用上了，用上以后确实很新鲜，但聊完了又能干嘛呢？因为 3.5 以现在的眼光来看确实比较差，对生产力的实际影响没那么高。但紧接着，大概过了三四个月，23 年的三四月份，GPT-4 发布了，你就发现明显不一样了，靠谱程度大幅上升，能应用的东西一下多了很多。

到现在等于是高频使用 AI 已经三年了。它一直在刷新我的认知，给我惊喜。比如我两年前就在用 AI 做一件事，做得很吃力，坑坑洼洼在往前走，后来半年以后模型一刷新，一天就搞定了，而且搞得比之前还好。就之前通过对话式的方式跟 AI 一点一点聊，再挪到代码里面勉强弄出一个版本，还不好，后来被我丢弃了。后面用 Claude Code，真的不到一天，整个重读代码库，把我当时的思考又找出来，给出更好的工程方案，做出了一个比之前花很长时间做的版本还要优秀的结果。你就觉得，哇，太好了，哪怕我不变强，但它在变强。它在变强，我能做的事情就一直在扩展边界，那个感觉非常好。

橙皮书：如果它是一个这么强大的工具，确实称它为之前从来没有过的魔法也是 OK 的，因为它是思维的工具。上一个能这么说的，我想起来乔布斯会说，个人计算机是人类大脑的自行车，让大脑跑得更快。现在这个都不只是自行车了，应该是……自行车换成火箭了。

超哥：是的。过去我们用工具也好，用各种复杂代码也好，本质上是把那些需要人脑算的、思考的、非常明确的规则化的东西，外包给 PC 去做。但是生成式 AI 做的，是进一步地不只把规则性的东西，而是把几乎所有的思考都能覆盖，因为思考本来是没有规则的。

之前用计算机能替代人脑的部分可能只有 10%，虽然那 10% 的某些计算你用人脑可能要算一年，计算机一天就搞定。但真正能替代人脑去「思考」的比例没那么高。现在我觉得几乎是所有的，除了物理上有些限制做不到的，剩下的几乎都能做了，甚至以现有的模型能力都已经够了，我都不用等 GPT-6 或者 Claude 5。

以现有的模型能力，我觉得我们想做的绝大部分事情，除了最顶尖的科研可能超出它的能力范围，剩下的都能干了。取决于你想不想得到，想怎么去做，以及如果工程太复杂、你又不具备工程能力的话，可能需要等一个工程框架出来。但并不是大脑不够强，我觉得它的能力已经超出大部分人的需求了。

橙皮书：有什么事情是你在有 AI 之前就是不做、做不了、或者做起来很困难的，有了 AI 之后现在轻而易举就能做到的？

超哥：我现在几乎所有的事（当然不能这么绝对），我个人在尝试的很多事情，真正用于传统意义上工作的时间其实并不多，可能每天平均不到半天，所有需要处理的事情就都完成了。剩下的时间都在探索。

以前可能需要 6 小时，现在 AI 帮我节省了两三个小时。另外，之前如果有了时间，我可能就多看看资料充实自己，也就停到这了。现在因为有了 AI 工具，第一它能高效地、以很高的智能水平帮我做很多事，第二它的成本还很低。

过去很多事情我也可以琢磨，但做不了，要么我自己不会，要么我知道需要雇什么样的人、大概多长时间能做出来，但这个东西又跟赚钱没关系，没必要花那个级别的费用去做。那现在除了保日常工作以外，剩下所有的事情都是跟 AI 和探索相关的了。

具体说一个例子。最近我做了这样一件事：我把 2019 年到 2025 年 Arxiv 上特定类别的论文全部抓了下来。Arxiv 是一个论文预印本网站，几乎所有跟 AI 相关的论文都会在这里优先发一个预印本。我之前其实已经做了一个工具，每天从 Arxiv 上抓最新的特定类别论文，把我不感兴趣的类别剔掉，再做成一个文摘推荐报告。里面如果有更感兴趣的，我就会打开论文原文，当然一般所谓「打开」，也是把论文丢给 AI 让它总结。除非这个论文我觉得意义特别大，或者我有充足的兴趣理解它的每一个细节，这时候我才会把论文打开自己去读。

做着做着，我就发现越来越多的推荐报告里会涉及很多 Benchmark，就是用一套题目或者任务去测试 AI 的基准测试。我发现每天给我推荐来的东西，Benchmark 的比例一直在上升，到现在几乎每天都能看到几十个。我就很好奇，怎么会有这么多 Benchmark？大家都在想什么，怎么测 AI？

于是我就做了这件事：把过去 7 年内，在 Arxiv 上特定几个容易涉及 Benchmark 的类别下面，所有的论文全抓了下来，大概接近 30 万篇。然后写了一个非常复杂的流程工具（主要是 AI 写，我在调动它写），去判断哪些是跟 Benchmark 相关的论文，哪些不是。这件事本身就挺不容易的，不管是用关键词判断还是其他方式都没那么准，所以中间经历了很多过程。最终从 30 万篇论文里筛出来了接近 22,000 篇是真正跟 Benchmark 相关的。

这个数字很高。大家看大模型发布，每次可能只会列举十几个不同的基准，但实际上业界已经产生了两万多个基准。很多从出生到最后从来没被人关注过，但为什么会出生？这本身我觉得就有价值。

从 30 万篇到 2.2 万篇，再到怎么去理解这 2.2 万篇，我也不可能去读它，那这些论文在讲什么，有什么共通的东西？我收集出了 30 多个不同维度的数据标签，包括数据集大小、所属领域、测试方向等等，然后用大语言模型挨个读每一篇论文，读完后根据我设计的这套数据集挨个打标签。

简单讲是这么一个过程，但真正做下来，因为我对整个流程本身，包括对 AI 评测这个领域，都没那么熟悉，所以中间经历了很多次返工。发现有问题，哪怕只涉及中间几个指标，为了数据严谨，你也得把所有论文重新读一遍。这个过程中的每一步，如果没有 AI 我都做不了。从抓 30 万篇论文开始，这就很难，你得知道哪有好的 API，Arxiv 自己的 API 做的很差，你得找第三方替代的，然后还得会调 API。我基本上不懂代码，所以每一步都依赖 AI。更别说最后读 2 万多篇论文了，人一辈子也不一定读得完。

所以这件事就做成了。我不敢说现在做的有多好，还在后续整理结果，后面可能会发一些报告。但至少这个过程本身能做成，这对于我的能力边界来说，是一个巨大的跃升。

橙皮书：也就是说，这是一个相对来说目前还比较小众的研究方向，全世界对这个感兴趣的人可能本来就没多少。

超哥：对，几乎就没有。如果有人意识到这个问题，比如说北大有个课题组来做，以那帮研究员的能力，不管是 coding 还是对 AI 评测的理解，都比我要深得多。他们可能一个月就能做一个粗略版本，想做精，可能也用不了一个季度。但确实是因为这个东西太新了，有太多新的方向可以弄，严肃的研究团体可能没有那么多精力，或者纯粹就是还没注意到。

橙皮书：但是现在你，不是一个纯粹的严肃研究团体，也可以用 AI 去实现跟那个严肃研究团体接近的效果。

超哥：「接近」比较合适，说一样有点大了。经过严肃学术训练、对这个领域有更深理解的人，他们形成的整个方案和报告一定比我的要好。

但从课题研究的角度来说，没有本质区别。我之前做过另一个研究，曾经跟同济大学的一个教授聊过，他给了我很多建议，总体来说觉得我做的东西从数据采集到分析，其实已经做得相当扎实，深度也还不错，虽然最后写的报告可能因为不知道重点在哪、写作不够好，但本身这件事是一个人干了一个课题组的活。

一般来说，课题组是老师产生几个 idea，底下几个研究生跟着干，还需要额外请几个外援。现在相对简单的事情，一个人带上一个 AI 或者几个不同的 AI 工具，就都摆平了。

橙皮书：我本来以为这次聊的主要是提高工作效率，没想到研究这个方向也会有这么大的提升。

超哥：对，因为我过去这几年做的事，不管是 coding 还是跟 AI 聊，其实大部分都跟生产或者效率没关系。我唯一可以说是世俗意义上的工作，是做投资相关的东西，但本来时间上就有很多空余。

剩下的时间里，我更多是突然琢磨出一个东西，觉得它应该挺有价值，但具体是不是、能不能通过做什么事情去判断，我也不确定。我就先判断一下这事能不能做，能用 AI 帮助的情况下能不能做？能做我就去试试。可能做了一周，发现想简单了，做不了，也很经常有。那你不做了，这一周的时间，但其实做挂的过程本身也学到了很多东西，对这个领域的认知也会加深。

所以我其实更多的兴趣和实践是在探索本身。这个领域原本就不是在做生产，而是做研究，虽然我不好意思说「做研究」，因为在我看来这还是一个过于严肃和专业的词。但确实是一个之前无人关注、或者有人关注但啥也没做的领域，我有兴趣我就去搞一搞。

橙皮书：野生 AI 研究员，哈哈哈。

超哥：野生研究员，但研究的未必是 AI 本身，更多是用 AI 来做研究。

橙皮书：咱们要不要来演示一下？

超哥：行啊。昨晚咱俩聊，你说期望有这么一个环节，我当时现想了一个需求。今天早晨出门之前，大概跟 AI 聊了几句，形成了一个基本的项目 PRD。

我先说一下这个演示项目干什么。它其实跟我的工作有点关系，就是投资这件事，你肯定要做大量决策判断，最后一步一般就是开投委会，就是 IC（Investment Committee）。我觉得不管是我个人还是适用到所有人，你的思考和眼光一定是有局限的，一定有你想不到而别人能想到的地方，这也是为什么要有 IC 这件事。否则你是合伙人，你投就好了。

所以这个方向我觉得蛮有价值，用 AI 做这件事。而且这也跟我在 AI 领域的一个关注方向很有关系：怎么去集合大家的观点，去帮助某一个产业或者某个决策。

这个项目的想法很简单：我输入一段对于潜在被投公司的介绍，不管是 Memo 还是什么，然后由一个虚拟的 AI 投委会，每个人从各自的思考角度给出建议和判断。这里面有人擅长增长，有人专注风险控制，等等。这中间大家还会产生观点冲突，然后辩论，因为我觉得辩论这个过程也很重要。最后形成一个参考报告，不是结论，就这么简单的项目让它形成结论你也不敢用，但至少形成一个参考报告是可行的。我觉得应该有望在咱们录制过程中就能做完，但我不确定。

橙皮书：如果你有了这样一个想法，一般会怎么从头开始？

超哥：从头开始第一步肯定是先有想法，这个想法有可能是在浏览过程中突然意识到的，也有可能是自己遇到什么问题，觉得可以做一个什么东西来帮到自己。想法这个没什么可参考的，就得先有想法。

有了想法之后，取决于这个想法的复杂程度，你得大概想一下，如果实现，中间可能是什么样一个路径。当然如果完全没做过工程、完全不了解，也不是做不了，这个工作完全可以交给 AI 做，AI 做也能做得不错，只是中间可能会有偏差，会有一些结果的不确定性。但一定不会因为你没有这个基础知识就做不了。

因为我还是有一些工程背景，所以我会去思考这个东西怎么弄，弄完了以后再跟 AI 一起生成一个 PRD，也就是产品需求文档。这里面会约束很多条件：描述我到底想干什么，大概想怎么实现。具体实现当然是 AI 做，但我要框一个约束，不框的话 AI 也能做，但中间失控的风险会比较大，给他更多上下文，效率和可控性都会好很多。

总结完文档之后，还会跟 AI 再讨论几轮，比如「这里面有什么是我应该提供但没有提供的，你帮我 review 一下」。他经常能提出一些很好的问题，你会发现如果他没问出来，最后做的时候一定还得问，效率就降低了，或者他没问直接按自己理解做了，跟你需求不一致。

所以让 AI 自己去 review 和反思，几乎是我做所有事情的一个标准流程，因为这是最低成本提高效果的方法。不管这件事是我想的还是 AI 想的，你说「你再好好反思一下这个有什么毛病」，往往他反思出来的版本就比之前的要好，你都不用换模型就能提升效果。

橙皮书：能不能默认，就是他每次自己回答完之后就自动反思一下？

超哥：这个你就得在一开始用 prompt 去约束它，或者说你自己有一套调大模型的方式，可以把这个放到系统提示词里面。或者第一句话跟 ChatGPT 聊，你就说「接下来你每次回复之后都应该反思」，可以，当然可能时间长了他会忘，聊了 10 句他可能就不再 follow 这个指令了，这也是经常有的事。但这确实是一个特别简单、特别低成本，能提高产出的小技巧。

说完这个，我们把文档定义好，经过几次讨论和 review，最后形成了一个文档。这个文档就不是在聊天窗口里聊了，而是基于这个版本去驱使一个 agent 去干活了。

我先介绍一下这几个文件是干嘛的。agent.md 这个文件，是 Codex 的一个标准配置文件，它会在做每一个执行之前参考里面的内容，类似一个方法论级别的约束文档。这里面描述的不是项目干什么，而是做事的原则，比如「所有代码必须足够健壮」等等。这些你不说他理论上也应该这样，但说一句肯定还是有用的，尤其是很多细节他考虑不到的。

这个 agent.md 我特别推荐大家去看一个叫 agents.md 的网站，那里面有几万个各种各样的这类文档，你可以去学习别人是怎么用 AI 的，别人是怎么思考这件事情的，能学到很多。

然后是 PRD 文档，这个就是我和 AI 一起协作写出来的产品需求文档，中文的。里面定义了背景和问题，然后明确约束，比如因为是面向极早期的创业项目，所以真实性核验通常不是核心矛盾，你不给这个约束，它可能就做成了一个中晚期投资的 DD 工具，找半天结果什么都没找到，跟你的设计预期完全不符。

这里面实际上也是需要你对这件事本身有一定的 domain 认知，否则你设计出来的东西可能就是不合适的，这也是为什么我做论文那个事情因为 domain knowledge 不够，不断地返工。

橙皮书：就是需要把你知道的、以及你知道自己不知道的东西，都告诉 AI。这样它才知道。

超哥：对。有些你不知道，但 AI 发现这个东西很重要，它也会跟你探讨。或者说你干脆把这个交给它：「这个我判断不了，你根据情况做一个最佳判断，我信任你。」就这么简单，也能把这个东西走下去。

橙皮书：这还挺像产品经理跟程序员沟通的。

超哥：对，所以我现在就是产品经理。

为什么有另外一个单独的文档叫「IC Agent Protocol」？是因为这件事本身会有大量 AI 针对同一个事情做不同判断，这是一个很细的业务逻辑，所以单独抽出来更清晰。未来如果工程结构没问题，但你觉得讨论方法不高效、出的东西不好，你只改这个文档就行，不用动工程结构。

里面约束了不同的 IC 成员角色，有的人特别熟悉市场，有的人擅长 go-to-market，有的人专注风险，约定了七个不同的角色，然后定义他们以什么样的方式去讨论、辩论、最后形成报告。

还需要有一个搜索 API，因为事实核验涉及搜索。我今天早上出来之前临时注册了一个搜索 API，有一定的免费额度，做展示足够了。

最后是 configure 文件，里面填了 API key，以及用哪个模型。因为这个产品运行本身也要调用大语言模型，所以这里边填了两个 API，一个用于模型调用，一个用于搜索。

总结一下结构就是：agent.md 是宏观的「教它做人」，PRD 是具体产品需求，IC Agent Protocol 是细节的业务逻辑。当然你也可以都写到 PRD 里面，只是我觉得拆开更清晰。

橙皮书：所以哪怕最起码要有 PRD，是吧？

超哥：PRD 也可以没有，啥都没有，你就建个文件夹打开，直接跟 AI 说「我想做一个什么什么东西，你帮我想想怎么做」，没问题，一样是能开始做的。只是最后返工的概率，或者它做的跟你想的不一样的概率会大很多。

就是做任何一件事，让 AI 先形成一个工作列表依次实现，而不是一次性全部干，这个看起来很爽，但做完你发现实现质量中间会有很大问题。分步骤实现，每一块单独能测就最好，不能测你也告诉我是怎么实现的，等于你作为老板，要有一定的管控。

这跟做人老板完全是一个道理。你可以足够信任下属，说这事我不管了，明天给我弄过来，如果他很牛，明天确实给来了，你会特别爽。但更多的时候如果你完全不管，给他的上下文又不足够，明天发现交的东西跟你想要的完全不一样。这很常见。所以当 AI 老板和当人的老板，很多方法论上确实是很像的。

橙皮书：OK，那现在 AI 已经读完了文档在干活了。这段时间等待的时候你一般会干什么？

超哥：如果很短，比如一两分钟就完了，我就等一下。如果是很长，比如项目比较复杂，我会开两个项目并行，这个项目他去干活去了，我就跟另一个项目开始搞起来。或者说只有一个项目在做，我就拿电子书看一会。

我在家的时候有两台 PC，面前四个屏幕，其中一个屏幕专门监控这个 coding 的窗口，看它在干嘛，另一个屏幕开着微信、网页，有一两分钟我就看一下还没读的标签。有些项目相对复杂，短则十几分钟，长的时候我等过一个多小时，那中间就确实是要找点别的事，或者两个项目并行。

橙皮书：如果你希望他每做一步都给你 check 一下，那其实你需要跟他频繁交互，他干一会，你交付一下，再看一会，再交付。

超哥：对，我正常的协作流程就是这样的，我不会让他一次性搞这么多。今天这个演示项目比较简单，所以我让他一次就干了，但我需要他每次干之前把怎么干的方案告诉我，让我确认。尽管不是说每次我都有能力挑出毛病，有些方案已经超出我能判断的范围，但至少得让他告诉我一下。

这样做更重要的原因不是说工程方案写得好不好，而是说这事他想偏了以后，如果整套流程都没有确认过程，他就会按偏的方式一直往前搞。更多的是纠偏，而不是说我要 challenge 他的工程方案，我肯定也没那个能力。但偶尔，在某些我懂的东西上，上下文我知道得比他多，我也能揪出来说这个方法设计不合理。

我没有精确的数据，但大概可能有三分之一的时间，我会对他提出的实现方案提出异议，或者让他解释一下。他解释完我觉得 OK 那就干，或者说他改一下。

超哥：你那天列的问题里面还有什么可以先聊？他干完活咱们再续上。

橙皮书：OK，如果没有 AI 的话，有什么事你这辈子都不会尝试的？

超哥：那好多。其实咱们刚才已经聊过了，不管是因为成本、还是个人技能的限制，有很多事情你知道自己啥也做不了，就连好奇心都不会起，因为你知道做不了，也就别起好奇心了。

所以很多东西，没有 AI 我是不会去做的。不是哲学层面上的「这辈子不会」，只是说没有一个低成本的、高智能的工具帮你的时候，这件事就不在你平时的思考范围内。从现实考量来说，能力上、认知上、成本上，都不具备做的可能性。

橙皮书：我自己发现，我以前有一些问题，想想就过了，但是现在只要想到一个不明白的，我都会拿去问 AI。比如说特朗普现在跟欧盟决裂这件事，我会想问，之前有没有美国总统干过类似的事？这个问题之前用搜索引擎不太好搜，我就放弃了；现在就随手去问 AI，虽然结果有时候好有时候不好。

超哥：对，就是没有 AI 这事可能确实不会去做。

回到刚才的演示，AI 已经跑出结果了。它通过搜索 API 搜了很多关于 Mistral 的东西，然后把这段描述总结成了结构化的内容，分析了这家公司的各种 claim，还专门针对创始人做了一些研究。它甚至直接给出了 decision，批准对其的战略投资，重点支持欧洲大模型，因为开源模型已经成功。但同时也有 disagreement：某些数据缺乏支撑，训练效率缺乏技术实证。

不过我给的 Memo 是 2023 年的，所以它搜到的是 2025、2026 年的信息，Mistral 那时候早就过了那个阶段、都有产品了，所以信息上有一些时间错位。但不管怎样，这个流程跑通了，这是最重要的，虽然结果因为时间信息混乱不够好，但骨架是对的，逻辑是通的。

更重要的是，整个演示过程包括讲解，其实就用了不到一个小时，中间还断网了一次。真正写代码的指令就没几个，四五个而已。当然，更主要的过程是今天早晨我在家的时候，先通过跟 AI 把这个事情想明白了，形成了那些文档，这才是更主要的一个过程，最后一步的执行反而相对简单。

橙皮书：我对比了一下，你做这个和我自己做一些产品的时候，发现核心区别是，我完全没想清楚这个产品的流程是什么，有哪些环节，这些东西都没有。但你的 PRD 已经是非常详细的。

超哥：对，把之前想明白这件事本身就很重要，没想明白就做，过程中就会很发散、容易失控。

但有一点要说的是，这件事我能在早晨半小时里想明白，也是因为我之前做过类似的东西。从这个角度来说，构建一个虚拟的董事会、IC 委员会，或者一个 studio 里面有不同的角色协作写出更好的内容，这些本质上都用了同一套逻辑：不只是 AI 的生成能力，更重要的是多人观点碰撞。

哪怕你不用这一套技术，你给 AI 一本书，它也能给你讲。但是它讲出来的，就不是多个观点碰撞之后的东西，可能会比单独一个 AI 输出的效果要好。这个是我做这类实验的一个潜在期望。就算不产品化，我自己看项目的时候 run 一下，它可能想到一些我忽视了或者根本没想到的点，那这个价值就已经有了。

橙皮书：这个经济成本呢？比如 token 消耗应该……

超哥：那很低。跟 Gemini 聊本来也是在订阅里面的，这个 API 应该没花多少钱。它不像读论文，一下读两万篇，那个才是大头。这个演示只是几轮 IC 辩论调用，我用的是 Gemini Flash，那是很便宜的，一次调用可能就两三美厘，50 次调用也就 10 美分不到一块钱。

我自己是买了两个平台的高级订阅，ChatGPT 和 Gemini 都是最高版本，感觉每天用量都特别充沛，用不完。我买这么多有两个原因：一是我比较喜欢同样的问题在不同模型之间互相问、互相 challenge，所以多个高级模型的触达对我来说比较重要；二是我每隔一段时间，用的模型的偏重就会变，最早大家都用 ChatGPT，后来 2024 年我有一段时间疯狂用 Claude，因为它写东西和写代码都特别好。后来 Claude 封了我好几个号，加上 Gemini 水平上来了，Gemini 的文字呈现方式我觉得很舒服，尤其是年纪大了之后对眼睛的关爱也很重要，我就愿意看它。

但 Gemini 最大的问题是它太容易顺着你说了，比 GPT 还容易。GPT 如果你跟它讨论一个很严肃的问题，它是真的能独立思考、有时候会 challenge 你的。Gemini 你就算提示它「别考虑我的感受，该咋说咋说」，它也还是会偏向捧你。如果你没有意识到这个问题，等于有一个智商情商超高的人天天在捧你，那挺危险的。

Grok 的话，它的搜索我觉得是很棒的，因为接了推特数据，有些东西别的平台根本搜不到，但 Grok 能梳理得明明白白。所以我也需要用它，但做严肃工作的时候我一般不用，因为感觉智能水平跟这几家比还是有差距。

你也不知道哪天谁家一迭代，谁又变成最强了。所以干脆每个都用。

橙皮书：居然能有四家，基本上是齐头并进的水平，你争我赶。

超哥：对，Grok 现在差一点，但老马在背后，我觉得还是在牌桌上的。我觉得未来还是会很接近，可能预训练的曲线趋于平缓，但各家在 RL（强化学习）上各有各的方法论和玩法，所以很难说哪家会在哪个维度明显领先所有人。

包括 coding 工具也是，最早我用 Cursor，后面 Claude Code，后面 Codex，但 Codex 被动用是因为 Claude Code 封了我。后来发现 Codex 能力涨得很好了，跟最早比要好很多。现在我发现 Windsurf（antigravity）的 UI 做得很好，用着很顺手，就又切过去了。一直在换，这也说明其实长期记忆真的没那么重要。我跟 Claude 高频聊了将近一年，最后也可以切换到别的，切换完发现过去那些聊天其实也没差多少。

橙皮书：那这样搞的话，岂不是大家其实没有什么壁垒可言？

超哥：在这个领域确实用户切换是非常非常容易的，也确实非常频繁。如果说壁垒，可能是比如 Gemini 它跟整个 Google 生态打通了，那这个是壁垒，你模型可以换，但你接不到我的 Gmail，接不到我的 Doc，那就很难走了。

再一个就是可能未来是不是有更长期的记忆，甚至更定制化，模型小型化以后长在你家的 PC 或者手机里，而且很强，对你整个习惯有深度掌控。如果你敢让它接触这些东西的话，用惯了以后换一个可能会不适应。

对于组织公司来说，迁移可能会更困难一点。一方面是公司的 domain knowledge 和隐私数据，第一是他敢不敢放，哪怕他信任某几家，一旦搭完了以后想换也挺麻烦的。所以确实有一些公司在专门做这个，帮企业以可承受的成本部署非常私有的模型，并且这个模型能针对每一个人做到细分，CEO 问一个事和一线销售问一个事，背后的思考和要做的 action 肯定是不一样的嘛。

橙皮书：准备的问题好像就问完了。

超哥：挺好的。不过我还是要叠个甲，我肯定是用的很猛，但水平就那么回事。不过我觉得比起技巧，可能更重要的是我是怎么拥抱这件事情的。

如果以一个贪心的科技爱好者来说，我当然能列出一堆期望：无限的上下文、API 费用再降一万倍、可以本地部署的私有模型同时够强……你可以讲出很多来。但你再回头想想，哪怕就是我已经这么用了，我其实完全没有把 AI 模型的潜力发挥出来。所以这些技术上的限制、工程上的不成熟，根本不是我现在用 AI 还没做很多事情的真正原因。

真正的问题是：第一，我能不能想到一些值得做的事；第二，我能不能去实践、去做这件事。大部分人其实根本就还没有拥抱、还没有用起来，所以你给他无限上下文又怎么样呢？

我觉得不管会不会 coding，用起来就很有价值了，哪怕就是聊，你天天跟它聊，你也不是傻子，你天天问肯定会总结出一些更有效的方式。

其实我的 coding 时间占我和 AI 交互时间的比例可能不到 20%，大部分时间其实是在跟 chatbot 聊，在探讨、在学东西。所以聊本身也很有价值。

我每次坐到电脑前其实还是挺兴奋的，尤其是比如周末带孩子出去玩了两天没在家，坐到那打开聊天的那一刻，我就觉得……这个世界我在掌控的那个感觉，它确实给了一种你变得更强大的感觉。

橙皮书：我没想到你跟 AI 的主要时间是聊，而不是 coding。

超哥：是的。coding 代表在生产，哪有那么多东西天天生产？除非你是开公司的、有巨大的工程每天都要干，那当然是一直在做。我没有那么多东西要干，所以大部分时间用 AI 的话，其实也是在聊。

我很多时候会用 AI 帮我深度解读一些复杂文章，哪怕一篇文章可能就得三个小时。因为当你让它去解读得非常细的时候，它拆每一句话，你不懂这句话，它就把这句话背后的逻辑再拆出来给你，你还不懂，就再拆一层，就这样层层拆下去。哪怕一篇不那么长的文章这么拆完，你就很长时间。但拆完了，你对这个底层逻辑的掌握，就跟你简单读一篇文章的概念完全不是一个层次。

所以哪怕今天什么事都没有，我可能就从 RSS 里挑一篇感兴趣的东西，让它特别深入地帮我一块伴读、讨论、追问。两个小时，我也觉得很有价值，可能搞明白了一个我完全不明白的东西。这个时候它是一个最完美的老师，而且现在的幻觉已经好太多了，一般来说不会说错的。

橙皮书：OK，要不我们今天就到这？

超哥：行，你多剪点，别聊太多了，大家肯定会疲惫的。

橙皮书：线下聊就多聊点。好，那就感谢超哥！

超哥：好嘞，拜拜。

橙皮书

“普通人”日常是怎么用 AI 的？

Discussion about this episode

Ready for more?