这期播客首先是做给我自己听的。
目力所及,人们对 AI 有两种态度,一种是狂热的学习新技术,生怕自己落后,另一种是放弃,实在跟不上技术演进,索性不跟了。
也有人是两者之间横跳,比如我。学是要学的,跟不上也是真跟不上,放弃?那是不愿意放弃的,典型的又菜又爱玩。
看多了网上大神的教程,我就愈发想看看,身边会用AI的朋友,真实的日常操作是怎样的?不是那种炫技式的分享,我们看了也学不会的,而是菜鸟看完也能有收获,自己回家日常也能用的经验。
于是有了这一期和超哥的聊天,他不是工程师,但是之前有产品工程相关的经验,日常工作更像研究,每天用 AI 的时间平均在六小时以上。我们聊了两小时,期间他还现场演示了如何 Vibe coding 做出一个 AI 投资委员会的产品。
一般来说这里应该总结一下我最大的收获是什么,但是这次我不想总结,我强烈建议你完整的听一遍或者读一遍文字稿,不要用 AI 总结,如果你和我一样又菜又爱玩的话。
接下来我想做一系列 AI 相关的内容,如果这期你听完有什么灵感或者建议,欢迎跟我聊~我的微信是 ksintmelody
Highlights
14:37 如果你有一个想法,现在就可以把它付诸实践,以极低的成本。过去有很多想法是没有机会去实践的,成本太高。这个想法是否能获得商业的成功,不是重点。
27:49 野生研究员的春天。
34:36 现场演示vibe coding AI投资委员会。
37:35 如何一步步开始做一个项目。
48:59 没有工程经验,也可以上手做,只是可能做出来的和你开始预期的不一样,需要返工。
76:49 如果没有AI的话,有什么事情是你完全不会去做的?
80:43 AI这种魔法有代价吗?
84:13 AI会代替你思考么?
89:05 工具强大之后,发心是最稀缺的。
112:48 即使我已经把很多时间用在AI上了,但依然用的不够充分。
参考链接
超哥的twitter
现场演示的原始文档,生成的代码和成功run的那次结果文档。
https://pan.quark.cn/s/c553e3e33322
和超哥聊 AI Agent :这次不一样 E30
文字稿
橙皮书:我非常想知道我身边那些很会用 AI 的人,他们到底在怎么用 AI?如果 AI 是一种魔法的话,我觉得我现在是一个麻瓜,在我眼里你们都是魔法师,所以我想知道你们作为巫师,是怎么去使用 AI 这个魔法的?
超哥:你前天跟我提这个事情的时候,我其实特别惶恐。我平时会听大量跟 AI 相关的播客,偶尔也会听到有人介绍自己是怎么用 AI 的,每次听到我就觉得,哇,这个用的太牛了,我跟他们完全不在一个 level。所以当时你说想聊聊我怎么用 AI,我就很惶恐,我用的很熟,天天在用,但自认为整个体系和方法论是很落后的,只是满足了一些特定需求,勉强过得去而已。不过我也很好奇,你觉得你是麻瓜,你怎么麻瓜了呢?大家不都是在跟 chatbot 聊吗,能麻瓜到哪去?
橙皮书:我觉得我是麻瓜,是因为我并没有用这个魔法变出什么东西,比如说做出一个产品,或者用 vibe coding 做出一个东西。我现在还没有,而且我在尝试 vibe coding 的时候,发现连装软件都装得非常吃力,各种环境问题、网络问题。所以我就自我判定为麻瓜了。我以为巫师应该是具备写代码或者做出东西的能力的。
超哥:我理解了,就是聊当然是有很多深度的沟通和学习,但是在 coding 层面没做过什么东西。
橙皮书:没错。而且我对这个工具还有很多不理解的地方,比如怎么构建长期记忆,怎么让 AI 更了解我、更了解我的需求,这些我都不会,所以我觉得我是麻瓜。
超哥:其实这是所有用 AI 的人的痛点。构建长期记忆这件事,如果真能有一个特别好的解决方案,那就出去创业了,那是有巨大商业价值的。所以其实大家都差不多,这也是为什么你找我聊,我会惶恐。
不过这个视角其实很有参考性。我虽然不是文科生,学过计算机,但过去这么多年工作里,实际上没有做过任何跟代码相关的工作。所以从这个角度来说,我用 AI 来 coding,跟文科生也没太大区别,当然,毕竟当年学过,还是略微有一点点优势。但是你会发现,我们待会演示的工具,中间一行代码都不用看的。所以普通人完全也能用,都是一样的。
橙皮书:这是我头一次录播客的时候,不是自己准备问题,而是让 GPT 来给我出题。我发现它给的题目比我自己准备的要好很多。所以我就想问几个它提的问题。你是从什么时候开始发现 AI 是一个魔法型工具的?就是它跟之前所有的工具都不一样的那种感觉。
超哥:从 ChatGPT 一发布就发现了。发布的时候,当时就赶紧想办法注册账号用上了。那时候 GPT-3.5 大部分时间其实是在胡扯,但那种胡扯,你会发现明显跟当年你跟 Siri 或者小度聊天是完全不一样的。它虽然不靠谱,但你很明显能感觉到它是有自己的思考和创造能力的。这也是为什么那时候大家开始用生成式 AI,早期还有个词叫 AIGC,流行过大概半年到一年,后来就不提了。所以那时候就发现了,觉得这事很厉害。
橙皮书:在 AI 之前,你第一次接触互联网的时候,会有这种魔法的时刻吗?
超哥:接触互联网会有。我进入互联网非常早,那是 1998 年,我印象特别深,98 年 5 月 17 号,那是电信日,我们那个小城市才真正开通互联网。那时候我在读高中,对科技很感兴趣,就跑到电信营业厅去体验,觉得,哇,怎么着就能看到那么多东西?
那时候大家对信息的获取还没习以为常,你突然发现能上一个网站,里面有大量你不知道的东西,不管是中文还是英文,就觉得这是一片新天地。99 年就开始办了接入,用猫拨号上网,然后从 99 年一直到后来好几年,其实一直都有巨大的新鲜感,不断地在互联网上发现一些好奇的、从没想到这个世界上竟然存在的东西。那几年就一直沉浸在互联网世界里。
橙皮书:我现在回想起来,我当时接触互联网其实也有非常震撼的时刻,但我那时候可能太年轻了,大概 10 岁左右,年轻的时候好像每天都在被各种东西冲击,反而没有特别的感觉。但现在我会感觉,从 20 岁到 30 岁,好像已经慢慢有点疲劳了,很少有什么设备或者产品会让我觉得有魔法。但后来发现 AI 不一样,它一开始是魔法,现在好像又在被证明是更强大、被低估的魔法,感觉它可以 do everything。就像你刚才说的,十年内甚至可能解决所有科研问题。那我想问,这个 AI 魔法是不是和以前的魔法不一样?
超哥:肯定不一样。过去所有的东西,从来没有哪一个是真正有「智能体现」的。过去的工具,不管是蒸汽机还是其他的,都是从工程或者物理层面解决某个具体问题。而 AI 这个东西,是从思维层面给你新的东西,从这个角度来说是完全不一样的。
最早 GPT-3.5 出了以后,大家第一时间都用上了,用上以后确实很新鲜,但聊完了又能干嘛呢?因为 3.5 以现在的眼光来看确实比较差,对生产力的实际影响没那么高。但紧接着,大概过了三四个月,23 年的三四月份,GPT-4 发布了,你就发现明显不一样了,靠谱程度大幅上升,能应用的东西一下多了很多。
到现在等于是高频使用 AI 已经三年了。它一直在刷新我的认知,给我惊喜。比如我两年前就在用 AI 做一件事,做得很吃力,坑坑洼洼在往前走,后来半年以后模型一刷新,一天就搞定了,而且搞得比之前还好。就之前通过对话式的方式跟 AI 一点一点聊,再挪到代码里面勉强弄出一个版本,还不好,后来被我丢弃了。后面用 Claude Code,真的不到一天,整个重读代码库,把我当时的思考又找出来,给出更好的工程方案,做出了一个比之前花很长时间做的版本还要优秀的结果。你就觉得,哇,太好了,哪怕我不变强,但它在变强。它在变强,我能做的事情就一直在扩展边界,那个感觉非常好。
橙皮书:如果它是一个这么强大的工具,确实称它为之前从来没有过的魔法也是 OK 的,因为它是思维的工具。上一个能这么说的,我想起来乔布斯会说,个人计算机是人类大脑的自行车,让大脑跑得更快。现在这个都不只是自行车了,应该是……自行车换成火箭了。
超哥:是的。过去我们用工具也好,用各种复杂代码也好,本质上是把那些需要人脑算的、思考的、非常明确的规则化的东西,外包给 PC 去做。但是生成式 AI 做的,是进一步地不只把规则性的东西,而是把几乎所有的思考都能覆盖,因为思考本来是没有规则的。
之前用计算机能替代人脑的部分可能只有 10%,虽然那 10% 的某些计算你用人脑可能要算一年,计算机一天就搞定。但真正能替代人脑去「思考」的比例没那么高。现在我觉得几乎是所有的,除了物理上有些限制做不到的,剩下的几乎都能做了,甚至以现有的模型能力都已经够了,我都不用等 GPT-6 或者 Claude 5。
以现有的模型能力,我觉得我们想做的绝大部分事情,除了最顶尖的科研可能超出它的能力范围,剩下的都能干了。取决于你想不想得到,想怎么去做,以及如果工程太复杂、你又不具备工程能力的话,可能需要等一个工程框架出来。但并不是大脑不够强,我觉得它的能力已经超出大部分人的需求了。
橙皮书:有什么事情是你在有 AI 之前就是不做、做不了、或者做起来很困难的,有了 AI 之后现在轻而易举就能做到的?
超哥:我现在几乎所有的事(当然不能这么绝对),我个人在尝试的很多事情,真正用于传统意义上工作的时间其实并不多,可能每天平均不到半天,所有需要处理的事情就都完成了。剩下的时间都在探索。
以前可能需要 6 小时,现在 AI 帮我节省了两三个小时。另外,之前如果有了时间,我可能就多看看资料充实自己,也就停到这了。现在因为有了 AI 工具,第一它能高效地、以很高的智能水平帮我做很多事,第二它的成本还很低。
过去很多事情我也可以琢磨,但做不了,要么我自己不会,要么我知道需要雇什么样的人、大概多长时间能做出来,但这个东西又跟赚钱没关系,没必要花那个级别的费用去做。那现在除了保日常工作以外,剩下所有的事情都是跟 AI 和探索相关的了。
具体说一个例子。最近我做了这样一件事:我把 2019 年到 2025 年 Arxiv 上特定类别的论文全部抓了下来。Arxiv 是一个论文预印本网站,几乎所有跟 AI 相关的论文都会在这里优先发一个预印本。我之前其实已经做了一个工具,每天从 Arxiv 上抓最新的特定类别论文,把我不感兴趣的类别剔掉,再做成一个文摘推荐报告。里面如果有更感兴趣的,我就会打开论文原文,当然一般所谓「打开」,也是把论文丢给 AI 让它总结。除非这个论文我觉得意义特别大,或者我有充足的兴趣理解它的每一个细节,这时候我才会把论文打开自己去读。
做着做着,我就发现越来越多的推荐报告里会涉及很多 Benchmark,就是用一套题目或者任务去测试 AI 的基准测试。我发现每天给我推荐来的东西,Benchmark 的比例一直在上升,到现在几乎每天都能看到几十个。我就很好奇,怎么会有这么多 Benchmark?大家都在想什么,怎么测 AI?
于是我就做了这件事:把过去 7 年内,在 Arxiv 上特定几个容易涉及 Benchmark 的类别下面,所有的论文全抓了下来,大概接近 30 万篇。然后写了一个非常复杂的流程工具(主要是 AI 写,我在调动它写),去判断哪些是跟 Benchmark 相关的论文,哪些不是。这件事本身就挺不容易的,不管是用关键词判断还是其他方式都没那么准,所以中间经历了很多过程。最终从 30 万篇论文里筛出来了接近 22,000 篇是真正跟 Benchmark 相关的。
这个数字很高。大家看大模型发布,每次可能只会列举十几个不同的基准,但实际上业界已经产生了两万多个基准。很多从出生到最后从来没被人关注过,但为什么会出生?这本身我觉得就有价值。
从 30 万篇到 2.2 万篇,再到怎么去理解这 2.2 万篇,我也不可能去读它,那这些论文在讲什么,有什么共通的东西?我收集出了 30 多个不同维度的数据标签,包括数据集大小、所属领域、测试方向等等,然后用大语言模型挨个读每一篇论文,读完后根据我设计的这套数据集挨个打标签。
简单讲是这么一个过程,但真正做下来,因为我对整个流程本身,包括对 AI 评测这个领域,都没那么熟悉,所以中间经历了很多次返工。发现有问题,哪怕只涉及中间几个指标,为了数据严谨,你也得把所有论文重新读一遍。这个过程中的每一步,如果没有 AI 我都做不了。从抓 30 万篇论文开始,这就很难,你得知道哪有好的 API,Arxiv 自己的 API 做的很差,你得找第三方替代的,然后还得会调 API。我基本上不懂代码,所以每一步都依赖 AI。更别说最后读 2 万多篇论文了,人一辈子也不一定读得完。
所以这件事就做成了。我不敢说现在做的有多好,还在后续整理结果,后面可能会发一些报告。但至少这个过程本身能做成,这对于我的能力边界来说,是一个巨大的跃升。
橙皮书:也就是说,这是一个相对来说目前还比较小众的研究方向,全世界对这个感兴趣的人可能本来就没多少。
超哥:对,几乎就没有。如果有人意识到这个问题,比如说北大有个课题组来做,以那帮研究员的能力,不管是 coding 还是对 AI 评测的理解,都比我要深得多。他们可能一个月就能做一个粗略版本,想做精,可能也用不了一个季度。但确实是因为这个东西太新了,有太多新的方向可以弄,严肃的研究团体可能没有那么多精力,或者纯粹就是还没注意到。
橙皮书:但是现在你,不是一个纯粹的严肃研究团体,也可以用 AI 去实现跟那个严肃研究团体接近的效果。
超哥:「接近」比较合适,说一样有点大了。经过严肃学术训练、对这个领域有更深理解的人,他们形成的整个方案和报告一定比我的要好。
但从课题研究的角度来说,没有本质区别。我之前做过另一个研究,曾经跟同济大学的一个教授聊过,他给了我很多建议,总体来说觉得我做的东西从数据采集到分析,其实已经做得相当扎实,深度也还不错,虽然最后写的报告可能因为不知道重点在哪、写作不够好,但本身这件事是一个人干了一个课题组的活。
一般来说,课题组是老师产生几个 idea,底下几个研究生跟着干,还需要额外请几个外援。现在相对简单的事情,一个人带上一个 AI 或者几个不同的 AI 工具,就都摆平了。
橙皮书:我本来以为这次聊的主要是提高工作效率,没想到研究这个方向也会有这么大的提升。
超哥:对,因为我过去这几年做的事,不管是 coding 还是跟 AI 聊,其实大部分都跟生产或者效率没关系。我唯一可以说是世俗意义上的工作,是做投资相关的东西,但本来时间上就有很多空余。
剩下的时间里,我更多是突然琢磨出一个东西,觉得它应该挺有价值,但具体是不是、能不能通过做什么事情去判断,我也不确定。我就先判断一下这事能不能做,能用 AI 帮助的情况下能不能做?能做我就去试试。可能做了一周,发现想简单了,做不了,也很经常有。那你不做了,这一周的时间,但其实做挂的过程本身也学到了很多东西,对这个领域的认知也会加深。
所以我其实更多的兴趣和实践是在探索本身。这个领域原本就不是在做生产,而是做研究,虽然我不好意思说「做研究」,因为在我看来这还是一个过于严肃和专业的词。但确实是一个之前无人关注、或者有人关注但啥也没做的领域,我有兴趣我就去搞一搞。
橙皮书:野生 AI 研究员,哈哈哈。
超哥:野生研究员,但研究的未必是 AI 本身,更多是用 AI 来做研究。
橙皮书:咱们要不要来演示一下?
超哥:行啊。昨晚咱俩聊,你说期望有这么一个环节,我当时现想了一个需求。今天早晨出门之前,大概跟 AI 聊了几句,形成了一个基本的项目 PRD。
我先说一下这个演示项目干什么。它其实跟我的工作有点关系,就是投资这件事,你肯定要做大量决策判断,最后一步一般就是开投委会,就是 IC(Investment Committee)。我觉得不管是我个人还是适用到所有人,你的思考和眼光一定是有局限的,一定有你想不到而别人能想到的地方,这也是为什么要有 IC 这件事。否则你是合伙人,你投就好了。
所以这个方向我觉得蛮有价值,用 AI 做这件事。而且这也跟我在 AI 领域的一个关注方向很有关系:怎么去集合大家的观点,去帮助某一个产业或者某个决策。
这个项目的想法很简单:我输入一段对于潜在被投公司的介绍,不管是 Memo 还是什么,然后由一个虚拟的 AI 投委会,每个人从各自的思考角度给出建议和判断。这里面有人擅长增长,有人专注风险控制,等等。这中间大家还会产生观点冲突,然后辩论,因为我觉得辩论这个过程也很重要。最后形成一个参考报告,不是结论,就这么简单的项目让它形成结论你也不敢用,但至少形成一个参考报告是可行的。我觉得应该有望在咱们录制过程中就能做完,但我不确定。
橙皮书:如果你有了这样一个想法,一般会怎么从头开始?
超哥:从头开始第一步肯定是先有想法,这个想法有可能是在浏览过程中突然意识到的,也有可能是自己遇到什么问题,觉得可以做一个什么东西来帮到自己。想法这个没什么可参考的,就得先有想法。
有了想法之后,取决于这个想法的复杂程度,你得大概想一下,如果实现,中间可能是什么样一个路径。当然如果完全没做过工程、完全不了解,也不是做不了,这个工作完全可以交给 AI 做,AI 做也能做得不错,只是中间可能会有偏差,会有一些结果的不确定性。但一定不会因为你没有这个基础知识就做不了。
因为我还是有一些工程背景,所以我会去思考这个东西怎么弄,弄完了以后再跟 AI 一起生成一个 PRD,也就是产品需求文档。这里面会约束很多条件:描述我到底想干什么,大概想怎么实现。具体实现当然是 AI 做,但我要框一个约束,不框的话 AI 也能做,但中间失控的风险会比较大,给他更多上下文,效率和可控性都会好很多。
总结完文档之后,还会跟 AI 再讨论几轮,比如「这里面有什么是我应该提供但没有提供的,你帮我 review 一下」。他经常能提出一些很好的问题,你会发现如果他没问出来,最后做的时候一定还得问,效率就降低了,或者他没问直接按自己理解做了,跟你需求不一致。
所以让 AI 自己去 review 和反思,几乎是我做所有事情的一个标准流程,因为这是最低成本提高效果的方法。不管这件事是我想的还是 AI 想的,你说「你再好好反思一下这个有什么毛病」,往往他反思出来的版本就比之前的要好,你都不用换模型就能提升效果。
橙皮书:能不能默认,就是他每次自己回答完之后就自动反思一下?
超哥:这个你就得在一开始用 prompt 去约束它,或者说你自己有一套调大模型的方式,可以把这个放到系统提示词里面。或者第一句话跟 ChatGPT 聊,你就说「接下来你每次回复之后都应该反思」,可以,当然可能时间长了他会忘,聊了 10 句他可能就不再 follow 这个指令了,这也是经常有的事。但这确实是一个特别简单、特别低成本,能提高产出的小技巧。
说完这个,我们把文档定义好,经过几次讨论和 review,最后形成了一个文档。这个文档就不是在聊天窗口里聊了,而是基于这个版本去驱使一个 agent 去干活了。
我先介绍一下这几个文件是干嘛的。agent.md 这个文件,是 Codex 的一个标准配置文件,它会在做每一个执行之前参考里面的内容,类似一个方法论级别的约束文档。这里面描述的不是项目干什么,而是做事的原则,比如「所有代码必须足够健壮」等等。这些你不说他理论上也应该这样,但说一句肯定还是有用的,尤其是很多细节他考虑不到的。
这个 agent.md 我特别推荐大家去看一个叫 agents.md 的网站,那里面有几万个各种各样的这类文档,你可以去学习别人是怎么用 AI 的,别人是怎么思考这件事情的,能学到很多。
然后是 PRD 文档,这个就是我和 AI 一起协作写出来的产品需求文档,中文的。里面定义了背景和问题,然后明确约束,比如因为是面向极早期的创业项目,所以真实性核验通常不是核心矛盾,你不给这个约束,它可能就做成了一个中晚期投资的 DD 工具,找半天结果什么都没找到,跟你的设计预期完全不符。
这里面实际上也是需要你对这件事本身有一定的 domain 认知,否则你设计出来的东西可能就是不合适的,这也是为什么我做论文那个事情因为 domain knowledge 不够,不断地返工。
橙皮书:就是需要把你知道的、以及你知道自己不知道的东西,都告诉 AI。这样它才知道。
超哥:对。有些你不知道,但 AI 发现这个东西很重要,它也会跟你探讨。或者说你干脆把这个交给它:「这个我判断不了,你根据情况做一个最佳判断,我信任你。」就这么简单,也能把这个东西走下去。
橙皮书:这还挺像产品经理跟程序员沟通的。
超哥:对,所以我现在就是产品经理。
为什么有另外一个单独的文档叫「IC Agent Protocol」?是因为这件事本身会有大量 AI 针对同一个事情做不同判断,这是一个很细的业务逻辑,所以单独抽出来更清晰。未来如果工程结构没问题,但你觉得讨论方法不高效、出的东西不好,你只改这个文档就行,不用动工程结构。
里面约束了不同的 IC 成员角色,有的人特别熟悉市场,有的人擅长 go-to-market,有的人专注风险,约定了七个不同的角色,然后定义他们以什么样的方式去讨论、辩论、最后形成报告。
还需要有一个搜索 API,因为事实核验涉及搜索。我今天早上出来之前临时注册了一个搜索 API,有一定的免费额度,做展示足够了。
最后是 configure 文件,里面填了 API key,以及用哪个模型。因为这个产品运行本身也要调用大语言模型,所以这里边填了两个 API,一个用于模型调用,一个用于搜索。
总结一下结构就是:agent.md 是宏观的「教它做人」,PRD 是具体产品需求,IC Agent Protocol 是细节的业务逻辑。当然你也可以都写到 PRD 里面,只是我觉得拆开更清晰。
橙皮书:所以哪怕最起码要有 PRD,是吧?
超哥:PRD 也可以没有,啥都没有,你就建个文件夹打开,直接跟 AI 说「我想做一个什么什么东西,你帮我想想怎么做」,没问题,一样是能开始做的。只是最后返工的概率,或者它做的跟你想的不一样的概率会大很多。
就是做任何一件事,让 AI 先形成一个工作列表依次实现,而不是一次性全部干,这个看起来很爽,但做完你发现实现质量中间会有很大问题。分步骤实现,每一块单独能测就最好,不能测你也告诉我是怎么实现的,等于你作为老板,要有一定的管控。
这跟做人老板完全是一个道理。你可以足够信任下属,说这事我不管了,明天给我弄过来,如果他很牛,明天确实给来了,你会特别爽。但更多的时候如果你完全不管,给他的上下文又不足够,明天发现交的东西跟你想要的完全不一样。这很常见。所以当 AI 老板和当人的老板,很多方法论上确实是很像的。
橙皮书:OK,那现在 AI 已经读完了文档在干活了。这段时间等待的时候你一般会干什么?
超哥:如果很短,比如一两分钟就完了,我就等一下。如果是很长,比如项目比较复杂,我会开两个项目并行,这个项目他去干活去了,我就跟另一个项目开始搞起来。或者说只有一个项目在做,我就拿电子书看一会。
我在家的时候有两台 PC,面前四个屏幕,其中一个屏幕专门监控这个 coding 的窗口,看它在干嘛,另一个屏幕开着微信、网页,有一两分钟我就看一下还没读的标签。有些项目相对复杂,短则十几分钟,长的时候我等过一个多小时,那中间就确实是要找点别的事,或者两个项目并行。
橙皮书:如果你希望他每做一步都给你 check 一下,那其实你需要跟他频繁交互,他干一会,你交付一下,再看一会,再交付。
超哥:对,我正常的协作流程就是这样的,我不会让他一次性搞这么多。今天这个演示项目比较简单,所以我让他一次就干了,但我需要他每次干之前把怎么干的方案告诉我,让我确认。尽管不是说每次我都有能力挑出毛病,有些方案已经超出我能判断的范围,但至少得让他告诉我一下。
这样做更重要的原因不是说工程方案写得好不好,而是说这事他想偏了以后,如果整套流程都没有确认过程,他就会按偏的方式一直往前搞。更多的是纠偏,而不是说我要 challenge 他的工程方案,我肯定也没那个能力。但偶尔,在某些我懂的东西上,上下文我知道得比他多,我也能揪出来说这个方法设计不合理。
我没有精确的数据,但大概可能有三分之一的时间,我会对他提出的实现方案提出异议,或者让他解释一下。他解释完我觉得 OK 那就干,或者说他改一下。
超哥:你那天列的问题里面还有什么可以先聊?他干完活咱们再续上。
橙皮书:OK,如果没有 AI 的话,有什么事你这辈子都不会尝试的?
超哥:那好多。其实咱们刚才已经聊过了,不管是因为成本、还是个人技能的限制,有很多事情你知道自己啥也做不了,就连好奇心都不会起,因为你知道做不了,也就别起好奇心了。
所以很多东西,没有 AI 我是不会去做的。不是哲学层面上的「这辈子不会」,只是说没有一个低成本的、高智能的工具帮你的时候,这件事就不在你平时的思考范围内。从现实考量来说,能力上、认知上、成本上,都不具备做的可能性。
橙皮书:我自己发现,我以前有一些问题,想想就过了,但是现在只要想到一个不明白的,我都会拿去问 AI。比如说特朗普现在跟欧盟决裂这件事,我会想问,之前有没有美国总统干过类似的事?这个问题之前用搜索引擎不太好搜,我就放弃了;现在就随手去问 AI,虽然结果有时候好有时候不好。
超哥:对,就是没有 AI 这事可能确实不会去做。
回到刚才的演示,AI 已经跑出结果了。它通过搜索 API 搜了很多关于 Mistral 的东西,然后把这段描述总结成了结构化的内容,分析了这家公司的各种 claim,还专门针对创始人做了一些研究。它甚至直接给出了 decision,批准对其的战略投资,重点支持欧洲大模型,因为开源模型已经成功。但同时也有 disagreement:某些数据缺乏支撑,训练效率缺乏技术实证。
不过我给的 Memo 是 2023 年的,所以它搜到的是 2025、2026 年的信息,Mistral 那时候早就过了那个阶段、都有产品了,所以信息上有一些时间错位。但不管怎样,这个流程跑通了,这是最重要的,虽然结果因为时间信息混乱不够好,但骨架是对的,逻辑是通的。
更重要的是,整个演示过程包括讲解,其实就用了不到一个小时,中间还断网了一次。真正写代码的指令就没几个,四五个而已。当然,更主要的过程是今天早晨我在家的时候,先通过跟 AI 把这个事情想明白了,形成了那些文档,这才是更主要的一个过程,最后一步的执行反而相对简单。
橙皮书:我对比了一下,你做这个和我自己做一些产品的时候,发现核心区别是,我完全没想清楚这个产品的流程是什么,有哪些环节,这些东西都没有。但你的 PRD 已经是非常详细的。
超哥:对,把之前想明白这件事本身就很重要,没想明白就做,过程中就会很发散、容易失控。
但有一点要说的是,这件事我能在早晨半小时里想明白,也是因为我之前做过类似的东西。从这个角度来说,构建一个虚拟的董事会、IC 委员会,或者一个 studio 里面有不同的角色协作写出更好的内容,这些本质上都用了同一套逻辑:不只是 AI 的生成能力,更重要的是多人观点碰撞。
哪怕你不用这一套技术,你给 AI 一本书,它也能给你讲。但是它讲出来的,就不是多个观点碰撞之后的东西,可能会比单独一个 AI 输出的效果要好。这个是我做这类实验的一个潜在期望。就算不产品化,我自己看项目的时候 run 一下,它可能想到一些我忽视了或者根本没想到的点,那这个价值就已经有了。
橙皮书:这个经济成本呢?比如 token 消耗应该……
超哥:那很低。跟 Gemini 聊本来也是在订阅里面的,这个 API 应该没花多少钱。它不像读论文,一下读两万篇,那个才是大头。这个演示只是几轮 IC 辩论调用,我用的是 Gemini Flash,那是很便宜的,一次调用可能就两三美厘,50 次调用也就 10 美分不到一块钱。
我自己是买了两个平台的高级订阅,ChatGPT 和 Gemini 都是最高版本,感觉每天用量都特别充沛,用不完。我买这么多有两个原因:一是我比较喜欢同样的问题在不同模型之间互相问、互相 challenge,所以多个高级模型的触达对我来说比较重要;二是我每隔一段时间,用的模型的偏重就会变,最早大家都用 ChatGPT,后来 2024 年我有一段时间疯狂用 Claude,因为它写东西和写代码都特别好。后来 Claude 封了我好几个号,加上 Gemini 水平上来了,Gemini 的文字呈现方式我觉得很舒服,尤其是年纪大了之后对眼睛的关爱也很重要,我就愿意看它。
但 Gemini 最大的问题是它太容易顺着你说了,比 GPT 还容易。GPT 如果你跟它讨论一个很严肃的问题,它是真的能独立思考、有时候会 challenge 你的。Gemini 你就算提示它「别考虑我的感受,该咋说咋说」,它也还是会偏向捧你。如果你没有意识到这个问题,等于有一个智商情商超高的人天天在捧你,那挺危险的。
Grok 的话,它的搜索我觉得是很棒的,因为接了推特数据,有些东西别的平台根本搜不到,但 Grok 能梳理得明明白白。所以我也需要用它,但做严肃工作的时候我一般不用,因为感觉智能水平跟这几家比还是有差距。
你也不知道哪天谁家一迭代,谁又变成最强了。所以干脆每个都用。
橙皮书:居然能有四家,基本上是齐头并进的水平,你争我赶。
超哥:对,Grok 现在差一点,但老马在背后,我觉得还是在牌桌上的。我觉得未来还是会很接近,可能预训练的曲线趋于平缓,但各家在 RL(强化学习)上各有各的方法论和玩法,所以很难说哪家会在哪个维度明显领先所有人。
包括 coding 工具也是,最早我用 Cursor,后面 Claude Code,后面 Codex,但 Codex 被动用是因为 Claude Code 封了我。后来发现 Codex 能力涨得很好了,跟最早比要好很多。现在我发现 Windsurf(antigravity)的 UI 做得很好,用着很顺手,就又切过去了。一直在换,这也说明其实长期记忆真的没那么重要。我跟 Claude 高频聊了将近一年,最后也可以切换到别的,切换完发现过去那些聊天其实也没差多少。
橙皮书:那这样搞的话,岂不是大家其实没有什么壁垒可言?
超哥:在这个领域确实用户切换是非常非常容易的,也确实非常频繁。如果说壁垒,可能是比如 Gemini 它跟整个 Google 生态打通了,那这个是壁垒,你模型可以换,但你接不到我的 Gmail,接不到我的 Doc,那就很难走了。
再一个就是可能未来是不是有更长期的记忆,甚至更定制化,模型小型化以后长在你家的 PC 或者手机里,而且很强,对你整个习惯有深度掌控。如果你敢让它接触这些东西的话,用惯了以后换一个可能会不适应。
对于组织公司来说,迁移可能会更困难一点。一方面是公司的 domain knowledge 和隐私数据,第一是他敢不敢放,哪怕他信任某几家,一旦搭完了以后想换也挺麻烦的。所以确实有一些公司在专门做这个,帮企业以可承受的成本部署非常私有的模型,并且这个模型能针对每一个人做到细分,CEO 问一个事和一线销售问一个事,背后的思考和要做的 action 肯定是不一样的嘛。
橙皮书:准备的问题好像就问完了。
超哥:挺好的。不过我还是要叠个甲,我肯定是用的很猛,但水平就那么回事。不过我觉得比起技巧,可能更重要的是我是怎么拥抱这件事情的。
如果以一个贪心的科技爱好者来说,我当然能列出一堆期望:无限的上下文、API 费用再降一万倍、可以本地部署的私有模型同时够强……你可以讲出很多来。但你再回头想想,哪怕就是我已经这么用了,我其实完全没有把 AI 模型的潜力发挥出来。所以这些技术上的限制、工程上的不成熟,根本不是我现在用 AI 还没做很多事情的真正原因。
真正的问题是:第一,我能不能想到一些值得做的事;第二,我能不能去实践、去做这件事。大部分人其实根本就还没有拥抱、还没有用起来,所以你给他无限上下文又怎么样呢?
我觉得不管会不会 coding,用起来就很有价值了,哪怕就是聊,你天天跟它聊,你也不是傻子,你天天问肯定会总结出一些更有效的方式。
其实我的 coding 时间占我和 AI 交互时间的比例可能不到 20%,大部分时间其实是在跟 chatbot 聊,在探讨、在学东西。所以聊本身也很有价值。
我每次坐到电脑前其实还是挺兴奋的,尤其是比如周末带孩子出去玩了两天没在家,坐到那打开聊天的那一刻,我就觉得……这个世界我在掌控的那个感觉,它确实给了一种你变得更强大的感觉。
橙皮书:我没想到你跟 AI 的主要时间是聊,而不是 coding。
超哥:是的。coding 代表在生产,哪有那么多东西天天生产?除非你是开公司的、有巨大的工程每天都要干,那当然是一直在做。我没有那么多东西要干,所以大部分时间用 AI 的话,其实也是在聊。
我很多时候会用 AI 帮我深度解读一些复杂文章,哪怕一篇文章可能就得三个小时。因为当你让它去解读得非常细的时候,它拆每一句话,你不懂这句话,它就把这句话背后的逻辑再拆出来给你,你还不懂,就再拆一层,就这样层层拆下去。哪怕一篇不那么长的文章这么拆完,你就很长时间。但拆完了,你对这个底层逻辑的掌握,就跟你简单读一篇文章的概念完全不是一个层次。
所以哪怕今天什么事都没有,我可能就从 RSS 里挑一篇感兴趣的东西,让它特别深入地帮我一块伴读、讨论、追问。两个小时,我也觉得很有价值,可能搞明白了一个我完全不明白的东西。这个时候它是一个最完美的老师,而且现在的幻觉已经好太多了,一般来说不会说错的。
橙皮书:OK,要不我们今天就到这?
超哥:行,你多剪点,别聊太多了,大家肯定会疲惫的。
橙皮书:线下聊就多聊点。好,那就感谢超哥!
超哥:好嘞,拜拜。



