想知道谁在裸泳吗?
在 Manus 的时候跟同事一起推动过一次研发部的「AI 工具使用」大跃进,这个大跃进的主要工作之一是要设计好给 ai 看的规则,好让 ai 完全接管写代码的流程,大概在 2025 年 6 月份整个 manus 内部已经达成了所有新代码全部都由 ai 生成。

当时能用的 ai 工具还不多,我们主要用的是 cursor,claude code,code rabbit,规则就是给他们几个做的,我们工程团队每个方向排了一个人维护所有的这些 harness,我当时负责 iOS 端的这块工作,每天会有 30% 的工作时间用来 review code rabbit 根据 mr 和 mr comment 自动产生的一条一条式的记忆,维护每位同事加的 cursor rules,根据之前设计好的代码架构和大家的开发习惯/约定补 rules,在项目里的各种位置思考要不要加一个 rules,这个维护工作现在可以新潮一点的叫法就是 harness 设计。

回到从工程师的工作内容角度看这个事情,首先 Coding Agent 没带来代码运行逻辑上的变化,以前运行在机器上的 if else 现在还是 if else,他改变的是工程师的工作重心,工程师之前的工作宏观来说是两部分,第一部分是分析产品需求、沟通、设计抽象和架构,第二部分是写代码落地,验证以及 review。这两部分之间是由“设计抽象和架构”串联起来的,harness 设计工作的目的就是为了方便 agent 完全接管后面的部分(然后随着大家用的越来越熟练可以逐渐进化成让前面的除了沟通外的部分也由 ai 辅助来做),所以设计 harness 其实也就是在做这个“设计抽象和架构”工作。

这块工作是工程师工作中最难做的一部分,架构讨论在研发工作里非常难达成一致,往往大家都要吵架吵很久,最后效率高一点的方式很多时候是老板拍个板;这个工作有一些前人总结出来的经验,可以根据实际的项目节奏选择,但实际基本没法原样完全套用,基本上都要为了项目节奏再进行调整。有本老书管这个类似的情况叫“没有银弹”。

现在各种关于 skills,soul.md,agents.md,自进化,design.md 等等 harness 的讨论是一场扩圈到程序员圈子外的项目通用性架构设计讨论,结合前面的工作经验分析,这些讨论可能最终也不会有个能解决所有问题的结论,大家根据自己的使用需求以及服务场景自己定制,大家各自去考虑自己要做的 trade-off。Agent 是一台精密的仪器,人需要习惯他就是个会来带思考负担的东西。

by @Kaiyi #AI探索站
今日份的作业是电影级的Cosplay海报,至于是什么电影你别管,成图都是我审过的,不健康的都没发出来。

这个提示词是直接从Nnao Banana那里照搬过来的,相比之下,GPT-Image-2的审美还是要更好一些,人物的高P感是故意用提示词强化的,就是为了区别于真实系,表现得更加浮夸和明媚。

提示词:

{
"subject": {
"描述": "以[xxx]为主体的电影级Cosplay海报,动态姿态;保留原始面部特征并转化为真实人类质感;呈现写真出道氛围,带有亲密日式美感"
},
"style": {
"风格": "高端杂志封面风",
"特征": [
"排版密度高(字体+材质叠加)",
"商业摄影质感",
"信息素氛围(感性吸引力)",
"高光泽",
"高对比度"
]
},
"model": {
"身材": "8.5头身超模比例,S曲线",
"皮肤": "瓷白肌肤,真实质感(次表面散射、毛孔、细绒毛、油润光泽)",
"特征": [
"丰满胸型",
"精致锁骨与颈线",
"强烈女性吸引力"
]
},
"face": {
"基础": "日系缪斯脸型",
"特征": "叠加[xxx]标志性面部特征",
"细节": [
"柔焦眼神",
"水润玻璃唇",
"肌肤通透感",
"眼部高光"
]
},
"pose": {
"姿态": [
"开放且具有吸引力的身体语言",
"带有邀请感的眼神",
"手部动作丰富自然"
]
},
"hair": {
"描述": "[xxx]标志性发型(真实沙龙级呈现,无假发)",
"特征": [
"符合重力与重量感",
"自然碎发",
"结构化定型(轻微反重力效果)",
"背光增强体积感"
]
},
"costume": {
"描述": "高度还原[xxx]原作服装",
"特征": [
"高级定制级材质转译",
"真实奢华面料",
"保留原始设计",
"通过服装与身体结合体现魅力",
"裸露区域带有细腻肌肤光泽"
]
},
"environment": {
"场景": "符合[xxx]设定的环境",
"风格": [
"高预算电影布景",
"结构有序但信息丰富",
"轻微雾气",
"散景效果(bokeh)"
]
},
"composition": {
"构图": [
"竖版海报(2:3)",
"近景到中景",
"浅景深",
"文字作为构图框架",
"人物部分覆盖文字层"
]
},
"lighting": {
"灯光": [
"电影级商业布光",
"冷色环境光(青色)+暖色主光(肤色)",
"头发轮廓光",
"高对比用于印刷质感"
]
},
"typography": {
"排版逻辑": "基于[xxx]世界观推导",
"层级": [
{
"层级": 1,
"内容": "日语主标题(带张力与暗示感)",
"字体": "高对比纤细衬线体,可斜体"
},
{
"层级": 2,
"内容": "[xxx]罗马音名称",
"字体": "中等字重衬线体"
},
{
"层级": 3,
"内容": "英文短叙述/标语",
"字体": "细衬线体"
},
{
"层级": 4,
"内容": "圆形印章/徽章(基于设定)"
},
{
"层级": 5,
"内容": "Jerlin + 期号",
"字体": "极细Didot,宽字距,角落布局"
},
{
"层级": 6,
"内容": "条形码 + 价格标签"
}
],
"混排": "日语 + 平假名 + 罗马字,字重递减",
"系统": "基于网格系统的封面设计"
},
"mood": {
"氛围": [
"梦幻",
"微性感",
"亲密感(恋人视角)",
"欲望张力"
]
},
"negative": {
"避免": [
"文字重复",
"文字阴影",
"发光效果",
"描边"
]
},
"aspect_ratio": "2:3"
}

by @阑夕ོ #AI探索站
付费看完了 codex 团队的采访, 说下我认为的重点:

- 团队只有 40人,就 1个 pm, 2个designer,其余全是 eng少量 researcher。
- 唯一一个 pm 的 routine就是用 codex 来处理用户反馈,issue,排优先级。一小时自动跑完一次,处理 100+issue,大部分 24 小时内修复。
- feature 都是极小团队(2-3 人),甚至单人完成,从规划到发布,再到迭代。
- 几乎没有定期会议了,全是点对点直接沟通,没任何流程,没啥管理成本。
- codex 协助新人 onboard,从电脑配置到项目和上下文同步
- 99% 代码是 codex 生成,每个工程师至少 4个并行 agent。一个在做 code review,一个在实现功能,一个在跑安全审计,一个在生成代码库摘要。
- 团队总leader 自己搞了个automation,每天多次随机选一个代码文件,让 agent 去找隐藏 bug 并提交修复。另一个 automation 每天自动搜索全网用户对产品的讨论,生成营销情报简报。

个人印象最深的地方:
- 我觉得大 leader 如果不做向上管理,唯一那个 pm 的活他自己就能干完…
- 协作成本急剧降低了,因为不需要协作了…大部分跨职能分工协作的活,agent 给你保证了下限,快速迭代的时候可以接受。
- 老外也搞 pr 排行榜…这很中国,有一个每日贡献报告:每天早9点自动汇总前一天所有合入 Codex app 的 commit。
- 还是不够聚焦,anthropic 一千多号人在编程模型和产品的专注度是超过 OpenAI 的,创业公司跟大平台竞争,大平台针对你这个方向的团队人数是没你多的。

by @志达 https://newsletter.eng-leadership.com/p/how-openais-codex-team-works-and #AI探索站 How OpenAI's Codex Team Works and Leverages AI
Anthropic终于还是忍不住开大了,公开点名DeepSeek、月之暗面和MiniMax三家厂商对Claude实施了工业级的「蒸馏」。

可以把「蒸馏」理解为通过和Claude进行特定对话并基于输出结果来训练自己的模型,在使用方式上和普通用户没有区别,只是规模有点儿,大。

在Anthropic的声明里,被认定为「蒸馏」的对话总计有1600万次,其实严格来说,「蒸馏」并不违反任何法律——目前也不存在这样的法条——它更像是僭越了Anthropic的「家规」,众所周知,这家公司比较仇视中国同行。

然而大模型的学习和训练本身也都处于灰色地带,对于版权内容的汲取从来没有一一争得许可,只要技术进步有利于全人类福祉的大旗不倒,这些争议就都能被应付过去。

所以Anthropic的愤怒同样不太可能得到它想要的效果,「蒸馏」是行业里的公开秘密,大家都在干——去年8月Anthropic突然切断了OpenAI的API权限,也是发现后者在拿Claude当GPT-5的「陪练」——毕竟,AI产出的内容,是不可能自带知识产权的,「家规」再高,高不过「法理」。

倒是中国开源模型排着长队对齐Claude Opus的趋势已成定局,这完全有理由让Anthropic感到威胁,80%以上的性能,20%以下的成本,这在任何市场都是破坏级的颠覆。

比如MiniMax在春节期间发布的M2.5,只用了一个星期的时间,就成了OpenRouter上Tokens调用量的榜一,超过 Kimi K2.5 、GLM-5、DeepSeek V3.2 的总和。

这不是靠普通用户的几个轮次对话就能创造出来的需求规模,只有以OpenClaw为代表的百万级Tokens消耗大户,才撑得起M2.5的单周3T调用量。

反正我看到马斯克吃瓜吃得很欢,不嫌事大的表示「他们怎么敢偷Anthropic从人类程序员那里偷来的东西?」

这句话其实还有双关的含义,只有科技考古学家能接得住:

1983年,史蒂夫·乔布斯公开指责比尔·盖茨新开发的Windows操作系统窃取了Macintosh的图形界面创意,而比尔·盖茨则非常淡定的回应——「事实是,我们都有一个名叫施乐的富有邻居,当我闯入他的房子打算偷走电视时,我发现你已经偷了它。」

要知道,这可不是苹果和微软的黑历史,反而证明了成王败寇的商业逻辑,市场不会为技术买单,却会给解决问题的产品付钱,硅谷一直以海盗精神自豪,现在它们也要学会接受新的世界观,那就是,海盗这玩意,是没法垄断的啊。

🤣

by @阑夕ོ #AI探索站
因为和拾象业务比较接近,最近还集中听了五六期 a16z Growth 负责人 David George 的播客。

他们是这一波 AI 浪潮里下注最狠、赢面最大的基金之一。

投出了过去 5 年最顶级的名单:OpenAI, SpaceX, Databricks, Figma, Stripe, 还有新一代的明星公司 Cursor, Harvey 和 Abridge。

记几个有意思的点:

1. David George 观察到,90% 的成长期投资人花了 90% 的时间在研究商业模式。

但实际上,在他上百次投资生涯中,他从来没有因为「商业模式更漂亮」而拿到过超额回报。

真正的 Alpha,几乎全部来自于对 TAM 的非共识判断。

David 说,a16z growth 的讨论会关注点是非常不一样的,这在第一次参会时曾经给他带来了极大的震撼。

大家并不怎么热衷于讨论「下行保护」、「如果失败了怎么办?」,相反,整个房间的人都在激辩两个核心问题:

1) 关于这个市场,我们要知道什么别人不知道的秘密?
2) 为什么这个东西有可能变得比现在大得多?

Roblox 就是一个典型的例子,当时的共识是:它是一个儿童游戏。

而带来 upside 的非共识是:它有潜力成为一个远大于游戏的、面向更广泛人群的共同体验平台(co-experience platform)。

Figma 也是一样,传统视角是,全世界只有这么多设计师,哪怕这些人全付费了,Figma 当时的估值也太贵了。

而 David 当时意识到,设计师对工程师的比例正在翻倍,且未来前端工程师也会更多参与设计工作。这会带来一个比传统定义大 10 倍的市场机会。

2. David 提到,他们现在最迷恋的一类创始人画像,叫「Technical Terminator」。

也就是技术出身,但同时拥有极强的好胜心和商业进化能力的人。

他们坚信,教一个技术天才如何做生意,比教一个生意人如何搞技术创新,要容易得多。

(事实上,a16z 的整个架构就是为了投资那些「搞出了产品突破或工程奇迹的人」,然后帮他们补齐商业短板。)

但他特别提到,这里的 Technical Terminator 不一定是一个看起来强势的人。

以 Figma 的 CEO Dylan Field 为例,他是整个科技圈最 Nice 的人之一,说话温和,看起来甚至有点害羞。但实际上,他内心极其残酷地好胜。

Roblox 的创始人 Dave Baszucki 也是,典型的安静技术流,但实际极度痴迷于市值的反馈。

所以,不要被创始人外向或内向的表象所迷惑。核心要看他是否对「赢」有一种根深蒂固的执念。有些人的野心是写在脸上的,有些人的野心是写在代码和财报里的。

(就像我们也听过很多人这样遗憾地评价他们当初为什么看错了张一鸣)

3. 对于 AI 市场的终局,David 引用了一部老电影《拜金一族》里的经典桥段来形容他对 Winner-Take-All 的信仰:

一家房地产销售办公室里,一个顶尖销售指着一块写着业绩比赛的板子,宣布接下来的游戏规则:

- 业绩第一名:收获一辆凯迪拉克(占据 80% 的市值)
- 第二名:一套牛排刀(只能喝汤)
- 第三名:You're fired

除了底层大模型能像云厂商一样容纳几家巨头共存,在应用层,往往没有后几名的位置。 Salesforce 没有第二名,Notion 没有第二名,Google、Facebook 更没有第二名。

David 搬来了一个网络科学的理论:Preferential Attachment。

在科技领域,即使不是网络效应型业务,仅仅作为市场领导者本身,也会产生一种物理学般的引力。最优秀的人才、最多的资本、最好的合作伙伴都会自动向你靠拢。资源会优先依附于现有的强节点。

现在法律 (Harvey)、医疗 (Abridge) 等垂直 AI 市场已经出现了非常明显的头部效应。这也是为什么 a16z Growth 愿意在看起来很贵的估值下押注头部公司,他们目前的平均入场估值大约是 21x Revenue。

虽然他最近经常面临 LP 的灵魂拷问 ——「我们是不是在 AI 泡沫里?」

并且 David 确实认为 —— yesss,市场已经过热了,但他同时相信,10 年后,这波浪潮里一定会诞生一批真正伟大的公司。相比于纠结现在的估值是贵了 20% 还是 30%,「留在场上」才是最重要的。

而且,如果你投中了那个凯迪拉克,增长的持久性会被市场严重低估。

他发现,当公司增长率超过 30% 时,市场往往无法充分定价这种增长带来的价值。

比如,2009 年分析师对 Apple 2013 年表现的预测,最终比实际情况整整低了 3 倍,即便是全球被研究最透彻的公司,增长依然会被低估。

在这种框架下,如果一家公司能保持 112% 的年增长率(当下 a16z Growth 投资组合的平均数),哪怕现在付 21 倍 P/S 也是划算的。比起买 15 倍 EBITDA 但只增长 12% 的传统企业,买昂贵的高增长其实风险更低。

4. 大家都想知道 AI Startup 怎么干掉巨头。David 给了一个相对可操作的判断标准,想要颠覆这些巨头,不能只做一点点优化,最好是在三个维度同时冲锋。他将颠覆的威力按从大到小排列:

1)商业模式的转变:比如从「按人头付费」变成「按结果付费」,这是巨头最难转身的地方。
2)创新的 UI:彻底改变交互方式,比如,让产品变得更 Proactive。
3)全新的数据源:拥有巨头拿不到的数据。

如果一家创业公司能同时做到这三点(Unique Data + New UI + New Business Model),胜率会明显上升。

同时,a16z 的另一个 GP Anish 补充说,他们认为,2026 年,2C 领域会有像当年 App Store 一样的爆发机会,一年后,会有多家拥有 1 亿用户的消费级公司诞生。

他给出了一个判断消费级市场爆发的公式,一般具备三点要素:

1)新技术:显然是 AI。

2)新分发渠道:目前有三个信号——
- OpenAI Apps SDK:也就是 OpenAI 开始鼓励大家在 ChatGPT 里做小应用,这些应用可以直接利用 OpenAI 的入口、记忆能力和 connector,自动获得分发流量。
- Apple Mini-apps:苹果最近开始支持 Mini-apps 生态,甚至为了鼓励开发者,把抽成从 30% 降到了 15%。
- Group Chat: OpenAI 刚开始推群聊功能,Moltbook 也横空出世。一旦 AI 进入群聊,社交传播的裂变效应会大大加速。

3)新消费者行为:这一点是最容易被忽视的。移动互联网初期,大家都说「绝对没人愿意分享实时位置,太隐私了」。结果现在大家经常跟朋友共享位置,没人拿它当个事儿。
所以,现在觉得奇怪的行为(比如把 AI 接入群聊、让 AI 代替自己 social),三年后可能都是常态。

除此之外,David 个人还特别看好一个新赛道 —— Personal Health Management (个人健康管理)。
他认为,AI 的进步会解决很多现实问题,人们对生命的珍视会达到前所未有的高度。但今天的医疗体系更偏事后治疗,缺乏事前管理。

想象一下,有一个 AI 助手全天候监测你的健康数据,当你拿起一块饼干时,它能告诉你「这块饼干会让你折寿 17 分钟」。

这种能主动解释每一个生活决策对健康影响的 Agent,会是 2C 领域尚未爆发的巨大机会。

by @Celia. #AI探索站
简单锐评一波元宝今天发红包的影响:

- 确实贯彻了顶层意志,换任何产品——哪怕是腾讯其他业务线的——都不可能在微信里这么转一天的链接还不被「抖动」;

- 所以可以给本日最佳的段子颁奖了,马化腾一大早就约了张小龙去打高尔夫,特意要求别带手机,专心打球;

- 各个群里空前的刷屏,有没有达到马化腾预期的复刻十年前红包大战不知道,社交裂变的增长威慑倒是再次出现,人类终于回想起了被各种邀请砍一刀的恐怖;

- 古典产品主义,加上运营暴力美学,是的,这很老登,但一代人有一代人的鸡蛋要领,薅补贴是一种人性,和年代无关;

- Kimi当初买用户也是平均几十块钱一个人头,最后人没留下来,钱也花了,得利的都是营销号,元宝至少是真的把钱给用户了;

- 还是说留存,字节的经验是,产品影响拉新,模型决定留存,春节之后人走茶凉,第一背锅位肯定不是元宝,所以现在最急的可能还是尧舜禹;

- 鄙视链没毛病,但从业者其实还是比较羡慕嫉妒恨,大厂能用弹药和杠杆,平地起高楼,一天干完一个周期;

- 提前开香槟or办葬礼都太急了,让子弹再飞一会儿,这才刚上前菜,越嘲笑元宝其实是越给元宝面子,能懂这个道理吧;

- 春节前后至少有三个国产模型要同期发布,加上春晚赞助的明争暗斗,这轮AI大战会变得像「双11」,一赢各表;

- 直到今天更新,元宝在App Store的介绍文案还是「DeepSeek+拍题P图搜⋯⋯」,我很关心混元上桌吃饭的时间;

- 「派」这个玩法其实是有场景的,这个需要用户形成网络效应,所以非常依赖拉新,兵马未动,粮草先行,不算过分;

- 2026年的AI发展会很分裂,前沿市场继续拼Agent和生产力,由程序员趣味主导,大众市场开始拼普适性,争当顺位第一的ChatBot。

by @阑夕ོ #AI探索站
 
 
Back to Top