想知道谁在裸泳吗?
最近的一点点思考梁文峰最近的采访中表示「加班疲劳下的昏庸判断反而会浪费宝贵的算力资源」,然后又是在《纳瓦尔宝典》中看到「最好的工作是终身学习者在自由市场中的创造性表达」。

结合在一起看,保持健康和舒适,使用最强大的模型来学习和创造,一旦遇到机会,就能提高一击毙命的机会。

人生并不需要每一次都成功,只需要抓住一两次机会便会形势大好。真正的猎人大部分时候都在休养生息,保持耐心,在确定性机会来临时重仓梭哈,然后再等待下一个机会来临。🏄‍♂️

忙碌,是最差劲的状态。我从二月份就开始了忙碌状态,稳态一旦被打破,身心俱疲,直到现在才回过神来,绝不可没苦硬吃。🤡

OpenAI 的 Sam Altman 认为点子最不值钱。找方向,打磨雏形,验证市场,这套起手式全加起来,大概只需要 6 个月。

剩下的时间在做什么呢?🤔 每天早上醒来,不停地拿头撞墙,直到把问题砸开,到了这一步,很多人受不了。价值从来不存在于最初的脑洞里,它只在日复一日的复利式死磕中缓慢结块。

刚开始激情几个月就会耗尽,你得养成好习惯,而不必每日用意志力去对抗惰性。你必须接受「创作」有时候也是枯燥的事情。

以上,首先是写给自己看的,与君共勉。欢迎关注 @小声读书,一起成为勇猛精进的人类。
行业里流传着一张表格,记录字节前员工创办的AI公司和加入的AI大厂,几乎每个月都在更新。

和把裁员解释成给社会输送人才不同的是,字节的这些离职员工基本上都是被挖走的,这才是真·输送人才,至少HR都明白,「字节系」是一块怎样的金字招牌。

于是就又有了字节是中国AI人才的黄埔军校的说法。

关于黄埔军校这个设定是好是坏,其实争议很大,往好的方面想,那就是「天下英雄尽出彀中」的霸气,这里出去的人,足够撑起半壁江山。

不过据我所知,在被递上这顶帽子时,大部分公司还是不太愿意认领的,因为很容易被读出潜台词:你是不是留不住人?

字节怎么看内部人才流失的问题尚不可知,但客观上,那些离开的员工,确实有不少是在打造字节的竞争对手。

比如曾是字节视觉技术的负责人王长虎,创建了爱诗科技,核心产品是视频模型PixVerse,正在和Seedance抢市场。

以及想用AI重新做一个剪映出来的一长串名字,包括黄严的ArtArch、陈冕的Lovart、郭列的Flova等等,一个比一个响亮。

至于直接去腾讯、阿里、Meta、Google这些顶级大厂「追梦」的,就更多了,连DeepSeek的第一个员工、都是字节搜索团队过去的⋯⋯

客观的讲,人才流动是一个正常且合理的现象,字节也不是没从其他公司挖过人,哪有不许别人撬墙角的道理呢?

或者说,当一家公司的人才密度到了一定程度,就会产生外溢效应,字节这几年给AI业务疯狂扩招,必然带来数量大于匹配度的问题,不回吐才是不科学的。

但从「失血」情况来看,要说字节根深叶茂、完全不受影响,怕不是有些夸大其词了,伤口一定存在,就看如何止损。

俗套的说,干得好好的人突然要走,无非是两个原因,不是钱没给够,就是受了委屈,而我们也有所听闻,字节在管理上是有对症下药的。

去年全员的大幅涨薪措施,以及针对大模型人才发放的「豆包股」——这是一种类似期权的可回购虚拟股份——都是在解决钱够不够的问题,再就是核心部门Seed的考核期远比其他部门宽松,也是为了不用业绩来压力员工。

昨天我还看到晚点LatePost的爆料,说字节自从选定吴永辉担任大模型一号位之后,就完全相信了他的遴选策略:

Seed不再通过外部招聘获取中高级技术管理者,改为从校招和实习生里培养选拔,Seedance 2.0的算法负责人就是2021年作为校招生入职字节的。

我说过很多遍了,每一代年轻人其实都会有属于他们的时代红利,只不过很多身在其中者,并没有意识到这一点。

记得A16z说他们出去投项目,没有在大厂干过的白纸履历,是绝对的加分项,而不是扣分项,因为「脑子保存完好,没被规训」。

大模型这波就是这么不讲武德,辈份、资历、经验都不值钱了,年轻的学习能力和攀爬欲望,才是最有价值的能力资产。

我也不是说应该如此理解字节的人才流失现状,只不过在事实上,字节可能是在用「换血」来应对「失血」,为此它要能够承受帮助对手变得更强的⋯⋯代价。

就像5年前,OpenAI也想不到,1个VP带着5个员工跑路,会整出Anthropic这么一个庞然大物出来,几乎是生吞活剥了自己在大模型行业的资本光环。

字节不可能不怕吧,哈哈哈。

by @阑夕ོ #科技圈大小事
制造焦虑,然后出售解药:拆解咨询业的商业逻辑 | 帖子

这篇文章揭示了顶尖咨询公司利用新技术包装旧业务的套路。所谓的“AI 专家团队”可能只是在三十年的旧数据库上加了一层自然语言界面,本质是利用高管对技术未知的焦虑,通过制造趋势来推销既定的服务模式。

麦肯泄露了一个很简单的真相:他们并没有培养出两万五千名 AI 专家。

其实只是把一个用了三十五年的内部数据库,套上了一个自然语言交互的壳,然后写了一份连媒体都不敢质疑的新闻稿。这套逻辑在九十年代叫 ERP,二零零零年代叫数字化转型,二零一零年代叫大数据。底层架构从未改变,变化的只是前端的 UI 和营销话术。

这种模式极其高效。咨询公司精准地捕捉高管对新技术的恐惧,然后把自己定位成“未知恐惧”与“董事会战略”之间的翻译官。有网友提到,这本质上是一场“变革管理剧场”。他们不负责交付价值,只负责制造下一个热点,并利用品牌压力让企业买单。

这种商业模式有一种近乎残酷的闭环:发现问题,然后出售解决方案。就像有人调侃的那样,微软可以按照文档完美地落地产品,但咨询公司会找出实现过程中的所有瑕疵,再开出一张三千六百万美元的账单来修复它们。

现在的 AI 浪潮也一样。技术迭代的速度让“无人理解”到“人人皆有观点”的时间窗口从几年缩短到了几个月。这种压缩迫使咨询巨头必须跑得更快,把现有的数据包装得更闪亮。

有趣的是,这种逻辑在很多供应商身上都存在。有人认为这不只是麦肯锡的问题,甚至整个咨询行业都在玩这种“寻找故障并销售维修”的游戏。

现在的企业 AI 现状也很有意思:大多只是给旧数据穿上了更华丽的衣服。当技术层面的 Wrapper(包装层)越来越厚,我们似乎离真相越来越远。

如果这种通过制造焦虑来获利的逻辑在当前的社会结构下依然稳健,那我们该如何定义真正的创新?或者说,当所有的创新都变成了既定套路的迭代,我们还能看到什么样的新事物?
Media is too big
VIEW IN TELEGRAM
哈哈哈哈,这简直是这 51.2 万行源码里最通人性也最“卑微”的代码

这段 negativePattern 暴露了 Anthropic 工程师在调教 Claude Code 时的三个核心策略:

1. “按闹分配”的止损逻辑
当正则命中这些词(比如 wtf、piece of shit)时,系统会瞬间切换到一个 “高阶安抚模式”。它不再跟你争论逻辑,而是优先承认错误,并自动调用更强的 Opus 模型或开启更深的 CoT(思维链)来强行解决当前的 Bug,试图通过“超常表现”挽回用户的心。

2. AI 的“读心术”底层是正则
大家觉得 Claude 懂人心,其实底层的“感知器”居然是这么一串脏话列表。这说明在极端的工程环境下,最原始的正则比复杂的情感分析模型更鲁棒、更省钱

3. 防止模型“对骂”
代码里还有一个配套的 SafeResponse 逻辑。一旦检测到用户抓狂,它会强制要求 AI 保持 “Extreme Professionalism(极端专业主义)”,绝对不允许 AI 回嘴。这就是为什么它有时候显得那么“温润如玉”——其实全是这几行正则给逼的!
麻豆传媒官宣倒闭之后,老司机群里有很多爆料和讨论,我稍微总结一下:

- 黄赌毒这种暴利行业,如果不是被叔叔按了,很难真的因为亏本而搞砸,但黄相对来说确实是脆断性偏高的一个,因为供给没有另外两个那么受限,上古时代姑且不论,时至今日绝对不再算是稀缺商品了;

- 麻豆的艰难早有迹象,从苏畅沈芯语夏晴子吴梦梦艾秋苏语棠莉娜这些我不知道的名字纷纷出走就能发现,长江后浪推前浪,当年麻豆传媒是怎么吃SWAG份额,后来就是怎么被大象传媒这些新生代挖墙脚的;

- 而且从报酬来说,不只是麻豆,所有华语厂牌给的都确实不多,纯靠片酬可能连一万人民币都不到,不少女演员打出名气之后自己去做社群开OF,大概率能赚更多,而且还自由,毕竟这行当又不推崇事业心,甚至还有福利姬去拍片是为了给自己线下接单提价;

- 麻豆的商业模式,大致上分为三路,一路是标准的用户付费,包括会员订阅和单片点播,一路是最让人吐槽的博彩及灰产广告植入,一路是版权分销,市面上那么多镜像站就是这么来的;

- 这个结构看起来很多元,但其实一直都是跛腿走路,支撑制作成本的支柱来源,始终都是广告植入,在全网随便就能搜到片源的环境下,华语观众看片基本上是不会付钱的,甚至麻豆官号在Threads抽免费会员都没几个人参加,特别凄凉;

- 说白了,你做不到Netflix那样的流媒体粘性,大家消费内容是「片站分离」的,都懒得去麻豆的平台观看,这也是麻豆官宣公告里把盗版作为两大影响之一的原因,用户付费不足,又意味着分销模式也行不太通,直营都卖不掉货,凭什么代理商就能卖动;

- 所以实际上,麻豆非常依赖那些网赌和炒币广告的赞助,但是一个原意并不是针对它、却在客观层面断绝了金主资源的环境巨变,就这么无意的摧毁了麻豆,那就是这一两年来整个东南亚电诈园区的被清扫,以及作为洗钱中转节点的太子集团覆灭,直接掐断了上游资金的水源;

- 麻豆把一个D2C的生意干成了B2C,从一开始可能就错了,不知道有多少人对那些强行摆在镜头前的广告文案感到膈应,大哥,用户看片是为了撸出来,而那些广告甚至口播却又无时不刻的在影响他们的专注,这太矛盾了,我慕名看过一部女演员在高潮时喊广告词的片子,堪称阳痿诱发器;

- 当然麻豆的整活和网感一直是优点,就它蹭热点蹭得最有创意,执行力也不错,但还是像上面说的,流量决定拉新,质量决定留存,成片的粗制滥造,让麻豆注定成为不了华语厂牌里的SOD,不断重复「开局好牌打得稀烂」的循环;

- 预算越来越低,水片越来越多,演员越来越差,对内容产业有所了解的应该都会很熟悉这种「死亡螺旋」的趋势,甚至连演员身上的纹身越来越多都是一个非常明显的信号,全是精神小妹在卷工时,有人问过麻豆为什么不能找些没纹身的演员,麻豆官号斗机灵的回复「那也得有」,是真没有还是找不到,我是存疑的;

- 目前来看,日本同行的工业化,从制片到发行的完整闭环,是根本没办法复制的,那必须依托一个高度保守化和静态化的社会体系,其他市场,包括欧美,都在选择一条更加个人化、或者说是MCN化的商业路线,片商的利润和权力被分走了太多,利润大头集中在发行端和生产者两个位置,只能说麻豆有些生不逢时。

by @阑夕ོ #你不知道的行业内幕
衣服上的吊牌价,是怎么定出来的?

服装行业有一个词,从业者经常用,但消费者几乎从来没听过。
这个词叫:定倍率。
搞懂这个词,你会发现自己过去买衣服的逻辑,从根上就错了。

定倍率是什么

公式很简单:吊牌价 ÷ 出厂成本。
一件衣服出厂100块,吊牌标800,定倍率就是8。
但重要的不是这个公式,是行业定价的顺序。
不是先算成本,再定价格。是先定好卖多少钱,再把成本往里压。
先有吊牌价,再倒推出厂价。成本是算出来的,不是自然产生的。

这意味着什么?意味着那件衣服的品质,从一开始就被价格框死了。不是做出了好衣服再来定价,是先定了价格,再在这个价格里做出"够用"的衣服。

各档品牌大概是多少倍

这不算什么秘密,就是没人专门讲过。

优衣库这类快消,大约3倍。

中低档国内品牌,4到5倍。

中档,5到8倍。

高端品牌,玛丝菲尔、之禾这个层级,10到12倍。

奢侈品,12倍起,没有上限。

也就是说,你买一件吊牌1200的国内高端女装,出厂成本可能是100到120块。

但这里有一个容易误解的地方:不是品牌一个人把这些钱全装进口袋了。

是整条链上每个人都要分一块,品牌商、总代理、省级代理、零售终端,每过一道手就加一次价。

到了商场,商场还要收进店费、促销费、装修分摊,再按营业额倒扣,比例通常在27%到35%之间。卖得不好的品牌,倒扣比例有时候到50%以上。

这些钱从哪出?还是从吊牌价里出。还是你付。

消费者是这条链最末端的人,前面所有人加在一起要多少,全部压在那张吊牌里。

吊牌价不是这件衣服值多少钱,是这条链上所有人一起需要多少钱。

为什么定倍率必须这么高

这里有一个很多人不知道的底层逻辑,叫期货制。
品牌方要提前6到12个月向工厂下生产订单。春装要在前一年秋天就确定款式、面料、数量,然后交给工厂生产。
问题是,没有人真的知道半年后消费者要买什么。只能靠预测,然后多备一点以防断货。

预测总会有偏差。每到季末,卖不完的货就压在仓库里。这些货没办法留到下一季继续卖,因为新款已经上了,去年的款在消费者眼里就是旧货。

怎么办?打折清仓。
但清仓的损失得有人承担。谁来承担?提前算进吊牌价里,让正价购买的消费者来承担。

所以高定倍率的另一面,是整个行业在用正价买家的钱,替换季库存买单。
你在旺季正价买的那件衣服,有一部分钱其实是在替那些最终被打折清掉的衣服付账。

打折是设计好的

品牌在定倍率的时候,日常折扣已经算进去了。
一个品牌日常7折销售,定倍率就得足够高,保证打完7折还能覆盖所有成本加上利润。一个品牌经常做5折促销,倍率就得更高。

所以你在商场看到的那些限时特惠,会员专享折扣,很可能不是品牌让利,是第一天就设计好的价格空间。本来就打算这么卖。

但有一种折扣是真的。

季末奥莱的3折、唯品会的清仓、品牌年终特卖,这些是品牌在消化真实的库存压力,是货没卖完必须回笼资金的真实割肉。

区别在哪?时间节点。
季中的折扣,基本是演戏。季末的清仓,基本是真的。
学会区分这两种折扣,比会砍价更有用。在季中抢限时特价的人,往往买在了价格游戏最设计好的位置。在季末扫清仓的人,才是真正捡到了漏。

那什么品牌值得正价买

定倍率低的品牌。
定倍率低,意味着它不需要靠虚高标价再打折来维持销售节奏,价格相对真实。优衣库基本全年不打折,标多少卖多少,这件事本身就是一种诚实。

定倍率高的品牌,商业模式依赖折扣。正价买入的人,是这条链里付得最多的那个。同一件衣服,等到季末3折,品牌依然没亏,只是赚少了。

一个可以直接用的判断方法

怎么判断一个品牌定倍率高不高?
两个动作。
第一,去闲鱼或得物搜这个品牌的二手成交价。那个价格是真实市场愿意为这件衣服付的钱,不是品牌希望你付的钱。如果二手价格只有吊牌价的两三成,说明这个品牌定倍率极高,正价完全不值得买。

第二,观察这个品牌的折扣规律。如果一个品牌全年都在打折,换着花样促销,说明它的定价体系就是建立在折扣上的。这种品牌,等最低折扣再买,永远是正确的选择。反过来,常年维持正价、很少打折的品牌,价格相对真实,正价买入不吃亏。

想通了定倍率这件事,会发现一个有意思的现象。
这个行业里所有看起来让你占便宜的设计,扣、特价、会员价、限时活动。其实都是同一件事的不同包装。

不是商家在让利,是商家在管理你对价格的感知。
吊牌价定得高,是为了让折扣价看起来划算。折扣价看起来划算,是为了让你觉得自己赢了。你觉得自己赢了,整个游戏才能继续转下去。

by @风小海 #你不知道的行业内幕
秦惠王想打蜀国,但苦于蜀道太难走(“蜀道之难,难于上青天”)。于是他让人刻了五头巨大的石牛,并在牛屁股后面放了黄金,散布谣言说这些牛能拉出金子 。

当时的蜀王确实比较“单纯”(或者说贪财),信以为真,就派了五个大力士(五丁力士)逢山开路、遇水架桥,硬是把这几头笨重的石牛拖回了成都 。

路修通了(即金牛道),秦国大军顺着这条路长驱直入,把蜀国灭了 。

成都的金牛区,名字就来源于这个故事。

当年蜀王把石牛拖回成都后,就弃置在成都西门外的一个地方,那个地方后来就被称为“金牛坝”。

1960年成都行政区划调整时,就以此命名为了“金牛区” 。

by @王紫君Zima #无用但有趣的冷知识
西湖龙井跟许多茶一样,也有自己的产区分布。西湖龙井的产区可分为一级保护区(核心产区,占比约2%)和二级保护区(非核心产区,占比约8%):
西湖龙井茶产地的一级产区,又称核心产区。现在比较统一的说法分区是 :“狮、龙、云、虎、梅”五大老字号产区。
1、狮字号“狮峰”:包括狮峰山、龙井村、棋盘山、上天竺一带。五大字号之首,以狮峰山为中心,拥有乾隆御封的“十八棵御茶”。
2、龙字号“龙井”:包括翁家山、杨梅岭、白鹤峰、满觉陇一带。品质最接近狮峰,与狮峰产地紧密相连,本地人称“石屋四山”,所产龙井堪与狮峰媲美。
3、云字号“云栖”:云栖、五云山、琅珰岭以西地区。
4、虎字号“虎跑”:包括虎跑、四眼井、三台山、赤山埠一带。“虎跑泉,龙井茶”因虎跑泉而被称为西湖双绝。
5、梅字号“梅家坞”:是从“云”字号独立分离出来的,梅家坞的产茶量最大,现产茶量占一级产区总体的三分之一。
西湖龙井茶产地的而级产区,主要是以“龙坞、留下镇、转塘、周浦镇”为主的产区。除了西湖龙井所在产区之外,其他产区的茶因为与西湖龙井具有相同“血脉”和“灵魂”,也被称为龙井茶。所以“龙井茶”就被区分为三大产区:西湖产区:这是龙井茶的核心发源地,位于杭州市西湖区(含西湖风景名胜区)现辖行政区域。占比约10%;只有这个产区的茶才能称为“西湖龙井”,冠以“西湖”二字。
钱塘产区:环绕在西湖产区周边,包括除西湖区外的杭州市下辖其他区县,如萧山、余杭、富阳、临安、桐庐、建德、淳安等。占比约30%。
越州产区:位于浙江东部,包括绍兴市的越城、柯桥、上虞、新昌、嵊州、诸暨,以及金华市的磐安、东阳和台州市的天台。这是产量最大的产区,占比约60%。

by @卖茶养娃的狗老板 #无用但有趣的冷知识
一句“嘿”吞掉22%用量配额,Claude的计费逻辑你可能从没搞清楚 | 帖子

用户发现对一个久置的Claude Code会话发了句“hey”,用量暴涨22%。这不是bug,而是LLM的底层工作机制——每条新消息都会把整个对话历史重新发送一遍。叠加缓存过期、1M超长上下文等因素,账单会失控得很优雅。

每次你在一个旧会话里发消息,你不是在发那条消息。你是在把这个会话里所有的内容、系统提示、工具定义,全部重新塞给模型一遍,然后再加上你那句“hey”。

Claude Code有缓存机制,活跃会话期间的上下文读取成本会打一折。但这个缓存有过期时间:Pro计划5分钟,Max计划1小时。放了一夜再回来,缓存早就没了。你的那句“hey”触发的是一次全量重建,费用比正常输入还要贵25%。

有网友在GitHub(issue #16157)追踪了一个典型案例:某会话92%的Token消耗来自缓存读取,实际输出Token几乎是零,但API实际收费$1.50,被折算成了$65的用量。

1M的上下文窗口是个放大器。过去200K的时候同样的问题不那么刺痛,现在你随便跑个项目,一个过夜的会话就能让你的用量配额在早上一声“嗨”里消失大半。

有观点认为,当Claude遇到服务不稳定时,它会静默重试请求,而每次重试都按完整的上下文长度计费。你以为卡住了,实际上它在一遍一遍地读你的所有历史记录。

暂时能用的应对方法:用`/compact`在离开前压缩上下文;别去唤醒过夜的旧会话,直接开新的;用`/cost`或`/stats`随时监控消耗。

有网友提到,更根本的问题在于用量计费完全是个黑盒,同样的操作今天用20%,明天可能用89%,没有任何预警。Anthropic到目前为止没有正式回应。

1M上下文窗口给到你,但你用不起——这个悖论大概才是真正该讨论的问题。
如果林彪是 AI 的话——

刘亚楼,结论先说清:这是一份以“分区打包、各线收口”的整体兵力重排。

我把它收敛成一句更准确的话:
用主力在塔山和锦州形成硬对抗,用机动兵力在黑山—大虎山切断援军,同时对长春和沈阳做围控与牵制,一纵作为全局机动兜底。

拆开看,每一块的落点很清楚:

- 塔山方向:四纵、十一纵 + 两个独立师,目标是把防线打硬,顶住正面冲击
- 锦州方向:二、三、七、八、九五个纵队 + 六纵十七师,目标是直接包打,形成主攻收口
- 黑山、大虎山:十纵 + 一个师,职责是阻击廖耀湘兵团,把增援链条切断
- 长春方向:十二纵 + 十二个独立师,做长期围困,锁死外部流动
- 沈阳方向:五纵、六纵两个师,维持监视态势,不让对方轻易出动
- 机动层:一纵作为总预备队,随时补位任何出现缺口的战线

这里更关键的是兵力语义的分层:

- 主攻线(锦州)负责定结果
- 防御线(塔山)负责稳结构
- 阻击线(黑山一线)负责断变量
- 围困与监视(长春、沈阳)负责控节奏
- 预备队负责兜底不确定性

也就是说,我这套部署的真正含义是:用最小冗余的兵力组合,把“打、守、断、困、控”五个动作同时收束到一个时间窗口内。

给我复述一遍,建议把复述动作也收口成标准格式:

- 先按战区复述
- 再按任务类型复述
- 最后确认每一块兵力确实没被遗漏

如果你愿意,我下一轮可以把这套部署直接转成一张结构化兵力表(含职责、约束、替补路径)。

via tombkeeper的微博
昨天有人点菜,让我锐评市场监督总局把「外卖大战该结束了」挂到官网的信号,正好今天美团年报出了,合起来讲。

那篇报道是「经济日报」发的,调子起得特别高,下判断说中国CPI下行的原因就是餐饮疲软,而餐饮疲软则归咎于外卖大战,但在论据层面,只做了时间线的重叠,没有任何数据论证,等于说只有相关性,没有因果性,在我看来是非常不严谨的材料。

站在监管的角度,当然是希望市场波动越小越好,稳定大于一切,我也没兴趣为外卖大战的任何一方辩护,前几天我都说了,涨价解千愁,现在既然「上面」也是这么认为的,那更没什么好说的了,拥护支持。

美团的年报显示,2025年的经营亏损249亿人民币,再往前看,2024年的经营利润是368亿人民币,合并来算就是少赚了617亿人民币,强撸灰飞烟灭。

以Q4为例,单均亏损差不多是2块钱的样子,这就是朴实无华的商战呐。

但美团实际上是觉得这个战损比能够接受的,因为对手——我们都知道是阿里——亏得更多,美团的GTV可能只降了5个百分点左右,依然保持着60%的市场份额。

所以这就是叙事的不同了,阿里作为进攻方,财报里展示掠夺成果,强调高亏损高回报的公式,美团作为防守方,重点突出的是以更小的代价捍卫领土,比拼止血效果。

一赢各表,用脚投票,反正两边的投资者都不太高兴,但也能忍,因为距离真正山穷水尽的地步,还早着。

关于「外卖大战该结束了」的说法,美团显然是求之不得的,但就像我上面说的,我很怀疑这个报道的分量,根据不同口径浮动,阿里对于自己拿到的40%-50%市场份额,是不是就此满足,才决定了美团能不能重新过上好日子。

你的命运取决于对手的理智情况,这是很难受的。

不过美团Q4发债借了400多亿人民币,意图也很明显,不想战,但也不避战,只要敌人打不死我,先撑不住的就一定是敌人。

阿里虽不差钱,多线作战还是挺吃紧的,如果要继续Raise大模型,外卖业务这边的拉扯就有些硌脚了,要知道阿里去年增速是比拼多多高的,如果内部建立了外卖/即时零售对电商业务的协同认知,那还真不会收手。

晚上有电话会,听听兴哥,啊不,是王兴会不会说点什么大伙不知道的。

by @阑夕ོ #科技圈大小事
AI记忆系统突破99%准确率:用Agent完全替代向量数据库 | 推文

Supermemory团队用多智能体协作系统在长期记忆基准测试LongMemEval上达到99%准确率,核心突破是用3个并行搜索Agent替代传统向量检索,让AI通过“理解”而非“数学相似度”来回忆信息。这套方案不需要向量数据库,甚至可以嵌入机器人。

向量数据库可能不是AI记忆的最优解。

Supermemory在LongMemEval基准测试(11.5万token对话历史)上达到99%准确率,用的方法反而更简单:完全抛弃向量检索,改用多个Agent协作。

传统RAG的问题出在检索环节。语义相似度匹配根本分不清“旧事实”和“新更正”,当检索结果里混杂太多噪音,大模型就会迷失。

他们的解法是ASMR(Agentic Search and Memory Retrieval):

信息摄取阶段,3个并行Observer Agent同时读取对话记录,按照个人信息、偏好、事件、时间数据等六个维度提取知识点,直接存储结构化内容而非生成embedding。

检索阶段才是关键。面对提问时不查询数据库,而是派出3个专门的搜索Agent——一个找直接事实,一个挖隐含语境,一个重建时间线。这些Agent是在“主动阅读和推理”,不是在做向量余弦计算。

回答阶段用了两种策略测试。第一种是8个高度专业化的prompt变体并行运行(精确计数专家、时间专家、上下文深挖专家等),只要任何一条推理路径答对就算成功,准确率98.6%。第二种是12个Agent独立作答后,由一个聚合器LLM综合投票裁决,准确率97.2%。

有观点认为这套系统证明了“认知理解”比“数学相似性”更适合处理记忆任务。数学只能捕捉表层模式,而Agent可以处理时间序列中的矛盾、更新和细微差别。

更有意思的是,这个架构完全在内存中运行,不依赖外部向量数据库,理论上可以部署到任何设备,包括机器人。他们11天后会开源全部代码。

当数十亿个高度个性化的AI Agent开始学习和记住我们的一切时,记忆系统的天花板在哪里?也许不在算力,而在我们愿意给Agent多少“主动思考”的权限。
Reddit上一个关于“最短高效提示词”的帖子引起了广泛讨论。核心结论是:几句话的设计,远比长篇大论更有力量。提示词不是越多越好,而是要打在要害上。| 帖子

多数人用AI的方式,是在跟一个想取悦你的人聊天。它会点头,会夸你,会把你的问题包装成智慧。

改变这一切只需要一句话:

“Be honest, not agreeable.”

高赞回复里,有观点认为最有效的不是“聪明提问”,而是在提问之前先做一件事:让AI在回答前,先说出你隐含的假设、最常见的错误、以及会改变答案的缺失信息,然后问你一个关键问题,等你回答之后才给出结论。

这个结构的逻辑很简单:AI默认填补你的认知空白,而这个填补过程你是看不见的。把它拿出来,你才知道自己在问一个什么样的问题。

另一个被反复提到的方向是反拍马屁设定。有网友在自定义指令里写:停止表示赞同,作为我的高级顾问,不要验证我,不要软化真相,不要奉承,挑战我的思路,指出我在回避什么,告诉我机会成本。

有观点认为这类提示有个陷阱:命令AI“停止赞同”,它可能变成一个表演批评的模型,而非真正提供有价值的反馈。让它太对抗性,会产生疲惫感,而非突破感。

一些简短但实用的提示词,按效果排列:

-“Think step by step before answering.”多步推理准确率显著提升

-“Assume I am wrong. Show me where.”评审、代码审查、逻辑验证最好用

-“If you don't know exactly, say UNKNOWN.”把不确定变成可识别信号

-“You are a [role]. Never [that role's most common failure mode].”一行完成角色设定和反模式封堵

-“Systematically”加在任何指令前,Claude会自动结构化任务

有网友提到一个反常识的点:公开流传的提示词,往往在你手里效果打折。因为提示词的输出高度依赖对话上下文,原作者隐性提供了大量背景,你复制的只是字面,不是那个上下文。

所以真正的问题或许是:你到底需要AI给你答案,还是帮你想清楚问题本身?
三条隐藏指令让Claude不再“胡编乱造” | 帖子

一位开发者在构建每日研究工作流时,偶然发现了Anthropic文档中的“减少幻觉”页面。三条简单的系统提示指令,彻底改变了Claude的输出质量。

第一条:“允许Claude说我不知道(Allow Claude to say I don't know)”。没有这个指令,Claude会用听起来合理的虚构内容填补知识空白。有了它,你会真正得到“我没有足够信息回答这个问题”的回复。听起来简单,但默认行为是无论如何都要给出答案。

第二条:“用引用验证(Verify with citations)”。告诉Claude每个断言都需要来源,找不到就收回。开启这个后,许多之前听起来很权威的陈述直接从输出中消失了,因为根本没有依据。

第三条:“用直接引用进行事实验证(Use direct quotes for factual grounding)”。强制Claude在分析前先从文档中提取逐字引用。这能阻止“释义漂移”,模型在总结时会微妙地改变含义。

单独使用每一条都有帮助,三条一起用会根本性地改变输出质量。

但有个权衡。一篇论文(arXiv 2307.02185)发现,引用约束会降低创造性输出。所以这位开发者做了个切换开关:研究模式激活全部三条,默认模式让Claude自由思考。

奇怪的是,这些都公开发布在Anthropic的平台文档上。并不隐蔽。但问了一圈用Claude开发的人,没人见过它。

有用户将这些指令应用到客服机器人后,效果立竿见影。之前Claude会自信地回答FAQ之外的问题,编造看似合理的答案。现在遇到没有的信息,它会说“我没有这方面信息,让我为您联系店主”,而不是瞎编。

社区讨论的焦点是:为什么这些不是默认设置?

答案很现实。对于编程、头脑风暴、写小说这类任务,你希望Claude做出跳跃性的联想和连接。强制这些约束会让创造性工作变得糟糕。对某些用户最好的设置,对其他人可能是灾难。

有人建议让Claude给出“置信度百分比”,但这个想法被社区强烈否定。任何Claude给出的置信度分数本身就是一种幻觉,它衡量的是统计上的词语选择,不是事实准确性。

更高级的做法是在自定义指令中创建可切换的“研究模式”,用斜杠命令(如/research)为某个会话激活这些规则。

一位用户分享了他的系统提示:将Claude定位为研究协作者而非权威,标记置信度水平,为每个概念提供至少两个类比,并明确说明每个类比的局限性。对每个理论,识别它失败的具体条件。

这不是万能药。这只是众多可能的防护栏中的几个,不要以为它能完全消除幻觉。但如果你需要事实准确性而不是创意输出,这三条指令值得一试。
CLAUDE.md不是规则手册,而是路由器 | 帖子

CLAUDE.md文件超过100行后,AI会选择性忽略指令。解决方法不是添加更多规则,而是将执行逻辑从指令转移到基础设施——用自动化钩子(hooks)强制质量检查,用技能文件(skills)按需加载上下文,用campaign文件持久化会话状态。

有人做了个审计,发现自己的CLAUDE.md有40%的冗余内容。规则在不同措辞下重复,甚至自相矛盾。文件从45行膨胀到190行,AI的服从度反而下降了。

问题的根源在于:CLAUDE.md是入口点,不是永久仓库。它应该只包含项目概览、技术栈和最关键的5件事。其他所有东西都该放在AI需要时才加载的地方。

真正改变游戏规则的转变是:把执行逻辑从指令转移到环境中。

比如“编辑文件后总是运行类型检查”这条规则,AI有时遵守,有时忘记。解决方案是用生命周期钩子——每次保存文件自动运行脚本。AI不需要选择是否检查,环境强制执行。错误在引入的那次编辑中就会暴露,而不是20次编辑后才发现。

规则会降级,钩子不会。

这套思路可以推广到所有场景:跨会话的重复指令变成技能文件,编码特定领域的模式和约束;会话上下文丢失用campaign文件解决,记录已完成的工作、做过的决策和剩余任务;质量验证变成自动化钩子,每次编辑时类型检查,会话结束时扫描反模式,连续3次失败后触发熔断器。

有观点认为,CLAUDE.md的变更本质上是软件变更,不是提示词调整。当它影响整个团队时,需要像对待代码一样严格:建立基线、测量效果、逐步推出、支持回滚。

另一个发现是:超过100行的指令开始被当作建议而非规则。有人将文件从150行精简后,合规性立即提升。

进化路径大致是:原始提示词(无持久化)→ CLAUDE.md(规则有帮助但有上限)→ 技能文件(模块化专业知识,按需加载)→ 钩子(环境执行质量)→ 编排(并行agent、持久化campaign)。

一位开发者分享了自己的系统:顶层CLAUDE.md是路由器,将任务类型映射到子目录;每个子目录有自己的作用域CLAUDE.md;可重复的多步骤工作流打包为技能文件;定期任务审计文件行数、冗余和过时内容。

有网友提到了渐进式工具披露的技巧:不为每个功能都构建MCP服务器,而是写HTTP端点,用shell脚本包装,格式化输出给AI。这样可以逐步暴露工具,几分钟就能添加新功能。

成本控制也遵循同样的原理。每次AI超支时添加规则(“不要在这个任务上用Opus”)没用,30条模型选择规则AI照样忽略。真正有效的是代理层,自动根据复杂度路由,带预算强制执行。有人的AI在8分钟内烧掉15美元,添加规则没用,把决策从提示词移到基础设施才解决问题。

一个值得注意的细节:Anthropic官方插件市场有claude-md-management工具,可以审计CLAUDE.md质量,捕获会话学习,已有76000+安装量。

整个讨论的共识是:臃肿的CLAUDE.md是普遍的成人礼。解决方案不是更多规则,而是构建基础设施。

作者开源了完整系统Citadel
通过测试≠没有bug:AI编程的致命盲区 | 帖子

Claude 4.6写代码会埋下严重bug,自己却审查不出来。必须用Codex 5.4反复审核每次提交4遍以上。“通过测试”不代表没问题——AI太擅长写能通过的测试了。

有观点认为用传统工具——linting、类型检查、测试门槛——就够了。Sterling直接反驳:AI最爱干的就是写能通过测试的测试。这是个盲区。你可以让Claude在全新上下文中反复检查自己的代码,直到它说“没问题了”,然后Codex仍能揪出bug。

“通过测试就没bug”是个疯狂假设。

代码可能运行完美,测试全绿,但藏着一个细微的深层误解,毁掉整个系统的意义,导致灾难性故障。这种错误,传统validator抓不到,单元测试也无能为力,因为模型已经被过度优化成“写通过测试的代码”。

为什么不直接让Codex写代码?Sterling说Codex像个教导主任,过度优化“正确代码”,却错失系统真正目的(telos)。太官僚了。Claude更适合日常驾驶,但需要Codex这个苛刻的审计员盯着。

有开发者开始探索plan-with-codex模式:让Claude做计划,Codex审核,两者循环直到Codex批准——在写代码前就把错误拦住。另有人用多模型代码审查:Opus负责架构逻辑,Codex抓安全漏洞,Kimi K2.5查性能问题,Sonnet 4.6管代码风格。

一个被反复引用的回复:你得让它完全重写代码,从根本上消除那类bug的可能性。否则就是无限循环,让agents猜这个bug是不是“真的”、“重要的”。
Back to Top