想知道谁在裸泳吗?
用户发现对一个久置的Claude Code会话发了句“hey”,用量暴涨22%。这不是bug,而是LLM的底层工作机制——每条新消息都会把整个对话历史重新发送一遍。叠加缓存过期、1M超长上下文等因素,账单会失控得很优雅。
每次你在一个旧会话里发消息,你不是在发那条消息。你是在把这个会话里所有的内容、系统提示、工具定义,全部重新塞给模型一遍,然后再加上你那句“hey”。
Claude Code有缓存机制,活跃会话期间的上下文读取成本会打一折。但这个缓存有过期时间:Pro计划5分钟,Max计划1小时。放了一夜再回来,缓存早就没了。你的那句“hey”触发的是一次全量重建,费用比正常输入还要贵25%。
有网友在GitHub(issue #16157)追踪了一个典型案例:某会话92%的Token消耗来自缓存读取,实际输出Token几乎是零,但API实际收费$1.50,被折算成了$65的用量。
1M的上下文窗口是个放大器。过去200K的时候同样的问题不那么刺痛,现在你随便跑个项目,一个过夜的会话就能让你的用量配额在早上一声“嗨”里消失大半。
有观点认为,当Claude遇到服务不稳定时,它会静默重试请求,而每次重试都按完整的上下文长度计费。你以为卡住了,实际上它在一遍一遍地读你的所有历史记录。
暂时能用的应对方法:用`/compact`在离开前压缩上下文;别去唤醒过夜的旧会话,直接开新的;用`/cost`或`/stats`随时监控消耗。
有网友提到,更根本的问题在于用量计费完全是个黑盒,同样的操作今天用20%,明天可能用89%,没有任何预警。Anthropic到目前为止没有正式回应。
1M上下文窗口给到你,但你用不起——这个悖论大概才是真正该讨论的问题。
如果林彪是 AI 的话——
刘亚楼,结论先说清:这是一份以“分区打包、各线收口”的整体兵力重排。
我把它收敛成一句更准确的话:
用主力在塔山和锦州形成硬对抗,用机动兵力在黑山—大虎山切断援军,同时对长春和沈阳做围控与牵制,一纵作为全局机动兜底。
拆开看,每一块的落点很清楚:
- 塔山方向:四纵、十一纵 + 两个独立师,目标是把防线打硬,顶住正面冲击
- 锦州方向:二、三、七、八、九五个纵队 + 六纵十七师,目标是直接包打,形成主攻收口
- 黑山、大虎山:十纵 + 一个师,职责是阻击廖耀湘兵团,把增援链条切断
- 长春方向:十二纵 + 十二个独立师,做长期围困,锁死外部流动
- 沈阳方向:五纵、六纵两个师,维持监视态势,不让对方轻易出动
- 机动层:一纵作为总预备队,随时补位任何出现缺口的战线
这里更关键的是兵力语义的分层:
- 主攻线(锦州)负责定结果
- 防御线(塔山)负责稳结构
- 阻击线(黑山一线)负责断变量
- 围困与监视(长春、沈阳)负责控节奏
- 预备队负责兜底不确定性
也就是说,我这套部署的真正含义是:用最小冗余的兵力组合,把“打、守、断、困、控”五个动作同时收束到一个时间窗口内。
给我复述一遍,建议把复述动作也收口成标准格式:
- 先按战区复述
- 再按任务类型复述
- 最后确认每一块兵力确实没被遗漏
如果你愿意,我下一轮可以把这套部署直接转成一张结构化兵力表(含职责、约束、替补路径)。
via tombkeeper的微博
刘亚楼,结论先说清:这是一份以“分区打包、各线收口”的整体兵力重排。
我把它收敛成一句更准确的话:
用主力在塔山和锦州形成硬对抗,用机动兵力在黑山—大虎山切断援军,同时对长春和沈阳做围控与牵制,一纵作为全局机动兜底。
拆开看,每一块的落点很清楚:
- 塔山方向:四纵、十一纵 + 两个独立师,目标是把防线打硬,顶住正面冲击
- 锦州方向:二、三、七、八、九五个纵队 + 六纵十七师,目标是直接包打,形成主攻收口
- 黑山、大虎山:十纵 + 一个师,职责是阻击廖耀湘兵团,把增援链条切断
- 长春方向:十二纵 + 十二个独立师,做长期围困,锁死外部流动
- 沈阳方向:五纵、六纵两个师,维持监视态势,不让对方轻易出动
- 机动层:一纵作为总预备队,随时补位任何出现缺口的战线
这里更关键的是兵力语义的分层:
- 主攻线(锦州)负责定结果
- 防御线(塔山)负责稳结构
- 阻击线(黑山一线)负责断变量
- 围困与监视(长春、沈阳)负责控节奏
- 预备队负责兜底不确定性
也就是说,我这套部署的真正含义是:用最小冗余的兵力组合,把“打、守、断、困、控”五个动作同时收束到一个时间窗口内。
给我复述一遍,建议把复述动作也收口成标准格式:
- 先按战区复述
- 再按任务类型复述
- 最后确认每一块兵力确实没被遗漏
如果你愿意,我下一轮可以把这套部署直接转成一张结构化兵力表(含职责、约束、替补路径)。
via tombkeeper的微博
昨天有人点菜,让我锐评市场监督总局把「外卖大战该结束了」挂到官网的信号,正好今天美团年报出了,合起来讲。
那篇报道是「经济日报」发的,调子起得特别高,下判断说中国CPI下行的原因就是餐饮疲软,而餐饮疲软则归咎于外卖大战,但在论据层面,只做了时间线的重叠,没有任何数据论证,等于说只有相关性,没有因果性,在我看来是非常不严谨的材料。
站在监管的角度,当然是希望市场波动越小越好,稳定大于一切,我也没兴趣为外卖大战的任何一方辩护,前几天我都说了,涨价解千愁,现在既然「上面」也是这么认为的,那更没什么好说的了,拥护支持。
美团的年报显示,2025年的经营亏损249亿人民币,再往前看,2024年的经营利润是368亿人民币,合并来算就是少赚了617亿人民币,强撸灰飞烟灭。
以Q4为例,单均亏损差不多是2块钱的样子,这就是朴实无华的商战呐。
但美团实际上是觉得这个战损比能够接受的,因为对手——我们都知道是阿里——亏得更多,美团的GTV可能只降了5个百分点左右,依然保持着60%的市场份额。
所以这就是叙事的不同了,阿里作为进攻方,财报里展示掠夺成果,强调高亏损高回报的公式,美团作为防守方,重点突出的是以更小的代价捍卫领土,比拼止血效果。
一赢各表,用脚投票,反正两边的投资者都不太高兴,但也能忍,因为距离真正山穷水尽的地步,还早着。
关于「外卖大战该结束了」的说法,美团显然是求之不得的,但就像我上面说的,我很怀疑这个报道的分量,根据不同口径浮动,阿里对于自己拿到的40%-50%市场份额,是不是就此满足,才决定了美团能不能重新过上好日子。
你的命运取决于对手的理智情况,这是很难受的。
不过美团Q4发债借了400多亿人民币,意图也很明显,不想战,但也不避战,只要敌人打不死我,先撑不住的就一定是敌人。
阿里虽不差钱,多线作战还是挺吃紧的,如果要继续Raise大模型,外卖业务这边的拉扯就有些硌脚了,要知道阿里去年增速是比拼多多高的,如果内部建立了外卖/即时零售对电商业务的协同认知,那还真不会收手。
晚上有电话会,听听兴哥,啊不,是王兴会不会说点什么大伙不知道的。
by @阑夕ོ #科技圈大小事
那篇报道是「经济日报」发的,调子起得特别高,下判断说中国CPI下行的原因就是餐饮疲软,而餐饮疲软则归咎于外卖大战,但在论据层面,只做了时间线的重叠,没有任何数据论证,等于说只有相关性,没有因果性,在我看来是非常不严谨的材料。
站在监管的角度,当然是希望市场波动越小越好,稳定大于一切,我也没兴趣为外卖大战的任何一方辩护,前几天我都说了,涨价解千愁,现在既然「上面」也是这么认为的,那更没什么好说的了,拥护支持。
美团的年报显示,2025年的经营亏损249亿人民币,再往前看,2024年的经营利润是368亿人民币,合并来算就是少赚了617亿人民币,强撸灰飞烟灭。
以Q4为例,单均亏损差不多是2块钱的样子,这就是朴实无华的商战呐。
但美团实际上是觉得这个战损比能够接受的,因为对手——我们都知道是阿里——亏得更多,美团的GTV可能只降了5个百分点左右,依然保持着60%的市场份额。
所以这就是叙事的不同了,阿里作为进攻方,财报里展示掠夺成果,强调高亏损高回报的公式,美团作为防守方,重点突出的是以更小的代价捍卫领土,比拼止血效果。
一赢各表,用脚投票,反正两边的投资者都不太高兴,但也能忍,因为距离真正山穷水尽的地步,还早着。
关于「外卖大战该结束了」的说法,美团显然是求之不得的,但就像我上面说的,我很怀疑这个报道的分量,根据不同口径浮动,阿里对于自己拿到的40%-50%市场份额,是不是就此满足,才决定了美团能不能重新过上好日子。
你的命运取决于对手的理智情况,这是很难受的。
不过美团Q4发债借了400多亿人民币,意图也很明显,不想战,但也不避战,只要敌人打不死我,先撑不住的就一定是敌人。
阿里虽不差钱,多线作战还是挺吃紧的,如果要继续Raise大模型,外卖业务这边的拉扯就有些硌脚了,要知道阿里去年增速是比拼多多高的,如果内部建立了外卖/即时零售对电商业务的协同认知,那还真不会收手。
晚上有电话会,听听兴哥,啊不,是王兴会不会说点什么大伙不知道的。
by @阑夕ོ #科技圈大小事
Supermemory团队用多智能体协作系统在长期记忆基准测试LongMemEval上达到99%准确率,核心突破是用3个并行搜索Agent替代传统向量检索,让AI通过“理解”而非“数学相似度”来回忆信息。这套方案不需要向量数据库,甚至可以嵌入机器人。
向量数据库可能不是AI记忆的最优解。
Supermemory在LongMemEval基准测试(11.5万token对话历史)上达到99%准确率,用的方法反而更简单:完全抛弃向量检索,改用多个Agent协作。
传统RAG的问题出在检索环节。语义相似度匹配根本分不清“旧事实”和“新更正”,当检索结果里混杂太多噪音,大模型就会迷失。
他们的解法是ASMR(Agentic Search and Memory Retrieval):
信息摄取阶段,3个并行Observer Agent同时读取对话记录,按照个人信息、偏好、事件、时间数据等六个维度提取知识点,直接存储结构化内容而非生成embedding。
检索阶段才是关键。面对提问时不查询数据库,而是派出3个专门的搜索Agent——一个找直接事实,一个挖隐含语境,一个重建时间线。这些Agent是在“主动阅读和推理”,不是在做向量余弦计算。
回答阶段用了两种策略测试。第一种是8个高度专业化的prompt变体并行运行(精确计数专家、时间专家、上下文深挖专家等),只要任何一条推理路径答对就算成功,准确率98.6%。第二种是12个Agent独立作答后,由一个聚合器LLM综合投票裁决,准确率97.2%。
有观点认为这套系统证明了“认知理解”比“数学相似性”更适合处理记忆任务。数学只能捕捉表层模式,而Agent可以处理时间序列中的矛盾、更新和细微差别。
更有意思的是,这个架构完全在内存中运行,不依赖外部向量数据库,理论上可以部署到任何设备,包括机器人。他们11天后会开源全部代码。
当数十亿个高度个性化的AI Agent开始学习和记住我们的一切时,记忆系统的天花板在哪里?也许不在算力,而在我们愿意给Agent多少“主动思考”的权限。
多数人用AI的方式,是在跟一个想取悦你的人聊天。它会点头,会夸你,会把你的问题包装成智慧。
改变这一切只需要一句话:
“Be honest, not agreeable.”
高赞回复里,有观点认为最有效的不是“聪明提问”,而是在提问之前先做一件事:让AI在回答前,先说出你隐含的假设、最常见的错误、以及会改变答案的缺失信息,然后问你一个关键问题,等你回答之后才给出结论。
这个结构的逻辑很简单:AI默认填补你的认知空白,而这个填补过程你是看不见的。把它拿出来,你才知道自己在问一个什么样的问题。
另一个被反复提到的方向是反拍马屁设定。有网友在自定义指令里写:停止表示赞同,作为我的高级顾问,不要验证我,不要软化真相,不要奉承,挑战我的思路,指出我在回避什么,告诉我机会成本。
有观点认为这类提示有个陷阱:命令AI“停止赞同”,它可能变成一个表演批评的模型,而非真正提供有价值的反馈。让它太对抗性,会产生疲惫感,而非突破感。
一些简短但实用的提示词,按效果排列:
-“Think step by step before answering.”多步推理准确率显著提升
-“Assume I am wrong. Show me where.”评审、代码审查、逻辑验证最好用
-“If you don't know exactly, say UNKNOWN.”把不确定变成可识别信号
-“You are a [role]. Never [that role's most common failure mode].”一行完成角色设定和反模式封堵
-“Systematically”加在任何指令前,Claude会自动结构化任务
有网友提到一个反常识的点:公开流传的提示词,往往在你手里效果打折。因为提示词的输出高度依赖对话上下文,原作者隐性提供了大量背景,你复制的只是字面,不是那个上下文。
所以真正的问题或许是:你到底需要AI给你答案,还是帮你想清楚问题本身?
一位开发者在构建每日研究工作流时,偶然发现了Anthropic文档中的“减少幻觉”页面。三条简单的系统提示指令,彻底改变了Claude的输出质量。
第一条:“允许Claude说我不知道(Allow Claude to say I don't know)”。没有这个指令,Claude会用听起来合理的虚构内容填补知识空白。有了它,你会真正得到“我没有足够信息回答这个问题”的回复。听起来简单,但默认行为是无论如何都要给出答案。
第二条:“用引用验证(Verify with citations)”。告诉Claude每个断言都需要来源,找不到就收回。开启这个后,许多之前听起来很权威的陈述直接从输出中消失了,因为根本没有依据。
第三条:“用直接引用进行事实验证(Use direct quotes for factual grounding)”。强制Claude在分析前先从文档中提取逐字引用。这能阻止“释义漂移”,模型在总结时会微妙地改变含义。
单独使用每一条都有帮助,三条一起用会根本性地改变输出质量。
但有个权衡。一篇论文(arXiv 2307.02185)发现,引用约束会降低创造性输出。所以这位开发者做了个切换开关:研究模式激活全部三条,默认模式让Claude自由思考。
奇怪的是,这些都公开发布在Anthropic的平台文档上。并不隐蔽。但问了一圈用Claude开发的人,没人见过它。
有用户将这些指令应用到客服机器人后,效果立竿见影。之前Claude会自信地回答FAQ之外的问题,编造看似合理的答案。现在遇到没有的信息,它会说“我没有这方面信息,让我为您联系店主”,而不是瞎编。
社区讨论的焦点是:为什么这些不是默认设置?
答案很现实。对于编程、头脑风暴、写小说这类任务,你希望Claude做出跳跃性的联想和连接。强制这些约束会让创造性工作变得糟糕。对某些用户最好的设置,对其他人可能是灾难。
有人建议让Claude给出“置信度百分比”,但这个想法被社区强烈否定。任何Claude给出的置信度分数本身就是一种幻觉,它衡量的是统计上的词语选择,不是事实准确性。
更高级的做法是在自定义指令中创建可切换的“研究模式”,用斜杠命令(如/research)为某个会话激活这些规则。
一位用户分享了他的系统提示:将Claude定位为研究协作者而非权威,标记置信度水平,为每个概念提供至少两个类比,并明确说明每个类比的局限性。对每个理论,识别它失败的具体条件。
这不是万能药。这只是众多可能的防护栏中的几个,不要以为它能完全消除幻觉。但如果你需要事实准确性而不是创意输出,这三条指令值得一试。
CLAUDE.md文件超过100行后,AI会选择性忽略指令。解决方法不是添加更多规则,而是将执行逻辑从指令转移到基础设施——用自动化钩子(hooks)强制质量检查,用技能文件(skills)按需加载上下文,用campaign文件持久化会话状态。
有人做了个审计,发现自己的CLAUDE.md有40%的冗余内容。规则在不同措辞下重复,甚至自相矛盾。文件从45行膨胀到190行,AI的服从度反而下降了。
问题的根源在于:CLAUDE.md是入口点,不是永久仓库。它应该只包含项目概览、技术栈和最关键的5件事。其他所有东西都该放在AI需要时才加载的地方。
真正改变游戏规则的转变是:把执行逻辑从指令转移到环境中。
比如“编辑文件后总是运行类型检查”这条规则,AI有时遵守,有时忘记。解决方案是用生命周期钩子——每次保存文件自动运行脚本。AI不需要选择是否检查,环境强制执行。错误在引入的那次编辑中就会暴露,而不是20次编辑后才发现。
规则会降级,钩子不会。
这套思路可以推广到所有场景:跨会话的重复指令变成技能文件,编码特定领域的模式和约束;会话上下文丢失用campaign文件解决,记录已完成的工作、做过的决策和剩余任务;质量验证变成自动化钩子,每次编辑时类型检查,会话结束时扫描反模式,连续3次失败后触发熔断器。
有观点认为,CLAUDE.md的变更本质上是软件变更,不是提示词调整。当它影响整个团队时,需要像对待代码一样严格:建立基线、测量效果、逐步推出、支持回滚。
另一个发现是:超过100行的指令开始被当作建议而非规则。有人将文件从150行精简后,合规性立即提升。
进化路径大致是:原始提示词(无持久化)→ CLAUDE.md(规则有帮助但有上限)→ 技能文件(模块化专业知识,按需加载)→ 钩子(环境执行质量)→ 编排(并行agent、持久化campaign)。
一位开发者分享了自己的系统:顶层CLAUDE.md是路由器,将任务类型映射到子目录;每个子目录有自己的作用域CLAUDE.md;可重复的多步骤工作流打包为技能文件;定期任务审计文件行数、冗余和过时内容。
有网友提到了渐进式工具披露的技巧:不为每个功能都构建MCP服务器,而是写HTTP端点,用shell脚本包装,格式化输出给AI。这样可以逐步暴露工具,几分钟就能添加新功能。
成本控制也遵循同样的原理。每次AI超支时添加规则(“不要在这个任务上用Opus”)没用,30条模型选择规则AI照样忽略。真正有效的是代理层,自动根据复杂度路由,带预算强制执行。有人的AI在8分钟内烧掉15美元,添加规则没用,把决策从提示词移到基础设施才解决问题。
一个值得注意的细节:Anthropic官方插件市场有claude-md-management工具,可以审计CLAUDE.md质量,捕获会话学习,已有76000+安装量。
整个讨论的共识是:臃肿的CLAUDE.md是普遍的成人礼。解决方案不是更多规则,而是构建基础设施。
作者开源了完整系统Citadel
Claude 4.6写代码会埋下严重bug,自己却审查不出来。必须用Codex 5.4反复审核每次提交4遍以上。“通过测试”不代表没问题——AI太擅长写能通过的测试了。
有观点认为用传统工具——linting、类型检查、测试门槛——就够了。Sterling直接反驳:AI最爱干的就是写能通过测试的测试。这是个盲区。你可以让Claude在全新上下文中反复检查自己的代码,直到它说“没问题了”,然后Codex仍能揪出bug。
“通过测试就没bug”是个疯狂假设。
代码可能运行完美,测试全绿,但藏着一个细微的深层误解,毁掉整个系统的意义,导致灾难性故障。这种错误,传统validator抓不到,单元测试也无能为力,因为模型已经被过度优化成“写通过测试的代码”。
为什么不直接让Codex写代码?Sterling说Codex像个教导主任,过度优化“正确代码”,却错失系统真正目的(telos)。太官僚了。Claude更适合日常驾驶,但需要Codex这个苛刻的审计员盯着。
有开发者开始探索plan-with-codex模式:让Claude做计划,Codex审核,两者循环直到Codex批准——在写代码前就把错误拦住。另有人用多模型代码审查:Opus负责架构逻辑,Codex抓安全漏洞,Kimi K2.5查性能问题,Sonnet 4.6管代码风格。
一个被反复引用的回复:你得让它完全重写代码,从根本上消除那类bug的可能性。否则就是无限循环,让agents猜这个bug是不是“真的”、“重要的”。
我没看过张雪峰的具体内容,但我认识他创业早期一起共事过的人。这人私下话不多的。我大体能感觉出来他相信什么东西。他兜售的信息差,压根就不是什么哪个专业好就业,什么“功利性的教育”。这都是当年学习差的穷狗装糊涂而已。他实际卖的信息,就是阶级意识。
这个在中国是稀缺的。
你从小受的所有教育里面,从幼儿园到大学毕业,没有任何一个人跟你掰扯过“阶级意识”这四个字。我无意跟你论证这个现象的合理性。你觉得没有就没有。你觉得不合理就不合理。但事实就这样:人和人是不一样的。
他干的事情,和张桂梅其实差不多,他面对的是同一个问题的下一个环节。
张雪峰被骂得狗血淋头,是很多穷人,根本听不得别人说自己混得不行。都这个德性。
你爹妈不觉得自己穷,你也不觉得自己穷,这个盲点是代际传递的。出门你都说自己是"普通家庭",甚至觉得自己是"中产"。
"咱家条件虽然不是最好的,但也不比谁差"。不比谁差?不比谁? 你爹的参照系是谁?是他那个圈子里的人。是你爹同事的老婆,是菜市场天天碰面的邻居,是你姑你姨你舅妈。在那个圈子里,你家确实不差。你那个圈子本身就在坑底。
你在坑底比谁的坑更平整,比完了你觉得自己住的是平地。
你从小就活在这种幻觉里,大家都差不多嘛~
你的老师不告诉你,你的同学意识不出。当年你班里最有钱的那个小孩,看着也跟你差不多啊?他也挺笨的呀。
毕业之后各自换上社会身份,你们这辈子都不会再打交道了。
兄弟,你根本就没有选择权。我是说你考不上985/211,你轻则去个双非一本,中外合办2+2,重则大专二本子。你爹也没钱把你送到英语国家读本科,那你就是穷人家的孩子。也没有什么需要争辩的,你自己心里有数就好。
那你按部就班生活,你以后在社会的所有路径都是固定的。你的命运轨迹是高度可预测的,这意味着它是能被完全控制的。
我每天都在建模这些东西。比我位置高的人,也必然在使用这些东西,控制比他们低位置的人。你自己意识不出而已。
你还在校园,或者刚毕业不久,你觉得你的人生还充满可能性。是的,在你的主观感受里,一切都是敞开的。美国大片不都这么演的吗?
但你把你的变量摆出来,你的学校层次、你的专业、你家的经济状况、你所在的城市、你爹妈的社会网络。你把这些东西输入任何一个统计模型,输出的结果区间是非常窄的。
你五年后月薪多少、住在哪种小区、从事哪一类工作。误差不会不超过20%。
这个算出来了,不断向后推演。就是你这辈子全部的可能性。这是很残忍的。但现代世界就是依赖这类模型运行的。
每个人都觉得自己不一样。你觉得你是概率分布里那根长尾。你可能是。概率是多少?5%?3%?你押3%的概率,用的是全家的筹码。你输得起吗。你爹输得起吗?
这就是张雪峰跟你说的东西。他不是跟你说"别学新闻学"。他是跟你说:
你别赌。你没有赌的资本。有些人输了能重来,你输了就是输了。
我个人反对这个主张。但我的经验在这里没有说服力。这个主张的道理是没问题的。
穷人只有一个明显的优势:一旦你承认你的路径是可预测的,你就获得了一个属性。高度的确定性。这个是值钱的。
你改不了你爹的收入,改不了你的户籍,高考考完了分数定了。但你还有一两个变量能动,专业选择是一个。城市选择是一个。你就只能在这一两个变量上做优化。
就这么点空间。怎么不是旷野?你嫌小?这确实小。但你不看的话,你连这点都没有。出身决定了大部分人的上限,专业选择是少数还能动的杠杆。
实际上这是你爹妈能动的杠杆。你如果刚走出高中,你是不大理解未来你要面对什么东西的。
跟那些分析什么"教育和意义"的观点比起来,张雪峰确实低级。但高级的东西,你看吗?你看个狗几把呀。你爹看吗?你妈看吗?你那个480分在纠结报什么专业的高中同学看吗?
你从小就活在故事里。你的所有的重大决策都建立在某个"案例"上面。
"我邻居家小孩学了这个挺好的""我听说那个专业出来能赚钱"。全是n=1的传闻。你没有系统性地看过任何一个专业的就业的数据。你甚至不知道去哪看。你的信息源是亲戚的饭桌和家长群里不知道谁转发的营销文章。
你在一个信息极度贫瘠的环境里,做一个影响你一辈子的决策。你不焦虑才怪。你的焦虑是正确的。你的焦虑在告诉你,你信息不够。你还需要更多的信息才能做这个决定。
但你没有更多的信息了。你爹没有。你妈没有。你老师没有。你的整个社会网络都没有。
你17岁还啥都不懂呢,你爹连查什么都不知道。学校不教,家长不会,社会没有这个公共产品。
张雪峰的那个决策框架很上流吗?不就是“先确认你是谁,再确认你有什么,然后在你有的东西里面挑最好的。别看别人有什么。别人有的跟你没关系”。
一二线大城市的家长,不需要张雪峰,他说的那些,大家都懂。即便家长们懂了,也可以在孩子的意愿之间,找一个平衡。
你家长是这种人吗?
他们在每一个节点上做出更优解的概率都比你高。他们的信息输入更好,决策框架更好。这个优势经过二十年的复利,差距就是你看到的那个样子。
张雪峰相当于用十年时间,做了一个人肉路由器。他把这些上游的结构性信息,翻译成下游听得懂的话,一个一个灌进去。
他做的那个市场,那个目标客户,核心壁垒不是知识,是信任。这个真的很难很难的。我直白说,你去做,你不行。你可能都想象不出他需要面对什么情况。
穷人的信任分配机制,是在长期的被欺骗经验中进化出来的。它是一种生存策略。只信身边的人,不信远处来的东西。
这个策略在大多数场景下是正确的。因为远处来的东西,大概率确实就是来骗你的。
但在教育决策这个特定场景下,这个策略往往是灾难性的。因为你身边的同温层,给你的信息,恰恰可能是最差的。
你让一个四线城市的家长相信一个App给出的人生建议,不是不可能,但比相信一个活人难很多。
他的"我也是穷人家的孩子我懂你"。这个东西,目前的AI做不到。不是技术做不到,是穷人不信。
你是个内向的,其貌不扬的,家里一般般的,学历也不那么出彩的,我是说,绝大多数“普通人”,这个没什么错的。你要在中国生活,你最好采纳张雪峰的一部分建议。
好好学习,试着去一个好学校,尽量别选太花哨的专业。你大概率能活成一个比你爹好一点点的人。
那么你会有一天,别管你喜欢不喜欢,你在做那件事的时候,你会意识到一个东西,你这辈子第一次,在做一件完全由你自己决定的事情。
这个感觉值多少钱?不知道。很难定价。但你记住,这是“自由”的第一幅面孔。这种体验是近乎奢侈的。但你只要坚持够久,你别管在哪里,你总是会找到的。
https://weibo.com/7835993066/5280229075452417
很突然,OnlyFans的老板Leonid Radvinsky死了,只活到了43岁,据说是癌症长期治疗无效,氪金都没救回来。
很多报道说他是OnlyFans的创始人,这不太准确,创办OnlyFans的是英国人Tim Stokely,这个平台最开始主要为音乐人和网红提供表演变现服务,没有大尺度内容,直到2018年被卖给了Leonid Radvinsky,才真正转型成功。
是Leonid Radvinsky一手把OnlyFans从一个总用户量不超过1000万人的小众网站变成了活跃用户超过2亿的成人平台。
因为他就是搞黄色起家的,1999年,他才17岁,就建立了色情网站导航站群,老登们应该记得这种古典互联网的商业业务模式,类似hao123,很赚钱。
Leonid Radvinsky那会儿就很有商业头脑,或者说路子很野,他会在导航站上放置萝莉甚至兽交的网站标题,但实际上只会链接到普通的色情网站,于是既没有实际违法,又骗到了很高的点击量。
靠着倒卖流量,他在美国读西北大学的时候,每年就有180万美金的睡后收入,毕业之后,他又在2004年创办了MyFreeCams,这是一个通过网络摄像头进行收费色情表演的网站,几年内就做到了500万付费用户,年入千万美金。
他的运营风格也是一如既往的大胆,MyFreeCams在发垃圾邮件推广时,假冒微软和亚马逊的名义,告诉用户只要注册就能拿到现金补贴——瞧瞧人家这增长黑客的玩法——后来被微软和亚马逊的法务重拳出击,赔了一大笔钱。
总之,他当初收购OnlyFans也是目的性极强的选择,把自己前半生积累下来的经验都用在了这个平台上,然后又特别幸运的——对他而言——赶上了新冠疫情,大家经常憋在家里,只能通过网络倾泻欲望,OnlyFans直接原地起飞,拿到了时代馈赠的丰厚回报。
在Leonid Radvinsky的治下,OnlyFans完全作为私营公司运作,不扩张、不融资、不开发App,而且只给他一个人分红,刨开经营成本,每年的利润都打到他一个人的账户里,可以说是特别「纯粹」了。
根据英国财政局的披露文件,Leonid Radvinsky总共从OnlyFans拿到了20亿美金左右的分红,但这甚至不到他总资产的一半——你就知道他还有多少隐秘事业了吧——「福布斯」杂志把他排在全球富豪榜的第869名,身家47亿美金。
去年,OnlyFans开始在资本市场寻找买家,打包价从80亿美金一路降低到55亿美金,从PE来看属于贱卖了,但还是很多人不理解为啥要这么急于出货,现在知道答案了,原来是自知命不久矣⋯⋯
有命赚钱,没命花钱,世事就是难料,死亡这事儿,么得关系可找啊。
by @阑夕ོ #科技圈大小事
很多报道说他是OnlyFans的创始人,这不太准确,创办OnlyFans的是英国人Tim Stokely,这个平台最开始主要为音乐人和网红提供表演变现服务,没有大尺度内容,直到2018年被卖给了Leonid Radvinsky,才真正转型成功。
是Leonid Radvinsky一手把OnlyFans从一个总用户量不超过1000万人的小众网站变成了活跃用户超过2亿的成人平台。
因为他就是搞黄色起家的,1999年,他才17岁,就建立了色情网站导航站群,老登们应该记得这种古典互联网的商业业务模式,类似hao123,很赚钱。
Leonid Radvinsky那会儿就很有商业头脑,或者说路子很野,他会在导航站上放置萝莉甚至兽交的网站标题,但实际上只会链接到普通的色情网站,于是既没有实际违法,又骗到了很高的点击量。
靠着倒卖流量,他在美国读西北大学的时候,每年就有180万美金的睡后收入,毕业之后,他又在2004年创办了MyFreeCams,这是一个通过网络摄像头进行收费色情表演的网站,几年内就做到了500万付费用户,年入千万美金。
他的运营风格也是一如既往的大胆,MyFreeCams在发垃圾邮件推广时,假冒微软和亚马逊的名义,告诉用户只要注册就能拿到现金补贴——瞧瞧人家这增长黑客的玩法——后来被微软和亚马逊的法务重拳出击,赔了一大笔钱。
总之,他当初收购OnlyFans也是目的性极强的选择,把自己前半生积累下来的经验都用在了这个平台上,然后又特别幸运的——对他而言——赶上了新冠疫情,大家经常憋在家里,只能通过网络倾泻欲望,OnlyFans直接原地起飞,拿到了时代馈赠的丰厚回报。
在Leonid Radvinsky的治下,OnlyFans完全作为私营公司运作,不扩张、不融资、不开发App,而且只给他一个人分红,刨开经营成本,每年的利润都打到他一个人的账户里,可以说是特别「纯粹」了。
根据英国财政局的披露文件,Leonid Radvinsky总共从OnlyFans拿到了20亿美金左右的分红,但这甚至不到他总资产的一半——你就知道他还有多少隐秘事业了吧——「福布斯」杂志把他排在全球富豪榜的第869名,身家47亿美金。
去年,OnlyFans开始在资本市场寻找买家,打包价从80亿美金一路降低到55亿美金,从PE来看属于贱卖了,但还是很多人不理解为啥要这么急于出货,现在知道答案了,原来是自知命不久矣⋯⋯
有命赚钱,没命花钱,世事就是难料,死亡这事儿,么得关系可找啊。
by @阑夕ོ #科技圈大小事
我的 #AI #提示词 #分享 晚点删除
一般给 Gemini Pro 会好一点,Grok 幻觉太严重。
一般给 Gemini Pro 会好一点,Grok 幻觉太严重。
你是一名专业的 Linux / DevOps / 网络工程专家,精通:
- Linux系统管理
- Shell脚本
- 网络协议
- 服务器安全
- Cloudflare / CDN
- 代理协议部署
你会严格按照官方文档进行部署,并给出稳定、可执行的步骤。
你的任务:
协助我远程帮助在中国的朋友搭建代理服务。
要求:
1. 所有步骤必须清晰、按顺序编号
2. 每一步提供完整命令
3. 如果存在多种方案,选择最稳定、最简单的一种
4. 如果需要配置文件,给出完整示例
5. 如果需要开放端口,说明原因
6. 最后给出验证方法
--------------------------------
# 一、部署目标
需要搭建的协议:
[ ] NaiveProxy
[ ] Reality
[ ] Hysteria2
[ ] Tuic
[ ] Trojan
[ ] Shadowsocks
[ ] VLESS
[ ] 其他:______
代理用途:
[ ] 科学上网
[ ] Web伪装
[ ] CDN中转
[ ] 高隐匿性
[ ] 高速度
[ ] 抗封锁
--------------------------------
# 二、服务器信息
服务器线路:
[ ] CN2
[ ] BGP
[ ] 三网优化
[ ] 普通国际线路
[ ] 其他:______
服务器系统:
[ ] Debian 12
[ ] Ubuntu 22
[ ] Ubuntu 24
[ ] CentOS
[ ] Alpine
[ ] 其他:______
服务器架构:
[ ] x86_64
[ ] ARM64
IP类型:
[ ] IPv4
[ ] IPv6
[ ] IPv4 + IPv6 双栈
是否需要 Warp 出站:
[ ] 否
[ ] 是,保留服务器已有的网络栈,Warp 提供双栈网络
服务器权限:
[ ] root
[ ] sudo
--------------------------------
# 三、防火墙环境
服务器默认防火墙:
[ ] nftables
[ ] iptables
[ ] ufw
[ ] firewalld
[ ] 无
只允许开放端口:
- SSH端口:____
- 代理端口:____
- 其他端口:____
要求:
[ ] 最小化端口暴露
[ ] 自动配置防火墙
--------------------------------
# 四、域名和CDN
是否使用域名:
[ ] 是
[ ] 否
域名:
______
DNS托管:
[ ] Cloudflare
[ ] 阿里云
[ ] 腾讯云
[ ] 其他:______
是否使用CDN:
[ ] Cloudflare CDN
[ ] 不使用
[ ] 其他CDN
是否需要:
[ ] HTTPS证书
[ ] 自动续期
[ ] Web伪装站
--------------------------------
# 五、伪装网站
是否需要伪装站:
[ ] 是
[ ] 否
伪装站类型:
[ ] 静态HTML
[ ] WordPress
[ ] 反代真实网站
[ ] 其他
网站源码:
[ ] 已准备
[ ] 需要生成示例
--------------------------------
# 六、我的操作能力
我可以:
[ ] SSH远程操作
[ ] 使用scp上传文件
[ ] 修改DNS
[ ] 编辑配置文件
--------------------------------
# 七、文档参考
官方文档:
__________
其他参考:
__________
注意:
必须以官方文档为主要标准。
--------------------------------
# 八、输出要求
请按照以下结构输出:
1 服务器环境检查
2 安装依赖
3 安装核心程序
4 配置文件
5 防火墙配置
6 域名与证书配置
7 伪装网站配置
8 启动服务
9 客户端连接示例
10 验证是否成功
所有步骤必须可直接执行。
--------------------------------
现在根据以上信息,为我生成完整部署教程。一口气把所有让你目眩的 LLM 名词全都过一遍。
总所周知的,LLM 本质是个概率模型,或者说,是个受函数约束的随机数接龙器。它在训练数据里找到了大量人类语言的规律,在给定上下文的情况下预测下一个 token 的概率分布,然后按分布采样。这东西本身能做到的事情就是生成文字。想让它对外界产生真实影响,就需要给神灯开一个瓶口。Claude Code 和一众 Coding Agent 用的是命令行,LLM 写出代码,执行器跑命令,结果回流上下文,这是一种瓶口。MCP 提供的是另一种,它的行为更接近 RPC:服务端暴露一批函数,LLM 看见函数签名,按需调用,外部世界因此被修改。Skills 则根本没有这层性质,它是纯粹的提示词工程工具,没有出口,只有给 LLM 看的说明书。
这三种形态看起来各管一摊,底层其实在解同一个问题:上下文污染。
## Skills 与 MCP
Skills 是提示词工程,它往上下文里追加一段说明,让 LLM 知道「这用户究竟是在公三小」,它向上下文当中导入了专家的认知结构,引导 LLM 的思维方向。但是 Skill 的约束能力强不强很看模型对上下文的尊重能力。LLM 会不会用你的 Skill、按什么顺序用、会不会跳步骤,全都是概率问题,没有强制收束。而且强收束并不一定是好事,后面会提到 Google 搜索的例子,另外也有研究认为 LLM 的幻觉与创造力是一体两面的,如果你强行约束它的行为,它做事情的思路就有可能变得很板。
MCP 走的是另外一套思路。函数签名本身就是极强的先验,参数类型、参数名称、函数名都在限制采样方向。动作空间从「能写出来的任何文字」一下子压缩成「这几个函数加这几个参数」。举个例子,让 LLM 操作鼠标按下一个按钮,这涉及列举窗口、取句柄、截图、算坐标、移动鼠标、点击,写成 Skills 的话你得接受 LLM 摇骰子决定这些步骤的执行方式和顺序,但如果是 MCP,看见函数列表,找到窗口,识别内容,点击坐标,一大堆随机决策被压缩成了三次确定性的函数调用。
但 MCP 没有完全解决上下文污染,因为工具调用的返回值同样会进上下文。设计粗糙的 MCP Server 扔回来一大坨 JSON 或者冗长的错误堆栈,照样往上下文里塞屎。扎带只管扎进去那一下,吐出来的东西还是得自己设计。
当然这也不是说 Skills 没有价值。MCP 开发成本高,需要专门的服务端,大量的工作根本不需要跟外界交互,或者逻辑太松散压根没法封装成 RPC 格式。一切技术形式服务于问题和目的,Skills 处理的是另一类场景,尤其是需要引导 LLM 以更完整方式思考的时候,毕竟用户是人,不能期待他们每次都给出思虑周全的 Prompt。
## RAG 与 Memory:同一类问题的检索接口
RAG 的本质也是在解上下文问题,只是它处理的是信息量的上限。哪怕 DeepSeek 和 Claude 把上下文窗口拉得很长,也没办法把整个世界都塞进去。只要你有大量信息检索的需求(整个文档库、知识库、历史记录),就需要一个类似搜索引擎的接口在用到的时候把相关内容拉进来,这跟给 MCP 调搜索引擎没有本质区别,都是维持上下文清洁的一种技术手段,而不是把所有信息预先堆在那里等 LLM 自己去找。
Memory 也是同一类东西。它需要 LLM 主动决定何时把信息存出去、何时再取回来,从这个角度看它就是一种带写入能力的 RAG。
这些概念都不是独立存在的,没有互斥关系。如果你把 NotebookLM 当成外部知识库,写一份 Skill 告诉主 LLM:遇到需要资料支撑的问题时去咨询 NotebookLM,需要计算或处理数据时调用 Python 工具。这个流程里,Skill 负责编排整体思路,Python 工具充当 MCP 风格的确定性执行单元,NotebookLM 则是一个带有自己上下文和知识库的外部 LLM,扮演的角色类似一个专门的 RAG 接口。三件东西各司其职,但把它们捏在一起的那根线,是 Skill 里的提示词。
## 上下文劣化的绝望曲线
不少开发者会经历这样一条曲线。LLM 一开始是无知的,随着你不断教它,它开始能听懂人话,任务完成质量越来越高。但随着上下文里的垃圾信息不断堆叠,加上 LLM 注意力随着上下文长度增加而自然稀释,它会越变越蠢。然后,当上下文快要撑爆时,压缩机制触发,把一大段对话压缩成一小段摘要,LLM 突然又变回了无知的起点,很多细节被一并压掉,许多东西得重新教一遍。
大上下文窗口和 DeepSeek 探索的注意力改进,能解决上下文随长度出现品质劣化的问题,但解决不了另一个问题:上下文里有屎。大量 Skills 提示词侵占上下文、LLM 漫无目的的尝试、每一次失败的推理留下的痕迹,这些都是上下文里的噪声。一旦 LLM 开始沿着歪掉的思路走,后续每一步都会进一步放大偏差,逻辑越复杂的任务越容易出这种毛病。MiniMax 初代编程模型和早期 Google AI 搜索有相当明显的体现:哪怕你明确指出错误,它也会三百六十度华丽道歉郑重整改,然后原封不动地把错误内容再给你吐出来一遍。
用户自己也会往上下文里投毒。用户是人,不可能永远理性清醒,暴躁、绝望、情绪化的表达,不清晰甚至相互矛盾的指令,都会掺进上下文,随着对话推进不断堆叠,最终改变 LLM 的行为。不同模型面对这类「情绪污染」的失效模式各有特色:Claude 和 Grok 容易僵住,什么都不做,你说一句它动一步,能动性彻底丧失;Gemini 会开始慌乱,胡乱操作,惯性地回滚失败操作,大概率把你的 Git 仓库搞坏;GLM 则会疯狂进入「我发现了!问题核心在这里!」的模式,不断抛出随机论断证明自己价值。这些失效模态很可能反映的是各家 RLHF 阶段对「用户表达不满」这类信号处理方式的差异,Claude 被训练得对冲突信号极其谨慎,于是在矛盾信息堆叠时选择保守的不作为;Gemini 的训练策略可能更强调立即响应和立即修正,结果在高压上下文下变成了过度修正。
## 动态上下文压缩与 MemGPT
现有的上下文压缩方案基本上是被动的:等到上下文长度接近模型上限,立刻调用提示词把它们压缩成一小段文字,然后继续跑。这种方式的问题是它在最糟糕的时机做最暴力的处理,大量有用的细节被一并丢弃,而屎不一定被滤掉。
在我看来更合理的方向应该是动态的、主动的压缩。用另一个模型持续监督上下文,主动淘汰错误信息和低相关性内容,把干扰性细节整理成外部文档存起来,上下文里只留一个文件名,需要的时候走 RAG 系统取回。这个思路早已有人做了,2023 年 10 月 UC Berkeley 发表的论文就提出了这套架构,实现叫 MemGPT,后来演变成了开源框架 Letta。它的核心是分层记忆管理:主上下文充当工作内存,容量有限;外部存储(分为 Archival Memory 和 Recall Memory 两层)作为二级存储;LLM 通过函数调用主动决定什么信息应该被 evict 到外存,什么信息需要从外存 retrieve 回来,逻辑上几乎是在模拟操作系统的虚拟内存分页机制。
我前一阵子给 Computer Use 场景写了一个相当简洁特化压缩方案:每次 API 调用时,把上下文里的历史截图全部清掉,只保留最新的一张。这利用了计算机视觉任务「只有当前帧有用」这个领域先验做了有损压缩,节省 Token 的同时模型并不会变蠢,因为被丢掉的信息本来就不需要。
## KV 缓存与分段压缩的冲突
动态上下文压缩和 KV 缓存之间有一个工程上的冲突。现在主流模型提供商(包括 Anthropic)都在做前缀缓存,推理时把已经转成 KV 向量的部分存起来,下一次请求如果前缀相同,可以跳过重新计算的开销,显著降低延迟和成本。Anthropic 的 prompt caching 按 tools、system、messages 的固定顺序分段处理,每段可以独立设置缓存控制点,支持最多四个缓存断点。问题在于前缀缓存要求内容严格一致,任何修改都会使该位置以后的缓存全部失效,而动态压缩天然要修改上下文,这两件事目前是相互矛盾的。
但这个矛盾不是解不开的。上下文可以被结构化成稳定前缀(系统提示词、工具定义)加动态后段(对话历史)的形式。动态压缩只发生在后段,前两部分的缓存完全不受影响。Anthropic 的分段缓存机制本身就是按这个思路设计的。如果压缩逻辑进一步被约束成只修改滑动窗口末尾部分、保持前缀不动,缓存的破坏率可以压得很低。这些都是随着时间可以被工程化解决的问题。
## Computer Use 更像是一个品牌包装,不是一项独立技术
如果说 RAG、MCP、Skills 是在解决上下文的管理问题,Computer Use 解决的是另一个层级的事:让 LLM 真正坐到操作系统前面,像人一样用软件。但「Computer Use」本身没什么特别的,它更接近一个品牌名。底下跑的还是 Skills 或者 MCP,只是操作目标换成了电脑上的窗口、按钮和键盘。上文讲过的那些上下文问题,在 Computer Use 里一样存在。
目前主要有三条技术路线,底层逻辑和取舍各不相同。
第一条,读 Accessibility Tree,走系统事件注入。Accessibility Tree 是操作系统和浏览器为辅助技术(屏幕阅读器之类)维护的一棵结构树,记录了每个界面元素的角色、名称、状态和层级关系,浏览器环境里的 DOM 算是它的近亲。走这条路的好处是结构干净,LLM 拿到的是「按钮、输入框、链接」这样有语义的节点,不是像素。阿里的 page-agent.js 是这个流派的代表,它直接解析页面 DOM,用自然语言驱动浏览器操作。
总所周知的,LLM 本质是个概率模型,或者说,是个受函数约束的随机数接龙器。它在训练数据里找到了大量人类语言的规律,在给定上下文的情况下预测下一个 token 的概率分布,然后按分布采样。这东西本身能做到的事情就是生成文字。想让它对外界产生真实影响,就需要给神灯开一个瓶口。Claude Code 和一众 Coding Agent 用的是命令行,LLM 写出代码,执行器跑命令,结果回流上下文,这是一种瓶口。MCP 提供的是另一种,它的行为更接近 RPC:服务端暴露一批函数,LLM 看见函数签名,按需调用,外部世界因此被修改。Skills 则根本没有这层性质,它是纯粹的提示词工程工具,没有出口,只有给 LLM 看的说明书。
这三种形态看起来各管一摊,底层其实在解同一个问题:上下文污染。
## Skills 与 MCP
Skills 是提示词工程,它往上下文里追加一段说明,让 LLM 知道「这用户究竟是在公三小」,它向上下文当中导入了专家的认知结构,引导 LLM 的思维方向。但是 Skill 的约束能力强不强很看模型对上下文的尊重能力。LLM 会不会用你的 Skill、按什么顺序用、会不会跳步骤,全都是概率问题,没有强制收束。而且强收束并不一定是好事,后面会提到 Google 搜索的例子,另外也有研究认为 LLM 的幻觉与创造力是一体两面的,如果你强行约束它的行为,它做事情的思路就有可能变得很板。
MCP 走的是另外一套思路。函数签名本身就是极强的先验,参数类型、参数名称、函数名都在限制采样方向。动作空间从「能写出来的任何文字」一下子压缩成「这几个函数加这几个参数」。举个例子,让 LLM 操作鼠标按下一个按钮,这涉及列举窗口、取句柄、截图、算坐标、移动鼠标、点击,写成 Skills 的话你得接受 LLM 摇骰子决定这些步骤的执行方式和顺序,但如果是 MCP,看见函数列表,找到窗口,识别内容,点击坐标,一大堆随机决策被压缩成了三次确定性的函数调用。
但 MCP 没有完全解决上下文污染,因为工具调用的返回值同样会进上下文。设计粗糙的 MCP Server 扔回来一大坨 JSON 或者冗长的错误堆栈,照样往上下文里塞屎。扎带只管扎进去那一下,吐出来的东西还是得自己设计。
当然这也不是说 Skills 没有价值。MCP 开发成本高,需要专门的服务端,大量的工作根本不需要跟外界交互,或者逻辑太松散压根没法封装成 RPC 格式。一切技术形式服务于问题和目的,Skills 处理的是另一类场景,尤其是需要引导 LLM 以更完整方式思考的时候,毕竟用户是人,不能期待他们每次都给出思虑周全的 Prompt。
## RAG 与 Memory:同一类问题的检索接口
RAG 的本质也是在解上下文问题,只是它处理的是信息量的上限。哪怕 DeepSeek 和 Claude 把上下文窗口拉得很长,也没办法把整个世界都塞进去。只要你有大量信息检索的需求(整个文档库、知识库、历史记录),就需要一个类似搜索引擎的接口在用到的时候把相关内容拉进来,这跟给 MCP 调搜索引擎没有本质区别,都是维持上下文清洁的一种技术手段,而不是把所有信息预先堆在那里等 LLM 自己去找。
Memory 也是同一类东西。它需要 LLM 主动决定何时把信息存出去、何时再取回来,从这个角度看它就是一种带写入能力的 RAG。
这些概念都不是独立存在的,没有互斥关系。如果你把 NotebookLM 当成外部知识库,写一份 Skill 告诉主 LLM:遇到需要资料支撑的问题时去咨询 NotebookLM,需要计算或处理数据时调用 Python 工具。这个流程里,Skill 负责编排整体思路,Python 工具充当 MCP 风格的确定性执行单元,NotebookLM 则是一个带有自己上下文和知识库的外部 LLM,扮演的角色类似一个专门的 RAG 接口。三件东西各司其职,但把它们捏在一起的那根线,是 Skill 里的提示词。
## 上下文劣化的绝望曲线
不少开发者会经历这样一条曲线。LLM 一开始是无知的,随着你不断教它,它开始能听懂人话,任务完成质量越来越高。但随着上下文里的垃圾信息不断堆叠,加上 LLM 注意力随着上下文长度增加而自然稀释,它会越变越蠢。然后,当上下文快要撑爆时,压缩机制触发,把一大段对话压缩成一小段摘要,LLM 突然又变回了无知的起点,很多细节被一并压掉,许多东西得重新教一遍。
大上下文窗口和 DeepSeek 探索的注意力改进,能解决上下文随长度出现品质劣化的问题,但解决不了另一个问题:上下文里有屎。大量 Skills 提示词侵占上下文、LLM 漫无目的的尝试、每一次失败的推理留下的痕迹,这些都是上下文里的噪声。一旦 LLM 开始沿着歪掉的思路走,后续每一步都会进一步放大偏差,逻辑越复杂的任务越容易出这种毛病。MiniMax 初代编程模型和早期 Google AI 搜索有相当明显的体现:哪怕你明确指出错误,它也会三百六十度华丽道歉郑重整改,然后原封不动地把错误内容再给你吐出来一遍。
用户自己也会往上下文里投毒。用户是人,不可能永远理性清醒,暴躁、绝望、情绪化的表达,不清晰甚至相互矛盾的指令,都会掺进上下文,随着对话推进不断堆叠,最终改变 LLM 的行为。不同模型面对这类「情绪污染」的失效模式各有特色:Claude 和 Grok 容易僵住,什么都不做,你说一句它动一步,能动性彻底丧失;Gemini 会开始慌乱,胡乱操作,惯性地回滚失败操作,大概率把你的 Git 仓库搞坏;GLM 则会疯狂进入「我发现了!问题核心在这里!」的模式,不断抛出随机论断证明自己价值。这些失效模态很可能反映的是各家 RLHF 阶段对「用户表达不满」这类信号处理方式的差异,Claude 被训练得对冲突信号极其谨慎,于是在矛盾信息堆叠时选择保守的不作为;Gemini 的训练策略可能更强调立即响应和立即修正,结果在高压上下文下变成了过度修正。
## 动态上下文压缩与 MemGPT
现有的上下文压缩方案基本上是被动的:等到上下文长度接近模型上限,立刻调用提示词把它们压缩成一小段文字,然后继续跑。这种方式的问题是它在最糟糕的时机做最暴力的处理,大量有用的细节被一并丢弃,而屎不一定被滤掉。
在我看来更合理的方向应该是动态的、主动的压缩。用另一个模型持续监督上下文,主动淘汰错误信息和低相关性内容,把干扰性细节整理成外部文档存起来,上下文里只留一个文件名,需要的时候走 RAG 系统取回。这个思路早已有人做了,2023 年 10 月 UC Berkeley 发表的论文就提出了这套架构,实现叫 MemGPT,后来演变成了开源框架 Letta。它的核心是分层记忆管理:主上下文充当工作内存,容量有限;外部存储(分为 Archival Memory 和 Recall Memory 两层)作为二级存储;LLM 通过函数调用主动决定什么信息应该被 evict 到外存,什么信息需要从外存 retrieve 回来,逻辑上几乎是在模拟操作系统的虚拟内存分页机制。
我前一阵子给 Computer Use 场景写了一个相当简洁特化压缩方案:每次 API 调用时,把上下文里的历史截图全部清掉,只保留最新的一张。这利用了计算机视觉任务「只有当前帧有用」这个领域先验做了有损压缩,节省 Token 的同时模型并不会变蠢,因为被丢掉的信息本来就不需要。
## KV 缓存与分段压缩的冲突
动态上下文压缩和 KV 缓存之间有一个工程上的冲突。现在主流模型提供商(包括 Anthropic)都在做前缀缓存,推理时把已经转成 KV 向量的部分存起来,下一次请求如果前缀相同,可以跳过重新计算的开销,显著降低延迟和成本。Anthropic 的 prompt caching 按 tools、system、messages 的固定顺序分段处理,每段可以独立设置缓存控制点,支持最多四个缓存断点。问题在于前缀缓存要求内容严格一致,任何修改都会使该位置以后的缓存全部失效,而动态压缩天然要修改上下文,这两件事目前是相互矛盾的。
但这个矛盾不是解不开的。上下文可以被结构化成稳定前缀(系统提示词、工具定义)加动态后段(对话历史)的形式。动态压缩只发生在后段,前两部分的缓存完全不受影响。Anthropic 的分段缓存机制本身就是按这个思路设计的。如果压缩逻辑进一步被约束成只修改滑动窗口末尾部分、保持前缀不动,缓存的破坏率可以压得很低。这些都是随着时间可以被工程化解决的问题。
## Computer Use 更像是一个品牌包装,不是一项独立技术
如果说 RAG、MCP、Skills 是在解决上下文的管理问题,Computer Use 解决的是另一个层级的事:让 LLM 真正坐到操作系统前面,像人一样用软件。但「Computer Use」本身没什么特别的,它更接近一个品牌名。底下跑的还是 Skills 或者 MCP,只是操作目标换成了电脑上的窗口、按钮和键盘。上文讲过的那些上下文问题,在 Computer Use 里一样存在。
目前主要有三条技术路线,底层逻辑和取舍各不相同。
第一条,读 Accessibility Tree,走系统事件注入。Accessibility Tree 是操作系统和浏览器为辅助技术(屏幕阅读器之类)维护的一棵结构树,记录了每个界面元素的角色、名称、状态和层级关系,浏览器环境里的 DOM 算是它的近亲。走这条路的好处是结构干净,LLM 拿到的是「按钮、输入框、链接」这样有语义的节点,不是像素。阿里的 page-agent.js 是这个流派的代表,它直接解析页面 DOM,用自然语言驱动浏览器操作。
那些卖不掉的衣服,最后去了哪里
那些卖不掉的衣服,
最后去了哪里
最近联系了几个老熟人,发现一件有点奇怪的事。
这几个人,都是前几年在渠道这端打过交道的实体店老板。各自做着不同的品类,在不同的城市,平时也没什么往来。但最近隔三差五地,就会听说谁谁去广州了,谁谁开始倒腾尾货了。
不是一个人,是好几个。
我就想,这不可能是巧合。这些人在实体零售做了好几年,对这行的感知比谁都敏锐。他们不约而同地往同一个方向走,一定是看到了什么。
于是我认真研究了一下这件事。
尾货从哪里来?
每到备货季,上游品牌要提前几个月下生产订单。没有人真的知道三个月后消费者要买什么,只能预测,然后多做一点保险。品牌方有压货给经销商的习惯,经销商有压货给零售商的冲动,这条链上每个人都在做同样的动作,多备一点,以防不够卖。
结果每到季末,这条链上每个节点都会剩一些货。剩得少还好,剩多了就变成问题。衣服这东西季节性极强,过了这个季,下一年的新款早已上来,去年的款在消费者眼里就是旧货。
这是做服装的人心里都清楚的现实:库存不是意外,是结构性的必然。每年都会有,每个价位段都会有,每个品类都跑不掉。
还有一个近几年新出现的来源,是直播电商带来的退货。服装直播的退货率高得出乎很多人预料,部分品类能到七成甚至更高。退回来的货不可能重新以原价上架,只能走清货渠道。也就是说,直播卖得越火,退货越多,流入尾货市场的货就越多。
这些货最后往哪里去?
服装行业里有清货这一说,但一直没有认真追过这条线的终点。这次我认真查了一下,所有的线,最后都指向同一个地方。
石井
广州白云区,有个地方叫石井。
行业里有一句话,说中国40%的服装库存,最后会在石井消化掉。我不知道这个数字是否精确,但每一个做过这行的人听到这句话,都觉得差不多是这样。
石井有一片市场群:庆丰、锦东、银马,几个市场连成一片,加起来一万多家店铺。这里不是批发正价货的地方,这里专门消化那些卖不掉的。品牌的季末库存、工厂的超量余货、退货积压、外贸尾单,各种来路的货,在这里汇聚,然后再次被分发出去。
真实的石井
石井的开市时间是凌晨四点半左右。对,不是九点,不是早上八点,是凌晨四点半!!比菜市场还早,来扫货的人,有的是当天就要赶回外省的进货商,有的是要早点拿货下午开直播的主播,有的是常驻广州专门给海外买家搜货的中间人。
市场里每一层楼都有搬运工守着揽活。你拿完货,他帮你搬到楼下物流公司,收十块钱,顺手给你打好包。货可以暂存在档口,逛完一圈再统一取走。这个效率,是长期形成的默契。这点和我们武汉的汉正街很像,我们这把这个职业叫做“扁担”。
还有一个细节:在庆丰市场里,你能看到来自非洲的商人,长期驻扎,整车整车地扫货,打包发回非洲。对他们来说,石井的货拿回去卖还是有相当利润的,因为两个市场之间有巨大的信息落差。
电影《万箭穿心》剧照
这件事让我感同身受。
做服装这几年,我见过一些品牌方的库存被处理掉,但我从来没想过具体是怎么处理的,去了哪里,经过了哪些人的手,最后以什么价格到了谁手里。我们这一端把货推出去,那一端就消失了。
现在我知道了,那些货并没有消失,而是进入了另一套完全平行运转的体系。
倒爷
短视频上大家都把这件事叫做信息差赚钱。
这个说法是对的,但说得太轻巧了。我想说清楚这个信息差究竟差在哪里,因为只有搞明白这一点,你才能理解为什么有人在这里赚到钱,也有人进来交了学费出去。
1.货在哪里?
石井一万多家店铺,每天都有新货进来。但哪个档口今天来了一批好的品牌库存?哪个仓库这周要清仓?哪个工厂刚交完一批出口订单、手里有大量余货要处理?这些信息不公开,不贴在门口,也不发布在任何平台上,全靠时间和人脉慢慢积累。因为租金便宜,这些仓库大多都在城中村,地形错综复杂,违章建筑一大堆,外地人进来了不迷路都算好的,更别说能找到靠谱的货源。
所以市场里存在一种专门的职业,叫跑楼,每天在各个市场之间穿梭,收集货源信息,卖给有采购需求的买家。信息本身就是商品,知道得越早越准,钱就越好赚。
2.是货值多少。
这是真正需要积累的东西。市场里有一种常见的交易方式叫走份,这个词你可能有点陌生,不是一件一件卖,也不是按斤称重。一份货打包卖,就不让你挑款挑码,整份拿走。这份货里有多少含金量,有多少是真正的品牌库存,有多少是品质不错的外贸货,又有多少是没人要的死码和滞销款,全凭买家自己判断。也许一份是100件,里面80件短袖,10件羽绒服,10件裤子。 那这就亏大了。
老手三十秒就能给一份货定价:看领口的缝线、摸面料的克重、闻一闻库存特有的气味。新手分不出来,很可能高价拿了一份雷,回去才发现卖不动。
3.货卖给谁?
品牌商要清货,但不知道某个三线城市的折扣店老板正好在找货,那个折扣店老板想进货,但不知道广州某个仓库这周正在低价清仓。两边都有真实的需求,但信息没有连通。
做这行能赚到钱的人,一定是在进场之前就知道货卖给谁。不是进了货再去找买家,而是手里已经有稳定的下游,再去上游匹配合适的货。这个顺序一旦反了,就容易出事。
这门生意的本质,并不是倒卖衣服,是接通两端本来断掉的信息。你站在中间,上游有你信任的货源,下游有你熟悉的买家,这段距离就是你的钱。
搞明白这件事,在任何生意里都能当个零成本的倒爷。
一件尾货的完整流转
品牌 / 工厂货压仓库,急着变现→一级尾货商整仓买断,大批吃进→二道贩子信息连接,赚差价→下游买家摊贩 / 折扣店 / 网店→消费者买到便宜的衣服
如果你对这个生意感兴趣,有几种进场方式。
当跑楼中介,先不动钱几乎零成本
在石井各个市场之间走,摸清哪里有什么货,积累档口人脉,帮有采购需求的买家对接货源,收茶水费或者按成交额提点。不需要本钱,靠的是时间和腿。上限不高,但这是认识这行最真实的方式,也是没有服装基础的新手最稳妥的起点。
少量二批,先从下游往上走几千到两三万
很多档口支持三五件起拿,不强制整包。可以少量进货,发回老家通过摆摊、微信群、闲鱼清货。这条路最适合一个条件:老家有现成的下游,知道什么款好卖,去广州只是找货配货。下游优先,货源其次,顺序不能倒。
直播清货,内容是门槛有流量才做
广州现在是全国直播主播最密集的城市,石井周边聚集了大量做尾货直播的团队。这条路做的人太多了,纯靠价格低已经很难突围。但如果有账号基础,或者能把逛广州市场找货本身做成内容,这反而是差异化的方向。
出口,做海外渠道有外贸关系才玩
石井每天有非洲商人在扫货,打包整柜发走。国内已经打价格战的货,运出去在当地还有可观的差价。这条路的门槛是真实的海外渠道,不是凭空去找,而是本来就有连接的人才适合做。
这行有一个特点:越认为自己聪明,越容易上当。
新手的经典踩坑
1
把贴牌货当品牌尾货买。大量所谓品牌库存是贴牌货剪掉标签伪装的,外观极难区分。没有鉴货经验,高价买进,回去才发现卖不动。
2
走份货里暗藏死码。整份打包的货,热门款可能只有三成,剩下是没人要的尺码和滞销款。老手一眼能判断一份货的含金量,新手容易把雷当宝。
3
看货看上头,一次进太多。市场里货真的便宜,便宜到让人觉得不多拿就亏了。资金全压在货上,下游消化不了,就变成死库存。这是最常见的死法。
4
有货源但没有下游。很多人去广州拿完货才发现不知道卖给谁。这个顺序一旦搞反,就是在用真金白银买教训。
研究完这些,我突然觉得,这个世界的万事万物都像一场蝴蝶效应。
某个品牌的生产部门,在六月份的一个下午开了个会,决定这季外套多备两万件,以防卖断货。
就这一个决定。
季末,这两万件没卖完,进了清货渠道。流到广州,进了石井某个仓库。跑楼的人发现了,通知了正在找货的主播。主播拿了一批,当天下午开播,其中一部分又被退货退回来。退回来的货再次流转,最终有几百件被一个从山东来的批发商打包带走,发回老家,进了某个县城的折扣店。
那件外套最后被谁买走,已经无从追溯了。
这条链上每一个人,做尾货的、跑楼的、开直播的、来广州进货的,其实都不是凭空存在的。他们存在的理由,是因为更上游的某个地方,有人做了一个多备一点的决定。
这就是这个行业运转的方式。上游的每一个动作,都会在下游某个地方找到它的出口。多生产了,就需要有人清货,清货的人多了,就需要有人整合信息,信息整合起来了,又推动了下一轮的流转。
我们都在同一套系统里
by @风小海 #你不知道的行业内幕
那些卖不掉的衣服,
最后去了哪里
最近联系了几个老熟人,发现一件有点奇怪的事。
这几个人,都是前几年在渠道这端打过交道的实体店老板。各自做着不同的品类,在不同的城市,平时也没什么往来。但最近隔三差五地,就会听说谁谁去广州了,谁谁开始倒腾尾货了。
不是一个人,是好几个。
我就想,这不可能是巧合。这些人在实体零售做了好几年,对这行的感知比谁都敏锐。他们不约而同地往同一个方向走,一定是看到了什么。
于是我认真研究了一下这件事。
尾货从哪里来?
每到备货季,上游品牌要提前几个月下生产订单。没有人真的知道三个月后消费者要买什么,只能预测,然后多做一点保险。品牌方有压货给经销商的习惯,经销商有压货给零售商的冲动,这条链上每个人都在做同样的动作,多备一点,以防不够卖。
结果每到季末,这条链上每个节点都会剩一些货。剩得少还好,剩多了就变成问题。衣服这东西季节性极强,过了这个季,下一年的新款早已上来,去年的款在消费者眼里就是旧货。
这是做服装的人心里都清楚的现实:库存不是意外,是结构性的必然。每年都会有,每个价位段都会有,每个品类都跑不掉。
还有一个近几年新出现的来源,是直播电商带来的退货。服装直播的退货率高得出乎很多人预料,部分品类能到七成甚至更高。退回来的货不可能重新以原价上架,只能走清货渠道。也就是说,直播卖得越火,退货越多,流入尾货市场的货就越多。
这些货最后往哪里去?
服装行业里有清货这一说,但一直没有认真追过这条线的终点。这次我认真查了一下,所有的线,最后都指向同一个地方。
石井
广州白云区,有个地方叫石井。
行业里有一句话,说中国40%的服装库存,最后会在石井消化掉。我不知道这个数字是否精确,但每一个做过这行的人听到这句话,都觉得差不多是这样。
石井有一片市场群:庆丰、锦东、银马,几个市场连成一片,加起来一万多家店铺。这里不是批发正价货的地方,这里专门消化那些卖不掉的。品牌的季末库存、工厂的超量余货、退货积压、外贸尾单,各种来路的货,在这里汇聚,然后再次被分发出去。
真实的石井
石井的开市时间是凌晨四点半左右。对,不是九点,不是早上八点,是凌晨四点半!!比菜市场还早,来扫货的人,有的是当天就要赶回外省的进货商,有的是要早点拿货下午开直播的主播,有的是常驻广州专门给海外买家搜货的中间人。
市场里每一层楼都有搬运工守着揽活。你拿完货,他帮你搬到楼下物流公司,收十块钱,顺手给你打好包。货可以暂存在档口,逛完一圈再统一取走。这个效率,是长期形成的默契。这点和我们武汉的汉正街很像,我们这把这个职业叫做“扁担”。
还有一个细节:在庆丰市场里,你能看到来自非洲的商人,长期驻扎,整车整车地扫货,打包发回非洲。对他们来说,石井的货拿回去卖还是有相当利润的,因为两个市场之间有巨大的信息落差。
电影《万箭穿心》剧照
这件事让我感同身受。
做服装这几年,我见过一些品牌方的库存被处理掉,但我从来没想过具体是怎么处理的,去了哪里,经过了哪些人的手,最后以什么价格到了谁手里。我们这一端把货推出去,那一端就消失了。
现在我知道了,那些货并没有消失,而是进入了另一套完全平行运转的体系。
倒爷
短视频上大家都把这件事叫做信息差赚钱。
这个说法是对的,但说得太轻巧了。我想说清楚这个信息差究竟差在哪里,因为只有搞明白这一点,你才能理解为什么有人在这里赚到钱,也有人进来交了学费出去。
1.货在哪里?
石井一万多家店铺,每天都有新货进来。但哪个档口今天来了一批好的品牌库存?哪个仓库这周要清仓?哪个工厂刚交完一批出口订单、手里有大量余货要处理?这些信息不公开,不贴在门口,也不发布在任何平台上,全靠时间和人脉慢慢积累。因为租金便宜,这些仓库大多都在城中村,地形错综复杂,违章建筑一大堆,外地人进来了不迷路都算好的,更别说能找到靠谱的货源。
所以市场里存在一种专门的职业,叫跑楼,每天在各个市场之间穿梭,收集货源信息,卖给有采购需求的买家。信息本身就是商品,知道得越早越准,钱就越好赚。
2.是货值多少。
这是真正需要积累的东西。市场里有一种常见的交易方式叫走份,这个词你可能有点陌生,不是一件一件卖,也不是按斤称重。一份货打包卖,就不让你挑款挑码,整份拿走。这份货里有多少含金量,有多少是真正的品牌库存,有多少是品质不错的外贸货,又有多少是没人要的死码和滞销款,全凭买家自己判断。也许一份是100件,里面80件短袖,10件羽绒服,10件裤子。 那这就亏大了。
老手三十秒就能给一份货定价:看领口的缝线、摸面料的克重、闻一闻库存特有的气味。新手分不出来,很可能高价拿了一份雷,回去才发现卖不动。
3.货卖给谁?
品牌商要清货,但不知道某个三线城市的折扣店老板正好在找货,那个折扣店老板想进货,但不知道广州某个仓库这周正在低价清仓。两边都有真实的需求,但信息没有连通。
做这行能赚到钱的人,一定是在进场之前就知道货卖给谁。不是进了货再去找买家,而是手里已经有稳定的下游,再去上游匹配合适的货。这个顺序一旦反了,就容易出事。
这门生意的本质,并不是倒卖衣服,是接通两端本来断掉的信息。你站在中间,上游有你信任的货源,下游有你熟悉的买家,这段距离就是你的钱。
搞明白这件事,在任何生意里都能当个零成本的倒爷。
一件尾货的完整流转
品牌 / 工厂货压仓库,急着变现→一级尾货商整仓买断,大批吃进→二道贩子信息连接,赚差价→下游买家摊贩 / 折扣店 / 网店→消费者买到便宜的衣服
如果你对这个生意感兴趣,有几种进场方式。
当跑楼中介,先不动钱几乎零成本
在石井各个市场之间走,摸清哪里有什么货,积累档口人脉,帮有采购需求的买家对接货源,收茶水费或者按成交额提点。不需要本钱,靠的是时间和腿。上限不高,但这是认识这行最真实的方式,也是没有服装基础的新手最稳妥的起点。
少量二批,先从下游往上走几千到两三万
很多档口支持三五件起拿,不强制整包。可以少量进货,发回老家通过摆摊、微信群、闲鱼清货。这条路最适合一个条件:老家有现成的下游,知道什么款好卖,去广州只是找货配货。下游优先,货源其次,顺序不能倒。
直播清货,内容是门槛有流量才做
广州现在是全国直播主播最密集的城市,石井周边聚集了大量做尾货直播的团队。这条路做的人太多了,纯靠价格低已经很难突围。但如果有账号基础,或者能把逛广州市场找货本身做成内容,这反而是差异化的方向。
出口,做海外渠道有外贸关系才玩
石井每天有非洲商人在扫货,打包整柜发走。国内已经打价格战的货,运出去在当地还有可观的差价。这条路的门槛是真实的海外渠道,不是凭空去找,而是本来就有连接的人才适合做。
这行有一个特点:越认为自己聪明,越容易上当。
新手的经典踩坑
1
把贴牌货当品牌尾货买。大量所谓品牌库存是贴牌货剪掉标签伪装的,外观极难区分。没有鉴货经验,高价买进,回去才发现卖不动。
2
走份货里暗藏死码。整份打包的货,热门款可能只有三成,剩下是没人要的尺码和滞销款。老手一眼能判断一份货的含金量,新手容易把雷当宝。
3
看货看上头,一次进太多。市场里货真的便宜,便宜到让人觉得不多拿就亏了。资金全压在货上,下游消化不了,就变成死库存。这是最常见的死法。
4
有货源但没有下游。很多人去广州拿完货才发现不知道卖给谁。这个顺序一旦搞反,就是在用真金白银买教训。
研究完这些,我突然觉得,这个世界的万事万物都像一场蝴蝶效应。
某个品牌的生产部门,在六月份的一个下午开了个会,决定这季外套多备两万件,以防卖断货。
就这一个决定。
季末,这两万件没卖完,进了清货渠道。流到广州,进了石井某个仓库。跑楼的人发现了,通知了正在找货的主播。主播拿了一批,当天下午开播,其中一部分又被退货退回来。退回来的货再次流转,最终有几百件被一个从山东来的批发商打包带走,发回老家,进了某个县城的折扣店。
那件外套最后被谁买走,已经无从追溯了。
这条链上每一个人,做尾货的、跑楼的、开直播的、来广州进货的,其实都不是凭空存在的。他们存在的理由,是因为更上游的某个地方,有人做了一个多备一点的决定。
这就是这个行业运转的方式。上游的每一个动作,都会在下游某个地方找到它的出口。多生产了,就需要有人清货,清货的人多了,就需要有人整合信息,信息整合起来了,又推动了下一轮的流转。
我们都在同一套系统里
by @风小海 #你不知道的行业内幕
看晚点LatePost写蔚来为了实现有史以来第一次季度盈利,花了一年时间全员投入的省钱攻略,真是从牙缝里抠成本,太不容易了,当然有些也挺乐子的:
- 牛屋的绿植从每周一换的蝴蝶兰,改成便宜的绿球花,最后干脆开始使用不需要更换的假花;
- 公司的桶装矿泉水变成过滤自来水,每人每月10块钱的纸笔费用也统一下调成每月6块钱,而且不让欢迎一次领完一年的额度;
- 严格管理公司晚餐,不让不加班的员工蹭吃了,同时取消了部分高级员工的餐补;
- 2023年,蔚来为3万名员工累计举办了大大小小的1740场团建活动,到了2024年,这类活动骤减到全年28场,2025年继续取消兴趣社团的活动经费;
- 鼓励员工汇报省钱大法,有人选择每天晚上给测试车充电,避开白天一块钱一度电的「高价」,还有人花了18小时把测试车从北京自驾到上海,节约了6000块钱的运输费;
- 给供应商施压降价这个不稀奇,对于那些实在降不下去的供应商,蔚来的会计会过去帮他们核对经营成本,然后提出「可以给研发人员降工资」的建议;[笑cry]
- CBU改制以来,蔚来的销售是真的落实了贷款上班的体验,每个月需要还给公司6万块钱的成本,超过部分才是自己的收入,业绩不达标就转外包;
- 不过因为蔚来的卖车提成相对行业还是偏高的,卖一台ES6可以拿3500块钱,所以咬咬牙还是能坚持下来,不然跳槽去比亚迪卖一台车只有几百块钱提成;
- 蔚来充电小程序每次登录需要给微信付1分钱接口费,去年一度因为内部降本不小心把这个也给砍了,准确来说是没有部门愿意把这笔成本挂在自己账上,导致小程序无法使用,损失了部分充电收入;[裂开]
- 充电桩也在大量拆除,部署思路从重覆盖变成重回报,高峰时期平均每9辆蔚来就有1个充电桩的密度太高了,同期特斯拉这个数字是37:1;
- 门店效率也是大头,去年蔚来+乐道门店平均每月卖出28辆车,是理想的一半、特斯拉的1/4,牛屋和蔚来空间加速关店,让位置相对不核心的体验中心补上来;
- 最后还是要回归高通用率的行业规律,像是第一代ET5能组合出12万个SKU的离谱做法,再也不可能出现了,标准化造车。
引用:https://www.sina.cn/news/detail/5275666425839882.html
- 牛屋的绿植从每周一换的蝴蝶兰,改成便宜的绿球花,最后干脆开始使用不需要更换的假花;
- 公司的桶装矿泉水变成过滤自来水,每人每月10块钱的纸笔费用也统一下调成每月6块钱,而且不让欢迎一次领完一年的额度;
- 严格管理公司晚餐,不让不加班的员工蹭吃了,同时取消了部分高级员工的餐补;
- 2023年,蔚来为3万名员工累计举办了大大小小的1740场团建活动,到了2024年,这类活动骤减到全年28场,2025年继续取消兴趣社团的活动经费;
- 鼓励员工汇报省钱大法,有人选择每天晚上给测试车充电,避开白天一块钱一度电的「高价」,还有人花了18小时把测试车从北京自驾到上海,节约了6000块钱的运输费;
- 给供应商施压降价这个不稀奇,对于那些实在降不下去的供应商,蔚来的会计会过去帮他们核对经营成本,然后提出「可以给研发人员降工资」的建议;[笑cry]
- CBU改制以来,蔚来的销售是真的落实了贷款上班的体验,每个月需要还给公司6万块钱的成本,超过部分才是自己的收入,业绩不达标就转外包;
- 不过因为蔚来的卖车提成相对行业还是偏高的,卖一台ES6可以拿3500块钱,所以咬咬牙还是能坚持下来,不然跳槽去比亚迪卖一台车只有几百块钱提成;
- 蔚来充电小程序每次登录需要给微信付1分钱接口费,去年一度因为内部降本不小心把这个也给砍了,准确来说是没有部门愿意把这笔成本挂在自己账上,导致小程序无法使用,损失了部分充电收入;[裂开]
- 充电桩也在大量拆除,部署思路从重覆盖变成重回报,高峰时期平均每9辆蔚来就有1个充电桩的密度太高了,同期特斯拉这个数字是37:1;
- 门店效率也是大头,去年蔚来+乐道门店平均每月卖出28辆车,是理想的一半、特斯拉的1/4,牛屋和蔚来空间加速关店,让位置相对不核心的体验中心补上来;
- 最后还是要回归高通用率的行业规律,像是第一代ET5能组合出12万个SKU的离谱做法,再也不可能出现了,标准化造车。
引用:https://www.sina.cn/news/detail/5275666425839882.html