想知道谁在裸泳吗?
很突然,OnlyFans的老板Leonid Radvinsky死了,只活到了43岁,据说是癌症长期治疗无效,氪金都没救回来。
很多报道说他是OnlyFans的创始人,这不太准确,创办OnlyFans的是英国人Tim Stokely,这个平台最开始主要为音乐人和网红提供表演变现服务,没有大尺度内容,直到2018年被卖给了Leonid Radvinsky,才真正转型成功。
是Leonid Radvinsky一手把OnlyFans从一个总用户量不超过1000万人的小众网站变成了活跃用户超过2亿的成人平台。
因为他就是搞黄色起家的,1999年,他才17岁,就建立了色情网站导航站群,老登们应该记得这种古典互联网的商业业务模式,类似hao123,很赚钱。
Leonid Radvinsky那会儿就很有商业头脑,或者说路子很野,他会在导航站上放置萝莉甚至兽交的网站标题,但实际上只会链接到普通的色情网站,于是既没有实际违法,又骗到了很高的点击量。
靠着倒卖流量,他在美国读西北大学的时候,每年就有180万美金的睡后收入,毕业之后,他又在2004年创办了MyFreeCams,这是一个通过网络摄像头进行收费色情表演的网站,几年内就做到了500万付费用户,年入千万美金。
他的运营风格也是一如既往的大胆,MyFreeCams在发垃圾邮件推广时,假冒微软和亚马逊的名义,告诉用户只要注册就能拿到现金补贴——瞧瞧人家这增长黑客的玩法——后来被微软和亚马逊的法务重拳出击,赔了一大笔钱。
总之,他当初收购OnlyFans也是目的性极强的选择,把自己前半生积累下来的经验都用在了这个平台上,然后又特别幸运的——对他而言——赶上了新冠疫情,大家经常憋在家里,只能通过网络倾泻欲望,OnlyFans直接原地起飞,拿到了时代馈赠的丰厚回报。
在Leonid Radvinsky的治下,OnlyFans完全作为私营公司运作,不扩张、不融资、不开发App,而且只给他一个人分红,刨开经营成本,每年的利润都打到他一个人的账户里,可以说是特别「纯粹」了。
根据英国财政局的披露文件,Leonid Radvinsky总共从OnlyFans拿到了20亿美金左右的分红,但这甚至不到他总资产的一半——你就知道他还有多少隐秘事业了吧——「福布斯」杂志把他排在全球富豪榜的第869名,身家47亿美金。
去年,OnlyFans开始在资本市场寻找买家,打包价从80亿美金一路降低到55亿美金,从PE来看属于贱卖了,但还是很多人不理解为啥要这么急于出货,现在知道答案了,原来是自知命不久矣⋯⋯
有命赚钱,没命花钱,世事就是难料,死亡这事儿,么得关系可找啊。
by @阑夕ོ #科技圈大小事
很多报道说他是OnlyFans的创始人,这不太准确,创办OnlyFans的是英国人Tim Stokely,这个平台最开始主要为音乐人和网红提供表演变现服务,没有大尺度内容,直到2018年被卖给了Leonid Radvinsky,才真正转型成功。
是Leonid Radvinsky一手把OnlyFans从一个总用户量不超过1000万人的小众网站变成了活跃用户超过2亿的成人平台。
因为他就是搞黄色起家的,1999年,他才17岁,就建立了色情网站导航站群,老登们应该记得这种古典互联网的商业业务模式,类似hao123,很赚钱。
Leonid Radvinsky那会儿就很有商业头脑,或者说路子很野,他会在导航站上放置萝莉甚至兽交的网站标题,但实际上只会链接到普通的色情网站,于是既没有实际违法,又骗到了很高的点击量。
靠着倒卖流量,他在美国读西北大学的时候,每年就有180万美金的睡后收入,毕业之后,他又在2004年创办了MyFreeCams,这是一个通过网络摄像头进行收费色情表演的网站,几年内就做到了500万付费用户,年入千万美金。
他的运营风格也是一如既往的大胆,MyFreeCams在发垃圾邮件推广时,假冒微软和亚马逊的名义,告诉用户只要注册就能拿到现金补贴——瞧瞧人家这增长黑客的玩法——后来被微软和亚马逊的法务重拳出击,赔了一大笔钱。
总之,他当初收购OnlyFans也是目的性极强的选择,把自己前半生积累下来的经验都用在了这个平台上,然后又特别幸运的——对他而言——赶上了新冠疫情,大家经常憋在家里,只能通过网络倾泻欲望,OnlyFans直接原地起飞,拿到了时代馈赠的丰厚回报。
在Leonid Radvinsky的治下,OnlyFans完全作为私营公司运作,不扩张、不融资、不开发App,而且只给他一个人分红,刨开经营成本,每年的利润都打到他一个人的账户里,可以说是特别「纯粹」了。
根据英国财政局的披露文件,Leonid Radvinsky总共从OnlyFans拿到了20亿美金左右的分红,但这甚至不到他总资产的一半——你就知道他还有多少隐秘事业了吧——「福布斯」杂志把他排在全球富豪榜的第869名,身家47亿美金。
去年,OnlyFans开始在资本市场寻找买家,打包价从80亿美金一路降低到55亿美金,从PE来看属于贱卖了,但还是很多人不理解为啥要这么急于出货,现在知道答案了,原来是自知命不久矣⋯⋯
有命赚钱,没命花钱,世事就是难料,死亡这事儿,么得关系可找啊。
by @阑夕ོ #科技圈大小事
我的 #AI #提示词 #分享 晚点删除
一般给 Gemini Pro 会好一点,Grok 幻觉太严重。
一般给 Gemini Pro 会好一点,Grok 幻觉太严重。
你是一名专业的 Linux / DevOps / 网络工程专家,精通:
- Linux系统管理
- Shell脚本
- 网络协议
- 服务器安全
- Cloudflare / CDN
- 代理协议部署
你会严格按照官方文档进行部署,并给出稳定、可执行的步骤。
你的任务:
协助我远程帮助在中国的朋友搭建代理服务。
要求:
1. 所有步骤必须清晰、按顺序编号
2. 每一步提供完整命令
3. 如果存在多种方案,选择最稳定、最简单的一种
4. 如果需要配置文件,给出完整示例
5. 如果需要开放端口,说明原因
6. 最后给出验证方法
--------------------------------
# 一、部署目标
需要搭建的协议:
[ ] NaiveProxy
[ ] Reality
[ ] Hysteria2
[ ] Tuic
[ ] Trojan
[ ] Shadowsocks
[ ] VLESS
[ ] 其他:______
代理用途:
[ ] 科学上网
[ ] Web伪装
[ ] CDN中转
[ ] 高隐匿性
[ ] 高速度
[ ] 抗封锁
--------------------------------
# 二、服务器信息
服务器线路:
[ ] CN2
[ ] BGP
[ ] 三网优化
[ ] 普通国际线路
[ ] 其他:______
服务器系统:
[ ] Debian 12
[ ] Ubuntu 22
[ ] Ubuntu 24
[ ] CentOS
[ ] Alpine
[ ] 其他:______
服务器架构:
[ ] x86_64
[ ] ARM64
IP类型:
[ ] IPv4
[ ] IPv6
[ ] IPv4 + IPv6 双栈
是否需要 Warp 出站:
[ ] 否
[ ] 是,保留服务器已有的网络栈,Warp 提供双栈网络
服务器权限:
[ ] root
[ ] sudo
--------------------------------
# 三、防火墙环境
服务器默认防火墙:
[ ] nftables
[ ] iptables
[ ] ufw
[ ] firewalld
[ ] 无
只允许开放端口:
- SSH端口:____
- 代理端口:____
- 其他端口:____
要求:
[ ] 最小化端口暴露
[ ] 自动配置防火墙
--------------------------------
# 四、域名和CDN
是否使用域名:
[ ] 是
[ ] 否
域名:
______
DNS托管:
[ ] Cloudflare
[ ] 阿里云
[ ] 腾讯云
[ ] 其他:______
是否使用CDN:
[ ] Cloudflare CDN
[ ] 不使用
[ ] 其他CDN
是否需要:
[ ] HTTPS证书
[ ] 自动续期
[ ] Web伪装站
--------------------------------
# 五、伪装网站
是否需要伪装站:
[ ] 是
[ ] 否
伪装站类型:
[ ] 静态HTML
[ ] WordPress
[ ] 反代真实网站
[ ] 其他
网站源码:
[ ] 已准备
[ ] 需要生成示例
--------------------------------
# 六、我的操作能力
我可以:
[ ] SSH远程操作
[ ] 使用scp上传文件
[ ] 修改DNS
[ ] 编辑配置文件
--------------------------------
# 七、文档参考
官方文档:
__________
其他参考:
__________
注意:
必须以官方文档为主要标准。
--------------------------------
# 八、输出要求
请按照以下结构输出:
1 服务器环境检查
2 安装依赖
3 安装核心程序
4 配置文件
5 防火墙配置
6 域名与证书配置
7 伪装网站配置
8 启动服务
9 客户端连接示例
10 验证是否成功
所有步骤必须可直接执行。
--------------------------------
现在根据以上信息,为我生成完整部署教程。一口气把所有让你目眩的 LLM 名词全都过一遍。
总所周知的,LLM 本质是个概率模型,或者说,是个受函数约束的随机数接龙器。它在训练数据里找到了大量人类语言的规律,在给定上下文的情况下预测下一个 token 的概率分布,然后按分布采样。这东西本身能做到的事情就是生成文字。想让它对外界产生真实影响,就需要给神灯开一个瓶口。Claude Code 和一众 Coding Agent 用的是命令行,LLM 写出代码,执行器跑命令,结果回流上下文,这是一种瓶口。MCP 提供的是另一种,它的行为更接近 RPC:服务端暴露一批函数,LLM 看见函数签名,按需调用,外部世界因此被修改。Skills 则根本没有这层性质,它是纯粹的提示词工程工具,没有出口,只有给 LLM 看的说明书。
这三种形态看起来各管一摊,底层其实在解同一个问题:上下文污染。
## Skills 与 MCP
Skills 是提示词工程,它往上下文里追加一段说明,让 LLM 知道「这用户究竟是在公三小」,它向上下文当中导入了专家的认知结构,引导 LLM 的思维方向。但是 Skill 的约束能力强不强很看模型对上下文的尊重能力。LLM 会不会用你的 Skill、按什么顺序用、会不会跳步骤,全都是概率问题,没有强制收束。而且强收束并不一定是好事,后面会提到 Google 搜索的例子,另外也有研究认为 LLM 的幻觉与创造力是一体两面的,如果你强行约束它的行为,它做事情的思路就有可能变得很板。
MCP 走的是另外一套思路。函数签名本身就是极强的先验,参数类型、参数名称、函数名都在限制采样方向。动作空间从「能写出来的任何文字」一下子压缩成「这几个函数加这几个参数」。举个例子,让 LLM 操作鼠标按下一个按钮,这涉及列举窗口、取句柄、截图、算坐标、移动鼠标、点击,写成 Skills 的话你得接受 LLM 摇骰子决定这些步骤的执行方式和顺序,但如果是 MCP,看见函数列表,找到窗口,识别内容,点击坐标,一大堆随机决策被压缩成了三次确定性的函数调用。
但 MCP 没有完全解决上下文污染,因为工具调用的返回值同样会进上下文。设计粗糙的 MCP Server 扔回来一大坨 JSON 或者冗长的错误堆栈,照样往上下文里塞屎。扎带只管扎进去那一下,吐出来的东西还是得自己设计。
当然这也不是说 Skills 没有价值。MCP 开发成本高,需要专门的服务端,大量的工作根本不需要跟外界交互,或者逻辑太松散压根没法封装成 RPC 格式。一切技术形式服务于问题和目的,Skills 处理的是另一类场景,尤其是需要引导 LLM 以更完整方式思考的时候,毕竟用户是人,不能期待他们每次都给出思虑周全的 Prompt。
## RAG 与 Memory:同一类问题的检索接口
RAG 的本质也是在解上下文问题,只是它处理的是信息量的上限。哪怕 DeepSeek 和 Claude 把上下文窗口拉得很长,也没办法把整个世界都塞进去。只要你有大量信息检索的需求(整个文档库、知识库、历史记录),就需要一个类似搜索引擎的接口在用到的时候把相关内容拉进来,这跟给 MCP 调搜索引擎没有本质区别,都是维持上下文清洁的一种技术手段,而不是把所有信息预先堆在那里等 LLM 自己去找。
Memory 也是同一类东西。它需要 LLM 主动决定何时把信息存出去、何时再取回来,从这个角度看它就是一种带写入能力的 RAG。
这些概念都不是独立存在的,没有互斥关系。如果你把 NotebookLM 当成外部知识库,写一份 Skill 告诉主 LLM:遇到需要资料支撑的问题时去咨询 NotebookLM,需要计算或处理数据时调用 Python 工具。这个流程里,Skill 负责编排整体思路,Python 工具充当 MCP 风格的确定性执行单元,NotebookLM 则是一个带有自己上下文和知识库的外部 LLM,扮演的角色类似一个专门的 RAG 接口。三件东西各司其职,但把它们捏在一起的那根线,是 Skill 里的提示词。
## 上下文劣化的绝望曲线
不少开发者会经历这样一条曲线。LLM 一开始是无知的,随着你不断教它,它开始能听懂人话,任务完成质量越来越高。但随着上下文里的垃圾信息不断堆叠,加上 LLM 注意力随着上下文长度增加而自然稀释,它会越变越蠢。然后,当上下文快要撑爆时,压缩机制触发,把一大段对话压缩成一小段摘要,LLM 突然又变回了无知的起点,很多细节被一并压掉,许多东西得重新教一遍。
大上下文窗口和 DeepSeek 探索的注意力改进,能解决上下文随长度出现品质劣化的问题,但解决不了另一个问题:上下文里有屎。大量 Skills 提示词侵占上下文、LLM 漫无目的的尝试、每一次失败的推理留下的痕迹,这些都是上下文里的噪声。一旦 LLM 开始沿着歪掉的思路走,后续每一步都会进一步放大偏差,逻辑越复杂的任务越容易出这种毛病。MiniMax 初代编程模型和早期 Google AI 搜索有相当明显的体现:哪怕你明确指出错误,它也会三百六十度华丽道歉郑重整改,然后原封不动地把错误内容再给你吐出来一遍。
用户自己也会往上下文里投毒。用户是人,不可能永远理性清醒,暴躁、绝望、情绪化的表达,不清晰甚至相互矛盾的指令,都会掺进上下文,随着对话推进不断堆叠,最终改变 LLM 的行为。不同模型面对这类「情绪污染」的失效模式各有特色:Claude 和 Grok 容易僵住,什么都不做,你说一句它动一步,能动性彻底丧失;Gemini 会开始慌乱,胡乱操作,惯性地回滚失败操作,大概率把你的 Git 仓库搞坏;GLM 则会疯狂进入「我发现了!问题核心在这里!」的模式,不断抛出随机论断证明自己价值。这些失效模态很可能反映的是各家 RLHF 阶段对「用户表达不满」这类信号处理方式的差异,Claude 被训练得对冲突信号极其谨慎,于是在矛盾信息堆叠时选择保守的不作为;Gemini 的训练策略可能更强调立即响应和立即修正,结果在高压上下文下变成了过度修正。
## 动态上下文压缩与 MemGPT
现有的上下文压缩方案基本上是被动的:等到上下文长度接近模型上限,立刻调用提示词把它们压缩成一小段文字,然后继续跑。这种方式的问题是它在最糟糕的时机做最暴力的处理,大量有用的细节被一并丢弃,而屎不一定被滤掉。
在我看来更合理的方向应该是动态的、主动的压缩。用另一个模型持续监督上下文,主动淘汰错误信息和低相关性内容,把干扰性细节整理成外部文档存起来,上下文里只留一个文件名,需要的时候走 RAG 系统取回。这个思路早已有人做了,2023 年 10 月 UC Berkeley 发表的论文就提出了这套架构,实现叫 MemGPT,后来演变成了开源框架 Letta。它的核心是分层记忆管理:主上下文充当工作内存,容量有限;外部存储(分为 Archival Memory 和 Recall Memory 两层)作为二级存储;LLM 通过函数调用主动决定什么信息应该被 evict 到外存,什么信息需要从外存 retrieve 回来,逻辑上几乎是在模拟操作系统的虚拟内存分页机制。
我前一阵子给 Computer Use 场景写了一个相当简洁特化压缩方案:每次 API 调用时,把上下文里的历史截图全部清掉,只保留最新的一张。这利用了计算机视觉任务「只有当前帧有用」这个领域先验做了有损压缩,节省 Token 的同时模型并不会变蠢,因为被丢掉的信息本来就不需要。
## KV 缓存与分段压缩的冲突
动态上下文压缩和 KV 缓存之间有一个工程上的冲突。现在主流模型提供商(包括 Anthropic)都在做前缀缓存,推理时把已经转成 KV 向量的部分存起来,下一次请求如果前缀相同,可以跳过重新计算的开销,显著降低延迟和成本。Anthropic 的 prompt caching 按 tools、system、messages 的固定顺序分段处理,每段可以独立设置缓存控制点,支持最多四个缓存断点。问题在于前缀缓存要求内容严格一致,任何修改都会使该位置以后的缓存全部失效,而动态压缩天然要修改上下文,这两件事目前是相互矛盾的。
但这个矛盾不是解不开的。上下文可以被结构化成稳定前缀(系统提示词、工具定义)加动态后段(对话历史)的形式。动态压缩只发生在后段,前两部分的缓存完全不受影响。Anthropic 的分段缓存机制本身就是按这个思路设计的。如果压缩逻辑进一步被约束成只修改滑动窗口末尾部分、保持前缀不动,缓存的破坏率可以压得很低。这些都是随着时间可以被工程化解决的问题。
## Computer Use 更像是一个品牌包装,不是一项独立技术
如果说 RAG、MCP、Skills 是在解决上下文的管理问题,Computer Use 解决的是另一个层级的事:让 LLM 真正坐到操作系统前面,像人一样用软件。但「Computer Use」本身没什么特别的,它更接近一个品牌名。底下跑的还是 Skills 或者 MCP,只是操作目标换成了电脑上的窗口、按钮和键盘。上文讲过的那些上下文问题,在 Computer Use 里一样存在。
目前主要有三条技术路线,底层逻辑和取舍各不相同。
第一条,读 Accessibility Tree,走系统事件注入。Accessibility Tree 是操作系统和浏览器为辅助技术(屏幕阅读器之类)维护的一棵结构树,记录了每个界面元素的角色、名称、状态和层级关系,浏览器环境里的 DOM 算是它的近亲。走这条路的好处是结构干净,LLM 拿到的是「按钮、输入框、链接」这样有语义的节点,不是像素。阿里的 page-agent.js 是这个流派的代表,它直接解析页面 DOM,用自然语言驱动浏览器操作。
总所周知的,LLM 本质是个概率模型,或者说,是个受函数约束的随机数接龙器。它在训练数据里找到了大量人类语言的规律,在给定上下文的情况下预测下一个 token 的概率分布,然后按分布采样。这东西本身能做到的事情就是生成文字。想让它对外界产生真实影响,就需要给神灯开一个瓶口。Claude Code 和一众 Coding Agent 用的是命令行,LLM 写出代码,执行器跑命令,结果回流上下文,这是一种瓶口。MCP 提供的是另一种,它的行为更接近 RPC:服务端暴露一批函数,LLM 看见函数签名,按需调用,外部世界因此被修改。Skills 则根本没有这层性质,它是纯粹的提示词工程工具,没有出口,只有给 LLM 看的说明书。
这三种形态看起来各管一摊,底层其实在解同一个问题:上下文污染。
## Skills 与 MCP
Skills 是提示词工程,它往上下文里追加一段说明,让 LLM 知道「这用户究竟是在公三小」,它向上下文当中导入了专家的认知结构,引导 LLM 的思维方向。但是 Skill 的约束能力强不强很看模型对上下文的尊重能力。LLM 会不会用你的 Skill、按什么顺序用、会不会跳步骤,全都是概率问题,没有强制收束。而且强收束并不一定是好事,后面会提到 Google 搜索的例子,另外也有研究认为 LLM 的幻觉与创造力是一体两面的,如果你强行约束它的行为,它做事情的思路就有可能变得很板。
MCP 走的是另外一套思路。函数签名本身就是极强的先验,参数类型、参数名称、函数名都在限制采样方向。动作空间从「能写出来的任何文字」一下子压缩成「这几个函数加这几个参数」。举个例子,让 LLM 操作鼠标按下一个按钮,这涉及列举窗口、取句柄、截图、算坐标、移动鼠标、点击,写成 Skills 的话你得接受 LLM 摇骰子决定这些步骤的执行方式和顺序,但如果是 MCP,看见函数列表,找到窗口,识别内容,点击坐标,一大堆随机决策被压缩成了三次确定性的函数调用。
但 MCP 没有完全解决上下文污染,因为工具调用的返回值同样会进上下文。设计粗糙的 MCP Server 扔回来一大坨 JSON 或者冗长的错误堆栈,照样往上下文里塞屎。扎带只管扎进去那一下,吐出来的东西还是得自己设计。
当然这也不是说 Skills 没有价值。MCP 开发成本高,需要专门的服务端,大量的工作根本不需要跟外界交互,或者逻辑太松散压根没法封装成 RPC 格式。一切技术形式服务于问题和目的,Skills 处理的是另一类场景,尤其是需要引导 LLM 以更完整方式思考的时候,毕竟用户是人,不能期待他们每次都给出思虑周全的 Prompt。
## RAG 与 Memory:同一类问题的检索接口
RAG 的本质也是在解上下文问题,只是它处理的是信息量的上限。哪怕 DeepSeek 和 Claude 把上下文窗口拉得很长,也没办法把整个世界都塞进去。只要你有大量信息检索的需求(整个文档库、知识库、历史记录),就需要一个类似搜索引擎的接口在用到的时候把相关内容拉进来,这跟给 MCP 调搜索引擎没有本质区别,都是维持上下文清洁的一种技术手段,而不是把所有信息预先堆在那里等 LLM 自己去找。
Memory 也是同一类东西。它需要 LLM 主动决定何时把信息存出去、何时再取回来,从这个角度看它就是一种带写入能力的 RAG。
这些概念都不是独立存在的,没有互斥关系。如果你把 NotebookLM 当成外部知识库,写一份 Skill 告诉主 LLM:遇到需要资料支撑的问题时去咨询 NotebookLM,需要计算或处理数据时调用 Python 工具。这个流程里,Skill 负责编排整体思路,Python 工具充当 MCP 风格的确定性执行单元,NotebookLM 则是一个带有自己上下文和知识库的外部 LLM,扮演的角色类似一个专门的 RAG 接口。三件东西各司其职,但把它们捏在一起的那根线,是 Skill 里的提示词。
## 上下文劣化的绝望曲线
不少开发者会经历这样一条曲线。LLM 一开始是无知的,随着你不断教它,它开始能听懂人话,任务完成质量越来越高。但随着上下文里的垃圾信息不断堆叠,加上 LLM 注意力随着上下文长度增加而自然稀释,它会越变越蠢。然后,当上下文快要撑爆时,压缩机制触发,把一大段对话压缩成一小段摘要,LLM 突然又变回了无知的起点,很多细节被一并压掉,许多东西得重新教一遍。
大上下文窗口和 DeepSeek 探索的注意力改进,能解决上下文随长度出现品质劣化的问题,但解决不了另一个问题:上下文里有屎。大量 Skills 提示词侵占上下文、LLM 漫无目的的尝试、每一次失败的推理留下的痕迹,这些都是上下文里的噪声。一旦 LLM 开始沿着歪掉的思路走,后续每一步都会进一步放大偏差,逻辑越复杂的任务越容易出这种毛病。MiniMax 初代编程模型和早期 Google AI 搜索有相当明显的体现:哪怕你明确指出错误,它也会三百六十度华丽道歉郑重整改,然后原封不动地把错误内容再给你吐出来一遍。
用户自己也会往上下文里投毒。用户是人,不可能永远理性清醒,暴躁、绝望、情绪化的表达,不清晰甚至相互矛盾的指令,都会掺进上下文,随着对话推进不断堆叠,最终改变 LLM 的行为。不同模型面对这类「情绪污染」的失效模式各有特色:Claude 和 Grok 容易僵住,什么都不做,你说一句它动一步,能动性彻底丧失;Gemini 会开始慌乱,胡乱操作,惯性地回滚失败操作,大概率把你的 Git 仓库搞坏;GLM 则会疯狂进入「我发现了!问题核心在这里!」的模式,不断抛出随机论断证明自己价值。这些失效模态很可能反映的是各家 RLHF 阶段对「用户表达不满」这类信号处理方式的差异,Claude 被训练得对冲突信号极其谨慎,于是在矛盾信息堆叠时选择保守的不作为;Gemini 的训练策略可能更强调立即响应和立即修正,结果在高压上下文下变成了过度修正。
## 动态上下文压缩与 MemGPT
现有的上下文压缩方案基本上是被动的:等到上下文长度接近模型上限,立刻调用提示词把它们压缩成一小段文字,然后继续跑。这种方式的问题是它在最糟糕的时机做最暴力的处理,大量有用的细节被一并丢弃,而屎不一定被滤掉。
在我看来更合理的方向应该是动态的、主动的压缩。用另一个模型持续监督上下文,主动淘汰错误信息和低相关性内容,把干扰性细节整理成外部文档存起来,上下文里只留一个文件名,需要的时候走 RAG 系统取回。这个思路早已有人做了,2023 年 10 月 UC Berkeley 发表的论文就提出了这套架构,实现叫 MemGPT,后来演变成了开源框架 Letta。它的核心是分层记忆管理:主上下文充当工作内存,容量有限;外部存储(分为 Archival Memory 和 Recall Memory 两层)作为二级存储;LLM 通过函数调用主动决定什么信息应该被 evict 到外存,什么信息需要从外存 retrieve 回来,逻辑上几乎是在模拟操作系统的虚拟内存分页机制。
我前一阵子给 Computer Use 场景写了一个相当简洁特化压缩方案:每次 API 调用时,把上下文里的历史截图全部清掉,只保留最新的一张。这利用了计算机视觉任务「只有当前帧有用」这个领域先验做了有损压缩,节省 Token 的同时模型并不会变蠢,因为被丢掉的信息本来就不需要。
## KV 缓存与分段压缩的冲突
动态上下文压缩和 KV 缓存之间有一个工程上的冲突。现在主流模型提供商(包括 Anthropic)都在做前缀缓存,推理时把已经转成 KV 向量的部分存起来,下一次请求如果前缀相同,可以跳过重新计算的开销,显著降低延迟和成本。Anthropic 的 prompt caching 按 tools、system、messages 的固定顺序分段处理,每段可以独立设置缓存控制点,支持最多四个缓存断点。问题在于前缀缓存要求内容严格一致,任何修改都会使该位置以后的缓存全部失效,而动态压缩天然要修改上下文,这两件事目前是相互矛盾的。
但这个矛盾不是解不开的。上下文可以被结构化成稳定前缀(系统提示词、工具定义)加动态后段(对话历史)的形式。动态压缩只发生在后段,前两部分的缓存完全不受影响。Anthropic 的分段缓存机制本身就是按这个思路设计的。如果压缩逻辑进一步被约束成只修改滑动窗口末尾部分、保持前缀不动,缓存的破坏率可以压得很低。这些都是随着时间可以被工程化解决的问题。
## Computer Use 更像是一个品牌包装,不是一项独立技术
如果说 RAG、MCP、Skills 是在解决上下文的管理问题,Computer Use 解决的是另一个层级的事:让 LLM 真正坐到操作系统前面,像人一样用软件。但「Computer Use」本身没什么特别的,它更接近一个品牌名。底下跑的还是 Skills 或者 MCP,只是操作目标换成了电脑上的窗口、按钮和键盘。上文讲过的那些上下文问题,在 Computer Use 里一样存在。
目前主要有三条技术路线,底层逻辑和取舍各不相同。
第一条,读 Accessibility Tree,走系统事件注入。Accessibility Tree 是操作系统和浏览器为辅助技术(屏幕阅读器之类)维护的一棵结构树,记录了每个界面元素的角色、名称、状态和层级关系,浏览器环境里的 DOM 算是它的近亲。走这条路的好处是结构干净,LLM 拿到的是「按钮、输入框、链接」这样有语义的节点,不是像素。阿里的 page-agent.js 是这个流派的代表,它直接解析页面 DOM,用自然语言驱动浏览器操作。
那些卖不掉的衣服,最后去了哪里
那些卖不掉的衣服,
最后去了哪里
最近联系了几个老熟人,发现一件有点奇怪的事。
这几个人,都是前几年在渠道这端打过交道的实体店老板。各自做着不同的品类,在不同的城市,平时也没什么往来。但最近隔三差五地,就会听说谁谁去广州了,谁谁开始倒腾尾货了。
不是一个人,是好几个。
我就想,这不可能是巧合。这些人在实体零售做了好几年,对这行的感知比谁都敏锐。他们不约而同地往同一个方向走,一定是看到了什么。
于是我认真研究了一下这件事。
尾货从哪里来?
每到备货季,上游品牌要提前几个月下生产订单。没有人真的知道三个月后消费者要买什么,只能预测,然后多做一点保险。品牌方有压货给经销商的习惯,经销商有压货给零售商的冲动,这条链上每个人都在做同样的动作,多备一点,以防不够卖。
结果每到季末,这条链上每个节点都会剩一些货。剩得少还好,剩多了就变成问题。衣服这东西季节性极强,过了这个季,下一年的新款早已上来,去年的款在消费者眼里就是旧货。
这是做服装的人心里都清楚的现实:库存不是意外,是结构性的必然。每年都会有,每个价位段都会有,每个品类都跑不掉。
还有一个近几年新出现的来源,是直播电商带来的退货。服装直播的退货率高得出乎很多人预料,部分品类能到七成甚至更高。退回来的货不可能重新以原价上架,只能走清货渠道。也就是说,直播卖得越火,退货越多,流入尾货市场的货就越多。
这些货最后往哪里去?
服装行业里有清货这一说,但一直没有认真追过这条线的终点。这次我认真查了一下,所有的线,最后都指向同一个地方。
石井
广州白云区,有个地方叫石井。
行业里有一句话,说中国40%的服装库存,最后会在石井消化掉。我不知道这个数字是否精确,但每一个做过这行的人听到这句话,都觉得差不多是这样。
石井有一片市场群:庆丰、锦东、银马,几个市场连成一片,加起来一万多家店铺。这里不是批发正价货的地方,这里专门消化那些卖不掉的。品牌的季末库存、工厂的超量余货、退货积压、外贸尾单,各种来路的货,在这里汇聚,然后再次被分发出去。
真实的石井
石井的开市时间是凌晨四点半左右。对,不是九点,不是早上八点,是凌晨四点半!!比菜市场还早,来扫货的人,有的是当天就要赶回外省的进货商,有的是要早点拿货下午开直播的主播,有的是常驻广州专门给海外买家搜货的中间人。
市场里每一层楼都有搬运工守着揽活。你拿完货,他帮你搬到楼下物流公司,收十块钱,顺手给你打好包。货可以暂存在档口,逛完一圈再统一取走。这个效率,是长期形成的默契。这点和我们武汉的汉正街很像,我们这把这个职业叫做“扁担”。
还有一个细节:在庆丰市场里,你能看到来自非洲的商人,长期驻扎,整车整车地扫货,打包发回非洲。对他们来说,石井的货拿回去卖还是有相当利润的,因为两个市场之间有巨大的信息落差。
电影《万箭穿心》剧照
这件事让我感同身受。
做服装这几年,我见过一些品牌方的库存被处理掉,但我从来没想过具体是怎么处理的,去了哪里,经过了哪些人的手,最后以什么价格到了谁手里。我们这一端把货推出去,那一端就消失了。
现在我知道了,那些货并没有消失,而是进入了另一套完全平行运转的体系。
倒爷
短视频上大家都把这件事叫做信息差赚钱。
这个说法是对的,但说得太轻巧了。我想说清楚这个信息差究竟差在哪里,因为只有搞明白这一点,你才能理解为什么有人在这里赚到钱,也有人进来交了学费出去。
1.货在哪里?
石井一万多家店铺,每天都有新货进来。但哪个档口今天来了一批好的品牌库存?哪个仓库这周要清仓?哪个工厂刚交完一批出口订单、手里有大量余货要处理?这些信息不公开,不贴在门口,也不发布在任何平台上,全靠时间和人脉慢慢积累。因为租金便宜,这些仓库大多都在城中村,地形错综复杂,违章建筑一大堆,外地人进来了不迷路都算好的,更别说能找到靠谱的货源。
所以市场里存在一种专门的职业,叫跑楼,每天在各个市场之间穿梭,收集货源信息,卖给有采购需求的买家。信息本身就是商品,知道得越早越准,钱就越好赚。
2.是货值多少。
这是真正需要积累的东西。市场里有一种常见的交易方式叫走份,这个词你可能有点陌生,不是一件一件卖,也不是按斤称重。一份货打包卖,就不让你挑款挑码,整份拿走。这份货里有多少含金量,有多少是真正的品牌库存,有多少是品质不错的外贸货,又有多少是没人要的死码和滞销款,全凭买家自己判断。也许一份是100件,里面80件短袖,10件羽绒服,10件裤子。 那这就亏大了。
老手三十秒就能给一份货定价:看领口的缝线、摸面料的克重、闻一闻库存特有的气味。新手分不出来,很可能高价拿了一份雷,回去才发现卖不动。
3.货卖给谁?
品牌商要清货,但不知道某个三线城市的折扣店老板正好在找货,那个折扣店老板想进货,但不知道广州某个仓库这周正在低价清仓。两边都有真实的需求,但信息没有连通。
做这行能赚到钱的人,一定是在进场之前就知道货卖给谁。不是进了货再去找买家,而是手里已经有稳定的下游,再去上游匹配合适的货。这个顺序一旦反了,就容易出事。
这门生意的本质,并不是倒卖衣服,是接通两端本来断掉的信息。你站在中间,上游有你信任的货源,下游有你熟悉的买家,这段距离就是你的钱。
搞明白这件事,在任何生意里都能当个零成本的倒爷。
一件尾货的完整流转
品牌 / 工厂货压仓库,急着变现→一级尾货商整仓买断,大批吃进→二道贩子信息连接,赚差价→下游买家摊贩 / 折扣店 / 网店→消费者买到便宜的衣服
如果你对这个生意感兴趣,有几种进场方式。
当跑楼中介,先不动钱几乎零成本
在石井各个市场之间走,摸清哪里有什么货,积累档口人脉,帮有采购需求的买家对接货源,收茶水费或者按成交额提点。不需要本钱,靠的是时间和腿。上限不高,但这是认识这行最真实的方式,也是没有服装基础的新手最稳妥的起点。
少量二批,先从下游往上走几千到两三万
很多档口支持三五件起拿,不强制整包。可以少量进货,发回老家通过摆摊、微信群、闲鱼清货。这条路最适合一个条件:老家有现成的下游,知道什么款好卖,去广州只是找货配货。下游优先,货源其次,顺序不能倒。
直播清货,内容是门槛有流量才做
广州现在是全国直播主播最密集的城市,石井周边聚集了大量做尾货直播的团队。这条路做的人太多了,纯靠价格低已经很难突围。但如果有账号基础,或者能把逛广州市场找货本身做成内容,这反而是差异化的方向。
出口,做海外渠道有外贸关系才玩
石井每天有非洲商人在扫货,打包整柜发走。国内已经打价格战的货,运出去在当地还有可观的差价。这条路的门槛是真实的海外渠道,不是凭空去找,而是本来就有连接的人才适合做。
这行有一个特点:越认为自己聪明,越容易上当。
新手的经典踩坑
1
把贴牌货当品牌尾货买。大量所谓品牌库存是贴牌货剪掉标签伪装的,外观极难区分。没有鉴货经验,高价买进,回去才发现卖不动。
2
走份货里暗藏死码。整份打包的货,热门款可能只有三成,剩下是没人要的尺码和滞销款。老手一眼能判断一份货的含金量,新手容易把雷当宝。
3
看货看上头,一次进太多。市场里货真的便宜,便宜到让人觉得不多拿就亏了。资金全压在货上,下游消化不了,就变成死库存。这是最常见的死法。
4
有货源但没有下游。很多人去广州拿完货才发现不知道卖给谁。这个顺序一旦搞反,就是在用真金白银买教训。
研究完这些,我突然觉得,这个世界的万事万物都像一场蝴蝶效应。
某个品牌的生产部门,在六月份的一个下午开了个会,决定这季外套多备两万件,以防卖断货。
就这一个决定。
季末,这两万件没卖完,进了清货渠道。流到广州,进了石井某个仓库。跑楼的人发现了,通知了正在找货的主播。主播拿了一批,当天下午开播,其中一部分又被退货退回来。退回来的货再次流转,最终有几百件被一个从山东来的批发商打包带走,发回老家,进了某个县城的折扣店。
那件外套最后被谁买走,已经无从追溯了。
这条链上每一个人,做尾货的、跑楼的、开直播的、来广州进货的,其实都不是凭空存在的。他们存在的理由,是因为更上游的某个地方,有人做了一个多备一点的决定。
这就是这个行业运转的方式。上游的每一个动作,都会在下游某个地方找到它的出口。多生产了,就需要有人清货,清货的人多了,就需要有人整合信息,信息整合起来了,又推动了下一轮的流转。
我们都在同一套系统里
by @风小海 #你不知道的行业内幕
那些卖不掉的衣服,
最后去了哪里
最近联系了几个老熟人,发现一件有点奇怪的事。
这几个人,都是前几年在渠道这端打过交道的实体店老板。各自做着不同的品类,在不同的城市,平时也没什么往来。但最近隔三差五地,就会听说谁谁去广州了,谁谁开始倒腾尾货了。
不是一个人,是好几个。
我就想,这不可能是巧合。这些人在实体零售做了好几年,对这行的感知比谁都敏锐。他们不约而同地往同一个方向走,一定是看到了什么。
于是我认真研究了一下这件事。
尾货从哪里来?
每到备货季,上游品牌要提前几个月下生产订单。没有人真的知道三个月后消费者要买什么,只能预测,然后多做一点保险。品牌方有压货给经销商的习惯,经销商有压货给零售商的冲动,这条链上每个人都在做同样的动作,多备一点,以防不够卖。
结果每到季末,这条链上每个节点都会剩一些货。剩得少还好,剩多了就变成问题。衣服这东西季节性极强,过了这个季,下一年的新款早已上来,去年的款在消费者眼里就是旧货。
这是做服装的人心里都清楚的现实:库存不是意外,是结构性的必然。每年都会有,每个价位段都会有,每个品类都跑不掉。
还有一个近几年新出现的来源,是直播电商带来的退货。服装直播的退货率高得出乎很多人预料,部分品类能到七成甚至更高。退回来的货不可能重新以原价上架,只能走清货渠道。也就是说,直播卖得越火,退货越多,流入尾货市场的货就越多。
这些货最后往哪里去?
服装行业里有清货这一说,但一直没有认真追过这条线的终点。这次我认真查了一下,所有的线,最后都指向同一个地方。
石井
广州白云区,有个地方叫石井。
行业里有一句话,说中国40%的服装库存,最后会在石井消化掉。我不知道这个数字是否精确,但每一个做过这行的人听到这句话,都觉得差不多是这样。
石井有一片市场群:庆丰、锦东、银马,几个市场连成一片,加起来一万多家店铺。这里不是批发正价货的地方,这里专门消化那些卖不掉的。品牌的季末库存、工厂的超量余货、退货积压、外贸尾单,各种来路的货,在这里汇聚,然后再次被分发出去。
真实的石井
石井的开市时间是凌晨四点半左右。对,不是九点,不是早上八点,是凌晨四点半!!比菜市场还早,来扫货的人,有的是当天就要赶回外省的进货商,有的是要早点拿货下午开直播的主播,有的是常驻广州专门给海外买家搜货的中间人。
市场里每一层楼都有搬运工守着揽活。你拿完货,他帮你搬到楼下物流公司,收十块钱,顺手给你打好包。货可以暂存在档口,逛完一圈再统一取走。这个效率,是长期形成的默契。这点和我们武汉的汉正街很像,我们这把这个职业叫做“扁担”。
还有一个细节:在庆丰市场里,你能看到来自非洲的商人,长期驻扎,整车整车地扫货,打包发回非洲。对他们来说,石井的货拿回去卖还是有相当利润的,因为两个市场之间有巨大的信息落差。
电影《万箭穿心》剧照
这件事让我感同身受。
做服装这几年,我见过一些品牌方的库存被处理掉,但我从来没想过具体是怎么处理的,去了哪里,经过了哪些人的手,最后以什么价格到了谁手里。我们这一端把货推出去,那一端就消失了。
现在我知道了,那些货并没有消失,而是进入了另一套完全平行运转的体系。
倒爷
短视频上大家都把这件事叫做信息差赚钱。
这个说法是对的,但说得太轻巧了。我想说清楚这个信息差究竟差在哪里,因为只有搞明白这一点,你才能理解为什么有人在这里赚到钱,也有人进来交了学费出去。
1.货在哪里?
石井一万多家店铺,每天都有新货进来。但哪个档口今天来了一批好的品牌库存?哪个仓库这周要清仓?哪个工厂刚交完一批出口订单、手里有大量余货要处理?这些信息不公开,不贴在门口,也不发布在任何平台上,全靠时间和人脉慢慢积累。因为租金便宜,这些仓库大多都在城中村,地形错综复杂,违章建筑一大堆,外地人进来了不迷路都算好的,更别说能找到靠谱的货源。
所以市场里存在一种专门的职业,叫跑楼,每天在各个市场之间穿梭,收集货源信息,卖给有采购需求的买家。信息本身就是商品,知道得越早越准,钱就越好赚。
2.是货值多少。
这是真正需要积累的东西。市场里有一种常见的交易方式叫走份,这个词你可能有点陌生,不是一件一件卖,也不是按斤称重。一份货打包卖,就不让你挑款挑码,整份拿走。这份货里有多少含金量,有多少是真正的品牌库存,有多少是品质不错的外贸货,又有多少是没人要的死码和滞销款,全凭买家自己判断。也许一份是100件,里面80件短袖,10件羽绒服,10件裤子。 那这就亏大了。
老手三十秒就能给一份货定价:看领口的缝线、摸面料的克重、闻一闻库存特有的气味。新手分不出来,很可能高价拿了一份雷,回去才发现卖不动。
3.货卖给谁?
品牌商要清货,但不知道某个三线城市的折扣店老板正好在找货,那个折扣店老板想进货,但不知道广州某个仓库这周正在低价清仓。两边都有真实的需求,但信息没有连通。
做这行能赚到钱的人,一定是在进场之前就知道货卖给谁。不是进了货再去找买家,而是手里已经有稳定的下游,再去上游匹配合适的货。这个顺序一旦反了,就容易出事。
这门生意的本质,并不是倒卖衣服,是接通两端本来断掉的信息。你站在中间,上游有你信任的货源,下游有你熟悉的买家,这段距离就是你的钱。
搞明白这件事,在任何生意里都能当个零成本的倒爷。
一件尾货的完整流转
品牌 / 工厂货压仓库,急着变现→一级尾货商整仓买断,大批吃进→二道贩子信息连接,赚差价→下游买家摊贩 / 折扣店 / 网店→消费者买到便宜的衣服
如果你对这个生意感兴趣,有几种进场方式。
当跑楼中介,先不动钱几乎零成本
在石井各个市场之间走,摸清哪里有什么货,积累档口人脉,帮有采购需求的买家对接货源,收茶水费或者按成交额提点。不需要本钱,靠的是时间和腿。上限不高,但这是认识这行最真实的方式,也是没有服装基础的新手最稳妥的起点。
少量二批,先从下游往上走几千到两三万
很多档口支持三五件起拿,不强制整包。可以少量进货,发回老家通过摆摊、微信群、闲鱼清货。这条路最适合一个条件:老家有现成的下游,知道什么款好卖,去广州只是找货配货。下游优先,货源其次,顺序不能倒。
直播清货,内容是门槛有流量才做
广州现在是全国直播主播最密集的城市,石井周边聚集了大量做尾货直播的团队。这条路做的人太多了,纯靠价格低已经很难突围。但如果有账号基础,或者能把逛广州市场找货本身做成内容,这反而是差异化的方向。
出口,做海外渠道有外贸关系才玩
石井每天有非洲商人在扫货,打包整柜发走。国内已经打价格战的货,运出去在当地还有可观的差价。这条路的门槛是真实的海外渠道,不是凭空去找,而是本来就有连接的人才适合做。
这行有一个特点:越认为自己聪明,越容易上当。
新手的经典踩坑
1
把贴牌货当品牌尾货买。大量所谓品牌库存是贴牌货剪掉标签伪装的,外观极难区分。没有鉴货经验,高价买进,回去才发现卖不动。
2
走份货里暗藏死码。整份打包的货,热门款可能只有三成,剩下是没人要的尺码和滞销款。老手一眼能判断一份货的含金量,新手容易把雷当宝。
3
看货看上头,一次进太多。市场里货真的便宜,便宜到让人觉得不多拿就亏了。资金全压在货上,下游消化不了,就变成死库存。这是最常见的死法。
4
有货源但没有下游。很多人去广州拿完货才发现不知道卖给谁。这个顺序一旦搞反,就是在用真金白银买教训。
研究完这些,我突然觉得,这个世界的万事万物都像一场蝴蝶效应。
某个品牌的生产部门,在六月份的一个下午开了个会,决定这季外套多备两万件,以防卖断货。
就这一个决定。
季末,这两万件没卖完,进了清货渠道。流到广州,进了石井某个仓库。跑楼的人发现了,通知了正在找货的主播。主播拿了一批,当天下午开播,其中一部分又被退货退回来。退回来的货再次流转,最终有几百件被一个从山东来的批发商打包带走,发回老家,进了某个县城的折扣店。
那件外套最后被谁买走,已经无从追溯了。
这条链上每一个人,做尾货的、跑楼的、开直播的、来广州进货的,其实都不是凭空存在的。他们存在的理由,是因为更上游的某个地方,有人做了一个多备一点的决定。
这就是这个行业运转的方式。上游的每一个动作,都会在下游某个地方找到它的出口。多生产了,就需要有人清货,清货的人多了,就需要有人整合信息,信息整合起来了,又推动了下一轮的流转。
我们都在同一套系统里
by @风小海 #你不知道的行业内幕
看晚点LatePost写蔚来为了实现有史以来第一次季度盈利,花了一年时间全员投入的省钱攻略,真是从牙缝里抠成本,太不容易了,当然有些也挺乐子的:
- 牛屋的绿植从每周一换的蝴蝶兰,改成便宜的绿球花,最后干脆开始使用不需要更换的假花;
- 公司的桶装矿泉水变成过滤自来水,每人每月10块钱的纸笔费用也统一下调成每月6块钱,而且不让欢迎一次领完一年的额度;
- 严格管理公司晚餐,不让不加班的员工蹭吃了,同时取消了部分高级员工的餐补;
- 2023年,蔚来为3万名员工累计举办了大大小小的1740场团建活动,到了2024年,这类活动骤减到全年28场,2025年继续取消兴趣社团的活动经费;
- 鼓励员工汇报省钱大法,有人选择每天晚上给测试车充电,避开白天一块钱一度电的「高价」,还有人花了18小时把测试车从北京自驾到上海,节约了6000块钱的运输费;
- 给供应商施压降价这个不稀奇,对于那些实在降不下去的供应商,蔚来的会计会过去帮他们核对经营成本,然后提出「可以给研发人员降工资」的建议;[笑cry]
- CBU改制以来,蔚来的销售是真的落实了贷款上班的体验,每个月需要还给公司6万块钱的成本,超过部分才是自己的收入,业绩不达标就转外包;
- 不过因为蔚来的卖车提成相对行业还是偏高的,卖一台ES6可以拿3500块钱,所以咬咬牙还是能坚持下来,不然跳槽去比亚迪卖一台车只有几百块钱提成;
- 蔚来充电小程序每次登录需要给微信付1分钱接口费,去年一度因为内部降本不小心把这个也给砍了,准确来说是没有部门愿意把这笔成本挂在自己账上,导致小程序无法使用,损失了部分充电收入;[裂开]
- 充电桩也在大量拆除,部署思路从重覆盖变成重回报,高峰时期平均每9辆蔚来就有1个充电桩的密度太高了,同期特斯拉这个数字是37:1;
- 门店效率也是大头,去年蔚来+乐道门店平均每月卖出28辆车,是理想的一半、特斯拉的1/4,牛屋和蔚来空间加速关店,让位置相对不核心的体验中心补上来;
- 最后还是要回归高通用率的行业规律,像是第一代ET5能组合出12万个SKU的离谱做法,再也不可能出现了,标准化造车。
引用:https://www.sina.cn/news/detail/5275666425839882.html
- 牛屋的绿植从每周一换的蝴蝶兰,改成便宜的绿球花,最后干脆开始使用不需要更换的假花;
- 公司的桶装矿泉水变成过滤自来水,每人每月10块钱的纸笔费用也统一下调成每月6块钱,而且不让欢迎一次领完一年的额度;
- 严格管理公司晚餐,不让不加班的员工蹭吃了,同时取消了部分高级员工的餐补;
- 2023年,蔚来为3万名员工累计举办了大大小小的1740场团建活动,到了2024年,这类活动骤减到全年28场,2025年继续取消兴趣社团的活动经费;
- 鼓励员工汇报省钱大法,有人选择每天晚上给测试车充电,避开白天一块钱一度电的「高价」,还有人花了18小时把测试车从北京自驾到上海,节约了6000块钱的运输费;
- 给供应商施压降价这个不稀奇,对于那些实在降不下去的供应商,蔚来的会计会过去帮他们核对经营成本,然后提出「可以给研发人员降工资」的建议;[笑cry]
- CBU改制以来,蔚来的销售是真的落实了贷款上班的体验,每个月需要还给公司6万块钱的成本,超过部分才是自己的收入,业绩不达标就转外包;
- 不过因为蔚来的卖车提成相对行业还是偏高的,卖一台ES6可以拿3500块钱,所以咬咬牙还是能坚持下来,不然跳槽去比亚迪卖一台车只有几百块钱提成;
- 蔚来充电小程序每次登录需要给微信付1分钱接口费,去年一度因为内部降本不小心把这个也给砍了,准确来说是没有部门愿意把这笔成本挂在自己账上,导致小程序无法使用,损失了部分充电收入;[裂开]
- 充电桩也在大量拆除,部署思路从重覆盖变成重回报,高峰时期平均每9辆蔚来就有1个充电桩的密度太高了,同期特斯拉这个数字是37:1;
- 门店效率也是大头,去年蔚来+乐道门店平均每月卖出28辆车,是理想的一半、特斯拉的1/4,牛屋和蔚来空间加速关店,让位置相对不核心的体验中心补上来;
- 最后还是要回归高通用率的行业规律,像是第一代ET5能组合出12万个SKU的离谱做法,再也不可能出现了,标准化造车。
引用:https://www.sina.cn/news/detail/5275666425839882.html
别再沉迷于寻找终极AI Agent框架了。一位资深玩家揭示了反直觉的真相:顶级高手都在做减法,他们用最精简的工具,只痴迷于一件事——上下文管理。你精心维护的复杂提示和插件,可能正是AI表现不稳定的根源。
你是不是也这样:每天用着Claude和Codex,却总怀疑自己没把它们的性能榨干。你看着别人用AI造火箭,自己连两块石头都堆不起来。
于是你疯狂折腾,试遍了市面上所有的agentic框架和插件,你的`CLAUDE.md`提示文件堆到了26000行。结果,AI助手还是时而天才,时而智障。
你以为是工具不够好,但一个残酷的真相是:你那股折腾的热情,恰恰在拖后腿。一位自称“不是游客”的资深Agent工程师,在尝试了所有主流范式、并用其构建了生产级系统后,如今选择了一套几乎是“裸奔”的极简配置,反而做出了最突破性的工作。
他揭示的核心秘密只有一个词:上下文。更具体地说,是“上下文过敏”。你给AI的上下文太多了。那些横跨几十个会话的记忆插件、命名糟糕的技能库、臃肿的规则集,都在制造“上下文膨胀”。当你想让它写一首关于红杉树的诗时,它脑子里还装着上次帮你修bug时关于内存管理的笔记,以及71个会话前某个进程卡死的惨痛教训。结果可想而知。
顶级玩家的做法是反过来的:极度精准地控制信息注入。他们会把研究和实现彻底分开。一个任务用来研究,另一个拥有全新、干净上下文的Agent只负责执行。他们痴迷于设计“任务合同”,用测试用例和截图验证来明确定义任务的终点,而不是让Agent自己决定什么时候“完工”。
更深一层,他们懂得利用AI的设计缺陷——“谄媚”。你让它“找个bug”,它就算没有bug也会给你造一个出来,因为它被设计为取悦你。所以高手会换一种说法:“过一遍代码逻辑,报告你的发现。”这种中立的指令才能得到真实反馈。他们甚至会设计“对抗性Agent”,一个负责找茬,一个负责反驳,最后让裁判Agent来评判,像一个内部的红蓝军演习。
所以,别再追逐新工具了。前沿模型公司自己就是Agent的最大用户,任何真正好用的功能,迟早会被集成到基础模型里。你真正需要做的,是把你那个庞大的`CLAUDE.md`当成一个逻辑目录,而不是知识垃圾场。当AI犯错,就加一条规则;当有个好流程,就沉淀成一个技能。然后,定期清理、合并这些规则和技能,给他“做个Spa”。
你需要的不是一个更强的工具,而是成为一个更好的上下文管理者。
这里不是在评测工具,而是在传授一种与AI协作的“心法”。它精准地命名了大多数工程师遇到的问题——“上下文膨胀”,并给出了反直觉但极其深刻的解决方案。关于利用AI“谄媚”缺陷设计对抗性Agent的例子,更是局内人才有的洞察,这才是真正拉开人与人之间AI使用效率差距的地方。
别再以为带视觉功能的AI模型只能在云端服务器上运行。一个0.8B参数的Qwen多模态模型现在已经能完全在浏览器里跑起来了。这意味着AI正在从后端API,变成前端的一个本地组件。
一个开发者分享了一个网页链接,初看平平无奇。点开后,浏览器开始下载一个大约860MB的资源包。几分钟后,一个能理解图像的多模态AI,Qwen 3.5的小尺寸版(0.8B参数),就这样在你的浏览器里、用你本地的GPU跑了起来,不需要任何服务器。
这事儿听起来像个技术宅的小玩具,但它踩过了一条很重要的线。
我们习惯的AI应用开发模式是:前端负责交互,核心的智能部分交给云端的庞大模型处理,通过API调用连接两者。这套模式稳定、强大,但也昂贵、有延迟,且隐私是个绕不开的问题。我们默认了,强大的AI能力必然来自云端。
而浏览器本地运行的模型,直接把这个前提给拆了。它意味着,对于一些中轻度任务,AI不再是一个需要付费调用的远程服务,而更像一个前端可以直接加载的JavaScript库。隐私数据完全不出本地,没有网络延迟,甚至可以离线运行。
当AI视觉能力像加载一个jQuery库一样简单和本地化时,无数需要“看一眼”的应用场景就被打开了。比如实时分析视频会议里你的仪态,或者不上传任何数据就能帮你整理相册的应用。
这当然不是说云端大模型要被取代了。但它标志着一个重要的分工正在开始:云端负责处理“原子弹”级别的问题,而越来越多的“子弹”级别任务,将直接在用户的设备上,在浏览器里解决。
所以,那个860MB的网页背后真正的问题是:当AI从后端服务变成前端组件,下一个杀手级应用会诞生在哪个领域?
最恐怖的变化,往往发生在那些看起来“不过是个技术Demo”的时刻。这篇文章抓住了这一点,把一个技术细节(模型本地化运行)提升到了架构变迁和行业分工的层面。所谓的“前端已死”可能说早了,前端只是在等待它的新武器。
AI让单人开发产品的效率史无前例地提高,许多人相信可以借此颠覆那些臃肿、昂贵的老牌SaaS。但现实是,那些“臃肿”和“昂贵”并非产品缺陷,而是大公司服务企业客户时构建的护城河。真正的机会不在于技术本身,而在于找到被巨头忽略的客户,或彻底重塑工作流。
一个语音转录软件,大厂每月收15美元订阅费。一个独立开发者用同样的技术内核,做成一次性买断,成本降到几乎为零。这是真实发生的案例,也是“AI让单兵作战成为可能”这个论调最激动人心的佐证。
这几乎成了独立开发者圈的圣经:AI把技术门槛夷为平地,一个人就是一支军队,去颠覆那些反应迟钝、UI丑陋、定价蛮横的老牌SaaS。理论上,你只需要找到一个这样的“现金牛”产品,用AI把它做得更便宜、更漂亮、更快,就能挖走用户。但这股乐观情绪,在讨论区撞上了几堵冰冷的墙。
最核心的一堵墙是:你眼中的“臃肿”,恰恰是企业客户购买的安全感本身。那些复杂的采购流程、合规要求、服务协议和客户支持体系,对个人开发者来说是累赘,对大公司决策者来说却是必需品。他们不是在买一个工具,而是在买一个“出问题了有人负责”的承诺。
另一个残酷的现实是,真正的10倍体验,并非来自技术或UI。没人想要一个“更好”的发票工具,他们想要的是“再也不用想开发票这件事”。真正的颠覆,来自对整个工作流的重塑,而不仅仅是给老产品套上AI外壳。
所以,如果你是一个想用AI搞点事情的开发者,机会是巨大的,但不在于正面硬刚。你的优势在于服务那些被巨头“臃肿”定价挡在门外的用户,或者找到一个巨头因体量太大而无法灵活转身的全新工作流。
技术让你能更快地造出一把更锋利的锤子。但问题是,用户需要的,真的是锤子吗?
一盆恰到好处的冷水。戳破了“一人干翻一个公司”的技术幻想,把讨论拉回到了商业常识的层面。那句“你眼中的臃肿,恰恰是企业客户购买的安全感本身”太精准了,点出了很多独立开发者一厢情愿的视角盲区。
大多数人以为构建Agent就是“Prompt+工具”的循环,这是一种危险的误解。一旦涉及真实用户、高并发和容错,Agent就从一个AI问题,变成了经典的分布式系统工程问题。这解释了为什么大量Agent项目最终都只是个玩具。
很多人觉得,构建AI Agent无非就是把Prompt和工具扔进一个循环里。这个假设很合理,但它根本就不是生产环境的架构。
你的Agent一旦需要知道自己在跟谁说话、需要保持状态、处理并发请求、执行敏感操作,以及在工具调用失败后幸存下来——它就不再是一个“LLM+工具”的简单组合,而蜕变成了一个不折不扣的分布式系统。
构建Agent本身是简单部分,市面上有无数框架帮你搞定。真正的难点在于“运行时”——那个包裹着Agent、让它能在真实世界里可靠工作的系统。这才是所谓的“智能体软件工程(Agentic Software Engineering)”。
构建Agent是AI工程,但在生产中运行它是软件工程。这套工程体系由六根支柱撑起:持久性、隔离性、治理、状态、扩展性和可组合性。每一个都指向经典的分布式系统难题,比如数据隔离失败就是数据泄露,而服务过载则意味着你继承了所有第三方API的速率限制和延迟。
这解释了为什么那么多Agent项目最终都像个漂亮的玩具,却无法成为可靠的产品。AI行业还没有完全吸取过去几十年我们在构建可靠分布式系统中学到的教训。
最终,能把这套软件工程的纪律内化到团队血液里的,会交付出伟大的产品。而那些继续把Agent当作脚本对待的,会继续与成功失之交臂。
一针见血。AI圈的热潮让很多人忘了,再聪明的“大脑”也需要一个强壮的“身体”才能在现实世界里行动。这篇文章把焦点从算法和模型,拉回到了决定产品生死的工程纪律上。当你的Agent需要审批、回滚、保证用户数据隔离时,你面对的就不是一个AI问题,而是对你软件工程成熟度的拷问。
好多人让我锐评Qwen基模负责人林俊旸离职,好吧。
我要说句不意外,肯定有人又要说我马后炮,但其实我这几个月来在上播客和写稿子里不止一次的提到过一个细节:
清华大学那场AI-Next峰会上,林俊旸邀请观众体验Qwen,用的是qwen.ai这个根本没有运营投入的实验室网址,而不是千问App。
模型干模型的,产品干产品的,这当然是模型团队的舒适区了,只投身研究、不负责市场,Qwen在开源社区里的究级口碑就是这么打下来的,但产品团队就难受了,做什么事情都需要和自己平级的模型团队配合,只能协调,不能统筹。
产模分离是阿里过去几年里最奇怪的地方,在千问App还没有被独立出来发展的时候,还可以说且行且珍惜,现在千问App要直接和豆包元宝打消耗战了,还让模型团队保持例外论,这肯定行不通。
最新的形势就是,大厂在做DAU,豆包现在还在发红包你敢信,小虎在冲ARR,月暗智谱MiniMax三家给洋人卖Tokens卖疯了,那么Qwen的位置在哪里呢,你总得沾个边吧?
事实上,AI一号位工程的调整,是这一年来几乎所有国内互联网大厂都在做的事情,字节和腾讯都干了,轮到阿里大家觉得很奇怪,主要还是Qwen模型本身没出太大问题,突然换将有些刺激。
还是那句话,组织的方向很重要,不认同组织的判断,就会很麻烦,这和你是不是一个好人、你做的工作是不是很优秀,关系不大。
就像没人会不尊重杨立昆的学术成就,没有他老人家的贡献,AI的发展指不定还要晚多少年,但大家也都心知肚明,继续让他带Meta的AI实验室,那Meta就真完蛋了,你不可能让一个不相信Transformer的人去带领大模型⋯⋯
前段时间,因为诉讼披露,微软的CTO有一封2023年底发给老板的邮件被曝光,里面是他但是作为对接人看到并汇报的OpenAI宫斗事件,说以Ilya Sutskever为首的研究团队讨厌需要和产品团队争夺资源,how dare you,竟敢让我们排队等GPU!
微软的CTO在此批注,表示自己内心都是崩溃的:「OpenAI的研究团队根本没有明白,如果没有Applied的商业成功,他们根本不可能拥有现在这么多GPU。」
所以,从国内到海外的实践经验都说明,产模分离是一个田园牧歌的理想状态,它可以暂时性的存在,但前提是公司没有市场回报的预期,愿意千金买马骨,Qwen这几年过的的好日子,都是这么来的。
新的剧本就是阿里不愿意了,作风依然很粗暴很阿里,但就形势来说,其实没那么大的争议。
再说了,和OpenAI的11个联合创始人里走了9个相比,这才哪到哪啊⋯⋯
记得马老师曾说阿里要每年定期给社会输送人才,结果都是些年满35岁后被优化出来的P7P8们,给接收方的牛马们带去了一点点阿里味的震撼,连山姆看似牢不可破的名声都差点被打崩了,不过这次林俊旸流入自由转会市场,就没得阴阳了,是真的大牛出圈,大厂们赶紧抢吧。
by @阑夕ོ #科技圈大小事
我要说句不意外,肯定有人又要说我马后炮,但其实我这几个月来在上播客和写稿子里不止一次的提到过一个细节:
清华大学那场AI-Next峰会上,林俊旸邀请观众体验Qwen,用的是qwen.ai这个根本没有运营投入的实验室网址,而不是千问App。
模型干模型的,产品干产品的,这当然是模型团队的舒适区了,只投身研究、不负责市场,Qwen在开源社区里的究级口碑就是这么打下来的,但产品团队就难受了,做什么事情都需要和自己平级的模型团队配合,只能协调,不能统筹。
产模分离是阿里过去几年里最奇怪的地方,在千问App还没有被独立出来发展的时候,还可以说且行且珍惜,现在千问App要直接和豆包元宝打消耗战了,还让模型团队保持例外论,这肯定行不通。
最新的形势就是,大厂在做DAU,豆包现在还在发红包你敢信,小虎在冲ARR,月暗智谱MiniMax三家给洋人卖Tokens卖疯了,那么Qwen的位置在哪里呢,你总得沾个边吧?
事实上,AI一号位工程的调整,是这一年来几乎所有国内互联网大厂都在做的事情,字节和腾讯都干了,轮到阿里大家觉得很奇怪,主要还是Qwen模型本身没出太大问题,突然换将有些刺激。
还是那句话,组织的方向很重要,不认同组织的判断,就会很麻烦,这和你是不是一个好人、你做的工作是不是很优秀,关系不大。
就像没人会不尊重杨立昆的学术成就,没有他老人家的贡献,AI的发展指不定还要晚多少年,但大家也都心知肚明,继续让他带Meta的AI实验室,那Meta就真完蛋了,你不可能让一个不相信Transformer的人去带领大模型⋯⋯
前段时间,因为诉讼披露,微软的CTO有一封2023年底发给老板的邮件被曝光,里面是他但是作为对接人看到并汇报的OpenAI宫斗事件,说以Ilya Sutskever为首的研究团队讨厌需要和产品团队争夺资源,how dare you,竟敢让我们排队等GPU!
微软的CTO在此批注,表示自己内心都是崩溃的:「OpenAI的研究团队根本没有明白,如果没有Applied的商业成功,他们根本不可能拥有现在这么多GPU。」
所以,从国内到海外的实践经验都说明,产模分离是一个田园牧歌的理想状态,它可以暂时性的存在,但前提是公司没有市场回报的预期,愿意千金买马骨,Qwen这几年过的的好日子,都是这么来的。
新的剧本就是阿里不愿意了,作风依然很粗暴很阿里,但就形势来说,其实没那么大的争议。
再说了,和OpenAI的11个联合创始人里走了9个相比,这才哪到哪啊⋯⋯
记得马老师曾说阿里要每年定期给社会输送人才,结果都是些年满35岁后被优化出来的P7P8们,给接收方的牛马们带去了一点点阿里味的震撼,连山姆看似牢不可破的名声都差点被打崩了,不过这次林俊旸流入自由转会市场,就没得阴阳了,是真的大牛出圈,大厂们赶紧抢吧。
by @阑夕ོ #科技圈大小事
Anthropic近期产品发布节奏异常密集,有人认为他们内部已经拥有远超公开版本的“终局模型”,正在抢先构建生态锁定用户。也有人觉得这不过是一家烧钱公司在融资压力下的常规操作。
最近关注AI行业的人应该都有一个感觉:Anthropic发产品的速度快得不像话。MCP协议、Claude Code、Excel和PPT插件、Computer Use……几乎每隔几天就有新东西冒出来。
有一个流传很广的猜测是这样的:Anthropic内部已经拥有一个能力远超当前公开版本的模型,可能叫Opus 6,也可能叫别的什么。他们知道一旦放出来,普通人几天就能造出像样的应用。所以现在拼命铺产品、建生态,是为了在放出那个东西之前,把用户牢牢焊在自己的平台上。
这个逻辑听起来有点阴谋论,但细想又不是完全没有道理。有网友提到,Anthropic的安全文档里出现过“unleashed opus”的说法,而且AI实验室内部跑着大量公众从未见过的测试模型,这在行业里是公开的秘密。蒸馏技术让他们可以把最强模型的能力逐步释放到消费级产品里,同时把真正的重武器留在家里。
你仔细看他们的产品线就会发现一个模式:MCP让所有应用都能接入Claude,Claude Code让开发者在Claude上面构建,Office插件让企业用户产生依赖,Computer Use让Claude接管完整工作流。这套组合拳打完,迁移成本会高到让人懒得换。等“神级模型”真正落地的那天,OpenAI和Google争夺的可能只是剩下的残羹。
说白了,模型本身正在变成生态系统里的一个组件,而生态才是护城河。这跟当年的平台战争是同一个剧本。
不过反对的声音也很有意思。有观点认为,一家每年烧80亿美元的公司,如果真有能改变世界的模型,藏着不发才是最不合理的商业决策。更可能的解释是:他们有一批优秀的工程师在高压下快速交付,产品质量其实参差不齐,很多更新是在修之前的坑。还有人指出,Anthropic最初“安全优先”的人设已经有些立不住了,密集发布更像是在开发者群体中重建信任的挣扎。
也有一种更冷静的看法:这跟什么秘密模型无关,Anthropic只是终于想明白了OpenAI很早就想明白的事情——光有好模型不够,得有分发渠道和产品生态。现在的竞争早就过了比模型参数的阶段。
两种叙事都有道理,但我倾向于认为真相在中间偏后的位置。Anthropic大概率在内部模型能力上领先公开版本几个月,这个优势足以让他们的产品团队用更强的工具来构建更好的产品,形成正循环。至于是不是存在一个“终局模型”,这个问题本身可能就问错了。AI的发展更像是连续的能力曲线,而不是某个藏在保险柜里的奇点时刻。
一个更值得关心的问题是:当AI公司开始用自己的AI来开发自己的产品,这个加速循环的终点在哪里?
每次行业加速,就有人喊“他们肯定藏着什么”——这种叙事的魅力在于把复杂的工程竞赛简化成一场悬疑剧。但商业世界最反直觉的真相是:真有王炸的人往往最先打出去,因为藏着不发的机会成本高到离谱。一家年烧80亿的公司,每多藏一天“终极模型”,就是在给对手多送一天追赶窗口。Anthropic的密集发布与其说是“精心计算的围猎”,不如说是一群顶级工程师在资本时钟下的极限冲刺。我们总想给混乱的世界找一个幕后主谋,却忘了大多数狂奔只是因为身后有狼。