AG游戏(中国)官方IOS|Android手机app下载 DeepSeek塞进苹果本儿, 分币不花收场“龙虾目田”

发布日期：2026-05-13 19:05 来源：未知作者：admin 浏览次数：

AG游戏(中国)官方IOS|Android手机app下载 DeepSeek塞进苹果本儿，分币不花收场“龙虾目田”

在agent期间最贵的是什么？是token。

一些重度agent使用者，一个月用掉几亿token，账单小几万块钱亦然常有的事。

然而当今开动，有这样一个斥地者他开源了一个土产货有打算，一台苹果条记本就能部署，也等于说，你从此收场了“龙虾目田”，跑再多任务，也不会再为token付出一分钱了。最要津的是，他用的照旧DeeSeek V4 Falsh。

几天前，antirez在GitHub上发布了一个神气，叫ds4。

这是一个非凡为DeepSeek V4 Flash写的推理引擎。一共几千行C代码，不错让DeepSeek V4 Flash这个模子在128G内存的苹果电脑上跑起来。

斥地者antirez，真名Salvatore Sanfilippo，是意大利表率员，同期他亦然开源数据库Redis的原作家。Redis其后成为全球互联网基础设施里最常用的内存数据库之一。

往好的方面去念念，DeepSeek影响力满盈大，眩惑到了圈内顶流的表率员，但是坏的方面是，DeepSeek这回果然免费了。

任何斥地者王人不错用ds4，去把DeepSeek V4 Flash装进我方的MacBook Pro里，土产货跑代码、土产货读高下文、土产货作念agent任务，而这一切的一切，不需要给DeepSeek付1分钱。

自然DeepSeek V4 Flash本人开源，可FP16精度的原始模子要吃掉284G内存，显存需求更是高达160G。

因此，念念运行它，你至少得有两张英伟达A100 80GB、一条512GB DDR5 ECC内存，以及一个4TB NVMe SSD。总老本50万东说念主民币。

而当今，一台3万块钱的MacBook Pro就能跑。

那antirez为什么偏巧选中DeepSeek V4 Flash呢？

原因是DeepSeek最适应被“塞进土产货电脑”。

它有284B总参数，满盈大；但每次推理只激活13B参数，又不像传统大模子那样千里重。

它扶植100万token高下文，适应编程助手这种长任务；同期KV cache压缩得满盈狠，给土产货内存和SSD留住了操作空间。

DeepSeek V4 Flash刚好站在了这样一个神奇的均衡点上，既大到值得折腾，又小到能被塞进苹果条记本里。

YC的CEO Garry Tan在X上转了这条音讯，只打了一瞥字：正不才载……100万token高下文窗口，可用的编程助手智商，全在一台128GB的MacBook Pro上，太猖獗了。

ds4究竟是什么？

先说论断，ds4不是一个模子，它是一台“专用发动机”。DeepSeek V4 Flash是车，苹果电脑是路，ds4进展把这辆蓝本更适应跑在云霄的大车，改到土产货机器上能跑、能接API、还能被coding agent调用。

往时大众念念在我方电脑上跑大模子，宽绰用的王人是llama.cpp这个器用。它的公正是什么模子王人能跑，Llama、Qwen、DeepSeek竣工扶植。

可问题等于，什么王人能跑，就意味着什么王人跑不到最快。为了关切悉数模子，llama.cpp必须作念许多融合，性能上不可能作念到极致。

antirez的念念法偶然违犯，他才不论别的模子生死，他就非凡伺候DeepSeek V4 Flash这一个，把它优化到极限。

他一共作念了3件事。

第一件事，是鉴识称的2-bit量化。

DeepSeek V4 Flash的架构是MoE（Mixture of Experts），284B总参数里，每次推理只激活13B，这13B是路由挑出来的些许个人人子集会。

就像一个器用箱里有284把器用，每次只拿出13把来用。这284B内部，有一大堆“备选人人”占了90%以上的空间，但它们不是每次王人用，仅仅候补。

antirez的作念法是，只对这批routed experts作念激进的2-bit量化，up和gate矩阵用IQ2_XXS，down矩阵用Q2_K，而模子里所计划键旅途上的组件，包括shared experts、projections、routing集会，一说念保持原始精度不动。

也等于说，antirez把这些“候补人人”狠狠压缩，压到只剩原来1/4的大小，但那些每次王人要用的中枢组件，一丝王人不动，保持原样。

这是一种鉴识称的压缩计谋，砍掉体积大头，保住质地命根子。

第二件事，是把KV Cache搬到SSD上。

DeepSeek V4 Flash扶植100万token的高下文，这颠倒于你不错把一整本演义扔给它，它能全记着。

但这样长的高下文，意味着AI在责任时要不休地回头翻看前边的内容。为了让这个“回头翻看”的动作不至于慢到卡死，AI需要把这些内容暂存在一个叫“缓存”的场合，便捷随时调用。

以前的作念法是把这个缓存放在内存里。内存速率快，AI每次生成一个字王人要不竭查这个缓存，是以必须放内存。

但问题是，如果让128GB内存的MacBook Pro跑DeepSeek-V4 Flash，光缓存就能把内存吃光，模子本人王人没场合放了。

是以antirez的作念法是告成把缓存扔到硬盘（SSD）上。ds4把一部分KV景况作念成可落盘、可复原的缓存，让长教唆词和agent反复续写时，不消每次从新惩处。

这听起来有点离谱，因为硬盘比内存慢多了。

然而当代Mac SSD满盈快，适看成念KV缓存永远化和复原。加上DeepSeek V4 Flash本人对缓存作念过压缩，读写量不大，是以硬盘完全顶得住。

收尾等于内存省出来了，100万token的超长对话果然在一台MacBook上跑起来了。

不外这不等于128GB MacBook不错毫无压力地把100万token一说念拉满。

按照ds4我方的施展，2-bit模子本人还是要占掉简短80GB级别的内存，着实宽泛使用时，100k到300k高下文会更践诺一丝。

第三件事，是纯Metal原生旅途。

antirez把悉数优化王人押在苹果电脑的GPU上。

因此他非凡为苹果芯片写了一套代码，让DeepSeek V4 Flash能在苹果电脑上跑得迅速。

至于CPU，并不是这个项倡导要点。README里也写得很直白，CPU景色咫尺还抵拒稳，致使可能触发系统崩溃。antirez进一步暗意，AG庄闲游戏中国官方app下载如果有东说念主真念念走这条路，后续大要还得靠社区来搭救。

在M3 Max 128GB的MacBook Pro上，实测速率是每秒能生成26个字摆布。M3 Ultra 512GB的Mac Studio上能跑到每秒36个字。

不算快，但写代码、调试这些宽泛责任完全够用。

更有真理的是，antirez是独自一东说念主通过GPT-5.5完成的通盘这个神气。

利好DeepSeek

阐述外媒报说念，DeepSeek咫尺正在寻求高达73.5亿好意思元的融资，梁文锋当今就处在这个要津的升沉点上，用生意叙事取代DeepSeek过往的时间叙事。

那投资东说念主看什么？不仅仅看模子跑分，不仅仅看API调用量，更看生态位和不可替代性。

一个国外著明斥地大佬，快意为你的模子写专用引擎，这本人就施展DeepSeek在国外有着一定的生态地位。

往时一年，中国开源模子的出海叙事里，主流议论表率是benchmark，MMLU、HumanEval、SWE-bench，一串又一串的数字。

但有东说念主快意围绕你作念二次工程，才代表你的模子被认同了。Anthropic用千问作念实验，Cursor蒸馏Kimi，这种认同比分数更值钱。

antirez不是AI圈里那种什么新模子王人要试一遍的博主

他选一个模子，然后还要花几周的时辰去写专用推理引擎、作念特制量化、搭HTTP就业层、作念agent集成测试，长远是他认为DeepSeek值得。

这就变终点于，一个有信誉的第三方，在用我方的时辰和名声给DeepSeek-V4背书。

说到国产模子出海，咫尺我能念念到的路有两条。

一条是API被调用。你提供就业，别东说念主付费使用，你是service provider，客户是consumer。

这条路很告成，也很践诺，别东说念主不错随时切换，你日复一日王人得对抗你的竞品，从性能到价钱。

另一条是模子被窜改。有东说念主把你的权重拿走，作念量化、作念蒸馏、作念专用runtime、作念土产货部署、作念agent器用链。在这条路里，你的模子成了材料。

材料和就业的区别在于，材料会被镶嵌到别东说念主的器用链里，然后就很难被换掉了。

举个例子，某个斥地者把ds4集成到我方的coding agent里，写了一堆成立文献、调试剧本、自动化经过。他的团队成员也王人民风了这套器用，公司的代码库里到处王人是基于DeepSeek土产货推理的调用。

这时候如果要换成别的模子，就不是“改个API key”那么肤浅了，而是要再行适配引擎、重写剧本、再行培训团队民风。老本太高，大要率就不换了。

这等于“被镶嵌”的粘性。

ds4把DeepSeek V4 Flash嵌进了Metal原生土产货推理这个场景。领域发稿，Hugging Face上antirez阿谁deepseek-v4-gguf仓库，就还是有25000次下载了。

每一次下载，王人意味着有东说念主在我方的机器上跑起了DeepSeek，粘性也就这样一丝一丝的斥地起来了。

更值得在意的是连锁效应。

Hacker News上有这样一条高赞议论，他说如果以后针对精准的GPU加模子组合构建超优化推理引擎会怎么？GPU越来越贵，空洞层去掉得越多，优化空间就越大。

这个标的一朝被考证，意味着每一代有重量的开源模子发布时，王人会有东说念主跳出来给它作念专属引擎、专属量化、专属agent接入。

颠倒于是每一代模子王人应该有一个我方的“antirez”，斥地出一个我方的“ds4”。

DeepSeek V4 Flash偶然踩在了这个着手上。

如果这套逻辑树立，那么后续每个V4 Flash的小版块迭代，王人会自然地被镶嵌到这个“一代模子配一个专用引擎”的轮回里。

梁文锋成了第一个吃螃蟹的东说念主。

DeepSeek也从一个模子品牌，酿成国外斥地者手里的基础设施材料。

关于现阶段的DeepSeek来说，这种“升维”终点迂回。

得不偿失

讲结束利好，必须讲另一面。

咫尺来看，DeepSeek的中枢生意化旅途是API。斥地者调用，按token付费，薄利多销。

这是DeepSeek最擅长的布置。

但ds4这种神气，实质上是在“劝退”一部分API用户。

你不错这样来交融，一个独处斥地者或者小团队，往时用Claude Code或者DeepSeek的API跑coding agent。coding agent是高token销耗场景，长高下文、多轮对话、不竭器用调用、反复重试。

按token计费的话，一个重度agent的斥地者每个月可能要花几千块钱的token用度。

然而当今他眼前出现了另一个选项。

花几万块钱买一台128GB的MacBook Pro，然后跑ds4。

前期干涉一次，之后推理莫得旯旮老本，数据不出土产货，延长完全可控。

必一体育中国官网入口

外网论坛上有个斥地者共享了他的措施：宽泛写代码、改bug这些肤浅任务，全扔给土产货的ds4跑，不费钱。只须碰到复杂的架构瞎想问题，才切换到云霄的DeepSeek V4-Pro或者Claude Opus。

高token销耗的部分被土产货化了，只须少许高价值调用还留在云霄。

颠倒于一分钱莫得给到DeepSeek，却在绝大大王人时辰王人在使用DeepSeek。

同期，antirez采取的量化措施亦然有“坑”的。

即使是鉴识称量化计谋，只压MoE人人不压要津旅途，也不可能完全莫得质地耗损。

外网论坛上还是有东说念主发出了测试收尾，ds4土产货量化版块在超2000行代码的文献里偶尔丢失变量作用域，幻觉略多，MoE路由层对量化噪声尤其敏锐。

这就引出了另一个更费力的问题，叫作念体验解说权。

就像DeepSeek就业器崩了，我不知说念是为什么崩的，我只会认为是DeepSeek不行。

用户调用DeepSeek官方API，如果恶果不好，他大要率会认为是DeepSeek我方的问题。但用户在土产货跑ds4时，面临的是2-bit量化、Metal runtime、SSD KV cache、高下文截断、agent成立等一整套变量。

这内部任何一个措施出问题，临了相通被归因到“DeepSeek不行”。

别东说念主帮你扩散模子，但他并不会帮你去赞赏口碑，主淌若东说念主家也没这义务。

更深一层看，“成为材料”和“成为平台”是完全不同的两件事，梁文锋更念念要的是后者，然则ds4却让DeepSeek成为了前者。

材料只会被镶嵌别东说念主的器用链，不可为DeepSeek提供生意闭环，只须平台才掌合手分发、计费、账户、数据、斥地者关系和升级节拍。

DeepSeek如果仅仅提供权重，被antirez、Cursor、多样土产货agent和第三方runtime拿去窜改，它自然赢得了名声。不外着实能留住用户的东说念主，可能是那些器用链的斥地者。

这等于开源模子的悖论。

模子越奏效，越容易成为别东说念主的底层智商；但底层智商如果莫得收拢斥地者的进口，就有可能被表层居品吃掉大部分生意价值。

是以ds4对DeepSeek不是肤浅的好音讯，也不是坏音讯。

不错详情的是AG游戏(中国)官方IOS|Android手机app下载，关于DeepSeek来说，他们又有故事不错讲给投资东说念主听了。

上一篇：上一篇：AG游戏(中国)官方IOS|Android手机app下载谷歌带头开倒车? 安卓旗舰重回8GB期间

下一篇：下一篇：AG庄闲游戏中国官方app下载 iQOO 15T将搭载2K珠峰屏及独显芯片Q3 支撑2K+144FPS

AG游戏厅

AG游戏(中国)官方IOS|Android手机app下载 DeepSeek塞进苹果本儿, 分币不花收场“龙虾目田”