大模型行业泡沫正在显现。
2022年诞生的ChatGPT,已经在相当程度上实现了大模型的Scaling law(尺度定律)和通用能力涌现。ChatGPT自身作为一个终端产品的商业化也持续有不错进展。据2024年7月的非公开数据,OpenAI的ARR(年经常性收入)已经达到了相当可观的41亿美元。
但这些收入都是在极度高昂的算力、研发和运营成本基础上实现的,而且细看最近OpenAI的发展,也很难称得上“顺利”。今年以来,包括联创约翰·舒尔曼和伊利亚·苏茨克沃在内的多位核心高管已离开,9月下旬更是接连发生了首席技术官(CTO)米拉·穆拉蒂离职与苹果退出参与其最新一轮融资谈判的两大事件。
在华映资本看来,只有当GPT真正赋能所有上层垂直行业应用场景,即实现所谓大规模落地实践,以平台形式实现商业化,OpenAI开创的LLM浪潮才算彻底到来。但当前,无论是在to C还是to B侧,GPT都更像是一个超级APP,而非一个类似IOS的底层平台。GPT插件和GPTs已经证明了底座LLM不能简单复制IOS的App Store。
虽然OpenAI刚发布的o1模型用self-play RL的方法将scaling law推到了一个新的层次,实现了更强的推理逻辑能力,但上述“平台化瓶颈”并未得到根本改变。各垂直场景目前都尚未看到真正全面爆发的趋势。无论是在创业还是投资层面,大模型行业泡沫都已显现。这背后,限制GPT进行平台型商业化的根源究竟是什么?
在今年上半年推出的《再访硅谷:生成式AI随处可见,VC开始关注国家安全类项目丨华映资本全球化观察》中,我们介绍了在生成式AI的浪潮之中,硅谷在Agent、具身、算力、无人驾驶等领域的发展情况,也提到华映关注“有底座大模型算法能力的垂直整合应用层公司”,当时华映资本已预见了“应用方数据难整合”将是“GPT平台型商业化”的底层制约。
以下我们将结合近期在硅谷深入走访当地多位大模型从业者后总结的大量心得,继续对大模型创业、投资的困局以及潜在破局方案进行更详细拆解。
文章篇幅较长,请参考以下目录:
文章导读
⊙AI投资逻辑困局
应用场景派
底层技术派
⊙技术和商业化路线困局
人工智能产业化的本质
数据困局
算力困局
⊙潜在破局方案
借鉴互联网时代的思考
短期投资策略
长期可能演变
⊙总结
笔者为华映资本海外合伙人、北大计算机学士及美国南加大多智能体(Agent)方向博士,Robocup冠军队成员、腾讯云计算早期T4专家级架构师。本文既非学术论文、也非商业行研报告,而是以一个AI学界出身、亲历硅谷多周期的投资人视角分析现况和预测趋势。观点可能存在很多反共识之处,未必正确,但希望这些视角能对您有所启发。同时,硅星人驻硅谷资深记者Jessica对本文内容亦有贡献。
01、AI投资逻辑困局
目前AI领域投资人以及创业者(尤其在国内)主要分成下面两个"流派":
>>>>应用场景派
持这个观点的投资人,其投资标的是依靠对底座模型的调用实现垂直行业大模型商业化的公司,创始人通常是场景侧或产品背景,对于底座模型的深入理解并非必要。在做该种投资选择时,需要应对以下问题的挑战:
1.预测LLM能推动应用场景爆发的底层driver究竟是什么;
2.这个driver是否能持续、未来发展走向是什么;
3. 应用的全面爆发需要经历哪些milestones。
如果投资人对以上问题没有完全自洽的解答,盲目乐观押注应用场景的爆发,将催生投资和创业的泡沫。
>>>>底层技术派
持这个观点的VC或创业者更聚焦底座大模型,即底层平台,认为未来一切都由AI平台驱动,所以不太纠结上层应用。这些大模型平台公司目前普遍遇到下面几个瓶颈:
1. 上层杀手级应用迟迟未出现,很多时候需要底座公司亲自下场去场景侧做定制化交付和实施;应用少也造成数据闭环无法形成;
2. 上层应用门槛薄,上下两层之间的边界不清晰,底座的版本更新会“不小心”碾压上层应用,如GPT-3.5更新至GPT-4后对Jasper的碾压;
3. 训练数据开始"枯竭", Scaling law面临停滞;
4. 大模型平台公司对算力越来越依赖,成为"金钱的游戏"。
前两条其实也恰是应用场景派遇到的根本问题,当下在上层应用迟未爆发、甚至业界无法预测爆发时间点及爆发所需经历milestones的背景下,上述两类投资方法论暂时未能奏效。
事实上这两种"流派"的区分,恰恰是受互联网时代的公司可以清晰切分为"互联网应用"和"互联网平台"上下两层的思维惯性所影响,但大模型在当前并没有到达互联网时代这个"分层解耦"的阶段,所以这两个流派的划分本身就值得商榷。
02、技术和商业化路线困局
>>>>人工智能产业化的本质
要破解上文提到的诸多疑问,我们必须先从理解大模型乃至整个人工智能浪潮的本质开始。广义的人工智能在1956年的达特茅斯会议即宣告诞生,但AI真正的产业化直到2012年左右AlexNet的出现才实现。AI产业化主要经历了下面两个阶段:
1. AI 1.0深度学习(2012年AlexNet引发):深度学习算法将海量数据进行训练后输出模型,来替代计算机科学几十年来积累的算法和规则,从而*次实现产业化。深度学习的大规模应用是“产业化AI”的本质,也是“数据定义生产力”的开始。
2. AI 2.0大语言模型(2022年GPT3.5引发):深度学习网络结合多头自注意力(Transformer),并运用decoder only和自回归机制,更大数据集带来更大参数量模型的通用能力涌现,实现了Scaling Law。
这两个AI产业化阶段的最根本点是:第 一次制造了对于数据和算力的充分应用和依赖。针对这一点,我们快速对比一下互联网和AI这两次大的浪潮:
以上这些是LLM之所以能推动应用场景爆发的底层driver,但同时也制造了极大的门槛和困局。
>>>>数据困局
我们先聚焦在数据这个维度,一个可以达成的共识是:自称“AI驱动”的企业都必须拥有足够的私有数据,才有足够的护城河。只依靠调用底座模型而不掌握也不积累私有数据的“AI公司”,即便直接调用API的短期效果很好,也并不具备长期价值。GPTs和类Jasper公司的快速衰败已证实了这点。
那些声称拥有数据的AI公司,也经常被数据的双刃剑困扰,即数据作为优势的同时也会制造瓶颈。针对这些公司我们须先问下面的问题:
1. 当前掌握的私有数据从何而来,数据量多大,是否有足够的“私有门槛”;
2. 私有数据清洗、抽取的成本是多大;
3. 清洗后的数据如何训练进入到垂直模型,从而推动底座模型在垂直领域进一步提高能力,推进Scaling law。
不能完整回答以上问题的“AI公司”,都面临长期价值主张是否成立的风险。但即便能满足这些条件的垂直领域公司,又会面对以下挑战:
1. 用户的私有数据和底座模型的预训练数据在最终效果呈现的归因上无法轻易解耦,应用层和平台层双方核心价值的边界不清晰。这个“紧耦合”同时也体现到了出现差错之后责任的切分上;
2.用户的私有数据在推动底座模型在垂直领域继续出现能力涌现的持续成本过于高昂。最直接的成本来自于数据清洗成本和算力搭建、运营成本。
*大模型的应用场景客户类型
我们先来看LLM的四类典型应用场景的用户,以及他们如何利用私有数据:
1. C端终端用户:直接和GPT聊天,或者运用简单提示词工程,这里可以看作也在通过提示词使用自身一些简单的用户私有数据;
2. B端终端客户:直接调用LLM的API接口来运用提示词工程;或将私有数据向量化后存入向量DB,再做RAG;或通过微调生成一些特定下游任务模型。很多这类客户反馈有不错的效果。
3. B端服务实施公司:帮助上述B端客户当中不具备这些能力的公司来交付和部署这些流程,尤其是RAG和微调。
4. 纯商业化产品公司:利用自身前期积累的垂直领域私有数据、在底座模型上生成垂直模型后,以标准化产品的形式服务自己的C端或者B端客户,获得商业化回报。
前面三类LLM的应用场景事实上都实现了不错的效果和商业化,也是OpenAI及类似底座模型企业商业化的主体。但这些并不能支撑LLM需要完成的平台性的商业化生态。只有当第4类公司大规模出现之后,LLM的平台性质的商业化才能真正爆发。严格来说,第4类公司里面有一部分是现有的成熟阶段公司, 如Adobe、Salesforce、Netflix等,他们借助LLM的能力提升了原来的产品,从而更好的服务了自己的客户。对比互联网时代,它们更类似之前的线下零售公司如苏宁、借助互联网建立了苏宁网购。但我们更倾向把他们归到第2类公司。
我们真正期待的是:与当年互联网时代的Amazon和淘宝这类新型纯互联网零售企业对应的AI时代的“原生应用”企业开始涌现。这样才能推动AI应用的大潮。可惜的是,目前从这类AI原生应用公司的终端客户的使用度上判断,并没有看到规模化的迹象,因而业界不断有“大模型是否到了瓶颈或者泡沫化”的讨论。
*垂直行业企业私有数据暂未被充分利用
聚焦上面列举的所有B端公司,尤其是众多垂直行业的企业,如金融、医疗、法律、教育、媒体、旅游,制造业等。无疑这些垂直领域的众多企业已经拥有大量历史积累的私有数据,即企业自有数据或专业的行业数据。而这些私有数据是否有效获得充分利用,将极为关键。
鉴于上文阐述的AI产业化的实质,数据运用已经成为大模型时代scaling law延续的基石,这点与AI之前的时代形成了鲜明分界。因此我们对于私有数据是否得到充分利用的定义是数据能否帮助推动scaling law,即能否持续促进最终大模型的能力涌现。这里依次探讨一下当前几种私有数据主流运用方法的实质和现况:
丨提示词工程、上下文学习
这些数据运用方法在C端以及小B应用里面占很大比例,实质上都可以归结为简单或高级的API调用。推动底座参数能力scaling law的力度有限。
丨RAG(检索增强生成)
是目前利用大部分企业私有数据事实上的最普遍实践。其实质是检索加上极其复杂的上下文学习。有时会结合Langchain等编排以及Agent智能体的方法,如微软的GraphRAG等。RAG要真正运用好的技术门槛其实比大部分纯应用公司能承受的水平要高,很多会涉及底座模型的细节,所以现在经常依靠第三方服务公司去完成。
同时业界关于RAG是否能最终推动scaling law也有很多争论,笔者倾向于借用很多之前文献里关于“学生参加开卷考试”的比喻:一位本科学生参加法学考试,但他从未学习过法学院的课本,考试时在他面前放了一堆可随时查阅的法律书籍,同时教会他一套极其复杂的查阅(检索)的方法,学生不需要都记住这些书里信息,只需遇到法律问题时随时查阅就能给出不错的答案。但这整个过程是否真正让他拥有了法学院学生的能力并持续提升、即推进了scaling law,值得探讨。
丨微调
企业客户基于底座模型做微调的效果在业界并没有共识,很多从业者反馈效果不错,也有不少反馈风险大且效果未必好,目前观察到的事实是微调在企业场景应用实践少于RAG,并且技术门槛相比RAG更高,尤其在RM (奖励模型)和 PPO(近端策略优化)方面,甚至几乎需要有很强底座模型经验的团队参与。
回顾历史, Google早期的BERT架构就定义了“通用任务预训练+下游任务微调”的流程,效果很好;进入GPT时代后,该架构得到延续,但因底座模型加大,微调成本升高,破坏底座能力(遗忘)的风险增加,所以OpenAI主要用它结合垂直领域的人类监督数据来做对齐微调:SFT, RLHF(包括RM、PPO)等,来消除有害、误导或偏见性表述,对齐本领域的价值观和偏好。延用上文关于学生的比喻,这类对齐式的微调有点类似于想让本科毕业生尽快进入律所工作,但并非用法学院深造来增加他们的法律专业知识,而只是通过密集的上岗培训来让他们具备法务的话术和基本素质。
至于其他更多各类的微调方法,实际运用案例似乎并不多,技术实现也常陷入矛盾:一方面想改动一些底座的网络参数,一方面又不敢动太多参数而损失底座的通用能力,这个尺度如果不是底座模型团队自己,其他人可能都很难掌握。全量参数“微调”已经接近下文提及的重新训练,风险和成本都增加;而无论是冻结还是低秩适应(LoRA)的方法,目前也都无法完全避免风险。事实上即便只做对齐微调,能做到最安全且最 优效果的可能也还是对底座模型实现非常熟悉的团队。
丨Agent
大范畴上可归类于后训练的高级手段,其中包含Langchain等编排同时结合反思、规划、记忆、工具使用、协同等产生LLM多次调用的方法,以及包括进阶RAG里面运用的诸多手段。Agent无疑是未来趋势,但运用尚在早期,有待进一步深化探索。目前无论理论还是实践上,都还暂难证明是否分解多步骤后对LLM的系统性反复调用(multi shot)就能让底座LLM延续scaling law,尤其是如何让私有数据更好地贡献于这个延续,尚不清晰。
丨重新预训练、继续训练
企业直接用自己的私有数据结合底座模型来重新训练自己的垂直模型,这在目前看显然最不实际,因此在普通企业用户里面运用的案例无疑最少,除了算力和成本因素外,还有以下原因:
· 重新训练的私有数据和通用数据集的量与质量的配比很难掌握,这是底座大模型厂商的最核心秘密和护城河。配比不正确,训练后模型的通用能力会大幅下降(灾难性遗忘)。对于继续训练,也需要去猜测底座模型用的通用数据集以及他们预训练到达的checkpoint等。Bloomberg运用自身大规模私有金融数据重新预训练出来了垂直金融大模型BloombergGPT,但效果不佳,使用度很低,大概率是这个原因;
·没有企业客户愿意直接把自己的私有数据直接拱手献给底座大模型公司去合作预训练。甚至很多本身拥有底座模型的巨头的内部应用产品部门也不愿意内部贡献这些数据。
尽管业界有观点认为企业用私有数据重新训练相对RAG和微调优势并不大,但应该无人完全否定这个优势。尤其当企业和底座模型侧能充分合作、即数据、训练算法乃至团队充分互通的时候,优势还是具备的。然而如何能规模性地达成这种理想化合作而消除上述的割裂,正是GPT类底座公司真正商业化的难题:
·垂直行业企业:拥有大量垂类数据,但对底座模型的训练算法、数据集乃至预训练到达的checkpoint都不了解;
·底座模型公司:难以触达和获取所有企业客户的垂类数据。
因此拥有数据的场景方和拥有训练算法的底座方在实践中产生了割裂,大模型技术栈的上下两层不仅没有相互促进而产生飞轮效应,反而互为制约。
企业私有数据无法完全参与底座大模型的继续训练,是造成“数据不足”困境的重要原因。一方面抱怨预训练数据“枯竭”,一方面又不能充分利用垂直行业的私有数据,是当下类GPT架构的一大遗憾。尽管业界也有大量对合成数据或仿真数据的探索,但其成本控制和输出质量都仍处于早期。过度注重成本高且质量参差的合成数据而放弃已有的大规模垂直行业数据的做法也值得深思。
综上所述,GPT定义的主流“底座预训练+私有数据RAG或微调”的架构暂时无法推动更大涌现。垂直应用场景企业的私有数据尚未能充分贡献于scaling law进程,这是大模型目前未触发大规模落地应用的核心根源之一。
>>>>算力困局
为打破英伟达显卡带来的高额算力成本投入的僵局,很多下游行业玩家推出“垂直行业小模型”或者“端侧小模型”,但可惜在技术路线上很难真正有捷径可走。这些小模型,除了通过RAG或者微调生成的模型、也包括大模型蒸馏后的小模型,即用大模型生产数据去训练出的模型, 以及对大模型裁剪、压缩、剪枝后的模型。他们都有一个共同点:起点和核心价值仍在大模型上。
除了上述这些之外,产业实践中也还存在以下类型的小模型:
·基于非GPT、或非Transformer架构的模型网络,如BERT、CNN、RNN、Diffusion以及RL等;
·其他更传统的非深度学习、甚至基于规则的“模型”。
这些小模型可看作是针对大量细节长尾下游场景的特殊处理,更多仍需要对位于中心的大模型去辅助展开,超额价值目前有限,其真正价值仍聚集于大模型。这里借用张宏江博士在腾讯深网的访谈里对于“小模型”的论述:
应该先“把大模型的性能做好,才能真正出现涌现”,再“通过蒸馏的方法和持续学习的方法把它做小,而不是一开始就做个小模型”。
03、潜在破局方案
>>>>借鉴互联网时代的思考
为进一步思考上文提及的技术栈无法解耦和分工的根本现象,我们再回顾一下互联网的历史。我们比较习惯提的互联网,事实上是从1994年浏览器的出现开始的“Web互联网”,而广义的互联网早在1970到80年代就已经出现,最早的形态是FTP、Rlogin、Telnet以及Email电邮等“垂直整合应用”的产品形态。直到Web和浏览器作为平台(下图中的绿色框) 出现之后,大量类似Yahoo等基于网页形式的纯应用才真正与底层解耦,从而相继在各个垂直行业爆发,如零售行业的Amazon、旅游行业的Expedia、媒体行业的Netflix等等。
到了大模型时代,我们*看到的也是ChatGPT、Claude、Character。AI、Sora等“垂直整合应用”的产品形态,但由于前文提到的私有数据运用的困局,底层平台和上层应用充分解耦的阶段其实尚未降临。LLM大模型时代的平台(下图中的浅绿色框)尚未出现。
我们这里所说的平台更准确地应称为“操作系统(OS)”。OS的核心功能就是隔离上层应用和下层技术细节,让应用公司可以聚焦产品和运营、从而规模化实现落地和商业化。OS的具体例子就是互联网时代的浏览器、PC时代的Windows、以及移动时代的IOS和安卓。OS与思科这样的基础设施(Infra)的核心区别是:Infra的实质是工具,它无法将应用层与底层有效切分出来;Infra的调用者往往还是需要对下层技术有深刻的理解,才能将工具运用的好;所以Infra自身无法催生大规模应用生态。OpenAI与它的同行们误认为自己创造了类似苹果这样的的平台即OS,但事实上只是创造了类似思科的Infra。相比互联网和移动互联网的进程,可以说大模型还处在“前浏览器或前IOS时代”。
我们认为大模型时代和互联网时代类似,也会经历以下三个发展阶段(尽管每个阶段的历时可能与互联网不尽相同):
·阶段一:B/C端用户直接使用大模型;
·阶段二:出现各种垂直整合的大模型商业化应用;
·阶段三:上层商业化应用和底层平台充分解耦,落地应用爆发,底座模型规模性变现。
当前我们处在的是“阶段一”已经完成、“阶段二”刚刚开始的过渡时期。
>>>>短期投资策略
*“垂直整合应用派”
综合以上结论:大模型当下的技术生态架构尚未到达互联网成熟时期的清晰分层阶段,互联网当年的“应用场景驱动”的投资逻辑暂时难以套用。在此背景下,我们将建议“第三种流派”的投资逻辑,即聚焦既非纯应用场景、也非纯底座模型的公司,而是“垂直整合应用”公司。这类第三种公司的完整定义是:
具备底座大模型算法能力、但放弃做通用底层平台的端到端的垂直整合应用。
所有这三种类型的公司有可能会分别出现如下的发展:
丨应用场景公司
这类应用公司在大模型时代的创业壁垒会远高于互联网时代,可能很难保持在纯应用的形态:
1. 须将拥有私有数据作为先决条件,并有能力后期持续积累数据。互联网时代应用公司强调的“飞轮”效应,在大模型时代必须包含私有数据的参与,这成为飞轮形成前“冷启动”的最 大门槛;
2. 须技术栈下沉,不断拓展底座模型算法能力,持续将私有数据训练进应用侧模型,在垂直领域推动scaling law。
正因为此,对于“应用场景驱动”的投资机构而言,判断应用公司投资价值的门槛也大大提高,即不仅要判断创始人的垂直领域经验和产品能力,还要深入考察他们获取、清洗数据的能力,以及将这些数据训练到垂直行业模型的底座技术的水平。
丨底座模型公司
对于类OpenAI的底座模型公司、包括开源和闭源的公司,如Anthropic、Llama、Mistral、智谱、Kimi等,我们预测它们还会继续迭代模型从而延续scallinglaw,比如OpenAI最新的o1模型等。但这些迭代仍只会延续超级App的产品形态而无法短期成为底层平台。
对于这类公司,尽管短期探索平台型商业化面临难度,但若放弃作为通用平台的诉求,锁定一个垂直领域专心搜集垂类数据、从而训练出真正的垂直整合大模型的空间会更大。这对于OpenAI也许无法支撑目前估值,但对于其他估值略低的底座大模型玩家应该是可行出路。我们看到已经有不少这类公司在做类似的聚焦转型,但如果不能真正放弃想成为底层平台去赋能应用的述求,仍将陷入上述的数据困局。
丨垂直整合应用公司
这个第三种路径对于完全初创的企业显然是非常高成本高风险的,很难一蹴而就,因而可以考虑采用下面的三个循序渐进的步骤:
·步骤一:利用私有数据基于底座模型API加RAG搭建初始原型(同时全力融资和囤GPU);
·步骤二:基于底座模型结合微调和Agent等方法提高模型能力(同时全力融资和囤GPU);
·步骤三:利用更多私有数据开始做继续训练或者重新预训练(继续全力融资和囤GPU)。
在硅谷,“垂直整合应用”公司占到了VC投资的很大比例,如Cohere(企业大模型)、Harvey(AI法律大模型)、Perplexity(AI搜索)、EurekaLabs(AI教育)、Augment(AI编程)、HolisticAI(AI企业管治SaaS),等都近期获得不错融资。这些公司的创始人都是来自如Transformer作者、OpenAI、Deepmind、meta等头部底座模型背景、并深耕各自不同垂直场景。
红杉在2023年9月题为“Generative AI's Act Two”的博客里面也提到“Vertical separation hasn't happened yet”的说法,时间过去一年,我们认为这个“separation”依然没有发生,并因为上面提到的数据强耦合等原因,红杉博客原文说的“vertically integrated”还会是个常态。
在中国国内,这个类型的公司还比较少,核心原因在于具备底层模型能力的团队极其稀缺,但具备这些能力的团队又都执着于做底层平台的述求。随着几家头部模型公司(包括互联网大厂的底座模型团队)相继遇到上述瓶颈,它们中的一些核心技术人员会开始独立创办“垂直整合应用”公司;同时有几家头部底座模型公司自己也在转型到垂直整合场景,比如百川的医疗大模型、及零一的BeaGo等。
总结上文提到的大模型商业化的三个时期及当前可能的三个发展步骤如下图,上述所有这些中 美的“垂直整合应用”公司也都各自处于三个步骤的不同时间点。
*多模态和具身智能
在投资上述“垂直整合应用”之外,多模态和具身智能(多模态的一种形式)也是值得关注的投资方向。尽管它们更多是感知而非基础能力的提升,自身要超越纯语言大模型(LLM)而更快实现scaling law可能较难,但在纯语言大模型的生态建立遇到瓶颈之时,或许可以探索平行于语言模型的算法架构及数据栈型式来搭建第三方生态。篇幅关系,这里不做展开。
*完整技术栈、Infra、芯片
今天的深度学习和LLM的高速演进,仍然只是整个计算机科学技术栈的一个板块,而完整技术栈的所有模块都在被LLM牵动着产生颠覆式的迭代。所以大量的机会将来自看似不是AI自身的技术栈的其他角落,包括:
·Infra:包括底座模型自身,以及其他各层的Ops、各类toolchain,等等。华映资本两家被投公司星尘和天云数据,就是Data Infra的典型代表,目前与硅谷很多DataOps公司一样也都在积极做更适合AI 2.0的新兴数据栈的前沿探索。
·芯片:是解决算力困局的终 极手段。当前主流GPT架构之下日益攀高的算力成本压力和单一供应商依赖造成的焦虑,将帮助新型GPU公司突破英伟达的CUDA设定的禁区,从而在某些领域颠覆英伟达的垄断。
但上述两种机会都伴随一个巨大的前提:不论是Infra还是AI芯片创业的创业者,都需要对底座大语言模型自身有相当深入的理解和经验。这点与之前对于应用层创业的要求事实上是一致的。
>>>>长期可能演变
OpenAI要突破当前的“泡沫”焦虑,需要重点攻关的不仅是如何不断提高自己底座语言模型的能力,更是如何通过改进后的技术架构和商业生态,让其他拥有数据的第三方应用场景方尽可能参与到scaling law的进程中来。大模型技术栈发展依旧在一日千里,上文提及的很多担忧和“泡沫”有可能因为某些突破而得到一定化解。以下简单列出笔者有限思考后的可能性以及各自的挑战:
*新的后训练(Post-training)方法出现与持续优化
·RL(强化学习):OpenAI刚发布不久的o1的Self-Play RL在继续推进scalinglaw,但它自己也提到了关于RL作为推理阶段的scaling law和与预训练阶段的scaling law具有不同特性,甚至是否能将之称为RL的scaling law也有争议。但总之OpenAI的o1单方面推动底座推理能力的尝试只是刚起步,暂时无法让拥有大量私有数据的场景端客户参与进来、并长期受益。后训练潜在是可以offload给下游客户结合自己的私有数据来进行的,但目前o1也还未能让第三方复现。但即便能以某种形式开放出来、交给下游客户去持续进行RL算法更新,这样做之后,只会让客户参与门槛相比之前用RAG和微调等主流的后训练方法还要更高。
·RAG:如端到端的RAG、基于RAG的预训练模型等都是非常有益的尝试。但这类方法论也更验证了笔者前文阐述的“即便做RAG也要从理解底座预训练模型开始”的观点。
·Agent:如上文所述,智能体的探索具备巨大空间和机会,但如何最 大化融入用户侧的私有数据仍然是课题之一。
*预训练及推理成本和门槛大大降低
一方面算力层面即GPU芯片的突破,一方面是训练和推理的优化加速及工程化的进步。除此之外还有第三种可能,尽管前文重点提及的都是“AI三要素”当中的数据和算力的困局,但其实训练算法的突破和优化仍可能是最终降低成本的最 大推力,包括对自回归机制甚至Transformer即注意力机制本身的优化甚至重写等等。
*彻底改变预训练+后训练的模式
前两种方法都在试图拓展OpenAI既定路线的上升空间,但想彻底改变这个路线的难度显然要大很多。但当初投OpenAI的VC也未必料想到GPT路线可以从彼时占主流统治地位的BERT路线分叉出来、而用decoder only等机制打开了scaling law的全新空间。在未来几年之内,某个从GPT路线的再次根本性架构分叉,将会重复当年OpenAI的成功,但这次颠覆对象是OpenAI自己,由此带来的将是scaling law的又一次无比巨大的迈进。
04、总结
本文内容较多,我们最后归纳为以下核心两点:
1. 目前大模型的应用层和底座层尚未解耦,所以投资策略不建议只看纯应用或者纯底座模型,而可以暂时围绕上下层垂直整合的应用展开,同时需密切观察、等待真正的平台/操作系统的出现;
2. 应用和底座模型层未解耦的根本原因之一是在于数据在技术栈内的强耦合,包括预训练与后训练数据集、即底座模型数据与下游垂直数据的耦合,这个现况也是由人工智能即深度学习算法对数据依赖的本质所派生的。这些强耦合目前制约了scaling law的发展和大模型的规模化商业落地。