如果集合100个模型工程师的大脑,然后变成一个工厂

大模型,到底是一场无限游戏还是一场有限游戏?

ChatGPT打过照面的人开始畅想一场无边界的AGI愿景,但真的接近它的人,想法或许越来越倾向后者。

巨大的参数,巨量高质量的数据来源,以及融合在各种不同训练方法中的Knowhow,如果任何厂商说自己在三、四个月之内做出来一个跟OpenAI效果相近的超大模型,基本上都是唬人的。而如果能力达不到GPT-4,商用就无从谈起,GPT-3.5都不行。

6月末竹间智能CEO简仁贤这样说的时候,行业对于通用大模型的热度已经迅速降温。

两个月前在MIT发生的一次讨论中,OpenAI CEO Sam Altman现身,他表示诞生 ChatGPT 的研究策略已经结束,未来模型的进一步变大将不会进一步带来新进展。在描述 GPT-4 的论文中,OpenAI预估扩展模型规模扩大的边际收益将出现递减。而训练背后,数据中心的存量和建造速度也会成为限制。OpenAI6月除了推出了token数扩展到32000个的GPT-4-32k,也同时推出了另一个向下兼容的版本:基于GPT-3但模型规模更小的GPT-3.5-turbo

投资领域也开始有创业公司做通用大模型的机会是0”这样的论调出现,甚至如华映资本表示在未来5-10年国内能活下来并且产生商业价值的通用大模型不会超过三家。这样的呼声呼应了李彦宏以及李志飞等人在此之前对于通用大模型竞争的悲观前景。

图源:新浪财经

从商业角度,最有前景的大模型方向开始变成垂直领域,参数量则被校准到了几十亿到几百亿的区间。早在去年11ChatGPT出来后,简仁贤做了一个简单的测试,然后决定放弃AGI的方向。

2015年简仁贤离开微软互联网工程院,带着微软小娜Cortana的研发经验另起炉灶,成立竹间智能,主攻NLP(自然语言处理)领域,力图成为以理解人类语言和情绪为目标的科技公司。2017年公司开始商业化探索,2020年形成规模化落地。目前竹间智能已经为600多家客户做了NLP的落地。

竹间智能在国内ToBAI领域玩了8年的有限游戏。简仁贤对于大模型研发的门槛和机会有清晰构想。

通用人工智能(AGI)大模型的商业化路径势必通往ToC,但算力、数据,以及巨额资金对于竹间这样一家仍然保持初创公司体型的公司来说都是摆在明面上的巨大障碍。

但他也明白这场8年的有限游戏中,竹间智能得到了什么。

理性的放弃是为了在另一个方向上提前起步。ChatGPT在去年11月出现后,简仁贤很快决定推进Prompt Builder Model Factory (模型工厂)的研发,到现在已经8个月,Model Factory也引出了竹间在大模型上的新故事。

100位模型工程师的大脑

目前市面上几乎所有大模型都基于Transformer框架展开,或者说,我们在谈论的大模型更像是一个复杂的数据处理与模型训练工程。简仁贤说。

模型训练还是在复制别人,CoT(思维链)是人家的PaperInContext Learning也已经有很多研究者做了大量工作,包括Tree of ThoughtRLHF也是人家发明出来的一个方法,你只是把这些方法拿来再复现一次而已。

这并不是创新。但简仁贤认为更大的创新空间也从这里延伸出来——如何将这样的大模型训练任务批量化,规模化,并且做到低成本。

这也是为什么Prompt Builder Model Factory研发被这么早地提上日程。在竹间智能内部,Prompt Builder已经开始替代产品经理的角色,Model Factory 已经替代模型工程师做模型微调的大部分工作,并且渗透进所有关于大模型的研发体系。这个并不显眼的技术起点投射出竹间在大模型竞争中的入局野心。

将一百位模型工程师的大脑聚集成一个工厂,或者叫EmotiBrain

Prompt Builder所包含的Prompt模版集以及优化和管理能力,都被内嵌在大模型训练微调平台EmotiBrain Model Factory内,后者是竹间研发的一个大语言模型训练工具。

简仁贤演示了一下企业如何用EmotiBrain来训练出一个适合的模型。

这是一个流水线的训练方式。使用者选择一个基础预训练模型,然后选择对应的行业数据,企业自有数据,指令集数据,以及同时可以选择多种微调方法(整个fine-tuning的过程是自动化的)。所有细节都选定之后,平台智能的分配GPU资源,并开始执行模型训练。在EmotiBrain上,多个模型训练可以同时运行,使用者选定一个目标任务后,可以改变基础模型、测试数据以及微调方式来生成不同的模型,通过模型评测,并选取最优者。

EmotiBrain模型训练界面  图源:竹间智能

EmotiBrain能够实现从训练数据生成,数据梳理清洗,标注,到选择预训练基础模型,实验不同的微调方法,不同人员进行多次微调直到测试、部署以及最后应用的集成整体化。它可以进一步被拆分成多方面的能力,Prompt Builder是其中之一,另一方面,其内含的Model Factory拥有高质量的中英文训练数据集,支持Fine-tunePrompt TuningInstruct Tuning、LoRA、QLoRA等多种微调模式,可同时训练上百个大模型,大大减少训练最优模型的时间,也降低了模型训练成本;Chat Search则是一个大模型驱动的对话搜索引擎。

生成式AI的黑箱属性转变成模型训练的偶然性。这意味着企业在训练最适合自己的模型时很难一击即中,它是训练出来的,也是多次训练之后选出来的。EmotiBrain在多模型同时训练的基础上提供了一个模型评估机制。比如一个法律咨询场景下的对话AI,将多个训练完的模型呈现出来之后会以相同的提问同时测试各个模型,企业可以根据评估结果来选择更好的那个模型。

对于大量非AI领域的企业来说,聘请模型工程师是非常奢侈的事情,模型工程师人才短缺是一个大挑战。简仁贤说表示,“EmotiBrain相当于有100个模型工程师在帮你干活。这样一个将集体智慧凝结成自动化流程的过程也并不是一蹴而就的。

2017年推出机器人定制云平台Bot Factory后,竹间智能也同时开始了NLP模型的自动化训练,对于 Transformer 的模型开发也是从2019就开始的,积累到现在已经有超过1000个意图理解模型,500多个解析器,总共的模型积累超过3000个。与此同时,一个竹间内部的机器学习平台也在成型,并且开始承载整个模型训练的过程。

这一套模型训练的流水线机制在内部研发中打磨多年后,去年年中谷歌效果惊人的LaMDA2发布,竹间科技决定转向大模型,开始用Bloom作为target(被预测内容)来打磨自己的机器学习平台,并且尝试训练自己的基础大模型,现在的EmotiBrain也在机器学习平台能力扩展之后形成。

但一个大模型训练微调平台只是基础。

彭博行业研究近日的报告预测,目前市场规模仅为400亿美元的生成式AI2032年将会膨胀为一个1.3万亿美元规模以上的市场。而简仁贤对生成式AIToB领域的最终市场规模的预估也在数万亿级别,而这个市场中的胜负手最终将是产品化,规模化,与降低成本的能力。

“中国有14亿人,10亿以上的网民,但绝大多数人并不会使用模型,你要给他产品应用,而不是给他模型。

EmotiBrain是竹间智能“1+4”大模型产品体系中基础性的“1”,它的能力将会借助四个方面的核心产品进一步具像化。

产品化的能力

这四个产品方向分别是对话、对练培训、知识管理和写作助手。

Bot Factory+KKBot延续了竹间智能在对话方向的产品积累,前者包含大模型和快速模型协同的双引擎智能对话技术,可以实现对于问答的自动抽取和知识沉淀,在不断的人机交互中不断优化回答质量和速度。问答所形成的知识库,以及流程知识和图谱知识,也可以通过Bot Factory+来管理。

KKBot可以理解为个人或企业的办公Copilot,企业可以根据自身业务场景和需求在KKBot上选择适合自己的大模型,形成个性化的对话场景和功能,并且竹间提供私有化部署的解决方案来保证企业数据安全。Bot Factory+KKBot的组合使用则可以进一步强化由AI对话能力带来的生产力提升,两者的结合可以控制大语言模型胡言乱语的现象。

Emoti Coach是竹间智能研发的一款基于大语言模型的仿真对练软件,在大模型能力的加持下,基于企业自有知识与大模型具备的能力,通过简单提示就可以生成丰富的课程和对练场景,Emoti Coach的沉浸式特点意味着其对练环境逼近实战,也更容易获得真实的1:1对练效果。融入大模型能力后,它能够为练习者给出及时且细颗粒度的反馈。

可以自动构建知识图谱及知识管理的Knowledge Factory定位为企业级的知识工厂,提供了模糊搜索和语意搜索相结合的方式来检索企业中的相关文档,并且能够在文档之间建立智能关系网络。对于员工个体,Knowledge Factory提供续写、改写、翻译和总结等生成式能力来辅助提高工作效率。而严格的安全审核机制则会确保文档作为企业的知识沉淀能够避开风险。

竹间智能“1+4”大模型产品体系  图源:竹间智能

而针对文档创作,竹间智能研发了企业级的写作助手产品Magic Writer,可以进一步解放员工在文档上的生产力。借助内置的丰富文档模版,员工只要输入必要的关键词就可以自动实现文档的生成,而Knowledge Factory的内容生成能力与安全审核机制也会在Magic Writer中得到体现,可以依据企业私有数据来创作,避免通用模型会胡言乱语的情形。

外界对于大模型的关注多放在大厂与新的创业公司两端,前者有足够的资源、研发能力和自有场景,后者往往可以将瞩目的创始团队转换成巨大的想象空间。相较之下,在NLP领域扎根多年的公司反而被忽视。但当外界将视线更多聚焦到行业大模型与企业定制化模型上,竹间智能的产品优势开始显现出来。

企业需要一个能真正跨越大模型与用户之间最后一公里的解决方案,而不仅仅是孤立的服务或工具。一组零散的工具对企业是没有用的,因为企业没有那么多能做模型的IT人员,简仁贤说。

竹间智能积累了包括私有部署跟SaaS服务在内的六七百个大客户,AI产品也在多年的大客户验证中趋于成熟,“1+4”大模型产品体系可以看做是从前的产品和行业Knowhow用大语言模型来做升级,这是竹间自己的最后一公里,但在此之前,基础的产品化能力则是一段必须要用5-7年才能走完的路。

竹间提供的是一个端到端的解决方案,这是在NLP领域多年积累后的AI公司相比市面上广泛谈论MaaS的其他玩家所具有的独特优势。

“Model is new Code(模型就是新型代码)”。竹间提出了这样的理念。

20世纪90年之前程序员以纸带和纯文本形式编写代码,到之后集成开发环境(IDE)与提供代码补全和错误提示的语言服务器协议(LSP)的出现,人类的编码历史也是一条降低开发者输入门槛的历史。大模型的兴起已经席卷各行各业,未来的软件将由大型语言模型驱动,模型也就成了新的代码。

从这个意义上讲,为了弥合用户、企业与大模型之间的巨大鸿沟,负责大模型生产的流水线工厂会作为一种基础设施长久存在。竹间智能的机会也在这里。

原创文章,作者:,如若转载,请注明出处:https://knewsmart.com/archives/170378

(0)
上一篇 2023年7月5日 上午9:57
下一篇 2023年7月5日 上午9:57

相关推荐

  • 2024宝可梦深圳大师赛圆满结束

    岁末收官之战再创辉煌 深圳 2024年12月22日 /美通社/ -- 12月22日,"2024宝可梦深圳大师赛"(以下简称"深圳大师赛")于深圳会展中心圆满结束。作为2024年的收官之战,本次深圳大师赛的卡牌项目首次引入了排位赛与团…

    4小时前
    10.9K
  • 消息称OpenAI新模型GPT-5研发未达到预期:成本高昂 效果欠佳

    【TechWeb】12月22日消息,据外媒报道,AI初创公司OpenAI开发其下一个主要模型GPT-5的努力正落后于计划,其结果还不能证明巨大的成本是合理的。报道称,OpenAI已经完成了至少两次大型训练运行,其目的是通过对大量…

    11小时前
    11.9K
  • 苹果 AI 总结新闻闹乌龙,这比「标题党」更令人担心

    万万没想到,苹果 AI 也会有被大骂「标题党」的一天。这对于迟迟没有推出 Apple Intelligence 完全体的苹果可不是一个好消息。实际情况可能比「标题党」这个不痛不痒的形容词严重得多。如果说标题党只是通过夸张和…

    15小时前
    14.3K
  • Giift (Empuls) 入选《2024年Gartner®员工心声解决方案市场指南》

    旧金山2024年12月21日 /美通社/ -- Giift(Empuls)(前身为Xoxoday)连续第二年入选《2024年Gartner员工之声(VoE)解决方案市场指南》。 "我们认为,这一认可彰显了该平台日益凸显的全球影响力,其人工智能在驱动…

    1天前
    19.1K
  • 那雅风土志正式投入运营,文脉集团引领乡村振兴新风尚

    海南澄迈2024年12月21日 /美通社/ -- 在冬至团圆的美好时刻,那雅风土志于2024年12月21日在海南省澄迈县永发镇那雅村温馨启幕,以一场"冬至大如年 • 那雅小团圆"的祝祷活动,拉开了传统村落保护与利用的崭新篇章。…

    1天前
    19.8K
  • 为爱奔走35公里,壹基金为爱同行2024深圳盐田公益健行活动鸣枪开走

    深圳2024年12月21日 /美通社/ -- 2024年12月21日上午8:00,壹基金为爱同行•2024深圳盐田公益健行活动在深圳市盐田区东部华侨城巨石广场正式鸣枪开走。队员们三人组队,在规定时间内挑战35公里山海旅程的同时,带动…

    1天前
    21.8K
  • 在海外,要再造一个京东物流?

    物流巨头们的发展壮大,无一不与时代发展和环境变化密切相关。无论是UPS还是联邦快递,国际物流巨头的很大一部分成长红利,都来自其国内企业的全球化进程。中信建投曾经预测,如今的中国与此前美国历史上的情况类似…

    1天前
    22.8K
  • 能接阿里的盘,雅戈尔凭什么?

    收购银泰百货这场交易,又让低调的雅戈尔火出了圈。作为“接盘”的一方,雅戈尔给外界的形象一直是一个卖衣服的,稍有一些了解则会认为其不务正业、颇爱炒股,但实际上雅戈尔既不是单纯“卖衣服”的,也绝非传言的那样…

    发现 1天前
    21.5K
  • 30%倒戈,华为瓜分BBA 4S店

    30%比例,华为正在吞下BBA的4S店,就像10年前和小米抢手机渠道一样。在奥迪的4S店里卖的最好的车是问界**......当北京、郑州等地一汽奥迪的大型经销商集团转投问界冲上热搜后,有网友调侃,一代新A(AITO)换旧A(…

    1天前
    41.3K
  • PAC购物中心12月20日致新启幕 以"小而美"澎湃城市商业活力

    上海2024年12月20日 /美通社/ -- 12月20日,位于静安区核心商圈的PAC购物中心(后文简称PAC)致新启幕。这座商业体量约4.3万平方米的综合体,将办公、商业、自然环境和社交体验完美结合,在繁华都市中打造一处小尺…

    发现 1天前
    24.9K

发表回复

登录后才能评论