王小川的大模型寄托，仍然是搜索

• 2023年8月9日上午10:26 • 发现 • 阅读 56

以ChatGPT和Claude为代表的面向普通用户的生成式AI都面临一个类似的问题：它足够智能，但仍然不好用。

这个问题直白，却是一个相当终极的问题。大模型在一次次整体性的预训练中瞬间被灌入新的知识，但每两次预训练之间，限于训练成本等因素，总有一段不短的时间间隔。在这段时间里，新知识就变旧了。

于是虽然这些出色的大语言模型有极强的知识结构化能力，但对于更即时性的问题，以及大量的长尾知识，它们仍然一筹莫展。

持续进行预训练是大模型未来的一个进化方向，一个更大参数量级的模型在想象中可以更有效率的触及到长尾知识。但这两者似乎天然存在着成本与规模之间的矛盾。

不考虑成本，硅谷的工程师们已经在讨论怎么把1000万颗GPU联在一块做模型架构了。但这在目前仍然不是一条现实道路。

当下GPT-4的训练规模是2万颗，而要凑足1000万颗GPU，英伟达需要心无旁骛的苦干10年。

王小川在6月中旬Baichuan-7B发布的隔日去了美国，得知了“1000万颗GPU相连“的畅想，可能也更明确了百川智能在国内的前景。

大模型中的长尾知识与即时性，现阶段反而是看起来已经陈旧的传统搜索的机会。

重新出山的王小川一直在努力定义自己做大模型的正当性。他频繁强调自己和百川的搜索基因，并且在不同场合多次提到同一个故事：

“很多人说我特别适合做大模型，（但）我做了20年搜索，从来没一个人说过我特别适合做搜索。”

在王小川看来，搜索裹挟在移动互联网的大背景下，一刻慢处处慢，何况是和百度之间4年的差距。但来到大模型的战场，突然间过往皆为序章。搜索与大语言模型在技术有不少重叠处，但相比搜索，大模型更吸引人，也处处是新的。

从7月发布Baichuan-13B-Chat，短短一个月时间Baichuan-13B-Chat在Hugging Face上已经有了超过百万的下载量。而从4月公司名字官宣，到两款开源大模型的发布，四个月内百川智能已经在一些场合与智谱AI、MiniMax这些在大模型领域积累了超过两年的公司同样受人瞩目。

“现在103人了”，王小川透露，“差不多一天招一个人的速度。”

这是百川智能现在的规模。

在百川智能目前超过百人的团队里，有超过30%的人来自搜狗，这个王小川的旧事业。这个团队中最新加入的是洪涛，这位原来搜狗的首席营销官在未来将会负责百川智能的商业化业务。他在自己的朋友圈公布了这个消息，也预示百川智能的商业化即将开始。

百川智能在8月8日发布的第三个大模型似乎也在印证这一点。在7B和13B两个开源大模型后，百川智能发布Baichuan-53B，后者在参数量上相比之前大了数倍，并且这次的Baichuan-53B是一个闭源大模型。

在技术迭代上，Baichuan-53B开始“回归”搜索。

这里的“搜索”或许用“检索增强”来定义更加准确，简单来说就是给大模型外接一个通往互联网世界的路径，在接收到超出预训练范围内的提问时，模型会接入搜索引擎或知识库来进行具体的搜索，寻找答案。

2023年年初Google在AI顶级会议ICML2023发表的论文《Large Language Models Struggle to Learn Long-Tail Knowledge》曾对检索增强大语言模型有过系统的论述。

研究证明了大语言模型回答问题的能力与预训练期间看到的与该问题相关的文档数量之间有很强的依赖性。当模型变大或者见到相关问题越多的情况下，模型回答问题的能力越强。但当一个问题如果只在预训练阶段出现过10次以内，大语言模型回答正确的概率趋近于零——这点无论在Bloom或者GPT-3身上表现都相似。

但改进方法中，增加收集数据的规模或丰富程度对结果的影响微弱，而如果要扩大模型参数，Google团队的预测是一个千万亿参数级别的Bloom模型才能达到人类大脑对于长尾问题的准确率。相对来说，增加一个辅助检索模块是更有前景的方式。

最新鲜的例子就是ChatGPT Plugins。但由于OpenAI本身跟微软是两个独立的实体，搜索对于OpenAI来说“相当于一个黑盒”。

王小川表示相比其他大模型的检索增强，“（Baichuan-53B中）搜索跟模型的结合从非常底层的地方就开始去融合了 ”。他给百川智能的检索增强下了一个“搜索增强”的定义。

图源：百川智能

Baichuan-53B中的搜索增强系统融合了包括指令意图理解、智能搜索和结果增强等关键组件的多个模块。

在指令意图理解阶段，首先指令任务被细化为16个独立类别，分别以Prompt增强技术——即通过构造特定的输入提示来引导模型生成期望的输出——进行了个性化的设计和优化；而对于超参数的设定对模型在训练和生成过程中的性能影响，动态超参数调整技术，baichuan-53B采用了动态超参数调整技术来根据任务类型的特性自动调整和优化超参数。

在搜索结果环节，Baichuan-53B中包含一个搜索结果相关性模型，该模型会对从搜索内容和知识库中获取的信息进行相关性评分。该相关性模型也可以作为奖励模型，用于在强化学习训练阶段进一步优化意图理解模型，提高其对人类指令的对齐度，并更高效地调用搜索引擎；RLHF技术也将用于搜索结果的训练和优化，使得回答结果更准确并且人性化。

但在核心的“如何辨别这个问题是否需要调用搜索引擎或知识库”的决策上，百川智能称其“采用了一种灵活的策略”来生成精确响应，并未透露太多技术细节。对于接入的是哪一家搜索引擎，王小川表示目前还不便公开。

王小川表示，模型尺寸变大导致部署成本增加，是Baichuan-53B决定转向闭源的原因。但这个闭源的时间点仍然显得敏感。

此前Baichuan-7B以及Baichuan-13B曾经被质疑有C-eval测试集泄漏的问题，而有开发者表示Baichuan系列大模型的架构与Llama极度相似。等到开源的Llama 2在7月下旬推出，时间点在Baichuan-13B之后。相比LLaMA，花了四个月迭代出的LLaMA 2在预训练模型架构上几乎没有变化。

LLaMA在模型架构本身的优化上看起来开始停滞，这是否是形态可能也十分接近LLaMA的Baichuan-53B不再需要开源的原因？

对于这个问题，王小川表示LLaMA2比LLaMA1所新增的9个技术创新点基本都在Transformer框架层面，其中有6个在在百川自己研发的模型里已经做到了。“剩下两个没想到，有一个试完觉得不太行”。

而对于模型架构靠近LLaMA，王小川表示是出于生态兼容的考虑。

“开源之后，生态会围绕LLaMA去构建，在国外有很多开源项目是跟着LLaMA去推动的，（这也是）我们的结构为什么跟LLaMA更加接近。”

对于王小川和百川智能来说，搜索与大模型的融合将成为未来百川系列大模型稳定的亮点，Baichuan-53B的API也会在下个月开放。而按照设想，在这个50B的大模型发布后，百川智能将在Q4发布一个175B的的千亿大模型。除此之外，王小川透露，百川智能面向C端的“超级应用”也已经开始部署，并且不只一款。

一切都在紧凑的推进。而首先，“年底做出中国最好的大模型”这句话的兑现时刻已在眼前。

原创文章，作者：，如若转载，请注明出处：https://knewsmart.com/archives/182767

0 0 打赏

微信扫一扫

关于作者

0 文章

0 评论

粉丝

8大能力+4大优势山石网科智源XDR平台新版本发布

上一篇 2022年6月23日下午5:56

星汉德生物在欧洲肝脏研究协会2022年国际肝病大会上公布临床数据

下一篇 2022年6月23日下午5:56

百智WiseNote发布：多智能体驱动，重新定义知识生产全链路

“养龙虾”了吗?随着大厂纷纷下场帮职场人免费安装“龙虾”,AI智能体热度飙升。 OpenClaw推出的“龙虾”AI智能体,号称能自动处理任务、写报告、搜资料,很多人费劲下载训练,但部署难、安装成本高、实际操作安全性低等问题…

新智派
发现 2026年3月17日
7.0K
发现

舒尔MVX2U GEN 2数字音频接口闪亮登场

支持移动设备，随身携带录音室及专业音质 2026年3月4日 — Shure发布MVX2U Gen 2数字音频接口，这款紧凑的单通道解决方案，让使用XLR话筒的流媒体主播、播客创作者和内容创作者能够更轻松地进行专业录音。MVX2U Gen …

新智派
2026年3月5日
12.1K
发现

启动｜2026 中国边缘计算20强：AI 时代的边缘力量正在集结

在这个被大模型和智能体（Agent）疯狂重塑的年份，我们不得不承认一个残酷的事实：传统的边缘计算叙事，正在失效。当算力从中心有序下沉，当 AI Agent 开始接管终端决策，边缘计算不再只是网络的延伸，而正在成为…

新智派
2026年1月23日
16.5K
发现

全域聚势，年货爆发，快手磁力引擎2026年货节营销作战图重磅发布

随着农历新年的脚步临近，年货消费市场正蓄势待发，品牌商家也将迎来抢占用户心智、沉淀长期资产的黄金节点。快手凭借独特的“老铁”社区文化、真实多元的内容生态和高效转化的商业基础设施，早已成为品牌春节营销的…

新智派
2026年1月7日
17.6K
发现

Beats 携手 Travis Scott 打造全新宣传片《只管去梦》，重塑自信与信念的力量

宣传片以 Beats 最新产品 Powerbeats Fit 及 Travis Scott 未发行单曲为特色灵感源自 Travis 2011 年的一条推文，由 gamma. 的首席执行官 Larry Jackson 和著名导演 Anthony Mandler 联手打造上海 2025年12月19日…

新智派
2025年12月19日
9.2K
发现

Startek澳大利亚公司荣获最佳雇主和ABA100®商业卓越奖

- 两大奖项旨在表彰其在职场文化和商业管理方面的卓越表现澳大利亚墨尔本2025年12月19日 /美通社/ -- 奉行数字化优先的全球客户体验（CX）解决方案提供商Startek®宣布，2025年，Startek澳大利亚公司在Australian B…

新智派
2025年12月19日
10.8K
发现

乌兹别克斯坦加快推进工业园区建设，吸引国际资本布局

Yangi Avlod：乌兹别克斯坦加快推进工业园区建设，吸引国际资本布局乌兹别克斯坦塔什干 2025年12月19日 /美通社/ -- 乌兹别克斯坦正通过建设工业园区，在中亚打造创新物流枢纽。 DP World正在该国开发多式联运枢纽…

新智派
2025年12月19日
10.7K
发现

是爱心也是乐高®积木套装：乐高集团"为爱拼搭"项目为困境儿童解锁更多玩乐可能

毕节2025年12月19日 /美通社/ -- 用乐高®积木拼搭一颗爱心，会给乡村地区儿童带来什么？今天，在贵州省毕节市金沙县桂花乡中心学校的操场上，这个问题有了温暖而具体的答案。多名来自全国各地的爱心志愿者代表们将…

新智派
2025年12月19日
11.2K
发现

麦当劳中国餐食包装绿色再升级，全国餐厅将陆续启用生物基新包装

上海2025年12月19日 /美通社/ -- 今日，麦当劳中国宣布餐食包装绿色再升级——全国超7500家餐厅将陆续启用生物基新包装。升级后，麦当劳主要包装材料为聚乳酸（PLA）及纸材，预计每年减少石油基塑料使用量超5800吨[1]…

新智派
2025年12月19日
10.6K
济民可信创新缓释制剂JMX-2005注射液获批临床

拟用于改善因周围动脉疾病引起的静息痛、溃疡等缺血性症状，有望为患者提供一种更为便利的新型治疗选择。南昌 2025年12月19日 /美通社/ -- 2025年12月18日，济民可信集团宣布，公司申报的2.2类及2.4类新药JMX-2005…

新智派
发现 2025年12月19日
10.2K

发表回复

登录后才能评论

王小川的大模型寄托，仍然是搜索

关于作者

相关推荐

发表回复