阿里打破自然语言理解世界纪录，AI常识推理水平正在逼近人类

新智派 • 2019年7月16日上午11:55 • 科技 • 阅读 215

7月16日消息，阿里AI在常识QA领域的权威数据集CommonsenseQA上刷新世界纪录，超过微软取得第一名，显著提升AI的常识推理能力。

CommonsenseQA是为了研究基于常识知识的问答而提出的数据集，比此前的SWAG、SQuAD数据集难度更高。目前最流行的语言模型BERT在SWAG、SQuAD上的性能已经接近或超过人类，但在CommonsenseQA上的准确率还远低于人类。

阿里打破自然语言理解世界纪录，AI常识推理水平正在逼近人类

CommonsenseQA数据集上的常识问题，大拇指朝上的选项为正确答案

自然语言理解（NLP，Natural Language Processing）是人工智能皇冠上的明珠，常识推理则是难度最高的NLP任务之一。在机器翻译、阅读理解等NLP任务上，AI的表现已经接近或超过人类水平，阿里AI就先后在国际顶级的机器翻译赛事WMT、机器阅读理解赛事SQuAD、文本阅读理解挑战赛MS MARCO等赛事夺冠甚至赶超人类纪录。

相比之下，AI的常识推理能力比人类差得多。常识是指绝大部分人都了解并接受的客观事实，比如盐是咸的、下雨了要打伞、村庄位于陆地上而非湖泊内等等。人在回答问题时，常会结合这些不言而喻的背景知识。但机器没有常识，无法将“马路上，人们撑着伞”的原始陈述与“外面正在下雨”的逻辑假设自动关联。

深度学习领军人物之一、图灵奖获得者Yann LeCun 曾有断言：最聪明的AI在常识方面也不如猫。在包含1.2万多个常识问题的CommonsenseQA数据集上，最流行的AI模型BERT的答题准确率为56.7%，远低于人类的89%。

阿里巴巴达摩院语音实验室提出了AMS方法，显著提升BERT模型的常识推理能力。AMS方法使用与BERT相同的模型，仅预训练BERT，在不提升模型计算量的情况下，将 CommonsenseQA数据集上的准确率提升了5.5%，达到62.2%。

阿里打破自然语言理解世界纪录，AI常识推理水平正在逼近人类

CommonsenseQA数据集的得分榜单，阿里AI刷新了世界纪录

阿里的技术突破将大幅提升下一代人机交互产品的常识理解能力，可应用于语音导航、智能电视、语音售票机等产品。

设想这样的场景：你开车寻找一个地处偏僻的村庄，村子不久前已经搬迁，但导航还没更新位置信息。村子所在地块被开挖成了人工湖，由于AI没有常识，导航直接就把你往湖心方向带。AI如果拥有常识，就不会犯这类“蠢萌”的错误。

达摩院表示今后将开源该模型和论文，与业界共享最新成果。

原创文章，作者：新智派，如若转载，请注明出处：https://knewsmart.com/archives/11976

0 0 打赏

微信扫一扫

关于作者

新智派

21.3K 文章

2 评论

1 粉丝

新智派首席客服代表

变身高人气“出货仓”！一手先货源有效缓解品牌商库存压力

上一篇 2019年7月16日上午10:05

华米科技发布全新系列手表 Amazfit GTR，24 天超长续航领跑智能时代

下一篇 2019年7月16日下午3:45

科技

跨越三千公里溯源天山鲜味容声寻鲜之旅解锁大冰象深冷锁鲜实力

当新疆天山的冰川雪融水，遇上一台能让三文鱼“冻30天仍可生食”的冰箱，一场跨越3500公里的“寻鲜”故事就此展开。7月7日，容声冰箱“寻鲜之旅”公益助农活动落地新疆伊犁巩留县天蕴三文鱼生态养殖基地，溯源天山冰川雪…

新智派
1天前
513
科技

扎根雄安，飞桥数智云助力企业构建 AI 新底座

当城市不断完善数字底座，大型企业也需要构建属于自己的 AI 底座。扎根雄安，飞桥数智云正在探索集团型企业级 AI 落地的新路径。 7 月 6 日，2026 全球数字经济大会雄安数智未来论坛在雄安新区举行。本次论坛聚焦数…

新智派
2天前
917
科技

智源悟界·RoboBrain Orca：AI进入Next State Prediction时代

大语言模型学会了预测“下一个词”，于是有了会写代码、会做题、会对话的ChatGPT、DeepSeek、Qwen。视频生成模型学会了预测“下一帧”，于是有了越来越逼真的图像和视频生成模型，例如Seedance、Sora。具身模型学会了预…

新智派
3天前
1.2K
科技

“人机共生，产需共融” 2026世界机器人大会新闻发布会在京召开

7月6日，2026世界机器人大会新闻发布会在北京召开，向全球传递以机器人科技赋能高质量发展、以国际协作共享创新成果的鲜明信号，让机器人更好走进千行百业、服务民生福祉，践行科技向善使命。全国政协常委、致公党…

新智派
3天前
1.2K
科技

当世界杯围挡照进城市烟火：海信冰箱一杯冷萃，致敬平凡奋斗者！

6月26日，美加墨世界杯小组赛激战正酣。远在大洋彼岸的赛场围挡上，“海信真空冰箱为食物休眠”的醒目标语随着转播信号传遍全球。而在地球这一端的青岛十二里街区黄岛路90号海信时光客厅外，一场同样温暖的城市活动…

新智派
2026年6月29日
3.8K
科技

内容破圈+精准触达：快手×京喜全域营销解锁品牌增长新引擎

近日，京东旗下特价购物品牌京喜携手快手平台，落地《京喜惊喜歌》全域整合营销活动，依托明星达人唱跳、线下全民广场舞、多平台矩阵宣推、全链路转化引流等多元玩法，打造了一场贴合大众消费场景的营销事件。项目…

新智派
2026年6月26日
4.5K
科技

「老铁梨园·非遗百戏场」收官，以非遗民俗祝福高考学子

民俗绝活齐亮相，百技闹屏嗨翻天！6月18日，快手「老铁梨园·非遗百戏场」在朝阳双塔万达广场迎来完美收官。本次活动集结全国顶尖非遗绝技达人，不只展现千年传统技艺的独特魅力，更借非遗民俗里的吉祥寓意，为万千…

新智派
2026年6月26日
4.4K
科技

九号智能电动车突破1200万台：扩大领先优势，打开增长空间

6月23日，九号公司宣布，九号智能电动车在中国市场累计出货量正式突破1200万台。从1000万台到1100万台，再到1200万台，九号持续刷新行业增长纪录。数字增长的背后，不仅意味着用户规模的进一步扩大，更意味着九号…

新智派
2026年6月23日
5.4K
科技

11000mAh电池+10000nits高亮屏，“耐用神机”荣耀X80 Pro Max发布

2026年6月22日，在“续航到顶，耐用到底”主题新品发布会上，荣耀正式推出X系列全新一代“耐用神机”——荣耀X80 Pro Max。凭借行业唯一11000mAh第四代青海湖电池、行业最强抗摔能力、行业顶级防尘防水，以及行业最亮1000…

新智派
2026年6月22日
4.9K
科技

十五万热爱，高光而来！BJ30旅行家高光版上市，全系享超级置换3万补贴6.99万起

6月12日，“十五万热爱，高光而来” BJ30旅行家十五万台下线暨高光版上市发布会在北汽株洲超级工厂举行。为进一步推进越野平权，让更多家庭享受轻越野生活，BJ30旅行家全系推出3万元置换政策，超级置换价6.99万元起。…

新智派
2026年6月18日
3.7K

发表回复

登录后才能评论

阿里打破自然语言理解世界纪录，AI常识推理水平正在逼近人类

关于作者

相关推荐

发表回复