大模型晚报|OPPO 研究院推出 RAM ,帮助标记图片内容

大模型资讯:

OPPO 研究院推出 RAM ,帮助标记图片内容

OPPO 研究院近日发表论文,介绍了一款专注图片标记的基础模型Recognize Anything Model ,简称为RAM。

据论文表示,RAM 中引入了一种全新的图像标记范例,对大规模图像文本进行训练,以此来代替传统的手动注释。

论文表示,通过评估测试,团队认为 RAM 在图片标记方面有着令人印象深刻的性能,其能力优于 CLIP和 BLIP。

Altman:OpenAI 并没有上市计划

据财联社报道,OpenAI 联合创始人 Sam Altman 近日在接受采访时表示,OpenAI 并没有上市计划。

Altman表示,鉴于公司结构非常奇怪,没有上市计划。OpenAI将自身定义为有限盈利(capped-profit)企业,这允许它筹集外部资金。

今年1月,微软又向Open AI提供了第二笔多年投资,投资据称高达100亿美元,从而帮助Open AI目前的估值接近300亿美元。

AI数字人服务商FOCO获数千万元天使轮融资,创新工场独家领投

据36氪报道,近日AI数字人解决方案提供商FOCO完成数千万元天使轮融资,由创新工场独家领投,远识资本担任长期独家财务顾问。

此次融资将主要用于技术团队的搭建以及底层技术的研发。

FOCO成立于2022年11月,团队背景主要来自清华、北大等高校。基于自研AI算法,FOCO能通过AI技术实现生成并驱动拥有多模态交互能力的数字人。

库克表示正在密切关注 ChatGPT

据 businessinsider 报道,苹果首席执行官蒂姆·库克近日在接受采访时透露,他正在使用ChatGPT,并对该工具的独特感到兴奋。

库克表示,苹果已经将人工智能技术集成到其产品之中,但大众并不认为这些功能是人工智能。此外,苹果正在密切关注 ChatGPT发展。

库克表示,由大语言模型驱动端聊天机器人有着巨大的前景,但也可能会出现偏见和错误信息等问题,因为此对于人工智能的监管是有必要的。

浙江大学联手字节跳动,推出语音合成系统 Mega-TTS

 arxiv 显示,浙江大学研究团队近日联手字节跳动,推出了全新 Zero-shot语音合成系统Mega-TTS。

据悉,当前的语音合成系统通常是通过自回归语言模型或扩散模型来生成语音,这会忽略语音的本质,导致输出结果可能出现劣质或不可控的情况。而该研究团队认为,可以将语音分解为内容、音色、韵律等不同的属性,并针对每个属性进行建模,为此他们设计出了全新的Zero-shot语音合成系统Mega-TTS。

Mega-TTS 使用大规模的野生数据进行训练,并以不同的方式来对不同的属性进行建模。实验结果表明,Mega-TTS 在语音编辑、语音生成和跨语音语音生成方面均有不错的表现,同时生成的语音在自然和稳定方面有着较为出色的表现。

LTX 宣布推出大模型产品 BondGPT,由 GPT-4提供支持

broadridge 今天宣布,旗下子公司 LTX 今天宣布推出一款对话产品 BondGPT,它将由 GPT-4提供支持。

据悉, BondGPT 可以回答与债券有关的问题,解决他们的麻烦。通过整合在 LTX 上的信息,该模型可以简化工作流程,并帮助用户在债券和投资组合的选择时提高效率。

商汤与上海AI实验室等发布“书生·浦语”大模型

据商汤科技官方消息,商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。

“书生·浦语”具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。全面评测结果显示,“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各个科目的数据集(GaoKao)。

2023世界人工智能大会主题和主视觉发布,微软、谷歌、英伟达、OpenAI等将参会

据上海发布公号消息,2023世界人工智能大会将于7月6-8日在上海举办,以“智联世界 生成未来”为主题,聚焦通用人工智能发展,营造良好创新生态,拥抱智能新时代,共话产业新未来。今年大会重磅回归线下,嘉宾总数再创新高。预计将有超1400位国内外大咖出席,包括图灵奖得主、诺贝尔奖得主、国际组织代表、国外院士、海内外企业家/CEO等。会上将重点围绕大模型、AI for Science、通用智能体、算力、元宇宙、人才等十大话题展开讨论。

中文在线等26家单位联合发布业内首份AIGC数据版权倡议书

由中国版权协会主办的远集坊第五十四期文化讲座《人工智能生成内容版权问题研讨》,本次活动中,中文在线、同方知网、中国工人出版社等26家单位共同发布了国内首份有关AIGC训练数据版权的倡议书。作为业内首份AIGC数据版权倡议书,其最大的价值在于两点:一是唤醒了国内AI企业关于大模型训练数据的版权意识;二是为AIGC研发者规避版权争议提供了方向性指引。

九号公司:公司与英伟达有业务合作情况属实

据中证报消息,网传九号公司-WD与英伟达有业务合作,九号公司-WD证券部工作人员回应称,消息属实,公司是和英伟达确实有一些业务合作。中信证券研报显示,近日,英伟达发布全新的自主移动机器人平台Isaac AMR,Isaac AMR的移动底盘来自九号公司,英伟达则主要负责软件系统的集成。

重点论文:

Mega-TTS:具有固有感应偏置的大规模零镜头文本到语音转换

在语音技术领域,将文本转换为语音的研究一直是一个重要的话题。而随着技术的不断发展,人们也开始关注如何实现语音风格的泛化。此前,相关研究通常采用音频编解码器将语音转换为隐变量,并使用自回归语言模型或扩散模型进行生成。但这种方法忽略了语音固有的属性,可能导致一些缺陷和控制问题。

因此,我们认为语音应该被分解为多个属性,例如内容、音色、韵律和相位,并针对每个属性进行适当的建模。在这个基础上,我们设计了一个新的大型零时刻 TTS 系统,名为 Mega-TTS,并使用大规模的野生数据进行训练。具体来说,我们采用了以下策略:

首先,我们选择频谱图作为中间特征,而不使用音频编解码器编码的隐变量,因为频谱图能够很好地分离相位和其他属性。同时,我们使用基于 GAN 的 vocoder 构建了适当的相位模型,避免了语言模型建模相位的问题。

其次,我们使用全局向量来建模音色,因为音色是一个全局属性,对时间变化不敏感。这种方法可以有效地控制音色的生成。

最后,我们采用基于 VQGAN 的声学模型来生成频谱图,同时使用隐变量编码语言模型来调节语调分布,以捕捉句子中短时间内的语调变化和长期依赖关系。

为了验证 Mega-TTS 的效果,我们将其应用于包含 20000 小时语音的多领域数据集,并对未知说话者进行了评估。实验结果表明,Mega-TTS 在零时刻 TTS、语音编辑和跨语言 TTS 任务中都超过了当前最先进的 TTS 系统。由于每个模块都有适当的感应偏见,Mega-TTS 的生成语音具有很高的自然性、鲁棒性和说话者相似性,这是其他系统所不具备的。

论文链接:https://arxiv.org/pdf/2306.03509.pdf

原创文章,作者:,如若转载,请注明出处:https://knewsmart.com/archives/158437

(0)
上一篇 2023年6月7日
下一篇 2023年6月7日

相关推荐

  • 复刻山姆和Costco,1688凭什么?

    撰文︱白丽 出品︱阿桶观察 勇砺商业评论 卷得不能再卷,是当下电商的真实写照。 2024年,电商的价格战内卷已经把压力传导至源头产业带,电商卖家逼着源头厂商提供更低的价格,造成很多偷工减料和降质减配的劣币驱…

    专栏 20分钟前
    4.6K
  • 丰巢没有安全感

    来源 | 伯虎财经(bohuFN)  作者 | 梦得  曾经“没人看好”的丰巢居然盈利了。 为了解决“最后一公里”难题,出现了众多的快递驿站和快递柜。虽然网上对驿站和快递柜吐槽颇多,但事实上,大家还是需要的。 以快递柜赛…

    专栏 20分钟前
    3.9K
  • 一夜之间,开学的大学生都在吃板面

    9月开学季,一款方便速食产品却在“嘴刁”的年轻群体中持续破圈,成为当代大学生入学的必备“神器”。 这正是今麦郎板面引发的一场板面“风暴”。谁也未曾料到,成立三十年的今麦郎,不但精准把握了“时代的胃口”,更是将…

    专栏 20分钟前
    4.1K
  • 倪叔观察:营销风口重回PC时代

    相信有些朋友看到这篇文章会有点懵逼。 什么?现在居然还有人提什么PC时代?还营销重回PC? 老粉都知道,倪叔不打诳语。没错,营销重回PC时代,可能是本年度迄今为止最令人意想不到的一个商业话题。 但是,这个话题…

    专栏 20分钟前
    4.4K
  • 闪回科技二度冲刺港股,深陷盈利困境,雷军看走眼了?

    一台手机的流通循环,起于产线,止于废弃。 废弃是消费电子产品生命周期的最后一步,但是过去没有产业链玩家会把这一步骤当作产业链的一环。而商业机会恰恰藏在这样“反常识”的领域。 中国循环经济协会的数据表明,…

    专栏 20分钟前
    4.6K
  • 又“复苏”又“变天”的出境游,是谁的“囊中之物”?

    今年的中秋节假期,出入境人数呈现新的高峰。这其中,海南出入境人员达1.6万人次,较去年同期增长85%,日均出入境人数超5900人次,单日出入境高峰超7600人次,海南各口岸出入境客流迎来“双向奔赴”。 图片来源于pixa…

    专栏 20分钟前
    4.6K
  • 放弃大闸蟹的中秋旺季机遇,徐记海鲜在想什么?

    秋风响,蟹脚痒。中秋前后,大闸蟹消费和销售的旺季就来了。送礼、聚餐,所有需求都聚在此时。 市场过热,乱象就会滋生。从阳澄湖的“洗澡蟹”问题,到蟹卡兑换骗局,大闸蟹几乎每年都会在这个时候占领热搜。 今年,…

    专栏 21分钟前
    4.4K
  • 中国CRM,步入「长期主义」河流

    在如今的2024年,销售易正在实现自己的底层进化,这种进化是关于边界,关于产品,关于生态,关于AI。  如果说在之前,销售易的产业势能伴随着的是自身的产品、服务、资本、市场需求等叠加的总和,那么如今,这家中…

    专栏 21分钟前
    4.4K
  • 云盘惊现陌生人照片?阿里云又双叒叕“翻车”了

    雷达财经鸿途出品 文|莫恩盟 编|深海 标榜“安全”的阿里云盘,却因为隐私安全方面的BUG“翻车”了。 9月14日,有多名用户反映,在阿里云盘创建一个图片类型的文件夹,可以看到其他用户的隐私照片。有网友对此感慨道,…

    专栏 21分钟前
    4.3K
  • 苹果的高光时刻,被华为截胡了?

    中秋之前的科技圈春晚,没能上演“火星撞地球”的大戏。苹果带来了史上最无聊的发布会,以往的科技惊艳感荡然无存,令这场“苹果VS华为”的正面对抗失色不少。 这也是市场的残酷性,如果不能持续掏出新鲜产品,很容易失…

    专栏 21分钟前
    4.0K

发表回复

登录后才能评论