前DeepMind大佬创业,做出喜怒哀乐以假乱真的AI语音大模型!美国情感智能技术AI创企Hume AI于2月27日发布了新款文生语音大模型Octave。该模型可以根据用户输入的提示词或剧本,生成具有人设特点、语调起伏和情感色彩的AI语音,并允许用户通过文本指令进行二次调整和创作。Hume AI由DeepMind前研究员Alan Cowen于2021年创立,最近一轮融资后估值为2.19亿美元。
Alan Cowen在接受VentureBeat视频电话采访时介绍,Octave能够理解上下文中的词汇,并预测适当的情绪、节奏、韵律和重音,使AI语音听起来更加人性化。相比过去机械化的AI语音,Octave旨在让AI语音更有人情味。这些AI语音不仅带有愤怒、悲伤或快乐等情绪,还能将多种情感交织在一起,例如“夹杂着幽默或恼怒的轻度沮丧”。Cowen认为,该模型适合用于有声读物、播客、视频画外音和视频游戏角色配音。
Hume AI在社交媒体平台X上详细说明了Octave的具体功能和训练过程。据透露,用于训练Octave的语言数据是传统文生语音大模型的1000倍,这使得Octave能够像人类演员一样理解剧本,并使用更逼真的情感、语义、节奏、词语和重音。其训练数据中包含了数百万小时的公开长篇语音数据和Hume AI独家采集的声音、视频数据。除了文生语音大模型,Hume AI还在利用Octave训练AI系统,以更好地预判用户的AI语音生成需求。
在一项人类评审盲测的对比实验中,Octave的输出在音质、自然度以及语音生成与预期描述匹配度等方面均优于ElevenLabs,表明其AI语音生成过程的可控性和质量高于行业水准。在推出Octave之前,Hume AI已推出了两代自研的同理心语音界面(EVI),声称EVI是第一个具有情商的对话式AI。
当前首发版本的Octave主要支持英语,其次是西班牙语,未来可能还会上线更多语种。该模型在Hume AI开发者平台上的使用强度有一定限制,现支持的音频格式有MP3、WAV和PCM。
Octave不仅支持生成带有人设和人类情感色彩的AI语音,还将推出语音克隆功能。该模型不仅能理解单个句子内的情感,还能捕捉上下文之间的情感联系,从而更具表达力和细节度。Octave能够解析剧本或提示词中的情节转折、情感暗示和角色特征,并将其转化为自然带感情的语音,听起来就像演员在朗读剧本一样。
基于提示词或剧本,Octave能够生成各种设定的AI语音。它会自动解析一段文字内容的含义和风格,包括人称代词、简称、用词等,从而生成与角色相符的连贯语音内容。用户还可以通过具体的角色描述来引导Octave,例如特定口音、人设特征、职业角色等。此外,用户可以选择跳过语音设计功能,直接在Playground上即时生成语音。
Octave还支持表演指令功能,可以基于现有语音类型,进一步用指定的情感或说话风格来朗读新剧本。Hume AI表示,只需一段5秒的音频,Octave就能快速克隆出其语音,但出于安全考虑,涉及较为逼真的孩童语音和特定人物的模仿语音将受限。
Octave现已在platform.hume.ai平台和Hume AI的API上线。在线平台上,创作者和开发者可以使用语音设计、表演指令、超过40种预设语音的语音库以及用于生成有声书、播客等长篇内容的项目界面(预览版)。而在开发者平台上,Octave可通过Python和TypeScript SDK访问,这些SDK处理身份验证并提供类型化接口,确保集成的可靠性。其命令行界面支持快速原型设计、测试及从终端批量处理。
目前,Hume AI的API允许开发人员每分钟对Octave模型发出最多50次请求,文本长度上限为5000个字符,描述上限为1000个字符。每个请求最多可生成5个输出,支持的音频格式包括MP3、WAV和PCM。
Hume AI对Octave进行了内部评估,将其与业内领先的AI文生语音大模型ElevenLabs进行对比。基准测试包含120个多样化语音描述的样本,结果显示,Octave在音质、自然度以及提示词匹配度方面均略胜一筹。
Hume AI目前采用订阅制收费方式,分为免费、Creator、Creator Pro和Enterprise四大类。免费版每月提供1万个字符的文本转语音,总时长约10分钟;入门版每月3美元,提供3万个字符,总时长约30分钟;Creator版每月10美元,提供10万个字符,总时长约100分钟;专业版每月50美元,提供50万个字符,总时长约500分钟。规模、商业和企业级接入使用收费标准则有所不同。
Hume AI的新文生语音大模型Octave及其情感智能语音技术有望解决长期以来AI语音应答机械、语调生硬、音色千篇一律的问题,使人机语音交互更接近人与人之间的沟通。同时,Octave也可以为影视、视听、新媒体、数字人等多个行业产出定制化配音,加速AI语音的商业化落地。
当地时间11月6日凌晨,特朗普在佛罗里达州棕榈滩会议中心发表讲话。华尔街投资大佬比尔·阿克曼此前在为特朗普拉票时呼吁选民不要只看特朗普这个人,而是要看他背后的整个团队
2024-11-07 14:05:10特朗普竞选团队都有哪些“大佬”减产已经成为瑞士制表业的共识。上市公司、瑞士历峰集团董事主席兼创始人Johann Rupert日前在年度股东大会上表示,奢侈腕表行业必须减产,以应对贵价时计需求的减少。
2024-09-13 16:45:40瑞士制表业大佬呼吁必须减产