当前首发版本的Octave主要支持英语,其次是西班牙语,未来可能还会上线更多语种。该模型在Hume AI开发者平台上的使用强度有一定限制,现支持的音频格式有MP3、WAV和PCM。
Octave不仅支持生成带有人设和人类情感色彩的AI语音,还将推出语音克隆功能。该模型不仅能理解单个句子内的情感,还能捕捉上下文之间的情感联系,从而更具表达力和细节度。Octave能够解析剧本或提示词中的情节转折、情感暗示和角色特征,并将其转化为自然带感情的语音,听起来就像演员在朗读剧本一样。
基于提示词或剧本,Octave能够生成各种设定的AI语音。它会自动解析一段文字内容的含义和风格,包括人称代词、简称、用词等,从而生成与角色相符的连贯语音内容。用户还可以通过具体的角色描述来引导Octave,例如特定口音、人设特征、职业角色等。此外,用户可以选择跳过语音设计功能,直接在Playground上即时生成语音。
Octave还支持表演指令功能,可以基于现有语音类型,进一步用指定的情感或说话风格来朗读新剧本。Hume AI表示,只需一段5秒的音频,Octave就能快速克隆出其语音,但出于安全考虑,涉及较为逼真的孩童语音和特定人物的模仿语音将受限。
Octave现已在platform.hume.ai平台和Hume AI的API上线。在线平台上,创作者和开发者可以使用语音设计、表演指令、超过40种预设语音的语音库以及用于生成有声书、播客等长篇内容的项目界面(预览版)。而在开发者平台上,Octave可通过Python和TypeScript SDK访问,这些SDK处理身份验证并提供类型化接口,确保集成的可靠性。其命令行界面支持快速原型设计、测试及从终端批量处理。
目前,Hume AI的API允许开发人员每分钟对Octave模型发出最多50次请求,文本长度上限为5000个字符,描述上限为1000个字符。每个请求最多可生成5个输出,支持的音频格式包括MP3、WAV和PCM。
当地时间11月6日凌晨,特朗普在佛罗里达州棕榈滩会议中心发表讲话。华尔街投资大佬比尔·阿克曼此前在为特朗普拉票时呼吁选民不要只看特朗普这个人,而是要看他背后的整个团队
2024-11-07 14:05:10特朗普竞选团队都有哪些“大佬”减产已经成为瑞士制表业的共识。上市公司、瑞士历峰集团董事主席兼创始人Johann Rupert日前在年度股东大会上表示,奢侈腕表行业必须减产,以应对贵价时计需求的减少。
2024-09-13 16:45:40瑞士制表业大佬呼吁必须减产