中国电信发布单体稠密万亿参数语义模型 用了普通训练方案9%的算力资源
6月19日,中国电信人工智能研究院(TeleAI)与北京智源人工智能研究院合作,推出了全球首个单体稠密万亿参数的语义模型——Tele-FLM-1T。这一成就使TeleAI成为国内率先进入稠密万亿参数大模型领域的机构之一。
针对大模型训练过程中高算力消耗的问题,TeleAI与智源的研究团队采用了模型生长和损失预测等创新技术,共同研发Tele-FLM系列模型。与业界常规训练方案相比,这一方法显著降低了算力需求,仅使用了9%的算力资源。通过112台A800服务器,在四个月的时间内,团队成功完成了3个模型总计2.3万亿tokens的训练任务。
中国电信表示,Tele-FLM-1T模型即将开放源代码,旨在为行业提供万亿稠密模型训练的技术参考案例,助力解决模型训练中可能出现的收敛难题。
作为率先布局并开放大模型的央企研究机构,TeleAI在过去一年中展现了其在该领域的持续进步。继去年推出千亿参数级别的“星辰”语义大模型之后,今年2月,“星辰”大模型通过了“境内深度合成服务算法备案”。5月15日,根据相关公告,“星辰”大模型再度完成产品备案,这意味着它已具备正式对外提供生成式人工智能服务的资格。
在开源领域,TeleAI持续发力,相继公布了7B、12B、52B参数规模的大模型。随着TeleChat系列模型的问世,TeleAI还对其多个大模型应用项目实施了性能升级,例如,在某城市民服务项目中,集成TeleChat-52B模型后,整体服务效能提高了40%。
在零一万物创立一周年的时刻,CEO李开复公布了一项重要成果:公司的千亿参数Yi-Large闭源模型在斯坦福大学新推出的AlpacaEval 2.0评估中,赢得了全球大模型的最高胜率
2024-05-13 14:27:59零一万物千亿参数模型Yi-Large发布!李开复呼吁关注TC-PMF2024世界人工智能大会与人工智能全球治理高级别会议于7月4日在上海拉开帷幕。会上,百度的创始人、董事长兼CEO李彦宏进行了主题演讲,分享了他对当前人工智能领域发展的一些见解
2024-07-04 15:59:30李彦宏批“百模大战”:“卷模型”造成巨大的算力浪费民生证券最近的研究报告强调,量子计算作为一种前沿技术,有望突破人工智能算力限制,带来颠覆性变革。它与传统计算方法不同,不仅大幅增强了数据处理的并行性,还显著降低了能源消耗
2024-05-21 13:26:39机构:量子计算有望解决AI算力瓶颈黄仁勋最近亲自向OpenAI赠送了全球首台Nvidia DGX H200超级计算机,这一举动再次凸显了英伟达与领先研究机构在推动AI、计算及人类进步方面的合作
2024-04-30 09:08:51黄仁勋的“人肉快递”6月7日,阿里云在技术博客上宣布了一个重要进展:他们发布了名为Qwen2-72B的开源模型,这款模型在全球范围内以其卓越的性能脱颖而出
2024-06-07 10:49:47阿里云发布开源模型Qwen26月20日,Anthropic发布了一款名为Claude 3.5 Sonnet的AI模型,这款模型在多个领域超越了竞争对手,包括GPT-4o及自家的Claude 3 Opus
2024-06-21 10:45:07Claude3.5突然发布!GPT-4o不香了