随着OpenAI的图像生成功能完成重大升级,新的问题也随之而来。OpenAI首席执行官萨姆·奥尔特曼表示,ChatGPT的文生图应用需求过高,导致GPU过载。为解决这一问题,OpenAI将对ChatGPT生成图片的功能实施临时限速,降低单位时间内的请求处理量,以缓解GPU压力,并优先保障文本生成和对话等核心功能的稳定性。
3月25日,OpenAI宣布正式推出GPT-4o图像生成功能。该功能迅速走红,用户通过简单的文字描述或语音指令即可编辑、修改或生成图片,无需使用复杂的图像编辑工具。这种技术结合了自然语言处理与图像生成,大大降低了图片编辑的门槛。GPT-4o是一个多模态AI模型,能够接受文本、音频和图像的组合输入,并生成相应的图像输出。
GPT-4o图像生成功能具备四大核心优势:精准文本渲染、严格指令遵循、深度知识调用及创意拓展能力。测试表明,GPT-4o在生成带有英文内容的照片时表现良好,但在处理中文字符时仍有待提升。通过多轮对话优化图像时,GPT-4o展现了强大的上下文连贯性。例如,在生成一只戴着黑色墨镜的老虎后,进一步要求戴上侦探帽并生成游戏场景,GPT-4o成功实现了这一复杂指令。此外,GPT-4o还能应对包含多个不同物体的复杂网格图生成任务,尽管存在一些指令缺失的情况。
在实用性测试中,GPT-4o生成的传统中式风格餐厅菜单和科学示意图也表现出色。尽管存在不足,GPT-4o图像生成功能的革新性依然显著,为创意设计、教育教学、游戏开发等领域提供了强大工具。萨姆·奥尔特曼称,这一功能标志着“创作自由的新高点”,用户将借此释放更多视觉创意潜能。
作为AI领域的头部玩家,OpenAI背后的GPU储备是业内顶尖水准。微软作为OpenAI的主要投资者,在2024年购买了大量英伟达的Hopper芯片,使OpenAI的大模型得以在Azure云基础设施上进行训练。新功能面临的问题反映了AI多模态技术发展中资源与需求平衡的挑战。
OpenAI计划在未来几个月内推出GPT-5,集成多项技术,包括推理模型o3的技术。此前,OpenAI内部代号为“猎户座”的GPT-5项目已持续近两年,但目前进度严重滞后。每次大型训练都需要数月时间处理大量数据,目的是让“猎户座”变得更聪明。然而,该项目仍面临诸多挑战。
研究机构Gartner预测,到2026年,多模态生成模型的商业价值将占AI市场的45%。随着谷歌与微软等巨头的持续投入,生成式AI正从通用工具向产业基础设施演变,但其社会伦理和监管框架的完善仍有待探索。
在日本新内阁成立之际,媒体报道称首相石破茂在10月1日的内阁合影中因仪表问题遭到网民批评,特别是被指出“露肚子”的不雅形象。这一细节迅速在网络上引发热议
2024-10-08 16:33:00日本政府承认“P图”内阁合影