学者谈AI穷尽知识时人怎么办!互联网是人类知识的汪洋大海,但并非无穷无尽。人工智能研究人员几乎将其耗尽。过去十年来,人工智能的进步主要通过扩大神经网络和增加训练数据实现。这种扩展使大语言模型在复刻会话语言和发展推理等能力方面取得了显著成果。然而,一些专家认为我们已接近扩展的极限,部分原因是计算所需的能源不断膨胀,同时也因为用于训练模型的传统数据集正在枯竭。
今年,一项研究预测到2028年左右,用于训练人工智能模型的数据将达到公共在线文本的估计总存量。这意味着人工智能可能在四年内耗尽训练数据。同时,数据所有者如报纸出版商开始限制其内容的使用方式,进一步收紧了数据使用权。麻省理工学院的研究员Shayne Longpre表示,这导致了“数据公共资源”规模的危机。
尽管专家们认为这些限制可能会减缓人工智能系统的快速发展,但开发者们正在寻找解决办法。例如,OpenAI和Anthropic等公司已经公开承认这一问题,并计划生成新数据和寻找非常规数据源。OpenAI的一位发言人表示,他们使用多种来源的数据,包括公开数据、合作伙伴提供的非公开数据、合成数据生成和来自人工智能训练者的数据。
数据紧缩可能会促使人们从大型通用语言模型转向更小、更专业的模型。过去十年中,语言模型的发展显示了对数据的巨大需求。据估计,自2020年以来,用于训练语言模型的token数量增长了100倍,从数千亿增加到了数万亿。尽管互联网上的文本总量巨大,但高质量的内容相对较少,且增长速度缓慢。
与此同时,内容提供商正越来越多地阻止网络爬虫或人工智能公司获取其数据用于训练。研究表明,在三个主要净化数据集中,限制爬虫访问的token数量从2023年的不到3%上升到2024年的20%-33%。目前有几起诉讼正在进行中,试图为人工智能训练中使用的数据提供商赢得赔偿。如果法院支持内容提供者应获得经济补偿的观点,那么人工智能开发者和研究人员将更难获得所需数据。
为了应对数据瓶颈,一种选择是获取非公开数据,如WhatsApp消息或YouTube视频转录。另一种选择可能是专注于快速增长的专业数据集,如天文或基因组数据。此外,还可以通过生成合成数据来补充现有数据。一些公司每天生成大量合成数据,与当前的人工智能训练数据集规模相当。
另一种策略是放弃“越大越好”的概念,追求更高效、更小的模型。研究表明,由于算法改进,每8个月左右,一个语言模型实现相同性能所需的计算能力就会减少一半。此外,让人工智能模型多次重读训练数据集也可以提高性能。未来,人工智能可能通过自我反思取得进步,结合自我思考和与现实世界的互动推动技术发展。
12月13日,广东省深圳市大梅沙海滨栈道发生一起游客坠海事件。据目击者称,一名28岁的贵州女游客疑似在拍照时不慎坠海,并被海浪卷走。14日,广东海警局证实已打捞出该游客的遗体,具体坠海原因正在调查中
2024-12-17 03:56:1628岁女游客疑因拍照坠海溺亡在全球能源转型的大背景下,中国作为世界第一大能源消费国,正在重新审视其能源战略。2025年,中国国家能源局宣布将加快规划建设新型能源体系,力争全年煤炭产量达到48亿吨左右
2024-12-17 03:55:50全年煤炭产量力争达到48亿吨左右快到年底了,今年科技领域里一个高频出现的词是低空经济。自去年年底国家将其列为战略性新兴产业以来,这个概念一直很火,甚至在今年两会时被写入政府工作报告
2024-12-17 03:50:48刷屏一年的飞行汽车能飞了吗上交所组织券商开展12月的自查工作,涉及客户交易行为、两融业务、客户适当性管理、交易及相关系统管理、承销保荐业务等多个方面。此举旨在督促券商查找业务管理中的薄弱环节,并积极整改落实
2024-12-17 03:45:08上交所要求券商对两融北京时间12月16日,目前原油变化率:-0.46%,经过8个工作日统计,预计油价下调20元/吨(处于搁浅调整范围),国内新一轮成品油调价窗口将于12月18日24时进行。...
2024-12-17 03:41:02油价又要调整