AI数据告急,大厂盯上廉价年轻人
互联网大厂正采取新策略获取人工智能(AI)训练所需的新数据:他们直接招募“AI录音员”,支付每次约300元的报酬,定制专属的语料库。在北京,某大厂从年初就开始邀请普通人参与,每次需两人一组,进行3小时的录音,其中包括自由聊天与有提示词的对话,确保内容充实且符合要求。录音过程中,至少两名员工会全程监督,以保证录音质量和信息含量,避免低质量内容,并强调不能改动预设的提示词。
二线城市的如成都、太原、贵州等地,已成为字节跳动、百度、阿里巴巴等企业构建AI数据资源的外包中心。据知情人士透露,这些公司过去招聘的数据标注员和方言朗读者门槛较低,但现在更倾向于聘请来自顶尖高校的实习生来管理外包项目。
AI大模型的发展依赖于数据、算法和算力,其中,高质量的数据是训练模型的基础。然而,公开可用的互联网数据正面临枯竭,预计在未来几年内,科技公司将耗尽可用于AI语言模型训练的数据。这迫使大模型团队寻找创新途径,以获取能有效“喂养”模型的新数据。
为了避免因使用未授权数据引发的法律争议,一些大型科技公司开始自己动手制作数据,力求数据的时效性和高质量。他们绕过第三方平台,直接参与设计AI所需的“剧本”,探索维持模型竞争力的新路径。
在社交媒体平台上,出现了标价300元一次的AI录音兼职广告,吸引众多求职者。尽管报酬诱人,但这份工作并不轻松。应聘者需先提交样音,通过严格筛选,随后参与长时间、高要求的录音环节,包括自由聊天和依据特定提示词的对话。整个过程受到严密监控,任何影响录音质量的因素都需要纠正重录。
除北京外,该大厂还在多地招募录音员,显示了其对独特且高质量数据集的重视。同时,行业内部对数据的渴求导致“砸钱买数据”的现象普遍,不仅直接购买,还通过设立专门岗位如“大数据标注师”来收集和处理数据。然而,高质量数据的获取对于许多初创企业和AI四小龙来说仍是一大挑战,因为核心数据通常被大厂掌控。
大模型在处理用户请求时偶尔会出现“幻觉”,即生成内容与现实脱节,这进一步突显了高质量、针对性数据的重要性。为了解决这一问题并推动技术迭代,大模型公司可能不得不加大投资,购买或自建更精确、更高标准的数据集,以此作为商业竞争的关键。AI数据告急,大厂盯上廉价年轻人!
在二线城市就读普通高校的大学生明明,面临毕业求职的焦虑,他投入了2万余元参加当地一个名为“AI训练师”的培训课程,希望借此提升自己的就业竞争力
2024-08-02 10:05:07AI训练师培训盯上小城市青年就业现状与趋势深度观察在当今社会,青年群体的就业情况牵动着国家、社会与家庭的未来
2024-07-09 16:30:10年轻人买车更倾向科技大厂94年出生的外企职员Weiwei(化名)是有发言权的。早起一杯黑咖啡,空腹有氧走一波。然后是社畜日常的八小时工作时间,中午一般是一顿轻食,下午茶时间来一条蛋白棒再加一杯练前咖啡。
2024-09-18 16:01:43遍地轻食刺客李洪超 | 从孤帆远影到百舸争先近年来,李洪超及其团队在各种疾病领域的药物经济学评价方面做了很多卓有成效的工作。药物经济学是一门应用性非常强的实践科学,任何方法都需要在具体的评价项目中落地检验
2024-04-20 07:02:25肺癌“盯上”年轻人?专家回应在5月15日的凌晨,谷歌带着一系列创新之举重返舞台中央,意在AI领域,尤其是AI搜索方面,对OpenAI发起反击。他们展示的搜索技术革新,超越了简单的信息提供,转向成为问题解决与个性化服务的平台
2024-05-16 13:18:01国内大厂“魔改”AI搜索