在生成式AI时代,大模型的三个支柱——数据、算法、算力都迎来新的发展阶段。在基于Transformer的算法进化,和“烧钱”的算力提升之后,数据正在成为制约大模型发展的瓶颈。
大模型已几乎用尽网络上所有容易获取的数据,如果缺少高质量数据,大模型可能将进入性能停滞的发展阶段。如果说在AI新纪元,数据资产是需要挖掘的金矿,围绕数据而设计的“卖铲人”将有巨大的发展机会。
在算法和算力领域,已经有OpenAI、英伟达等。在数据领域,最受关注的则是数据标注平台Scale AI,其在今年第二季度完成了10亿美元融资,估值飙升至138亿美元。
1.Scale AI早期业务主要是为无人驾驶企业来提供数据标注外包服务,在2022年后随着Scaling Law下大模型参数规模的快速膨胀及所需训练数据量的上升,与OpenAI等展开合作,逐步转型为提供大规模数据标注业务。
2.其将在数据标注业务中的know-how沉淀在数据引擎平台上,结合AI标注能力大模型解决细分场景下的数据质量差的难题。
3.Scale AI本身不提供大模型产品,而可以帮助客户测试大模型的性能,帮助客户对大模型进行微调、最终根据场景将大模型进行落地部署。公司因此从数据标注服务拓展为企业级数据集成公司。
4.技术和行业的双门槛。Scale AI有几十名相关领域的博士进行数据标注,并借此机会与拥有专业数据标注能力的有关人员进行了绑定,通过和重要行业客户的合作完成了行业知识的积累
九合创投在2014年投资了龙猫数据,这也是一家始于无人驾驶行业、兴于大模型时代的数据标注公司,龙猫数据创始人昝智认为,“当前是数据标注公司发展的历史性发展机遇。这个机遇来源于AI技术的快速的提升,特别是大模型在所有的领域的应用扩展,使得高质量数据的需求持续增长。作为中国本土数据标注领域的领先企业,龙猫数据在这波浪潮中扮演着关键角色。”
2023年,龙猫数据推出了无人驾驶大模型AutopilotGPT,能快速处理和标注大规模驾驶数据,提高数据处理效率和标注精度,同时引入先进的自动化数据标注工具和数据合成技术,降低人工标注成本,覆盖大模型公司。
昝智认为,Scale AI的成功经验对于中国的数据标注行业具备极其重大的参考价值。他指出:“Scale AI之所以能够迅速崛起,并非仅仅依靠算力和算法,而是通过技术积累和行业知识的深度结合,成功搭建了从数据标注到AI评估的完整闭环。这种能力使得Scale AI在大模型时代不仅扮演了数据供应者的角色,更成为了AI领域的重要推动者。”
在九合看来,数据市场仍处于快速发展阶段,中国拥有比国外更丰富的应用场景。随着AI对不一样的行业的渗透,数据将成为大模型时代价值飙升的金矿,“卖铲人”或者“数据铸造厂”将成为大模型浪潮中最具确定性的获利者之一。
“很多人仍然关心模型,但也很关注数据。数据重新定义了我们对模型的思考方式。”——李飞飞
十几年前的计算机物体识别依靠抓取特征,然后给出结果。但计算机抽象出来的模型,仍然经常会出现认错的情况。当时很多研究人员专注于构建更好的算法,但时任斯坦福大学任助理教授的李飞飞意识到,瓶颈可能在于缺乏大规模、高质量的数据集,如果数据无法反映真实世界,再好的算法也难以通过训练达到模拟人脑的效果。
于是,她开始搭建ImageNet数据集,并依托亚马逊众包平台 Mechanical Turk 分发给全球用户“接单”,解决了人工标注的庞大工作量,这可能是数据标注众包平台的前身,数据标注行业由此拉开序幕。
2012年,AlexNet算法成为李飞飞发起的ImageNet大规模视觉识别挑战赛的冠军,识别准确率高达85%,创造了计算机视觉识别领域的世界纪录。AlexNet 是一种卷积神经网络(CNN)模型,自此引发了新一代神经网络的热潮。
2017年,ImageNet挑战赛落幕,完成了自己的使命,获奖者的算法正确识别率已超越人类。但ImageNet的影响仍在延续,它让大家意识到数据在AI发展中的重要地位。
ImageNet和对数据的重视加速了机器学习的突破,而机器学习的兴起反过来又带动了数据标注等产业的发展。
数据标注是AI领域的一个关键步骤, 提供高质量的标记数据,用于训练机器学习模型,并为模型训练提供洞察。常见的标注任务包括图像分类、物体检测、语义分割、文本分类、情感分析、语音识别等。
在深度学习算法兴起前,对大规模标注数据的需求较小。2010年到2016年,特别是随着ImageNet挑战赛影响力的扩大,深度学习算法对大量标注数据的依赖,使得大规模标注数据的需求迅速增加。对于很多公司而言,数据标注并非核心业务,有强烈的外包意愿,因此催生了数据标注产业。
昝智表示,这一段时期数据标注行业起步形成,最重要的是解决数据标注的准确性和效率问题。当时,由于深度学习算法对大量数据的需求增加,标注的精度直接影响了模型的训练效果。然而,手工标注不仅耗时耗力,还有可能会出现错误。为了更好的提高标注质量,行业内开始探索如何通过技术方法提升标注效率,如自动化工具、人工智能辅助标注等。对此,龙猫数据采取了创新的标注流程的优化策略,通过引入半自动化标注工具和多层次质量审核机制,极大提高了数据标注的准确性和效率。
特别是在无人驾驶等需要精确数据标注的领域,数据的细微差别都可能对训练结果产生重大影响。无人驾驶技术对道路、车辆、行人等的识别,需要海量且高质量的标注数据,因此对于标注效率和精准度的需求尤为迫切。龙猫数据通过与汽车制造商、无人驾驶企业的深入合作,推动了高精度数据标注技术的进一步发展。
2017年,无人驾驶技术的崛起成为数据标注行业发展的助推器。训练和测试无人驾驶系统要大规模的高质量标注数据,数据标注行业迎来庞大的市场需求。龙猫数据于2016年开始提供 AI 数据服务,是国内最早布局相关领域的公司之一,拥有可承担样本量最大、智能化程度最高、结果最精准的数据服务平台。
“在很长一段时间里,数据服务行业都是重人力的劳动密集型行业,关键点在于人员效率和交付质量。”昝智表示,国外的数据标注公司往往在菲律宾、肯尼亚、委内瑞拉等劳动力成本较为低廉的国家招募数据标注人员,而国内在人力成本方面具有较大的优势。
以龙猫数据为例,公司采用众包模式,构建了一套高效健全的系统,拥有多重审核机制,可实现依据需求实时调配人员,任务反应迅速,并支持将标注系统直接部署在客户服务器上,从精度、速度、安全性三方面确保数据结果。
新的转折点发生在2020年左右。造车新势力的兴起与无人驾驶技术公司热衷于投入“数据”,传统主机厂也纷纷在无人驾驶数据标注方面加大投入,数据标注公司开始追求智能和高效。
例如龙猫数据在与众多汽车和无人驾驶客户的合作中,开发了软件加速系统,并建立了严格的质量控制体系,以确保每一条标注数据的准确性和一致性。
2022年底ChatGPT发布后,大模型时代的序幕开启,对数据标注的高标准成为新需求。“传统的低成本竞争优势被重塑。大模型对标注人员有了很高的要求,不仅要对大模型的理解,而且还需要对垂直领域具备一定的专业相关知识。”昝智强调。
Scale AI也已经转型为硅谷最大的人工智能公司之一,创始人Alexandr Wang被称为“下一个马斯克”。
Scale AI核心业务为数据标注,成立初期,以效率为核心竞争力。据Scale AI 2016年的官网介绍,他们能够对客户给出的数据在三小时内给出响应。这一段时期,Scale AI更多地依赖于人工标注。
Scale AI成立之初的三年完全专注于无人驾驶和无人驾驶汽车,将人工、自主开发平台和机器学习相结合,进行数据标注的核查,来提高其数据标注的速度以及准确性。AI算法辅助标注员进行标注,标注员所标注的图像又反过来对Scale AI的算法进行训练,提高算法的准确度,进入了良性的“自循环”模式。
2018年,Scale AI将公司目标变为“提供较为可靠、经济高效、可扩展的基础架构,以便更轻松地构建令人难以置信的应用程序”,表明Scale AI已不满足于做一个单纯的数据标注公司,而是尝试成为以数据标注为基础的应用开发平台。
2020年8月,Scale AI推出了数据调试SaaS产品Nucleus,用于理解、可视化、整理和协作处理公司数据,使团队可构建更好的ML模型。这在某种程度上预示着Scale AI在转型之路中迈出一大步,由单纯的数据标注商向数据管理、分析和模型搭建服务商转变,由劳动密集型向科技驱动型公司转变。
生成式AI浪潮给Scale AI带来新的收入增长点。Scale AI创始人Alexandr Wang表示,公司2019年开始研究生成式AI,并与OpenAI合作研究GPT。2023年,Scale AI 的年收入从一年前的2亿多美元跃升至约7亿美元,成为目前生成式AI领域最赚钱的公司之一,并完成了新一轮10亿美元融资,估值飙升至138亿美元。
如今,Scale AI在数据标注之外,拓展了丰富的产品线大类:数据引擎、AI应用以及AI评估,客户覆盖无人驾驶、金融科技、政府、零售与电商、AR/VR等领域。在大模型领域,Scale AI与Open AI、Meta都有合作。
国内数据标注行业也迎来了相同的发展轨迹,正积极拓展第二增长曲线。龙猫数据推出了无人驾驶大模型AutopilotGPT,能快速处理和标注大规模驾驶数据,提高数据处理效率和标注精度,同时引入先进的自动化数据标注工具和数据合成技术,降低人工标注成本。
除了数据标注服务的升级,龙猫数据还拓展了数据生成和合成服务,满足大模型训练的多样化需求,并推出模型搭建和优化服务,帮助客户提升AI模型的性能和应用效果。
作为国内发展时间最长的数据标注公司,昝智表示,互联网20年产生的海量数据已几乎被用尽,接下来只可以通过数据合成方式产生新的数据,这样才可以继续推动大模型的发展,“这既可能是数据行业的潜力所在,也是企业决胜未来的关键”。
Scale AI创始人Alexandr Wang在近期采访中表示,在大模型竞争中,算法和算力的壁垒有可能会被打破,数据是为数不多能持续构建护城河的领域之一,将产生长期的竞争优势。