首页 >要闻 > > 正文

用“人造”的数据喂养AI?合成数据亿级市场涌现

21世纪经济报道 2023-08-14 13:22:34

AI潮水汹涌,数据正成为一门火爆的生意。

为了给人工智能喂上充足的“养料”,从发掘、采集到标注,企业在数据处理的各个环节掘金。到如今,真实的数据已无法满足日渐膨胀的AI“胃口”,企业开始探索AI自产自销的“假”数据——合成数据产业应用而生。

上个月底,国内合成数据公司“光轮智能”宣布完成天使+轮融资;几个月前,新加坡合成数据初创公司Betterdata也获得一笔165万美元规模的种子轮融资。互联网大厂也开始了布局。微软、英伟达、meta、亚马逊等数得上号的科技巨头中,均有合成数据相关的业务布局、投资或收购举动。


【资料图】

合成数据究竟是“何方神圣”?它有怎样的产业价值和风险?会给AI产业带来怎样的颠覆?

“人造”数据崛起

相比于从现实世界中采集或测量的真实数据,合成数据顾名思义是人工合成的“假”数据。由于能够反映原始数据的属性,合成数据可以作为原始数据的替代品来训练、测试和验证AI模型。

但人工合成并不意味着完全凭空捏造。现阶段,大部分合成数据的“根”仍然是真实数据。

Unity中国高级软件工程师钱文亿向21世纪经济报道记者介绍了其合成数据产品在计算机视觉相关项目中的普遍生成过程:第一步,在现实中找到可识别的对象,通过扫描技术,将物体模型真实地还原在3D场景中;在此基础上,对该物体模型进行打标签,如颜色、大小等,具体标签类型依据训练需求而定;最后,将这些物体放置于各种设定的场景中,随机组合,快速地生成多张图片。

因此,训练同一个AI模型时,使用真实数据也许需要摄像头不断变换地捕捉物体在不同场景、状态下的多张照片,而合成数据则能够通过调整物体位置、角度、所处背景等参数,一分钟内生产成百上千张不同的图片,降低成本,提高数据集生成效率。

事实上,合成数据的概念并不新颖。据说,这一概念早在1993年Donald Rubin的一篇文章中就有雏形。近年来,随着人工智能技术一次次取得突破性发展,真实数据的采集、获取难度也水涨船高,已难以填饱AI训练的庞大“胃口”。

合成数据常常作为真实数据的“平替”而存在。据人工智能初创公司Cohere首席执行官Aiden Gomez在上个月底透露,由于Reddit、推特等公司的数据采集要价太高,微软、OpenAI和Cohere等公司,已使用合成数据来训练AI模型。Gomez表示,合成数据可以适用于很多训练场景,只是目前尚未全面推广。

但在广州大学计算机科学与网络工程学院教授王员根看来,价格反而不是选择合成数据最主要的考虑因素。

真实数据涉及大量个人隐私,冒然使用可能引起严重的法律纠纷问题,而且并非所有的真实数据都是可用的。互联网上充斥着大量真伪难辨的信息,要从杂乱无章的真实数据中挖掘出可用的信息,需要大量的人工筛选。另外,真实数据还存在分布不均衡的问题。例如,训练人脸识别系统时,从互联网上爬取到的人脸数据中亮皮肤人脸图像占多,而暗皮肤人脸图像偏少,这将导致所训练的模型存在偏见。合成数据恰能在一定程度上人为规避上述问题。

“部分真实数据无法获取,如清晰的水下图像等,通过合成数据技术模拟生成相关数据,能够补充训练数据的完备性。”王员根补充道,尽管现阶段大量合成数据建立在真实数据基础上,但随着技术的进步,未来对真实数据的依赖将逐步减少,目前已有技术能让直接合成的数据“以假乱真”。

但合成数据并非十全十美。在AI训练数据服务商Appen澳鹏官方发布的一篇文章中,就提到合成数据缺乏异常值,而这些异常值自然出现在真实数据中,对于模型精确度至关重要。另外,合成数据的质量通常取决于用于生成的输入数据,输入数据中的偏见很容易传播到合成数据中,因此不能低估使用高质量数据作为起点的重要性。所以,企业需要将合成数据与人工标注的真实数据进行比较,作为额外的输出控制。

越敏感,越先突破

目前,合成数据主要应用于哪些领域?

相比于自然语言、音频等形式,合成数据最先在计算机视觉上展露拳脚。受访专家们认为,这与图片处理更加简单直接、人类与环境进行交互时优先通过视觉系统等因素相关。未来,其他领域的合成数据也将得到进一步的发展。

合成数据在自动驾驶、医疗、金融等场景有着广阔的应用前景。这些场景的共同点在于,真实数据敏感,难以获取,但又关涉重大,有的还涉及人身安全,对数据质量要求极高。“哪里最有需要,哪里就会最先得到发展和应用。合成数据技术最有可能在这些敏感场景中取得突破。”王员根表示。

以自动驾驶为例,实际驾驶过程中,车辆可能会碰到各种复杂多变的路况,甚至是极端情况,如严重的交通堵塞、事故、恶劣天气等。尤其是在极端情况下,使用真车冒险测试几乎不可能,极难采集和获取到真实数据。

合成数据可以模拟出这些情景。王员根介绍,“比如,要模拟暴雨天气,我们就用日常能够收集到的普通天气的数据,构建一个物理或网络模型,将‘暴雨’的关键参数输入进去,就能生成相应的场景。模型和参数越准确,场景的逼真程度越高。”如此,能够在保障人员和设备安全的条件下,提升自动驾驶能力。

公开资料显示,许多自动驾驶汽车厂商都在合成数据和模拟方面进行了大量投资。例如,谷歌母公司Alphabet旗下的自动驾驶子公司Waymo在2106年就生成了25亿英里的模拟驾驶数据来训练其自动驾驶系统(相比之下,从现实世界收集的驾驶数据仅为300万英里)。到 2019 年,这一数字已达到100 亿英里。

国内,腾讯自动驾驶实验室开发的自动驾驶仿真系统TADSim已经可以自动生成无需标注的各种交通场景数据。华为云也基于盘古大模型开发了场景重建大模型,该模型可基于采集的路采视频数据做场景重建(合成数据),普通用户很难用肉眼分清这些重建的场景跟真实场景有何区别。

然而,自动驾驶涉及人身安全,合成数据毕竟不是完全真实的,这注定了企业使用这类数据进行训练时会表现得更加谨慎。

小马智行联合创始人兼CTO楼天城向21记者强调,合成数据既有凭空生成的虚拟数据,也有基于真实数据加以修改得到的数据,目前在L4的感知模块中,小马智行没有使用凭空生成的虚拟数据。主要是因为L4方案依赖于激光雷达,对于如恶劣天气、长尾物体等难度场景,生成激光雷达的虚拟数据与真实数据的分布差异较大,无法用虚拟数据来达到在真实场景下提升的效果。

但小马智行会对真实数据加以修改来合成数据用于感知算法,对于不依赖原始传感器输入的模块,例如路径规划和一些场景理解等算法,也会使用合成数据进行训练和仿真评估。

楼天城认为,要把虚拟数据做到足够逼真对标注质量的要求反而更高。而对于一般的简单场景,做数据挖掘和智能标注的数据闭环相比于研发合成逼真的虚拟数据的成本还要低不少。目前学术界对使用完全虚拟的数据进行自动驾驶的训练有一些研究,不少公司也在做相关预研。从训练效果来看,从0到80分有帮助,但对90到99分效果一般,实际落地部署的案例并不普遍。

“我们也在关注合成虚拟数据相关的技术进展并持开放的态度,如果某一天技术足够成熟时也会考虑应用。”楼天城表示。

数据标注产业将被重构?

据咨询公司Gartner预测,到2030年,合成数据将彻底取代真实数据,成为 AI 模型所使用的数据的主要来源。而美国AI研究机构Cognilytica数据显示,2021 年合成数据市场规模大概在1.1亿美元,到2027 年将达到11.5亿美元。这是一块让不少科技大厂和初创公司垂涎的大蛋糕。

多家的科技巨头均有合成数据相关的业务布局、投资或收购举动。例如,2021年,英伟达发布了用于训练AI的Omniverse Replicator合成数据生成引擎,今年7月,英伟达初创加速计划成员Rendered.ai将Omniverse Replicator集成到其合成数据生成平台,使AI训练变得更加简单易用;亚马逊也在多个场景探索合成数据的应用,例如使用合成数据来训练、调试其虚拟助手Alexa,以避免用户隐私问题等;Meta则直接收购了合成数据创业公司AI.Reverie,以整合至旗下元宇宙部门Reality Labs。

创业公司方面,合成数据领域的投资并购持续升温。计算机视觉合成数据提供商Datagen于2022年初宣布完成5000万美元B轮融资;今年4月,新加坡合成数据初创公司Betterdata在获得一笔165万美元规模的种子轮融资;7月末,国内合成数据公司“光轮智能”宣布完成天使+轮融资,这家今年刚成立的新公司,已经完成种子轮、天使轮、天使+三轮融资,累计融资金额达数千万元。

钱文亿观察到,“过去几年,全球几乎每年都有好几百甚至上千家新型初创公司建立,为各行各业提供用于算法训练的合成数据产品。”

产业繁荣之下,我国也开始鼓励和引导合成数据产业的发展。今年3月初,中国证监会科技监管局局长姚前曾在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。5月19日,北京发布的“北京市通用人工智能产业创新伙伴计划”,提到谋划建设国家级数据训练基地,也提出了支持发展基于AIGC技术的合成数据新产业。

而在过去很长一段时间里,人工智能对数据的海量需求催生了一批数据标注师的就业群体。如今,当合成数据逐渐成势,数据标注产业的格局是否会因此遭到冲击?

王员根认为,冲击是必然的,但需求仍在。“首先这件事没有那么快到来,其次,标注师们要进行转型。比如,过去需要标注的是原始数据,如今则变成了AI生成的数据;又如在原本数据标注工作的基础上,标注师们还将被要求分辨哪些是AI生成的数据,哪些是自然数据等。即使合成数据越来越多、质量越来越高,也离不开人类的引导和监督,以及时修正可能出现的偏差。”

(文章来源:21世纪经济报道)

上一篇:东山市是哪个省的 下一篇:最后一页
x
推荐阅读

用“人造”的数据喂养AI?合成数据亿级市场涌现

2023-08-14

东山市是哪个省的

2023-08-14

国家电投通辽2×350兆瓦智慧热电联产工程脱硫EPC项目合同签约

2023-08-14

六盘水开出首张生态环境领域“当场处罚”罚单

2023-08-14

苹果新一代“超级芯片”曝光:M3 Ultra最高可达32核CPU

2023-08-14

生态环境部加强汛期饮用水水源环境监管 保障饮用水水源环境安全

2023-08-14

枣庄市聘任31名“枣庄教育发展特邀咨询”

2023-08-14

我省对自建房实行常态化排查整治

2023-08-14

网传乘客上厕所从卧铺3层摔下晕倒车站回应:到站后救护车立马将伤者送医目前还在治疗 具体是怎么回事?

2023-08-14

森鹰窗业:连续3日融资净偿还累计707.5万元(08-11)

2023-08-14

凯赛生物(688065)1.4亿股限售股将于8月14日解禁上市,占总股本23.99%

2023-08-14

揭秘神十五乘组四次出舱细节

2023-08-14

四川一大爷踩平衡车挑粪桶,网友:不愧是大爷,就是要脚踩“风火轮”,手拿“乾坤杆”

2023-08-14

拒绝续约,再见勇士!

2023-08-14

最朴实走心的表白(浪漫到极致的句子

2023-08-13

怎样腌茄子好吃

2023-08-13

工具栏音量控制不见了(工具栏声音图标不见了)

2023-08-13

天乙银饰今日银价多少一克(2023年08月13日)

2023-08-13

孙红雷和张艺兴极限挑战拥抱片段 孙红雷现身张艺兴演唱会 基本情况讲解

2023-08-13

大众朗逸变速箱油多久换一次(大众朗逸变速箱油多久换一次?)

2023-08-13

山东高密燃气闪爆,已致2死2伤

2023-08-13

北京复兴医院是公立还是私立(北京复兴医院)

2023-08-13

71岁自然老去的朱琳:穿衣简单却很有品味,越老反而越优雅

2023-08-13

创意生日礼物指南精美手工打造完美砖台阶

2023-08-13

小迷弟?利雅得胜利夺冠后,楚阿梅尼社媒发文:C罗

2023-08-13

权志龙纹身too fast to live(权志龙纹身含义)

2023-08-13

苯与溴的取代反应现象(苯与溴的取代反应)

2023-08-13

potterybarn中国官网 potterybarn

2023-08-13

浙江东阳光男篮首个选秀球员杜博阳:想挑战自己,所以会把握住机会

2023-08-13

排风扇是正转还是反转是抽风(排风扇有正反转吗)

2023-08-13

数字人民币成为成都大运会支付新亮点

2023-08-13

唐山晚报电子版官网_唐山晚报电子版

2023-08-13

鼓楼:北斗+提升城市服务效能

2023-08-12

公交便民驿站持续增加 方便市民生活

2023-08-12

[视频]【党旗在基层一线高高飘扬】时刻冲锋在前 把人民安危放在心上

2023-08-12

哪吒S充电时起火自燃,顺利扑灭!“天工电池”是真安全!

2023-08-12

上海查处侵害一老一小权益案件585件

2023-08-12

美国经济前景向好 白银现货走跌

2023-08-12

全链条造假!涉案8000余万30人落网

2023-08-12

1988年,蒋经国去世后香港演艺界明星吊孝的照片,看上去声势浩大

2023-08-12

carry your bag是什么意思(carry是什么意思)

2023-08-12

“桂北粮仓”建设现代粮食示范区 实现水稻增产、群众增收

2023-08-12

浙江发布全国首批公开实施专利清单

2023-08-12

专题 | 全球2023年增长有限 尿素景气度尚可

2023-08-12

劳模工匠受聘客座教授 匠心传承温州有新招

2023-08-12

非法捕捞渔获物13千克,赔偿10万尾鱼苗增殖放流

2023-08-12

摩托车免检标志贴车的哪个位置(摩托车免检标志贴哪里?)

2023-08-12

设置路由器限速的软件(怎么设置路由器限速)

2023-08-12

美股异动 | 中概股多数走低 金龙指数跌超3%

2023-08-12

土地热线|宁波鄞州区再推1宗宅地 起价20.58亿元、广州花都大陵北地块延后两天出让

2023-08-12

不到两周!计划七夕领证的新人要抓紧预约啦

2023-08-11

龙虎榜|天房发展今日涨停,营业部席位合计净买入1329.47万元

2023-08-11

坐拥1180亿美元现金的Alphabet(GOOGL.US)“烦恼”如何花钱

2023-08-11

最新获奖感言经典8篇

2023-08-11

离婚后10岁的孩子抚养费标准是怎样的

2023-08-11

女排亚锦赛提前举办!赵勇遇困境,王逸凡庄宇珊难驰援,成绩堪忧

2023-08-11

智飞生物销售费用真假之谜 过低费率与行贿门频发并存

2023-08-11

网络的未来将是自智,人工智能带来的改变超乎想象!

2023-08-11

新版火龙传奇打金思路

2023-08-11

金华各区县人均存款,义乌高居第一

2023-08-11

景顺长城邓敬东:出行链关注廉价航空及线下购物中心

2023-08-11

民生银行济南天桥支行开展金融知识宣传活动

2023-08-11

第二次机器人大战传真怎么用(传真怎么用)

2023-08-11

隐晦的暗示,《封神》的细腻刻画,让观众惊叹

2023-08-11

洛阳市洛宁县人大常委会调研组调研洛宁县人民检察院检察工作

2023-08-11

贵州黔西南州人民医院党委书记张传跃被查

2023-08-11

跑马圈地中的零食集合店开始抱团作战

2023-08-11

畅联股份: 公司将按照相关规定在定期报告中披露相关时点的股东户数,敬请留意

2023-08-11

云南生态多美妙|河流,蜿蜒在大地上的雕刻师

2023-08-11

小米推出米家理发器 2:配备更锋利的曜黑刀头,首发 139 元

2023-08-11

建设银行兔年金条价格今天多少一克(2023年08月11日)

2023-08-11

日元的“趋势已经改变”

2023-08-11

看看“靖康耻”前的几件荒唐事,感觉北宋想不亡都不行

2023-08-11

官方:加拉塔萨雷签下顿涅茨克矿工前锋泰特

2023-08-11

学舞蹈的最佳年龄18 学舞蹈的最佳年龄

2023-08-11

微评天下(2023年8月11日)

2023-08-11

qq音乐怎么设置缓存歌曲数量(qq音乐怎么设置音乐缓存上限?)

2023-08-11

堤坝加固、电力抢修……东北地区全力防范台风“卡努”

2023-08-11

本财年前10个月 美国预算赤字达到1.6万亿美元

2023-08-11

如何穿好吊带单品?第一步自信!

2023-08-11

做我们的奴隶(做我的奴隶2)

2023-08-10

吴洪田到潍坊市局(公司)调研卷烟营销工作

2023-08-10

“五到位”做好防汛备战工作

2023-08-10

安车检测: 独立董事关于公司第四届董事会第八次会议相关事项的独立意见

2023-08-10

阅文集团:推出大语言模型应用产品“作家助手妙笔版”

2023-08-10

再次扩容!北京老字号增至238家包括同仁验光等 具体是什么情况?

2023-08-10

迎峰度夏要节电 沙坪坝要这样干

2023-08-10

诺和诺德上半年营收、利润双增30%,同时上调全年业绩指引

2023-08-10

银川市打造便捷高效普惠公共法律服务

2023-08-10

宝洁旗下舒肤佳在穗举办健康传中国夏令营活动

2023-08-10

您好,在美容院付了三次微针,一共2680,赠送了三次怯痘,做

2023-08-10

24GB内存时代来了!全球首台24GB内存量产机下线:一加打造

2023-08-10

统一企业中国上半年营收超145亿元 饮料业务保持增长

2023-08-10

礼物送什么最好_你送的礼物会不会太特别

2023-08-10

裙长 英文 长裙英文

2023-08-10

2023年电饭煲市场分析:电饭煲市场规模不断扩大

2023-08-10

公安部侦破“AI换脸”案件79起

2023-08-10

两位股民因股票下跌在网上抱怨,被上市公司告上法庭要求赔礼道歉赔偿损失

2023-08-10

别克新昂科拉8月上市!换昂扬同款联屏,效仿君威-官方降价?

2023-08-10

武威持续推动异地就医直接结算政策落地见效 让“医保温度”暖人心

2023-08-10