近日,国家四部门发布《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》),明确提出了要加强基础设施建设,提升数据标注的质量和效率。到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%。
什么是“数据标注”?简单理解,就是给文本、语音、图片、视频等等各种各样的数据“打标签”,自动驾驶、低空经济、智能制造、智慧医疗等领域都离不开数据标注。本次印发的文件是国家层面首次对数据标注这一新兴产业进行系统谋划。
《实施意见》围绕深化需求牵引、增强创新驱动、繁荣产业生态、优化产业支撑等四方面提出13条具体政策举措。其中还提出,建设成效显著、特色鲜明的数据标注基地,形成相对完善的数据标注产业生态。目前,我国已确定成都、沈阳、合肥、长沙等7个城市承担数据标注基地建设任务。
从产业链分工纬度来看,数据标注上游包括数据采集设备制造商、数据供应商等。中游主要是数据标注企业,负责对数据进行标注处理。下游则是数据标注应用领域,涵盖了自动驾驶、智慧医疗、金融科技、智能安防、自然语言处理等众多行业。
中信证券认为,随着AI技术的不断成熟和应用领域的拓展,数据标注行业将迎来更广阔的市场空间。特别是在自动驾驶、智能医疗、智能金融等新兴领域,AI爆发对高质量标注数据的需求将持续增长,为行业带来巨大的市场机遇。例如,在图像识别领域,需要对大量的图像进行标注,如标注图像中的物体类别(是猫、狗还是汽车等)、物体的位置信息等。这些标注好的数据会被用于训练神经网络模型,而模型的训练过程需要大量的算力支持。没有经过标注的数据,算力就没有合适的“原料”来进行有效的模型训练。
据相关机构测算,2023 年我国数据标注产业规模已达 800 亿元规模。随着数据标注行业的快速发展,对标注数据的质量和数量要求不断提高,这就需要更强大的算力来支持模型训练。正是为了满足这种需求,数据中心、云计算等算力相关产业才不断发展壮大。
1月16日,深圳市政务服务和数据管理局下发了关于征集数据标注优秀案例的通知,在全市范围内组织征集数据标注优秀案例。深圳上市公司云天励飞15日在回答投资者提问中提到:“目前已经形成了智能自研数据标注系统、可标准化高效生产算法的YMIR平台、支持分布式的模型部署平台以及自动化模型评测平台。公司自研大规模训练及部署技术,旨在于打通从数据底座、数据标注、模型训练、模型部署、模型评测等从数据到模型生产的全链条,用于公司内部技术沉淀、降本增效以及外部长尾算法的生产。”
(文章来源:深圳商报·读创)