AI高质量数据短缺成行业瓶颈
随着AI产业从通用模型向垂直行业深度渗透,高质量数据短缺的问题日益突出。作为人工智能发展的三大核心要素之一,数据的质量与供给正成为制约技术落地的关键瓶颈。目前,各大模型企业对高质量数据集的需求激增,尤其在构建行业知识底座方面表现尤为迫切。据北京国际大数据交易所披露,2025年AI相关数据交易量已占整体交易近八成,显示出市场对优质训练数据的强烈渴求。
面对这一趋势,政策层面也在加快布局。国家出台《“数据要素×”三年行动计划》和《高质量数据集建设指南(征求意见稿)》,推动科研机构和龙头企业共建行业数据资源库。北数所已为171个高质量数据集完成交付,覆盖32个行业、20个应用场景。不过,当前高质量数据集的建设与流通仍面临诸多挑战:目标定位模糊、加工链条分散、技术工具匮乏等问题普遍存在。此外,数据交易所虽非主要采购渠道,但仍在供需对接、价值发现等方面发挥着重要作用。
不同行业的数据供给能力差异显著。金融、医疗等数字化程度较高的领域基础数据较完善,能较快形成可用的数据集;而农业等数字化薄弱行业则需大量前期投入。与此同时,语料获取方式多样,包括互联网公开数据、版权购买、资源置换以及自建数据生产线等。部分厂商还通过蒸馏或合成方式生成新数据,以应对未来可能出现的数据枯竭风险。
专家指出,AI发展正从“模型为中心”转向“数据为中心”,未来90%以上的从业者将集中在数据采集、治理与生产环节。然而,当前大模型语料仍面临质量不一、产权不清、成本高昂、合规性待完善等难题。尤其在法律等细分领域,交叉型人才稀缺,标注精度要求更高。政务数据方面,还存在壁垒高、标准不统一、敏感信息难处理等问题,亟待系统性突破。