高质量数据集成AI发展关键瓶颈

腾赚网 99 0

AI产业正加速从通用模型向垂直行业应用转型,数据作为人工智能发展的核心要素之一,高质量数据不足的问题日益突出。各大模型企业对高质量数据集的需求激增,尤其集中在构建行业知识底座方面。据北京国际大数据交易所披露,高质量数据集的交易量已从2024年的10%攀升至接近80%,成为数据流通最活跃的领域之一。

尽管需求旺盛,但高质量数据集的建设与流通仍面临诸多挑战。一方面,数据来源分散、加工链条长、技术工具匮乏等问题制约行业发展;另一方面,不同行业的数字化水平差异显著,如金融、医疗等行业基础数据较为完善,而农业等领域的数据积累仍显薄弱。此外,当前主流的语料获取方式仍依赖互联网公开数据、版权购买、资源置换及自建数据生产线等方式,数据交易所虽非主要采购渠道,但在推动市场对接和制度建设方面发挥着重要作用。

多地已加快布局高质量数据集建设,深圳推出每年最高5000万元的语料券专项资金,贵阳数据交易所也已发布近千个数据集。与此同时,数据合规性、产权界定、加工标准不统一等制度问题仍待破解,垂类领域人才短缺、敏感信息处理难、政策覆盖不全等行业痛点也在影响落地节奏。随着AI从“模型驱动”转向“数据驱动”,如何构建高效、合规、可持续的数据基础设施,已成为下一阶段竞争的关键。

抱歉,评论功能暂时关闭!