数据赋能人工智能发展，实现“供得出、流得动，用得好”

查股网 2024-03-07 14:08 海量数据(603138)个股分析

（本文作者王鹏为北京市社会科学院研究员，数据资产化研究院执行院长）

3月1日，为深入贯彻党中央、国务院决策部署，加快落实《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》，国家数据局会同国家发展改革委、工业和信息化部围绕充分发挥“东数西算”网络传输效能，进一步提高企业网络传输性价比，听取国家枢纽节点企业、数据传输需求企业，以及电信运营商等方面的意见建议，研究建立专用于国家枢纽节点间的公共传输通道，有效提升“东数西算”网络传输效能。国家数据局将把握数字化、网络化智能发展的趋势，大力推进数据资源的整合共享和开发利用，让数据赋能人工智能的发展，让数据真正实现“供得出、流得动，用得好”，同时打造全国一体化的算力调度体系，加速算力的高质量发展。

从系统治理论的角度，可以认为生成式人工智能的三大核心要素包括数据、算力和算法：海量数据被认为是生成式人工智能的基石，充沛算力是生成式人工智能的基础能力支撑，先进算法是生成式人工智能的基本实现途径。伴随着数字中国建设的推进，我国数字经济迈向了全面扩展期，数据成为了新的生产要素，AGI（Artificial General Intelligence ，通用人工智能）的发展也进一步催生海量数据。

《数字中国发展报告（2022年）》显示，2022年我国数据产量达8.1ZB，同比增长22.7%，全球占比达10.5%。另据国家发改委价格监测中心初步测算，全国企业数据要素支出规模约3.3万亿元。随着数据要素规模不断扩大，以人工智能为代表的数字技术将实现知识与数据双轮驱动，数据价值得到进一步释放，生产资源配置、生产运营逻辑以及生产、分配、流通和消费关系等得以重塑，生产方式和生产关系发生变革，赋能传统产业转型升级，助力数字经济快速发展。

2022年底，ChatGPT的问世标志着人工智能从判别式发展到生成式的跨越，生成式大模型赋予数据以新的生命力，AI时代大数据蕴含的价值将进一步涌现。数据因AI而变得越来越重要，数据要素是新型生产力的代表，数据挖掘能力成为新时代的国家重要竞争力。大模型驱动的人工智能发展对于高质量数据供给提出了更高要求，数据要素的市场化配置和开发利用显得尤为重要。我们要充分发挥数据的基础资源作用和创新引擎作用，构建满足人工智能发展需要的数据开放、共享、流通、交易的模式，全面提高数据资源开发利用水平，让数据“供得出、流得动、用得好”，真正成为人工智能发展的催化剂，推动做强做优做大数字经济。

第一，提升数据的质和量，推动大模型不断进步

数据质量对于生成式人工智能的性能和效果至关重要，人工智能技术的历次突破，都离不开高质量数据的支撑。由自然语言、编程语言、网络数据等组成的万亿级多模态高质量数据集开启了大模型时代，人工智能开始具备一定的认知交付的能力，使机器认知甚至通用智能成为可能。生成式人工智能模型通常需要大量高质量的数据来进行训练，以产生准确、流畅的输出。如果数据质量不佳，可能会导致模型训练不稳定、输出不准确或存在偏差。例如，在前提条件不变的前提下，使用高质量的数据集来做训练，能使20亿参数量级的模型超过100亿参数量级的模型。以制造业为例，通过收集和分析生产线上的各类数据，如设备运行状态、产品质量信息等，人工智能可以帮助企业实现精准的设备维护预测，减少故障停机时间，提高生产效率。此外，在供应链管理领域，人工智能可以通过分析历史销售数据、库存数据等，优化库存水平和物流路径，降低库存成本，提升供应链的响应速度。

第二，统筹协调高性能算力，促进AI业务发展创新

算力是承载人工智能应用发展的基础，也是推动人工智能走向实际应用的决定性力量，是人工智能最核心的要素。目前，算力出现云、边、端三级算力结构的趋势，算力的分布将不再集中在数据中心，而是广泛地分布在边缘或者端侧的任何位置。如果这些算力节点之间没有通过网络互连，这些算力资源难以实现共享、调度、使用与协同。面对深层次人工智能服务和大模型的迅速兴起带来的旺盛算力的需求，需要从算力供给和算力网络调度等方面做好统筹协调。从算力供给来看，需要加大低成本、高质量、易使用的算力供给。从算力网络的调度来看，需要做好人工智能模型训练、推理、离线分析等高时延业务的资源匹配，切实提升计算资源的整体使用率。2023年12月，国家数据局会同有关部门联合印发了《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》，从通用算力、智能算力、超级算力一体化布局，东中西部算力一体化协同，算力与数据、算法一体化应用，算力与绿色电力一体化融合，算力发展与安全保障一体化推进等五个统筹出发，推动建设联网调度、普惠易用、绿色安全的全国一体化算力网。高性能算力在人工智能时代具有极高的价值和意义，有利于更好地构建和推动人工智能业务的发展和创新。

第三，加速AI价值落地，拓展多元应用场景

在以AI为核心技术赋能行业转型升级从数字化向智能化迈进的过程中，需求与应用将成为驱动人工智能发展与进化的关键因素。一方面，尽管大模型具有广泛的应用场景，但在实际落地过程中尚未跨越鸿沟，仍然面临技术局限、算力成本、安全合规等多重挑战，需要进入到行业当中去进行技术突破与场景探索，发掘应用层的机会做垂直赋能。另一方面，人工智能正在驱动千行百业的效率升级，但仍然存在大量行业场景的AI应用价值尚未得到充分开发，需要深入行业关键环节方能发挥人工智能在其中的价值。我国超大规模市场为人工智能行业需求与应用提供了丰富的土壤，这是我国推动人工智能应用迈向更高水平的重要优势。例如在交通物流行业，人工智能技术应用可以助力企业提升运输效率，降低全社会物流的成本；在文化旅游行业开发文化大模型，能够贯通各类文化机构的数据中心，充分挖掘文化数据的价值；在科技创新领域以科学数据支撑大模型的开发，可以更深入地挖掘各类科学数据和科技的文献。国家数据局与16个部门共同印发《数据要素×三年行动计划》，提升数据利用水平，推动人工智能行业应用落地，推动社会各界共同挖掘市场的需求，这为人工智能技术的行业应用奠定了基础。人工智能技术在教育、医疗、交通、物流、政务服务等城市治理场景中的创新应用正不断深入，人工智能赋能“千行百业”的趋势正加速形成，我国数字经济高质量发展水平也将随之不断提升，形成具有国际竞争力的数字产业集群。

第四，加强AI应用安全保障，确保数据可靠使用

人工智能在促进生产力跃升的同时，还蕴含着极大的安全挑战。一方面，AI的兴起会加剧安全威胁，如数据泄露、欺诈攻击、社会治理安全等。例如，以ChatGPT为代表的生成式AI能快速生成钓鱼邮件、编写恶意软件与代码等，导致攻击数量增加，AI欺诈事件频发。防范人工智能风险隐患可以从供给与需求两侧入手。从供给侧的角度，可以鼓励各行业头部企业与专业安全厂商结成创新联合体，在关键行业选取典型场景开展联合创新，共同探索大模型安全创新产品在威胁检测、漏洞挖掘、指挥研判等方面的应用，在实战中推动“AI+安全”进入越用越强的良性循环。从需求侧角度，积极的政策引导是推动新事物落地应用、成长壮大的催化剂，建议像支持新能源汽车的发展一样，支持“AI+安全”发展，设置专项基金，对研发创新“AI+安全”产品的企业，给予政府基金、贴息贷款或科研项目等支持；对率先取得技术突破，实现成果转化的科研机构和企业给予奖励；对积极使用相关技术、产品和服务的企业给予相应补贴，推动“AI+安全”相关产业取得更多科技创新成果。目前，国内多家企业已经设立了数据伦理安全委员会，积极落实行业自律，并取得了初步的成效。在此基础上，我们还应该多维布局，汇聚政府、行业、企业等各主体，从科技伦理、立法、技术实践等维度推动人工智能安全治理，坚持创新发展和安全治理统筹原则，持续优化完善人工治理安全风险的防范。

第五，完善保障体系建设，提升高质量数据和高质量算力供给

工信部数据显示，人工智能不同技术方向岗位的人才供需比均低于0.4，其中智能语音和计算机视觉的岗位人才供需比分别为0.08、0.09，相关人才极度稀缺。从长期趋势看，各行各业对掌握人工智能基本技能的人力需求正急剧增长，以我国生成式人工智能的实际技术水平来看，特别是在顶尖人工智能人才储备方面还存在明显不足，人工智能复合型人才更加短缺。人工智能高质量发展离不开人才的建设、标准规范和国际合作等保障体系。其中复合型人才是发展的强效动力，需要以社会需求和产业发展为导向，培养兼具理论和实践，掌握数据、算法、分布式计算等技能的跨专业人才队伍，建议充分发挥民营企业在人才培养上的优势，鼓励成立校企共同体，在实践中培养更多大数据、人工智能、网络安全等新兴产业领军人才。统一的标准规范体系是发展的重要基础，需要构建关于人工智能数据、算力和算法的标准体系，有效提升高质量数据和高质量算力的供给。

本文仅代表作者观点。