全国政协委员,天娱数科(002354.SZ)副总经理、山西数据流量生态园董事长贺晗近期接受了南财集团全国两会报道组记者的专访。
据悉,贺晗此次带来的提案围绕“构建开放共享协同的人工智能产业生态体系,推动我国数字经济高质量发展”等话题展开。
(图为第十四届全国政协委员、天娱数科副总经理、山西数据流量生态园董事长贺晗)
近日,来自美国OpenAI公司开发的ChatGPT以极高的人机交互水平,为人工智能领域带来了里程碑式的技术跨越,成为全球新一轮科技革命焦点,其背后的人工智能大模型技术对经济、文化和社会都将带来巨大的变革。
“从技术角度看,人工智能的核心是数据+算法+算力,ChatGPT就是用海量的数据和海量的算力对算法模型进行长期重投入的训练升级,来系统性地提升基础技术能力。”贺晗表示。
但这看似很“基础”的背后,却需要一个完善的人工智能产业生态体系来支撑。
贺晗对南财集团全国两会报道组记者表示,“中国科技企业目前更多注重实际场景运用,这与经济发展阶段有关,当下中国有大量的传统行业需要迅速借助数字化实现生产力提升。但长远来看,底层技术能力的欠缺会限制产业数字化的发展空间,甚至,类似ChatGPT大规模预训练模型本身也会成为‘卡脖子’技术。”
在他看来,当前我国在这方面仍存在三处短板:
一是公共数据开放太少,产业数据共享太弱。美国在2009年已建立全国性的公共数据开放平台data.gov,整合了来自各公共部门、各级政府、自愿参与的企业与大学的所有开放数据,截至目前已有33.5万个数据集,涉及农业、商业、教育、能源、制造业、科研等多个领域。我国数据开放起步晚、进展慢,目前公共数据公开以地方为主,没有全国平台,“数据孤岛”问题突出。发达国家有全球最多的人工智能产业开源数据集,涵盖了自然语言处理、图像识别等大部分人工智能研究方向,而我们高质量的开源数据集凤毛麟角。
二是开源体系建设仍处在起步阶段,基础薄弱。发达国家有成熟的开源生态,通过在开源平台以协同开发的模式,集结了全球开发者的智慧,在算法开发效率和创新速度上占尽优势。ChatGPT的出现就是很好的例子,它也不是从零开始的,而是在谷歌Transformer模型基础上迭代多次发展而来,也是站在全球众多开源贡献者的肩膀上才出现的。全球最大的开源平台GitHub掌握在微软公司手里,平台上开源贡献者从2017年的1000万增长至目前的1亿人,积累了超2亿的代码库。中国是GitHub的第二大贡献者,GitHub已成了我们开发人员标配的生产力工具。开源无国界,但开源平台背后的公司是有国界的,虽然目前相安无事,但我们要警醒,要知道,谷歌的安卓系统虽然开源,但对华为依旧做出了限制。
三是企业端智能算力成本高。对于大量进行模型训练和推理的科技企业来说,算力的瓶颈并不体现在算力的绝对规模上,而在于实现目标算力的成本,而这一成本又与芯片技术密切相关。自去年英伟达高端GPU芯片对中国供应受限后,国内智能算力也受到了严重影响。
贺晗直言,如果人工智能领域落后了,我国所力推的数字经济也会打折扣,因为未来数字经济要拼智能的,这一点应该引起重视。
因此他建议,一是加快推动数据要素高效流通使用。因地制宜,加快构建国家层面公共数据开放体系,深入推动公共数据跨层级、跨地域、跨部门有序共享和开发利用,释放公共数据红利。鼓励市场主体探索和完善数据定价体系,用市场化的手段推动数据要素的流通交易,对于数据要素在流通、交易、应用等环节中产生的新业态、新模式、新技术,在守住法律底线的前提下,建立弹性包容、鼓励创新的治理机制与市场环境。
二是加快推动开源体系建设。大力弘扬共建共创共享的开源文化,营造有利于开源发展的环境。完善开源知识产权和法律体系,为开源生态建设提供良好的制度基础。通过规划指引、揭榜挂帅、试点示范、财政补贴、税收优惠、产业基金等方式,加强企业主导的产学研深度融合,鼓励企业围绕开源社区运营、开源代码托管平台建设、开源数据集建设、开源项目孵化等关键点进行长期投入。
三是加快推动智能算力体系建设。鼓励相关企业围绕训练、推理等人工智能领域实际算力需求,建设专用行业云及融合赋能应用平台,鼓励推出算力共享、算力错峰等新业务模式进一步降低算力成本,实现普惠包容算力。加快智能算力集群建设,引导新建数据中心打造智能算力中心,鼓励引入国产化GPU、ASIC等异构算力。