探展WAIC | 上海数交所总经理汤奇峰:语料库建设挑战主要集中于开放程度和数据质量两方面
(图片来源:图虫创意)
“大模型建设中,语料库是一个非常重要的方向。”7月8日,上海数交所总经理汤奇峰在“大模型时代下的数据要素流通”主题论坛中如是表示。他认为,大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。
(相关资料图)
“语料库建设不是单一企业的责任,需要多方共同推进,如果每个企业都单独建设维护语料库,会拉低效率,也会增加企业成本,数交所希望通过加强数据要素建设提升语料库建设效率。”汤奇峰表示。
蓝鲸财经了解到,上海数交所官网已于7月7日正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。
关于语料库建设的挑战,汤奇峰认为主要集中于开放程度和数据质量两方面:“能否有大模型企业所需的高质量语料?目标对象愿不愿意开放数据?”由此,汤奇峰指出可以根据开放程度强弱和数据质量高低将语料数据生态机构分出四类供方。
上海数据交易所语料库为这四类供方制定差异化工作策略。汤奇峰建议可以从政府引导市场主导、丰富种类提高质量、统一标准规范建设、加强监管保障安全、加强监管保障安全四个方向建设大模型时代下的语料库。
汤奇峰指出,针对数据质量高但开放程度低的供方,可以通过数据交易链有效破解语料数据流通的信任问题,“核心之一在于产权和参与大模型后的收益分配问题。”
此外,上海数据交易所语料库亦将提供特色标签服务体系、挖掘应用场景价值、驱动稀缺数据开放流通以提高该类供方开放数据积极性。针对开放程度高但数据质量低的机构,上海数交所语料库则通过搭建专业化数商服务渠道提高数据质量。
汤奇峰介绍道,上海数交所在建设语料库时考虑的两个维度与数交所对企业数据发展进程四个阶段的观察密切相关。对于这四个阶段,汤奇峰解释,第一个阶段是企业数据自产自用阶段。随着企业数据的内部供给有限时,企业数据需求逐步转向外部,进入到第二阶段,在该阶段,大平台和大企业通过资本纽带在体系内部形成数据流通。到了第三个阶段,企业累积的数据将开放给整个行业,产业内形成标准。第四个阶段,数据使用在资产化过程中会产生新的更高阶业态。
“语料库采购已经在不少大模型企业成本中占据重要比重,上海数交所希望以市场配置的方式组织数据要素推动语料库建设。”汤奇峰表示。
据悉,为更好打造高质量语料库、围绕语料数据共建数商生态,上海数交所牵头发起语料数据生态创新合作伙伴计划,携手首批合作伙伴上海人工智能实验室、商汤科技、中国知网、澜舟科技、OpenKG、拓尔思(300229)、新致和蜜度正式启动该计划,积极引导不同行业、不同领域、具有一定规模的高质量语料数据产品挂牌交易,推动人工智能大模型技术创新与应用落地,进一步丰富语料库多样性,助力数据要素市场建设。
(责任编辑:王治强 HF013)相关阅读
- 环球资讯:北京市科委、中关村管委会中关村高科技产业促进中心调研服务独角兽企业神策数据
- Diodes 公司推出业界首款同级产品中极小DSN1406 2A 封装的肖特基整流器
- 魅族公布618终极战报:销售额同比增长500% 微资讯
- 有卖出售已经实名好的手机卡、全网长期供应已实名制认证过的手机卡
- 高通推出全新骁龙X Plus平台,持续为PC行业注入强劲动力
- 全球时讯:特斯拉股价大跌逾60% 马斯克未来可能失去控制权
- 三星GalaxyS23Ultra样张规格曝光:分辨率夸张但体积小巧
- 全新4.5 kV XHP 3 IGBT模块让驱动器实现尺寸小型化和效率最大化
- 年轻人看电子屏幕时间近老年人七倍 三分之一成年人都在观看短视频
- 原创 英特尔芯片被爆出现新漏洞ZombieLoad,苹果,微软,谷歌都跑不了