中国企业报集团主管主办

中国企业信息交流平台

微博 微信

大语言模型微调数据竞赛,天翼云斩获冠军!

2023-12-19 11:30 来源:中国企业网 次阅读
 
大语言模型微调数据竞赛,天翼云斩获冠军!

  近日,天池FT-Data Ranker竞赛落下帷幕,天翼云智能边缘事业部AI团队(后称天翼云AI团队)凭借在大语言模型(LLM)训练数据增强方面的卓越研究,荣获大语言模型微调数据竞赛——7B模型赛道冠军。

  FT-Data Ranker竞赛是一场面向大语言模型研究、以数据为中心的竞赛,吸引了包括来自北京大学、Hantec等知名高校、研究机构、企业的近400支优秀队伍参赛。天翼云在激烈的角逐中脱颖而出,展现出强大的技术创新能力。

  数据在大语言模型(LLM)的能力打造中发挥着至关重要的作用,更好地构建和处理数据集成为大语言模型领域研究的重点。本次竞赛的核心在于独立、精确地评估和提升数据集质量,加速形成基准驱动的数据开发流程,增强大语言模型数据处理能力,提高该领域对数据质量和数据优化的理解能力。本次竞赛特别关注微调(Fine-tuning)阶段的数据,要求参赛者对原始数据集进行清洗、过滤和增强,利用新数据集对特定模型进行微调,并在测试集上进行性能排名。
  面向竞赛通用选择任务,天翼云AI团队自主构建了数据处理流程,使用多个文档去重、字符串过滤算子对低质的大规模原始语料进行处理,从而获得高质量的模型训练数据;同时,面向文本摘要任务,天翼云AI团队创新地采用范式迁移(Paradigm Transfer)和模型能力蒸馏(Distillation)的方法,在设定模型随机性为0的前提下,利用生成式模型将原始语料中的问答进行数据处理和迁移,作为摘要数据,间接扩充训练数据。基于以上方法和策略,团队在原始语料基础上构建了一个内容丰富、多样化的任务训练集,帮助模型更好地学习和理解竞赛任务。该方案的创新性和实用性得到了评委的高度认可。
  本次竞赛团队采用的大语言模型训练数据增强技术,已在天翼云团队模型研发和生产业务中广泛应用。例如,在天翼云政务大模型“慧泽”的研发中,通过广泛采用训练数据增强策略和算法来提升模型的各项能力,使得“慧泽“具备了政务知识全面、意图理解能力强、应用广泛以及安全可靠等优势,可高效赋能政策咨询、政务导办、12345坐席辅助、智能办公等场景,助力提升城市治理水平。
  未来,天翼云将继续推进人工智能相关技术创新以及实践应用,以更加全面、智能的产品与服务,赋能千行百业数字化转型。

点赞()
上一条:共创未来 共享成功——深圳市道商五福科技发展有限公司第一届股东大会圆满召开2023-12-19
下一条:思特奇:共建数字经济基础设施和生态,驱动城市数字经济高质量发展2023-12-19

相关稿件

厚“技”薄发!天翼云平台勇夺世界第一! 2023-04-23
小米大模型:不搞军备竞赛 2023-11-09
“天翼云开放实验室”揭牌 与合作伙伴共创数字未来 2023-04-25
第六届数字中国建设峰会召开 天翼云“息壤”获评“十大硬核科技” 2023-05-06
天翼云中国行•甘肃站收官,开辟甘肃数字经济发展新局面 2023-05-11
国务院国有资产管理委员会 中国企业联合会 中国企业报 中国社会经济网 中国国际电子商务网 新浪财经 凤凰财经 中国报告基地 企业社会责任中国网 杭州网 中国产经新闻网 环球企业家 华北新闻网 和谐中国网 天机网 中贸网 湖南经济新闻网 翼牛网 东莞二手房 中国经济网 中国企业网黄金展位频道 硅谷网 东方经济网 华讯财经 网站目录 全景网 中南网 美通社 大佳网 火爆网 跨考研招网 当代金融家杂志 借贷撮合网 大公财经 诚搜网 中国钢铁现货网 证券之星 融易在线 2014世界杯 中华魂网 纳税人俱乐部 慧业网 商界网 品牌家 中国国资报道 金融界 中国农业新闻网 中国招商联盟 和讯股票 经济网 中国数据分析行业网 中国报道网 九州新闻网 投资界 北京科技创新企业诚信联盟网 中国白银网 炣燃科技 中企媒资网 中国石油化工集团 中国保利集团公司 东风汽车公司 中国化工集团公司 中国电信集团公司 华为技术有限公司 厦门银鹭食品有限公司 中国恒天集团有限公司 滨州东方地毯集团有限公司 大唐电信科技股份有限公司 中国诚通控股集团有限公司 喜来健医疗器械有限公司 中国能源建设股份有限公司 内蒙古伊利实业集团股份有限公司 中国移动通信集团公司 中国化工集团公司 贵州茅台酒股份有限公司