2024年5月14日

“富岳”超级计算机助力，日本团队推出Fugaku-LLM大模型

作者算力云

吉林云手机,智利服务器_

【ITBEAR科技资讯】5月11日消息，日本多家产学研机构组成的联合研究团队近日发布了一款名为 Fugaku-LLM 的大型语言模型。该模型独具特色，因为它是在全球最快的Arm架构超级计算机“富岳”上进行训练的，充分展现了日本在科技领域的创新实力。

据悉，Fugaku-LLM模型的开发工作于2023年5月正式启动，由富士通、东京工业大学、日本东北大学和日本理化学研究所等核心机构共同负责。而在研发过程中，名古屋大学、CyberAgent公司及HPC-AI领域的创新企业Kotoba Technologies也于2023年8月加入了这一宏伟计划。

研究团队在新闻稿中自豪地表示，他们成功挖掘了富岳超级计算机的巨大潜能。通过优化算法和提升计算效率，团队将矩阵乘法的计算速度提高了6倍，通信速度也实现了3倍的提升。这一重要突破证明了大型纯CPU超级计算机在训练大型语言模型方面的可行性。

Fugaku-LLM模型拥有庞大的参数规模，达到了130亿，成为日本国内最大的大型语言模型。为了构建这一模型，研究团队动用了富岳超算的13824个计算节点，在庞大的3800亿个Token上进行了深入训练。训练资料中有60%是日语内容，其余40%则涵盖了英语、数学、代码等多个领域。

该模型在日语表达方面尤为出色，研究团队宣称Fugaku-LLM能够在交流中自然运用日语敬语等特殊表达方式，这在国际范围内都是罕见的。在日语MT-Bench模型基准测试中，Fugaku-LLM的平均得分高达5.5，位居基于日本语料资源的开放模型之首。在人文社科类别中，它更是斩获了9.18的优异成绩。

目前，这款杰出的Fugaku-LLM模型已经在GitHub和Hugging Face平台上公开发布。外部研究人员和工程师在遵守相关许可协议的前提下，可将该模型广泛应用于学术研究和商业领域。