2024年5月14日

大模型(Large Model)常识综述(一)

作者 算力云

大模型定义

文心一言Prompt:大模型的定义是什么,可以从多个角度来进行阐述

回答:大模型是指包含超大规模参数(通常在十亿个以上)的神经网络模型,具有以下特征:

1. 巨大的规模:大模型包含数十亿个参数,模型大小可以达到数百GB甚至更大。这种巨大的模型规模为其提供了强大的表达能力和学习能力。

2. 多任务学习:大模型通常会一起学习多种不同的NLP任务,如机器翻译、文本摘要、问答系统等。这可以使模型学习到更广泛和泛化的语言理解能力。

3. 强大的计算资源:训练大模型通常需要数百甚至上千个GPU,以及大量的时间,通常在几周到几个月。这可以加速训练过程而保留大模型的能力。

4. 丰富的数据:大模型需要大量的数据来进行训练,只有大量的数据才能发挥大模型的参数规模优势。

大模型在自然语言处理领域得到广泛应用,并正在彻底改变NLP任务的状态,催生出更强大、更智能的语言技术。大模型是AI发展的重要方向之一。同时,大模型也具有在各种自然语言处理任务中表现出色的能力,例如文本分类、情感分析、摘要生成、翻译等。大模型可以用于自动写作、聊天机器人、虚拟助手、语音助手、自动翻译等多个应用领域。

本文框架

简单来说,大模型,泛指参数很多的机器学习模型(具体请参考:大模型多大算大),根据场景不同,大部分大模型公司把大模型分为大语言模型、计算机视觉(包含图像和视频)、音频、多模态大模型四大类。本文目前重点整理了大语言模型和多模态大模型相关内容,计算机视觉和音频后续补上。


大模型

大语言模型

大语言模型,顾名思义,专门用来处理自然语言的模型,有的公司分类标签中,直接把大语言模型等同于NLP(Natural Language Model)。

我分成了国内和国外进行了汇总,国内很多大语言模型,乍一看太牛逼了,仔细一看还不如乍一看,明显就是蹭热点,你压根也没那个算力(禁售了,根本买不到也买不起)。


大语言模型

计算机视觉

待补…

多模态

多模态很容易理解,就是文、图、视频、音频之间相互转换。下图中仅仅列出一些有代表性的多模态大模型,例如经典双塔模型CLIP(BERT+ViT),ALBEF—将BERT的6层网络拿出来做文本和图像的编码融合。

一篇不错的多模态科普文。


多模态大模型

大模型多大算大

有一篇文章专门讨论过这个问题

在过去几年中,关于“大模型”的定义已经不断发生变化。在早期,数百万或几千万个参数的模型就被认为是“大模型”。但现在,由于模型的参数量和计算复杂度都在不断增加,因此数亿甚至数十亿个
参数的模型也变得更加常见。因此,目前认为大模型的标准也在不断变化。一般来说,模型的大小可以根据其参数数量来衡量。对于
自然语言处理(NLP)任务,通常认为参数数量超过1亿的模型是大模型。对于
计算机视觉(CV)任务,通常认为参数数量超过1亿到10亿之间的模型是大模型。但是这个也不一定准确。

这篇文章也是很好的科普文,关键词是涌现能力和CoT。简单来说,涌现能力与模型大小有直接关系,All Scale Matters!CoT,Chain of Thought,思维链,模型越大,对人的引导需求越小。

大模型算力要求

今年9月份发的一篇综述,《A Survey of Large Language Models》,arXiv地址奉上。其中有我一直在收集的大模型算力要求,咱就是说,到底什么样的家庭,才能玩得起大模型。(当然,我指的是可以从预训练开始的,如果仅仅冻住Pre-Trained Model,做一些下游任务,最简单的比如企业知识库,有些家底的都可以吧,尤其是Llama开源后)。


大模型算力要求

Google当然是自家TPU,华为自家昇腾 910,百度布局早用但用的是V100表示不理解(A100、H100对华禁售,后来黄教主专门为中国人搞了个V100,低配版A100,速度降低了),剩下的大佬基本都是A100。大家对A100、V100价格不知道有没有概念,A100普通人当然买不到,一张V100现在吵到了13万软妹币(在美国大概也就1万软妹币)。

市场分析

AI项目数量激增:GitHub上的AI开源项目数量达到了91万,同比增长了264%。根据Replit的数据,二季度AI项目环比增速达到80%,同比增长了34倍。

OpenAI在大模型领域仍然占据主导地位:超过95%的应用项目基于OpenAI的模型构建,同时开源项目数量也在大幅增长。

2023年是生成式人工智能投融资创纪录的一年:根据CBInsights的数据,截至2023年第二季度,生成式人工智能的投融资较去年全年增长了4.6倍。

生成式人工智能应用层融资仅占三成,目前约七成资金投向了包括大模型开发在内的AI基础设施层。在应用层的融资中,AI数字代理获得最多融资,其次是文本、图像、代码和音频生成工具

生成式人工智能应用可以分为工具型应用、通用软件、行业软件和智能硬件四大类。从产品形态上看,它们将沿着AIGC(内容生成)、Copilot(智能助手)、Insight(知识洞察)和Agent(数字代理)等重要方向演进。

工具型应用包括聊天机器人、搜索引擎、文本工具、AI作画和代码工具等,主要面向消费者市场。这些产品的同质化程度较高,底层模型的能力对产品的受欢迎程度至关重要。目前行业正处于第一轮洗牌期,竞争优势的建立来自于差异化的产品定位和持续训练更强大的底层模型和算法。

通用软件包括办公软件、企业服务、IT运维、软件开发、网络安全、数据智能等领域。各行业的头部厂商已经推出了标杆产品,最常见的产品形态是AI智能助理(Coplilot)。目前各个赛道竞争格局相对稳定,未来竞争的关键在于AI与场景/工作流的深度融合。通用软件领域的头部厂商预计将在四季度进入商业化落地的关键阶段。

行业软件涉及金融、医疗、教育、工业、游戏、法律等多个行业。在游戏、法律、教育和电商等C端场景中,生成式人工智能有较多结合点;而在医疗、金融和工业等B端场景中,生成式人工智能产品的成熟度仍较低。

AI助手(Coplilot)在这些领域也得到广泛应用。未来,在金融、医疗和工业等领域,最具前景的应用将来自于数据分析和知识洞察工具.此外,各行业头部厂商也开始自建垂类大模型,如彭博社的金融大模型Bloomberg和Meta蛋白质大模型ESMFold。目前垂类大模型在其专业领域的性能普遍超过通用大模型。

智能硬件包括智能汽车、机器人和智能终端等。目前生产式人工智能与智能硬件的结合主要分为语音助手和数字代理AI Agent两大类别。语音助手广泛应用于智能座舱、智能音箱和家用机器人等各类智能终端,大模型和生成式人工智能技术提升了感知和生成能力,改善了用户体验。然而,总体而言产品门槛相对较低。数字代理AI Agent在感知与决策能力方面仍存在挑战,未来应用空间的打开关键在于计算机视觉和具身智能等底层技术的突破。

目前,生成式人工智能产品的商业模式主要包括功能订阅、按量付费和产品销售等方式。在C端应用中,功能订阅和按量付费是主要的商业化方式,已经相对成熟。而在B端应用中,除了功能订阅和产品销售外,还包括提供解决方案等。第一批成功的生成式人工智能应用包括Jasper AI、Notion AI和MidJourney等,它们已经实现了商业化。

举个例子,Office 365 Copilot的定价为每个用户每月30美元,相较于Office主线产品的15-30美元的定价,提升了2倍以上。Salesforce的生成式AI模块服务GPT和销售GPT的单用户每月付费为50美元。此外,Palantir和Palo Alto Networks的AI产品已经在实际应用中取得了成果,并带来了可观的收入贡献。预计在四季度,生成式人工智能应用将正式进入全面商业化落地阶段。

如果从ToB、ToG、ToC角度看,从大模型落地难度来看,ToB场景最难,ToG场景次之,ToC场景最容易:

ToB场景:由于企业之间的业务差异较大,需要定制化的模型和算法,因此落地难度较大。此外,在企业内部,不同的部门之间也需要进行协调和沟通,以便更好地利用大模型提供的数据和服务。

ToG场景:政府在制定政策时需要依赖大量的数据和信息,因此大模型在政府领域的应用较为广泛。由于政府拥有较为完善的信息化基础设施,因此大模型的落地难度相对较低。

ToC场景:消费者对产品和服务的需求较为多样化,因此大模型在消费市场中的应用难度较大。此外,由于消费市场的竞争较为激烈,企业需要不断地优化产品和服务,以满足消费者的需求,这也需要大模型提供更加精准的数据分析和预测。

商业化场景

通过一些公开的信息和圈内朋友了解,国内商业化整体做的不好,产品不好,用户付费也不好,目前主要用户还是学生和研究机构。下面重点看看商业化场景本身的多样性和可能行,至于最后一公里——用户付费,要再等一些时间了吧。

虽然大模型本身能力范围相同(LLM和Multi-Modalty),但商业模式却不太相同。百度、腾讯和阿里重点还是卖算力,华为一贯作风既要又要还要,科大讯飞卖应用API为主(收费方式非常清晰,付费情况如何不清楚,至少产品策略和GoToMarket路径,是所有类似公司最明白的)。百川智能宣传和各排行耪来看,同等尺寸大模型,性能比较靠前,但商业化没看懂,没有价格,没有文档。360非常明显,主要是ToB。

总的来说,虽然商业模式不同,但最终ToC场景基本相同,ToB垂直是未来主要战场


商业化场景

社区

社区这一块,百度拿捏的死死的。虽然千帆和飞浆有一点点重叠,但各自定位很清楚,千帆大模型产品面向企业,飞浆主要技术交流面向研究者。社区内容很丰富,跟百度云无缝连接。


阿里云一塌糊涂,ModelScope是达摩院做的,跟阿里云的连接做的比较差,社区也不活跃,很多提交的应用都没法运行(总共有几百个大模型应用,包含不少未发布、运行错误、已休眠等低质量应用)。

国内还有一个比较低调但我觉得很不错的社区,就是OpenXLab,运营方是上海人工智能实验室,里面有一些应用真的不错,比如下面这款动画生成器,很好玩。


OpenXLab

当然,最牛逼当属Hugging Face——机器学习界的GitHub,模型、数据集、应用、文档和服务,都安排妥妥滴,模型37万+,应用13万+,是所有社区中最牛逼存在。


Hugging Face

LLM排行榜

排行榜我就直接上结果了,自己看吧,有的还客观些,有点明显扯淡。可以从评估LLM角度,去理解大语言模型能干什么,不能干什么,有哪些提升空间,学生找课题方向,公司找商业化落地场景。


LLM排行榜

AlpacaEval大模型排行榜

CLiB中文大模型能力评测榜单

C-Eval大语言模型排行榜

SuperCLUE中文通用大模型综合性基准

间断添加内容,但内容太多,知乎加载慢,所以分开了。会持续更新哒!