布局AIGC,谨防走向阿尔斯通、HTC的老路



LANHY product.jpeg


随着AIGC(人工智能生成内容)产业的快速发展,ChatGPT、Sora引发各类大模型竞赛,GPU算力目前已经在AIGC产业内成为一个关键因素。随着英伟达不断推陈出新的H100、H200、B100、B200等产品,可以看到国际上最先进的算力厂商如今已迈向由高性能计算芯片组成的超算中心、智算中心、智算数据中心。 在AIGC产业繁荣的当下,我们应该如何应对所面临的「算力危机」呢?



生成式AI ——历史悠久的新系统


近年来,人工智能技术在公众和媒体中的关注度大幅提升。然而,人工智能并非一个新的研究领域。包括理论数学家艾伦·图灵在内的英美科学家早在20世纪30年代和40年代就已经在研究机器学习,尽管“人工智能”这个术语直到20世纪50年代才流行起来。


20世纪50年代和60年代,包括自然语言处理、机器学习和机器人技术在内的许多人工智能领域兴趣激增。当时一些科学家预测,一代人之内将会出现像人类一样智能的机器。事实证明,这些预测过于乐观。由于当时可用的计算能力和算法方法的限制,进展停滞不前。结果,研究经费枯竭,导致20世纪70年代的第一次“人工智能寒冬”。在接下来的几十年里,人工智能研究的高强度时期与活跃度较低的时期交替出现。


长期以来,人工智能算法和软件都是基于程序员指定的明确逻辑规则和参数为特定目的而开发。即使是现在,许多人工智能应用程序都依赖于基于规则的决策:如果这样,那么那样。例如,虚拟助手(Siri、Alexa等)本质上是指挥与控制系统。它们只理解有限的问题和请求列表,无法适应新情况。它们无法将其“知识”应用于新问题或处理不确定性。



21世纪的人工智能


现代人工智能的繁荣始于21世纪初,此后一直呈上升趋势。如今,人工智能和机器学习被应用于无数领域,包括搜索引擎、推荐系统、定向广告、虚拟助手、自动驾驶、自动语言翻译、面部识别等等。


人工智能的兴起主要由以下因素驱动:

    - 更强大的计算机:1965 年,戈登·摩尔(Gordon Moore)观察到计算机芯片上的晶体管数量大约每两年翻一番,并预测这种情况将再持续 10 年。他的定律在半个多世纪以来一直成立。这种指数级的增长转化为越来越强大的人工智能系统。


    - 大数据:数据的可用性同样呈指数级增长。这为人工智能算法提供了强大的训练数据源,使得用数十亿张图像或数千亿个文本标记来训练模型成为可能。


    - 更好的人工智能/机器学习算法:新的方法使人工智能系统能够更好地利用数据和算法来像人类一样学习,例如深度学习,在图像识别或自然语言处理等领域实现了突破。



通过示例而非规则进行学习


现代人工智能的核心是机器学习,即计算机系统在没有被专门编程的情况下进行学习。现代人工智能模型会被输入数据示例和期望的结果,使其能够构建可应用于全新数据的模型或程序。机器学习在处理海量数据集和发现其中隐藏模式方面表现出色。


机器学习中的一种强大方法被称为深度学习。它利用了被称为人工神经网络的复杂结构,大致模仿了人类大脑。这些网络能够识别数据集中的模式。能够访问的数据越多,学习和表现就越好。信息流经众多相互连接的神经元层,在其中进行处理和评估。每一层都通过节点对信息进行提炼、连接和加权。本质上,人工智能通过不断重新评估其知识、形成新的连接并根据遇到的新数据对信息进行优先排序来学习。基于深度学习的人工智能在图像和语音识别等领域取得了显著进展。虽然结果的准确性令人印象深刻,但决策过程仍然不清楚,甚至对人工智能专家来说也是如此。这种缺乏透明度与旧的基于规则的系统形成了对比。



生成式人工智能(GenAI):人工智能新层级


生成式人工智能(GenAI)长期以来一直是一个活跃的研究领域。约瑟夫·魏岑鲍姆(Joseph Weizenbaum)在20世纪60年代开发了第一个聊天机器人ELIZA。我们今天所知道的GenAI是随着基于神经网络的深度学习的出现而兴起。


GenAI是机器学习最强大的例子之一。与只能执行单一任务旧的基于规则的人工智能应用程序不同,现代GenAI模型在来自许多不同领域的数据上进行训练,在任务方面没有任何限制。由于训练数据的数量非常大——OpenAI的GPT-3在超过45terabytes的压缩文本数据上进行了训练——这些模型在生成输出方面似乎具有创造性。例如,传统的聊天机器人遵循脚本化的响应,并依赖预定义的规则与用户交互,使其仅适用于特定任务。相比之下,像ChatGPT或谷歌Gemini这样的现代GenAI聊天机器人可以生成类似人类的文本,能够进行适应许多主题的对话,而不受预定脚本的限制。此外,这些现代聊天机器人不仅可以生成文本,还可以根据其训练的数据集生成图像、音乐和计算机代码。



2022年ChatGPT的发布是 GenAI 的 “iPhone时刻”


2022年11月,OpenAI向公众发布了ChatGPT(聊天生成式预训练转换器),极大地提高了公众对GenAI的热情。短短五天内,就有超过一百万人注册使用ChatGPT。审计和咨询公司德勤(Deloitte)在2023年的一项调查发现,在瑞士,近61%使用计算机工作的受访者已经在日常工作中使用ChatGPT或其他GenAI程序。包括英伟达首席执行官黄仁勋(Jen-Hsun Huang)在内的许多人将ChatGPT的发布描述为GenAI的“iPhone时刻”。因为该平台使用户更容易访问先进的GenAI模型,特别是基于解码器的大型语言模型。这些模型展示了在许多实际应用中的潜力,并引发了一波研究和开发浪潮。许多公司正在大力投资GenAI,新模型的能力达到一个新的维度。



GenAI预计将在各种实际应用和行业中发挥越来越重要的作用。因此,了解GenAI领域的技术趋势对于调整业务和知识产权(IP)战略非常重要。下图使用三个视角进行分析:

    - 所使用的计算机程序,即模型

    - 输入和输出的类型,即模式

    - GenAI 的应用


第一个视角涵盖GenAI模型。对与GenAI相关的专利申请进行分析,并将其分配到不同类型的GenAI模型(自回归模型、扩散模型、生成对抗网络(GAN)、大型语言模型(LLM)、变分自编码器(VAE)和其他GenAI模型)。


第二个视角展示GenAI的不同模式。“模式” 一词描述了这些 GenAI模型所使用的输入类型或模式以及所产生的输出类型。基于专利标题和摘要中的关键词,所有专利都被分配到相应的模式:图像/视频、文本、语音/声音/音乐、3D图像模型、分子/基因/蛋白质、软件/代码和其他模式。


第三个视角分析现代GenAI技术的不同应用。17种实际应用众多,覆盖从农业到生命科学及交通运输等等。



生成式AI背景和历史


经济合作与发展组织(OECD)将GenAI定义为“一种在用户提示下能够创建内容,包括文本、图像、音频或视频的技术”。这里的“提示”对应于文本指令,通常由人类用户生成,可选择地结合一些给定的数据。预期生成的内容是新的、有意义的且类似人类的。


在最近的《人工智能法案》中,欧盟将GenAI定义为一种基础模型。基础模型对应于在大型和多样化数据集上训练的通用人工智能模型,以便更容易地用于许多不同的任务。GenAI是基础模型的一个特定子集,专门旨在以不同程度的自主性生成内容,如复杂的文本、图像、音频或视频。这个定义强调新的内容是基于现有的大型训练数据集生成的,引发了各种问题和偏差。


从一般用户的角度来看,一个关键方面是与传统的“监督式”机器学习模型不同,后者需要大量特定任务的标注训练数据,这些模型只需编写自然语言提示就可以生成新内容。因此,使用基于这些模型的GenAI工具不需要技术技能。这是现代尖端人工智能首次直接面向大众。


这种可访问性使得GenAI工具在过去两年中得到了广泛传播。例如,2022年,像Stable Diffusion和Midjourney这样的模型在社交媒体上引起大量关注,并使GenAI在流行文化中普及。用于对话系统的ChatGPT成为达到1亿用户最快的产品。在专业方面,GitHub Copilot将GenAI引入了软件开发:根据最近的GitHub调查,92%的美国开发者已经在使用人工智能编码工具。


导致GenAI的发展是机器学习和神经网络领域长期而稳定的进步。Amari-Hopfield网络,一种具有联想记忆的神经网络,以及长短期记忆(LSTM)递归神经网络,经常被提及为GenAI发展的早期基础。Amari-Hopfield网络展示了网络如何存储和检索模式,类似于人类记忆过程。LSTM递归神经网络通过引入一种机制来捕获和学习复杂的序列模式,克服了传统递归网络在处理长距离依赖关系方面的局限性。


早期有效的GenAI并非基于神经网络,而是基于概率图模型,如马尔可夫网络,它们在基于图的表示中学习状态之间的转换,而不是使用受生物启发的结构。这些统计语言模型在20世纪90年代已经导致了实际的商业应用。


语言模型旨在根据观察到的标记序列预测下一个“标记”,例如一个单词。迭代应用,可以生成模仿人类语言的文本或语音。这种生成序列(如单词序列)的迭代方法是所谓的自回归模型的特征,可以看作是一个自动完成功能。早期成功的应用包括机器翻译,如21世纪初部署的谷歌统计机器翻译,以及语音和文本生成。



深度学习


21世纪10年代,神经网络随着深度学习成为人工智能中的主导方法。尽管神经网络自20世纪50年代以来就为人所知,但直到20世纪90年代,这些模型只能使用非常有限数量的神经元和层——例如所谓的多层感知器(MLP)。深度学习是30年来为增加(“深化”)神经网络层数而不断积累进步的结果。


使用传统机器学习技术,随着训练数据量的增加,性能会很快达到平台期。因此,在一段时间后,添加更多数据变得无用。深度学习的一个关键特性是,随着训练数据的增加,性能会持续提高。换句话说,向深度神经网络(DNN)提供的数据越多,深度神经网络通常表现得越好。这些模型的性能取决于计算机的能力和用于训练的数据量。只要有大量的数据和计算资源,深度学习可以超越任何其他机器学习方法。


世界知识产权组织关于人工智能的技术趋势的主要发现之一是,在21世纪10年代末,深度学习是人工智能中迄今为止最大和增长最快的技术,无论是在专利还是非专利文献中。深度学习的进展导致在所谓的生成任务中的突破性成果。



AIGC 算力产业全景图.jpg



判别任务与生成任务


深度神经网络通常可以适应两种不同类型的任务:

    - 判别任务涉及对输入数据的决策,例如分类、识别文本中的名称或分割图像。判别模型是适应和训练以将输入数据分离到这些不同类别的模型。

    - 生成任务涉及在给定一些输入数据的情况下创建新的数据样本。生成模型是适应和训练以创建此类新数据的模型。通常用于翻译文本、生成图像、总结文本或回答问题。


判别模型在分类方面表现出色,但不能生成新数据。生成模型也可以处理判别任务,但准确性低于判别模型。生成模型具有更多的参数,计算成本更高,并且通常比判别模型需要更多的训练数据。



生成式人工智能 :主要概念


模型必须学习如何区分两类:画作《蒙娜丽莎》和其他画作。对于这种模型,学习过程侧重于区分类别的标准。因此,用绘画特征的空间来表示,模型专注于表示这两类绘画之间的边界。




对于生成任务,模型必须学习每幅画的全局方面,以便生成连贯的新画作。对于这种模型,学习侧重于表示画作特征的全局分布。这两幅生成的图像是使用原始的Stable Diffusion 模型生成。




存在哪些GenAI模型?


深度学习具有表示和学习复杂数据模式并对其进行扩展的能力,似乎非常适合数据生成,也适合对不同类型的数据进行建模。促成各种类型的GenAI模型的发展。其中最重要的有生成对抗网络(GANs)、基于解码器的大型语言模型(LLMs)、变分自编码器(VAE)和扩散模型。


    - 生成对抗网络

生成对抗网络(GAN)是由Goodfellow等人于2014年引入的用于任务生成的深度学习模型。GAN由两部分组成,一个生成器和一个判别器。生成器是生成输出图像的神经网络,判别器是评估生成器生成的图像有多逼真的神经网络。然后,生成过程就是这两部分之间的竞争。生成器试图改进其输出以误导判别器,判别器试图提高其区分真实图像和生成图像的能力,以避免被生成器误导。结果,生成器将最大限度地提高其生成逼真图像的能力。如今,GAN用于许多涉及图像的任务,如生成和增强逼真的图像。


    - 大型语言模型

大型语言模型(LLMs)是现代对话系统(聊天机器人)如ChatGPT或Bard的基础。这些模型在大型数据集上进行训练,以学习数据中的模式和结构,能够生成连贯且与上下文相关的新内容。GenAI中的LLMs特别专注于通过预测下一个统计上最有可能的单词来生成类似人类的文本,并用于各种自然语言处理任务,包括文本完成、语言翻译、总结等。LLMs的训练过程涉及在大型文本数据语料库上进行预训练,使模型学习语言的统计属性和语言细微差别。为了实现这一点,大多数LLMs使用Transformer,一种专门为自然语言处理(NLP)任务设计的神经网络架构,于2017年首次引入。Transformer使研究人员能够训练越来越大的模型,而不必事先标记所有数据。基于自注意力的思想,可以同时关注文本的不同部分,捕捉文本中的长距离依赖关系,这对于理解和表述复杂语言很重要。因此,基于LLM的聊天机器人能够生成连贯且与上下文相关的文本。


一旦训练完成,这些模型可以针对特定任务进行微调,或者直接用于生成多样化且与上下文适当的文本。多模态大型语言模型(MLLMs)已逐渐从传统的LLMs中脱颖而出。MLLMs克服了纯基于文本输入的限制,可以从多种模态获取知识——从而能够与现实世界更充分地交互。


    - (变分)自编码器

自编码器模型基于三个部分:编码器、代码和解码器。编码器是一个神经网络,学习如何将输入数据编码和压缩为中间表示,即代码,基本上是一系列数字。解码器(另一个神经网络)使用该代码,解码器已经学习如何将数据解压缩并重建为预期的输入格式。除了数据压缩,自编码器的目标是学习如何表示某些数据的性质,以便对这种内部表示进行小的修改仍然可以重建为新的有意义的输出。自编码器在当今的GenAI中很常见。大量变体引入了多种改进,例如2013年发布的流行的变分自编码器(VAEs),用于生成复杂多样的图像样本。


原始的Transformer 模型 也是一种编码器 -解码器架构。在OpenAI GPT 模型家族的情况下,通过仅保留解码器部分,已被适用于创建用于文本生成的大型语言模型。换句话说,现代的LLMs是基于解码器的大型语言模型。


    - 自回归模型

自回归模型是一类概率模型,通过对序列中每个观测值给定先前观测值的条件概率进行建模,来描述观测值序列的概率分布。换句话说,自回归模型通过考虑先前的值来预测序列中的下一个值。


GenAI的背景下,自回归模型经常用于生成新的数据样本。在数据集上训练一个模型,然后基于先前生成的元素一次预测一个元素,用于生成新的数据点。使得自回归模型适用于语言生成、图像合成和其他生成任务等任务。GenAI中的自回归模型示例包括自回归移动平均(ARMA)模型、自回归综合移动平均(ARIMA)模型和用于图像生成的PixelCNN。自回归模型在应用于自然语言处理任务(例如,大多数现代LLMs,如GPT-3或GPT-4都是自回归的)和图像生成任务(如PixelCNN)时特别成功。


    - 扩散模型

扩散模型的灵感来自于扩散的概念,在物理学中用于对两组粒子在两个不同物理区域的运动进行建模。用于图像生成的扩散模型涉及一个神经网络来预测并去除给定噪声图像中的噪声。生成过程相当于首先对图像应用随机噪声(随机像素),然后迭代使用神经网络去除噪声。随着噪声逐渐被去除,在附加机器学习机制的控制下,构建出一个新颖且有意义的图像。扩散模型取得了相当大的进展,并且在文本到图像生成方面非常成功,例如Stable Diffusion 和DALL-E模型家族(OpenAI 2021 年)。



GenAI有哪些模式?


生成式人工智能模型在各种应用中非常有效,甚至在一定程度上可以挑战人类创造力的某些方面。成熟的模型支持不同类型的输入和输出数据(模式),不仅限于文本和图像,使得GenAI有可能与许多经济领域相关。


    - 图像、视频

GenAI的一种数据类型是图像和视频。生成模型通常可以将一张图像转换为另一张图像,增强或修改输入图像的风格。为了学习像素之间的模式和关系,GenAI模型在大量的图像和视频数据集上进行训练,同时也结合了文本。例如,扩散模型可以根据简短的文本描述生成令人印象深刻的高分辨率图像,如2022年发布的Stable Diffusion所示。另一方面,像2021年OpenAI的CLIP(对比语言-图像预训练)或2022年更大的DeepMind的Flamingo这样的模型,用于从图像或视频中生成标题。


下图进一步说明了Flamingo根据问题形式的文本提示分析图像的能力。通过分析图像,Flamingo模型可以生成文本,根据图像为问题提供答案。


DeepMindFlamingo模型结合图像分析和文本生成能力的图示


     - 文本

OpenAI于2018年发布的GPT(生成式预训练)模型(OpenAI 2018),以及更重要的2019年发布的GPT-2(OpenAI 2019)加速了GenAI的发展。这些大型语言模型(LLMs)依赖文本作为主要的数据模式。当前基于文本的方法的核心技术是使用前面提到的称为Transformer的深度学习架构,能够从大量未标记的文本中保持学习能力,随着模型中层数的增加,可扩展到数十亿个参数。这种模型可靠地处理各种各样的任务,如自动总结、机器翻译、文章生成、释义或写作风格改进等。


2022年11月,ChatGPT向广大公众展示了基于LLM的聊天机器人的新能力(OpenAI 2022)。基于文本的LLMs从极其大量的文本中学习,大约有数千亿个标记。由于它们保持学习能力,不仅学习通用语言,还学习如何生成关于世界上各种实体和事件的文本。ChatGPT通过进一步用人类训练员验证的连续提示和回复来训练LLM。因此,LLM被进一步训练(微调)用于对话,在生成人类语言文本的现有能力之上实现流畅和多样化的对话。用户可以与系统发起任何类型的对话,系统以类似人类的方式做出响应,包括后续查询和重新表述,以及事实信息,比通常的聊天机器人更具说服力。


从那时起,出现了大量竞争产品,包括更好地控制所传达信息的可靠性和改进对话的技术。特别是,检索增强生成(RAG)是一种广泛使用的技术,将提供的信息限制在对一个或几个搜索引擎的初步请求的结果中。成本更高的是额外的微调,是修改LLM本身以进一步专门或改进回复选择的另一种方式。


    - 语音、声音、音乐

2016年,DeepMind推出了WaveNet,一个能够生成音频波形的深度神经网络。WaveNet是生成逼真人类语音,任何类型音频的生成模型的一个里程碑。以前的文本到语音系统大多基于将相对较大的声音片段(如音素)连接在一起形成单词和句子。这种方法需要同一说话者的大量语音记录,往往具有不自然的语气和节奏。相反,WaveNet在非常低的层面上学习波形如何随时间变化,一次一个样本地重新创建语音声音,每秒生成16,000个样本。除了更自然的声音,只需要几分钟的真实录音就能模仿一个特定的声音。同样的生成方法可以用于其他形式的音频,如音乐。由谷歌研究人员在280,000小时的音乐上进行训练,MusicML是这种从文本提示生成整首歌曲的生成系统的一个最近的例子。


    - 代码

2021年,主要的开源软件平台GitHub和OpenAI为开发者发布了名为Copilot的编程助手,基于GPT-3的修改版本。该大型语言模型在英语和GitHub公司托管的大量公共软件代码库上进行训练。


该助手可以根据描述编程问题的一些自然语言进行代码生成。可以提供代码补全,例如在集成开发环境中的实时建议。还能够对现有或生成的代码进行注释和解释。这样的工具表明GenAI有可能改变许多职业的工作方法,具有提高生产力的前景。


    - 分子、基因、蛋白质

一些GenAI模型在化学分子、基因和蛋白质的大型数据集上进行训练。能够生成具有所需特性的新的化学分子、基因和蛋白质结构。GenAI模型还可用于设计新药和疗法,并提高化学和生物过程的效率。2021年,DeepMind的AlphaFold 2 系统基于Tramsformer模型在预测蛋白质结构的CASP14竞赛中获胜。了解蛋白质的稳定3D结构对于理解其生物学功能是必要的。然而,“蛋白质折叠问题”非常具有挑战性。经过几十年的实验,只知道大约170,000种蛋白质的结构,而所有生命形式中估计有超过2亿种蛋白质。在CASP竞赛中,AlphaFold 2 的准确性与现有的实验技术相当。自动生成可靠的蛋白质结构是一个关键的科学里程碑,这一结果对药物发现具有希望的影响。


    - 3D 图像模型

GenAI不太为人所知的应用涉及从不完整的输入(例如几张2D图像)重建3D场景的能力。2020年推出的Neural Radiance Field (NeRF) 是一种快速的深度学习方法,能够对场景进行几何建模,并对新视角进行逼真的渲染。这种GenAI技术已经为大众所知。2023年逐步在某些城市部署,谷歌沉浸式视图使用NeRF将2D街道图片转换为3D , 应用于医学成像。例如允许从几张或单视角X射线生成3D计算机断层扫描(CT),减少对电离辐射的暴露。在机器人技术中,这些技术可以帮助机器人与环境交互,提高对透明和反射物体的感知。其他应用包括从卫星图像进行表面重建或在产品设计或增强现实中创建逼真的内容 。


    - 合成数据变得越来越重要

合成数据是计算机模拟或算法生成的带注释的信息,作为现实世界数据的替代。通常试图重现现有数据的特征和属性,或者根据现有知识生成数据。采取各种不同类型的现实世界数据的形式。例如,合成数据可用于生成物体或场景的逼真图像来训练自动驾驶车辆。有助于物体检测和图像分类等任务。由于合成数据,可以快速创建和测试数百万种不同的场景,克服物理测试的局限性。


总的来说,当数据不存在、不完整或不够准确时,合成数据对于训练人工智能模型非常有用。合成数据的发展可以通过一个称为标签高效学习的过程来实现。为数据贴标签是训练许多人工智能模型的重要步骤。传统上,标注数据涉及人工所需信息标注数据,耗时且昂贵,特别是对于大型数据集。GenAI模型可以降低标注成本,要么通过创建带有所需标签的逼真合成数据(图像、文本等),要么通过增加现有训练数据生成额外的标注数据点,要么通过学习数据的内部表示,使得用较少标注数据训练人工智能模型更容易。


Gartner预计到2030年合成数据将成为GenAI中的主导数据类型。合成数据通过避免冗长的数据获取程序,允许GenAI模型快速发展。虽然目前的重点是可用的真实数据,但在未来,人工生成的数据可能会占据主导地位。


    - GenAI 的数据集

数据可用性的不断提高一直是GenAI发展的主要因素,已经开发和汇集许多数据集。然而,由于与公共数据集相关的平台和服务高度分散,跟踪与数据相关的活动很复杂。截至2023年11月,Re3data(一个全球研究数据存储库注册中心)报告称,全球有3160个不同的研究数据集存储库 。通过这些平台提供的大多数数据以开放获取的形式分发,通常在知识共享许可下,并且来自各种公共机构:研究机构、公共行政部门、博物馆、档案馆等。此外,像大规模网页抓取(在网络浏览器上呈现的公共网页的复制和收集)这样的原始数据也被普遍使用。


GenAI模型实际使用的训练数据目前记录不完整。依靠对GenAI语料库的开放获取子集(在总共75870篇文章中,有34183篇)的文本挖掘分析来获取实际使用的数据集。通过这种方法,总共获得了978297次数据集提取。


排名靠前的数据集都是基于图像的,只有少数基于文本的数据集,如维基百科和PubMed。



被引用最多的数据集似乎是图像理解数据集,如ImageNet、MNIST、CIFAR等。常用于训练和评估GenAI模型,特别是GAN模型。第一批基于文本的数据集是维基百科和PubMed。HumanEval是第一个专门针对文本和LLM的数据集:它是像GitHub Copilot 这样的代码生成系统的评估基准。


从头开始训练GenAI模型的两个主要数据源是LAION和Common Crawl。Common Crawl是一个非营利组织,抓取网络并免费向公众提供其数据集。数据集包括根据美国合理使用主张分发的受版权保护的作品,网站样本的形式。大多数LLM使用Common Crawl 数据进行训练。


LAION,大规模人工智能开放网络,一个非营利组织,提供与图像相关的大型数据集(图像-文本对)。这些数据集是大多数GenAI文本到图像模型(如Stable Diffusion)的背后支撑。为了减轻版权和GDPR(《通用数据保护条例》)问题,这些数据集不包括图像,而是包含引用图像的URL(网址)。


    - 专有模型与开放模型

作为内容创作和生产力提升的技术推动器,GenAI必然会对许多行业产生重大影响。为了实现GenAI的实际应用,出现了两种类型的模型,专有模型和免费可用的开放模型:


专有模型: 包括 OpenAI 的 GPT3 和 4 或者 Alphabet/Google 的 BARD 聊天机器人。模型开发公司允许开发者和个人付费访问其 API。这些模型具有专业的支持、文档和大型计算基础设施,确保高水平的可靠性和性能。


开放模型: 通常称为开放数据或开源模型,免费向公众提供,任何人都可以使用、修改和分发,可能会有一些限制(例如商业应用)。开放模型受益于开发者、研究人员和用户的社区以及透明度,因为运行模型的代码通常可供审查。开放模型的例子有 Meta 的 LLaMA 2 和 3 以及 Mistral AI 系列模型。目前只有少数模型,如 GPT-NeoX(EleutherAI)和 OLMo(艾伦人工智能研究所)可以被认为是完全开放的,同时发布模型和训练数据,以及训练和运行模型的代码,没有使用限制。


开放访问 GenAI 模型的可用性:  Hugging Face 商业平台是目前最受欢迎和知名的公开分享开放访问机器学习模型的服务,不限于数据和模型类型。


截至2024年1月20日,Hugging Face 托管了477,329个机器学习模型,其中106,430个(占比22.3%)可被视为GenAI模型。可以根据输入和生成数据的类型对不同模型进行细分。文本生成模型占主导地位,可能与过去两年对话系统的兴起有关。大多数基于图像的模型似乎是多模态的,使用文本提示作为输入或生成图像说明,而不是进行图像到图像的生成。


GenAI软件的生产难以追踪,原因在于软件发布渠道的增多、开发环境的多样性、现代软件工程的分布式特性以及缺乏中央元数据索引。主要的开源开发平台GitHub拥有2.84亿个公共存储库。当核心技术创新很早就以开源软件和开放访问模型的形式提供时,大型组织可以在有限的风险和投资下受益。即使没有软件知识产权,拥有最大数据集和计算能力的组织也可以利用这些优势开发领先的人工智能系统。



    - 专利景观报告——生成式AI

8个存储库与机器学习相关,其中三个专门针对GenAI(用橙色突出显示) 。





将影响力研究仅限于开源软件是不完整的。科学出版物中提到的软件能够更全面地呈现GenAI中实际具有影响力的软件。就引用文献而言,OpenAI的ChatGPT是被引用最多的软件,并且也被大量讨论,提及次数超过十万次。如果忽略开发框架和实用工具,只关注专门针对GenAI的软件,在前20名中被高引用的软件中约有一半是专有的,并且都来自OpenAI(ChatGPT、GPT、Codex)。


GenAI语料库开放获取子集里提到的前20个软件(共34,183个成功下载的PDF




全球生成式AI的专利申请


近年来,深度学习技术取得了显著进展,计算能力也日益增强,推动了GenAI的快速发展。GenAI的重大进步体现在该领域专利活动的急剧增加上。在过去的十年中,GenAI模型的已公布专利家族数量从2014年的不足800个增加到2023年的超过14,000个。自2017年开始,专利活动出现了大幅增长,此后的年均增长率约为45%。这与2017年引入的Transformer模型的时间相吻合。总体而言,专利搜索确定了在2014年至2023年期间GenAI领域公布的54,358个专利家族。截至2023年底,该专利数据集中约89%(48,398个专利家族)被认为是活跃的。


2017年Transformer模型推出后,专利和科学出版物都大幅增加,而在2022年ChatGPT发布后,科学出版物更是呈现爆发式增长。


根据世界知识产权组织(WIPO)2024年7月3日发布的《生成式人工智能专利态势报告》,在2014年至2023年的十年间,中国生成式人工智能专利申请数量居全球之首,提交的38,210件专利申请约占全球总量的70%,远超美国(6,276件)、韩国、日本和印度等国。


在全球生成式人工智能专利申请前十强中,中国企业占据半壁江山,其中腾讯以2,074件专利申请的数量位居全球第一,百度、阿里巴巴和字节跳动也分别位列全球第三、第六和第九。


同期科学出版物的数量增长更为显著,从2014年的仅约100篇增加到2023年的超过34,000篇。特别是在2023年,科学出版物数量大幅增加。2022年非常成功和流行的GenAI模型和工具(如ChatGPT、Stable Diffusion、LlaMA等)的发布很可能引发新的GenAI研究浪潮。许多最新的研究似乎集中在减小大型生成模型的规模、更好地控制生成过程以及探索各种应用和领域。


2023年专利家族出版物的数量也有所增加,但不如科学出版物增加得多。不过,可以预期2024年和2025年专利家族出版物会有类似的加速增长,因为新专利的申请和公布之间通常存在18个月的滞后(WIPO 2021)。


GenAI仍是AI中相对较小的一部分,但正变得越来越重要。将GenAI专利家族出版物的发展与2014年以来所有AI专利家族出版物进行比较,可以明显看出GenAI在所有AI研究活动中仍只是相对较小的一部分。2023年,GenAI专利家族出版物有14,080件,而AI专利家族出版物总数近230,000件。自2017年以来,可以看到GenAI在所有AI专利中的份额一直在增加(从2017年的4.2%增加到2023年的6.1%)。


鉴于自2022年11月ChatGPT推出以来公众对GenAI的兴趣大幅增加,以及2023年科学出版物的激增,很可能GenAI在AI领域的专利世界中也将继续变得越来越重要。



在过去十年中,中国的腾讯、平安保险集团和百度发布的GenAI专利家族数量最多。

    - 腾讯基于其大语言模型“混元”推出了自己的 AI 聊天机器人,支持图像创作、文案撰写和文本识别等多种应用。该公司利用“混元”为其旗舰产品如微信添加 AI 功能,以提升用户体验。

    - 平安保险的 AI 计划侧重于用于承保和风险评估的 GenAI 模型。

    - 百度是 GenAI 领域的早期参与者之一,最近发布其最新的基于大语言模型的 AI 聊天机器人 ERNIE 4.0。百度还为 IT、交通或能源等行业开发了多个大语言模型。



OpenAI有专利吗?

由于ChatGPT的成功,OpenAI在公众眼中已成为GenAI的代名词。直到2023年初,OpenAI似乎都没有为其研究活动申请任何专利。对此的一种解释可能是OpenAI的非营利性质。最初,OpenAI作为一个非营利组织成立,鼓励其研究人员发表并分享他们的工作,以“以最有可能造福整个人类的方式实现数字智能”。OpenAI最初将其技术的重要部分开源。该公司后来从非营利组织转变为“有上限的”营利模式(OpenAI分为非营利的OpenAI, Inc 和营利性子公司OpenAI Global, LLC,微软是主要投资者之一)。另一种解释可能是OpenAI选择以商业秘密的形式保留其知识产权。


OpenAI似乎首先以商业秘密的形式保护其部分技术。然而,OpenAI的六项美国专利在2024年第一季度公布(三项已授权,三项待审批)于2023年初提交,这表明其知识产权战略发生了变化并创建了专利组合。

大多数大型科技公司在过去十年中申请了众多GenAI专利,以保护未来收入免受专利授权主张的影响。因此,OpenAI缺乏专利可能会给其知识产权战略带来风险。


    - 中国处于全球 GenAI 专利活动的前沿。根据专利上公布的发明者地址,2014 年至 2023 年期间,中国超过38,000 个专利家族出版物。自 2017 年以来,中国每年在该领域公布的专利家族数量都超过了所有其他国家的总和。

    - 2014 年至 2023 年期间,美国总计约有 6,300 个专利家族,是 GenAI 的第二大重要研究地点。

    - 韩国、日本和印度也是 GenAI 的重要研究地点,在全球排名中均位列第三、第四和第五。

    - 英国是欧洲的领先地区(全球排名第六),同期公布了 714 项专利。德国紧随其后(708 个专利家族),并且近年来公布的 GenAI 专利数量超过了英国。


这七个发明者所在地构成了与GenAI相关的专利活动的大部分,约占数据集的98%,还有一小部分来自加拿大、以色列和法国等其他国家。



在分析五个关键GenAI模型时,腾讯在基于解码器的大型语言模型(LLM)专利家族方面位居榜首,其次是百度。百度和腾讯在全球公司中也是扩散模型的领导者。平安保险集团拥有全面的GenAI专利组合,在所有五个GenAI模型中都有许多专利家族。国家电网在生成对抗网络(GAN)专利家族方面处于领先地位。


Alphabet/Google最近大幅增加了其与LLM相关的专利家族数量,并且是变分自编码器(VAE)模型的全球第二。IBM是VAE专利家族的领导者,在GAN模型方面排名第二,仅次于百度。



对未来的思考


    - 对 GenAI 使用的担忧

GenAI的出现将对各个行业产生重大影响,为公司、组织和个人提供前所未有的创建、合成和处理数据的能力。然而,人们也对GenAI模型和工具的日益广泛使用表示担忧,从版权侵犯和潜在的滥用,到工作岗位流失的风险。


    - GenAI 对劳动力市场的影响

在对就业的影响方面,人们普遍担心GenAI会导致许多行业出现大量工作岗位流失,因为机器能够完成以前由人类完成的任务。高盛最近的一项研究预测,GenAI将极大地扰乱劳动力市场,全球主要经济体中约有3亿工人在一定程度上面临GenAI自动化的影响。然而,这种影响因工作而异。事实上,许多职业将受益于GenAI工具,使专业人员能够专注于工作中更高级、更具战略性的方面。因此,与之前的自动化形式一样,GenAI应该能够促进GDP增长并提高整体收入水平。然而,某些工作肯定有被淘汰的风险,对AI敏感的个人将需要有针对性的支持,以转向新的机会并重新培训以适应新兴角色。此外,与之前主要影响中等技能工人的自动化浪潮不同,AI替代的风险延伸到某些高薪职位,例如某些类型的数据分析师、市场研究分析师、簿记员或律师助理。


    - GenAI 在版权和知识产权保护方面的作用

人们也对GenAI艺术、文本和代码以及训练数据可能存在的版权侵犯表示担忧。AI模型可能生成与现有作品非常相似的文本、图像和音频,从而可能侵犯版权。因此,版权问题已经在许多司法管辖区引发了辩论。例如,在美国,艺术家、作家和其他人已经提起诉讼,指责OpenAI等主要AI公司未经许可使用他们受版权保护的作品来训练AI系统。

另一个备受争议的问题是,随着AI模型和工具在创新活动中发挥越来越重要的作用,AI发明是否可以获得专利。例如,美国联邦巡回法院最近的一项裁决指出,纯粹由AI机器开发的发明不可获得专利,而人类在AI协助下的发明则可以。


    - 其他担忧包括深度伪造和训练偏差

其他令人担忧的领域包括深度伪造,即未经他人同意将某人的形象插入另一个视频的假图像或视频。由于GenAI可以创建高度逼真和令人信服的内容,这些深度伪造可能被用于恶意目的,例如在选举活动期间传播错误信息。


尽管近年来GenAI模型的能力有了显著提高,但这些模型有时仍会产生错误的结果。例如,聊天机器人的回答可能听起来令人信服,但可能是错误的(例如AI幻觉)或由于训练数据集中的扭曲而存在偏差。GenAI以及一般的AI都取决于其所训练的数据,训练数据中的现有偏差将导致结果中的偏差。因此,人类参与决策非常重要,特别是在信任至关重要的行业,如金融或医疗保健。


    - GenAI 会发展成为通用 AI 吗?

尽管最新的GenAI模型使用类似人类的语言,并且其输出看起来具有创造性和智能,但仍然远远不及人类智能,因为GenAI模型并不是真正理解事物,而只是能够根据其输入数据做出好的猜测。GenAI模型是否可以进一步改进以具备推理能力是一个备受争议的话题。一些AI倡导者认为GenAI是迈向通用AI甚至意识的重要一步。有人担心GenAI发展的进展需要一种紧迫感,以确保人类仍然能够控制和管理这些模型。一些专家甚至呼吁暂停AI发展。其他人则认为,AI的更快进步将提供更好地理解技术并使其更安全的工具。一个例子是OpenAI使用来自人类反馈的强化学习(RLHF)来创建防护栏,使ChatGPT的响应更准确和适当。专家们对于何时能够实现通用AI存在很大的分歧,许多专家认为通用AI仍然还有很长的路要走。


    - 法规制定以解决担忧

鉴于上述对GenAI的担忧,世界各地正在制定和引入新的GenAI法规,旨在利用GenAI的好处同时减轻风险。各国法规的目标各不相同,但通常包括保护消费者、防止滥用和确保负责任的发展。


中国是在ChatGPT推出几个月后最早引入GenAI立法的国家之一。最初侧重于针对不同类型AI产品的个别立法。2023年,中国对算法推荐服务的规则与对深度伪造或GenAI的规则不同。2024年1月,中国工业部发布了人工智能(AI)产业标准化指南草案,到2026年将形成50多项国家和行业范围内的AI标准。


欧盟也一直在致力于规范AI。2024年3月,欧盟理事会和议会通过了《欧盟AI法案》,预计将在一两个月内生效。该AI法案将通过将人工智能系统的应用类型分类为不同的风险类别来规范人工智能系统的提供者,包括潜在的未来通用AI类别。开发被认为对基本权利构成“高风险”的GenAI模型和工具的公司,例如那些打算用于教育、医疗保健和警务等部门的公司,将必须符合新的欧盟标准。该法律将要求公司更加透明地说明其模型是如何训练的,并披露他们用于训练的任何受版权保护的材料。它还将确保被认为高风险的AI系统使用具有充分代表性的数据集进行训练和测试,例如以尽量减少偏差。欧盟将完全禁止AI的其他用途,例如创建面部识别数据库或在工作场所或学校使用情感识别技术。


美国迄今为止尚未对GenAI进行监管,但也采取了某些步骤,例如通过联邦贸易委员会(FTC)。此外,拜登政府于2023年10月发布了一项行政命令,指示联邦机构制定监管人工智能的全面国家战略,将GenAI作为一个特定的关注领域。美国的重点是依靠不同机构制定自己的规则来创建最佳实践。


    - 负责任的 AI 最佳实践

解决对GenAI和一般AI担忧的另一种方法是开发所谓的负责任的AI。负责任的AI是一个涵盖与AI相关的适当和道德决策的总称。实现这一目标的些步骤包括:

    1. 透明度和解释:应该有关于所使用的训练数据和所采用的算法的文档,以避免潜在的版权侵犯,并允许用户了解 GenAI 模型的工作原理,风险和好处。

    2. 建立机制(例如监管框架)使开发人员和用户对 GenAI 的道德使用负责。

    3. 负责任的 AI 必须确保识别和解决偏差,以使 GenAI 算法不会不公平地歧视某些人群。

    4. 公司应将 GenAI 模型与人类监督和判断相结合。

    5. 持续监测 GenAI 模型和工具,确保考虑到实际性能和用户反馈,以解决潜在问题。

    6. GenAI 和一般的 AI 系统应该对潜在威胁(如对抗性攻击)具有弹性。


- HTC 出海引发的思考

2010年3月,苹果公司起诉HTC,称其产品侵害4项专利,要求在美国禁售HTC产品。此前HTC曾因专利问题吃过亏,但在做手机后,代工企业出身的HTC既缺乏自有专利储备,又对海外市场考察不深入,在被苹果起诉后才意识到问题的严重性,花费3亿美元收购一家公司的专利以反诉苹果,但最终败诉,被判侵犯苹果的647号专利,相关HTC手机不得在美国出售。


此后,诺基亚等企业也纷纷控告HTC侵权,HTC在2011年花费二十多亿人民币解决专利问题,并每台手机需向欧美科技巨头缴纳三四百元专利费,导致其发展受阻,市占率大幅下降,掉出全球前十,安卓老大的位置也让给了三星。在危难之际,HTC意识到中国大陆市场或许是其救命稻草。



AIGC应用场景.jpg




生成式人工智能(GenAI)正在以前所未有的速度改变着我们的世界。不仅为各个行业带来了创新和机遇,也引发人们对其潜在影响的关注和思考。在享受GenAI带来的便利的同时,也需要认真对待其可能带来的挑战,如专利问题、就业影响、伦理道德等。通过制定合理的法规和发展负责任的AI,可以更好地引导GenAI的发展,使其真正造福人类社会。期待GenAI在未来的发展中展现出更加惊人的潜力和价值。


#AIGC#生成式AI#GenAI#生成式人工智能#B100#大模型#LLM#H100#H200#B200


本报告来源于网络,如有侵权请练习作者删除。


下载完整PDF报告,添加小助手微信 “GPU18911232010“,回复 《生成式AI专利态势报告》获取完整报告。





蓝海大脑 京ICP备18017748号-1