数字中国建设整体布局规划,能给ChatGPT带来什么机会呢?
2)旅游景区:AI机器视觉助力实现客流管理、智能运维、火灾预警和环境动植物监测。基于智能检测终端、智能网络、物联网技术和移动应用,人工智能机器视觉可实现景区地理、自然资源、基础设施和景区管理的数字化和可视化;完善旅游景区车辆、人员、资产和事件的安全管理。同时,通过智能分析和数据应用,增强景区安全,优化景区管理,丰富游客服务,助力景区环境和经济可持续发展。目前,大华股份的旅游景区解决方案已应用于四川大邑县、福建清源山景区等地的全域旅游项目。
2、AIGC技术方兴未艾,基于NLP技术未来有望创新内容创作方式
AIGC是一种利用AI技术自动生成内容的生产方式,包括文本、图片、视频等多种形式的内容。AIGC 是基于人工智能的内容生产,一般来说,使用形式是将需要生成的内容通过句子以一定的格式描述出来,然后让AI系统自动生成文字/图片/视频等。目前,国内外已有多家厂商在AIGC领域布局,比如国内的 AI 小说续写软件彩云小梦、OpenAI 推出的 AI 绘画 模型 Dall-E、知名 AI 绘画网站 midjourney 等。
NLP 能力决定了 AIGC 应用对用户意图的理解力,是生产力的重要组成部分,ChatGPT 的到来有望加速其技术迭代。由于目前 AIGC 的生产模式,是通过语言文字的方式输入 用户需求,所以,如何理解用户所描述的内容,就成为决定成品效果的重要因素。而 NLP 技术,正是理解用户意图的关键所在。ChatGPT 作为当前效果最好的对话式 NLP 模型之 一,它的出现有望提升 AI 理解人类意图的水平,从而加速 AIGC 技术的迭代。
Chat GPT 的底层架构
作为一种人工智能模型,ChatGPT 的训练和推理需要大量的计算资源。与 CPU 相比,GPU 具有更高的并行性和处理能力,因此常常被用来加速深度学习任务的运算。因此,ChatGPT 的训练和推理通常会利用 GPU 来加速计算。
在训练过程中,ChatGPT 的架构可以采用分布式训练的方式,使用多个 GPU 并行计算,以加速训练过程。在推理阶段,ChatGPT 可以使用 GPU 进行加速,以实现更快的响应时间和更高的吞吐量。
对于 GPU 的选择,一般来说,需要考虑 GPU 的计算能力、内存大小、功耗、价格等因素。同时,也需要考虑 GPU 的架构是否与 ChatGPT 的计算需求相匹配,以获得最佳的性能和效率。例如,NVIDIA 的 Volta、Turing 和 Ampere 架构都被广泛应用于深度学习领域,包括 ChatGPT 的训练和推理。
GPU的核心竞争力在于架构等因素决定的性能先进性和计算生态壁垒。国内GPU厂商纷纷大力投入研发快速迭代架构,推动产业开放构建自主生态,加速追赶全球头部企业。国产替代需求持续释放叠加国际局势不确定性加剧, AI、数据中心、智能汽车、游戏等GPU需求有望高增,国产GPU迎来发展黄金期,我们看好国产GPU公司的发展与投资机遇。
一、如何理解GPU的架构
为了充分理解GPU的架构,让我们再返回来看下第一张图,一个显卡中绝大多数都是计算核心core组成的海洋。在图像缩放的例子中,core与core之间不需要任何协作,因为他们的任务是完全独立的,然而,GPU解决的问题不一定这么简单,让我们来举个例子。
假设我们需要对一个数组里的数进行求和,这样的运算属于reductuin family类型,因为这样的运算试图将一个序列“reduce”简化为一个数。计算数组的元素总和的操作看起来是顺序的,我们只需要获取第一个元素,求和到第二个元素中,获取结果,再将结果求和到第三个元素,以此类推。
令人惊讶的是,一些看起来本质是顺序的运算,其实可以再并行算法中转化。假设一个长度为8的数组,在第一步中完全可以并行执行两个元素和两个元素的求和,从而同时获得四个元素,两两相加的结果,以此类推,通过并行的方式加速数组求和的运算速度。具体的操作如下图所示,
如上图计算方式,如果是长度为8的数组两两并行求和计算,那么只需要三次就可以计算出结果。如果是顺序计算需要8次。如果按照两两并行相加的算法,N个数字相加,那么仅需要log2(N)次就可以完成计算。
从GPU的角度来讲,只需要四个core就可以完成长度为8的数组求和算法,我们将四个core编号为0,1,2,3。
那么第一个时钟下,两两相加的结果通过0号core计算,放入了0号core可以访问到的内存中,另外两两对分别由1号2号3号core来计算,第二个个时钟继续按照之前的算法计算,只需要0号和1号两个core即可完成,以此类推,最终的结果将在第三个时钟由0号core计算完成,并储存在0号core可以访问到的内存中。这样实际三次就能完成长度为8的数组求和计算。
如果GPU想要完成上述的推理计算过程,显然,多个core之间要可以共享一段内存空间以此来完成数据之间的交互,需要多个core可以在共享的内存空间中完成读/写的操作。我们希望每个Cores都有交互数据的能力,但是不幸的是,一个GPU里面可以包含数以千计的core,如果使得这些core都可以访问共享的内存段是非常困难和昂贵的。出于成本的考虑,折中的解决方案是将各类GPU的core分类为多个组,形成多个流处理器(Streaming Multiprocessors )或者简称为SMs。
二、最终的GPU架构
FP64 Cores. 实际上每个SM都包含了2个64位浮点计算核心FP64 Cores,用来计算双精度浮点运算,虽然上图没有画出,但是实际是存在的。Integer Cores,这些core执行一些对整数的操作,例如地址计算,可以和浮点运算同时执行指令。在前几代GPU中,执行这些整型操作指令都会使得浮点运算的管道停止工作。TU102总共有4608个Integer Cores,每个SM有64个SM。
Tensor Cores,张量core是FP16单元的变种,认为是半精度单元,致力于张量积算加速常见的深度学习操作。图灵张量Core还可以执行INT8和INT4精度的操作,用于可以接受量化而且不需要FP16精度的应用场景,在TU102中,我们每个SM有8个张量Cores,一共有8 * 72个Tensor Cores。
在大致描述了GPU的执行部分之后,让我们回到上文提出的问题,各个核心之间如何完成彼此的协作?
在四个SM块的底部有一个96KB的L1 Cache,用浅蓝色标注的。这个cache段是允许各个Core都可以访问的段,在L1 Cache中每个SM都有一块专用的共享内存。作为芯片上的L1 cache的大小是有限的,但它非常快,肯定比访问GMEM快得多。
实际上L1 CACHE拥有两个功能,一个是用于SM上Core之间相互共享内存,另一个则是普通的cache功能。当Core需要协同工作,并且彼此交换结果的时候,编译器编译后的指令会将部分结果储存在共享内存中,以便于不同的core获取到对应数据。当用作普通cache功能的时候,当core需要访问GMEM数据的时候,首先会在L1中查找,如果没找到,则回去L2 cache中寻找,如果L2 cache也没有,则会从GMEM中获取数据,L1访问最快 L2 以及GMEM递减。缓存中的数据将会持续存在,除非出现新的数据做替换。从这个角度来看,如果Core需要从GMEM中多次访问数据,那么编程者应该将这块数据放入功能内存中,以加快他们的获取速度。其实可以将共享内存理解为一段受控制的cache,事实上L1 cache和共享内存是同一块电路中实现的。编程者有权决定L1 的内存多少是用作cache多少是用作共享内存。
最后,也是比较重要的是,可以储存各个core的计算中间结果,用于各个核心之间共享的内存段不仅仅可以是共享内存L1,也可以是寄存器,寄存器是离core最近的内存段,但是也非常小。最底层的思想是每个线程都可以拥有一个寄存器来储存中间结果,每个寄存器只能由相同的一个线程来访问,或者由相同的warp或者组的线程访问。
三、海外复盘:NVIDIA与AMD(ATI)的竞争贯穿GPU发展历程,架构创新升级和新兴AI等领域前瞻探索是领跑的关键
1、NVIDIA长期居于GPU市场领导地位,近年AMD凭借RDNA架构在游戏市场强势崛起。Verified Market Research数据显示,2022年全球独立GPU市场规模约448.3亿美元,NVIDIA和AMD的市场份额占比约为8:2。根据JPR数据,NVIDIA凭借自身性能领先和CUDA生态优势性 始终占有GPU领域超50%的市场份额,数据中心业务更是全面领先,在游戏显卡领域,近年AMD凭借RDNA系列架构强势崛起。
2、NVIDIA先后与AMD等企业在性能方面竞争博弈,架构创新升级和新兴领域前瞻探索是领跑GPU行业的关键。NVIDIA凭借性能领先长期占据超五成市场份额,AMD(ATI)也曾因架构出色、性能惊艳实现反超。同时NVIDIA早在2006年前瞻性布局通用计算、构建CUDA生态,为如今AI&数据中心领域的全面领先构筑牢固的壁垒。NVIDIA积极布局异构芯片、汽车、元宇宙等新市场,寻找新的强有力业务增长点。
四、国内GPU市场:各应用场景市场广阔,国内厂商大有可为
1、GPU市场空间广阔,国内企业规模逐步起量
2022年全球GPU市场规模达到448.3亿美元,国内外市场空间正高速增长,年复合增长率达到32.8% ,Verified Market Research 数据显示,2020年,全球GPU市场规模为254.1亿美元,且该机构预计2028年市场规模将达到2465.1亿美元, 对应年复合增长率达32.8%。
国际独立GPU市场由Nvidia、AMD八二分成,国内市场中国企业体量快速增长国际市场上,英伟达、AMD瓜分市场,Jon Peddie Research数据显示2022Q1英伟达占据79%市场份额,AMD占据21%。英伟达在独立GPU领域一枝独秀,AMD在集成GPU领域可与英伟达竞争。根据各公司财报,国内GPU龙头企业景嘉微2022年上半年营业收入5.44亿人民币,2021年营业收入10.93亿人民币;2022年上半年海光信息营业收入为25.3亿元,而英伟达2022Q2营收为67亿美元,2021年NVIDIA中国区的营收约为71亿美元。相比之下,国产厂商相对规模暂时较小,未来成长空间广阔。
2、国内市场:GPU应用市场可划分为—AI和数据中心、智能汽车、游戏
1)需求端1—AI
ChatGPT等AI大模型加速对大算力的需求
2022年11月人工智能实验室 OpenAI 推出了一款AI对话系统—ChatGPT,ChatGPT模型从 GPT-3.5 系列中的一个模型微调而成,并在 Azure AI 超级计算基础设施上进行训练,能够进行有逻辑的对话、撰写代码、撰写剧本、纠正错误、拒绝不正当的请求等,效果超越大众预期。这标志着对话类人工智能可以在大范围、细节问题上给出较合理准确的答案,并根据上下文形成一定像人类一样有逻辑且有创 造力的回答。ChatGPT的优化主要来自模型的增大,以及因此带来的算力增加。GPT、GPT-2和GPT-3(当前开放的版本为GPT-3.5)的参数量从1.17 亿增加到1750亿,预训练数据量从5GB增加到45TB,其中GPT-3训练单次的成本就高达460万美元。
数据中心和终端场景不断落地对计算芯片提出更多更高需求
依据部署位置划分,AI芯片可以细分为终端芯片和云端芯片,云端芯片市场空间约为终端芯片的2-3倍。云端芯片:云端芯片应用于云端服务器,可以进一步细分为推理芯片和训练芯片。根据甲子光年数据,2018年中国云端芯片市场约46.1 亿元,该机构预计2023年增长至384.6亿元。终端芯片:应用于嵌入式、移动终端、智能制造、智能家居等领域的AI芯片,终端芯片需要低功耗和更高的能效比,但是对算力的需求也相对较低,主要应用于AI推理。根据甲子光年数据,2018年中国终端芯片市场约15亿元,该机构预计2023年增长至173亿元。
AI芯片总市场232亿元,其中云端芯片市场空间更大,预计终端芯片将随着AI在多行业落地将进一步放量。甲子光年预测,中国AI芯片市场规模将从2021年232亿元增长至2023年的500亿元左右,对应中国云端芯片市场的复合增长率为52.8%;终端芯片市场规模相对较小,但由于人工智能在汽车、安防、智能家居等行业渗透,届时市场规模增长率达到62.2%。
2)需求端2—汽车:汽车智能化浪潮下控制器GPU市场前景广阔。自动驾驶和智能座舱是智能汽车中具有广阔前景的方向。盖世汽车数据预计,2025年自动驾驶域控制器出货量将达到432万台,每台自动驾驶域控制器配备1-4片高性能计算GPU;智能座舱域控制器出货量达到528万台,绝大多数智能座舱域控制器配备1片GPU。自动驾驶技术进一步智能化拉动汽车GPU市场规模快速扩张。
3)需求端3—游戏:游戏玩家人数持续增长,游戏GPU市场稳中有升。Newzoo Expert数据显示全球游戏玩家人数在2021年已达到30.57亿人,且预计2020-2025年全球游戏玩家人数复合年增率为4.2%;游戏市场内,游戏机和PC两大主体出货量再创新高,游戏机三大巨头2021年出货量高达4008万台;2021年Q4全球PC GPU出货量(包括集成和独立显卡)高达11000万片。
3、国内GPU发展现状
1)GPU市场规模逐年增长:据市场研究公司IDC数据显示,2020年中国GPU市场规模为92.9亿美元,同比增长15.5%。其中游戏、数据中心、人工智能等领域是GPU市场的主要需求方。
2)国内GPU厂商崛起:中国有多家GPU厂商在市场中崭露头角,例如华为、寒武纪、显现科技、紫光展锐等。这些公司在GPU技术研发、产品创新、市场拓展等方面取得了不少成果,并开始在一些领域崭露头角。
3)国内GPU技术水平提升:中国在GPU技术研发领域也取得了一些成果,例如国产化的GPU服务器、AI加速卡、图像处理器等,这些技术的出现使得国内GPU应用的范围进一步扩大。
4)GPU在科研领域的应用逐步增多:GPU在科研领域的应用逐步增多,例如天河系列超级计算机、中国科学院的高性能计算平台等。GPU的应用不仅加速了科研进程,也为国家科技创新提供了支撑。
总结
数字中国建设是中国国家发展战略的一部分,旨在推动数字化、信息化和网络化的全面发展,提高数字经济的贡献率,构建数字社会和数字政府,加强国家信息安全和网络安全等。数字中国建设的整体布局规划应该包括以下几个方面:
1、建设数字基础设施:包括建设高速宽带网络、移动通信网络、物联网等数字基础设施,提高网络带宽和速度,实现全国覆盖。
2、推进数字产业发展:包括培育数字经济新业态,加强数字产业集聚区建设,促进数字化转型,提高数字产业的国际竞争力。
3、构建数字社会:加强数字技术与社会发展的融合,建立数字健康、数字教育、数字文化等数字社会基础设施,提高人民群众的数字素养和数字生活质量。
4、推进数字政府建设:通过建设数字政府平台、数字化行政审批、电子政务等手段,提高政府工作效率和公共服务水平,推进政府治理现代化。
5、加强信息安全和网络安全:建设信息安全和网络安全的法律制度体系,强化网络空间安全管理,提高信息安全和网络安全能力。
通过数字中国建设的整体布局规划,可以实现数字化、信息化和网络化的全面发展,加速数字经济的发展,提高社会生产力和国家综合实力。此外,ChatGPT可以通过学习数字中国建设的整体布局规划,深入了解数字技术在国家战略和社会发展中的应用,从而提高对数字经济、数字社会、数字政府等领域的理解和认知,为未来发展提供更加全面和深入的思路和支持。
蓝海大脑 京ICP备18017748号-1