一种基于大模型技术的算力产业监测服务平台设计

离子
2024-09-11 15:41:13

一种基于大模型技术的算力产业监测服务平台设计

 

李峰1 乔春庚2

(1.中国信息通信研究院信息化与工业化融合研究所,北京 100191;

2.拓尔思信息技术股份有限公司,北京 100096)

 

作者简介

 

李峰:中国信息通信研究院信息化与工业化融合研究所工程师,主要从事人工智能芯片评测和大模型应用等方面的研究工作。

乔春庚:拓尔思信息技术股份有限公司工程师,主要从事自然语言处理和大模型产品研发等方面的工作。

 

 

摘要:

提出了一种基于大模型技术的算力产业监测服务平台的设计,旨在通过高效的技术手段实现对算力产业发展监测,为智能化决策提供更加综合全面的支撑。该平台采用分层架构设计,底层以国产百亿参数大模型基座为支撑,上层为业务层应用系统,提供算力发展洞察、智能分析助手等功能。

关键词:大模型;向量库;算力产业监测

 

引言

 

在当今数字化转型的浪潮中,算力作为数字经济的基石,其产业的发展与监测成为了全球关注的焦点[1-2]。随着云计算、大数据、人工智能等技术的迅猛发展,算力的高效利用与产业生态的精细化管理变得日益重要。算力产业的健康发展依赖于对全球趋势的精准把握和市场动态的即时反馈。传统的监测手段往往受限于数据处理能力、分析深度以及信息的时效性,难以满足当前快速变化的市场需求。因此,开发一个能够提供全面、深入且即时服务的算力产业监测平台显得尤为重要。大模型技术作为人工智能领域的前沿技术,以其强大的数据处理能力和语言理解能力,为算力产业的监测与服务提供了更强的可能性。

 

1 算力产业监测服务平台需求分析

 

算力产业监测服务平台旨在提供全面且深入的服务,以满足不同层次的需求(见表1)。

 

 表1 算力产业检测服务平台应用需求

 

2 传统算力产业监测服务平台设计

 

根据算力产业监测服务平台的需求,使用传统技术在平台设计时多采用大数据/云计算和传统机器学习算法技术,通常将平台设计成3层(见图1)。

 

图1 基于传统技术的平台架构图

 

第一层为基础设施(底层),主要负责大数据/云计算的环境,包括x86服务器组建的分布式计算集群,用来处理海量数据的计算。数据及应用服务区包含应用服务器集群和数据库集群。应用服务器集群负责执行业务逻辑,采用高性能CPU应对高并发请求,并使用中间件连接前端与后端,实现服务的高效通信;数据库集群不仅涵盖传统的结构化数据库,还用来做全文检索的检索库。网络及安全管理区包括网络设备和安全设备。网络设备区包括管理交换机、业务交换机、计算网络交换机等,主要考虑单点故障和带宽问题;安全设备区则涵盖了僵尸网络、木马、蠕虫防护和系统等级保护要求,包括防火墙、主机杀毒、堡垒机、审计服务器、日志服务器、漏洞扫描服务器等。

 

第二层为大数据应用框架(中间层),负责数据采集汇聚、数据分析。算力行业的应用离不开高质量行业数据的支持,算力行业数据通常包括非公开非结构化的文档数据、公开的结构化统计数据和公开的非结构化数据。数据采集汇聚模块旨在通过整合内外部数据,构建高效的数据支撑体系,消除信息孤岛和数据壁垒。为了满足企业和公开数据的关联分析,要对新闻、政策等公开数据在爬取处理后做打标签的操作,公司实体标签可以通过自然语言处理中的公司实体自动识别进行,最后再由人工确认。另外,对于新闻、政策中的关键词标签,采用词表树的方式进行实现,人工提前配置好所有关键词的同义词、近义词,遇到一个新数据(如新闻、政策等)时,首先进行分词处理,然后对每个词循环匹配词表数据的同义词近义词,匹配成功将词表树的关键词加入该数据的标签中。数据分析,通常采用建设中台的思想,先创建基础库,再经过数据处理的编排,最终得到主题库中的各种指标数据。

 

第三层是算力发展监测应用层(顶层),负责给用户提供算力发展洞察和智能分析助手应用。传统技术对于大多数分析类应用能够提供很好的支持,但对碎片化严重的数据,难以实现高效整合与分析,比如跨产业节点的信息关联分析;另外,传统技术对于多轮对话类场景缺乏连续且深刻的理解能力,在行业问答分析时并不能达到及时和很好的效果。

 

3 基于大模型技术的算力产业监测服务平台设计

 

3.1 传统技术与大模型技术的设计比较

 

大模型技术[3-6]在归纳总结和连续对话方面能力突出,弥补了传统技术在上述应用上的不足,表2对两种技术的特点和应用场景进行了比较。

 

表2 传统技术与大模型技术比较

 

3.2 架构设计

 

基于大模型技术的算力产业监测服务平台采用技术先进的分层架构设计(见图2):底层是基础设施层,由物理设备构成;中间层由大模型基座提供统一的支撑能力;顶层是业务层,提供丰富的场景化业务功能和服务能力,包括算力发展洞察、智能分析助手等。相较于传统技术架构,图中深色底框是平台新增部分,浅色底框是调整部分。

 

图2 基于大模型技术的平台架构图

 

3.2.1 基础设施层设计及选型

 

基础设施层部署架构如图3所示,分为数据及应用服务区、模型训练及推理区和网络及安全管理区。

 

图3 基础设施部署视图

 

数据及应用服务区增加了向量数据库,专门用于处理高维度数据,并支持相似性搜索功能。

 

模型训练及推理区部署了训练服务集群和推理服务器集群。本部分的设计需要考虑在国外高算力卡受限情况下的人工智能芯片及其规格配置,以适应大模型的训练和推理需求。大模型训练时对人工智能芯片内存的占用,重点在于模型参数、前向计算过程中产生的中间激活、后向传递计算得到的梯度、优化器状态等数据量。以平台在百亿参数的大模型(参数量为13 B)为例,根据单节点包含8个训练卡的计算公式 “内存占用=16×Model Parameters Size/卡数目(8)”计算得出人工智能芯片内存单卡最低达到26 GB,才能满足训练及全量参数微调。

 

网络及安全区主要考虑计算网络的拓扑连接带宽,确保数据流通的高效性与任务并行处理的能力。远程直接内存访问(Remote Direct Memory Access,RDMA)技术能够解决网络传输中服务器端数据处理的延迟,目前主流的RDMA网络有无限带宽(InfiniBand)和以太网远程直接内存访问(RDMA over Converged Ethernet,RoCE)两种(见表3)。本平台采用RoCE网络规范,主要优势在于其延迟较低,对于中小规模的计算网络已经足够,搭建计算网络时只需额外购买RoCE网卡,在成本上也有较大优势。

 

表3 计算网络技术比较

 

3.2.2 行业大模型应用框架层设计及选型

 

(1)算力行业大模型底座选型

 

主要包括预训练大模型选型、使用行业数据增量训练、精调大模型。

 

预训练大模型选型。通过表4可以看出相似参数量级上国内的大模型在中文基础模型评估套件(C-Eval)的得分普遍高于国外的大模型,参数量越大,C-Eval的得分越高,同时对人工智能芯片的内存需求也越高。基于以上原因,本平台采用国产百亿参数的预训练大模型Baichuan 2-13B为基座,并通过扩充算力行业中文词表、适配新增算力行业中文词向量等做法实现基座算力行业特性增强,同时通过剪枝、量化、稀疏、蒸馏等优化部署,降低算力资源要求。预训练大模型选定后,基于大模型+微调[7-8]可有效提升自然语言处理任务。

 

表4 大语言模型比较

来源:GitHub,星标数统计截止时间为2024年5月21日

 

使用行业数据增量训练。训练算力产业大模型,需要将算力产业的领域知识注入预训练大模型,继续进行增量预训练。具体流程:一是数据准备,整合清洗后的算力产业领域语料,包括统计数据、政策数据、产业数据、企业数据、新闻资讯等数据;二是模型调整,选择百亿参数规模的国产预训练大模型,调整模型结构和超参数,用全连接层替换大模型的输出层;三是增量微调,进行大模型增量训练,对训练结果进行评估。

 

精调大模型。构建有监督指令数据,通过人工介入标注少量许可管理数据、统计类数据、算力产业报告数据及算力产业政策数据的指令集,采用多任务指令精调方式进行训练。

 

一是任务收集。指令精调的第一步是收集一系列有监督的数据,一个任务可以被定义成“<数据集,任务类型>”的形式,比如“自动抽取企业基本面信息”。

 

二是形式改写。因为需要用单个大语言模型来完成超过几十种、几百种甚至几千种不同的任务,所以需要将任务都转换成相同的“输入格式”喂给模型训练,同时这些任务的输出也需要是统一的“输出格式”。

 

三是训练过程。采用恒定的学习率以及自适应优化器进行训练;同时将多个训练样本“打包”成一个训练样本,这些训练样本直接会通过一个特殊的“结束Token”进行分割。训练时候在每个指定的步数后进行评估,保存评估分数最佳的检查点(Checkpoint)。

 

(2)算力行业知识库设计及选型

 

为应对大模型在生成时的幻觉、数据的时效性以及数据安全,本平台采用检索增强生成(Retrieval-Augmented Generation,RAG)的方式解决这些问题[9]。本平台引入算力行业知识库层,保留原有的检索库[10-13],增加向量库。

 

向量数据库用于存储和处理向量数据,数据以向量的形式存储,并且可以通过向量之间的相似度来进行检索和查询。基于向量库的完整问答流程如图4所示:本平台将算力产业监测相关文档切成若干段,把文档片段全部向量化,然后存储到向量数据库;对用户提出的问题进行向量化,采用余弦相似度算法,计算向量数据库中与问题向量最相似的top k个文档片段,作为上下文输入到大模型中;最后由大模型基于上下文给出答案。

 

图4 向量库流程图

 

表5为3个主流向量数据库的比较,基于易用性、存储与性能、是否开源、水平扩展等方面,本平台向量数据库最终选用Milvus。

 

表5 向量数据库比较

来源:GitHub,星标数统计截止时间为2024年5月21日

 

3.2.3 算力发展监测应用层设计

 

面向宏观产业层面、区域层面和微观的企业层面,本平台提供算力发展洞察和智能分析助手。

 

(1)算力发展洞察

 

算力发展洞察将底层数据要素与产业进行计算推理和多维关联分析,动态化解析产业下相关的政策资源、行业结构、行业行为等,支持产业发展现状的刻画和未来趋势的分析。

 

算力产业图谱,基于大模型指令生成,通过机器算法模型和专家校验相结合的方式形成算力全产业链知识引擎,以图谱可视化形式构建多维度、多层级的算力产业链节点图谱。如图5所示,支持节点下钻到产品集,具备不断迭代优化的能力。

 

图5 算力产业链图谱示意图

 

产业链多维资讯信息关联监测,基于算力产业链的构建结构和节点边界定义,以高质量、多维度训练数据集驱动,将大模型与图谱知识、图谱计算相融合,通过知识推理与校验生成多维度算力产业的数据关联关系,完成产业链下任意产业节点的企业、产业资讯、产业政策等多维信息关联和穿透分析,提供可视化展示与交互分析。

 

(2)智能分析助手

 

本应用基于算力产业大模型的语言理解和内容生成能力,结合算力产业发展洞察应用,交互式提供智能搜索、智能比对、智能报告服务,满足用户定制化分析需求,表6为大模型技术对比传统技术在智能助手应用方面的能力对比。

 

表6 大模型技术对比传统技术在智能助手应用方面的能力对比

 

4 结束语

 

基于大模型技术的算力产业监测服务平台,实现了平台底层业务的统一感知、关联分析、态势预测和智能问答,为算力产业发展监测和智能化决策提供了更加综合全面的支撑。技术优势体现在:强大的数据处理能力,大模型技术通常具有庞大的参数规模和复杂的计算结构,能够处理海量的数据,并从中提取有用的信息。引入向量数据库,构建算力行业知识库,采用检索增强生成技术方案较好地解决大模型在内容生成时的幻觉问题和数据的时效性问题。算力产业大模型具备交互式多轮应答能力,可根据用户的具体需求,交互式的提供定制化的监控指标和报告。随着算力产业服务平台的推广和大模型技术的不断成熟,平台也将探索更多创新的应用场景,为算力产业的发展提供更强有力的支持,推动整个行业向更高效、更智能的方向发展。

 

本文刊于《信息通信技术与政策》2024年 第6期

55
0
0
0
关于作者
相关文章
  • 波动与离散:能量为何以量子形式存在?能量不连续性的起源 ...
     在日常生活中,我们常常认为能量是一种可以随意变化、逐渐增加或减少的量,无论是加热水壶 ...
    了解详情 
  • 伊辛模型与伊辛机
    摘要:伊辛模型作为一种经典的物理模型,最早用于描述铁磁材料间的相互作用,现已广泛应用于解决 ...
    了解详情 
  • 坚信光的力量!Nature子刊报道日本东京大学研制通用光量子计算机 ...
     尽管在量子计算领域工作了几十年,东京大学的古泽明教授(Akira Furusawa)依然无法预见量 ...
    了解详情 
  • 百万比特通用光量子计算系统怎样造出来?PsiQuantum 最新论文揭 ...
    摘要:PsiQuntum公司是全球总融资额和估值最高的量子计算公司,但向来对其通用光量子技术的进展 ...
    了解详情 
在本版发帖返回顶部
快速回复 返回顶部 返回列表