使用行业数据增量训练。训练算力产业大模型,需要将算力产业的领域知识注入预训练大模型,继续进行增量预训练。具体流程:一是数据准备,整合清洗后的算力产业领域语料,包括统计数据、政策数据、产业数据、企业数据、新闻资讯等数据;二是模型调整,选择百亿参数规模的国产预训练大模型,调整模型结构和超参数,用全连接层替换大模型的输出层;三是增量微调,进行大模型增量训练,对训练结果进行评估。
精调大模型。构建有监督指令数据,通过人工介入标注少量许可管理数据、统计类数据、算力产业报告数据及算力产业政策数据的指令集,采用多任务指令精调方式进行训练。
一是任务收集。指令精调的第一步是收集一系列有监督的数据,一个任务可以被定义成“<数据集,任务类型>”的形式,比如“自动抽取企业基本面信息”。
二是形式改写。因为需要用单个大语言模型来完成超过几十种、几百种甚至几千种不同的任务,所以需要将任务都转换成相同的“输入格式”喂给模型训练,同时这些任务的输出也需要是统一的“输出格式”。
三是训练过程。采用恒定的学习率以及自适应优化器进行训练;同时将多个训练样本“打包”成一个训练样本,这些训练样本直接会通过一个特殊的“结束Token”进行分割。训练时候在每个指定的步数后进行评估,保存评估分数最佳的检查点(Checkpoint)。
(2)算力行业知识库设计及选型
为应对大模型在生成时的幻觉、数据的时效性以及数据安全,本平台采用检索增强生成(Retrieval-Augmented Generation,RAG)的方式解决这些问题[9]。本平台引入算力行业知识库层,保留原有的检索库[10-13],增加向量库。
向量数据库用于存储和处理向量数据,数据以向量的形式存储,并且可以通过向量之间的相似度来进行检索和查询。基于向量库的完整问答流程如图4所示:本平台将算力产业监测相关文档切成若干段,把文档片段全部向量化,然后存储到向量数据库;对用户提出的问题进行向量化,采用余弦相似度算法,计算向量数据库中与问题向量最相似的top k个文档片段,作为上下文输入到大模型中;最后由大模型基于上下文给出答案。
图4 向量库流程图
表5为3个主流向量数据库的比较,基于易用性、存储与性能、是否开源、水平扩展等方面,本平台向量数据库最终选用Milvus。
表5 向量数据库比较
来源:GitHub,星标数统计截止时间为2024年5月21日
3.2.3 算力发展监测应用层设计
面向宏观产业层面、区域层面和微观的企业层面,本平台提供算力发展洞察和智能分析助手。
(1)算力发展洞察
算力发展洞察将底层数据要素与产业进行计算推理和多维关联分析,动态化解析产业下相关的政策资源、行业结构、行业行为等,支持产业发展现状的刻画和未来趋势的分析。
算力产业图谱,基于大模型指令生成,通过机器算法模型和专家校验相结合的方式形成算力全产业链知识引擎,以图谱可视化形式构建多维度、多层级的算力产业链节点图谱。如图5所示,支持节点下钻到产品集,具备不断迭代优化的能力。
图5 算力产业链图谱示意图
产业链多维资讯信息关联监测,基于算力产业链的构建结构和节点边界定义,以高质量、多维度训练数据集驱动,将大模型与图谱知识、图谱计算相融合,通过知识推理与校验生成多维度算力产业的数据关联关系,完成产业链下任意产业节点的企业、产业资讯、产业政策等多维信息关联和穿透分析,提供可视化展示与交互分析。
(2)智能分析助手
本应用基于算力产业大模型的语言理解和内容生成能力,结合算力产业发展洞察应用,交互式提供智能搜索、智能比对、智能报告服务,满足用户定制化分析需求,表6为大模型技术对比传统技术在智能助手应用方面的能力对比。
表6 大模型技术对比传统技术在智能助手应用方面的能力对比
4 结束语
基于大模型技术的算力产业监测服务平台,实现了平台底层业务的统一感知、关联分析、态势预测和智能问答,为算力产业发展监测和智能化决策提供了更加综合全面的支撑。技术优势体现在:强大的数据处理能力,大模型技术通常具有庞大的参数规模和复杂的计算结构,能够处理海量的数据,并从中提取有用的信息。引入向量数据库,构建算力行业知识库,采用检索增强生成技术方案较好地解决大模型在内容生成时的幻觉问题和数据的时效性问题。算力产业大模型具备交互式多轮应答能力,可根据用户的具体需求,交互式的提供定制化的监控指标和报告。随着算力产业服务平台的推广和大模型技术的不断成熟,平台也将探索更多创新的应用场景,为算力产业的发展提供更强有力的支持,推动整个行业向更高效、更智能的方向发展。