imtoken钱包下载2.0版本|glm

首页
glm

imtoken钱包下载2.0版本|glm

作者： imtoken钱包下载2.0版本

2024-03-07 18:58:20

如何评价清华大学发布的GLM-130B？ - 知乎

如何评价清华大学发布的GLM-130B？ - 知乎首页知乎知学堂发现等你来答切换模式登录/注册自然语言处理清华大学计算机系自然语言生成大规模预训练模型如何评价清华大学发布的GLM-130B？最近清华大学发布了1300亿参数的大模型 GLM-130B，并且开源了代码、模型、API。有人用吗？效果怎么样？显示全部关注者147被浏览603,354关注问题写回答邀请回答好问题 2添加评论分享14 个回答默认排序OneFlow已认证账号关注作者｜BBuf、谢子鹏、冯文2017 年，Google 提出了 Transformer 架构，随后 BERT 、GPT、T5等预训练模型不断涌现，并在各项任务中都不断刷新 SOTA 纪录。去年，清华提出了GLM模型（https://github.com/THUDM/GLM），不同于上述预训练模型架构，它采用了一种自回归的空白填充方法，在 NLP 领域三种主要的任务（自然语言理解、无条件生成、有条件生成）上都取得了不错的结果。很快，清华基于 GLM 架构又推出了 GLM-130B（https://keg.cs.tsinghua.edu.cn/glm-130b/zh/posts/glm-130b/），这是一个开源开放的双语（中文和英文）双向稠密模型，拥有 1300 亿参数，在语言理解、语言建模、翻译、Zero-Shot 等方面都更加出色。预训练模型的背后离不开开源深度学习框架的助力。在此之前，GLM 的开源代码主要是由 PyTorch、DeepSpeed 以及 Apex 来实现，并且基于 DeepSpeed 提供的数据并行和模型并行技术训练了 GLM-Large（335M），GLM-515M（515M），GLM-10B（10B）等大模型，这在一定程度上降低了 GLM 预训练模型的使用门槛。即便如此，对更广大范围的普通用户来说，训练 GLM 这样的模型依然令人头秃，同时，预训练模型的性能优化还有更大的提升空间。为此，我们近期将原始的GLM项目移植到了使用 OneFlow 后端进行训练的 One-GLM 项目。得益于 OneFlow 和 PyTorch 无缝兼容性，我们快速且平滑地移植了 GLM，并成功跑通了预训练任务（训练 GLM-large）。此外，由于 OneFlow 原生支持 DeepSpeed 和 Apex 的很多功能和优化技术，用户不再需要这些插件就可训练 GLM 等大模型。更重要的是，针对当前 OneFlow 移植的 GLM 模型，在简单调优后就能在性能以及显存占用上有大幅提升。具体是怎么做到的？下文将进行揭晓。One-GLM：https://github.com/Oneflow-Inc/one-glmOneFlow：https://github.com/Oneflow-Inc/oneflow1、GLM-large 训练性能和显存的表现首先先展示一下分别使用官方的 GLM 仓库以及 One-GLM 仓库训练 GLM-large 网络的性能和显存表现（数据并行技术），硬件环境为 A100 PCIE 40G，BatchSize 设置为 8。可以看到，在 GLM-large 的训练任务中，相比原始的基于 PyTorch、DeepSpeed、Apex 的 GLM 实现，OneFlow的性能有 120% - 276% 的加速，并且显存占用降低了10% -30%（测试结果均可用 oneflow >=0.9.0 复现）。2、GLM 迁移，只需修改几行代码由于 OneFlow 无缝兼容了 PyTorch 的生态，只需改动几行代码，就可以让用户轻松迁移 GLM 大模型到 One-GLM：将 import torch 替换为 import oneflow as torch将 import torch.xx 替换为 import oneflow.xx将 from apex.optimizers import FusedAdam as Adam 替换为 from oneflow.optim import Adam将 from apex.normalization.fused_layer_norm import FusedLayerNorm as LayerNorm 替换为 from oneflow.nn import LayerNorm注释掉 torch.distributed.ReduceOp，torch.distributed.new_group,，torch.distributed.TCPStore，torch.distributed.all_reduce 这些API，它们是 PyTorch DDP 所需要的，但 OneFlow 的数据并行是由内部的 SBP 和 Global Tensor 机制实现，并不需要这些 API。其它许多模型的迁移更简单，比如在和 torchvision 对标的 flowvision 中，许多模型只需通过在 torchvision 模型文件中加入 import oneflow as torch 即可得到，让用户几乎没有额外成本。此外，OneFlow 还提供全局 “mock torch” 功能（https://docs.oneflow.org/master/cookies/oneflow_torch.html），在命令行运行 eval $(oneflow-mock-torch) 就可以让接下来运行的所有 Python 脚本里的 import torch 都自动指向 oneflow。3、两大调优手段loss 计算部分的优化在原始的 GLM 实现中，loss计算部分使用到了 mpu.vocab_parallel_cross_entropy 这个函数 (https://github.com/THUDM/GLM/blob/main/pretrain_glm.py#L263) 。通过分析这个函数，发现它实现了 sparse_softmax_cross_entropy 的功能，但在实现过程中，原始的 GLM 仓库使用了 PyTorch 的 autograd.Function 模块，并且使用了大量的小算子来拼接出 sparse_softmax_cross_entropy 整体的功能。而在 OneFlow 的算子库中，已经有 sparse_softmax_cross_entropy 这个算子对应的 CUDA 实现了，也就是 flow.sparse_softmax_cross_entropy 这个 API。所以，我们将 GLM 对 sparse_softmax_cross_entropy 的 naive 实现替换为 flow.sparse_softmax_cross_entropy 这个 API，并进行了 loss 对齐实验。结果如何？下图展示了基于 OneFlow 的 Graph 模式训练 GLM-large 模型前 1000 轮的 loss 对齐情况，并分别测试了 FP32 和 AMP 模式：可以看到，将原始 GLM 的 naive sparse_softmax_cross_entropy 实现替换为 flow.sparse_softmax_cross_entropy 之后 loss 是完全对齐的，可以保证正确性。相比原始的 GLM 的单卡性能，这个替换使得 One-GLM 的单卡性能有大幅提升，主要原因是 OneFlow 对 sparse_softmax_cross_entropy 算子做了极致的性能优化，并且减少了原始 GLM 中大量的碎算子拼凑带来的访存开销。此外，这样做也降低了 torch.autograd.Function 本身带来的一些系统开销。CUDA Kernel Fuse除上述优化外，GLM 模型本质上就是一个编解码的 Transformer 架构，所以我们将之前优化 GPT、BERT 的一些 Fuse Pattern 也带给了 One-GLM 模型。具体包含以下两个 Fuse Pattern :fused_bias_add_gelu: 将 bias_add 和 gelu 算子融合在一起。fused_bias_add_dropout：将 bias_add 和 dropout 算子融合在一起。这两个 fuse 都可以显著改善计算的访存，并减少 Kernel Launch 带来的开销，由于 GLM 模型越大则层数就会越多，那么这种 Fuse Pattern 带来的的优势也会不断放大。最终，在上述两方面的优化作用下，在 A100 PCIE 40G，batch_size = 8 环境中的训练 GLM-large 的任务时，单卡 FP32 模式的性能相比原始的 GLM 取得了 280%（FP32 模式）和 307%（ AMP 模式）的训练加速。4、LiBai 也能轻松搞定 GLM 推理当模型规模过于庞大，单个 GPU 设备无法容纳大规模模型参数时，便捷好用的分布式训练和推理需求就相继出现，业内也随之推出相应的工具。基于 OneFlow 构建的 LiBai 模型库让分布式上手难度降到最低，用户不需要关注模型如何分配在不同的显卡设备，只需要修改几个配置数据就可以设置不同的分布式策略。当然，加速性能更是出众。LiBai ：https://github.com/Oneflow-Inc/libaiLiBai 相关介绍：大模型训练之难，难于上青天？预训练易用、效率超群的「李白」模型库来了！GLM：https://github.com/Oneflow-Inc/libai/tree/glm_project/projects/GLM用 LiBai 搭建的 GLM 可以便捷地实现model parallel + pipeline parallel推理, 很好地解决单卡放不下大规模模型的问题。那么，用户如何利用大规模模型训练与推理仓库 LiBai 来构建 GLM 的分布式推理部分？下面用一个小例子解释一下。分布式推理具有天然优势要知道，模型的参数其实就是许多 tensor，也就是以矩阵的形式出现，大模型的参数也就是大矩阵，并行策略就是把大矩阵分为多个小矩阵，并分配到不同的显卡或不同的设备上，基础的LinearLayer在LiBai中的实现代码如下：class Linear1D(nn.Module): def __init__(self, in_features, out_features, parallel="data", layer_idx=0, ...): super().__init__() if parallel == "col": weight_sbp = dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.split(0)]) elif parallel == "row": weight_sbp = dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.split(1)]) elif parallel == "data": weight_sbp = dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.broadcast]) else: raise KeyError(f"{parallel} is not supported! Only support ('data', 'row' and 'col')") self.weight = flow.nn.Parameter( flow.empty( (out_features, in_features), dtype=flow.float32, placement=dist.get_layer_placement(layer_idx), # for pipeline parallelism placement sbp=weight_sbp, ) ) init_method(self.weight) ... def forward(self, x): ...在这里，用户可选择去如何切分 Linear 层的矩阵，如何切分数据矩阵，而OneFlow 中的 SBP 控制竖着切、横着切以及其他拆分矩阵的方案（模型并行、数据并行），以及通过设置 Placement 来控制这个 LinearLayer 是放在第几张显卡上（流水并行）。所以，根据 LiBai 中各种 layer 的设计原理以及基于 OneFlow 中 tensor 自带的 SBP 和 Placement 属性的天然优势，使得用户搭建的模型能够很简单地就实现数据并行、模型并行以及流水并行操作。GLM 推理的 Demo 演示这里为用户展示 LiBai 中 GLM 的单卡和便捷的多卡推理 Demo，模型可在 HuggingFace 上获取：https://huggingface.co/models?filter=glm单卡 generate 任务，我们选择 glm-10b 模型：python demo.py

# demo.pyimport oneflow as flowfrom projects.GLM.tokenizer.glm_tokenizer import GLMGPT2Tokenizerfrom libai.utils import distributed as distfrom projects.GLM.configs.glm_inference import cfgfrom projects.GLM.modeling_glm import GLMForConditionalGenerationfrom projects.GLM.utils.glm_loader import GLMLoaderHuggerFacefrom omegaconf import DictConfigtokenizer = GLMGPT2Tokenizer.from_pretrained("/data/home/glm-10b")input_ids = tokenizer.encode( [ "Ng is an adjunct professor at [MASK] (formerly associate professor and Director of its Stanford AI Lab or SAIL ). Also a pioneer in online education, Ng co-founded Coursera and deeplearning.ai." ], return_tensors="of",)inputs = {"input_ids": input_ids, "attention_mask": flow.ones(input_ids.size())}inputs = tokenizer.build_inputs_for_generation(inputs, max_gen_length=512)sbp = dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.broadcast])placement = dist.get_layer_placement(0)dist.set_device_type("cpu")loader = GLMLoaderHuggerFace(GLMForConditionalGeneration, cfg, "/path/to/glm-10b")model = loader.load()model = model.half().cuda()dist.set_device_type("cuda")outputs = model.generate( inputs=inputs['input_ids'].to_global(sbp=sbp, placement=placement), position_ids=inputs['position_ids'].to_global(sbp=sbp, placement=placement), generation_attention_mask=inputs['generation_attention_mask'].to_global(sbp=sbp, placement=placement).half(), max_length=512)res = tokenizer.decode(outputs[0])print(res)>>> [CLS] Ng is an adjunct professor at [MASK] (formerly associate professor and Director of its Stanford AI Lab or SAIL ). Also a pioneer in online education, Ng co-founded Coursera and deeplearning.ai.<|endoftext|> <|startofpiece|> Stanford University and a co-founder of <|endofpiece|>

4卡 model parallel+pipeline parallel generate 任务，选择 glm-10b 模型：python3 -m oneflow.distributed.launch --nproc_per_node 4 demo.py

# demo.pyimport oneflow as flowfrom projects.GLM.tokenizer.glm_tokenizer import GLMGPT2Tokenizerfrom libai.utils import distributed as distfrom projects.GLM.configs.glm_inference import cfgfrom projects.GLM.modeling_glm import GLMForConditionalGenerationfrom projects.GLM.utils.glm_loader import GLMLoaderHuggerFacefrom omegaconf import DictConfig# 只需简单配置并行方案parallel_config = DictConfig( dict( data_parallel_size=1, tensor_parallel_size=2, pipeline_parallel_size=2, pipeline_num_layers=2 * 24 ))dist.setup_dist_util(parallel_config)tokenizer = GLMGPT2Tokenizer.from_pretrained("/data/home/glm-10b")input_ids = tokenizer.encode( [ "Ng is an adjunct professor at [MASK] (formerly associate professor and Director of its Stanford AI Lab or SAIL ). Also a pioneer in online education, Ng co-founded Coursera and deeplearning.ai." ], return_tensors="of",)inputs = {"input_ids": input_ids, "attention_mask": flow.ones(input_ids.size())}inputs = tokenizer.build_inputs_for_generation(inputs, max_gen_length=512)sbp = dist.get_nd_sbp([flow.sbp.broadcast, flow.sbp.broadcast])placement = dist.get_layer_placement(0)loader = GLMLoaderHuggerFace(GLMForConditionalGeneration, cfg, "/path/to/glm-10b")model = loader.load()outputs = model.generate( inputs=inputs['input_ids'].to_global(sbp=sbp, placement=placement), position_ids=inputs['position_ids'].to_global(sbp=sbp, placement=placement), generation_attention_mask=inputs['generation_attention_mask'].to_global(sbp=sbp, placement=placement), max_length=512)res = tokenizer.decode(outputs[0])if dist.is_main_process(): print(res)>>> [CLS] Ng is an adjunct professor at [MASK] (formerly associate professor and Director of its Stanford AI Lab or SAIL ). Also a pioneer in online education, Ng co-founded Coursera and deeplearning.ai.<|endoftext|> <|startofpiece|> Stanford University and a co-founder of <|endofpiece|>

使用 One- GLM 训练的模型进行推理LiBai对于OneFlow的模型加载同样方便，如果你希望使用one-glm训练后的模型进行推理，只需简单的将上述demo中的GLMLoaderHuggerFace替换为GLMLoaderLiBai。5、结语基于 OneFlow 来移植 GLM 大模型非常简单，相比于原始版本 PyTorch GLM 训练 GLM-large 模型，OneFlow 能大幅提升性能和节省显存。此外，通过使用 GLM-10B 这个百亿级大模型做推理，表明基于 OneFlow 的 LiBai 来做大模型推理可以开箱即用，并实现更高的推理速度，如果你想配置不同的并行方式来推理大模型，只需要简单配置文件的几个参数即可。未来，OneFlow团队将探索使用 OneFlow 训练更大的 GLM-130B 千亿模型的可行性，相信基于 OneFlow 可以更快地训练 GLM-130B 千亿级别模型，加速国产大模型训练和推理任务。欢迎Star、试用One-GLM：One-GLM：https://github.com/Oneflow-Inc/one-glmOneFlow：https://github.com/Oneflow-Inc/oneflow其他人都在看35张图，直观理解Stable Diffusion2023年AI十大展望：GPT-4领衔大模型变革李白：你的模型权重很不错，可惜被我没收了OpenAI掌门Sam Altman：AI下一个发展阶段比快更快，开源Stable Diffusion刷新作图速度OneEmbedding:单卡训练TB级推荐模型不是梦“零”代码改动，静态编译让太乙Stable Diffusion推理速度翻倍欢迎Star、试用OneFlow最新版本：发布于 2023-01-20 11:15赞同 493 条评论分享收藏喜欢收起琦琦浙江大学工学硕士关注之前笔者已经跟大家详细解析过OpenAI的GPT1～GPT3、InstructGPT、ChatGPT，Anthropic的Claude。随着算力的不断发展，模型容量也越来越大，但这些模型均未开源，走向了Close AI之路。不过即使开源，个体也很难玩转这些模型，计算资源（显卡）、数据集等都是困难。在这样的背景下，国内外涌现出了一批开源模型，近期影响较大的有：Meta AI的LLama、斯坦福基于LLama的Alpaca、清华大学的GLM和ChatGLM等。笔者最近将对这些模型的细节和论文进行详细解析。ChatGLM-6B是一个开源的、支持中英双语问答的对话语言模型，由唐杰团队打造，专门针对中文进行了优化，基于General Language Model (GLM)架构。本文将对GLM结构进行深度剖析和底层原理解读。必备知识在阅读本系列文章之前，建议补充一些相关知识。若你之前未了解过GPT相关原理，可以参考以下的链接：GPT全家桶系列——了解GPT的前世今生琦琦：[万字论文详解]媲美ChatGPT——Google支持的Anthropic推出”更理性的Claude“琦琦：揭开大型语言模型ChatGPT的神秘面纱琦琦：InstructGPT论文精读——ChatGPT前身，从人类反馈中学习琦琦：[万字长文]ChatGPT系列论文精读——大模型经典论文GPT1、GPT2、GPT3琦琦：一文读懂GPT家族和BERT的底层区别——自回归和自编码语言模型详解介绍Gtihub：https://github.com/THUDM/ChatGLM-6B模型文件：https://huggingface.co/THUDM/chatglm-6b博客：https://chatglm.cn/blog论文：https://arxiv.org/pdf/2103.10360.pdf下面进入正题。一、背景前文已经明确阐述了时下主流的预训练框架及其区别。主要有三种：1、autoregressive自回归模型（AR模型）：代表作GPT。本质上是一个left-to-right的语言模型。通常用于生成式任务，在长文本生成方面取得了巨大的成功，比如自然语言生成（NLG）领域的任务：摘要、翻译或抽象问答。当扩展到十亿级别参数时，表现出了少样本学习能力。缺点是单向注意力机制，在NLU任务中，无法完全捕捉上下文的依赖关系。2、autoencoding自编码模型（AE模型）：代表作BERT。是通过某个降噪目标（比如MLM）训练的双向文本编码器。编码器会产出适用于NLU任务的上下文表示，但无法直接用于文本生成。3、encoder-decoder（Seq2seq模型）：代表作T5。采用双向注意力机制，通常用于条件生成任务，比如文本摘要、机器翻译等。三种预训练框架各有利弊，没有一种框架在以下三种领域的表现最佳：自然语言理解（NLU）、无条件生成以及条件生成。T5曾经尝试使用MTL的方式统一上述框架，然而自编码和自回归目标天然存在差异，简单的融合自然无法继承各个框架的优点。在这个天下三分的僵持局面下，GLM诞生了。GLM模型基于autoregressive blank infilling方法，结合了上述三种预训练模型的思想。二、GLM预训练框架GLM有什么特点？又是如何将其他框架的优势巧妙融合的呢？1、自编码思想：在输入文本中，随机删除连续的tokens。2、自回归思想：顺序重建连续tokens。在使用自回归方式预测缺失tokens时，模型既可以访问corrupted文本，又可以访问之前已经被预测的spans。3、span shuffling + 二维位置编码技术。4、通过改变缺失spans的数量和长度，自回归空格填充目标可以为条件生成以及无条件生成任务预训练语言模型。2.1 自回归空格填充任务给定一个输入文本 x=[x_1,...x_n] ，可以采样得到多个文本spans \{s_1,...s_m\} 。为了充分捕捉各spans之间的相互依赖关系，可以对spans的顺序进行随机排列，得到所有可能的排列集合 Z_m ，其中： S_{zGitHub - g-truc/glm: OpenGL Mathematics (GLM)

GitHub - g-truc/glm: OpenGL Mathematics (GLM)

Toggle navigation

Product

Actions

Automate any workflow

Packages

Host and manage packages

Security

Find and fix vulnerabilities

Codespaces

Instant dev environments

Copilot

Write better code with AI

Code review

Manage code changes

Issues

Plan and track work

Discussions

Collaborate outside of code

Explore

All features

Documentation

GitHub Skills

Blog

Solutions

For

Enterprise

Teams

Startups

Education

By Solution

CI/CD & Automation

DevOps

DevSecOps

Resources

Learning Pathways

White papers, Ebooks, Webinars

Customer Stories

Partners

Open Source

GitHub Sponsors

Fund open source developers

The ReadME Project

GitHub community articles

Repositories

Topics

Trending

Collections

Pricing

Search or jump to...

Search code, repositories, users, issues, pull requests...

Clear

Search syntax tips

Provide feedback

We read every piece of feedback, and take your input very seriously.

Include my email address so I can be contacted

Cancel

Submit feedback

Saved searches

Use saved searches to filter your results more quickly

Name

Query

To see all available qualifiers, see our documentation.

Cancel

Create saved search

You signed in with another tab or window. Reload to refresh your session.

You signed out in another tab or window. Reload to refresh your session.

You switched accounts on another tab or window. Reload to refresh your session.

Dismiss alert

g-truc

glm

Public

forked from icaven/glm

Notifications

Fork

Star

8.5k

OpenGL Mathematics (GLM)

glm.g-truc.net

License

View license

8.5k

stars

2.1k

forks

Branches

GLM-130B：开源的双语预训练模型 | GLM-130B

GLM-130B

GLM-130B：开源的双语预训练模型

八月 4, 2022 | 语言:

样例演示

ICLR'23 Paper

GLM-130B (ICLR'23) 是一个开源开放的双语（中文和英文）双向稠密模型，拥有 1300 亿参数，模型架构采用通用语言模型（GLM1）。它旨在支持在一台 A100（40G * 8）或 V100（32G * 8）服务器上对千亿规模参数的模型进行推理。截至 2022 年 7 月 3 日，GLM-130B 已完成 4000 亿个文本标识符（中文和英文各 2000 亿）的训练，它有以下独特优势：

双语：同时支持中文和英文。

高精度（英文）：在 LAMBADA 上优于 GPT-3 175B davinci（+4.0%）、OPT-175B（+5.5%）和 BLOOM-176B（+13.0%），在 MMLU 上略优于 GPT-3 175B（+0.9%）。

高精度（中文）：在 7 个零样本 CLUE 数据集（+24.26%）和 5 个零样本 FewCLUE 数据集（+12.75%）上明显优于 ERNIE TITAN 3.0 260B。

快速推理：支持用一台 A100 服务器使用 SAT 和 FasterTransformer 进行快速推理（提速最高可达 2.5 倍）。

可复现性：所有结果（超过 30 个任务）均可通过我们的开源代码和模型参数轻松复现。

跨平台：支持在 NVIDIA、Hygon DCU、Ascend 910 和 Sunway 处理器上进行训练与推理。

图 1. GLM-130B 的任务表现：与 MMLU 和 LAMBADA 上类似规模的模型相比。(请注意，目前这些均为中间结果，我们尽力做出公平的评估，并欢迎大家一起参与评估。）

GLM-130B 模型和推理代码在我们的 GitHub 仓库公开提供。预训练和微调的代码以及研究论文即将发布。

GLM-130B：构思#

2021 年 12 月，在清华大学知识工程实验室的一次内部头脑风暴会上，我们提出了 GLM-130B 项目的雏形。当时，我们的想法是预训练一个高精度的双语模型（中文/英文），并将其免费开放出来。一来是目前大模型的研究看起来还比较“空中楼阁”，很多研究员都由于缺少算力没法使用，甚至很多企业都用不上；另一方面目前高质量的模型都很少开源开放。GPT-32 是大模型的先驱，但其模型不支持对外开放，而且它也不支持中文。需要注意的是，我们的目标是训练一下1300亿参数（项目代号 “千亿”）的稠密模型，而去年我们研发的“悟道1.75T模型”是一个含 480 个专家混合（MoE）的稀疏模型。我们的理想是世界上任何一个人都可以免费下载千亿模型，并在一台低配的 GPU 服务器上就可以使用它。

然而，我们很快就面临诸多挑战：

缺乏计算资源：很难有机构愿意赞助如此大花费的项目，并免费将其公开。

缺乏高质量的预训练算法：针对双语的高质量预训练算法还有待验证和提升。

缺乏快速推理方法：快速推理方法是保证模型能在低配GPU服务器上运行起来的基础，也是让每个人都能用得上千亿大模型的关键。

对于预训练模型架构算法，我们选择了我们实验室在 21 年提出的 GLM1（ACL'22）模型，其在多个任务上表现出了不俗的性能。然后经过几轮激烈的争论，我们最终决定训练一个 1300 亿参数的 GLM 模型。一来千亿稠密模型能保证高精度，另一方面这个规模还可以在一台 A100 服务器上就进行单机推理。

2022 年 1 月，我们得到了一个 GPU 服务商的小型赞助，开始了我们的第一次测试运行。然而，我们很快发现我们之前大大低估了千亿模型训练的技术难度。预训练一个高精度的千亿模型与训练百亿模型完全不同：频繁的随机硬件故障、模型梯度爆炸、算法中意外的过多内存使用、新的 Megatron 和 DeepSpeed 框架中 3D 流水线的调试、无法从优化器状态中恢复、机器间 TCP 拥塞，以及许多许多意外的 “bug”，项目被多次推迟。清华 PACMAN 团队在这段困难时期向我们伸出了援手，我们一起成功地修复了大部分的 “bug”。

到了 3 月份，我们仍然缺少充足的计算资源，幸运的是我们得到了在其他几个平台上进行测试的机会，包括Ascend 910、Hygon DCU、NVIDIA 和神威。但是直接的难题是我们需要把训练代码适配到这些不同的平台，因为它们的底层算子各不相同（而且很多算子还有所欠缺）。这期间也引入了许多新的技术问题：不支持大维度向量快速计算的 Element-wise 算子，以及阻碍收敛的各种问题——输入嵌入层的过大梯度，Post-LN、Pre-LN3 和Sandwich-LN4 的不稳定性，Dataloader 状态种子恢复，以及 Softmax 和 Attention 的计算精度选择——当然还包括我们自己犯的种种错误。幸运地是，在所有热心合作伙伴的大力帮助下，我们最终能够在所有平台（Ascend 910、Hygon DCU、NVIDIA 和神威）成功运行GLM千亿预训练算法——对我们团队来说，这虽意味着很多个不眠之夜，却也的确是一个意外的收获（跨平台能力）。图 2 中的 GLM-130B 时间轴，涵盖了截至目前我们所遇到和解决的大部分问题。

图 2. 截至2022年7月31日，训练GLM-130B遇到和解决的主要问题的时间轴

4 月 26 日，我们得到了来自 Zhipu.AI（智谱AI——一家旨在“让机器像人一样思考”的人工智能初创公司）慷慨的计算资源赞助。经过又一个星期的测试，我们终于从 5 月 6 日开始在其支持的 96 台 A100（40G*8）服务器上启动了 GLM-130B 模型的训练。此外，智谱还派出了一个工程师团队，协助评估预训练模型，并帮助建设演示网站。

整个训练过程横跨两个月，在此期间，我们开始考虑训练完成后的推理解决方案，并在一台 V100（32G * 8）服务器上实现了合理速度的 130B 模型推理。目前，我们正与清华 NLP 实验室的 BMInf 团队一起探索在一台 RTX-3090 服务器（24G * 8）上使用 GLM-130B 推理的可能性，实现这一目标将可以使更多人用得起千亿模型。

GLM-130B：任务表现#

截至 2022 年 7 月 3 日，GLM-130B 模型已经在超过 4000 亿个文本标识符上进行了训练，其少样本学习的性能在多任务语言理解基准（MMLU）5 上达到并超过了 GPT-3 的水平（参见博客顶部的图 1（左））。GLM-130B 的 5 样本学习性能在训练了 4000 亿个（双语）文本标识符后能达到 44.8% 的准确率。

除了语言理解任务外，我们还在被广泛用于大规模语言模型性能评估的 LAMBADA6 基准上考察了 GLM-130B 的语言建模能力。。图 1（右）展示了相关模型的零样本性能（OPT7 和 BLOOM 的中间结果取自 BLOOM 的评估库）。令人可观的是，GLM-130B 在 LAMBADA（En）上达到了 80.2% 的准确率，而 GPT-3 175B 为 76.2%，此前最好结果为 PaLM 540B的 77.9%8。

由于 GLM-130B 是一个双语（英文和中文）语言模型，我们还在两个中文 NLP 基准上评估它的零样本性能，即 CLUE9 和 FewCLUE10。值得注意的是，中文的下游数据集并不包括在多任务预训练中。GLM-130B 相比目前最大的中文语言模型 ERNIE 3.0 Titan 260B11，在所有数据集上都产生了更好的表现。

图 3. GLM-130B 在部分 CLUE 和 FewCLUE 基准数据集的零样本性能。

最后，我们仍在继续对 GLM-130B 进行广泛的下游任务测试，包括 SuperGLUE12、Big-bench13 等等。我们将随着实验的进行及时与大家分享相应结果。

GLM-130B：模型#

在这一部分，我们将简单介绍一下 GLM-130B 模型背后的技术。更多的细节和源代码可以在项目的 GitHub 仓库中找到。

GLM-130B 是一个 1300 亿参数规模的双语（中文和英文）双向语言模型。它的底层架构是基于通用语言模型（GLM1），在超过 4000 亿个文本标识符上预训练完成。GLM-130B 利用自回归空白填充作为其主要的预训练目标，以图 4 中的句子为例，它掩盖了随机的连续文本区间（例如，“complete unkown”），并对其进行自回归预测。

图 4. 例子：GLM-130B 在语料“Like a complete unknown, like a rolling stone”进行自回归填空预训练

在实际训练中，GLM-130B 使用两种不同的掩码标识符（[MASK] 和 [gMASK]），分别用于短文和长文的生成。此外，它还采用了最近提出的旋转位置编码（RoPE）14、DeepNorm15 层规范化和高斯误差 GLU（GeGLU）16 17 技术。所有这些设计和技术都对 GLM-130B 大规模语言模型的稳定训练和高精度性能有所帮助。具体来说，GLM-130B 模型含有 70 层 Transformer，隐层维度 12,288，最大序列长度 2,048，以及一个基于 icetk 的 150,000 个标识符的双语分词器。

GLM-130B 对超过 4000 亿个双语标记（2000 亿英文和 2000 亿中文标记）进行了预训练。它的预训练目标由两部分组成：第一部分（95%）是自监督的预训练，即在公开的大规模语料库以及其他一些较小的中文语料库上的自回归空白填充。第二部分（5%）是在 T0++18 和 DeepStruct19 中 70 个不同数据集的抽样子集上进行多任务指令预训练，格式为基于指令的多任务多提示序列到序列的生成。这种设计使 GLM-130B 可以在其他数据集上进行了零样本学习，以及从英文到中文的零样本迁移。

回顾千亿项目的过程，无论从研究、工程、硬件、部署和计算资源的角度，我们都能深刻体会到训练 GLM-130B 其实是一个巨大的挑战，项目中间也面临多次中断的可能。幸运地是，在硬件和模型的测试、训练和评估过程中，GLM-130B 团队尤其是学生负责人——曾奥涵和刘潇同学——付出了巨大的努力，在各种压力下夜以继日地致力于使这个项目存活并最终坚持到取得一定成果。最后，我们向为 GLM-130B 项目提供 GPU 算力支持的赞助商们表示诚挚的谢意。

下一步工作#

GLM-130B 的研发仍在继续进行中。与此同时，我们邀请大家加入它的开放社区，推动大规模预训练模型的发展。目前，我们正专注于以下几个方向的研究：

GLM-130B 的进一步训练：最近的研究表明，大规模语言模型通常训练不足20。根据Chinchilla 的估计，一个 130B 语言模型的最佳训练标识符训练量应该是 4.0T 左右，比我们目前所训练的数量要大 10 倍。我们正在寻找赞助商和计算平台来支持 GLM-130B 的进一步训练。

INT8 量化：GLM-130B 以 FP16 精度进行训练，总共需要 260G 的 GPU 内存来存储模型权重。DGX-A100 服务器提供了 320G 的 GPU 内存，所以可以天然地支持 GLM-130B。然而，A100 的价格对于绝大多数研究者来说仍然是无法承担的。我们正在对 GLM-130B 模型进行 INT8 量化，以减少推理内存的需求，从而使 GLM-130B 有可能在具有较小 GPU 内存的服务器上运行（例如 8 卡 RTX 3090 GPU）。

混合专家（MoE）方法以扩展模型规模：混合专家模型（Mixture-of-Experts, MoE）已被证明是扩展模型参数的有效方法21 22，然而，MoE模型在相同规模下的表现并不如稠密模型好。我们之前的工作——“悟道1.75T”在基于4.8B的稠密模型，将专家数量扩展到480个以达到1.75万亿的参数。我们正在尝试基于 MoE 技术对 GLM-130B 进行模型扩展，如通过 FastMoE23 及其加速版本 FasterMoE 来进一步扩大它的参数规模，以达到数万亿甚至百万亿规模的参数量，从而获得更高的性能表现。

参数高效 P-Tuning：尽管大规模语言模型具有卓越的零样本和少样本学习能力，通过在下游数据集上对它们进行调整可以进一步提升在特定任务上的性能。然而，它们数量庞大的参数在微调中面临巨大的参数冗余和计算成本。基于我们以前的工作 P-Tuning24 和 P-Tuning v225，我们正在努力尝试将这些技术应用到 GLM-130B 中，以实现参数高效的迁移学习。

致谢

这一项目由国家自然科学基金杰出青年科学基金项目（No. 61825602）支持。

学生负责人#

曾奥涵（清华大学计算机系知识工程实验室），刘潇（清华大学计算机系知识工程实验室）

技术贡献#

清华大学计算机系知识工程实验室 — the Knowledge Engineering Group at Tsinghua#

杜政晓，丁铭，郑勤锴，赖瀚宇，汪子涵，杨卓毅，于济凡，张笑涵，郑问迪，夏箫，徐逸凡，谭咏霖，东昱晓，唐杰

清华大学计算机系 PACMAN 实验室 — the Parallel Architecture & Compiler technology of Mobile, Accelerated, and Networked systems Group at Tsinghua#

马子轩，何家傲，孙桢波，翟季冬，陈文光

清华大学计算机系自然语言处理实验室（BMInf） — the Natural Language Processing Group at Tsinghua#

曾国洋，韩旭，赵威霖，刘知远

智谱AI — an AI startup that aims to teach machines to think like humans#

薛宇飞，王山，陕杰才，姜皓瀚，郭振钢，张鹏

Computation Sponsor#

智谱AI

项目总负责#

唐杰（清华大学计算机系知识工程实验室 & 北京智源人工智能研究院）

Du, Zhengxiao, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, and Jie Tang. “GLM: General Language Model Pretraining with Autoregressive Blank Infilling.” In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 320-335. 2022. ↩︎ ↩︎ ↩︎

Brown, Tom, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901. ↩︎

Xiong, Ruibin, Yunchang Yang, Di He, Kai Zheng, Shuxin Zheng, Chen Xing, Huishuai Zhang, Yanyan Lan, Liwei Wang, and Tieyan Liu. “On layer normalization in the transformer architecture.” In International Conference on Machine Learning, pp. 10524-10533. PMLR, 2020. ↩︎

Ding, Ming, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin et al. “Cogview: Mastering text-to-image generation via transformers.” Advances in Neural Information Processing Systems 34 (2021): 19822-19835. ↩︎

Hendrycks, Dan, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. “Measuring Massive Multitask Language Understanding.” In International Conference on Learning Representations. 2020. ↩︎

Paperno, Denis, Germán Kruszewski, Angeliki Lazaridou, Quan Ngoc Pham, Raffaella Bernardi, Sandro Pezzelle, Marco Baroni, Gemma Boleda, and Raquel Fernández. “The LAMBADA dataset: Word prediction requiring a broad discourse context.” arXiv preprint arXiv:1606.06031 (2016). ↩︎

Zhang, Susan, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan et al. “Opt: Open pre-trained transformer language models.” arXiv preprint arXiv:2205.01068 (2022). ↩︎

Chowdhery, Aakanksha, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham et al. “Palm: Scaling language modeling with pathways.” arXiv preprint arXiv:2204.02311 (2022). ↩︎

Xu, Liang, Hai Hu, Xuanwei Zhang, Lu Li, Chenjie Cao, Yudong Li, Yechen Xu et al. “CLUE: A Chinese Language Understanding Evaluation Benchmark.” In Proceedings of the 28th International Conference on Computational Linguistics, pp. 4762-4772. 2020. ↩︎

Xu, Liang, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei et al. “Fewclue: A chinese few-shot learning evaluation benchmark.” arXiv preprint arXiv:2107.07498 (2021). ↩︎

Wang, Shuohuan, Yu Sun, Yang Xiang, Zhihua Wu, Siyu Ding, Weibao Gong, Shikun Feng et al. “Ernie 3.0 titan: Exploring larger-scale knowledge enhanced pre-training for language understanding and generation.” arXiv preprint arXiv:2112.12731 (2021). ↩︎

Wang, Alex, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel Bowman. “Superglue: A stickier benchmark for general-purpose language understanding systems.” Advances in neural information processing systems 32 (2019). ↩︎

Pettee, Mariel, Chase Shimmin, Douglas Duhaime, and Ilya Vidrin. “Beyond imitation: Generative and variational choreography via machine learning.” arXiv preprint arXiv:1907.05297 (2019). ↩︎

Su, Jianlin, Yu Lu, Shengfeng Pan, Bo Wen, and Yunfeng Liu. “Roformer: Enhanced transformer with rotary position embedding.” arXiv preprint arXiv:2104.09864 (2021). ↩︎

Wang, Hongyu, Shuming Ma, Li Dong, Shaohan Huang, Dongdong Zhang, and Furu Wei. “Deepnet: Scaling transformers to 1,000 layers.” arXiv preprint arXiv:2203.00555 (2022). ↩︎

Hendrycks, Dan, and Kevin Gimpel. “Gaussian error linear units (gelus).” arXiv preprint arXiv:1606.08415 (2016). ↩︎

Dauphin, Yann N., Angela Fan, Michael Auli, and David Grangier. “Language modeling with gated convolutional networks.” In International conference on machine learning, pp. 933-941. PMLR, 2017. ↩︎

Sanh, Victor, Albert Webson, Colin Raffel, Stephen Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin et al. “Multitask Prompted Training Enables Zero-Shot Task Generalization.” In The Tenth International Conference on Learning Representations. 2022. ↩︎

Wang, Chenguang, Xiao Liu, Zui Chen, Haoyun Hong, Jie Tang, and Dawn Song. “DeepStruct: Pretraining of Language Models for Structure Prediction.” In Findings of the Association for Computational Linguistics: ACL 2022, pp. 803-823. 2022. ↩︎

Hoffmann, Jordan, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas et al. “Training Compute-Optimal Large Language Models.” arXiv preprint arXiv:2203.15556 (2022). ↩︎

Fedus, William, Barret Zoph, and Noam Shazeer. “Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity.” Journal of Machine Learning Research 23, no. 120 (2022): 1-39. ↩︎

Zoph, Barret, Irwan Bello, Sameer Kumar, Nan Du, Yanping Huang, Jeff Dean, Noam Shazeer, and William Fedus. “Designing effective sparse expert models.” arXiv preprint arXiv:2202.08906 (2022). ↩︎

He, Jiaao, Jiezhong Qiu, Aohan Zeng, Zhilin Yang, Jidong Zhai, and Jie Tang. “Fastmoe: A fast mixture-of-expert training system.” arXiv preprint arXiv:2103.13262 (2021). ↩︎

Liu, Xiao, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, and Jie Tang. “GPT understands, too.” arXiv preprint arXiv:2103.10385 (2021). ↩︎

Liu, Xiao, Kaixuan Ji, Yicheng Fu, Zhengxiao Du, Zhilin Yang, and Jie Tang. “P-tuning v2: Prompt tuning can be comparable to fine-tuning universally across scales and tasks.” arXiv preprint arXiv:2110.07602 (2021). ↩︎

Hugo &

PaperMod

GitHub - THUDM/GLM: GLM (General Language Model)

Toggle navigation

Product

Actions

Automate any workflow

Packages

Host and manage packages

Security

Find and fix vulnerabilities

Codespaces

Instant dev environments

Copilot

Write better code with AI

Code review

Manage code changes

Issues

Plan and track work

Discussions

Collaborate outside of code

Explore

All features

Documentation

GitHub Skills

Blog

Solutions

For

Enterprise

Teams

Startups

Education

By Solution

CI/CD & Automation

DevOps

DevSecOps

Resources

Learning Pathways

White papers, Ebooks, Webinars

Customer Stories

Partners

Open Source

GitHub Sponsors

Fund open source developers

The ReadME Project

GitHub community articles

Repositories

Topics

Trending

Collections

Pricing

Search or jump to...

Search code, repositories, users, issues, pull requests...

Clear

Search syntax tips

Provide feedback

We read every piece of feedback, and take your input very seriously.

Include my email address so I can be contacted

Cancel

Submit feedback

Saved searches

Use saved searches to filter your results more quickly

Name

Query

To see all available qualifiers, see our documentation.

Cancel

Create saved search

You signed in with another tab or window. Reload to refresh your session.

You signed out in another tab or window. Reload to refresh your session.

You switched accounts on another tab or window. Reload to refresh your session.

Dismiss alert

THUDM

GLM

Public

Notifications

Fork

304

Star

GLM (General Language Model)

License

MIT license

stars

304

forks

Branches

GLM（广义线性模型）分析 - 知乎

GLM（广义线性模型）分析 - 知乎首发于土壤微生物 Soil microbes切换模式写文章登录/注册GLM（广义线性模型）分析傻孩子No one knows everything...简介：在数据分析的过程中，很多分析方法和模型往往要求目标变量（数据）服从某些假设如正态分布、方差齐次等。一般来说，如果数据不能服从这些假设，那么采用对应的方法或模型获得的结果往往不可信。例如，我们经常使用的经典模型，即形如y = kx +b（在R中形如 lm(y ~ x, data)）的一般线性模型就要求数据（目标变量）必须满足正态分布和残差的方差齐次。然而，在实际科研工作中，很多数据往往不能满足以上条件。这种情况就要求我们寻找一种没有以上假设的方法来替代存在假设的模型如：一般线性模型。这种方法之一就是本节我想给大家推荐的广义线性模型（GLM）。广义线性模型，是为了克服线性回归模型的缺点出现的，是线性回归模型的推广。首先自变量可以是离散的，也可以是连续的。离散的可以是0-1变量，也可以是多种取值的变量。广义线性模型取消了对残差(因变量)服从正态分布的要求。残差不一定要服从正态分布，可以服从二项、泊松、负二项、正态、伽马、逆高斯等分布，这些分布被统称为指数分布族。（这一段是我在网上找的，想要进一步了解GLM的，请参考R语言实战或者度娘）在介绍GLM之前，我先说一下为什么我要了解并掌握GLM分析。1）我看到了多篇NC（nature communications）中使用过GLM分析。他们使用GLM要么推断多个自变量对目标变量的解释效应；要么通过算法从很多GLMs中获得最简GLM，然后再根据该GLM预测目标变量的发展趋势；2）看起来这个算法和模型很牛犇。推荐一篇NC供大家在使用该模型时参考“A meta-analysis of global fungal distribution reveals climate-driven patterns.”希望大家看一下我的群公告，在力所能及的情况下帮一下忙，谢谢。1、模型构建在前段时间我介绍的随机森林模型的推文中，使用测试数据，我们发现pH是影响物种丰富度（Richness）的主要因素，其它因素对物种的丰富度均没有显著的影响（如下图）。在计算这个随机森林模型的过程中，我们人为的把pH，CN比、P含量、TC（总碳）、Torigin（初始温度）、ECEC（离子交换量）、CP比、NP比和TN（总氮）作为该模型的一个自变量。最终我们发现这些自变量构成的模型对丰富度的解释量为25.45%。现在问题来了，为什么要选择这些自变量而不是那些自变量作为模型中的一个因子？这些自变量的组合是最优组合吗？这个模型是最优最简模型吗？带着这些问题我们来了解广义线性模型。#load packageslibrary(tidyverse)#install.packages("leaps")library(leaps)#load dataload("RFdata2.RData")head(RFdata2)数据格式如下：1）计算不同GLMs模型对变量的解释效应leaps <- regsubsets(Richness~.,data = RFdata2, nbest=2)plot(leaps, scale = "adjr2")通过全子集回归分析，我们获得了一批模型及其对应的调整R2（如上图）。这个图的左侧纵坐标为调整R2，横坐标为截距和各个自变量，存在颜色表示包含该自变量，空白表示不包含该自变量。我们发现当模型仅有一个变量Torigin时（最下方），GLM模型的调整R2为0.26，而当模型包含Torigin、pH、P、TC、CN_ratio、CP_ratio和NP_ratio时模型的调整R2最大为0.66；相同的当模型包含Torigin、pH、P、TN、CN_ratio、CP_ratio和NP_ratio时模型的调整R2也是最大值0.66。该结果表明这两个模型可能都是解释量最高的模型。为了进一步评估哪个模型是最优模型且同时是最简模型，我们可以看一下每个模型的BIC值，一般来说该值越小则表示模型的拟合度（也就是R2，不是调整R2）越好。plot(leaps, scale = "bic")我们发现不同GLMs的BIC值排序并不与调整R2一致。结果表明了pH、TN、TC和CN_ratio构成的模型以及pH、P、TC和CP_ratio这两个模型的BIC值最低。查看上一个调整R2的值，它们对应的调整R2分别为0.62和0.62。该结果表明这两个模型都是最简模型。因为它们与最大的拟合度0.66只差0.04，因此，从模型的简单性来说，这两个模型就是最优最简模型。根据自己的科研目的可以选择其中之一。最终模型如下：names(RFdata2)fit <- lm(Richness ~ pH+P+TC+CP_ratio, data = RFdata2)summary(fit)通过该结果我们发现，该模型显著影响丰富度，且模型中的每个变量都显著影响丰富度，模型的拟合度为0.66，调整拟合度为0.62。2、模型交叉验证上面我们已经通过算法获得了最优最简模型，那么该模型的稳健性如何呢？下面我们对该模型进行交叉验证。什么叫交叉验证？所谓交叉验证指的是将一定比例的样品挑选出来作为训练样本，另一部分样品作为保留样品，先使用训练样品获得回归方程，然后在保留样品上预测。因为保留样品并没有参与模型的构建过程，因此可以用来估测模型的准确性。k重交叉验证，指的是讲样品分为k个子集，轮流将k-1个子样品作为训练集，另外一个子集作为保留集，最终获得平均预测值。代码如下：#install.packages("bootstrap")library(bootstrap)shrinkage <- function(fit, k = 10){ require(bootstrap) set.seed(123) theta.fit <- function(x,y){lsfit(x,y)} theta.predict <- function(fit,x){cbind(1,x) %*% fit$coef} x <- fit$model[,2:ncol(fit$model)] y <- fit$model[,1] results <- crossval(x, y, theta.fit,theta.predict, ngroup = k) r2 <- cor(y, fit$fitted.values)^2 r2cv <- cor(y, results$cv.fit)^2 cat("Original R-square =", r2, "\n") cat(k, "Fold Cross-Validated R-square =", r2cv, "\n") cat("Change =", r2-r2cv, "\n")}shrinkage(fit, k =10)#Original R-square = 0.6993476 #10 Fold Cross-Validated R-square = 0.527686 #Change = 0.13053710倍交叉验证的结果表明，我们最终获得的模型对丰富度的实际解释量为0.53；变化性为0.13（这相当于误差）。然后通过该模型预测因变量的值如下：#predict valusepredValue <- predict(fit,RFdata2[,c("pH","P","TC","CP_ratio")], interval="predict")predValuefit表示通过该模型预测得到的丰富度值，lwr和upr分别表示下和上误边界。3、模型中每个变量的重要性在获得模型后，我们往往还想要知道获得的模型中每一个变量对自变量如何重要，类似于随机森林分析（可以使用随机森林分析预测）也可以通过以下代码预测（参考R语言实战）。代码和结果如下：#importance of each variablesrelweights <- function(fit,...){ set.seed(123) options(digits = 3) R <- cor(fit$model) nvar <- ncol(R) rxx <- R[2:nvar, 2:nvar] rxy <- R[2:nvar,1] svd <- eigen(rxx) evec <- svd$vectors ev <- svd$values delta <- diag(sqrt(ev)) lambda <- evec %*% delta %*% t(evec) lambdasq <- lambda^2 beta <- solve(lambda) %*% rxy rsquare <- colSums(beta^2) rawwgt <- lambdasq %*% beta^2 import <- (rawwgt/rsquare) *100 import <- as.data.frame(import) rownames(import) <- names(fit$model[2:nvar]) names(import) <- "Weights" dotchart(import$Weights, labels = rownames(import), xlab = "% of R-Square", pch = 19, main = "Relative importance of predictor variables", sub = paste("Total R-Square =",round(rsquare,digits = 2)), ...) return(import)}relweights(fit,col = "blue")跟我们的随机森林分析的结果对照，GLM模型的结果表明了pH是影响richness的最主要影响因素。其次是CP比，影响最小的是TC。分析中的数据可以添加我们的微信群获得，获得途径1，关注本微信公众号（科白君的土壤世界），后台回复 “客服微信”，小编将邀请您进群和我们一起交流和学习~发布于 2021-10-27 12:07广义线性模型计量经济计量经济学赞同 285 条评论分享喜欢收藏申请转载文章被以下专栏收录土壤微生物 Soil microbes微生物知识和数

广义线性模型（GLM）和广义线性混合模型（GLMM）怎么区分使用呢？ - 知乎

广义线性模型（GLM）和广义线性混合模型（GLMM）怎么区分使用呢？ - 知乎首页知乎知学堂发现等你来答切换模式登录/注册统计学回归分析广义线性模型广义线性模型（GLM）和广义线性混合模型（GLMM）怎么区分使用呢？什么情况下可以用GLM，什么情况下必须用GLMM呢关注者191被浏览237,867关注问题写回答邀请回答好问题 10添加评论分享8 个回答默认排序和煦星光生物学话题下的优秀答主关注说下自己的理解，权当抛砖引玉。首先，题主问题有误，GLM一般是指 generalized linear model ，也就是广义线性模型；而非 general linear model，也就是一般线性模型；而GLMM （generalized linear mixed model）是广义线性混合模型。广义线性模型GLM很简单，举个例子，药物的疗效和服用药物的剂量有关。这个相关性可能是多种多样的，可能是简单线性关系（发烧时吃一片药退烧0.1度，两片药退烧0.2度，以此类推；这种情况就是一般线性模型），也可能是比较复杂的其他关系，如指数关系（一片药退烧0.1度，两片药退烧0.4度），对数关系等等。这些复杂的关系一般都可以通过一系列数学变换变成线性关系，以此统称为广义线性模型。广义线性混合模型GLMM比较复杂，GLM要求观测值误差是随机的，而GLMM则要求误差值并非随机，而是呈一定分布的。举个例子，我们认为疗效可能与服药时间相关，但是这个相关并不是简简单单的疗效随着服药时间的变化而改变。更可能的是疗效的随机波动的程度与服药时间有关。比如说，在早上10：00的时候，所有人基本上都处于半饱状态，此时吃药，相同剂量药物效果都差不多。但在中午的时候，有的人还没吃饭，有的人吃过饭了，有的人喝了酒，结果酒精和药物起了反应，有的人喝了醋，醋又和药物起了另一种反应。显然，中午吃药会导致药物疗效的随机误差非常大。这种疗效的随机误差（而非疗效本身）随着时间的变化而变化，并呈一定分布的情况，必须用广义线性混合模型了。编辑于 2015-02-02 22:25赞同 16512 条评论分享收藏喜欢收起极速BigStone 关注为了说明的方便，默认GLM包含了“经典线性回归模型”，GLMM包含了“线性混合模型”。在只有GLM和GLMM两种选择的情况下，响应变量y如果是独立的则GLM（或者GLMM，但是不推荐，因为GLMM回归系数估计算法复杂并且不会比GLM算法更好），如果不独立，相关，必须GLMM。什么情况下不独立呢？比如重复测量/纵向数据，面板数据，聚集数据等。举个例子，研究学生成绩的影响因素。学生来自不同学校和不同班级，很显然，同一个班级的学生成绩是相关的，同一个学校的学生成绩可能是相关的。像这样的数据你使用GLM的结果就是回归系数的标准误会被严重低估，造成回归系数容易变得显著。另外学校总体或者班级总体的差异你也得不到。所以判断标准非常简单，响应变量y独立则GLM，否则GLMM。这就是最本质的判断标准，其它的标准都是基于这个标准来的。比如有的说有随机效应就要GLMM，为什么会有随机效应，还不是因为不独立，增加随机效应后就能体现y之间的相关性。指出最高赞的一个错误：广义线性混合模型GLMM比较复杂，GLM要求观测值误差是随机的，而GLMM则要求误差值并非随机，而是呈一定分布的。误差是随机变量，随机变量还能不随机吗？！整段话不知所云。我猜想他应该是没有用正确的语言清楚的表达出他实际要说的话。我此处指出这个错误无恶意，毕竟是最高赞回答，我不能看到错误装作看不见，这对于广大求知者是不负责的。接着指出其它回答中的错误。有回答说GLM要求“方差齐性”，不需要的，因为二项分布，泊松分布，负二项分布等都是异方差，GLM没有“方差齐性”这个要求。GLM“残差的正态性（Normality of residuals）”也是不需要的。编辑于 2021-02-14 11:40赞同 475 条评论分享收藏喜欢

广义线性模型（GLM）及其应用 - 知乎

广义线性模型（GLM）及其应用 - 知乎首发于deephub深度学习切换模式写文章登录/注册广义线性模型（GLM）及其应用deephubAI方向文章，看头像就知道，这里都是"干"货广义线性模型[generalize linear model(GLM)]是线性模型的扩展，通过联系函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。它的特点是不强行改变数据的自然度量，数据可以具有非线性和非恒定方差结构。是线性模型在研究响应值的非正态分布以及非线性模型简洁直接的线性转化时的一种发展。在广义线性模型的理论框架中，则假设目标变量Y则是服从指数分布族，正态分布和伯努利分布都属于指数分布族，因此线性回归和逻辑回归可以看作是广义线性模型的特例。这是概率分布及其正则联系函数（Canonical Link function）的列表。正态分布:恒等函数泊松分布:对数函数二项分布:分对数函数除此以外我们还可以自定义联系函数，如果不喜欢自己编写可以使用在 statsmodels 中实现了的各种联系函数，Stan、PyMC3 和 TensorFlow Probability 等概率编程框架也给我们提供了这些函数。link function也被翻译为连接函数，这里觉得联系函数更为贴切所以还是翻译为联系函数线性回归线性回归用于通过解释变量 X 的线性组合来预测连续变量 y 的值。在单变量情况下，线性回归可以表示如下模型假定噪声项的正态分布。该模型可以说明如下泊松回归泊松分布用于对计数数据进行建模。它只有一个参数代表分布的均值和标准差。这意味着平均值越大，标准差越大。如果我们将泊松回归应用于数据。结果应该是这样的。预测曲线是指数的，因为对数联系函数（ log link function）的反函数是指数函数。由此也可以清楚地看出，由线性预测器计算的泊松回归参数保证为正。以下是一个泊松回归的示例代码import numpy as np

from numpy.random import uniform, normal, poisson, binomial

from scipy import stats

import matplotlib.pyplot as plt

import seaborn as sns

import statsmodels.api as sm

%matplotlib inline

## ============Poisson regression

# generate simulation data

np.random.seed(5)

n_sample = 100

a = 0.6

b = -0.4

x = uniform(1, 5, size=n_sample)

mu = np.exp(a * x + b)

y = poisson(mu)

import statsmodels.api as sm

exog, endog = sm.add_constant(x), y

# Poisson regression

mod = sm.GLM(endog, exog, family=sm.families.Poisson(link=sm.families.links.log()))

res = mod.fit()

display(res.summary())

y_pred = res.predict(exog)

idx = x.argsort()

x_ord, y_pred_ord = x[idx], y_pred[idx]

plt.plot(x_ord, y_pred_ord, color='m')

plt.scatter(x, y, s=20, alpha=0.8)

plt.xlabel("X")

plt.ylabel("Y")粉色曲线是泊松回归的预测。逻辑回归如果使用分对数（ logit）函数作为联系函数，使用二项式/伯努利分布作为概率分布，则该模型称为逻辑回归。第二个方程的右边叫做logistic函数。因此这个模型被称为逻辑回归。对于任意输入，logistic函数返回的值在0到1之间，对于二项分布它是一个合适的联系函数。逻辑回归也就是我们常看到的这个样子总结如果要进行“广义线性模型（GLM）”分析，只需要摘到我们需要的联系函数，它的作用就是把Y与X间的非线性关系转换成线性关系，我们完全可以自己编写我们需要的联系函数。实际使用中我们只要把联系函数和方差函数假设正确，甚至不用管是什么分布的，如果使用的就是一些典型联系函数，则方差函数都可以不用假设。所以其实广义线性模型的要点就是：联系函数和/或方差函数要假设正确，这样就ok了。本文代码https://github.com/ranasingh-gkp/StatisticalModeling_Implement/blob/main/GLM.ipynb作者：Rana singh发布于 2022-08-20 10:04广义线性模型机器学习Python赞同 9添加评论分享喜欢收藏申请转载文章被以下专栏收录deephub深度学习提供专业的CV NLP和数据挖

广义线性模型（GLM）概述 - 知乎

广义线性模型（GLM）概述 - 知乎首发于统计模型切换模式写文章登录/注册广义线性模型（GLM）概述休絮好乐无荒！22.01.08期末考完修改了一些笔误某节大数据专业必修课的专题之一，结果发现比自己的统计学专业课还硬核（又硬又核）。广义线性模型（Generalized Linear Model）是线性回归模型的推广，在很多领域都有广泛应用，比如逻辑斯谛回归（logistic regression model）就是响应变量服从两点分布并取连接函数为logit函数时的特例，据说生存分析也有不少相关应用，但目前还没学到2333。某乎上介绍相关理论的内容很少，初学的时候整个人都处于一种升华状态，于是打算整理一下过去几节课的笔记。主要是介绍了广义线性模型的基本构架，然后讲了一下用MLE对模型作估计以及估计的一些性质。还加了一些自己的推导。latex误事，一个周末交代在这个文件上了，大三还是得好好学习，少碰某乎啊……以后随缘更新吧23333附：pdf文件GLM.pdf216.6K · 百度网盘编辑于 2022-01-08 12:36广义线性模型赞同 18117 条评论分享喜欢收藏申请转载文章被以下专栏收录统计模型鬼知道我能学到些啥，整天看些自己够不着

怎样简单易懂的解释GLM（广义线性模型）？ - 知乎

怎样简单易懂的解释GLM（广义线性模型）？ - 知乎首页知乎知学堂发现等你来答切换模式登录/注册数学统计学非线性R（编程语言）怎样简单易懂的解释GLM（广义线性模型）？如题。敬请大神不吝赐教。望能从线性模型的推广上讲起。显示全部关注者26被浏览25,658关注问题写回答邀请回答好问题 12 条评论分享5 个回答默认排序斯宾王基金从业资格证持证人关注广义线性模型（GLM）假设条件概率分布 y|x （ y\in\mathbb{R} 是一个被预测变量数据点， x\in\mathbb{R}^p 是一个预测变量数据点）属于指数分布族f_\theta(y)=\exp(\theta y-c(\theta))h(y)\\这里 \theta\in\mathbb{R} 是概率分布参数， c:\mathbb{R}\to\mathbb{R},h:\mathbb{R}\to\mathbb{R}_+ 是已知函数（ h 是非负函数）。指数分布族包括正态分布、泊松分布、伯努利分布和多项分布等。指数分布族满足性质 \mathbb{E}[y|x]=c'(\theta),\mathrm{Var}(y|x)=c''(\theta) ，而GLM的联系函数 g:\mathbb{R}\to\mathbb{R} 用来将条件期望转为 x 的线性函数g(\mathbb{E}[y|x])=\beta^\top x\\标准线性回归模型是GLM的一种，它假设 y 给定 x 的条件概率分布是正态分布 y|x\sim N(\mathbb{E}[y|x],\sigma^2) ，这里联系函数是恒等函数 g=\mathrm{id} ，即 \mathbb{E}[y|x]=\beta^\top x 。当被预测变量是非负整数时，我们可以使用柏松回归；它假设 y 给定 x 的条件概率分布是柏松分布 y|x\sim\mathrm{Poisson}(\mathbb{E}[y|x]) ，这里联系函数是 g=\log ，即\log(\mathbb{E}[y|x])=\beta^\top x\\且 \mathrm{Var}(y|x)=\mathbb{E}[y|x] 。若被预测变量是二元变量，我们可以使用逻辑回归；它假设 y 给定 x 的条件概率分布是伯努利分布 y|x\sim\mathrm{Ber}(\mathbb{E}[y|x]) ，这里联系函数是 g=\mathrm{logit},g^{-1}=\mathrm{sigmoid} ，即\log(\frac{\mathbb{E}[y|x]}{1-\mathbb{E}[y|x]})=\beta^\top x\\ \frac{\exp(\beta^\top x)}{1+\exp(\beta^\top x)}=\mathbb{E}[y|x]\\且 \mathrm{Var}(y|x)=\mathbb{E}[y|x](1-\mathbb{E}[y|x]) 。若被预测变量是分类变量，我们可以使用多项回归；假设 y\in\{1,\cdots,K\} ，令 \mathbb{P}(y=k|x)=\mathbb{E}_k[y|x] ，我们有\log(\frac{\mathbb{E}_k[y|x]}{\mathbb{E}_K[y|x]})=\beta_k^\top x,k=1,\cdots,K-1\\ \mathbb{E}_k[y|x]=\frac{\exp(\beta_k^\top x)}{1+\sum_{l=1}^{K-1}\exp(\beta_l^\top x)},k=1,\cdots,K-1\\ \mathbb{E}_K[y|x]=\frac{1}{1+\sum_{l=1}^{K-1}\exp(\beta_l^\top x)}\\和M估计一样，GLM系数通常没有闭式表达式，故GLM系数经常通过最大似然估计（MLE）来计算\nabla l(\beta)=0,l(\beta)=\sum_{i=1}^n\log(f_{\theta_i}(y_i)),\theta_i=\beta^\top X_i\\这里 l(\beta) 叫作对数似然函数， \nabla l(\beta) 叫作得分向量。我们可以使用牛顿法\beta\leftarrow\beta+J(\beta)^{-1}\nabla l(\beta)\\来解此求根问题，这里 J(\beta)=\nabla^2l(\beta) 是被观察到的信息矩阵。若 J(\beta) 被费希尔信息矩阵 I(\beta)=\mathbb{E}[\nabla l(\beta)\nabla l(\beta)^\top] 替代，此迭代法就被称作迭代再加权最小二乘法（IRLS）。编辑于 2023-03-29 12:01赞同 11添加评论分享收藏喜欢收起学习者老张AI已来关注GLMs are a type of statistical model that extends the linearregression model to accommodate non-normal distributionsand non-constant variance. In other words, GLMs allow youto model data that is not normally distributed or has unequalvariance.GLMs consist of three components: a random component, asystematic component, and a link function. The randomcomponent specifies the probability distribution of theresponse variable, the systematic component relates theresponse variable to the predictor variables, and the linkfunction connects the two components.For example, if you have binary data (0 or 1), you can use aBernoulli distribution as the random component, a logisticfunction as the link function, and a linear combination ofpredictor variables as the systematic component. This wouldgive you a logistic regression model, which can be used topredict the probability of a binary outcome based on thepredictor variables. hope this explanation helps you understand GLMs better!Let me know if you have any further questions.发布于 2023-03-29 09:24赞同添加评论分享收藏喜欢收起

Follow

imtoken钱包下载2.0版本|glm

imtoken钱包下载2.0版本|glm

如何评价清华大学发布的GLM-130B？ - 知乎

GLM-130B：开源的双语预训练模型 | GLM-130B

GitHub - THUDM/GLM: GLM (General Language Model)

GLM（广义线性模型）分析 - 知乎

广义线性模型（GLM）和广义线性混合模型（GLMM）怎么区分使用呢？ - 知乎

广义线性模型（GLM）及其应用 - 知乎

广义线性模型（GLM）概述 - 知乎

怎样简单易懂的解释GLM（广义线性模型）？ - 知乎

最近的新闻

您可能喜欢的文章

比特app官网下载|gigabitethernet

以太坊钱包下载网址imtoken|haolemai

TP钱包TPT如何进行理财？

比特币私钥与冷钱包：保护您的数字资产安全的

如何使用以太坊钱包助记词

TP钱包是国内的吗？

了解钱包和区块链的关系及其重要性