Robert-zwr
  • Home
  • Archives
  • Categories
  • Tags
  • About

3倍加速LLM推理——推测解码(Speculative Decoding)

推测解码(Speculative Decoding,也有人译为“投机采样”,个人认为意译为“拒绝采样”更好一些)是Google[1]和DeepMind[2]在2022年同时发现的大模型推理加速方法。它可以在生成效果无损的前提下,获得3倍以上的加速比。GPT-4泄密报告也提到OpenAI线上模型推理使用了它。 基本思想:小模型打草稿,大模型纠正 打草稿:Speculative Dec
2024-07-24
#LLM #HPC

矩阵求导术

自定义Triton算子,需要在实现反向传播时给出相应的梯度计算方法,梯度表达式的推导过程涉及矩阵求导的运算法则。 下面以flash-linear-attention为例,介绍一下flash-linear-attention的实现方法,顺便推导一下梯度的计算过程。 Forward 标准attention: train:并行,高效 \[ \begin{align*} \rm Q,
2024-06-05
#Triton

论文笔记4 - Flamingo

Flamingo: a Visual Language Model for Few-Shot Learning 概述 最先进的few-shot视觉问答注意力网络,接受灵活的图像/文本输入 利用cross attention实现图像压缩与图文信息交互 通过设置prompt,大模型+少样本打败精调。 模型结构 怎样将图像和文本一起输入LLM? 将图像数据从2D转化为1D,以
2023-07-19
#多模态 #gpt-4

论文笔记3 - LLaVA

LLaVA: Large Language and Vision Assistant 概述 结合了CLIP vision encoder与LLaMA的多模态大模型,具有与GPT-4相似的能力。 数据集生成 数据集的形式为图片和针对该图片的多组文本描述(问题-答案对)。 图片:来自COCO数据集 图片的文本描述 问题:对图片内容的提问,在预先设定好的问题表中抽取得到 答案
2023-07-19
#多模态 #GPT-4

论文笔记2 - ONE-PEACE

ONE-PEACE: EXPLORING ONE GENERAL REPRESENTATION MODEL TOWARD UNLIMITED MODALITIES 概述 一种多模态预训练方法,可扩展至无限种模态,在不使用任何视觉或语言预训练模型进行初始化的情况下,ONE-PEACE在广泛的单模态和多模态任务中取得了领先的结果。 ONE-PEACE实际训练了图像、文本、语音三个模态,其中文
2023-07-16
#多模态 #自监督学习

论文笔记1 - VLMo

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts 概述 一种图文多模态预训练方法,经过预训练的VLMO可作为视觉语言分类任务(Vision-Language Classification )的融合编码器或图像文本检索(Vision-Language Retrieval)的双重编码
2023-07-12
#多模态 #自监督学习

Search

Hexo Fluid