Robert-zwr's Blog

3倍加速LLM推理——推测解码（Speculative Decoding）

推测解码（Speculative Decoding，也有人译为“投机采样”，个人认为意译为“拒绝采样”更好一些）是Google[1]和DeepMind[2]在2022年同时发现的大模型推理加速方法。它可以在生成效果无损的前提下，获得3倍以上的加速比。GPT-4泄密报告也提到OpenAI线上模型推理使用了它。基本思想：小模型打草稿，大模型纠正打草稿：Speculative Dec

2024-07-24

#LLM #HPC

矩阵求导术

自定义Triton算子，需要在实现反向传播时给出相应的梯度计算方法，梯度表达式的推导过程涉及矩阵求导的运算法则。下面以flash-linear-attention为例，介绍一下flash-linear-attention的实现方法，顺便推导一下梯度的计算过程。 Forward 标准attention: train：并行，高效 \[ \begin{align*} \rm Q,

2024-06-05

#Triton

论文笔记4 - Flamingo

Flamingo: a Visual Language Model for Few-Shot Learning 概述最先进的few-shot视觉问答注意力网络，接受灵活的图像/文本输入利用cross attention实现图像压缩与图文信息交互通过设置prompt，大模型+少样本打败精调。模型结构怎样将图像和文本一起输入LLM？将图像数据从2D转化为1D，以

2023-07-19

#多模态 #gpt-4

论文笔记3 - LLaVA

LLaVA: Large Language and Vision Assistant 概述结合了CLIP vision encoder与LLaMA的多模态大模型，具有与GPT-4相似的能力。数据集生成数据集的形式为图片和针对该图片的多组文本描述（问题-答案对）。图片：来自COCO数据集图片的文本描述问题：对图片内容的提问，在预先设定好的问题表中抽取得到答案

2023-07-19

#多模态 #GPT-4

论文笔记2 - ONE-PEACE

ONE-PEACE: EXPLORING ONE GENERAL REPRESENTATION MODEL TOWARD UNLIMITED MODALITIES 概述一种多模态预训练方法，可扩展至无限种模态，在不使用任何视觉或语言预训练模型进行初始化的情况下，ONE-PEACE在广泛的单模态和多模态任务中取得了领先的结果。 ONE-PEACE实际训练了图像、文本、语音三个模态，其中文

2023-07-16

#多模态 #自监督学习

论文笔记1 - VLMo

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts 概述一种图文多模态预训练方法，经过预训练的VLMO可作为视觉语言分类任务（Vision-Language Classification ）的融合编码器或图像文本检索（Vision-Language Retrieval）的双重编码

2023-07-12

#多模态 #自监督学习