矩阵求导术 自定义Triton算子,需要在实现反向传播时给出相应的梯度计算方法,梯度表达式的推导过程涉及矩阵求导的运算法则。 下面以flash-linear-attention为例,介绍一下flash-linear-attention的实现方法,顺便推导一下梯度的计算过程。 Forward 标准attention: train:并行,高效 \[ \begin{align*} \rm Q, 2024-06-05 #Triton
论文笔记4 - Flamingo Flamingo: a Visual Language Model for Few-Shot Learning 概述 最先进的few-shot视觉问答注意力网络,接受灵活的图像/文本输入 利用cross attention实现图像压缩与图文信息交互 通过设置prompt,大模型+少样本打败精调。 模型结构 怎样将图像和文本一起输入LLM? 将图像数据从2D转化为1D,以 2023-07-19 #多模态 #gpt-4
论文笔记3 - LLaVA LLaVA: Large Language and Vision Assistant 概述 结合了CLIP vision encoder与LLaMA的多模态大模型,具有与GPT-4相似的能力。 数据集生成 数据集的形式为图片和针对该图片的多组文本描述(问题-答案对)。 图片:来自COCO数据集 图片的文本描述 问题:对图片内容的提问,在预先设定好的问题表中抽取得到 答案 2023-07-19 #多模态 #GPT-4
论文笔记2 - ONE-PEACE ONE-PEACE: EXPLORING ONE GENERAL REPRESENTATION MODEL TOWARD UNLIMITED MODALITIES 概述 一种多模态预训练方法,可扩展至无限种模态,在不使用任何视觉或语言预训练模型进行初始化的情况下,ONE-PEACE在广泛的单模态和多模态任务中取得了领先的结果。 ONE-PEACE实际训练了图像、文本、语音三个模态,其中文 2023-07-16 #多模态 #自监督学习
论文笔记1 - VLMo VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts 概述 一种图文多模态预训练方法,经过预训练的VLMO可作为视觉语言分类任务(Vision-Language Classification )的融合编码器或图像文本检索(Vision-Language Retrieval)的双重编码 2023-07-12 #多模态 #自监督学习