Graph SAGE: Inductive Representation Learning on Large Graphs
Created|Updated
|Post Views:
Inductive Representation Learning on Large Graphs
Author: 神火不知灭
Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.
Related Articles
2024-08-05
Hierarchical Graph Pooling with Structure Learning
Hierarchical
Graph Pooling with Structure Learning
会议: AAAI 2020(疑似撤稿)
论文地址:https://arxiv.org/abs/1911.05954
github: https://github.com/cszhangzhen/HGP-SL
DGL开源库:https://github.com/dmlc/dgl/tree/master/examples/pytorch/hgp_sl
[TOC]
摘要
图神经网络 (GNN)
将深度神经网络扩展到图结构数据,在许多图相关任务中取得了最先进的性能。然而,现有的
GNN 模型主要关注设计图卷积操作。图池化 (或下采样)
操作在分层表示学习中发挥着重要作用,通常被忽视。在这篇论文中,我们提出了一种新的图池化操作符,称为具有结构学习的分层图池化
(HGP-SL),它可以集成到各种图神经网络架构中。HGP-SL
将图池化和结构学习集成到一个统一的模块中,以生成图的分层表示。具体来说,图池化操作根据我们定义的节点信息分数自适应地选择一组节点来形成一个诱导...
2024-12-05
Mask2Former: Masked-attention Mask Transformer for Universal Image Segmentation
摘要
图像分割将具有不同语义(如类别或实例成员关系)的像素分组,每种语义选择定义了一项任务。虽然各项任务仅在语义上有所不同,但当前研究主要集中于为每个任务设计专门的架构。我们提出了掩码注意力掩码变换器(Mask2Former),这是一种能够处理任何图像分割任务(全景、实例或语义)的新架构。其关键组件包括掩码注意力,它通过将交叉注意力约束在预测掩码区域内来提取局部特征。除了将研究工作量至少减少三倍外,它在四个流行数据集上显著优于最佳专用架构。最值得注意的是,Mask2Former
在全景分割(COCO 上的 57.8 PQ)、实例分割(COCO 上的 50.1
AP)和语义分割(ADE20K 上的 57.7 mIoU)方面设定了新的最先进水平。
1. 引言
图像分割研究像素分组问题。像素分组的不同语义,例如类别或实例成员关系,导致了不同类型的分割任务,如全景、实例或语义分割。虽然这些任务仅在语义上有所不同,但当前方法为每个任务开发专门的架构。基于全卷积网络(FCN)的逐像素分类架构用于语义分割,而预测一组与单个类别相关联的二进制掩码的掩码分类架构在实例级分割中占主导地...
2020-07-02
Unifying Deep Local and Global Features for Image Search
统一局部和全局特征进行图像搜索的深层(网络)
本文使用机翻,稍加润色,主要用于个人理解,不恰当之处请看客见谅。
摘要
图像检索是在图像数据库中搜索与查询图像相似的项的问题。为了解决这一问题,研究了两种主要的图像表示方法:全局图像特征和局部图像特征。在这项工作中,我们的主要贡献是将全局和局部特征统一到一个单一的深度模型中,从而实现精确的检索和高效的特征提取。我们将新模型称为DELG,代表了深层网络的本地和全局特性。我们利用最近特征学习工作的经验教训,提出了一个将全局特征的广义均值池和局部特征的注意选择相结合的模型。通过仔细平衡两部分之间的梯度流,整个网络可以端到端地学习——只需要图像级别的标签。我们还引入了一种基于自动编码器的局部特征降维技术,并将其集成到模型中,提高了训练效率和匹配性能。在重新修改的牛津和巴黎数据集上的实验表明,我们共同学习的基于ResNet-50的特征优于使用深层全局特征(大多数具有更重量级的主干)和那些进一步使用局部特征重新排序的结果。代码和模型将被发布。
关键词:deep features,image retrieval,unified
mod...
2025-04-22
ABINet: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition
[TOC]
名称:Read Like Humans: Autonomous, Bidirectional and Iterative
Language Modeling for Scene Text Recognition
论文:https://arxiv.org/abs/2103.06495
会议:AAAI2020
Github: https://github.com/FangShancheng/ABINet
ABINet(Attention-based Bidirectional
Network)是一种用于场景文本识别(Scene Text Recognition,
STR)的深度学习模型。它在处理复杂背景、噪声干扰以及弯曲或倾斜文本时表现出色。ABINet
的核心创新点是引入了 双向注意力机制 和
迭代优化策略
,从而显著提升了文本识别的准确性和鲁棒性。
以下是 ABINet
的详细解析,包括其架构设计、工作原理、优势和实现细节。
1. ABINet 的背景
问题
自然场景中的文本通常具有复杂的形状(如弯曲、倾斜等),并且背景...
2025-04-21
DBNet: Real-time Scene Text Detection with Differentiable Binarization
[TOC]
名称:DBNet: Real-time Scene Text Detection with Differentiable
Binarization
论文:https://arxiv.org/abs/1911.08947
会议:AAAI2020
V2:Real-Time Scene Text Detection with Differentiable Binarization
and Adaptive Scale Fusion
V2:https://arxiv.org/abs/2202.10304
顶刊:TPAMI 2022
DBNet(Differentiable Binarization
Network)是一种用于文本检测的深度学习模型,特别适用于自然场景中的文本检测任务。它在处理弯曲、倾斜或复杂背景中的文本时表现出色。DBNet
的核心创新点是引入了 可微分二值化(Differentiable Binarization,
DB)
模块,使得模型能够在训练过程中直接优化分割掩码的二值化效果。
以下是 DBNet
的详细解析,包括其架...
2025-08-05
Multi-Head Latent Attention (MLA)详解
Multi-Head Latent Attention
(MLA)详解
论文 DeepSeek-V2: A
Strong, Economical, and Efficient Mixture-of-Experts Language
Model
github: DeepSeek-V2: A Strong,
Economical, and Efficient Mixture-of-Experts Language Model
参考博客:
https://www.bilibili.com/video/BV1wjQvY6Enm
https://bruceyuan.com/post/hands-on-deepseek-mla-projection-absorption.html
https://kexue.fm/archives/10091
https://github.com/madsys-dev/deepseekv2-profile/blob/main/workspace/blog/optimizing-mla.md
1234洞见:1.位置编码目...
Announcement
技术笔记,日常记录
