2025-06-20
news-thumbnail

PhishDebate: 多代理框架提升钓鱼网站检测

PhishDebate利用多代理框架,通过对网页的URL结构、HTML组成、语义内容和品牌冒充进行分析,实现更准确和可解释的钓鱼网站检测,达到98.2%的召回率和真实阳性率。

news-thumbnail

多模态大模型视觉质量悖论解析

研究多模态大模型对视觉质量的反应,发现偏离人类感知的图像质量有时能提升模型表现。提出VQ-TTT模块,通过动态调整图像以提升模型准确性,无需额外数据或外部模型。

news-thumbnail

FindingDory:评估具身代理记忆的基准

本文介绍了一种新的基准,用于在Habitat模拟器中评估长程具身任务中的记忆能力,涵盖60项任务。该基准支持任务扩展,以评估记忆与推理能力。

news-thumbnail

探索大模型的组合泛化与指令遵循能力

本文提出Ordered CommonGen基准,用于评估大模型的组合泛化和指令遵循能力。研究发现,尽管模型理解指令意图,但在概念顺序上存在偏差,需进一步提升这两种能力。

spinner