

PhantomHunter: 检测私有微调LLM生成文本
PhantomHunter通过家族感知学习检测私有微调LLM生成的文本,解决现有检测器性能下降问题,实验表现优异。
PhantomHunter通过家族感知学习检测私有微调LLM生成的文本,解决现有检测器性能下降问题,实验表现优异。
GenRecal是一种通用蒸馏框架,通过再校准器对齐不同VLM的特征表示,实现高效知识转移,提升性能。
SwarmAgentic框架通过群体智能实现从零构建和优化代理系统,提升任务执行和协作能力,在多项任务中超越现有基准。
CC-LEARN引入群体一致性学习,通过对相似问题群体进行强化学习,提升大语言模型推理的准确性和稳定性。
PhishDebate利用多代理框架,通过对网页的URL结构、HTML组成、语义内容和品牌冒充进行分析,实现更准确和可解释的钓鱼网站检测,达到98.2%的召回率和真实阳性率。
deepSURF结合静态分析和LLM引导的模糊测试生成,专注于Rust不安全代码内存漏洞检测,发现6个新漏洞,提升检测效果。
研究大规模推理模型的内在效率,提出无训练效率引导和自奖励效率RL方法,减少推理长度并提升任务表现。
研究多模态大模型对视觉质量的反应,发现偏离人类感知的图像质量有时能提升模型表现。提出VQ-TTT模块,通过动态调整图像以提升模型准确性,无需额外数据或外部模型。
本文介绍了一种新的基准,用于在Habitat模拟器中评估长程具身任务中的记忆能力,涵盖60项任务。该基准支持任务扩展,以评估记忆与推理能力。
本文提出Ordered CommonGen基准,用于评估大模型的组合泛化和指令遵循能力。研究发现,尽管模型理解指令意图,但在概念顺序上存在偏差,需进一步提升这两种能力。