
【大河财立方记者陈薇】11月3日粤友优配,360集团开源视觉语言对齐模型FG-CLIP2。据介绍,这款模型凭借对图像细节的极致理解,在多项测试中超越谷歌、Meta同类产品,成为全球最强的视觉语言模型。
在模型核心上,它实现了三大创新。其让模型能像人眼一样,同时把握宏观场景与微观细节,实现从“看得见”到“看得清”的跨越。其次,该模型拥有动态注意力机制粤友优配,使模型可以智能聚焦于图像关键区域,以最小算力代价换取精准的细节捕捉能力。同时,该模型优化了双语协同策略,从底层解决了中英文理解不平衡的难题,实现了真正的双语原生支持。
从上述创新可以看出,该模型像是拥有一台“高精度光学显微镜”,使其能够“洞察入微”,成功攻克了CLIP模型长期存在的“细粒度识别”痛点,对于正处风口的具身智能和商业智能化至关重要。
比如,用户可以要求家庭机器人“拿起茶几上屏幕有裂痕的手机”这样的复杂且聚焦局部系列的指令,机器人可以按照要求准确行动;此外,安防系统能通过“寻找戴黑色鸭舌帽的可疑人员”瞬间锁定目标。FG-CLIP2让机器对世界的理解从“大概”变为“精确”,为AI实用化奠定了基础。
责编:王时丹|审校:张翼鹏|审核:李震|监审:古筝
粤友优配
美港通证券提示:文章来自网络,不代表本站观点。