用于科学图像分析的视觉语言模型：一项评估，突显了机遇与挑战

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《npj Computational Materials》：Vision language models for scientific image analysis: an evaluation highlighting opportunities and challenges

【字体：大中小】 时间：2026年04月23日 来源：npj Computational Materials 11.9

编辑推荐：

　　摘要视觉语言模型（VLMs）的最新进展为分析复杂的视觉数据开辟了新的途径。像ChatGPT、Gemini、Llama和LLaVA这样的模型因能够处理视觉和文本数据而备受关注，在自然图像标题生成、视觉问答（VQA）和推理等任务中表现出色。同样，Meta开发的Segment Anyt

摘要

视觉语言模型（VLMs）的最新进展为分析复杂的视觉数据开辟了新的途径。像ChatGPT、Gemini、Llama和LLaVA这样的模型因能够处理视觉和文本数据而备受关注，在自然图像标题生成、视觉问答（VQA）和推理等任务中表现出色。同样，Meta开发的Segment Anything Model（SAM）也展示了出色的分割能力。鉴于显微镜图像在生物学、医学和材料科学等领域的重要性——在这些领域中，视觉数据通常需要与来自标题、报告或文献的文本信息一起进行分析——因此评估这些模型在这些数据上的有效性至关重要。本研究使用显微镜图像，评估了ChatGPT-5、Gemini-2.5Pro、Llama-3.2V、LLaVA-1.5和SAM-2在分类、分割、计数和视觉问答任务上的表现。ChatGPT和Gemini在理解显微镜图像方面表现优异，而SAM在物体分离任务中表现良好。尽管它们的性能尚未达到领域专家的水平，尤其是在面对杂质、重叠和不相关伪影等复杂情况时，但这些模型相比早期版本有了明显的进步。这些发现凸显了VLMs在科学图像分析中的潜力，并表明需要进一步的发展以满足专家级任务的需求。

联系信箱：

粤ICP备09063491号

摘要

热点排行