OpenAI 发布并开源医疗测试基准 HealthBench,旨在更好地衡量 AI 系统在医疗健康领域能力

2025-05-13 19:01:58 鑫昌软件园

本站 5 月 13 日消息,OpenAI 今日宣布推出了一个专门面向医疗大模型的测试评估集 ——HealthBench 并开源,旨在更好地衡量 AI 系统在医疗健康领域能力。

与以往测试集不同的是,HealthBench的 5000 段核心测试对话,由来自 60 个国家 / 地区的 26 个专业 262 名医生打造,极大增强了该测试集的难度、真实性以及丰富度。

与以前的狭窄基准不同,HealthBench 通过 48562 个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景(例如,紧急情况、全球健康)和行为维度(例如,准确性、遵循指示、沟通)。

此外,HealthBench采用了多轮对话测试,而不是简单的答题或选择题模式。本站注意到,测试数据显示大模型在医疗保健领域的表现有了显著提升。例如,从之前的 GPT-3.5Turbo 的 16% 到 GPT-4o 的 32%,再到 o3 的 60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1nano 不仅在性能上超越了 GPT-4o,而且成本降低了 25 倍。

参考资料:

天空战士空战游戏正版
天空战士空战游戏正版
休闲益智 / 239.09
2025-05-13
详情
小小幻兽录0.1折版
小小幻兽录0.1折版
休闲益智 / 456.02MB
2025-05-13
详情
勇士争霸赤胆联盟最新版
勇士争霸赤胆联盟最新版
休闲益智 / 105MB
2025-05-13
详情
药剂工艺炼金模拟器手机版
药剂工艺炼金模拟器手机版
休闲益智 / 65.25MB
2025-05-13
详情
梦之旅人0.1折手游
梦之旅人0.1折手游
休闲益智 / 12.6MB
2025-05-13
详情
樱桃视频直播官方版下载
樱桃视频直播官方版下载
新闻阅读 / 88.51MB
2025-01-28
详情
爱威奶app下载最新版
爱威奶app下载最新版
新闻阅读 / 44.8MB
2025-02-07
详情
月夜直播免费版下载观看下载官方版
月夜直播免费版下载观看下载官方版
新闻阅读 / 55.74MB
2025-02-09
详情

相关手游下载

樱桃视频直播官方版下载
樱桃视频直播官方版下载
新闻阅读 / 88.51MB
详情
爱威奶app下载最新版
爱威奶app下载最新版
新闻阅读 / 44.8MB
详情

推荐鑫昌秘籍

最新鑫昌秘籍