当地时间4月10日,美国开放人工智能研究中心(OpenAI)宣布开源包含1266个挑战性问题的基准测试BrowseComp。OpenAI表示,一个高性能的浏览智能体应该能够定位那些难以查找、可能需要在浏览数十甚至数百个网站的过程中才能获取的信息。现有基准测试(如SimpleQA)主要衡量模型检索基本孤立事实的能力,这类测试已被具备快速浏览工具(如支持浏览功能的GPT-4o)的模型所饱和。为了衡量AI智能体在互联网上定位难以查找、相互关联信息的能力,现开源基准测试BrowseComp。
相关文章
-
推动企业数字化网络化智能化转型 河北省开展智能工厂梯度培育行动
河北日报讯(米彦泽、林靖晗)近日,河北省工业和信息化厅、省发展改革委、省国资委、省市场监管局、省数据和政务服务局联合印发《河北省智能工厂梯度培育行动工作方案(2025—2027年)》提出,加快建成覆盖全省的智能工厂梯度培育体系,通过基础级、先进级、卓越级、领航级4个层级开展培育,推动企业数字化、网络
2025-04-13 07:19:00
-
助力川渝教育赋能协同共建 这场活动在渝举行
活动现场。受访者供图第1眼TV-华龙网讯(首席记者 董进)日前,“成渝地区双城经济圈职业院校计算机类专业教研活动”在渝举行。活动以“标准领航·数智赋能:新时代职业院校专业教学改革研讨”为主题,吸引了200余名成渝两地职业院校计算机类专业负责人、教研专家及行业代表参加。开幕式上,重庆工信职业学院党委副
2025-04-12 16:57:00
-
OpenAI开源浏览智能体评测基准BrowseComp
当地时间4月10日,美国开放人工智能研究中心(OpenAI)宣布开源包含1266个挑战性问题的基准测试BrowseComp。OpenAI表示,一个高性能的浏览智能体应该能够定位那些难以查找、可能需要在浏览数十甚至数百个网站的过程中才能获取的信息。现有基准测试(如SimpleQA)主要衡量模型检索基本
2025-04-11 08:39:00
-
男子称35万买理想车10天重启15次:冲的是智能,结果变“智障”!工作人员回应
据《小莉帮忙》,4月9日,河南郑州的郭先生反映,他35万左右买了理想L8汽车,3月23日付款26日提车,可开走半小时,就出现了车机重启的情况。据郭先生介绍,“正在驾驶过程中,车机黑屏,一直重启,期间所有交流都没有,提车10天,车机重启达15次以上。我不清楚是车检测问题还是质量问题。”郭先生表示:“我
2025-04-10 16:38:00
-
东阳光去年扭亏、一季度净利大增,液冷叠加具身智能打开成长空间
4月9日晚,东阳光(600673.SH)披露了2024年年报及2025年一季度业绩预告。公告显示,公司2024年年度实现营业收入121.99亿元,归母净利润3.75亿元,同比增长绝对值比例227.41%;实现扣非净利润3.27亿元,同比增长绝对值比例174.35%。值得关注的是,东阳光2025年一季
2025-04-10 13:46:00
-
点赞!17岁少年跳水救下2名女孩
近日,河南新乡,两名小女孩不慎落水。路过的17岁少年闫帅甫和朋友恰好路过,闫帅甫跳入水中,不会游泳的同伴则在岸上接应。闫帅甫先将离河岸较近的小女孩救起。此时,另一名小女孩已被河水冲到十几米远的地方,闫帅甫又快速过去把人抱起。上岸后,他们又将女孩送回家。两名女孩一个10岁、一个8岁,由于救援及时,目前
2025-04-10 11:25:00