大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能
来源:IT168数据中心频道 发布日期:2024-12-20
上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena(大模型竞技场)近日迎来了新升级,旨在为用户提供更科学、全面的模型评估体验。自上线以来,该平台吸引了大量社区用户参与并贡献数据,基于这些数据,CompassArena不断优化,此次升级包括全新Judge Copilot功能和榜单算法的改进,以及新增20多个全新模型。Judge Copilot功能利用强大的评价模型Compass-Judger-1-32B-Instruct,为用户提供全方位对比分析对话模型表现的能力,从多维度评价、实时对比到智能决策辅助,使主观评测更精准、高效。此外,榜单算法进行了全新升级,对原始的Bradley-Terry统计算法进行改进,引入控制变量降低混淆因素的影响,使模型排名更科学、精准。新增的模型涵盖国内外商业模型及开源模型,丰富了对战体验。CompassArena高度重视Judge模型在实际应用中的表现,并积极收集用户反馈以进一步提升Judge模型的综合能力和对齐效果。用户可以通过点击“赞”和“踩”按钮来表达他们对Judge模型的评价。通过拟合包含控制变量的Bradley-Terry统计模型,CompassArena能够估计众多外在因素的影响程度,具体影响程度可以通过几率比的形式表达。此次升级,CompassArena迎来了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等国内商业模型,以及claude-3.5-sonnet-20241022、gemini-exp-1121等国外商业模型和一系列开源模型的加入。新增模型所属机构包括360、DeepSeek、豆包等,为用户提供更丰富的对战选择。体验地址:https://www.modelscope.cn/studios/opencompass/CompassArena
Google Chat 推出全新即时语音会议功能Huddles
GoogleChat正在推出一项全新的即时语音会议功能,类似于Slack的Huddles。这一功能使得用户能够在聊天过程中快速切换到语音或视频通话,提升了团队沟通的效率。该功能最初在去年作为GoogleChat更新的一部分宣布,今天起开始陆续推出,并将在未来几周内面向所有Workspace用户开放。
荐谷歌“狙击”OpenAI,发布新一代大模型,主打Agent+多模态
继量子芯片之后,谷歌又来抢“OpenAI双12直播”的流量了!就在刚刚,谷歌新一代大模型Gemini2.0突然登场,再次由谷歌CEO皮猜亲自官宣。新一代模型专为AIAgent打造,谷歌表示目前已经将2.0版本提供给了一些开发者内测,正在迅速将其集成在Gemini和搜索等产品线中。从OpenAI跳槽到谷歌的LoganKilpatrick表示,他们在GoogleAIStudio中创建了一个全新体验,展示了Gemini2.0视频理解、原生工具
PICO OS 升级,一大波新功能来了
当你正沉浸在MR世界中享受一场视觉盛宴,微信却不合时宜地跳出一条工作消息,迫使你中断观影,摘下头显设备去回复。这样的场景是否让你感到既无奈又沮丧?12月23日起,将会展映相关产品,有兴趣的朋友届时可一睹新生创作者的风采。
荐AI日报:OpenAI推出每月200美元ChatGPT Pro;京东发布10大AI营销工具;ComfyUI插件被植入挖矿病毒
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、谷歌发布PaliGemma2:AI能读懂情绪?专家质疑其科学性和伦理风险谷歌推出的PaliGemma2AI模型声称能通过图像分析识别人类情绪,引发了学术界和技术伦理专家的广泛讨论。虽然目前部
荐AI日报:OpenAI全量上线视频聊天功能;Anthropic最快模型Claude 3.5 Haiku全面开放;巨人网络推游戏大模型千影 QianYing
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI推出屏幕共享与视频聊天功能,ChatGPT整了个“圣诞老人模式”OpenAI最近在其高级语音模式中新增了视频聊天和屏幕共享功能,允许用户在移动应用中与ChatGPT进行实时互动。该模型仍在技术打磨中,同时启动了“千影共创计划”,旨在促进“游戏AI”领域的发展。
OpenAI世界最贵大模型上热搜:每月200美元 ChatGPT Pro拥有无限使用权
OpenAI公司在“12天12场直播”活动的首秀中宣布了推理大模型o1的完整版本和进阶模式,同时推出了每月200美元的ChatGPTPro订阅服务。ChatGPTPlus用户将逐步获得完整版o1模型的使用权限,该模型以o1预览版形式于9月上线,其特点在于回答用户问题时会形成类似人类思维方式的内部思维链条,提高回答专业问题时的准确性。OpenAI计划未来为这一订阅服务添加更多强大、计算密集型的功能。
荐OpenAI发布强化微调API,能深度定制超复杂大模型了
今天凌晨两点,OpenAI开启了12天技术分享直播,发布了最新“强化微调”计划。与传统的微调相比,强化微调可以让开发者使用经过微调的更强专家大模型,来开发适用于金融、法律、医疗、科研等不同领域的AI助手。通过这些反馈训练一个奖励模型,该模型能够对语言模型的输出进行打分,以反映其质量或符合人类期望。
荐突发!OpenAI发布Canvas,ChatGPT新增史诗级功能
今天凌晨2点,OpenAI开启了第四天技术直播,发布了最新功能Canvas。Canvas直接内置在ChatGPT中,提供了一个单独的窗口,主要用于编程、写作任务,会提供意见、审核和执行具体的功能,可以提供更细致的服务。倘若用户需要将代码转换至不同的编程语言,Canvas同样提供了一键移植的实用功能。
目标超越ChatGPT!苹果计划2026年发布全新Siri:集成先进大模型 更像真人
苹果正在研发更智能、对话能力更强的Siri,旨在赶超OpenAI的ChatGPT及其他语音服务。新版Siri采用更先进的大型语言模型,苹果希望新Siri能进行持续对话,更像人类一样回应问题,更迅速处理更复杂的请求。苹果用户不用创建账户就可以免费使用ChatGPT,Siri将利用ChatGPT的专业知识回答用户问题。
荐OpenAI整大活!ChatGPT新增电话功能,全民AGI要来了
今天凌晨2点,OpenAI开启了第10天的直播技术分享,ChatGPT新增电话功能,并有了专属电话号码——1-800。目前这个号码仅美国地区,无论你是旧款智能手机还是老掉牙的座机都能打通,极大降低了ChatGPT的使用门槛和应用范围,尤其是对于不懂互联网的老年人来说非常有帮助。如果用户在试用后希望进行更长时间的对话,可以直接去源应用体验。