唐嫣 白虎
- 俺去也影院 俄叮嘱部:瑞士的短视政府让俄瑞相干平方化的远景越来越苍茫
- hongkongdoll video 把这2000个固定搭配背完你的英语就牛了
- hongkongdoll porn 你玩过的游乐步调齐叫的上来名字吗
- qvod一本道 2024年12月23日世界主要批发市集食用盐价钱行情
- 校园春色 亚洲色图 最低廉才6元一条! 起底短视频举牌乱象
- qvod一本道 2024年12月17日世界主要批发阛阓枣价钱行情
- qvod一本道 大学生在好意思团订旅馆有哪些优惠?
- 自慰 英文 2025 Cannes Lions和Spikes Asia中国区评委同步搜集启动
- qvod一本道 中国白酒之巅, 不是茅台, 也并非五粮液, 而是贵州这款名酒
- qvod一本道 以色列北部遭120余枚火箭弹紧迫 1东谈主示寂
- 发布日期:2024-12-05 20:21 点击次数:107
代码大模子越来越卷,评估AI编程水平的“考卷”也被动升级。12月5日,字节豆包大模子团队开源最新代码大模子评估基准FullStack Bench,在业界初度囊括编程全栈技艺中超11类确实场景,隐敝16种编程话语,包含3374个问题制服丝袜 在线,比较此前基准,不错更灵验地评估大模子在执行寰宇中的代码修复能力。
代码评估基准是推断大模子编程能力的门径用具,亦然鞭策模子优化的关节驱能源。不外,现时的代码评估基准隐敝的利用类型和编程话语较为有限,难以反应确实寰宇中代码修复场景的万般性和复杂性。
比如,主流代码评测集HumanEval和MBPP中近80%数据只聚焦基础编程和高档编程问题;DS-1000中95%数据齐蚁集于数据分析和机器学习任务,且仅对Python话语进行评测;xCodeEval虽隐敝多项任务,但基本局限于高档编程和数学领域。
因此,字节豆包大模子团队与M-A-P开源社区集中提倡FullStack Bench,一个专注于全栈编程和多话语编程的代码评估数据集。为囊括在确实全栈修复中触及的万般利用场景制服丝袜 在线,究诘团队从公共最大的法子员技艺问答社区Stack Overflow中随即抽取了50万个问题进行分析,筛选出占总问题数前88.1%的利用领域,并对其散播作念了稳当相通来保证每个领域的鲁棒性,最终造成了FullStack Bench关心的升迁11种利用场景及散播比例。
FullStack Bench包含3374个问题,每个问题均包括题目描写、参考束缚有打算及单位测试用例,共计15168个单位测试。为保证评估准确性,问题实质均由相关领域的编程大师想象,并经AI和东说念主工考证进行质地复核。在动身点数据集构建后,团队凭据主流代码大模子测试效果,按问题难度、疲塌性和可解性对数据质地进行了交叉评估和进一步完善。
色吧电影FullStack Bench数据集组成情况
为便捷修复者对大模子代码能力进行系统性测试,豆包大模子团队还开源了一款高效的代码沙盒实践用具——SandboxFusion,用于评估来自不同话语的不同编程任务。除了FullStack Bench,SandboxFusion还兼容升迁10种平凡使用的代码评估数据集,支抓23种编程话语。修复者在单做事器上即可裂缝部署SandboxFusion,也可平直在GitHub上进行体验。
发布评测基准及沙盒的同期,字节代码大模子也初度曝光。究诘中,豆包大模子团队对公共20余款代码大模子及话语大模子的编程领略进行了评测(详见论文),其中包括未线路过的豆包代码大模子Doubao-Coder。
近半年,字节在代码大模子领域进展赶快,本年6月字节发布了由自研代码基座模子撑抓的AI编程助手豆包MarsCode制服丝袜 在线,当今每月为用户孝敬百万量级代码。