澎湃Logo
下载客户端

登录

无障碍
  • +1

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

2023-11-04 16:19
来源:澎湃新闻·澎湃号·湃客
字号

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

一款号称代码能力超越GPT-4的模型,引发了不少网友的关注。

准确率比GPT-4高出超过10%,速度却接近GPT-3.5,而且窗口长度也更长。

据开发者描述,他们的模型取得了74.7%的Pass@1通过率,超过了原始GPT-4的67%,登上了Big Code榜首。

这个模型名叫Phind,和以其为基础的面向开发者的AI搜索工具同名。

它是由开发团队在CodeLlama-34B的基础之上微调得到的。

Phind利用TensorRT-LLM在H100上可以跑出每秒100个token的速度,是GPT-4的5倍。

此外,Phind的上下文长度达到了16k,其中12k可供用户输入,另外4k保留给检索结果中的文本。

针对这个产品,网友们议论纷纷,结果是喜忧参半:

支持的人,如著名创业投资公司YCombinator创始人Paul Graham表示,Phind可以让人们用更少的资源和大厂抗衡。

也有网友具体列出了Phind的优点:

不认可Phind的网友则说,自己之前用GPT-4写的代码,Phind写不出来:

更是有人吐槽说,GPT“每天都在被打败”,但是从来没被超越过。

有意思的是,在Phind应用当中,自研模型又被称作“fast model”,而“best model”仍然是GPT-4。

(虽然没明说,但是GPT-4和best model的剩余可用次数是同步变化的)

所以,这个号称“击败了GPT-4”的模型到底是不是真的那么好用,我们进行了一番实测。

Phind vs GPT-4

正式开始之前,先来说说对Phind的第一印象。

它的界面十分简洁,主要就是一个搜索框,而且不需要登录就能无限量使用。

左下角有一个Pair Programmer的开关,直观上的区别就是开启之后回答界面更侧重对话,不开启的话则更像搜索引擎。

此外,还可以从自研模型和GPT-4中选择,GPT-4则需要登录,而且每天只能用10次。

接下来就是和GPT-4进行的对比测试,GPT-4没有开启代码解释器。

首先还是从LeetCode题目开始测起,Prompt就是是原问题加上下面这段话:

请用Python写一段代码解决这个问题,给出通用的解法,不需要设定参数值,代码需要以如下内容开头:

(LeetCode页面中给出的起始片段)

为了防止Phind通过检索来“作弊”,我们还在Phind的Prompt结尾加入了这句话:

不要检索任何信息,靠你自己的能力创建代码

第一题在LeetCode中被归为组合数学问题,难度为困难,通过率67.1%。

Phind给出了这样的代码和解释,经过测试,20条测试数据中有19项正确。

出错的是这一条,这里的输出结果应该是3,但Phind给出的程序运行结果是4。

我们试着反馈给Phind,看它能不能找出错误的原因,结果分析一番之后给出了新的代码,并通过了测试。

而GPT-4这边,则是一次性通过。

进入下一题,这道题目涉及到了动态规划,通过率为53.9%。

这次Phind和GPT-4都是以一次通过。

第三道题目的通过率只有约30%,但它的难度可能在于用来判题的测试数据太庞大了。

Phind给出的这段代码就在通过前12组测试数据之后出现了运行时间超限的现象。

我们让它试着进行优化,结果这次直接是算不对了。

而GPT-4则轻松解决,不过在解释说明部分有些错误,因为超级回文数的概念中的描述是“回文数的平方”而不是“平方是回文数”。

三道LeetCode题目测试下来,Phind以一平两负的成绩输给了GPT-4。

但需要说明的是,这里我们为了测试模型本身表现,通过提示词关闭了Phind的检索功能,但从实用角度出发,如果保留搜索,Phind还是能很好地解决这些问题的。

接着,我们又测试了一下他们的实际开发能力,这次的题目是扫雷游戏。

Phind会问我们有没有什么特殊要求,这里我们直接点跳过。

然后Phind会对任务进行拆解,对每个子任务又分别进行检索。

这时的代码也是分段给出的,有趣的是,在生成过程中,Phind会使用不同来源中的代码。

然后我们让Phind给出完整代码,并通过链接的第三方平台直接运行。

结果呢,我们一进去就看到程序已经非常“贴心”地把雷的位置清楚地标注好了。

不过这次,GPT-4的代码更加离谱一些,运行出来是这样的:

虽然都没做对,但硬要比较的话,这一轮,Phind略胜一筹。

一路测试下来,很难判断它们孰优孰劣,但考虑到搜索能力,以及免费免登录的特性,Phind还是可圈可点的。

参考链接:

https://www.phind.com/blog/phind-model-beats-gpt4-fast

— 完 —

《2023年度十大前沿科技报告》案例征集

量子位智库《2023年度十大前沿科技报告》,启动案例征集。诚邀顶级研究机构、一流投资大咖、前沿科技创新公司,参与共创,分享案例。

扫描图片二维码参与前沿科技案例征集。了解更多细节可联系报告负责人:郑钰瑶(微信:CarolineZheng_,请备注企业+姓名)。

点这里��关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

原标题:《代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞》

阅读原文

    玻璃钢生产厂家玻璃钢卡通人物雕塑品牌东莞自发光动物玻璃钢雕塑生产商龙雕塑玻璃钢沧州玻璃钢广场雕塑厂家供应德阳玻璃钢广场雕塑价格黑龙江定制玻璃钢雕塑哪家便宜玻璃钢雕塑往哪里好销花朵玻璃钢人物雕塑制作厂家贵州动物玻璃钢雕塑销售厂家苏州小鸡玻璃钢花盆郑州做玻璃钢雕塑电话蚌埠景区玻璃钢雕塑制作海南玻璃钢雕塑图片玻璃钢仿铜雕塑制作价格表主题公园玻璃钢卡通形象雕塑乌鲁木齐气球商场美陈哪家有名福建节庆商场美陈批发玻璃钢雕塑起稿许昌玻璃钢马雕塑玻璃钢雕塑工艺铜陵步行街玻璃钢雕塑定制商场美陈堆头杭州玻璃钢佛像雕塑玻璃钢雕塑订做工厂水晶玻璃钢人物雕塑厂家供应玻璃钢雕塑中心福建学校玻璃钢雕塑厂家鸡西卡通玻璃钢雕塑美陈商场海报制作西藏户外景观玻璃钢雕塑香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

    玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化