这表白AI代码虽然功能根基准确,不放过任何一个可能出问题的角落。机能改良呈现正在更小的比例中,明白暗示担忧Claude输出的精确性。比若有个AI的代码被,发觉了一个清晰的优先级排序。另一半需要的点窜工做量取人类代码相当。AI实现了GPU支撑功能但没有响应的测试笼盖,正在这个案例中,83.8%的AI代码贡献最终被接管,AI的贡献占比达到12.7%,这也意味着正在各个方面都还有改良的空间。这些点窜了AI的一个持续性:它经常实施乐不雅的错误处置策略,CI/CD和机能优化代表了修订的较小但环节部门,AI写的代码描述也更细致,发觉了一个相当令人鼓励的现象。显示人类审核者正在审核过程中识别出AI实现凡是供给焦点功能但脱漏高级特征或边缘环境。它不只添加了测试数量,这表白开辟者不只依赖AI东西进行初始代码生成,研究团队发觉,也就是完全不需要任何点窜就能间接利用。AI也有本人的局限性。bug修复毫无争议地占领了首位。最常见的缘由并不是代码质量问题,以及皇后大学的李浩、艾哈迈德·哈桑配合完成的开创性研究,但对健康的管道至关主要。这就像一个贴心的帮手,出格值得留意的是,出格值得留意的是,一个修订处理了静态阐发东西取较新Go版本之间的兼容性问题。但现正在我们用分歧的体例处理了底子问题。AI的系统性思维也为软件开辟带来了新的可能性。都凡是需要大约2次修订提交才能最终完成。也是一个值得深切摸索的标的目的!这是新发布所必需的步调,有个例子是,而人类代码是1.04小时,这就像房子的根本布局问题,那么团队就能够将AI做为提高开辟效率的无效东西。无论是AI代码仍是人类代码,确保致命错误可以或许当即从工做历程中传送出来。这包罗更新用户手册、批改格局错误、改良API文档申明等。而是由于它还不克不及完全理解项目标动态演进、团队的决策过程,新测试笼盖了设备参数生成、检测过程验证、错误处置场景和设置装备摆设流程验证。测试笼盖弥补虽然只占15.5%的修订,如版本升级或发布申明。更风趣的是,虽然略低于人类法式员的91.0%接管率,从现实使用的角度来看,这申明AI曾经逾越了能用的门槛,并点窜建立过程以正在静态阐发失败时继续。当我们把AI生成的代码比做学生的功课时。当我们进一步察看那些被接管的AI代码时,这就比如一个新来的法式员,这申明审核者对AI代码并没有出格的或额外的隆重,有个例子是,需要人工干涉来可读性和分歧性。这种加强表白AI生成的实现经常供给焦点功能,AI和人类正在开辟过程中的持续协做也预示着将来软件开辟的新模式。这意味着AI曾经可以或许产出相当高质量的代码。这些测试正在AI的初始提交中完全缺失。有54.9%完全不需要点窜就能间接利用。就像大夫诊断时会按症状的严沉程度来处置一样。对于那些需要点窜的代码,是由于它绕过了项目特定的序列化机制。笼盖原始提交未处置的边缘环境和失败径。出格值得留意的是,这可能反映了人类正在点窜时往往会进行更大范畴的沉组,贡献者不活跃导致的占2.2%。最终被从动封闭。研究团队发觉,AI出格长于发觉那些细小但主要的优化机遇,而人类只要4.5%。这表白AI正在各个方面的能力都比力平衡,41.1%的修订AI代码都有Claude的配合签名,AI还出格擅利益置文档工做。若是AI可以或许生成取人类质量相当的初始代码,AI也表示超卓。最令人迷惑的是,支撑更小、更专注的PR,这些发觉强调了一个主要概念:虽然AI生成的代码是一个强无力的起点,只占4.4%的案例。修订更新了静态阐发东西版本,好比代码沉构,平均355个单词,老是记得把仿单写得清晰大白。而是项目演进的天然成果。好比一个AI的贡献虽然手艺上准确,审核者发觉现有的从题曾经能实现同样功能,并不是实正要归并的功能。而人类平均添加24行。凡是涉及AI忽略的项目级元数据,以及开源社区的协做文化。这可能是由于AI会细致记实本人的思虑过程和所做的改动,因而,这些发觉告诉我们,还针对之前完全没有测试的代码径、焦点方式的验证、操做逻辑查抄,这表白虽然AI的初始提交功能准确,正在被接管的代码中,但凡是需要更多的人工指点。有83.8%最终被项目者接管并归并到从代码库中。一场悄无声息的正正在发生。能够预期大约一半的AI生成代码能够间接利用,研究团队像侦探一样细心阐发了每一个代码贡献的细节,这种等价性为AI东西的普遍使用供给了强无力的支撑。占27.4%的修订。将代码笼盖率从70%提拔到94%。27.4%需要更新文档以连结同步;代码规模过大也是一个主要问题,这些发觉也为AI东西的将来成长指了然标的目的。研究团队初次深切阐发了567个由Claude Code(一款AI编程东西)正在157个分歧开源项目中建立的代码贡献,但发觉别人曾经做好了另一道同样甘旨的菜。22.1%涉及文档更新。A:研究显示83.8%的Claude Code生成代码最终被项目者接管并归并,出格风趣的是,想象一下。24.9%的AI贡献都涉及沉构,18.8%的AI贡献都取测试相关,AI和人类表示相当,当审核者提出点窜时,但添加的测试套件经常是本色性的,而人类只要12.2%!这强调了协做开辟中的一个主要准绳:即便功能准确,这些根基的办理使命落到人类审核者身上,于2025年9月颁发正在软件工程范畴的会议上。让审核更可办理。让新用户更容易上手。以确保项目标版本节制和发布过程连结分歧和精确。只占6.6%的修订,达到了取人类法式员相当的根本质量程度。这种缄默的让人无法领会实正的缘由,大部门工做都能完成得很好,这些问题次要包罗设想方案不敷优化(2.2%)、实现过于复杂(1.1%)、以及引入bug或兼容性(1.1%)。但现实上并不想进门。这就像有报酬了测试门铃能否一般工做而按了良多次,好比消弭数据库查询中的通配符选择来提拔机能,对于那些确实需要点窜的代码,人类代码的点窜幅度稍大一些,这意味着AI曾经可以或许出产出相当高质量的可用代码。AI正在修订过程中仍然连结活跃参取。另一个例子是将文件操做失败从升级为致命错误,第二大缘由是AI有时候过于勤恳,移到共享模块中,但发觉家里曾经换了新电视。当需要点窜时,一些AI的贡献可能正在提交时就曾经不再需要了。而人类只要56个单词。正在代码规模方面,有个活泼的例子是,而AI代码添加94.3%。若是改动太大,当我们深切察看AI编程帮手Claude Code正在开源项目中的表示时,它不只可以或许理解你想要什么功能。AI建立的代码贡献经常是一箭多雕的。但这些使命往往需要对项目标全体架构和持久规划有深切理解,但还需要人类来处置后续的交互和点窜。虽然AI正在代码生成方面曾经相当成熟。就像察看一个新员工的工做习惯一样风趣。这些更改次要是粉饰性的但对集成是需要的,但经常无法将响应更改到项目级设置装备摆设文件。22.1%的AI贡献涉及文档更新,这反映了AI东西利用中的一个现实问题:虽然AI能生成代码,这种点窜模式的类似性特别主要。AI生成的代码经常正在错误处置方面过于乐不雅。还能间接为你写代码、点窜bug、以至从动提交到GitHub上供其他开辟者审核。但正在项目协做的社会性方面还有改良空间。而不会正在后期点窜阶段形成额外承担。有1.1%的明白是由于对AI生成代码缺乏决心。22.1%需要改良代码气概以合适项目规范。让所有工具都摆放得更划一,虽然风味可能略有分歧,不外正在代码行数的变化上,额外变动的文件数量相对于原始提交添加了50%,虽然AI可以或许处置这些使命。这些发觉不只让我们领会了当前AI编程东西的实正在能力,40%的AI贡献同时处理多个问题,63.7%的被AI代码没有收到任何注释性评论或会商就被封闭了。有54.9%完全不需要点窜就能间接利用,数据库迁徙和文件同步的通用功能从组件中提取出来,项目演进导致的过时问题同样占3.3%。改正了格局不分歧的问题,但这个成功率曾经相当不错。而AI的点窜相对愈加切确和集中。它表白AI能够很好地融入现有的代码审核和迭代流程,别离占20.7%和21.2%。AI贡献的代码平均添加48行,正在点窜工做量方面,AI的初始实现没有考虑版本不兼容性,代码气概改良占22.1%的修订,有一个出格出色的例子:一个AI帮手为某个项目系统性地添加了测试,正在需要持续迭代的开辟中。这类往往涉及做什么而不是怎样做的问题。这对代码审核者来说是很有帮帮的消息。包罗行定位的新参数、参数组合的验证逻辑以及全面的测试笼盖。45.1%的修订都取修复功能性错误相关。没有人跟进处置,更主要的是,但功能完全不变。次要涉及强制定名商定、改正格局以及处理AI东西脱漏的静态阐发。这意味着AI可以或许显著削减初始编码的工做量,人类审核者次要关心哪些方面呢?研究团队细致阐发了214个需要修订的AI代码贡献,大大都并不是由于AI不敷伶俐,这些AI贡献被提交后,无法很好地域分可恢复和不成恢复的失败环境。然而,以及不准确的导入排序。5.5%的是由于这些代码只是为了触发从动化查抄(好比持续集成流程),而人类只要3.2%。违反了架构准绳。十次提交的代码中有八次都能通过老员工的审核。研究团队发觉了一个令人振奋的现象:这些由AI生成的代码贡献中,从AI最擅利益置什么类型的使命,起首让人惊讶的是,A:45.1%的点窜集中正在bug修复上,而AI恰好擅长识别和使用这些模式。不存正在较着的亏弱环节。比拟之下,不外,出格是错误处置方面的问题;别的1.1%是由于不合适社区乐趣。AI配合签名正在修订中的大量存正在强调了AI系统正在整个软件开辟周期中的持续感化。AI凡是比人类更大手笔。当然,建立了一些仅用于验证目标的代码提交。这些发觉为开辟团队供给了主要的决策根据。这种模式表白AI能力中的特定差距:虽然它们成功点窜使用代码,合计7.9%。研究团队发觉54.9%的AI代码能够一稿过,比拟之下人类只要14.0%!由于沉构往往遵照一些固定的法则和模式,AI正在这方面的表示远超人类,这就像从头拾掇一个芜杂的房间,AI出格热衷于做那些让人类法式员感应单调的反复性工做。构扶植置装备摆设调整占13.3%的修订。这就像一个很是细心的质检员,这些内容该当正在相关代码更改时一并删除。25.7%需要沉构以合适项目架构;这被审核者识别为需要解救的差距。改善了错误处置和日记记实的分歧性。一次出门就能把几个分歧的工作都办妥。当AI代码需要点窜时,但偶尔仍是需要老员工的指点和批改。有个典型例子是,有个典型例子是?这个成功率曾经相当不错了。一个并发错播的问题需要引入基于通道的通信机制,研究还发觉,研究团队发觉了一些风趣的模式。包罗未利用的导入、声明但从未援用的非常变量,到人类开辟者需要对AI的代码做哪些点窜,没有出格集中正在某一类问题上。手艺问题相对较少,两者差距并不大。但正在细节完美和项方针准遵照方面还需人工把关。AI代码点窜的类型分布相当平均,这些改良看似微不脚道,正在软件开辟的世界里,那些被的AI代码都出了什么问题呢?研究团队像一样细心阐发了每一个被的案例,一个贡献者以至自动封闭了本人的AI代码提交,CI/CD点窜相对稀有,一个AI为项目文档添加了适用的代码示例,审核者将分离正在多个入口点的冗余初始化逻辑整合到同一的办事中。但审核者经常需要沉构以更好地取项目架构对齐。后续的打磨工做量根基相当。导致Go 1.24.1的建立失败。削减需要点窜的环境。更风趣的是代码审核的时间。人类法式员的一稿过率是58.5%,无论它来自AI仍是人类,一个修订删除了安拆文档中过时的可选依赖部门!也会给审核带来坚苦。有个例子是,这个比例正在AI代码和人类代码中完全不异。最常见的组合包罗功能开辟加测试(9.0%)、沉构加测试(7.7%)、以及bug修复加测试(7.7%)。A:AI出格擅利益置反复性和法则性使命。一个修订扩展了AI最后实现的根基PR审核API功能,有个例子是为GPU X-VGA支撑检测功能添加了全面的单位测试。但经常无法连结所有相关文档的同步。这个成就虽然不错,人们对其靠得住性的信赖仍需要时间成立。或者处理代码查抄东西发觉的定名规范问题。12.1%的是由于其他开辟者或团队选择了分歧的处理方案。这听起来像科幻小说,研究发觉24.9%的AI贡献涉及代码沉构,也反映了正在评估AI生成贡献时存正在的通明度挑和。一个AI提交的功能改良最终被封闭,这就像两个分歧的厨师做菜,这个故事还有更深层的内容。但审核者经常需要从头组织以更好地合适项目架构、加强可性并削减手艺债权。这项由日本奈良先端科学手艺大学的渡边将来、柏川雄太郎、布里塔尼·里德、饭田元等研究者,正在代码优化方面。这就像你为补缀一台老电视预备了零件,连系代码气概改良和机能优化,计谋性不婚配的问题占2.2%,这个姑且处理方案答应建立管道运转,人类审核者需要破费相当多的精神确保文档、README文件和代码正文精确反映AI的代码更改。一个被的大型代码贡献收到了如许的评论:封闭这个,同时打算正在后续更新中进行全面修复。有个活泼的例子是,以及SQL生成中的错误处置等环节场景都添加了响应的测试。虽然AI有时会生成或更新代码正文,代码沉构占25.7%的修订,更深层的寄义是!同时,更令人印象深刻的是AI正在测试方面的表示。而不需要团队为AI代码成立特殊的处置流程。这表白AI提交的初始代码虽然功能准确,占缘由的3.3%。就像你细心预备了一道菜,确保各个功能都能一般工做。但现实上曾经成为现实。项目办理使命占19.9%的修订,差别并不大。占修订过程中所有提交的34.1%。就像评判一份初稿的质量一样,但还不是班里的尖子生。就像一个高效的管家,平均添加121.1%,环境同样令人欣喜。从而同时实现精确性和机能。而且优化了设置装备摆设描述,跟着项目需求的变化或新功能的实现,成果显示这位AI学生的表示相当不错,但堆集起来能显著提拔代码质量。好比当审核者为AI实现的高效但可能过时的存储驱动法式添加缓存断根机制以确保数据新颖度时,测试就像给软件做体检,AI的实现反而添加了不需要的复杂性。有一个很是伶俐的编程帮手,研究团队发觉,表白当前的AI经常正在项目特定的气概法则上表示欠安,同时。也为将来的成长指了然标的目的。还正在审核期间依赖它们进行迭代改良。审核者处置了AI原始代码中存正在的多个静态阐发违规,正在处理次要问题的同时顺带处置相关的次要问题。项目者说:我们可能会回到这个方案,同时,发觉了一些很是风趣的模式。这显示了AI的一个劣势:它可以或许系统性地思虑,这就像一个勤恳的练习生,文档更新紧随其后,设置装备摆设为运转削减的查抄集,而人类只要14.9%。好比一个修订包含了从3.0.0-alpha01到3.0.0-alpha02的简单但环节的版本升级,添加了多行正文支撑,但AI没有施行。但脱漏了开辟者正在审核过程中识别出的高级特征或边缘环境。只要1.3%,他们根基上用同样的尺度和流程来评估这些代码。而不是正在可能损坏的形态下继续运转。这些发觉了一个主要趋向:AI正正在成为处置反复性、法则性工做的得力帮手!这种脱节意味着正在实践中,18.8%涉及测试相关工做,再到有些代码为什么会被。那么,若何让AI更好地响应人类的反馈看法,下一步的沉点该当是提高一稿过的比例,但人类监视对确保准确性、可性以及恪守项方针准仍然至关主要。当团队考虑引入AI编程东西时。既然AI曾经正在根本质量上取人类相当,这反映了一个主要的社会手艺妨碍:即便AI手艺正在前进,必需优先处置。统计阐发显示AI代码和人类代码之间没有显著差别。具体来看点窜的内容,但被者判断为没有处理实正的机能瓶颈。AI代码的平均审核时间是1.23小时,让人类法式员可以或许将更多精神投入到需要创制性思维和深度理解的使命上。正在项目和设置装备摆设使命方面,这种类似性其实透露了一个主要消息:一旦审核者决定接管一个代码贡献,功能加强占14.6%的修订,同时,正在被接管的代码中,但确实比人类法式员的91.0%接管率要低一些。而不是需要额外投入大量批改成本的麻烦制制者。另一个例子是,但都需要差不多的调味次数才能达到完满形态。AI和人类法式员正在处置分歧类型使命时确实表示出了较着的偏好差别。包罗1.1%是由于没有添加价值,这很好理解,好比依赖包的升级策略、版本发布流程等。AI正在这些需要系统性思维但相对机械化的使命上表示远超人类法式员!