使用生成式人工智能改进软件测试
来源:生活_浙江热线 发布日期:2024-03-09
生成式人工智能因其创建文本和图像的能力而受到广泛关注。但这些媒体仅代表当今社会激增的数据的一小部分。每当患者使用医疗系统、风暴影响航班或人与软件应用程序交互时,都会生成数据。
使用生成式人工智能围绕这些场景创建真实的合成数据可以帮助组织更有效地治疗患者、重新安排飞机航线或改进软件平台,尤其是在现实世界数据有限或敏感的场景中。
在过去的三年里,麻省理工学院的衍生公司 DataCebo 提供了一个名为 Synthetic Data Vault 的生成软件系统,帮助组织创建合成数据来执行测试软件应用程序和训练机器学习模型等任务。
综合数据库 (SDV) 的下载量已超过 100 万次,超过 10,000 名数据科学家使用该开源库来生成综合表格数据。创始人——首席研究科学家 Kalyan Veeramachaneni 和校友 Neha Patki '15、SM '16——相信公司的成功归功于 SDV 彻底改变软件测试的能力。
SDV 病式传播
2016 年,数据到人工智能实验室的 Veeramachaneni 团队推出了一套开源生成式人工智能工具,帮助组织创建与真实数据的统计属性相匹配的合成数据。
公司可以在程序中使用合成数据而不是敏感信息,同时仍然保留数据点之间的统计关系。公司还可以使用合成数据通过模拟运行新软件,以了解其性能,然后再向公众发布。
Veeramachaneni 的团队遇到了这个问题,因为他们正在与想要共享其研究数据的公司合作。
“麻省理工学院可以帮助您了解所有这些不同的用例,”帕特基解释道。“你与金融公司和医疗保健公司合作,所有这些项目都有助于制定跨行业的解决方案。”
2020 年,研究人员创立了 DataCebo,为大型组织构建更多 SDV 功能。从那时起,用例就变得多种多样,令人印象深刻。
例如,借助 DataCebo 的新型飞行模拟器,航空公司可以以仅使用历史数据无法实现的方式制定罕见天气事件计划。在另一个应用程序中,SDV 用户合成医疗记录来预测囊性纤维化患者的健康结果。来自挪威的一个团队最近使用 SDV 创建综合学生数据,以评估各种招生政策是否精英且没有偏见。
2021 年,数据科学平台 Kaggle 举办了一场数据科学家竞赛,他们使用 SDV 创建合成数据集,以避免使用专有数据。大约 30,000 名数据科学家参与其中,根据公司的实际数据构建解决方案并预测结果。
随着 DataCebo 的发展,它始终忠于麻省理工学院的根源:该公司目前的所有员工都是麻省理工学院的校友。
增压软件测试
尽管他们的开源工具被用于各种用例,但该公司仍致力于提高其在软件测试方面的吸引力。
“你需要数据来测试这些软件应用程序,”Veeramachaneni 说。“传统上,开发人员手动编写脚本来创建合成数据。通过使用 SDV 创建的生成模型,您可以从收集的数据样本中学习,然后对大量合成数据(具有与真实数据相同的属性)进行采样,或者创建特定场景和边缘情况,并使用数据来测试您的应用程序。”
例如,如果银行想要测试一个旨在拒绝无钱账户转账的程序,则必须模拟许多账户同时进行交易。使用手动创建的数据来执行此操作将花费大量时间。借助 DataCebo 的生成模型,客户可以创建他们想要测试的任何边缘案例。
“对于行业来说,拥有某些方面敏感的数据是很常见的,”帕特基说。“通常,当您处于包含敏感数据的域时,您会遇到法规问题,即使没有法律法规,认真考虑谁在何时可以访问什么内容也符合公司的最佳利益。因此,从隐私角度来看,合成数据总是更好。”
扩展合成数据
Veeramachaneni 相信 DataCebo 正在推进所谓的合成企业数据领域,即根据大公司软件应用程序上的用户行为生成的数据。
“这类企业数据很复杂,而且与语言数据不同,它不具有普遍可用性,”Veeramachaneni 说。“当人们使用我们公开提供的软件并报告是否适用于某种模式时,我们学到了很多这些独特的模式,这使我们能够改进我们的算法。从一个角度来看,我们正在构建这些复杂模式的语料库,对于语言和图像来说,这是很容易获得的。”
DataCebo 最近还发布了提高 SDV 实用性的功能,包括评估生成数据“真实性”的工具(称为 SDMetrics库)以及比较模型性能的方法(称为SDGym)。
“这是为了确保组织信任这些新数据,”维拉马查内尼说。“[我们的工具提供]可编程合成数据,这意味着我们允许企业插入他们的特定洞察力和直觉来构建更透明的模型。”
随着各行业的公司纷纷采用人工智能和其他数据科学工具,DataCebo 最终将帮助他们以更加透明和负责任的方式实现这一目标。
“未来几年,生成模型的合成数据将改变所有数据工作,”Veeramachaneni 说。“我们相信 90% 的企业运营可以通过合成数据来完成。”
TecnoCamon20充满艺术气息鳄梨艺术版现已上市
OppoFindN3Flip推出32MP长焦传感器和更多升级
苹果发出Wonderlust活动邀请iPhone15预计将发布
谷歌Pixel8系列可能获得5年操作系统更新比三星还要长
Pixel8Pro在GooglePixel8于10月4日发布之前意外曝光
SoundFun推出价格较低的Mirai迷你扬声器帮助电视
配备杜比音频和DTSVirtual:X的三星HW-B5502.1声道
Apple推出适用于AppleWatch的全新爱马仕表带和全
台电T65Max多功能Android14平板电脑配备大显示屏
微软将于本月晚些时候推出SurfacePro10和SurfaceLaptop6
谷歌开始在搜索结果中消除更多垃圾邮件和人工智能
Netflix在3月份继续推出Hades的优秀独立游戏
Facebook Instagram和Threads均已瘫痪
微软将于2025年停止在Windows11子系统上运行Android应用
iOS17.4现已推出为全新欧洲做好准备
GEProfile和Caf 智能烤箱将获得新的食物识别功能
Max正在参与大规模的流媒体密码打击行动
第3版可能带来了迄今为止最好的博德之门3补丁说明
索龙的真名非常狂野而且阿纳金也发音不出来
在编剧承诺更新后星际迷航4可能越来越接近曲速跳跃
最后生还者开发者不会在10周年纪念直播期间透露任
-
使用生成式人工智能改进软件测试
-
IEEE管理科学与人工智能国际会议(征文通知)
-
CES 2024诞生黑马!一款掌上AI设备走红:24小时狂销1万台
-
联合国报告:生成式人工智能加剧性别偏见
-
工信部:将适度超前建设5G、算力等信息设施,开展人工智能+行动金壮龙在回答记者提问时表示,信息化与工业化深度融合,是新型工业化的鲜明特征。我们将巩固提升信息通讯业的竞争优势和领先地位。适度超前建设5G、算力等信息设施,继...2024-03-08 14:41:53
-
郝明金率队就“推进人工智能与经济社会融合发展”在京调研
-
科大讯飞AI学习机T20 Pro (8+512GB) 星火认知大模型 学生平板小学到高中 全龄段智能护眼家教机
-
戴尔全新XPS 14系列震撼发布!强大配置,释放AI潜能!
-
全国人大代表、天津港第一港埠有限公司拖头队副队长成卫东:希望 机器人徒弟 超越我
-
携手360 首款搭载NETA GPT 车型哪吒 L 4月将上市
-
阿里云大模型“通义千问”开始邀请用户测试体验
-
百度文心大模型获广泛关注,多家企业已加入生态圈