AI 模型评测

GPT-5 全面评测:一个提示词生成 Photoshop、3D 游戏与流体模拟

Published on August 11, 2025

#GPT-5#代码生成#AI评测#零样本#Photoshop克隆#光线追踪#流体动力学#SWE-Bench#LM Arena#人工智能

这是一位技术博主对GPT-5进行的全面、无脚本的深度评测。评测的核心集中在GPT-5在STEM领域,尤其是代码生成方面的卓越能力。博主通过一系列复杂的、即时的(Zero-Shot)编程提示,展示了GPT-5相较于其他顶级模型的优势,同时也指出了其局限性。 核心亮点与优势: 超强的零样本代码生成能力: 这是评测中最令人印象深刻的部分。GPT-5仅用一个提示词,就能生成功能完备、高度复杂的独立HTML应用,包括: 物理模拟: 蜂巢建造、流体动力学、实时光线追踪。这些应用不仅视觉效果出色,还包含了互动元素和物理上正确的动态效果。 复杂应用克隆: 成功生成了一个功能齐全的Photoshop克隆版,包含图层、混合模式、多种工具(画笔、选择、裁切等),这是其他模型难以在单次提示中完成的壮举。 实用工具: 创建了美观且功能完整的CRM仪表盘、实时视频特效编辑器和带有分形动画及双耳节拍声音的冥想指南应用。 更低的错误率和自我修正能力: 博主发现GPT-5在生成代码时更不容易出错。在一次光线追踪的演示中,模型自动检测到错误并提供了“修复Bug”的按钮,成功地自主修正了代码,这体现了其强大的智能和鲁棒性。 卓越的地理定位(Vision)能力: 在一个极具挑战性的测试中,GPT-5仅凭一张几乎没有明显线索的音乐会照片,就准确地识别出了活动名称和具体地点(Symphony at Sunset, Sunset Beach Park),展示了其顶尖的多模态理解和推理能力。 行业领先的低幻觉率: 在被问及一个不存在的产品(Stable Diffusion 5)时,GPT-5没有编造信息,而是明确指出该产品不存在。这与基准测试(Confabulations leaderboard)的结果一致,证明其在事实准确性方面有显著提升。 局限性与待改进之处: 图像生成能力未更新: 评测显示,GPT-5的图像生成功能仍在调用旧的GPT-4o图像模型。在生成故事书时,不仅需要切换到“代理模式”(Agent Mode)才能完成多页生成,而且角色的一致性很差。 研究报告风格过于简洁: 在生成商业智能或医疗研究报告时,虽然信息密集且引用准确,但内容比其他模型(如GLM-4.5, Kimmy K2)要简短得多。这对于需要详尽报告的用户来说可能不是最佳选择。 存在轻微的UI/代码瑕疵: 尽管总体表现出色,但在一些生成结果中仍存在小问题,如CRM仪表盘的销售漏斗图显示不完美、物理模拟中的标签重叠等。 性能与市场格局: 基准测试表现: GPT-5在多个独立排行榜(如LM Arena, LiveBench, Artificial Analysis)上均位列第一。特别是在软件工程基准(SWE-Bench)上以微弱优势超越了Claude Opus 4.1,坐实了其在编码领域的王者地位。 AI系统而非单一模型: GPT-5被描述为一个“AI系统”,它是一个智能路由器,能根据用户提示自动选择最合适的内部模型来执行任务。 竞争格局: 评测者总结道,AI领域的进步速度极其惊人,顶级模型(Gemini -> Grok -> GPT-5)的宝座在几周内就会易主,形成一种快速迭代、相互超越的“疯狂”循环。

Source: YouTube Tech Reviewer