文档目标:介绍如何利用大语言模型 (Claude 3.5 Sonnet / GPT-4o) 作为“虚拟测试员”,以极低成本进行数千轮的游戏平衡性测试。
在 Vertical Slice 阶段,真人测试极其昂贵且低效:
AI 方案:让 LLM 扮演特定类型的玩家,阅读战斗日志,给出反馈。
我们需要定义不同的 System Prompt:
不是把画面截图给 AI,而是发送结构化日志 (JSON):
{
"turn": 15,
"player": { "hp": 20, "build": "FireMage", "dps": 450 },
"enemies": [
{ "name": "GoblinElite", "status": "Burning", "hp_percent": 0.1 }
],
"events": [
"Player cast Fireball, dealt 120 dmg",
"GoblinElite hit Player, dealt 5 dmg"
]
}
“你是 Timmy,一个喜欢割草的休闲玩家。阅读上面的战斗日志。
- 给爽快感打分 (1-10)。
- 你觉得现在的难度是‘无聊’、‘适中’还是‘太难’?
- 如果你要退款,会是因为什么?”
import openai
def analyze_combat_log(log_json, persona="Timmy"):
prompts = {
"Timmy": "You are a casual gamer...",
"Spike": "You are a competitive gamer..."
}
response = openai.ChatCompletion.create(
model="gpt-4o",
messages=[
{"role": "system", "content": prompts[persona]},
{"role": "user", "content": f"Analyze this log: {log_json}"}
]
)
return response.choices[0].message.content
# 批量运行
for i in range(10):
log = run_headless_game_simulation() # 运行一局游戏仿真
feedback = analyze_combat_log(log)
print(f"Round {i} Feedback: {feedback}")
结论:此工具用于数值体验的初筛,而非最终验收。