全新基准测试CRAB!智能体可以同时操作手机和电脑?!GPT-4o竟然只拿了35.26分。 Tianqi Xu published on August 10, 2024 19 min, 3675 words Read More Tags: academic agent benchmark llm