人工智能现状的报告:通过超过100万亿个令牌的真实LLM交互数据,分析AI模型的使用模式

全球一半算力用在写代码。。。

 

原文

https://openrouter.ai/state-of-ai

 

AI总结和画画

 

 

文章基于OpenRouter平台过去一年(截至2025年11月)超过100万亿个令牌的真实LLM交互数据,分析AI模型的使用模式。重点讨论OpenAI o1模型的发布(2024年12月5日),标志着LLM从单步推理向多步审议和内部计算的转变,提升了数学推理、逻辑一致性和决策能力。研究覆盖开源 vs. 闭源模型、代理推理、任务类别、地理分布、成本动态和用户留存。

主要部分要点

数据与方法论

  • 数据来源于OpenRouter的匿名元数据(包括令牌计数、时间和工具调用),不涉及提示/完成文本。

  • 任务分类使用GoogleTagClassifier,对0.25%样本进行桶分类(如编程、角色扮演、翻译、一般问答、生产力/写作、教育、文学/创意写作、成人内容等)。

  • 模型分类:开源(OSS)若权重公开;按来源分中国 vs. 世界其他地区(RoW)。

  • 地理基于计费位置;时间跨度为滚动13个月(截至2025年11月)。

开源 vs. 闭源模型

  • OSS使用份额至2025年底达~30%,受DeepSeek V3、Qwen 3 Coder等发布推动。

  • 中国OSS平均13%周令牌份额,峰值30%;RoW OSS平均13.7%;专有RoW主导70%。

  • 顶级OSS模型令牌量:DeepSeek(14.37T)、Qwen(5.59T)、Meta LLaMA(3.96T)等。

  • OSS生态多元化,无单一模型超25%份额。中型模型(15-70B参数)兴起,抢占小型和大型模型份额。

开源模型的使用场景

  • OSS主导角色扮演(~52%)和编程,因灵活性和低成本,适合创意对话(如故事、游戏)和编码辅助。

  • 中国OSS偏向编程和技术(39%结合);RoW OSS在编码中领先。

  • 其他:翻译(双语强)、一般问答/教育(中等),OSS在创意和技术领域占优。

代理推理的兴起

  • 推理模型令牌份额超50%,领先xAI Grok Code Fast 1、Google Gemini 2.5 Pro/Flash和OpenAI gpt-oss-120b。

  • 工具调用持续增加,主要在Claude Sonnet和Gemini Flash。

  • 提示令牌增长4倍(1.5K→6K),完成令牌增3倍(150→400);序列长度增3倍(>5,400令牌),编程驱动。

使用类别

  • 编程增长至>50%份额,Anthropic Claude占>60%(2025年11月降至<60%),其次OpenAI(~8%)、Google(~15%),OSS如MiniMax上升。

  • 角色扮演稳定,60%游戏/角色扮演游戏、15.6%作家资源、15.4%成人内容。

  • 子标签集中:编程广义(2/3其他)、角色扮演专业化、翻译分外国语言资源(51.1%)。

  • 提供商特征:Anthropic(80%编程/技术)、Google(多样,包括翻译/科学)、xAI(80%编程)。

地理分布

  • 北美~47%支出,亚洲升至31%(从13%),欧洲~21%。

  • 顶级国家:美国(47.17%)、新加坡(9.21%)、德国(7.51%)、中国(6.01%)。

  • 语言:英语82.87%、简体中文4.95%、俄语2.47%、西班牙语1.43%。

用户留存分析

  • 高流失率,但基础队列(早期用户)持久,称为“玻璃鞋效应”(模型-工作负载匹配导致锁定,如Gemini 2.5 Pro 2025年6月队列5个月后40%留存)。

  • 示例:OpenAI GPT-4o Mini单一基础队列;DeepSeek显示“回旋镖”回归。

成本 vs. 使用动态

  • 类别分段:高端(高成本/高使用:技术、科学);大众市场(高使用/低成本:角色扮演、编程);专业(低量/高成本:金融、学术、健康);利基(低成本/低量:翻译、法律)。

  • 闭源模型在高成本/高使用(如Claude ~$2/M令牌);OSS在低成本/高量(如DeepSeek V3 ~$0.39/M)。

  • 需求非弹性;更廉价模型驱动更高消费(Jevons悖论)。

关键发现

  • OSS使用达~30%,中国OSS增长至13%平均,生态多元化。

  • 角色扮演和编程主导OSS(52%及领先),因成本/定制化。

  • 推理模型>50%令牌;工具调用和序列长度增3倍,代理工作流驱动,尤其是编程。

  • 编程>50%整体,Anthropic主导;亚洲使用31%,英语主导(83%)。

  • 基础队列留存40%;玻璃鞋效应促成持久匹配。

  • 高使用低成本类别(角色扮演/编程);高端如技术例外。

趋势

  • 转向代理推理:多步、工具使用、更长上下文(提示4倍、序列3倍)。

  • OSS增长多元化,尤其是中国模型;中型模型兴起。

  • 编程扩展(>50%);角色扮演作为主要创意使用。

  • 全球去中心化:亚洲/中国使用和生产上升。

  • 留存:早期队列锁定;部分OSS回旋镖回归。

  • 成本不敏感需求:质量胜过价格。

结论

LLM嵌入工作流作为推理基底,o1式模型规范化审议和代理系统。生态多元,多模型栈;推理转向动态编排。地理全球化,中国关键生产/消费方。实证使用指导设计:聚焦突破留存、代理能力、全球适应。未来强调任务完成的操作卓越和变异减少。

所有跟帖: 

如果只比较“算力”的话,也可能是代码生成的算力消耗远高于普通文本生成 -有个用户名- 给 有个用户名 发送悄悄话 有个用户名 的博客首页 (0 bytes) () 12/06/2025 postreply 12:30:10

那是肯定的,5-10倍 -未完的歌- 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (0 bytes) () 12/06/2025 postreply 12:32:20

请您先登陆,再发跟帖!