当下主流 LLM API 调用价格比较说明

大模型 API 的价格这两年是真·杀疯了，国内厂商一轮轮卷价，美国厂商一轮轮降价。对做工程落地的人来说，同一份文档丢给不同模型，成本可以差一个数量级，不算清楚，很容易烧钱烧心。

这篇小文就用一个固定场景，来直观对比几家常见 LLM 的调用成本，并给出一些选型上的实用建议。

统一对比场景

为了让不同厂商的价格有可比性，我们先约定一个统一的“样本文档”：

样本：某风电项目可行性研究报告 约 169,880 个中文字符（接近 17 万字）

为了方便对比，下面先粗略按 1 个中文字符 ≈ 1 个 token 估算，整份报告大约是：

约 170k tokens
换算为：
- 以「每千 tokens 计费」：约 170 份“千 tokens”
- 以「每百万 tokens 计费」：约 0.17 份“百万 tokens”

对于现在主流的大模型（GPT-4o、Qwen、GLM 等），实际通常是 1 个 token ≈ 1.3–1.8 个汉字，所以真实 token 数往往会比这里的估算少 20%–40% 左右，但不影响不同模型之间的大致价格梯度。

下面所有价格示例，都是把这份报告完整丢给模型做一次分析/总结的单次费用，方便一眼感受“同一件事不同家要花多少钱”。

⚠️ 提醒：下文价格都以近期公开定价为参考，具体以各家最新官网价格为准。不同计费档位、活动折扣，也会让实际价格略有差异。

文心一言（ERNIE）

在国内厂商里，文心一言是比较早一批开放 API 的平台之一，主力模型之一是 ERNIE-4.0-8K。

示例价格（输入侧）

ERNIE-4.0-8K：约 ￥ 0.04 / 千 tokens（示例档位）
样本文档约 170k tokens
单次输入费用 ≈ 6.79 元

简单算一下： 170（千 tokens） × 0.04 元 ≈ 6.8 元

也就是说，一整本十几万字的风电可研报告，扔给 ERNIE-4.0-8K 让它通读+总结，输入侧大概 7 块钱以内搞定（不计输出 tokens）。

智谱 AI（GLM 系列）

智谱这两年主打 GLM-4 / GLM-4-Long / GLM-4-Air / GLM-4.5-Air 等多个价位梯度的模型，特点是型号多、价格区间跨度大。

以两个具有代表性的模型为例：

GLM-4-0520

单价示例：￥ 0.10 / 千 tokens

样本报告费用 ≈ 170 × 0.10 = 16.99 元
GLM-4-Air

单价示例：￥ 0.001 / 千 tokens

样本报告费用 ≈ 170 × 0.001 = 0.17 元

两者对比非常直观：

同一份风电可研报告： GLM-4-0520 ≈ 17 元，GLM-4-Air 只要几毛钱。

这就是“同平台内，高性能模型和性价比模型的差价”：如果只是做批量结构化提取/粗粒度摘要，Air 类模型往往已经够用；如果需要复杂推理、严苛质量，才值得上到旗舰档。

通义千问（Qwen）

阿里这波在价格战里算是“主角”，尤其是 Qwen-Long 大幅降价之后，长文本成本直接打到地板价。

两档典型模型：

Qwen-Long（主打长文本）

输入单价约：￥ 0.0005 / 千 tokens

样本报告费用 ≈ 170 × 0.0005 ≈ 0.08 元

也就是：一整份可研报告不到 1 角钱
Qwen-Max（偏高性能）

输入单价示例：￥ 0.04 / 千 tokens

样本报告费用 ≈ 170 × 0.04 ≈ 6.8 元

可以看到：

极致便宜档：Qwen-Long 等长文本模型，适合海量文档粗加工

中高价档：Qwen-Max 等，更适合对答质量要求高的核心流程

Moonshot AI（Kimi 系列）

Moonshot/Kimi 的几个主力模型一般按 “每百万 tokens” 计价，比如 moonshot-v1-8k / 32k / 128k 等。

以两个常见模型为例：

moonshot-v1-8k

输入单价示例：￥ 12 / 百万 tokens

样本报告费用 ≈ 0.17 × 12 ≈ 2.04 元
moonshot-v1-128k

输入单价示例：￥ 60 / 百万 tokens

样本报告费用 ≈ 0.17 × 60 ≈ 10.19 元

在同样读取整份可研报告的前提下：

8k 档：能覆盖部分截断/分段处理场景，价格相对亲民

128k 档：上下文极长，适合“整本喂给模型不想切块”的懒人用法，但要付出对应的价格

讯飞星火（Spark）

星火的部分模型经常以“万 tokens”为计费单位，并提供多档性能组合，典型如 Spark-Pro-128k 和更高规格的 QSpark 4.0 Ultra 等。

以两档代表性档位为例：

Spark-Pro-128k

单价示例：￥ 0.3 / 万 tokens

样本报告 ≈ 16.99 个“万 tokens”

费用 ≈ 16.99 × 0.3 ≈ 5.10 元
QSpark 4.0 Ultra

单价示例：￥ 1 / 万 tokens

同一份报告费用 ≈ 16.99 × 1 ≈ 16.99 元

整体来看，星火的定价大致介于“极致低价”的长文本模型与高性能国际模型之间，既能覆盖中文场景，又在一些细分行业（教育、政企）有完整的生态和 SDK。

OpenAI（gpt-4o / gpt-4o-mini 等）

在海外生态中，OpenAI 依旧是“定价锚点”之一。以常见的 gpt-4o 和 gpt-4o-mini 为例，它们一般按照 “美元 / 百万 tokens” 来报价。

以大致汇率 1 美元 ≈ 7.2 元人民币 为参考：

gpt-4o-mini

输入单价：$0.15 / 百万 tokens

样本报告输入费用： 0.17 × 0.15 ≈ 0.0255 美元 ≈ 0.18 元
gpt-4o

输入单价示例：$5 / 百万 tokens（不同批次略有调整）

样本报告输入费用： 0.17 × 5 ≈ 0.85 美元 ≈ 6.12 元

所以如果你通过代理平台/聚合网关在国内调用 OpenAI，一份十几万字的可研报告：

走 gpt-4o-mini：大约几毛钱级别

走 gpt-4o：大约 6 元左右

横向对比：同一份可研报告，大概要花多少钱？

基于上面的示例，我们可以把“读完一份约 17 万字风电可研报告”的输入侧成本粗略归纳成几档（单位：人民币）：

同一份报告，单次调用的大致输入费用：

极致便宜档（分厘级）
- Qwen-Long、GLM-4-Air、gpt-4o-mini 等：
- 约 0.08 ~ 0.3 元 量级，就能让模型完整看完一份可研。
中等价位档（几块钱）
- 文心 ERNIE-4.x、Qwen-Max、moonshot-v1-8k、Spark-Pro-128k、gpt-4o 等：
- 一次调用大约 2 ~ 7 元。
偏高价档（十几元）
- 强性能/超长上下文档位，如 GLM 高配档、Moonshot-128k、星火高端档：
- 单次调用可能来到 10 ~ 20 元 甚至更高。

一个直观结论：

在“让模型完整读一遍可研”的场景里，

不同模型的输入成本差不多可以拉开 100 倍左右的差距。

如果要做的事情是“每天几百份可研报告自动解析”，选错价位，相当于每天拿项目预算给 API 点蜡。

9. 工程实践中的选型建议

最后，结合上面的数字，给几个比较接地气的小建议：

9.1 把“读”和“想”拆开

读文档 / 结构化抽取 / 初步概括
- 可以优先用 长文本、性价比模型（Qwen-Long、GLM-4-Air、gpt-4o-mini 等），一大批文档跑下来价格非常可控。
关键结论 / 逻辑复核 / 生成对外材料
- 再把抽取好的结构化结果，扔给 高性能模型（gpt-4o、ERNIE-4.x 高配档、Moonshot 高配档等），做精细推理和润色。
这样组合，往往能做到：

绝大部分 tokens 用在便宜模型上，只有“最后那几步”用贵模型兜底。

9.2 别只看单价，记得算“场景总价”

有些模型单价便宜，但需要反复重试、提示词很长，实际总 tokens 用量会被放大。

有些模型单价略高，但一次到位、思考能力强，整体算下来可能更省钱。

简单做一张 Excel，把真实场景的条件考量在内：

每次平均输入 tokens
每次平均输出 tokens
每天/每月调用次数带进去算一算，很快就能看出哪家是真的便宜。

9.3 长文本 ≠ 一定要“整本一次性喂”

风电可研这类文档往往结构明确（总论、资源条件、技术方案、投资估算、经济评价……）：

可以考虑 按章节切块，用便宜的长文本模型逐块分析，再用高性能模型整合总结。

这样做不仅便宜，还能让你更精细地控制“哪些章节要算得更细、哪些只要粗看”。

9.4 定期回顾价格表

过去两年，各家价格变化非常剧烈：

有厂商直接把长文本模型输入价从 0.02 元/千 tokens 降到 0.0005 元/千 tokens；

也有厂商推出新一代模型，输入价只有上一代的一小部分；

所以非常建议：

每季度至少打开一次各家价格页面，看看有没有更便宜的新型号，顺手把你系统里的“默认模型”调一调。

10. 小结

如果只看“官方价格表”，你会看到一堆 0.000x、￥0.xx/千 tokens 或 $0.x/百万 tokens，既抽象又难比较。一旦统一到“让模型完整读一份风电可研报告，要花多少钱？”这个具体问题，在我自己的工作过程中，差距就清晰了：

几毛钱就能跑通的模型，可以大胆用在高频、批处理场景，

几块到十几块一次的模型，更适合关键节点、对质量极其敏感的环节。