OneRouter 使用会計

AI支出をマスターする: OneRouter使用会計のガイド

日付

2025/12/12

著者

アンドリュー・ジェン

使用会計

OneRouter API は、追加の API 呼び出しを行うことなく AI モデルの使用状況を追跡できる 使用会計 を提供します。この機能は、API レスポンスでトークン数、コスト、キャッシュ状況についての詳細情報を提供します。

使用情報

有効にすると、API は次の詳細な使用情報を返します:

モデルのネイティブトークナイザーを使用したプロンプトと完了トークン数
クレジットでのコスト
推論トークン数（該当する場合）
キャッシュされたトークン数（利用可能な場合）

この情報は、ストリーミングレスポンスの最後の SSE メッセージまたは、非ストリーミングリクエストの完全なレスポンスに含まれます。

使用会計の有効化

usage パラメーターを含めることで、リクエストで使用会計を有効にできます:

{
  "model": "your-model",
  "usage": {
    "include": true
  }
}

レスポンス形式

使用会計が有効な場合、レスポンスには詳細なトークン情報を持つ usage オブジェクトと、詳細なコストを持つ cost アイテムおよび cost_details オブジェクトが含まれます:

{
  "id": "c4942c8a-39d8-d39e-7eb0-395c4e4dbf68",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "**Paris** is the capital of France. It's the largest city in the country, serving as the political, cultural, and economic center, with a population of about 2.1 million in the city proper and over 12 million in the greater metropolitan area. This has been the case since the 10th century, when Hugh Capet established it as the seat of the Capetian dynasty.",
        "refusal": null,
        "role": "assistant",
        "annotations": null,
        "audio": null,
        "function_call": null,
        "tool_calls": null
      }
    }
  ],
  "created": 1763949831,
  "model": "grok-4-1-fast-non-reasoning",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_80e0751284",
  "usage": {
    "completion_tokens": 80,
    "prompt_tokens": 175,
    "total_tokens": 255,
    "completion_tokens_details": {
      "accepted_prediction_tokens": 0,
      "audio_tokens": 0,
      "reasoning_tokens": 0,
      "rejected_prediction_tokens": 0
    },
    "prompt_tokens_details": {
      "audio_tokens": 0,
      "cached_tokens": 161,
      "image_tokens": 0,
      "text_tokens": 175
    },
    "num_sources_used": 0
  },
  "cost": 0.000051,
  "cost_details": {
    "audio_cost": 0,
    "cache_prompt_cost": 8.05e-6,
    "cache_write_cost": 0,
    "generation_cost": 0,
    "image_cost": 0,
    "input_prompt_cost": 2.8e-6,
    "output_prompt_cost": 0.00004,
    "tools_cost": 0,
    "video_cost": 0
  },
  "request_id": "e7d2ff652d84410f903aef33d7f6471e"
}

cost はあなたのアカウントに請求される総額です。

cost_details は、総コストの内訳です。

使用会計を有効にすると、API がトークン数とコストを計算するために最後のレスポンスに数百ミリ秒追加されます。これは最終メッセージにのみ影響し、全体のストリーミング性能には影響しません。

利点

効率: 別々の API 呼び出しを行うことなく使用情報を取得
正確性: トークン数はモデルのネイティブトークナイザーを使用して計算されます
透明性: コストとキャッシュされたトークンの使用状況をリアルタイムで追跡
詳細な内訳: プロンプト、完了、推論、キャッシュトークンのそれぞれのカウント

ベストプラクティス

トークンの消費やコストを監視する必要がある時に使用追跡を有効にする
使用会計が有効な場合、最終レスポンスのわずかな遅延を考慮する
開発時に使用追跡を実装して、本番前にトークンの使用を最適化することを考慮する
キャッシュされたトークン情報を使用してアプリケーションのパフォーマンスを最適化する

例

トークン追跡を伴う基本的な使用

from openai import OpenAI

client = OpenAI(
    base_url="https://llm.onerouter.pro/v1",
    api_key="{{API_KEY_REF}}",
)

response = client.chat.completions.create(
    model="{{MODEL}}",
    messages=[
        {"role": "user", "content": "What is the capital of France?"}
    ],
    extra_body={
        "usage": {
            "include": True
        }
    }
)

print("Response:", response.choices[0].message.content)
print("Usage Stats:", getattr(response, "usage", None))

トークン追跡を伴うストリーミング

OpenAI の仕様によると、ストリーミングレスポンスでトークン使用情報を要求するには、リクエストに次のパラメーターを含める必要があります:

{
    "model": "gemini-2.5-flash",
    "messages": [
        {
            "role": "user",
            "content": "hi"
        }
    ],
    "stream": true,
    "stream_options": {
        "include_usage": true
    }
}

この設定は、API に対して:

⁠Gemini 2.5 Flash モデルを使用する
⁠レスポンスを段階的にストリーミングする
ストリームレスポンスにトークン使用の統計を含める

⁠stream_options.include_usage ⁠ パラメーターは、ストリーミングレスポンスの一部としてトークン使用情報を返すことを具体的に要求します。

さらに深く掘り下げる

使用会計の実装をマスターした今、戦略的価値とこの機能の背後にあるエンジニアリング能力を理解するために一歩引いてください。次の深掘りの記事をおすすめします:

AI API コスト管理の未来 – 使用の透明性がどのようにより良いビジネス判断を促進するかを発見してください。

リアルタイムのコスト追跡: 技術的基盤 – OneRouter の会計エンジンを支えるインフラについての考察。