AI支出をマスターする: OneRouter使用会計のガイド
OneRouter 使用会計
By アンドリュー・ジェン •
OneRouter 使用会計



2025/12/12
アンドリュー・ジェン
OneRouter API は、追加の API 呼び出しを行うことなく AI モデルの使用状況を追跡できる 使用会計 を提供します。この機能は、API レスポンスでトークン数、コスト、キャッシュ状況についての詳細情報を提供します。
有効にすると、API は次の詳細な使用情報を返します:
モデルのネイティブトークナイザーを使用したプロンプトと完了トークン数
クレジットでのコスト
推論トークン数(該当する場合)
キャッシュされたトークン数(利用可能な場合)
この情報は、ストリーミングレスポンスの最後の SSE メッセージまたは、非ストリーミングリクエストの完全なレスポンスに含まれます。
usage パラメーターを含めることで、リクエストで使用会計を有効にできます:
{ "model": "your-model", "usage": { "include": true } }
使用会計が有効な場合、レスポンスには詳細なトークン情報を持つ usage オブジェクトと、詳細なコストを持つ cost アイテムおよび cost_details オブジェクトが含まれます:
{ "id": "c4942c8a-39d8-d39e-7eb0-395c4e4dbf68", "choices": [ { "finish_reason": "stop", "index": 0, "logprobs": null, "message": { "content": "**Paris** is the capital of France. It's the largest city in the country, serving as the political, cultural, and economic center, with a population of about 2.1 million in the city proper and over 12 million in the greater metropolitan area. This has been the case since the 10th century, when Hugh Capet established it as the seat of the Capetian dynasty.", "refusal": null, "role": "assistant", "annotations": null, "audio": null, "function_call": null, "tool_calls": null } } ], "created": 1763949831, "model": "grok-4-1-fast-non-reasoning", "object": "chat.completion", "service_tier": null, "system_fingerprint": "fp_80e0751284", "usage": { "completion_tokens": 80, "prompt_tokens": 175, "total_tokens": 255, "completion_tokens_details": { "accepted_prediction_tokens": 0, "audio_tokens": 0, "reasoning_tokens": 0, "rejected_prediction_tokens": 0 }, "prompt_tokens_details": { "audio_tokens": 0, "cached_tokens": 161, "image_tokens": 0, "text_tokens": 175 }, "num_sources_used": 0 }, "cost": 0.000051, "cost_details": { "audio_cost": 0, "cache_prompt_cost": 8.05e-6, "cache_write_cost": 0, "generation_cost": 0, "image_cost": 0, "input_prompt_cost": 2.8e-6, "output_prompt_cost": 0.00004, "tools_cost": 0, "video_cost": 0 }, "request_id": "e7d2ff652d84410f903aef33d7f6471e" }
cost はあなたのアカウントに請求される総額です。
cost_details は、総コストの内訳です。
使用会計を有効にすると、API がトークン数とコストを計算するために最後のレスポンスに数百ミリ秒追加されます。これは最終メッセージにのみ影響し、全体のストリーミング性能には影響しません。
効率: 別々の API 呼び出しを行うことなく使用情報を取得
正確性: トークン数はモデルのネイティブトークナイザーを使用して計算されます
透明性: コストとキャッシュされたトークンの使用状況をリアルタイムで追跡
詳細な内訳: プロンプト、完了、推論、キャッシュトークンのそれぞれのカウント
トークンの消費やコストを監視する必要がある時に使用追跡を有効にする
使用会計が有効な場合、最終レスポンスのわずかな遅延を考慮する
開発時に使用追跡を実装して、本番前にトークンの使用を最適化することを考慮する
キャッシュされたトークン情報を使用してアプリケーションのパフォーマンスを最適化する
from openai import OpenAI client = OpenAI( base_url="https://llm.onerouter.pro/v1", api_key="{{API_KEY_REF}}", ) response = client.chat.completions.create( model="{{MODEL}}", messages=[ {"role": "user", "content": "What is the capital of France?"} ], extra_body={ "usage": { "include": True } } ) print("Response:", response.choices[0].message.content) print("Usage Stats:", getattr(response, "usage", None))
OpenAI の仕様 によると、ストリーミングレスポンスでトークン使用情報を要求するには、リクエストに次のパラメーターを含める必要があります:
{ "model": "gemini-2.5-flash", "messages": [ { "role": "user", "content": "hi" } ], "stream": true, "stream_options": { "include_usage": true } }
この設定は、API に対して:
Gemini 2.5 Flash モデルを使用する
レスポンスを段階的にストリーミングする
ストリームレスポンスにトークン使用の統計を含める
stream_options.include_usage パラメーターは、ストリーミングレスポンスの一部としてトークン使用情報を返すことを具体的に要求します。
使用会計の実装をマスターした今、戦略的価値とこの機能の背後にあるエンジニアリング能力を理解するために一歩引いてください。次の深掘りの記事をおすすめします:
AI API コスト管理の未来 – 使用の透明性がどのようにより良いビジネス判断を促進するかを発見してください。
リアルタイムのコスト追跡: 技術的基盤 – OneRouter の会計エンジンを支えるインフラについての考察。
OneRouter API は、追加の API 呼び出しを行うことなく AI モデルの使用状況を追跡できる 使用会計 を提供します。この機能は、API レスポンスでトークン数、コスト、キャッシュ状況についての詳細情報を提供します。
有効にすると、API は次の詳細な使用情報を返します:
モデルのネイティブトークナイザーを使用したプロンプトと完了トークン数
クレジットでのコスト
推論トークン数(該当する場合)
キャッシュされたトークン数(利用可能な場合)
この情報は、ストリーミングレスポンスの最後の SSE メッセージまたは、非ストリーミングリクエストの完全なレスポンスに含まれます。
usage パラメーターを含めることで、リクエストで使用会計を有効にできます:
{ "model": "your-model", "usage": { "include": true } }
使用会計が有効な場合、レスポンスには詳細なトークン情報を持つ usage オブジェクトと、詳細なコストを持つ cost アイテムおよび cost_details オブジェクトが含まれます:
{ "id": "c4942c8a-39d8-d39e-7eb0-395c4e4dbf68", "choices": [ { "finish_reason": "stop", "index": 0, "logprobs": null, "message": { "content": "**Paris** is the capital of France. It's the largest city in the country, serving as the political, cultural, and economic center, with a population of about 2.1 million in the city proper and over 12 million in the greater metropolitan area. This has been the case since the 10th century, when Hugh Capet established it as the seat of the Capetian dynasty.", "refusal": null, "role": "assistant", "annotations": null, "audio": null, "function_call": null, "tool_calls": null } } ], "created": 1763949831, "model": "grok-4-1-fast-non-reasoning", "object": "chat.completion", "service_tier": null, "system_fingerprint": "fp_80e0751284", "usage": { "completion_tokens": 80, "prompt_tokens": 175, "total_tokens": 255, "completion_tokens_details": { "accepted_prediction_tokens": 0, "audio_tokens": 0, "reasoning_tokens": 0, "rejected_prediction_tokens": 0 }, "prompt_tokens_details": { "audio_tokens": 0, "cached_tokens": 161, "image_tokens": 0, "text_tokens": 175 }, "num_sources_used": 0 }, "cost": 0.000051, "cost_details": { "audio_cost": 0, "cache_prompt_cost": 8.05e-6, "cache_write_cost": 0, "generation_cost": 0, "image_cost": 0, "input_prompt_cost": 2.8e-6, "output_prompt_cost": 0.00004, "tools_cost": 0, "video_cost": 0 }, "request_id": "e7d2ff652d84410f903aef33d7f6471e" }
cost はあなたのアカウントに請求される総額です。
cost_details は、総コストの内訳です。
使用会計を有効にすると、API がトークン数とコストを計算するために最後のレスポンスに数百ミリ秒追加されます。これは最終メッセージにのみ影響し、全体のストリーミング性能には影響しません。
効率: 別々の API 呼び出しを行うことなく使用情報を取得
正確性: トークン数はモデルのネイティブトークナイザーを使用して計算されます
透明性: コストとキャッシュされたトークンの使用状況をリアルタイムで追跡
詳細な内訳: プロンプト、完了、推論、キャッシュトークンのそれぞれのカウント
トークンの消費やコストを監視する必要がある時に使用追跡を有効にする
使用会計が有効な場合、最終レスポンスのわずかな遅延を考慮する
開発時に使用追跡を実装して、本番前にトークンの使用を最適化することを考慮する
キャッシュされたトークン情報を使用してアプリケーションのパフォーマンスを最適化する
from openai import OpenAI client = OpenAI( base_url="https://llm.onerouter.pro/v1", api_key="{{API_KEY_REF}}", ) response = client.chat.completions.create( model="{{MODEL}}", messages=[ {"role": "user", "content": "What is the capital of France?"} ], extra_body={ "usage": { "include": True } } ) print("Response:", response.choices[0].message.content) print("Usage Stats:", getattr(response, "usage", None))
OpenAI の仕様 によると、ストリーミングレスポンスでトークン使用情報を要求するには、リクエストに次のパラメーターを含める必要があります:
{ "model": "gemini-2.5-flash", "messages": [ { "role": "user", "content": "hi" } ], "stream": true, "stream_options": { "include_usage": true } }
この設定は、API に対して:
Gemini 2.5 Flash モデルを使用する
レスポンスを段階的にストリーミングする
ストリームレスポンスにトークン使用の統計を含める
stream_options.include_usage パラメーターは、ストリーミングレスポンスの一部としてトークン使用情報を返すことを具体的に要求します。
使用会計の実装をマスターした今、戦略的価値とこの機能の背後にあるエンジニアリング能力を理解するために一歩引いてください。次の深掘りの記事をおすすめします:
AI API コスト管理の未来 – 使用の透明性がどのようにより良いビジネス判断を促進するかを発見してください。
リアルタイムのコスト追跡: 技術的基盤 – OneRouter の会計エンジンを支えるインフラについての考察。
OneRouter 使用会計
By アンドリュー・ジェン •

エンタープライズLLMルーティングの複雑さを管理する

エンタープライズLLMルーティングの複雑さを管理する

AIモデルのトークン使用量を追跡する

AIモデルのトークン使用量を追跡する

OneRouter アンスロポシック クロード API

OneRouter アンスロポシック クロード API