LlaDash API ドキュメント
LlaDash APIは、認証キー不要で利用可能な次世代のLLMルーティングAPIです。ユーザーの質問意図を解析し、Groqの推論エンジンを活用して最適なモデルを動的に組み合わせます。
【検索機能について】検索機能が有効になった際(自動選択)、ある条件下になると413エラーが発生する問題が発生しています。お手数ですが、別ワードで実行すると正常に返答が返ってきますので、修正完了までは、そちらの対処法をご利用ください。また、現在検索機能のドキュメントがありません。前回の主な仕様とは変わっていませんので、お客様には通常通りご利用いただけます。お手数ですが、作成までお待ちください。
アーキテクチャ概要
1回のリクエストで最大4つのモデルが連携して処理を行います。
1. Safety Guard (Llama-Prompt-Guard-2): プロンプトの安全性を検証
2. Router (Llama-3.1-8b): 質問の複雑さを判定し、タイトルを生成
3. Thinker (Qwen3-32b): 複雑な質問に対する思考プロセスを生成
4. Responder (Llama-4-Scout-17b): 最終的な回答を生成
テキスト生成エンドポイント
プロンプトを送信し、AIの推論結果を取得します。GETおよびPOSTリクエストに対応しています。
GET
POST
/ai/{prompt}
クエリパラメータ
| Name | Type | Description |
|---|---|---|
prompt | String | 最大文字数は 500文字 です。超過時は 400 Bad Request となります。 |
json | Boolean | 結果をJSON形式で返します。思考プロセス(thinking)や生成タイトル(title)も含まれます。 |
xml | Boolean | 結果をXML形式で返します。 |
stream | Boolean | Server-Sent Events (SSE) を使用して、回答をリアルタイムにストリーミングします。 |
title | Boolean | 回答と一緒に、言語に応じた短いタイトルを生成します。 |
Example Request (JSON + Title)
const url = 'https://api.ndnx.workers.dev/ai/What is AI?&json=true&title=true';
const response = await fetch(url, {
headers: { 'User-Agent': 'MyAwesomeApp/1.0' }
});
const data = await response.json();
console.log(data);
Example Response
{
"status": "success",
"model": "meta-llama/llama-4-scout-17b-16e-instruct",
"thinking": "The user is asking for a definition of AI...",
"title": "AIの定義",
"answer": "人工知能(AI)とは..."
}
レート制限情報
現在のシステム全体のキュー状況と、各LLMモデルのレート制限状態を取得します。
GET
/ai/rate
レート制限と仕様
- Global Queue Limit: Max 20 requests per minute
- Llama-Prompt-Guard: 30 RPM / 15,000 TPM
- Router (Llama-3.1-8b): 30 RPM / 131,072 TPM
- Thinker (Qwen3-32b): 30 RPM / 6,000 TPM
- Responder (Llama-4-Scout): 30 RPM / 131,072 TPM
エラーレスポンス
- 400 Bad Request: プロンプトの文字数超過、または不正なリクエスト。
- 403 Forbidden: ボット検知、User-Agentの不備、セキュリティブロック。
- 429 Too Many Requests: グローバルキュー制限(20回/分)の超過。
- 500 Internal Server Error: バックエンドAPIのエラーまたはタイムアウト。