LlaDash API ドキュメント

LlaDash APIは、認証キー不要で利用可能な次世代のLLMルーティングAPIです。ユーザーの質問意図を解析し、Groqの推論エンジンを活用して最適なモデルを動的に組み合わせます。

【検索機能について】検索機能が有効になった際（自動選択）、ある条件下になると413エラーが発生する問題が発生しています。お手数ですが、別ワードで実行すると正常に返答が返ってきますので、修正完了までは、そちらの対処法をご利用ください。また、現在検索機能のドキュメントがありません。前回の主な仕様とは変わっていませんので、お客様には通常通りご利用いただけます。お手数ですが、作成までお待ちください。

アーキテクチャ概要

1回のリクエストで最大4つのモデルが連携して処理を行います。
1. Safety Guard (Llama-Prompt-Guard-2): プロンプトの安全性を検証
2. Router (Llama-3.1-8b): 質問の複雑さを判定し、タイトルを生成
3. Thinker (Qwen3-32b): 複雑な質問に対する思考プロセスを生成
4. Responder (Llama-4-Scout-17b): 最終的な回答を生成

テキスト生成エンドポイント

プロンプトを送信し、AIの推論結果を取得します。GETおよびPOSTリクエストに対応しています。

GET POST /ai/{prompt}

クエリパラメータ

Name	Type	Description
`prompt`	String	最大文字数は 500文字です。超過時は 400 Bad Request となります。
`json`	Boolean	結果をJSON形式で返します。思考プロセス(thinking)や生成タイトル(title)も含まれます。
`xml`	Boolean	結果をXML形式で返します。
`stream`	Boolean	Server-Sent Events (SSE) を使用して、回答をリアルタイムにストリーミングします。
`title`	Boolean	回答と一緒に、言語に応じた短いタイトルを生成します。

Example Request (JSON + Title)

const url = 'https://api.ndnx.workers.dev/ai/What is AI?&json=true&title=true';
const response = await fetch(url, {
  headers: { 'User-Agent': 'MyAwesomeApp/1.0' }
});
const data = await response.json();
console.log(data);

Example Response

{
  "status": "success",
  "model": "meta-llama/llama-4-scout-17b-16e-instruct",
  "thinking": "The user is asking for a definition of AI...",
  "title": "AIの定義",
  "answer": "人工知能（AI）とは..."
}

レート制限情報

現在のシステム全体のキュー状況と、各LLMモデルのレート制限状態を取得します。

GET /ai/rate

レート制限と仕様

Global Queue Limit: Max 20 requests per minute
Llama-Prompt-Guard: 30 RPM / 15,000 TPM
Router (Llama-3.1-8b): 30 RPM / 131,072 TPM
Thinker (Qwen3-32b): 30 RPM / 6,000 TPM
Responder (Llama-4-Scout): 30 RPM / 131,072 TPM

エラーレスポンス

400 Bad Request: プロンプトの文字数超過、または不正なリクエスト。
403 Forbidden: ボット検知、User-Agentの不備、セキュリティブロック。
429 Too Many Requests: グローバルキュー制限（20回/分）の超過。
500 Internal Server Error: バックエンドAPIのエラーまたはタイムアウト。