自分と隣人用のメモです。私の事は放っておいてください。
米国において、AIエージェントの普及により、普及したAPI製品にはどのような製品がありますか。
CRMなどのSaaSがAIエージェントの普及により衰退したと聞きますが、AIエージェントはどのようなAPI製品を呼び出し、CRMの代わりを務めているのでしょうか。
そのような類例の中から代表的なものを、いくつか教えてください。
「AIエージェントが具体的にどのような構成(スタック)で作られているのか」 から、お願いします。
米国における最新のAIエージェントの構成(スタック)は、これまでの一体型SaaS(例:Salesforce)を「機能ごとにバラバラにして、AIが再構築したもの」と捉えると非常に分かりやすくなります。
これを「AI Agent Stack(AIエージェント・スタック)」と呼びます。主に以下の4つのレイヤーで構成されています。
[Image of AI Agent Architecture Diagram]
1. 「脳」レイヤー(Models & Routing)
エージェントの思考回路です。単一のLLMではなく、タスクの難易度に応じてモデルを使い分ける構成が主流です。
役割: 推論、計画、ツール選択。
主要製品:
- OpenAI (GPT-4o) / Anthropic (Claude 3.5 Sonnet): 複雑な推論や計画(Planning)を行うメインの頭脳。
- OpenRouter: 複数のLLM(Llama 3, Mistralなど)へのアクセスを一元管理し、コストや速度に応じて最適なモデルに自動で切り替える「ルーター」の役割を果たします。
2. 「記憶」レイヤー(Memory / Context)
ここが「CRMの代替」となる核心部分です。 従来のCRMは「名前」「電話番号」といった決まった項目(構造化データ)を手動入力していましたが、AIエージェントは「全ての会話や文脈」をそのまま記憶します。
役割: 過去の文脈保持、ナレッジの検索(RAG)。
主要製品(Vector Database):
- Pinecone / Weaviate / Chroma: テキストデータをベクトル(数値)化して保存します。「先月のあの件どうなった?」といった曖昧な検索に対し、過去のメールや通話ログから瞬時に関連情報を引き出します。これが従来の「顧客データベース」に取って代わりつつあります。
短期記憶:
- Redis / Upstash: 会話中の直近のやり取りを一時的に保持するために使われます。
3. 「手足」レイヤー(Tools & Actions)
先ほどの回答で挙げたAPI群がここに該当します。AIが現実世界に干渉するためのインターフェースです。
役割: 外部サービスの操作、データ取得、実行。
主要構成:
- Function Calling (Tool Use): LLMが「メールを送る必要がある」と判断した際、自ら
send_email(to="...", body="...")というコードを生成し、APIを叩く仕組み。 - Composio / Nango: 数百種類のSaaS(GitHub, Slack, HubSpotなど)のAPI認証(OAuth)と連携を一括管理するプラットフォーム。エージェント開発者はこれを使うことで、個別にAPI連携を開発する手間を省けます。
- Function Calling (Tool Use): LLMが「メールを送る必要がある」と判断した際、自ら
4. 「神経系」レイヤー(Orchestration & Frameworks)
脳、記憶、手足をつなぎ合わせ、自律的な動き(ワークフロー)を定義するフレームワークです。
役割: 手順の制御、エラー時のリトライ、マルチエージェントの協調。
主要製品:
- LangGraph (LangChain): 現在、最も注目されているフレームワークの一つ。「もしAならBをする、エラーならCに戻る」といった複雑なループ構造(循環グラフ)を記述でき、粘り強いエージェントを作れます。
- CrewAI: 「リサーチャー担当AI」「ライター担当AI」のように役割を持った複数のエージェントをチームとして協働させるフレームワークです。
「CRM代替」のシステム構成図のイメージ
従来のCRMシステムと、AIエージェント・スタックの対比は以下のようになります。
| 構成要素 | 従来のCRMシステム | AIエージェント・スタック |
|---|---|---|
| ユーザーIF | Web管理画面 (Dashboard) | Slack / Email / Voice API (画面なし) |
| ロジック | 人間がボタン操作 | LangGraph (AIが自律判断) |
| データベース | RDB (SQLで構造化管理) | Pinecone (ベクトルDBで非構造化管理) |
| 外部連携 | プラグイン設定が必要 | API直接コール (Twilio, Stripe等) |
なぜこれがCRMを脅かすのか? このスタックであれば、「企業独自の業務フローに特化したCRM」を、SaaSを契約せずに構築できてしまうからです。 例えば、「顧客から電話が来たら(Vapi)、会話内容を検索し(Pinecone)、在庫があれば(自社DB)、決済リンクを送る(Stripe)」という一連の流れを、月額数万円のSaaSではなく、従量課金のAPIだけで組むことができます。
次のステップ
このスタックの中で、AIエージェントの制御を行う「LangGraph(ランググラフ)」などのオーケストレーション部分が、現在エンジニアの間で最も熱いトピック(どうやってAIを暴走させずに業務完遂させるか)となっています。
この「自律的な動きの制御」の仕組みについて詳しく掘り下げますか? それとも、具体的な「コスト比較(SaaS vs APIスタック)」のようなビジネス面に関心がありますか?
「手足」レイヤー(Tools & Actions)には、どのような製品が存在するのか、できるだけ多く紹介してください。
多数存在するなら機能とコスト、会社名、売上情報の一覧にしてください。 分からない部分は空白で良いです。
米国におけるAIエージェントの「手足」となるツール(Tools & Actions)レイヤーの製品は、スタートアップを中心に爆発的に増えています。これらは、従来のSaaSが提供していた機能を「APIパーツ」として切り出したものです。
機能別に分類し、主要な製品を一覧表にまとめました。 ※多くの企業が未上場のスタートアップであるため、売上情報は「非公開」または「推定」となりますが、規模感の目安として資金調達状況(シリーズ)などを補足情報として考慮しています。
1. Web検索・データ収集(エージェントの「目」)
AIエージェントが外部情報を取得するためのAPIです。Google検索の代わりとして、AIが読み取りやすい形式でデータを返します。
| 製品名 | 会社名 | 機能・役割 | コスト体系 | 売上規模 / 備考 |
|---|---|---|---|---|
| Tavily | Tavily | LLMに最適化された検索API。回答に必要なテキストのみを抽出して返す。 | フリーミアム (月$29~) | 非公開 (Seed期) |
| Exa (旧Metaphor) | Exa AI | ニューラル検索。キーワードではなく「意味」でWebを検索できる。 | フリーミアム (1,000req無料~) | 非公開 (Series A) |
| Firecrawl | Mendable | Webサイトをクロールし、Markdown形式(LLMが読みやすい形式)に変換する。 | オープンソース / クラウド版あり | 非公開 (Y Combinator出身) |
| Serper | Serper | Google検索の結果をJSONで高速に返すAPI。 | フリーミアム (2,500回無料) | 非公開 |
| Brave Search API | Brave Software | プライバシー重視のBrave検索エンジンのAPI版。AI学習用データとしても利用。 | 従量課金 ($3/1000回) | 非公開 (大型調達済み) |
2. 音声・電話・コミュニケーション(エージェントの「口」)
CRMのコールセンター機能やメール配信機能の代替となるAPI群です。
| 製品名 | 会社名 | 機能・役割 | コスト体系 | 売上規模 / 備考 |
|---|---|---|---|---|
| Twilio | Twilio Inc. | 通信APIの巨人。電話、SMS、WhatsApp送信のインフラ。 | 従量課金 | 約$4.15 Billion (2023年) ※上場企業 |
| Vapi | Vapi Labs | AI音声対話API。超低遅延で人間のような割り込み会話が可能。 | 従量課金 ($0.05/分~) | 非公開 (急成長中のStartup) |
| Retell AI | Retell AI | 音声対話構築プラットフォーム。電話番号取得からLLM連携まで一括管理。 | 従量課金 | 非公開 (Y Combinator出身) |
| Bland AI | Bland AI | 電話代行AI。企業の電話業務(予約、サポート)を完全にプログラム化する。 | 従量課金 | 非公開 |
| Resend | Resend | 開発者向けのモダンなメール送信API。SendGridの再発明。 | 月額制 + 従量 | 非公開 (Seed期) |
3. ブラウザ操作・実行環境(エージェントの「手」)
APIがないWebサイトを操作したり、安全にコードを実行したりするためのインフラです。
| 製品名 | 会社名 | 機能・役割 | コスト体系 | 売上規模 / 備考 |
|---|---|---|---|---|
| Browserbase | Browserbase | ヘッドレスブラウザAPI。AIがサイトにログインし操作するための仮想ブラウザ環境。 | 従量課金 | 非公開 ($6.5M調達) |
| MultiOn | MultiOn | AIエージェントにWeb操作を委任するAPI(「Amazonでこれ買って」で完結)。 | フリーミアム | 非公開 |
| E2B | E2B | AI専用のコード実行サンドボックス。エージェントが書いたコードを安全に実行する環境。 | 従量課金 | 非公開 (Seed期) |
| Modal | Modal Labs | エージェントが必要とする計算リソース(GPU等)を瞬時に立ち上げるサーバーレス基盤。 | 従量課金 | 非公開 (Series A) |
4. 外部ツール連携・認証(エージェントの「神経接続」)
エージェントがSalesforce, GitHub, Slackなどの他社SaaSと連携するための認証(OAuth)やAPI統合を一元管理します。
| 製品名 | 会社名 | 機能・役割 | コスト体系 | 売上規模 / 備考 |
|---|---|---|---|---|
| Composio | Composio | AIエージェント向けに100以上のツール(GitHub, Notion等)への接続と認証を管理。 | フリーミアム | 非公開 (OSS発) |
| Nango | Nango | 統合APIプラットフォーム。OAuth認証やデータ同期の複雑さを隠蔽する。 | 月額制 ($249~) | 非公開 (Y Combinator出身) |
| Merge | Merge API | HR、会計、CRMなどのAPIを統一規格化して提供する大手統合API。 | 月額制 (高価格帯) | 推定 数千万ドル (Series B) |
5. 業務特化型ユーティリティ
CRMの特定機能(カレンダー、決済など)を代替するAPIです。
| 製品名 | 会社名 | 機能・役割 | コスト体系 | 売上規模 / 備考 |
|---|---|---|---|---|
| Stripe | Stripe, Inc. | 決済プラットフォーム。請求書発行、定期課金管理。 | 手数料モデル (約3.6%) | 推定 $14 Billion超 (2023年) ※未上場 |
| Cal.com | Cal.com, Inc. | 日程調整インフラ。エージェントが空き時間をAPIで確認し予約を入れる。 | フリーミアム / 従量 | 非公開 (Series A) |
| Plaid | Plaid Inc. | 金融データ連携。銀行口座の残高確認や取引明細の取得。 | 従量課金 | 推定 $250-300 Million |
この表から読み取れるトレンド
- 「機能の切り売り」が進んでいる: かつてはSalesforceのような巨大なスイート製品が全ての機能(顧客管理、メール、電話、決済)を持っていましたが、現在はそれぞれの機能に特化したAPI製品(Vapi, Resend, Cal.comなど)が登場し、開発者はそれらを組み合わせて「自社専用の最強のCRM」をAIで作るようになっています。
- スタートアップが優勢: TwilioやStripeのような巨大インフラを除き、AIエージェント向けのニッチなツール(Tavily, Vapi, E2Bなど)は、ここ1〜2年で設立されたばかりのシード〜シリーズA期のスタートアップが市場を席巻しています。
- OSS(オープンソース)発の製品が多い: Composio, Firecrawl, Cal.comなどは、オープンソースとしてコア機能を提供しつつ、マネージドサービスで収益化するモデルをとっています。
次のステップ
これらのAPI製品の中から、特定のカテゴリ(例えば「音声AIのVapiとRetellの違い」や「検索APIのTavilyの具体的な使い方」など)について詳しく比較・解説しましょうか?
具体的な話は、別の機会に改めて質問します。今は全体像だけ分かれば良いです。
これらの「手足」レイヤー(Tools & Actions)の「呼び方」は、存在しますか。
「Tools & Actions」で通用しますか。
また、「Tools & Actions」は、従来のマイクロサービスと異なりますか。
「Tools & Actions」はインターフェイスにMCPを使用していますか。
「Tools & Actions」の販売チャネルは、どこにあるのですか、誰に売り込むのですか。
AIに営業するわけではないですよね。
全体像を掴むための、非常に鋭い視点のご質問です。 ご提示いただいた4つの論点について、現在の業界標準やトレンドに基づき解説します。
1. 「Tools & Actions」という呼び方は一般的か?
結論:通用しますが、より専門的には「Tools(ツール)」または「Tooling(ツーリング)」と呼ばれます。
- Tools (ツール): OpenAIやAnthropicなどのLLM開発元が公式ドキュメントで採用している技術用語です。AIが外部機能を呼び出す仕組みを「Tool Use (ツールユース)」や「Function Calling (ファンクションコーリング)」と呼ぶため、開発者の間では単に「Tools」と呼ぶのが最も一般的です。
- Actions (アクション): これは主にOpenAIの「GPTs」の設定画面で使われているユーザー向けの用語です。意味は同じですが、開発現場では「Tools」の方が通じやすいです。
- 市場全体での呼び名: これらを提供する製品群全体を指す言葉としては、「Agentic Infrastructure(エージェンティック・インフラ)」や「Headless SaaS(ヘッドレスSaaS)」という言葉が使われ始めています。
2. 従来の「マイクロサービス」との違いは何か?
ここが最も重要な違いです。技術的には似ていますが、「誰(何)に向けたインターフェースか」が決定的に異なります。
| 特徴 | 従来のマイクロサービス | AIエージェントのTools |
|---|---|---|
| 主語(呼び出し元) | プログラム (コードで固定) | AIモデル (文脈で判断) |
| 必要な情報 | 正確なデータ型 (Int, String等) | 「目的」と「使い方の説明文」 |
| 柔軟性 | 低い (仕様変更でエラーになる) | 高い (多少の曖昧さをAIが吸収) |
- 最大の違いは「説明文 (Description)」の有無: 従来のAPIは、プログラム同士が通信するため「数字を渡せば数字が返る」という厳密なルールがあれば十分でした。 しかし、AIのためのToolsには、「このツールは、ユーザーが『予約したい』と言った時に使ってください」という自然言語による説明文が付与されています。AIはこの説明文を読み、「今どのツールを使うべきか」を自律的に判断します。これがマイクロサービスとの決定的な違いです。
3. インターフェースにMCP (Model Context Protocol) は使用しているか?
結論:トレンドは「MCP採用」に向かっていますが、現時点では「OpenAPI (Swagger) + JSON Schema」が主流です。
現状 (OpenAPI / JSON Schema): TwilioやStripeなど既存の99%の製品は、従来のREST APIを提供しています。AIエージェント開発者は、これをAIが読める形式(JSON Schema)に手動、あるいはツールを使って変換して利用しています。
トレンド (MCP): Anthropic社などが提唱するMCP (Model Context Protocol) は、まさに「AIがデータを取得・操作するための標準規格」として急速に注目されています。
- ご指摘の通り、最新のAIネイティブなツール(E2BやBrave Searchなど)は、MCPサーバーを公式に提供し始めています。
- これにより、開発者は変換の手間なく、プラグアンドプレイでエージェントに「手足」を接続できるようになりつつあります。
4. 販売チャネルとターゲット(誰に売るのか?)
結論:売る相手は「AI」ではなく、まだ「人間の開発者」です。これを「B2D (Business to Developer)」と呼びます。
AIが勝手にクレジットカードを取り出して契約する時代はまだ来ていません。これらの製品は、エージェントを設計しているエンジニアやCTOに向けて販売されています。
誰に売るのか (ターゲット):
- AIエンジニア、ソフトウェア開発者
- プロダクトマネージャー (AI機能を製品に組み込みたい人)
- 企業のDX推進担当者
販売チャネル (どこで出会うか):
- 開発者コミュニティ: GitHub, X (Twitter), Hacker News, Reddit。ここで「このAPI、ドキュメントが分かりやすくて使いやすいぞ」と話題になることが最大のマーケティングです。
- ドキュメント: 開発者は営業マンの話を聞く前にドキュメント(説明書)を読みます。「Copilotにコピペするだけで動くコード」があるかどうかが購入の決め手になります。
- 統合プラットフォーム: Vercel Marketplace や LangChain の統合リストなどに掲載されることが、店舗の棚に並ぶことに相当します。
将来の展望: 将来的には、AIエージェント自身が「タスクを完了するためにこの有料APIを使ってもいいですか?」と人間に決済許可を求める(つまりAIが購買の一次判断をする)時代が来ると予想されていますが、現時点では「開発者に選ばれること」が全てです。
まとめ
- 呼び方: 「Tools」または「Agentic Infrastructure」。
- 違い: 「コードのためのAPI」ではなく「AIが意図を理解するための説明付きAPI」である点。
- 規格: 現状はREST APIだが、「MCP」が次世代の標準になりつつある。
- 顧客: AIではなく、その背後にいる「開発者 (B2D)」。
もし「B2Dビジネスの具体的な成功例」や「MCPの仕組み」など、深掘りしたい点があればいつでもお知らせください。
「B2Dビジネスの具体的な成功例」は知りたいです。
B2D(Business to Developer)ビジネスは、従来の「営業マンがスーツを着てCTOに売り込む」スタイル(Top-Down)とは真逆の、「現場のエンジニアが勝手に使い始め、気づいたら全社採用されている」というボトムアップ型の浸透戦略をとります。
AIエージェントの「手足」となるツール群も、まさにこの成功法則をなぞっています。 歴史的な「レジェンド級の成功例」と、今まさにAI分野で起きている「最新の成功例」に分けて解説します。
1. B2Dの「レジェンド級」成功例
これらは、現在のAIエージェント向けツールの手本となっている企業です。
① Stripe(決済)
以前の世界: 決済機能を導入するには、銀行との契約や複雑な書類手続き、数週間の開発期間が必要でした。
彼らの発明: 「たった7行のコード」をサイトに貼るだけで決済機能が実装できるAPIを発明しました。
成功の鍵:
- 圧倒的なドキュメント(説明書): 開発者が読んですぐ理解できる、美しく整理されたドキュメントを用意しました。
- 「営業お断り」: 「Contact Sales」ボタンを排除し、登録すれば即座にAPIキーを発行させました。
結果: 現在、時価総額は約10兆円規模。「開発者に愛されること」が最強の営業戦略であることを証明しました。
② Twilio(通信)
以前の世界: 電話機能をアプリに組み込むには、通信キャリアとの交渉や物理的な通信機器が必要でした。
彼らの発明: 「SMSを送る」「電話をかける」をWeb API化しました。
成功の鍵:
- 有名な看板広告: シリコンバレーの高速道路に、製品名ではなく「Ask your developer(君の会社のエンジニアに聞いてみな)」とだけ書かれた看板を出しました。「現場のエンジニアならTwilioの凄さを知っているはずだ」という自信の表れであり、経営者がエンジニアに意見を求めるきっかけを作りました。
AIとの関連: 今や、AIエージェントの「声」として再び爆発的に利用されています。
2. AI時代の「最新B2D」成功例
前回の回答で挙げたツール群の中で、現在進行形で成功している例です。
③ LangChain(AI開発フレームワーク)
概要: AIエージェントを作るためのライブラリ(道具箱)。
成功の戦略: 「タイミングとシェアの独占」
- ChatGPTのAPIが公開された直後、まだ誰も使い方が分からない時期に、「こうやって組み合わせると便利だよ」というコード(ライブラリ)を無料で公開しました。
- 瞬く間に「AIアプリを作るならまずはLangChain」という標準規格(デファクトスタンダード)の地位を確立しました。
マネタイズ: ツール自体は無料(オープンソース)ですが、企業向けに「AIの動きを監視・管理する管理画面(LangSmith)」を有料で提供し、成功しています。
④ Vercel(インフラ・ホスティング)
概要: 作ったWebアプリやAIエージェントを、ワンクリックで世界中に公開できるプラットフォーム。
成功の戦略: 「趣味の開発者は無料、成功したら課金」
- 個人のエンジニアには最高の機能を無料で提供します。これにより、エンジニアは個人の趣味開発でVercelに慣れ親しみます。
- そのエンジニアが就職したり、趣味のアプリがヒットして企業化したりした瞬間に、高額なエンタープライズ契約に移行させます。
AIとの関連: 「AI SDK」という開発キットを提供し、AIエンジニアの囲い込みに成功しています。
3. B2Dビジネスの「勝利の方程式」
これらの成功例に共通する、B2D特有の売り方があります。
| 戦略要素 | 従来のB2Bセールス | B2D(開発者向け)セールス |
|---|---|---|
| 意思決定者 | 部長・役員 (決裁権者) | 現場のエンジニア (インフルエンサー) |
| マーケティング | 展示会、テレアポ、接待 | 高品質なドキュメント、GitHub、Discord |
| 導入障壁 | 見積もり作成、契約書締結 | npm install (コマンド一発)、APIキー即発行 |
| 価格モデル | 月額固定、初期費用あり | 従量課金 (使った分だけ)、初期費用ゼロ |
| 信頼の源 | 会社の歴史、営業マンの人柄 | コミュニティの活発さ、スター数 (GitHubの「いいね」) |
結論:「AIに売る」の正体
「Tools & Actions」の販売チャネルについてのご質問への答えに戻ると、これらを提供する企業は、「AIエージェントを作ろうとしているエンジニアが、週末の趣味開発で試しに使ってみたくなるような体験(Developer Experience)」を作り込むことに全力を注いでいます。
エンジニアが「これ使いやすいな」と思えば、そのコードがそのまま企業のプロダクトに採用され、やがて大きな売上(API利用料)につながるからです。
次のステップ
B2Dビジネスの全体像が見えてきたかと思います。 ここで視点を少し変えて、「これらAPI製品の『価格モデル(従量課金)』は、具体的にどれくらい安くて、どうやって利益を出しているのか(AIAPIの原価構造)」といった、より経済的な側面に興味はありますか?
興味があります。解説してください。
AI APIビジネス(Tools & Actions)の経済構造は、一見すると「驚くほど安く、どうやって儲けているのか不思議」に見えます。しかし、そこには「デジタルな仲介料(アービトラージ)」と「規模の経済」という明確な収益ロジックが存在します。
この業界の「価格感」「原価構造」「利益の出し方」について解説します。
1. 驚異的な安さ:人間 vs AIエージェント
まず、AIエージェントを動かすコスト(API利用料)がいかに安いか、具体的な数字で見てみましょう。
| 業務 | 人間(時給/件単価) | AIエージェント(APIコスト) | コスト比 |
|---|---|---|---|
| Web検索・調査 | 3,000円/時 (調査員) | 約 0.8円 / 回 (Tavily) | 約 1/3000 |
| 電話対応 (1分) | 100円/分 (コールセンター) | 約 10〜20円 / 分 (Vapi + 通信費) | 約 1/5 〜 1/10 |
| メール作成・送信 | 50円/通 (事務) | 約 0.1円 / 通 (LLM + SendGrid) | 約 1/500 |
| ブラウザ操作 | 1,500円/時 (入力作業) | 約 1〜2円 / 分 (Browserbase) | 約 1/20 |
このように、AI APIは人間と比較して圧倒的に安価です。しかし、API提供企業はボランティアではありません。彼らはこの低価格でも利益が出る仕組みを作っています。
2. どうやって利益を出しているのか?(3つの収益モデル)
AIツール企業の利益の源泉は、主に以下の3パターンに分類されます。
① 「手間賃」モデル(Integration Arbitrage)
多くのツールは、実は裏側で「別の安いAPI」を叩いています。その差額が利益です。
例:電話AI(Vapi など)
売価: ユーザーから $0.05/分 を受け取る。
原価: 裏側で以下のAPIを高速連携させているだけです。
- 耳:Deepgram (音声認識) = $0.004/分
- 脳:OpenAI (GPT-4o mini) = 約$0.001/分
- 口:ElevenLabs (音声合成) = $0.02/分
粗利: 約 $0.025/分 (利益率 50%)
付加価値: 自分でこれらを繋ぐと「遅延」が発生し、会話が成立しません。Vapiは「超低遅延で繋ぐ技術」に対して手数料を取っています。
② 「最適化とキャッシュ」モデル(Optimization)
特に検索系やデータ処理系で見られるモデルです。「毎回同じ処理をしない」ことで原価をゼロに近づけます。
例:検索AI(Tavily / Exa)
- 仕組み: ユーザーが「昨日のAppleの株価は?」と聞きます。
- 初回: 実際にWebをクローリングしてコストがかかります。
- 2回目以降: 過去の結果(キャッシュ)を返すだけなので、原価はほぼゼロです。
- 利益: 多くのユーザーが似たような検索をするため、ユーザーが増えるほど利益率が急上昇します。
③ 「エンタープライズ税」モデル(The Enterprise Tax)
これがB2Dビジネスの真のドル箱です。 個人の開発者には原価ギリギリ(あるいは赤字)で提供してシェアを取り、大企業からガッツリ回収します。
フリーミアム: 開発者は月額0円〜数千円で使います(ここは利益度外視)。
エンタープライズ版: 企業が本格導入する際、以下の機能が必要になります。
- SSO(社員のログイン管理)
- SLA(稼働率99.9%保証)
- SOC2(セキュリティ監査対応)
- 専用サポート
価格: これらが付くと、API単価ではなく「月額 数十万円〜数百万円」の固定契約になります。ここが莫大な利益を生みます。
3. 原価構造(COGS: Cost of Goods Sold)
では、彼らが支払っている「原価」の正体は何でしょうか。 基本的には「計算資源(Compute)」と「通信(Bandwidth)」の2つです。
GPU / クラウド費用 (AWS, Google Cloud, CoreWeave):
- AIモデルを動かすためのGPUサーバー代が最大のコストです。
- しかし、最近は「GPT-4o mini」や「Llama 3」のような「高性能かつ超軽量なモデル」が登場したことで、この原価は劇的に(1年前の1/10以下に)下がっています。これが現在の低価格化競争を支えています。
プロバイダーへの支払い:
- 電話なら通信キャリア(AT&Tなど)、検索ならインデックス維持費など、物理インフラへの支払いです。
4. リスクと未来:薄利多売の限界
このビジネスモデルには脆弱性もあります。これを「Wrapper(ラッパー)問題」と呼びます。
リスク: 「OpenAIが明日、同じ機能を無料で出したらどうする?」
- 実際、OpenAIが「ブラウザ機能」や「検索機能」を内蔵し始めたため、単純な検索API企業は危機感を抱いています。
対抗策:
- 特化する: 「医療データ専用の検索」「法律専用のデータベース」など、汎用AIが真似できないニッチな領域に潜る。
- 「つなぎ」を極める: 多数のツール(Slack, GitHub, HubSpot)との連携機能は泥臭く面倒なため、巨大IT企業もやりたがりません。そこ(Composioなど)に勝機があります。
結論
AI API製品は、「個々のAPIコール単価は激安(薄利)だが、キャッシュ技術や最適化で原価を下げつつ、大企業のセキュリティ/管理需要で高収益を上げる」という構造で成り立っています。
まさに「砂金(1回1円)」を集めて「金の延べ棒(エンタープライズ契約)」に変えるビジネスと言えます。
次のステップ
ここまでで、製品の種類、売り方(B2D)、そして儲けの仕組み(経済圏)までカバーしました。 もしご興味があれば、実際にこれらのツールを使って「簡単なAIエージェントを企画/設計する際の手順(どのツールを選定すべきか)」といった実践的な視点に移りますか?
「簡単なAIエージェントを企画/設計する際の手順(どのツールを選定すべきか)」
教えてください。
AIエージェントの企画・設計は、システム開発というよりは「優秀な新人スタッフへの業務マニュアル作成」に似ています。
「どのような道具(ツール)を持たせ、どのような手順で仕事をさせるか」を定義するプロセスです。失敗しないための標準的な5つのステップと、ツール選定の基準を解説します。
ステップ1:「Input」と「Output」を定義する
いきなりツールを選ばず、まずはエージェントに任せる仕事の「入り口」と「出口」を決めます。
Input(トリガー): 何が起きたらエージェントは動き出すのか?
- 例:Slackに特定のメンションが来た時? 毎朝9時になった時? Webサイトの問い合わせフォームが送信された時?
Output(成果物): 最終的に何をしたら「完了」なのか?
- 例:Slackに要約を投稿する? スプレッドシートに行を追加する? 顧客にメールを送信する?
ステップ2:業務フローの分解(タスクの粒度)
その仕事を人間がやる場合の手順を、可能な限り細かく分解します。これを「思考の連鎖(Chain of Thought)」と呼びます。
【例:競合ニュース監視エージェントを作りたい場合】
- Googleで「〇〇業界 AI」と検索する
- 検索結果の上位5つの記事を開く
- 記事の中身を読んで、自社に関連するか判断する
- 関連する場合、要約文を作成する
- Slackの「#競合情報」チャンネルに投稿する
ステップ3:スタックへのマッピング(ツール選定)
分解した手順ごとに、前回解説した「AIエージェント・スタック」から最適なツール(API)を当てはめていきます。ここが「買い物リスト」の作成です。
| 手順 | 必要な機能 | 推奨ツール選定案(松・竹・梅) | 選定理由 |
|---|---|---|---|
| 全体 | 脳 (Brain) | OpenAI (GPT-4o) または Anthropic (Claude 3.5) | 複雑な判断が必要ならGPT-4o。コスト重視ならGPT-4o-mini。 |
| 1. 検索 | 目 (Search) | Tavily または Perplexity API | Google検索(Serper)よりも、AI用にノイズを除去してくれるTavilyが設計しやすい。 |
| 2. 閲覧 | 目 (Browse) | Firecrawl または Browserbase | 記事の中身(本文)をきれいに取得するならFirecrawlが現在最強です。 |
| 3. 判断 | 脳 (Logic) | (LLMのプロンプトで制御) | ツール不要。「自社の事業内容は〜である」という指示をプロンプトに書く。 |
| 4. 要約 | 脳 (Logic) | (LLMのプロンプトで制御) | ツール不要。 |
| 5. 投稿 | 手 (Action) | Slack API (またはWebhook) | 標準的なAPI。簡単に実装するならWebhook。 |
ステップ4:オーケストレーション(組み立て方)の選定
選んだAPIツールをどうやって繋ぎ合わせるか、「接着剤」となる環境を選びます。ここがプログラミング能力によって分かれます。
A. 【初心者・非エンジニア向け】 No-Code / Low-Codeツール
コードを書かずに、画面上で箱と線を繋いでエージェントを作ります。まずはここから始めるのが鉄則です。
- Dify (ディファイ): 現在、日本で最も人気。直感的にRAGやエージェントが組めるオープンソースツール。
- n8n (エヌエイトエヌ): ワークフロー自動化ツール。LangChainの機能が組み込まれており、非常に柔軟。
- Make (旧Integromat): 従来の自動化ツールだが、AI連携機能が充実している。
B. 【エンジニア向け】 Code-First フレームワーク
Python等のコードで記述します。複雑なループ処理や、本番環境への組み込みに適しています。
- LangGraph: 現在の業界標準。状態管理ができ、粘り強いエージェントが作れる。
- Vercel AI SDK: Webアプリとして公開するならこれ。
ステップ5:コストとフィージビリティ(実現可能性)の確認
最後に「お財布」と相談します。
APIコスト試算:
- 「1回動かすのにいくらかかる?」
- 例:検索($0.01) + 閲覧($0.005) + 推論($0.01) = 約4円/回
- これを「毎日100回」動かしても予算内か?
速度の確認:
- 検索やブラウジングは数秒かかります。ユーザーを待たせても良い用途か?(チャットボットなら遅いと嫌われるが、裏側の処理ならOK)
実践:まずは何から始めるべきか?
もしあなたが「初めてAIエージェントを作る」のであれば、以下の構成(ゴールデンパス)を推奨します。
- オーケストレーション: Dify(クラウド版なら無料枠ですぐ試せます)
- 脳: GPT-4o(Dify内でキーを入れるだけ)
- 手足: Tavily(検索用。Difyに標準搭載されています)
最初のアクション: Difyを使って、「私の代わりにネットで〇〇について調べ、レポートにまとめてくれるエージェント」を作ってみてください。 これを作るだけで、「指示の出し方」「検索APIの挙動」「LLMの癖」がすべて体感的に理解できます。APIキーを取得して設定画面に入力するだけなので、エンジニアでなくても1時間程度で作成可能です。
Difyなどのノーコードツールでプロトタイプ(試作品)を作り、挙動に満足したら、本格的なPython実装(LangGraph等)への移行を検討するのが、最も失敗の少ない開発手順です。


米国において、AIエージェントの普及は「Headless SaaS(ヘッドレスSaaS)」や「API-First」と呼ばれるトレンドを加速させています。
ご指摘の通り、「CRMなどのSaaSが衰退している」という議論は、正確には「人間が画面(UI)を操作して入力・管理する従来のSaaS利用モデル」が衰退し始めているという文脈で語られています。AIエージェントは人間用の画面を必要とせず、裏側のAPIを直接叩いて業務を完結させるため、企業は「使いやすい画面を持つSaaS」よりも「AIが操作しやすいAPIを持つ製品」を好むようになっています。
AIエージェントがCRMの代わりに呼び出している代表的なAPI製品群(通称:AIエージェント・スタック)を、機能別にいくつかご紹介します。
1. AIエージェントの「目と耳」となるAPI
これらは、従来のCRMに手動で入力していた見込み客情報や問い合わせ内容を、AIが自律的に収集・対話するために使われます。
Tavily / Exa (旧 Metaphor) / Firecrawl
Vapi / Retell AI / Bland AI
2. AIエージェントの「手足」となるアクションAPI
AIエージェントがCRM上のボタンをクリックする代わりに、実務(メール送信、決済、予約など)を直接実行するためのAPIです。
Twilio / SendGrid
Stripe / Plaid
Cal.com
3. AIエージェントの「操作代行」ツール(Headless Browser)
APIが公開されていない古いSaaSやウェブサイトを操作するためのツールです。
Browserbase / MultiOn
具体的な「CRM代替」のシナリオ例
従来のCRM(Salesforce等)と、AIエージェントによるAPI連携の比較は以下のようになります。
結論:CRMは「データベース」に回帰している
「CRMが衰退した」といっても、顧客データそのものが不要になったわけではありません。Salesforce自身もこれに危機感を抱き、「Agentforce」のようなエージェント機能を強化しています。
しかし、新興企業を中心に「高価なUIを持つCRMは不要で、安価なデータベースと、優秀なAPI群(Twilio, Tavily, Vapi等)があればよい」という考え方が広がっており、これが「SaaSのアンバンドル(解体)化」と呼ばれる現象を引き起こしています。
次のステップ
AIエージェントが具体的にどのような構成(スタック)で作られているのか、あるいは「Vapi」や「Tavily」といった特定の注目製品について、より詳細な情報や導入事例をお調べしましょうか?