OpenAI Blog 2026/04/26 15:00

非定型データを「実戦」で動かす：食品流通のChocoがOpenAI APIで実現したAIエージェントの革新

要点

非定型データの自動構造化: 手書きのメモ、音声、メールといったバラバラな形式の注文を、OpenAIのAPI（Vision/Realtime等）を用いてERP（基幹システム）へ即座に連携可能なデータへ変換。
コンテキストの解決が鍵: 単なる文字起こしではなく、顧客ごとの「暗黙の了解（特定の商品IDへの紐付けなど）」をインコンテキスト学習（モデルに文脈を与える手法）で解決。
24時間365日の自動対応: Realtime APIの活用により、深夜や休日でも人間と話しているような低遅延の音声注文を実現し、販売機会の損失を防止。
AIネイティブな開発への転換: 「決定論的なソフト」から「確率論的なAIシステム」へのマインドセット移行と、AI専用の観測（Observability）基盤の重要性を提示。

冒頭：なぜChocoの事例が重要なのか

食品流通の世界は、デジタルトランスフォーメーション（DX）において最も「泥臭い」領域の一つです。レストランからの注文は、電話、SMS、電子メール、さらには手書きのメモを写真に撮ったものまで、あらゆる非定型な形で行われます。これまでは、これらを人間が解読して基幹システムに入力するしかありませんでした。

ドイツに本社を置くChoco社は、OpenAIのAPIをプラットフォームの核に据えることで、この巨大なボトルネックを解消しました。単なる「便利なソフトウェア」から、自ら意思決定し業務を遂行する「AIエージェント」へと進化した彼らの事例は、生成AIを実際のビジネスプロセスにどう組み込むべきか、その具体的なロードマップを提示しています。

詳細解説：AIエージェントを支える技術的アプローチ

Chocoが構築したシステムの核心は、バラバラな入力を一つの「インテリジェントな実行層」に統合した点にあります。ここでは、技術者として注目すべき3つのポイントを深掘りします。

1. マルチモーダル入力の統合処理

Chocoの「OrderAgent」は、テキストだけでなく画像や音声も処理するマルチモーダル（Multimodal）な設計になっています。

画像解析（Vision API）: 厨房で走り書きされた注文メモを画像として受け取り、品目と数量を抽出します。
音声処理（Realtime API / Whisper）: 留守番電話や通話から、自然な会話形式で注文を抜き出します。

ここで重要なのは、これらすべてのデータがOpenAIのAPIエコシステム内で完結しているため、開発チームはインフラの複雑さを意識せず、データの精度向上に集中できるという点です。

2. 「暗黙のコンテキスト」をどう解くか

エンジニアにとって最も興味深いのは、単なるOCR（文字認識）を超えた「インコンテキスト学習（In-context Learning）」の活用です。

食品流通には「暗黙の了解」が溢れています。例えば、ある顧客が「いつものトマト」と言ったとき、それがシステム上の「商品ID：TOM-001（20kg箱）」なのか「TOM-005（5kgパック）」なのかを判断しなければなりません。
Chocoは、各顧客の注文履歴やカタログ情報をプロンプトの一部として、あるいは動的に関連情報を取得するRAG（Retrieval-Augmented Generation：検索拡張生成）のような仕組みでモデルに提供しています。これにより、AIは「この顧客ならこの単位で注文するはずだ」という文脈を理解し、曖昧さを解消した上でERPに流し込める構造化データを作成します。

3. 低遅延の音声エージェント：VoiceAgent

新たに導入された「VoiceAgent」には、OpenAIのRealtime APIが採用されています。従来の音声認識（STT）→LLM処理→音声合成（TTS）というステップでは数秒の遅延（レイテンシ）が生じ、人間との自然な会話は困難でした。
Realtime APIにより、1秒未満の応答速度を実現したことで、レストラン側は「AIと話している」というストレスを感じることなく、電話越しにスピーディーに注文を完結できるようになりました。

現場からの教訓：AI開発の新しいスタンダード

Chocoのエンジニアリングチームは、AIを実戦投入するにあたって、従来のソフトウェア開発とは異なる3つの重要な教訓を挙げています。

評価（Evaluation）を初日から行う

LLM（大規模言語モデル）の出力は、同じ入力でも結果が変わることがある「確率論的」なものです。そのため、Chocoでは開発の初期段階から「正解データ（Ground Truth）」を10〜20件でもいいから用意し、プロンプト変更やモデルのアップデートが精度にどう影響するかを常に定量評価する体制を整えました。

AIネイティブな観測基盤（Observability）

従来のサーバーログ（エラーメッセージやレスポンスコード）だけでは、AIのデバッグには不十分です。

モデルにどのような命令（プロンプト）を送ったか
モデルがどのような「推論の軌跡（Reasoning Traces）」を辿ったか
最終的にどのような出力をしたか
これらをセットで記録し、可視化する「AIネイティブな観測」に投資することで、不具合の原因がプロンプトにあるのか、提供したコンテキストデータにあるのかを即座に判断できるようにしています。

ユーザーの期待値管理

AIは万能ではなく、数パーセントの確率で誤ります。Chocoはあえて「100%の自動化」を最初から目指すのではなく、AIの確信度が低い場合は人間のレビュー回すといった「オートメーションの閾値」を設定しています。これにより、信頼性を損なうことなく、段階的に自動化率を引き上げることに成功しました。

業界への影響・意義：エンジニアの役割はどう変わるか

Chocoの事例は、食品流通業界に留まらず、あらゆる「労働集約的なバックオフィス業務」を持つ業界への警鐘であり、希望でもあります。

これまでエンジニアの仕事は、人間がデータを入力するための「使いやすいフォーム」や「ワークフロー」を作ることでした。しかし、Chocoが示したのは、「人間が介在せずに業務を実行するインフラ（Execution Infrastructure）」としてのAIです。

これにより、非エンジニアの役割も変化しています。Chocoでは、プログラミングができない業務担当者が「エージェント・オーケストレーター」として、AIの振る舞いを設計し、業務ロジックを管理する新しい役割を担い始めています。エンジニアは、そのための高度なオーケストレーション基盤や、精度を担保するための評価システムを構築するという、より高次元なレイヤーへシフトしていくことが予想されます。

まとめ：次の一歩に向けて

Chocoは年間880万件以上の注文をAIで処理し、手動入力を50%削減、さらに人員を増やすことなく販売チームの生産性を2倍に引き上げました。これは、AIが「実験フェーズ」を終え、「実戦フェーズ」に入ったことを明確に示しています。

エンジニアとして私たちが注目すべきは、以下の3点です。

マルチモーダルへの対応: テキストだけでなく、音声や画像を扱うスキルセットの習得。
インコンテキスト学習の高度化: 膨大な社内データから、いかに適切な文脈をAIに手渡すかの設計。
確率論的な開発手法への適応: 厳密な評価フレームワークと観測基盤の構築。

まずは、身近な「非定型データの入力作業」をOpenAIのStructured Outputs（構造化出力機能）で試してみることから始めてみてはいかがでしょうか。Chocoが示した「AIエージェントによる自動化」の世界は、もうすぐ隣まで来ています。

元URL

https://openai.com/index/choco