いくら請求すべきか？AIを見積もりの指標に。

ソフトウェア業界は何十年もの間、間違ったものを測り続けてきた。

開発者が非生産的だからではない——測定ツールが思考ではなく活動を捉えているからだ。作業時間、コミット数、完了したストーリー。すべて数えられ、すべて可視化されているが、問題がどれだけうまく解決されたかを理解するうえではほとんど意味がない。

AIは開発を加速するためだけに登場したわけではない。予期せぬものをもたらした：新しいシグナルだ。言語モデルとのすべての作業セッションは定量化可能な痕跡——トークン消費量——を残す。これにより、初めてタスクの背後にある実際の認知的努力を垣間見ることができる。

どんな方法論でも答えられない問い

フリーランスで開発しているか、コンサルティングチームを率いているかにかかわらず、すべてのプロジェクトで繰り返し登場し、ほとんど満足のいく答えが得られない問いがある：

これにいくら請求すればいい？

これはビジネスの問いではない。ビジネスの問いに見せかけた技術的な問いだ。適切に答えるには、問題の実際の複雑さを見積もる必要がある——そこですべてが複雑になる。

業界はさまざまな方法を試みてきた。工数は優秀な人間を罰する：2時間で解決する人は4時間かかる人の半分しか請求できない。ストーリーポイントは内部計画には役立つが、外部クライアントへの価格に変換することはできない。機能ごとの固定価格は、不確実性をすべて開発者側に押し付ける——そして開発者はほぼ常に過小評価する。

すべてに共通する根本的な問題がある：誰も客観的に測定できなかったもの——ソフトウェア問題の実際の複雑さ——への主観的な近似にすぎない。

AIはそれを変えるかもしれない何かをもたらしている。

なぜ複雑さは測定が難しいのか

2つのタスクは表面上似て見えても、深さでは根本的に異なる場合がある。

「登録フォームにフィールドを追加する」は簡単に聞こえる。しかし、そのフォームが3つのレガシーシステムに接続され、4つのレイヤーにバリデーションがあり、ビジネスルールを誰もドキュメント化していなければ、実際のタスクは外から見えるものとは無関係だ。

従来の指標はそれを捉えない。時間は経過時間を測るが、実際の難しさは測らない。ストーリーポイントはグループ見積もりを反映する。経験は助けになるが、スケールしない。

常に欠けていたのは、事前見積もりからではなく、作業そのものから生まれるシグナルだ。

トークン：とは何か、何を表すのか

AIモデルとのすべてのインタラクションはトークンを消費する。簡単に言えば、1トークンは単語の一部に相当する。言い換えれば、トークンが明らかにするのは：問題を理解するために必要なコンテキストの量、質の高い回答に到達するまでの反復回数、道のりで積み重なった調整と修正の数だ。活動ではなく、定量的に可視化された実際の認知的努力だ。

具体例：データベースの初期スキーマ生成は約2,000トークンを消費する可能性がある。分散システムの並行性エラーのデバッグは50,000に達する可能性がある。この差は恣意的ではない——実際の複雑さを反映している。

浮かび上がるパターン：複雑さと消費量

AIでの作業履歴が十分に蓄積されると、完璧ではないが有意な相関関係が現れる：

レベル	タスク種別	推定トークン数	例
1 – 運用	低不確実性	500〜2,000	基本的なCRUD、シンプルなスクリプト
2 – 機能	中程度の変動性	5,000〜20,000	API統合、ビジネスロジックを持つモジュール
3 – システム	高不確実性	20,000〜100,000+	アーキテクチャ、複雑なデバッグ、深いリファクタリング

これは固定ルールではない。独自の履歴があれば、これらの範囲は調整され、予測可能になる。

3つのレベルの詳細

レベル1 – 運用：低不確実性。問題は明確に定義されており、解決策には明確な経路がある。AIは追加のガイダンスをほとんど必要とせず実行する。変動が小さいため、このレベルが最も見積もりやすい。

レベル2 – 機能：中程度の変動性。設計上の決定が関与し、システムのコンテキストが必要だ。AIは代替案を提案し、開発者が誘導、却下、調整する。ここでトークン消費は決定の反復という価値あるものを反映し始める。

レベル3 – システム：高不確実性。問題が不明確に定義されているか、複数のシステムが関与するか、文書化されていない依存関係がある。従来の方法では見積もりが最も難しいレベルで、トークンがシグナルとして最も価値を提供する。

シニア開発者はレベル3の問題（コード開発）でより少ないトークンを消費する。経験が豊富で、最初から問題を適切にフレーム化するための技術をおそらくより多く持っているからだ。これはモデルを無効にしない——シグナルは依然として有効だが、履歴は自分自身のものでなければならない。他の誰かのものではなく。

トークンから価格へ：履歴を活用する方法

トークン消費量を測定する真の価値は単一のタスクにあるのではなく——蓄積された履歴にある。

3週間、完了したタスクごとの消費量を記録したとする：

第1週：8タスクで180,000トークン → 平均約22,500/タスク
第2週：11タスクで210,000トークン → 平均約19,000/タスク
第3週：10タスクで195,000トークン → 平均約19,500/タスク

週に約200,000トークン、タスクあたり平均約20,000トークンという測定可能な生産能力がわかる。12の機能を持つ新しいプロジェクトが来たら、それらをレベルで分類し、予想される総消費量を履歴と照合して予測できる。

変わるモデル：時間から解決された価値へ

問題解決の複雑さをより正確に測定できるなら、その作業の従来の価格設定モデルは根本的に変わる。

従来のモデル

価格 = 時間 × 単価

このモデルには根本的な問題がある：効率を罰する。2時間で解決する人は8時間かかる人より少ない請求になる。たとえ提供された価値が同一でも。

新しいアプローチ

価格 = 複雑さ × 解決能力

複雑さは問題によって決まる。解決能力は開発者——使用するツールとその使い方を含む——によってもたらされる。レベル3の問題は、AIを適切に使って6時間で解決されるか、AIなしで6日かかるかに関係なく、実際の難しさを反映した価格を持つ。

トークンは単独でこのモデルを実装するわけではないが、価格交渉をより確かなものにする証拠を提供する。

トークンが解決しないこと

すべての消費が価値を反映するわけではない。不適切に設計されたプロンプトは多くのトークンを生成するが結果は少ない。AIを学習中だったり未知の領域を探索している場合、成果が正当化しなくても消費量は高くなる。シグナルにはノイズがある——そのノイズを調整するには時間がかかる。

経験は依然として最も重要な変数だ。シニア開発者はレベル3の問題をジュニアより少ないトークンで解決する。問題が単純だからではなく、最初から適切にフレーム化する方法を知っているからだ。

AIモデルは急速に進化している。今日30,000トークンを必要とするものが、6ヶ月後には8,000で解決できるかもしれない。履歴はツールの改善に合わせて更新する必要がある。

クライアントとの対話を代替しない。最終的に、価格設定は交渉でもある。トークンデータは議論を提供するが、自動的な答えではない。

チームへのオープンな問い

プロジェクトを見積もる前に複雑さを測定しているか、それとも見積もってから複雑さを発見するのか？
現在の価格設定のうち、独自データに基づくものと蓄積された直感に基づくものはそれぞれどれくらいか？
AIが数日を数時間に圧縮できることをクライアントが理解したとき、時間制モデルはどうなるか？
プロジェクトの価格は投資した時間を反映すべきか、解決された問題を反映すべきか？
自分の具体的な文脈において、今すぐトークンの測定を始めることに意味があるか——それとも、すでに知るべきことを教えてくれている別のシグナルがあるか？

結論

「これにいくら請求すればいい？」は引き続き難しい問いだろう。今より良いツールがあるからといって、ソフトウェアの複雑さが消えるわけではない。

しかし初めて、作業そのものから生まれる定量化可能なシグナルがある。トークン消費は問題を解決するのに関与した実際の認知的努力の痕跡を残す。

これは数式ではない。最初に記録したタスクから蓄積が始まる情報だ——そして1年後には、「いくら請求すればいい？」を自分のデータで答えられる問いに変える。

いくら請求すべきか？AIを見積もりの指標に。

どんな方法論でも答えられない問い

なぜ複雑さは測定が難しいのか

トークン：とは何か、何を表すのか

浮かび上がるパターン：複雑さと消費量

3つのレベルの詳細

トークンから価格へ：履歴を活用する方法

変わるモデル：時間から解決された価値へ

トークンが解決しないこと

チームへのオープンな問い

結論

AIモデルにおけるトークンとは正確に何ですか？

トークン消費量を記録するにはどうすればいいですか？

入力トークンと出力トークンは同じようにカウントされますか？

トークン消費量は使用するAIモデルによって異なりますか？

クライアントにトークン消費量で直接請求することは現実的ですか？