このコラムではたびたび最新のAI動向をお伝えしてきました。
AI開発者でもない筆者が何を書こうと、AI業界に影響はないかもしれませんが、だからこそいろいろと書ける自由もあります。
表題にある通り、子ども家庭庁が10億円もの予算を費やした虐待判定AIが導入を見送りました。
10億円かけた虐待判定AI、こども家庭庁が導入見送り…ミス6割で「実用化困難」
試作モデルがほぼ完成し、今年度に計10自治体の児相に協力してもらい、過去の虐待事例100件のリスクを判定させる検証を行った。精度を各児相の幹部が確認したところ、100件中62件で「著しく低い」などの疑義が生じた…
(読売新聞オンライン 2025年3月3日)
https://www.yomiuri.co.jp/national/20250302-OYT1T50076/
誤判定の中にはこのような問題が認められたそうです。
「子どもの体重減少といった重要な項目が抜け落ちていた」
「ケガがあった場合でもその程度や範囲まで記入する仕組みにはなっておらず、精度が低くなった」
(上記記事より引用)
これはあきらかにデータ収集に整合性がなく、事実だけを集めたテキストが学習データになっていたと考えられます。
また、窓口で対応している職員の経験や知見を正しく収拾したものではなかったとも考えられます。
つまり、AIが判断基準とする学習データに不備や不足、整合性のなさが虐待判定が低調につながったようです。
ところがこのシステムを評価した企業では、違った結果となっています。
中間報告(検証結果報告)について│検証結果を踏まえた考察
開発したAIツールは、AI技術の更なる進歩を踏まえた性能改良が必要であるため、現状でのリリースは延期することが望ましい。
(株式会社野村総合研究所 2024年12月26日)
https://www.nri.com/jp/knowledge/report/files/000040261.pdf
このシステムが失敗した原因は、AIがいまだ発展途上のためと技術的な限界をあげています。はたしてそうでしょうか。
もう少し詳しく紹介した記事があります。また、システム検証の記録のリンクも用意してあります。
こども家庭庁の“虐待判定AI” 検証報告に書かれた見送りの背景 「判定の6割に疑義」「重大な見落とし」
(ITmedia AI+>岡田有花 2025年03月03日)
https://www.itmedia.co.jp/aiplus/articles/2503/03/news183.html#l_yx_kodo_02.jpg
過去にこの件と似た事例があります。香川県三豊市がAIを使ったゴミ分別案内システムの開発を東京大学に依頼したが、正解率が94%にとどまったため導入を断念しました。
ChatGPTでの業務効率化を“断念”──
正答率94%でも「ごみ出し案内」をAIに託せなかったワケ
三豊市と松尾研の半年間
正答率99%を本格導入の条件にした理由を三豊市に聞くと「ごみ出し案内は正確性が特に求められる。AIが間違った案内をしてしまうとその案内に基づいて行動した市民や収集業者などに迷惑が掛かる。職員でも即座に回答できない問い合わせはあるが、時間をいただき調べてから正確な情報を回答している」と話す。
(ITmedia NEWS/松浦立樹 2023年12月15日)
https://www.itmedia.co.jp/news/articles/2312/15/news158.html
このケースでは、三豊市が求めていたものとAIシステムの実現可能性がまったくかみ合っていなかったことに問題があります。
人間の職員でも即答できない質問があるわけですから、AIにも回答を保留して人間に判断を仰がせる設定をもうければ良かっただけです。それで正解率は100%になったでしょう。
筆者が業務プログラム(航空機シミュレーター)を開発していた時は、事前に達成目標をもうけてそこに到達する方法を組み立ててから開発していました。訓練目的さえ達成できれば良いという共通する認識がありました。誰も飛行機を操縦する時と全く同じ体感や景色を求めてはいなかったのです。
もっとわかりやすく逆のケースをあげましょう。私たちはJRの券売機を使って目的地までのチケットを買うかカードにチャージすれば改札を通って電車に乗れます。しかし、ICカードを使ったことも電車に乗ったこともない人は、券売機の前でどうしたらよいのか途方に暮れることでしょう。
かつて鉄道網のない県から東京に来た方の話で、電車に乗っても目的地には着かないという苦情を聞きました。クルマなら目的地の会社までいけるが、電車は降りた後も会社を探さなくてはならない。不便だというのです。これが共通認識がない人がシステムになじめない例です。
94%もの正答率を出すAIシステムであれば、残りの6%は職員が支援する体制を作れば良かっただけです。それが判らなかったり許せないという自治体であるなら、最初から人手だけで行えば良かったのです。
社会に共通する認識があるからシステムは稼働できます。そこに共通認識のない人が入ってくると、どのようなシステムでも100%で動作することはありません。それはAIであっても同じです。
では、ChatGPTならこの問題をどう解決するのか。筆者がいくつかのニュースソースを元に、ChatGPTにシステム構築の可能性を考察させてみました。
学習データや日本の児童虐待の実情については筆者もChatGPTも持ち合わせていないため、あくまで試算にすぎません。また、開発に関わった方々や現場からデータを提供された職員の皆様を貶めることが目的ではありません。
虐待判定AIの開発費用についてChatGPTに相談してみた
1)ChatGPTが考えるベストな虐待判定AI(AI支援と本格的界学習)
相談内容
筆者)そこで相談だが。以下の条件でChatGPTさんに虐待判定AIの開発を発注したら、いくらでできますか?
- 提供する情報
- 虐待案件のデータ
- 虐待判定基準(整理した形で提供)
- または、ChatGPTが担当者に質問しながらしきい値を調整
- 運用方針
- AIはあくまでも参考資料として活用
- 複数の汎用AI(Claude, マイクロソフト, エックスなど)にも同様の質問をし、人間の判断を補助
ChatGPTの回答
面白い相談ですね! もしChatGPTが虐待判定AIの開発を受注するとしたら、費用は以下の要素で変わります。
① ルールベース + AI支援(シンプルで低コスト)
内容:
- Excelなどで整理された「虐待判定基準」と「過去事例」をもとに、ルールベースでスコアリング
- AI(ChatGPTやClaude)に対し、「基準と照らし合わせて妥当か?」と質問する機能を実装
- 人間の担当者が最終判断する前提
費用(概算):
- 500万~1500万円
- 期間: 3~6か月
- AI API利用料: 月額数十万円(OpenAI, Anthropic, MicrosoftのAPIを利用)
メリット: 低コストで実現可能
デメリット: AIの「学習」はしないため、完全な自律判定は不可
② 機械学習モデル開発(本格的なAI判定)
内容:
- 5000件以上の虐待事例データを元に、独自のAIモデルを学習
- AIがしきい値を動的に調整しつつ、担当者と対話しながら判定精度を向上
- ClaudeやGPT-4などの外部AIとも比較し、人間の最終判断を補助
費用(概算):
- 5000万~3億円
- 期間: 1~2年
- GPUクラウド利用費: 月額100万~500万円
メリット: 高精度なAI判定が可能
デメリット: 開発コストが高く、モデルのアップデートが必要
どちらの方式が良いか?
「① ルールベース + AI支援」で十分実用的と考えます。
もし「本格的な機械学習」に進むなら、
- 虐待事例データの増強(最低でも5万~10万件)
- AI判定の「説明可能性」の確保
- 誤判定リスクの管理
などが必要になります。
「開発の進め方」も含め、さらに詳細に詰めることができますので、どこまでの機能が必要か、ぜひご意見を聞かせてください!
筆者)うーむ、まだ高い方なぁ。サム・アルトマンさんがずいぶんと上前をはねてませんか?
コストをさらに抑える方法はあるか?
確かに、現在のAI開発コストはまだ高めです。ただし、コストを抑える工夫は可能です!
コスト削減のアイデア
- 既存の汎用AIを活用(ChatGPT, Claude, Geminiなど)
- **「専用AIを作らず、プロンプトエンジニアリング(指示の工夫)で運用」**すれば、開発コストを劇的に下げられる
- コスト: 開発費500万~1000万円、月額API利用料数十万円程度
- デメリット: 特定の判断基準に特化しにくい
- オープンソースAIを活用(Llama3, Mistralなど)
- クラウド利用を避け、オンプレミスの小型AIを導入(サーバー1台100万~300万円で運用可能)
- コスト: 開発費1000万~3000万円、サーバー維持費月10万~50万円
- デメリット: モデル更新が必要、メンテナンスコストあり
- 「Excel+AI」方式にして最小限の自動化
- Excel/Googleスプレッドシートと連携し、AIが判断理由を示す形にする
- コスト: 開発費300万~800万円、API利用料月5万~20万円
- デメリット: 完全自動化はできないが、実用性は十分
💡 → この方式なら、開発費1億円超のプロジェクトを1000万円以下に抑えられる可能性あり!
「上前をはねる問題」について
サム・アルトマン氏(OpenAI)やマイクロソフトがAI市場を独占しつつあるのは事実。
オープンソースAIの活用やクラウド依存を減らす工夫をすれば、コスト削減は可能。
ユーザーさんの狙いが「人間の補助としてのAI」なら、高額なGPUクラウドを使わずとも、十分な精度のものが作れるはずです。
💡 **「1000万円以下で実現できるか?」**という方向でさらに詰めてみますか?
【結論】
💡 1000万円以下でどれだけの支援システムができるかを検討すべき!
筆者)1000万円以下でどれだけの支援システムができるかを知りたいです。
2)支援システムとして安価なモデル
1000万円以下で可能な「虐待判定支援システム」
完全なAI自動判定ではなく、「人間の意思決定を補助する形」であれば、1000万円以下で十分に実用的なシステムを開発できます。
① 開発できる機能(予算内で実現可能)
「AIが虐待の疑いを判定する」のではなく、**「虐待判定担当者の意思決定をサポートする」**システムとして設計します。
🔹 できること
✅ 事例データベースの構築(Excel/Googleスプレッドシート連携)
✅ 「虐待チェックリスト」搭載(過去の判定基準を整理し、スコア化)
✅ AIによる「参考意見」の提示(ChatGPTやClaude APIで相談内容を評価)
✅ 過去の類似事例を自動検索(データベース検索で「似たケース」を提示)
✅ AIとの対話機能(担当者がAIに補足情報を入力すると、判定基準を補強)
🔻 できないこと
🚫 完全なAI自動判定(最終判断は必ず人間が行う)
🚫 高度な画像・音声解析(文章データ中心のシステム)
🚫 大規模なデータ学習(GPTなどの汎用AIを使うため、学習は不可)
② 具体的なシステム仕様
💰 予算: 500万円〜1000万円以内
🕒 開発期間: 3〜6か月
🔧 開発技術: Python / SQL / Webアプリ(Django, Streamlit, FastAPI など)
📡 AI活用: OpenAI(ChatGPT API) or Claude API
【システムフロー】
1️⃣ 相談情報を入力(虐待相談のテキストを登録)
2️⃣ チェックリストと照合(事前に決めた判定基準でスコア計算)
3️⃣ AIが参考意見を表示(「類似事例では〇〇の判定がされました」など)
4️⃣ 過去の類似事例を検索(担当者が過去の判例を比較)
5️⃣ 担当者が最終判断(AIは補助的な役割)
③ 予算配分のイメージ
項目 | 費用(概算) |
システム設計 | 100万 |
データ整理・ルール作成 | 150万 |
AI API連携 | 200万 |
Webアプリ開発 | 300万 |
サーバー & インフラ | 100万 |
テスト・改善 | 100万 |
合計 | 950万以内 |
④ 予想される効果
🎯 判断基準の統一 → 担当者ごとのバラつきを低減
🎯 過去事例の活用 → データベース検索で経験不足を補完
🎯 AIの補助で効率UP → 「判断材料が増える」ことで意思決定をサポート
⑤ まとめ
💡 1000万円以下でも、AIを活用した「虐待判定の支援システム」は実現可能!
💡 ただし、最終判断は人間が行う形にするのが前提
** 皆さんの意見を聞かせてください!**
以上が筆者とChatGPTで交わした問答です。読者の皆さんはどのようにお感じになられたでしょうか。(水田享介)