NHK BSチャンネで、AI開発の裏側に迫る番組、
「生成AIの正体 シリコンバレーが触れたがらない代償」[原題:The Cost of A.I.(オランダ 2023年 (C)VPRO)]
が放送されました。(放送日:2024年4月23日)。
この番組では最先端のIT技術として持て囃されるAI開発企業が、その輝きに隠された陰の部分を見事に抉り出しています。
「生成AIの正体 シリコンバレーが触れたがらない代償」
インターネット上などの膨大な情報を学習し、文章や画像、音楽など、様々なコンテンツを自動で生成する「生成AI」。社会を変える期待が高まる一方で、膨大なデータを処理しているのが低賃金の労働者であることはほとんど知られていない。
(NHK公式サイト/BS世界のドキュメンタリー)
AIから的確な答えを導き出すには、膨大なデータが必要です。そのデータは集めるだけでなく、AIが瞬時に関連データにアクセスできるよう検索タグをつけたメタデータを経て、分類作業を終えたデータセットが必要です。
AIが食べる(参照する)データ量の増大とともにこの作業も爆発的に増え続けています。一例を挙げると「ChatGPT」ではバージョンが上がる毎に、必要データ量は約100倍にのぼると言われています。その処理は人間による手作業でしか処理できず、IT企業だけでは追いつかなくなりました。こうしてデータセット作成の世界規模のアウトソーシングが始まりました。
その処理には先進国ではなく、途上国の失業者や紛争から逃れる難民があてられていると指摘します。ひと昔前なら大勢の難民を入国させると人目についたはずですが、今では通信回線を用意した遠方のどこかの国の施設で単純労働者として働かせ、作業成果だけを送信することで用は足ります。
この番組ではシリアやアフリカ地域がデータセンターに選ばれていると紹介しています。
先進国で稼働している高機能のAIサービスは、低い労働賃金、劣悪な労働環境、長時間拘束で得たメタデータが支えていると、ドイツなどの研究機関が報告しています。数ドルにも満たない時給で、一日中PCに向かう彼らはAIに与えたくない(記憶させたくない)データを取り除いては、エサとなるデータを整理させられています。本人たちは何のために働くのか知るチャンスはありません。
AIに食べさせたくないデータとは、具体的には殺人、暴行、などの破壊的行為の記録、自傷、自殺、薬物中毒などの生々しい映像です。こうした映像を大量に見続けた結果、正常で居られなくなる労働者もでているそうです。
最近ではアプリにネット巡回させてデータ(テキストのみ)を収集する「コモンクロール(common crawl)」が普及して、この問題は徐々に解決しているとIT企業は言いますが、それでもなお問題は残っています。
それはコモンクロールから導き出される生成AIの社会認識の偏りです。多分に欧米成人の白人男性の価値観、社会認識に基づいたデータセットにより、白人男性に近い回答が優先的に生成AIから吐き出されることが、しばしば問題となっています。(※もちろんこのことで白人男性が偏見に満ちているという事実はありません)
最後に一番の問題点は、生データの枯渇の問題です。生データとはここでは、人間が作った文章、画像、データ、作品などを指します。
早ければあと数年、遅くともあと5年程度で生データは枯渇して、生成AIに食べさせる人間が作った優良データはなくなるそうです。
その結果、何が起こるでしょうか。次に起こるのは生成AIが作成したにせデータをそれとは知らずにクロールが集め、それをまた生成AIが食べるという、人間がいっさいタッチしない(できない)悪夢の循環が始まることでしょう。
人間の五感を通さずに制作したデジタル作品が次の作品のデータとなる。これを繰り返した結果がどうなるかは誰も予測できません。
番組では平均値のデータからAIが生成を繰り返すと、最後には面白さも感動もない中途半端な作品を無数にネットに氾濫させるだろうと予測。「凡庸な幻覚」というネット社会が訪れるといいます。
これは筆者の想像でしかありませんが、AIにしか理解できないデータが果てしなく再生産されるネット世界となったら、そこにアクセスするのは生成AIしか許されなくなり、インターネット社会は人が気づかないうちにある日、忽然と終焉を迎えるかもしれません。
そういう悪夢のような未来を予測させる優れたドキュメンタリー番組でした。(水田享介)