AIとジェンダー表現…学習データに潜む差別が
田中東子さん(東京大学大学院情報学環教授)
2020年にマサチューセッツ工科大学(MIT)が謝罪した話を知っているだろうか?理由は、AIのシステムを開発するために用いられた学習のためのデータセットの中に、女性や人種的マイノリティーを侮蔑したり差別したりするような画像や言葉が含まれていたからである。
MITの件は特殊な例ではなく、2010年代後半にはマイクロソフトやIBMなどが開発した顔認識アルゴリズムが、白人男性の顔は認識できるのに、女性や有色人種の人たちの顔を認識する際に多くのエラーを出すことが指摘された。それ以外にもAIによるさまざまな判断のなかに、ジェンダーや人種をめぐる多くのバイアスが含まれていることが徐々に明らかになってきた。
例えば、お絵描きAIに「看護師の絵を描いて」とお願いすると、「アジア系の顔立ちの若い女性」の絵が生成されることが多い。AIの学習したデータが、私たちの社会にすでにあるイメージや表現、インターネット上の画像や言語に基づいているせいだ。
1970年代以降、多くの女性たちが、新聞やテレビ、広告などに表現される女性の性的なイメージやステレオタイプ(先入観)が私たちの社会にもたらす悪影響について批判してきた。しかし、差別的なジェンダー表現はマスメディアに残り続け、今日ではAIの学習データとして利用され、ジェンダー差別的なイメージや表現を拡大的に再生産する危険をもたらしている。
もちろん、AIシステムの開発側も学習データに潜む差別やバイアスに対して意識するようになってきた。しかし、企業や技術者にその判断を任せてもよいものだろうか。理工学部系や、ITテクノロジーを駆使するテック企業の人材に男性や人種的マジョリティーが多く人材の偏りがあることは、世界中で問題とされている。
そこで、EU議会は最近、安全性と基本的人権の順守を確保しながらイノベーションを促進するために人工知能(AI act)を承認した。いくつもの規制のポイントがある中で、ジェンダーや人種に関するバイアスを減らすために、EUの著作権法を守ること、トレーニングに使用されたコンテンツの詳細な内容を公開することなど、AIの学習データについて一定の透明性を満たす必要があるとしている。
さて、私たちの社会では、どのようなルールを作っていく必要があるだろうか?