AI の機械学習で利用するデータの取扱いに関する記述のうち，バイアスの低減や\nデータの品質を確保するために考えられる対策として，適切なものだけを全て挙げた\nものはどれか。\n\na 学習の目的に適したデータであることを確認する。\nb データの入手元・作成来歴を確認する。\nc データへのアノテーションの付与は学習目的に合わせて実施する。\nd 人間の目でも同定が困難と考えられる画像認識用のデータは除外する。

令和7年度 ITパスポート試験公開問題問8 解説 AIの機械学習とデータ品質

正解を導く考え方

この問題は、AI（機械学習）の精度と公平性を保つための「データマネジメント」の考え方を問うものです。バイアス（偏り）を減らし品質を上げるためには、データの「目的との一致」「出自の確かさ」「正確な意味付け」「ノイズの排除」がすべて重要です。

各選択肢を以下のように判断します。

a: 学習目的と無関係なデータを含めると精度が下がります。
b: データの出自が不明だと、著作権や倫理的なバイアス混入のリスクを検知できません。
c: アノテーション（ラベル付け）の基準がブレると、AIは学習できません。
d: 人間にも判別できないほど不鮮明なデータは学習のノイズ（誤学習の原因）になるため、除外や精査が必要です。

これら全てが品質確保のための適切なプロセスであるため、すべてを網羅した選択肢が正解となります。

データ品質がAIに与える影響

機械学習は「ゴミを入れればゴミが出てくる（Garbage In, Garbage Out）」という言葉で表されるように、学習データの質がAIの性能を決定づけます。

学習の目的に適したデータ（a）を選ぶことは、AIに「何を達成したいのか」を正しく教える第一歩です。また、データの入手元や作成来歴（b）を確認することは、AIの透明性や説明責任を果たす上で不可欠です。例えば、特定の性別や人種に偏ったデータセットを使用すれば、AIの判断にもその偏りが反映される「バイアス」が発生します。

アノテーション（c）とは、例えば画像認識において「これは犬、これは猫」と教えるような作業です。この基準が曖昧だとAIは正しい判断ルールを獲得できません。そして、ノイズの除去（d）については、機械学習モデルが過学習（特定のデータにだけ過剰に適応すること）するのを防ぎ、未知のデータに対する汎化性能を高めるために重要な工程です。

現場で求められるAIリテラシー

現在、多くのITプロジェクトでAIが導入されています。エンジニアやマネージャーは、ただツールを使うだけでなく、どのようなデータを使ってAIを育てているのかを管理する役割が求められています。

例えば、医療診断AIを開発する場合、入手経路が不明な画像データを使用すれば、法的なリスクだけでなく、患者の命に関わる誤診断のリスクを招くかもしれません。ITパスポートでこれらの知識を学ぶ意図は、AI技術を扱う際に「データという原材料の質に責任を持つ」というビジネス上の倫理観を養う点にあります。

令和7年度 ITパスポート試験 公開問題 問8 解説 AIの機械学習とデータ品質

解説

正解を導く考え方

データ品質がAIに与える影響

現場で求められるAIリテラシー

参考リンク

令和7年度 ITパスポート試験公開問題問8 解説 AIの機械学習とデータ品質