利用者がスマートスピーカーに向けて話し掛けた内容に対して，スマートスピーカーから音声で応答するための処理手順が (1) ～ (4) のとおりであるとき，音声認識に該当する処理はどれか。

令和６年度 ITパスポート試験公開問題問78 解説音声認識の処理

スマートスピーカーが動作する仕組みを、入力から出力までの流れ（パイプライン）で理解することが正解への近道です。

音声認識とは、人間が発した音の波形データを、コンピュータが扱えるテキストデータ（文字列）に変換するプロセスを指します。今回の問題では、(1)がこの「音をテキストに変える」段階に該当するため、正解はアとなります。

音声対話システムの処理プロセス

スマートスピーカーやチャットボットなどが応答を返すまでには、大きく分けて4つの段階があります。試験ではこの順序を入れ替えた選択肢が出されることも多いため、以下の流れを覚えておきましょう。

音声認識：入力された音声を解析し、テキストデータに変換する。
自然言語理解：変換されたテキストから、利用者が何を意図しているか（何をしてほしいのか）を解析する。
対話管理：現在の文脈や状況を踏まえ、どのような応答をすべきか決定する。
音声合成：決定した応答内容（テキスト）を、人工的な音声データに変換して出力する。

思考プロセス：なぜ（1）が音声認識なのか

この問題を解く際には、システムが「何を、何に変換しているか」に注目します。

まず、人間の声は「音（アナログ信号）」です。これをコンピュータが意味のある情報として扱うためには、まずはコンピュータが読み取れる形式、つまり「テキスト（デジタル情報）」に直さなければなりません。この「音からテキストへ」という最初の変換作業が、まさに音声認識の役割です。

一方で、（2）の「自然言語理解」は、テキストになった言葉の意味をコンピュータが解釈する段階であり、（4）の「音声合成」は、逆にテキストを音に変えるという音声認識と逆の処理です。このように役割を整理することで、迷うことなく（1）が音声認識であると判断できます。

技術の構造と実用上の意義

このプロセスは、AI技術が社会に浸透している現代において非常に重要な基礎知識です。

スマートスピーカーだけでなく、議事録自動作成ツールや、カスタマーサポートの自動応答システムも、基本的にこの仕組みで動いています。例えば、会議の録音を自動で文字起こしするツールは、まさにこの「音声認識」技術がコアになっています。

試験においてこの問題が出題される意図は、ITシステムを「ブラックボックス（中身の見えない箱）」として捉えるのではなく、複数の処理が連携して一つの機能を実現しているという「コンポーネント指向」の考え方を理解しているかを確認するためです。身近な製品がどのような技術スタックで動いているかを分解して考える習慣をつけると、ITパスポートの他の分野（ネットワークやデータベース）の理解もより深まるはずです。

令和６年度 ITパスポート試験 公開問題 問78 解説 音声認識の処理

解説

音声対話システムの処理プロセス

思考プロセス：なぜ（1）が音声認識なのか

技術の構造と実用上の意義

参考リンク

令和６年度 ITパスポート試験公開問題問78 解説音声認識の処理