見出し画像

デジタル庁2023年度事業 行政での生成AI利活用検証から見えた10の学び (1/3)

デジタル庁のAI担当の大杉直也です。この記事では、生成AIによる業務改善の一助になればと思い、実際の行政業務で生成AIの利活用を検討する際に得られた知見を共有します。
本記事は、「デジタル庁2023年度事業 行政での生成AI利活用検証の結果報告(以降、報告書とよびます)」で得られた知見を、よりわかりやすく具体的に示すために、「10の学び」の形式にまとめたものです。

その検証ではデジタル庁を中心とした行政職員を対象に、実際に複数種類のテキスト生成AIを取り扱える環境+ユースケースごとの独自開発を含むサポート体制を作り、(1)どの行政業務に対し、(2)どのようにテキスト生成AIを使えば、(3)どのくらい改善効果がありそうか、を調べました。また、報告書には含まれていなかった個別ヒアリング等による知見も反映させています。

文量が少し多くなってしまったため、全3回の構成で紹介いたします。第1回の本記事では10の学びのうち、最初の5つの学びをまとめます。この学びはテキスト生成AIの活用先の検討に役立つ内容となっています。残りの5つの学びは第2回と第3回の記事で紹介します。

今回得られたテキスト生成AIの業務活用への10の学びの一覧です。

  1. 時間の削減だけでなく品質向上も狙える

  2. 業務を工程に分解し、生成AIを使うべきでない箇所を意識する

  3. 「書く」だけでなく「読む」も得意

  4. 活用用途をチャットインターフェースに限定しない

  5. 「業務改善」だけでなく「システム改善」のためにもテキスト生成AIの検証環境は重要

  6. 初心者向けにコピペで使える状態が重要

  7. 作文に不慣れな人や、一般的な業務知識に乏しい人はテキスト生成AIの恩恵を受けやすい

  8. 繰り返し発生し、工程が切り出しやすい業務はテキスト生成AIの恩恵を受けやすい

  9. ソースコードの作成業務はテキスト生成AIの恩恵を受けやすい

  10. 情報検索機能は個別具体のニーズに応じた特化開発の余地がある

本記事では1~5の学びを解説します。


時間の削減だけでなく品質向上も狙える

テキスト生成AIによる業務改善の話題になると、「業務がどのくらい効率化できるか→作業時間が削減できるか」に注目されがちです。しかし、時間削減効果だけでなく業務の品質向上もテキスト生成AIの活用効果として考えられます。

業務効率化に対する期待に関する図表。因果関係は不明だが、テキスト生成AIの活用頻度が高いほど、効率向上効果を実感していた。
図 報告書93ページのアンケート調査の結果から。因果関係は不明だが、テキスト生成AIの活用頻度が高いほど、効率向上効果を実感していた。
アンケート調査の結果に関する図表。品質向上に対する期待も、業務効率化以上に効果を実感していた。
図 報告書95ページのアンケート調査の結果から。品質向上に対する期待も、業務効率化以上に効果を実感していた。

報告書のアンケートから、テキスト生成AIの活用により業務の品質向上が期待できることが示唆されました。しかし、この結果自体はテキスト生成AIの出力の品質が高いことを意味していません。

アンケート調査の結果に関する図表。テキスト生成AIの出力結果が常に適切と回答したのは少数派
図 報告書90ページのアンケート調査の結果。テキスト生成AIの出力結果が常に適切と回答したのは少数派。

テキスト生成AIで業務品質向上が狙える理由は、テキスト生成AIの回答結果の品質が常に職員の文章よりも品質が高い訳ではなく、テキスト生成AIの使い方を工夫すれば業務品質向上が狙える、と解釈する方が自然です。例えば、以下のような目的で生成AIを利用すれば業務品質の向上が狙えます。

(1)  自分の書いた文章の誤字脱字の確認や、不自然な箇所の指摘といったレビュー目的
(2)  読み手の属性に合わせた多様な文章の作成

レビュー目的での生成AIの利用は、日々の業務に追われる中で、レビューできる人が多忙になりがちで、その人に確認する前に手元で小さく確認できるようになるため、作文の改善サイクルを回しやすくなります。

また、読み手の属性に合わせた文章作成も、やった方がいいとは思いつつ普段はなかなか手が回らない業務になりがちで、生成AIを使うことで現実的に運用可能になる類の業務だと思われます。他にも具体的なユースケース別の検討で品質向上効果が狙えそうな業務が見つかったので、本記事の後半で触れます。

このように生成AIの活用を検討する際には、「既存の業務がどこまで効率的にできるか」だけでなく「生成AIがあることで品質向上もできるのでは」、「今まで手が回らなかった業務や新しいことが現実的に運用可能になるのでは」といった視点をもつことが重要であることが示唆されました。

業務を工程に分解し、生成AIを使うべきでない箇所を意識する

業務全体をいきなりすべて生成AIで置き換えようとせず、まずは業務を工程に分解し、その工程ごとに実現可能性を検討する進め方を推奨します。本報告書のユースケース A-1. パブリックコメントの対応の効率化を例にして解説します。

ユースケースの概要に関する図表。
図 報告書155ページから、ユースケースの概要。

パブリック・コメントは、国の行政機関が政令や省令等を定めようとする際に、事前に、広く一般から意見を募り、その意見を考慮することにより、行政運営の公正さの確保と透明性の向上を図り、国民の権利利益の保護に役立てることを目的としています。

e-gov パブリック・コメント制度について

そのため、担当する行政官はパブリック・コメントで集まった意見を漏れなく把握することが求められます。しかし、パブリック・コメントが1000件や10000件以上集まった場合に、限られた人手と時間でそのコメントすべてを熟読し理解することは非常に大変な仕事です。

あってはならないことですが、担当行政官の集中力が、現実問題として、すべてのコメントに対して十分発揮し続けられるかも課題になる可能性があります。このパブリック・コメントへの対応業務は、コメントを分類や一つのコメントに複数意見が含まれる場合の分割、といった工程に分解できることがわかりました。まずこれらの工程ごとにテキスト生成AIが実用可能かの試行錯誤を行いました。

ユーザーの作業分解とプロンプトの関連性に関する図。
図 報告書の156ページから。

その結果、意見の分類やコメントの分割・意見変換や要約等の工程で生成AIが高い性能を発揮することがわかりました。
これらの工程で生成AIを活用することで業務に必要な作業時間を大幅に短縮できると推定しました。

生成AI導入前後の作業ステップの変化に関する図。
図 報告書158ページから。

報告書に書かれている作業時間削減効果の数字は大まかな試算であって、実際にどこまで削減効果があるかはまだわかりません。しかし文章から自分で意見抽出を行う作業よりも、文章に対して意見抽出結果が正しいか否かだけを判断する作業では、処理時間や認知負荷が大幅に削減できることは間違いないでしょう。

作業自体の認知負荷が下がることで大量のコメントから意見抽出作業の集中力の維持もやりやすくなるはずです。そのため品質向上効果も期待できます。このように作業を工程に分解し、それぞれで実現可能性を検討することで、テキスト生成AIを実際に活用するための道筋が明確になります。

ただし、テキスト生成AIで実現可能だからといって、何でも任せて良いわけではありません。さきほどのパブリック・コメントの例だと、そもそもの目的は一般からの意見を募り考慮することです。テキスト生成AIの役割はあくまで大量のコメント読み込みの補助がせいぜいで、担当行政官がコメントの原文を読まなくて良いことには決してなりません。

極端な話、大量のパブリック・コメントから回答の原案作成までをAIによる完全自動化が技術的に可能であっても、それは行ってはならないです。事業者やエンジニアは技術的に可能かの判断に優れますが、業務本来の目的からすると不適切である、という判断は実際に業務に携わっている担当者が注意深く判断すべきであり、注意が必要な点です。

「書く」だけでなく「読む」も得意

テキスト生成AIはその名前から、つい「どんな文章を作文させるか」に活用方法の模索が偏りがちです。作文の原案作成やアイデアだし等の「書く」も得意ですが、「長文の要約」「難解な文章の平易な言い換え」「文章のラベル付け」「ソースコードの解釈」といった「読む」能力に着目した活用事例もたくさん考えられます。
検証したユースケースを「読む」能力に着目した分類を行うと以下のような表になります

表 報告書のユースケースにおいて、テキスト生成AIの「読む」能力がどのように用いられたか。

このように「読む」能力を活用したユースケースが多数考えられるため、テキスト生成AIの業務活用を検討する際には「何を人間の代わりに書かせるか」だけでなく「何を人間の代わりに読ませるか」にも注意を傾けることを推奨します。

活用用途をチャットインターフェースに限定しない

ユースケース別の検討によって、テキスト生成AIによる大量の文章のラベル付け需要が少なくないことがわかりました。しかし、ChatGPTに代表されるテキスト生成AIとチャットをする操作画面(ここではチャットインターフェース)で大量の文章をラベル付けするためには、手でコピペして1件1件テキスト生成AIに入力させる作業が必要になります。

テキスト生成AIはチャットインターフェース以外からも呼び出すことができるため、大量の文章を処理させる用途ではバッチ処理で大量に並列実行するためのシステム開発により利便性が高くなることが予想されます。

シーケンス図
図 報告書203ページより。LLMと書かれている箇所は大規模言語モデルのことを指し、本記事でのテキスト生成AIと同じ役割を持つ。

このようにテキスト生成AIの利活用方法をチャットインターフェースに限定しないことで、さらに利便性や業務効率の向上が見込めます。
また、システム経由でのテキスト生成AIを軸に考えれば、人間が途中で介在しない場合(例えばテキストデータ変換処理)にもテキスト生成AIが効果的に利活用できる例が見つけやすくなります。

「業務改善」だけでなく「システム改善」のためにもテキスト生成AIの検証環境は重要

チャットインターフェース以外の用途を検討するときにも、利用者が使いやすいテキスト生成AIを検証環境があると、「どの種類のテキスト生成AI(大規模言語モデル)」に「どのような指示(プロンプト文や各種パラメータ)を行えば」要件を満たせそうかの検討を非エンジニアでもできるようになります。ここで要件を固めることができれば、システム開発が仮に必要な場合であっても、あまり時間をかけずに実現しやすくなります。

実際にデジタル庁での検証では、行政職員が「これを実現したい」という要求をもって実際に自身でプロンプトを試しながらテキスト生成AIの比較を行い、その結果を元に民間専門人材がWeb API経由でテキスト生成AIをシステムから利用するプロトタイプを開発する流れが自然発生しました。

報告書144ページからの図。今回の検証環境では複数の大規模言語モデルの結果を比較できる機能の開発を行った。エンジニア向けの検証も意識し、細かいパラメータ設定も可能になっている。
図 報告書144ページから。今回の検証環境では複数の大規模言語モデルの結果を比較できる機能の開発を行った。エンジニア向けの検証も意識し、細かいパラメータ設定も可能になっている。

また、複数のテキスト生成AIを検証可能にしたことで、テキスト生成AI開発ベンダーによるロックインを防ぐ効果も狙っています。本検証ではOpenAI社のgptシリーズだけでなく、Anthropic社のClaudeシリーズ東京工業大学のSwallowも比較検証できるようにしました。
ただし、アンケート結果をみると、このPlayGround機能を活用している職員は少数派であったため、従来型の業務改善を目的としたチャットインターフェースと別のシステムとして切り出した方がいいかもしれません。ここはまだ検討中の項目です。

ここまで10の学びのうち、前半の5つの学びを紹介しました。前半の学びはテキスト生成AIの活用先を広げるためのものが中心でした。第2回の記事では、どちらかというとテキスト生成AI活用の組織定着に主軸をおいた内容になります。最後の第3回の記事ではテキスト生成AIを情報検索目的で利用するケースについて個別具体の少しマニアックな話をします。

関連するデジタル庁の採用情報はこちら

デジタル庁Techブログの記事一覧はこちら

デジタル庁の採用に関する情報はこちら


みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!