データチームの目指すもの
見出し画像

データチームの目指すもの

政府CIO上席補佐官の平本です。データだけでなくデジタルサービス全般を担当しているのですが、今日はデータチームの紹介をします。

データチームは、はっきり言って地味です。

これからデータ社会が来るといったニュースでは、AIによる解析、自動走行する自動車など、未来に向けてキラキラしています。「データは21世紀の原油」と華々しくエコノミストに特集されていました。その通りです。原油のように精製して活用すれば、燃料にも服にもアクセサリーにもなるような大きな可能性を秘めています。
でも、原油を供給する人達は油まみれになりながら、ひたすら地味な仕事をしています。データの世界も同じです。AIで使いこなせるようになるまでには、ひたすら地味な作業が求められます。

原油がサービスになるまでは、探索・収集・精製・輸送といった裏方の泥臭い世界の作業と、取引化、サービスといったトレーダー、デザイナー、マーケッターによる華やかな世界の作業ががあり、データチームの仕事は全ての作業に関わることを示した図

何が大変なんでしょうか?

データといっても様々なものがあります。社会の中では、まだ紙で書いて提出するものも多いですし、何十年、ものによっては百年以上の紙の情報の蓄積があります。これらはデジタル化しないと検索や分析といった処理ができません。また、データといっても、更新されていないデータ、間違ったデータなども含まれていたりします。古い地図で自動運転したら危ないですよね。そのような実利用するには課題があるデータがたくさんあります。しかも、文字データだけではなく図面や画像データもあったりします。
これらを業務や様々な社会サービスで使えるようにするにはクレンジングというデータの修正作業を行う必要があります。そんなのAIにやらせればよいではないかという意見もよく聞きます。しかし、AIも万能ではありません。皆さんもよく上司からのメモの字が読めないこととかありますよね。それと同じように自動でクレンジングをするにも限界があります。

もう一つの課題が、データの量の爆発的な増加です。社会のいたるところにセンサーがつけられ、インターネットで情報があふれかえっています。このような膨大なデータだから分析することで新たな活用法も見つかってきていますが、一方で、的確にデータを収集し活用する環境や能力が求められています。

とてつもなくスケールの大きな仕事なんです。

地味で大変って、誰もやりたくない仕事みたいですよね。でも、データの仕事ってすごいんです。時間と空間のスケールが尋常ではありません。
最新技術は四半期毎に開発されており、スピード勝負の仕事です。システムやサービスは3年とか5年、長くて10年という寿命でじっくりと作られています。一方、データの設計は、数十年後、数百年後を見た仕事です。例えば、人生100年といわれますが、生まれたときにデータが作られ、没後に除籍簿が自治体で150年間保存されます。よって、データは将来250年以上の記録に耐えられる設計をしなければいけません。社会のグローバル化を想定してヨミガナや英字表記なども検討していくことになります。このように未来を想定した検討が求められます。
それだけではありません、今ある制度を見直すためには制度制定の経緯も調べる必要があります。日本の個人、法人、土地などの基本制度の骨格は明治時代にできたものも多く、過去100年以上さかのぼった経緯の検討も求められるのです。

また、データはグローバルに流通します。海外の企業が日本の企業に投資するとき、観光に来る人が日本の情報を集めたいとき、アジアの情報と比較したいときに使いやすいデータを提供していないと比較対象にもしてもらえなくなってしまいます。取引などでシームレスなビジネスを実現するにもデータの整備が欠かせません。しかも最近は分野横断のデータの連携が増えています。
さらに言語や習慣も違いますので、正確にデータを交換できるようにするには様々な検討が必要になります。令和3年5月7日、2021-05-07、May 5,2021のように日付の書き方も違うし、世帯の概念も各国で違います。このように、データの整備にグローバルな視点は欠かせなくなってきてます。そのため世界の国々と意見を交換しながら、データを整備していく必要があります。

距離はグローバル規模で、全ての分野に渡って、1850年から2200までの長い時間にわたる膨大なデータであることを示し、加えて、言語の違いと文化の違いも含まれる模式図

このような、スケールの大きな仕事ができるってすごいことではないですか?

具体的に何をしているかというと・・・。

大きく括ると、ルール、ツール、データの3つの柱で仕事をしています。

1つ目のルールですが、データを使うためには様々なルールに配慮する必要があります。個人情報保護2000個問題が典型的な例です。各行政機関が独自の個人情報保護ルールを作るので、複数自治体の個人情報保護に関連するデータを合わせて使うことが非常に難しくなっています。そのため個人情報保護ではありませんが利用規約に関しては、政府のwebサイトでは政府標準利用規約解説)を定め、自由にデータの活用ができるようにしています。またデータ取引やセキュリティなど考えるべきルールはたくさんあります。データ標準もルールの一種です。同じ対象に対して複数の標準が存在していたりして、これらも整理していく必要があります。
2つ目がツールです。データを利活用するためにはAIのように高度に処理するためのツールから、検索エンジン、データの形式を変換するコンバータなどのデータ連携や利活用するための基盤を整備する必要があります。また、これらのツールをビルディング・ブロックといわれる機能群で構成して、API連携させながら最適なサービスを実現する仕組みも必要になります。
3つ目がデータ自体の整備です。行政機関の保有する社会の基盤情報であるベース・レジストリの整備から、その他データの体系化や整備が必要です。さらに、社会全体のデータをどのように効率的に連携し活用できるようにするのか、そのデータを持続的に提供するにはどうしたらよいのかを考えていく必要があります。

この3つをバランスよく進めていかないと、データの価値を最大化する社会を作っていけません。中でも苦戦しているのがルールです。各組織が持っているルールはそれぞれの歴史があります。これらをデジタル時代に合わせて変えるための調整をしていくことが非常に大変です。

各国でも以下のように各レイヤーで取り組みを進めています。

欧州・米国・日本の各レイヤーの取り組み図。2020年末の欧州は、業務レイヤーに「行政サービス、法律、調達、European data potal、GAIA-X、IDS」を含み、インタオペラビリティレイヤーに「クラス図、BPMN、Validationツール群、データ標準、セマンティクス、データ品質」を含みます。2020年末の米国は、業務レイヤーに「行政サービス、予算」を含み、業務レイヤーとデータ連係レイヤーの間にData.govを配置しています。データ連係レイヤーにResource.data.govに包含される形で「ガイド群、連係ツール」を含み、データ連携レイヤーとデータレイヤーの間にInventory.data.govを配置しています。インタオペラビリティレイヤーに「クラス図、BPMN、データ標準、データ品質フレーム」を含みます。2020年末の日本は、業務レイヤーに「行政サービス、準公共分野」を含み、業務レイヤーとデータ連携レイヤーの間にData.go.jpと分野間連係基盤を配置しています。データ連携レイヤーに「トラスト基盤、連係ツール」を含み、データ連携レイヤーとデータレイヤーの間にレジストリ・カタログを配置しています。インタオペラビリティレイヤーに「データ標準、データ品質」を含み、全レイヤーを横断するかたちでアーキテクチャを配置しています。

データチームというと技術のスペシャリスト集団と思われるかもしれませんが、実は、将来社会の全体構想の検討やそのための制度変更の検討など、技術的背景は必要ですが、技術とは関係ない部分の仕事に多くの時間を使っています。

どんなチームで支えているのでしょうか

このようなスケールの大きな仕事を20人もいないチームで支えています。世界各国では100人規模で支えているのが当たり前で、日本より小さな国でも数十人の規模のチームを持っています。それでも、世界トップレベルの国と対等に議論などをしながら進めており、一応、日本は少数精鋭チームということになっています。

はっきり言って仕事は大変です。海外の動向を見て、戦略を作って、国内外に情報発信して、データも作って、紙が大好きな抵抗勢力と戦い続ける。また、分野横断の仕事も多いので、様々な業界や分野の勉強をする必要があります。行政、教育、健康・医療、農業、防災、スマートシティ、インフラ等、社会のあらゆる分野から相談がやってきます。

データチームが府省・自治体・産業界との調整と、ルール、ツール、データ整備と、普及・展開と、国際的情報交換・調整に関わっ ている図

このようなチームでプロジェクトを進めていくためには、メンバーの能力の向上と外部との協力関係の構築が重要だと考えています。そのため基礎情報の共有を大事にしており、基礎教材の整備やトレーニングコースの整備を進めています。
また、このような情報は職場で研修を行うとともに、誰でも広く利用できるようにオープンにしています。(資料は、データチームの公開データをもとに、業務時間外に自分の情報整理のために作ったものです。)しかし、教材や研修で伝えられるものは一部にすぎません。この教材を中心にコミュニティができ、その中の人がチームに参加してくるという、良い循環ができればと考えています。
また、教材や研修といっても、単なるデータに関するセミナーと何が違うのかと思うかもしれません。大きな違いは、人材フレームワークに従い整備されていることです。諸外国などのデータ人材モデルを研究して、データ人材モデルを作り、そのロールやスキルを定義したうえで教材を整備し、評価も含めフレームワークとして体系化した上で進めています。

教育・研修のフレームワークの図。SFIA、DDat、IPA等の教育・研修は、人材モデルをロール定義とスキルセットに分けて人材定義します。その後、コースウェア、コース、実務のステップを経て評価と人材定義にフィードバックされます。それとは別に評価体型、評価を経て人材定義にフィードバックされます。

徹底した成果重視と導入・普及とのバランス

チームのベンチマークは常に海外にあります。2013年に我が国のIT戦略として「世界最先端IT国家創造宣言」を閣議決定し2020年をターゲットに推進してきました。(2020年の創造宣言はこちら。また、その後継のIT戦略として2021年6月21日にIT戦略はデジタル社会の実現に向けた重点計画が決定されています)

我々のチームが目指すのは「世界最先端」です。

データチームは、そのためにデータ標準の整備、アーキテクチャの検討等、常に「世界最先端」を意識して取り組みを進めてきています。以下のように国際会議でも積極的に情報交換しています。

国際会議eu2018bg.bgの会場の写真

チーム外からは、取り組みのスピードが速すぎて年度で動いている行政機関はついていけないという批判もありました。でも「では、「世界最先端」を目指すのやめることにしますか」というと、みんなモゴモゴしてしまいます。チャレンジングな目標をたて、8割達成できたらすごいじゃないかくらいで取り組んできたことが重要だったと思います。(目標に書いて期限内にできないとすごく怒られますが、チャレンジが重要ですので、前のめりくらいがちょうどよいですw)

ちなみに成果は何かというと、「文字データの統一と国際標準化ヨミガナの検討」、「データ標準である共通語彙基盤推奨データセット行政データ連携標準」、「ショーケースとしての制度データベースgBizInfo」などがあります。また、6月4日には、申請や証明、報告書など様々な行政サービスのデータモデルのβ版及びデータ品質管理ガイドのβ版を公開しています。一般の方にはわかりにくいのですが、基盤を確実に固めていっています。

もちろん現場へのフォローも重要です。丁寧に取り組みを説明するとともにテンプレートなどを導入して現場がついてこれるような取り組みも併せて進めています。
本当は世界の最先端の国のように、各種資料を、BPMNやクラス図などのモデリング手法を駆使して描きたいのですが、あえて資料をワープロや表計算ソフトで作っているのは、現場の人が「まずは検討してみようか」と思えるわかりやすさと再利用性を考慮しているためです。

今後に向けた挑戦

世界各国が2030年頃をターゲットにしたデータ戦略を着実に進めています。データチームでも、2020年12月のデータ戦略タスクフォース第一次取りまとめを受けて、2021年6月18日に包括的データ戦略として取りまとめ、取り組みを強化をしているところです。2030年に世界各国がデータ社会を完成させ、グローバルな連携を図り始めるときに日本がそこに参加できるかどうか、今が正念場です。
まだ先ではないかと思うかもしれません。しかしデータ戦略はほかの戦略と違い一足飛びに実現が図れるものではありません。過去の紙による情報をデジタル化し、クレンジングして使えるようにしていく。その関連制度を直していく。2025年頃までに環境整備をして、データの整備に5年間というのはかなりタイトな予定になっています。

最初の関門である、「データの目的外利用禁止」というマインドセットを、「データは共有し、その価値を最大化する」というマインドセットに変えるだけでも相当壁は高いです。でもこれらの壁を一つ一つ越えていく必要があります。しかも、我が国が世界に提唱しているDFFT(Data Free Flow with Trust)という、安全安心なデータ環境を実現することも求められます。
実現するためには、強いリーダーシップの下で、これまでにない改革を進めていく必要があります。またそれを実施していくチームが必要です。

よって、データチームは、最高のチームによる世界最先端のデータ環境整備を目指しています。

ただしデータチームだけではこれらを実現するのは難しいのはわかっています。チームに直接参加するだけでなく、アイデアボックスによるオンライン対話、ワークショップ等、様々な参加機会、方法があります。また、ルール、ツール、データを整備していくためには各現場の取り組みが非常に重要になります。現場の創意工夫、改善意見なども取り入れながら、無理なく持続可能なデータ環境整備を整備していきたいと考えています。

2030年、「すぐそこにある未来」、を目指し頑張っていきましょう。

データチームでは、新たな仲間として以下のプロフェッショナル人材を募集中です。デジタル庁が掲げるミッションやビジョンに共感いただける方からのご応募お待ちしています。

<データエンジニア>
https://herp.careers/v1/digitalsaiyo/lW9sRKreUpwi
<データサイエンティスト>
https://herp.careers/v1/digitalsaiyo/FMZ-YnmkZ4ZA


ありがとうございます🙂
デジタル庁の公式アカウントです。私たちの大方針でもある「オープン・透明」をまっすぐに遂行すべく、いま取り組んでいるプロジェクトや法案の解説、想い、気付きなどを発信します。この発信文化があらゆる省庁や自治体に広がり、ひいては日本全体の「行政の透明化」に寄与すれば幸いです。