20分の余白が、思考の敷居を越えさせた
「どうやって統計的な発想をしているのですか?」という問いに答えるヒント
仕事と組織の中で繰り広げられる様々な対話。その中で、時折出てくるのが次の質問です。
どうやって統計的な発想をしているのですか? その方法を教えてください。
この問いに答えるのは容易ではありません。これは暗黙知そのものであり、単にこういうものですと説明しても応用できないからです。
一方、こうした暗黙知こそ、伴走支援の余白を使って伝えるとうまくいくことを経験してきました。今回のエピソードは、そんな独立後の伴走支援の中での話です。
詳細はあれこれ変えており、セミフィクションとして読んでいただけるとありがたいです。
独立後に、ピープルアナリティクスの専門家という看板を掲げ、データ分析プロジェクトのお手伝いをしてきました。その中のあるプロジェクトでご一緒したのがCさんです。
Cさんは30代前半の女性エンジニア。大手インフラ系企業の中で、社内SEからHRの中の分析チームに異動してきた彼女は、データ分析プロジェクトを経験するのが初めてという状況でした。
当時、私はデータサイエンティストとしてプロジェクトに入り、あるピープルアナリティクスの分析案件にどっぷりつかっていました。Cさんは、そのプロジェクトでサブリーダとしてアサインされており、メンバーのコンフリクトを調整をするなど大変優秀な方でした。
その一方で、キャリアとしてはインフラSEの道をずっと歩んでいたので、データ分析の経験はないとのこと。基幹システムからデータを抽出したり、クロス集計をしたりすることはできるのですが、分析のアプローチがわからないという悩みがあったようです。
プロジェクトが終盤に差し掛かったころ、公式なプロジェクト進捗会が終わったタイミングで、Cさんから私に「課題の相談があるのでこの後時間ありますか?」と声がかかりました。そして、1on1で話をすることに。
そして、プロジェクト課題についてサクッと話が終わった後に、少し間をおいて彼女はこのように打ち明けてくれました。
武田さんの分析コードやレポートを見させていただいているのですが、どうやって発想しているのですか? どうやったら自分でもできるようになるでしょうか。
自分でも分析できるようになりたいという非常に前向きな気持ちを感じつつも、同時に、前職であるインフラSEとの違いに戸惑っているのだろうと想像しました。
世間からみると、SE (System Engineer)とDS (Data Scientist)はIT系ということで似たような職種に見えるかもしれません。しかし、SEとDSは似て非なる職業です。スキルセットの違いはもとより、頭の使い方が180度違うといっても過言ではありません。
なぜそう言えるかというと、私自身がアプリケーションSEからDSに転じて七転八倒した経験があるからです。私は不器用でしたので、その転換に4年近くもかかりました。
私はCさんから相談を受けたときに、ぜひ協力したいと申し出ました。私はそのデータ分析プロジェクトに携わっていたものの短期的な契約であり、いつか誰かにバトンを渡す必要があると考えていたからです。
それを見越して、分析報告書だけでなく、分析に利用したPythonコードも「非公式な参考情報」としてお渡ししていました。
引き続きのときに工数を取ってトランスファーするのだろうと想像していましたが、すでに読み込んでくれていると聞いてとてもうれしくなりました。彼女には今の職場で新しいスキルを身に着けたいという意欲があったのです。
そして、契約外ではありましたが、プロジェクトの中で個別に時間を取って技術アドバイスや解説をするようになりました。
それから1か月後、プロジェクトは最終日を迎えました。その振り返りをしているミーティングの中で、Cさんは上司に「引き続き武田さんのアドバイスを受けたい」と上申したのです。大変ありがたい話でした。
その後、諸々の調整を行った上で、Cさんがメインの分析者、私がアドバイザ兼サブリーダとして育成と進捗を管理することになりました。実際の分析プロジェクトを1つ通してやることで、実践的スキルを身に着けるというものでした。
これが、私にとって初めての伴走支援の実践となりました。
伴走支援がスタートして最初のミーティングでのことです。Cさんとその上司、私の3人で分析プランニングを行いました。
テーマは組織サーベイの分析。従業員満足度のスコアを目的変数として、男女差やその他人事属性との関連を探るというもの。カチッとした因果推論でなく、ベーシックな重回帰で傾向を見出すという基本的なものに決まりました。
Cさんは元SEということもあって、Pythonの使い方に長けていました。また、公式なマニュアルや技術本からの学びも早く、手を動かすことも得意。そのため、その次の内部ミーティングでは、早々に重回帰の結果を出してくれました。
しかし、モデルの精度が上がらず、苦戦しているということでした。確かに、決定係数はほとんどゼロに近く、記述的分析としても考察が難しいという状況でした。
その後、彼女の上司から様々なアイデアや確認が矢継ぎ早に投下されていきました。例えば、
目的変数はどんな分布をしている? 必要だったら対数変換したら?
残差は確認した?
この変数は差分を取ったほうがいいよ。
交互作用はないかな。非線形な関係は仮定できない?
といった具合です。
しかし、Cさんの様子を見ていると、受け止めるだけで精一杯な様子が見えてきました。キーボードをたたいてメモを取りつつ、「それはどうやったら実装できますか?」というコメントが増えていきました。これは、分析思考からタスク思考に切り替わっていることを示すシグナルです。
そこで、私から次ような話をそっと持ち出しました。
どれも検討の余地がありますが、わかりやすいところからやってみませんか?
このようにして話を一度止めて、議論をスローダウンさせたのです。そして、変数の差分を取ってみるという基本的な話にフォーカスしました。
実は、このアイデアが最も優れていたわけでも、実装が簡単というわけではありませんでした。しかし、データのハンドリングというシンプルで難しいタスクを通して、統計的な考え方を伝授できるという直観が働いたのです。
データサイエンティストにとっては、差分を取るという言葉でおおよそのイメージがわくはずです。もちろん、それは文脈によって変わり、ひとつの変数において時系列的な差分を取る場合もあれば、変数同士の差を取ることもある。また、その変数の平均との差分を取ることもあるわけです。
しかし、「差分」という言葉はSEにとっては全く別の意味を持ちます。多くの場合、ソースコードのメンテされた部分のことをイメージするのではないでしょうか。そして、差分という操作の「仕様」を知りたくなり、結果としてオペレーティブな思考に入ってしまうのです。これはまさに私が苦労した点でした。
今回はある変数について、部署ごとの平均との差分を取るという話になりました。これは別の言葉でいうと、部署別に中心化するということです。
これは、その変数(たとえば時間外や人事評価値)のベースラインが部署ごとに大きく異なるときに有効な手段です。絶対的な数字で比較するよりも相対的に比較すると異なる見え方ができるわけです。
こうした何気ない変数の操作においても、比較可能性・相対化という重要な考え方が潜んでいます。
問題は、こうした考え方の本質が腹落ちしないまま、Pythonコードを書いてもスキルは向上しないということです。
しかし、上司からタスクが振られれば、とにかく間に合わせるために、難しいことをわきに置いて実装に走ってしまうはずです。そうしなければ、次回の進捗会で困ったことになるのですから。
そのため時間がないときでも、いったん余白を取って考える時間が必要なのです。
この例では、現実に存在するタスクから一つを引っ張り上げて、じっくりと考える時間を取りました。ホワイトボードを使ってゆっくり解説し、Cさんの考えや疑問を引き出しつつ、最終的には実装方法のヒントをお伝えしました。
さて、ある程度落ちついたところで、私は意図的に次の言葉を投げ込みました。
データを縦に(列方向)に見るのが分析のコツです。どうしても、横に(行方向)にみてしまいますよね?
この言葉によって、一瞬にして場の空気が変わったのを覚えています。
この問いかけは、彼女の発想の転換を促すうえでかなり重要だったようです。後々になって、「あの時の話でだいぶ統計的な考え方がわかるようになりました」という感想をいただきました。
これはデータ分析の経験がない人が普通にやることなのですが、一般的に表形式のデータテーブルがあった場合、その意味を取るために行(レコード)を横に見ていくことが多いです。
SEの目線ではレコードを一つの画面でエントリーされたものと捉えます。一方、機械エンジニアの目線では、そのレコードの背後にある設計図や仕様書をイメージしがちです。また、事務の方であれば伝票を想像するでしょう。
一方、データ分析においては、ひとつの列に同じタイプのデータ値が存在していることを前提に、その分布を見ることが基本行動になります。つまり、データは縦に見るものなのです。
このように、一般的な思考のクセとデータ分析に求められる観点は大きく異なりますが、その違いは両方を経験してはじめて実感します。また、その視点の切り替えの大変さは、敷居をまたいだ人にしかわかりません。
先ほどの問いかけはその敷居の存在を明示する言葉でした。しかし、この言葉を出すタイミングというのは結構難しいものです。
相談者が「わかるようでわからない」「でも、わかりたい」「わかったような気がするが違う気がする」という実感を持った瞬間。そこで示すことが大切です。
ここで取り上げた余白は、時間としては20分ほどだったと思います。60分のアドバイザリセッションの中では贅沢な時間の使い方になりました。
しかし、この20分こそが、彼女が統計的な思考法と向き合う効果的な一歩目になりました。



