人事評価システムはなぜ機能不全に陥るのか？　カーネマン最新刊『NOISE』から読み解く

2021年12月28日 17:07

好評発売中のダニエル・カーネマン最新刊、『NOISE――組織はなぜ判断を誤るのか？』（ダニエル・カーネマン、オリヴィエ・シボニー、キャス・R・サンスティーン：著、村井章子：訳／早川書房）。
会社や組織に所属する人であれば誰もが経験するはずの「人事評価」。公平であるはずの評価で判断のばらつきが生じてしまうのはなぜか。その原因について考察した『NOISE』「第23章人事評価の尺度」を特別公開します。※〔〕は編集部注です。

NOISE 早川書房 — 『NOISE 組織はなぜ判断を誤るのか？』（早川書房）

第23章人事評価の尺度

まずはちょっとした実験をやってみてほしい。友人でも同僚でもいい、あなたのよく知っている人を3人取り上げて、親切・知性・勤勉の3項目について5段階で評価する。5が最高で1が最低である。さて評価を終えたら、今度はその3人をよく知っている身近な人（夫または妻、親しい友人など）に同じことを頼む。

これは、自分と他人とで評価がどれほどちがうかを実際に知るよい機会だ。できれば、なぜ評価に食い違いが出たのかを話し合ってほしい。すると、お互いの使う尺度がちがったと気づくかもしれない。つまり、レベルノイズ〔例えば裁判官であれば量刑に厳しめの人と甘めの人がいるように、判断者自身の平均からの偏差〕である。あなたは並外れてすぐれているときだけ5をつけるつもりだったが、もう一人の人は世間一般より上なら5をつけていいと考えた、という具合に。あるいは、どういう人を親切だと感じるか、頭がいいと評価するかがお互いにちがった可能性もある。親切だとか頭がいいといったことの定義はおそらく人によってちがう。

ではここで、3人の評価にはじつは昇進またはボーナスが関わっているとする。あなたともう一人は社内で部下の人事評価に携わっており、その会社は親切、知性、勤勉を基準に昇進やボーナスを決めるとする。そうとわかったとき、お互いの評価の差はどうなるだろうか。最初の評価のときと変わらないか、それともちがいはもっと大きくなるだろうか。結果がどうなろうと、方針や尺度のちがいはノイズを生む可能性が高い。これが実際に企業の人事評価の現場で起きていることである。

判断の入り込む余地は大きいか

ほとんどすべての大企業で、正式の人事評価が定期的に行われている。評価される側にとってはうれしいことではない。ある新聞は「誰もが憎む人事評価」という挑戦的な見出しを掲げたものだ。そして誰もが、人事評価にはバイアスもノイズも入り込むことを知っている（と私たちは信じている）。だがほとんどの人は、実際にどれほどノイズが大きいかを知らない。

理想の世界では、人事評価に判断の余地はない。客観的な事実だけで従業員の仕事ぶりをぴたりと評価できる。だが現代の組織の大半は、アダム・スミスの有名なピン工場とはちがう。ピン工場ではすべての労働者についてアウトプットが計測可能だった。だが、現代の企業では最高財務責任者（CFO）のアウトプットをどうやって測るのか。あるいは研究主任のアウトプットは？ナレッジワーカーと呼ばれる今日の知識労働者には、往々にして互いに矛盾するような目標のバランスをとりながら仕事をこなすことが要求される。だから、一つの仕事だけに注目して評価するのは正しくないし、歪んだインセンティブを与えることになりかねない。

たとえば医師1人当たりの外来患者数は病院の生産性を高める重要な要因の一つだが、医師がこの指標を上げることだけを考えるのは望ましくないし、それだけで評価され報酬が決まるのはさらに好ましくない。たとえば営業担当者の売り上げやプログラマーの書いたコード行数といった数値指標はあるにしても、こうした数字は額面通り受け取らず、なんでも気前よく買ってくれる顧客の多い地区を担当しているとか、非常に条件の厳しいプログラムを請け負ったなど、状況を考慮する必要がある。

こうしたさまざまな要因を考え合わせると、人事評価を客観的な数値基準だけに頼って行うことはまず不可能だとわかる。そこで、判断ベースの人事評価が広く行われているわけだ。

4分の1はシグナル、4分の3はノイズ

人事評価についてはこれまでに膨大な量の研究論文が発表されており、人事評価のノイズがきわめて大きいことは多くの研究で実証済みである。この陰鬱な結論を導き出した研究の多くは、大流行の360度評価を対象にしている。360度評価とは、評価対象者について上司、同僚、部下、取引先など立場のちがうさまざまな人から評価を受ける方式で、通常は多くの項目について多角的に評価する。

360度評価の結果を分析すると、まったくうれしくない事実が浮かび上がってきた。真の不一致、すなわち評価対象者本人の仕事ぶりに起因する不一致は全体の20～30％程度にすぎず、残りの70～80％はシステムノイズだったのである。

これほど多くのノイズはいったいどこで発生するのだろうか。人事評価の不一致に関する調査が多数行われたおかげで、いまではシステムノイズ〔同種・同質のケースにおける判断のばらつきのこと〕の構成要素がすべてわかっている。

人事評価をめぐるノイズの状況を描き出すのはけっしてむずかしくない。ここでは、2人の評価者リンとメアリーがいるとしよう。リンはだいたいいつも評価が甘く、メアリーはだいたいいつも辛い。つまりすべての評価対象者について、リンによる評価は平均的にメアリーより高い。これはレベルノイズである。

裁判官について論じた箇所で指摘したように、このノイズの存在は、リンとメアリーがどの対象者についてもちがう印象を受けているか、でなければ受ける印象は同じでも使う尺度がちがうことを意味する。

次にここで、リンがあなたを評価するとしよう。そして、あなた自身についてもあなたの業績貢献度についてもひどく低い評価をしたとする。ふだんはだいたい甘めなのに、あなたにはいつも辛い。これは私たちが安定したパターンと呼ぶものだ。このパターンはリンに固有の（しかもあなたを評価するときに固有の）パターンなので、パターンノイズ〔例えば裁判官で言えば、量刑が厳しめだからといって、すべてを同じだけ厳しくするわけでなく、事案によって厳しかったり甘かったりするように、判断者自身にばらつきが生じること〕を生むことになる。

最後に、メアリーは人事評価を行う直前に、会社の駐車場で誰かが自分の車を凹ませてしまったことを発見したとする。一方リンはその日の朝会社から予想外に多額のボーナスをもらって超ご機嫌だったとする。こうした出来事は言うまでもなく機会ノイズ〔天気が良いなど、一過性の原因による判断のばらつきのこと〕の発生源となる。

システムノイズの3つの構成要素（レベルノイズ、パターンノイズ、機会ノイズ）の比率については、調査によって異なる結論が出されているが、これはおそらく調査対象組織のちがいによるものだろう。だがいずれにせよ、ノイズが好ましくないことにちがいはない。多数の調査を分析して得られる結論ははっきりしている。人事評価は評価対象者の出来不出来を妥当に反映しているものだと私たちは期待するが、端的に言って、大半の人事評価はそうはなっていない。ある調査も「評価対象者の実績と人事評価との関係は弱い。控えめに言ってもはっきりしない」と総括している。

組織にはいろいろと事情があり、評価者が対象者の仕事ぶりを正しく認識していたとしても、それが評価に必ずしも反映されない。たとえば、評価者が「戦略的」な評価を行うケースがそうだ。

評価後の本人との面談で気まずくなるのを避けるために故意に評価を高くする、長いこと昇進が先送りされていた対象者に点数を大盤振る舞いする、あるいは、自分のチームにいる仕事のできない奴を他部署で受け入れてもらうためにわざといい評価をつける、などが戦略的評価に該当する。

戦略的な計算が評価を歪ませるのは当然だが、それだけがノイズの原因ではない。そう断言できるのは、一種の自然実験の結果が出ているからだ。360度評価が開発目的のためだけに使われたケースがある。つまり開発プロセスの一環として現場の評価者に使ってもらうが、この評価は実際の人事評価には使わないと説明する。すると評価者には（説明を信用する限りにおいて）、戦略的に評価を高くしたり低くしたりする理由はなくなるはずだ。

この自然実験ではその分だけ評価の質は向上したものの、システムノイズは相変わらず大きく、評価対象者本人とは無関係の不一致が真の不一致を上回った。純粋に開発目的の評価システムですらノイズを免れなかったのである。

360度評価の問題点

人事評価システムがこれほど機能不全に陥っているなら、評価に関与する人間は問題に気づいて改善すべきである。実際、過去数十年にわたり企業は数え切れないほどの改革に取り組んできた。改革に際してはこれまでに取り上げた判断ハイジーン手順も採用されているが、私たちに言わせればまだまだ不十分だ。

ノイズを減らすためにほぼすべての組織で採用されている手順は、判断の統合である。360度評価は複数の評価の統合にほかならない。360度評価は、1990年代に大企業では標準となった（専門誌ヒューマン・リソーシーズ・マネジメントは、1993年に360度評価の特集号を発行している）。

複数の評価者による評価の統合はシステムノイズを減らすうえで有効ではあるが、360度評価はそもそもそのために作られたわけではないことを肝に銘じる必要がある。その主目的は、上司による評価のみに依存する方式を改めることにあった。同僚や部下も評価に加われば、何を重視するか視点が変わってくる。今日の仕事は上司をよろこばせるためだけにするものではないのだから、この改革は有益なはずだった。360度評価がもてはやされるようになった時期は、組織がプロジェクトベースの流動的な形に変化した時期と一致する。

360度評価が計測可能な要素を客観的に予測できる点で有効であることは、いくつかの実証研究で確かめられている。だがこの評価方法には、それとして固有の問題もあることは指摘しておかねばならない。

コンピュータを使えば評価項目を追加するのはいとも簡単なうえ、企業の目標は多岐にわたり、また職務記述書にはむやみに煩雑な記載があるため、評価項目が膨大かつ錯綜したものになりやすい。かくして盛り沢山な質問票が評価者に渡されることになる。なにしろある会社の360度評価では、1人の評価対象者について各評価者が11分野46項目の評価をしなければならないのだ。これでは超人的に記憶力のよい評価者でないと、どの項目でどう評価したかを覚えていてこの項目とあの項目で矛盾しないように評価することはできないだろうし、評価対象者Ａ、Ｂ、Ｃ……に同一基準を当てはめることもできまい。

ある意味で、このむやみに複雑なやり方は単に無意味なだけでなく、むしろ有害である。たとえばハロー効果〔ある対象者を評価するときに、その人の目立つ特徴に影響を受けて他の特徴についての評価が歪められること〕が作用すると、独立していたはずの項目が独立ではなくなってしまう。最初のほうの項目でとびぬけて高評価または低評価をつけると、その後の項目はそれに強く影響されてしまうからだ。

加えて、360度評価システムの導入で評価にむやみに時間をとられるようになったことも深刻な問題だ。自社内にとどまらず顧客や取引先などからも評価を取得しなければならないので、どの会社でも中間管理職は部下や同僚などあちこちの社員の評価のみならず他社の社員の評価まで要求されることがめずらしくない。

これではシステム自体の目的がどれほど立派でも、時間の限られている評価者への要求が多すぎて、とうてい質のよい評価は期待できまい。この場合、ノイズを減らす試みはコストに見合わないと言わざるを得ない。この点については第6部でくわしく論じる。

最後に、360度評価といえども、あらゆる人事評価システムの抱える弱点と無縁ではない。それは水増し評価である。ある大手メーカーは、マネジャーの98％が「期待に完全に応えた」という最も高い評価を与えられていることに気づいた。ほぼ全員が最高の評価を得ているとなれば、この評価システムの存在意義を疑うのは当然だろう。

相対的な判断

水増し評価の問題を解決する方法は、理論上は評価方式を標準化することだ。そのためによく使われるのが、強制的ランク付け（スタックランキングとも言う）である。評価者はあらかじめ定められた分布（Aを20％、Bを70％、Cを10％など）に従って評価しなければならず、全員にAをつけることはできない。この方法はゼネラル・エレクトリックのCEOジャック・ウェルチが水増し評価をやめさせ人事評価を「公正に」するために導入して話題になり、多くの企業が追随したものの、のちに打ち切る企業が続出している。社員の士気やチームワークに好ましくない副作用があるとの理由からだ。

欠点があるとはいえ、ランキングのほうが絶対評価よりノイズが少ないことはたしかである。懲罰的損害賠償のところで述べたように（第15章参照）、何か基準なり参照値なりがあってそれに対して相対的に評価を下すほうが、絶対評価よりノイズが大幅に少ない。このことは人事評価にも当てはまる。

なぜそうなるのか、図17で考えてみよう。図には人事評価の二つの尺度を示した。A図は絶対評価の尺度である。ここでは評価者はレベル合わせを行い、従業員の「仕事のクオリティ」について、自分の受けた印象を尺度の目盛りに合わせる。これに対してB図では、「安全意識」という範囲の狭い評価項目について、評価対象者を相対的に評価する。具体的にはパーセンタイル・スケール上に、特定の母集団における位置付け（ランキングまたはパーセンタイル）を判断する。ここでは、評価者は三人の従業員（BN、MN、RF）を評価した。

B図のアプローチにはA図にまさる点が2つある。第一は、評価を細分化された項目（ここでは安全意識）だけに限定して行うことだ。これは、構造化という判断ハイジーン手順の一つであり、くわしくは次章で取り上げる。こうするとハロー効果を抑えることが可能だ（言うまでもなく、構造化が功を奏するのは評価項目を個別に扱う場合に限られる。「仕事のクオリティ」のような定義のあいまいな評価項目で対象者をランク付けしようとしても、ハロー効果は抑制できない）。

第二は、第15章で論じたように、ランク付けによってパターンノイズとレベルノイズの両方を減らせることである。チームのメンバー2人を比較評価するほうが、一人ひとりを別々に取り上げるより一貫性のある評価ができる（つまりパターンノイズを減らせる）。

さらに重要なのは、ランキングによって自動的にレベルノイズを排除できることだ。リンとメアリーが同じ20人のグループを評価するとしよう。リンがメアリーより甘めだとすると、2人の評価の平均は乖離するが、ランキングはそうではない。甘めでも辛めでも順位自体は同じである。

実際にも強制的ランク付けの主目的はノイズの削減にある。それはつまり、どの評価者の平均も評価分布も確実に一致するということだ。ランク付けが「強制」され、分布があらかじめ決められていれば、たとえばA評価は対象者の20％以下、C評価は15％以下というふうに割り当てられ、みんながその決まりに従えば、そうなる。

非強制的ランク付け

以上のように、強制的ランク付けは切望されている評価の改善をもたらす、はずだった。ところがこの方式の導入は往々にして猛反発を買うことになる。ここでは、強制的ランク付けが引き起こす厄介な問題に深くは立ち入らない（しかし問題の多くがこの方式の基本原理ではなく実行方法に起因することは言っておきたい）。それでも強制的ランク付けに伴う2つの問題点からは、広く当てはまる教訓を得ることができる。

第一の問題点は、絶対的な実力や実績と相対的なそれとを混同していることである。98％のマネジャーが最上位20％に入ることは、当然ながらできない。いや50％や80％に入ることだってできない。だが、全員が「期待に応えた」と評価することは十分に可能である。ただし、その期待が事前に絶対的に定義されていることが条件になる。

マネジャーほぼ全員が「期待に応えた」なんてことはあるはずがない、と多くのエグゼクティブは考えるだろう。もしそういうことが起きるとしたら、そもそも期待が低すぎるのであって、自己満足的なぬるい風土に問題があると言う人もいるかもしれない。

なるほどその見方は正しいかもしれないが、マネジャーの大半がほんとうに高い期待に応えたという可能性も十分にある。いや実際、とびぬけて優秀な人材を選抜したチームならそうなってもすこしもおかしくない。たとえばアメリカ航空宇宙局（NASA）の人事評価制度で宇宙飛行士全員が完全に「期待に応えた」と評価されたとしても、評価が大甘だと批判する人はいないだろう。

要するに相対評価に依存する評価制度が適切なのは、その組織において相対的な実力や実績が問題になる場合だけである。全員が絶対的には優秀でも一定のパーセンテージしか昇進させないという組織においては、相対評価は理に適っている。たとえば大佐の中から大将を選抜するといったケースがそうだ。だが多くの企業がやっているのは絶対的な出来不出来を評価する目的で相対的なランク付けを強制することであって、これはまったく理屈に合わない。この場合、必ず一定比率の人間を「（絶対的な）期待に応えていない」と評価しなければならないが、このようなやり方は残酷であるうえにばかげている。たとえば特殊部隊のようなエリート部隊でも、必ず10％は「不満足」と評価しなければならないことになってしまう。

第二の問題点は、上位は20％、中間は60％といった評価分布の強制的な割り当ては、評価対象の集団において大規模な母集団の分布が再現されるとの想定に基づいていることだ。この大規模な母集団の分布は、だいたいにおいて正規分布に近いとされている。だが、仮に母集団の分布がわかっていたとしても、1人の評価担当者が評価する小さな集団の分布にそれが再現されるとは限らない。たとえば数千人規模の母集団からランダムに10人を選んだとしよう。この10人のうちぴったり2人が母集団の上位20％に入っていることは保証されない（いや、「保証されない」は控えめにすぎる。そうなる確率はごく低い）。

しかも現実には問題はもっと深刻だ。チームの編成はランダムではないからである。あるチームはエリート揃い、あるチームは平均以下のメンバーばかり、ということがめずらしくない。

そうした状況で強制的ランク付けを行えば、エラーと不公平を生むだけだ。5人編成のあるチームでは全員が甲乙つけ難く優秀だとしよう。メンバーに差のないこのチームの評価に無理に差をつけようとすれば、エラーを減らすどころか増やすだけである。

強制的ランク付けの反対論者は、人間にランクを付けることが冷酷無慈悲であって結局はやる気を失わせると非難する。この主張が当たっているかどうかはともかく、強制的ランク付けの致命的欠陥は「ランク付け」ではなく「強制」のほうである。絶対的な実力や実績を相対評価の尺度に合わせるのも、甲乙つけ難い集団にランクを付けるのも、いずれも不適切な尺度で評価することになり、このような評価方式を強制すればノイズは必然的に増えてしまう。

ではどうするか？

人事評価の改善のために企業は鋭意努力してきたわけだが、その結果は惨憺たるものと言わざるを得ない。なにしろあれこれ努力したがゆえに人事評価のコストは大幅に膨らんでいる。2015年にデロイトトーマツが試算したところ、6万5000人の人事評価に毎年200万時間が費やされているという。あらゆる組織において、人事評価はする側にとってもされる側にとっても最も忌み嫌われる儀式の一つであって、それは昔から変わらない。

ある調査によると、管理職や人事部長を含む社員のじつに90％が、自分の会社の人事評価は期待される水準に達していないと考えているという。大方の管理職は日頃からそう感じていただろうから、この調査はそれを追認した格好だ。評価の本人へのフィードバックは、能力開発プランを伴って行われればその後の向上につながるはずであるが、実際にはやる気を起こさせるケースとやる気を失わせるケースが相半ばしている。

人事評価に関する調査を総括したある研究は、「過去数十年にわたって続けられてきた努力にもかかわらず、人事評価は相変わらず不正確な情報を量産しており、評価対象者の能力向上には何ら役立っていない」と断言した。

ではいったいどうすればいいのか。一部の企業はついに評価制度そのものを廃止するという過激な選択に踏み切っており、そうした企業の数は増えている。この「人事評価革命」の支持派は多くのハイテク企業、一部のプロフェッショナルサービス企業、そしてごくわずかな伝統的企業だ。こうした企業は、過去の実績の評価よりも将来志向の能力開発にフォーカスしたいと考えている。また、評価をするにしても数字を完全に追放した企業もある。つまり従来型の評価は断念したわけだ。

だが人事評価をやめない企業（こちらのほうが依然として圧倒的多数である）はどうしたらいいだろうか。ノイズを減らすために実行すべきは、正しい尺度を使うことである。つまり共通の準拠枠を持つことだ。準拠枠（frame of reference）は心理学用語だが、言うなれば判断の枠組みのことである。ある研究によると、評価フォーマットの改善と評価者のトレーニングを組み合わせれば、評価者による尺度の使い方の不一致を減らせるという

最低でも、評価尺度を設けるにあたって、何を評価するのか解釈の余地を限定できるような十分に明確な記述にすべきである。現在多くの企業が使っているのは、行動基準評価尺度（behaviorally anchored rating scales）と呼ばれるものだ。この尺度では、点数ごとに該当する行動が具体的に記述されている。図18の左側に行動基準評価尺度の例を示した。

だがデータを見る限りでは、行動基準評価尺度の導入で十分なノイズ削減効果が上がっているとは言いがたい。そこでさらに評価者を対象に準拠枠のトレーニングを行うと、評価者間の一致が高まることが確かめられた。トレーニングでは、評価項目別にさまざまなケースを動画で見せられ、ちがいを認識することを学び、自分の評価を専門家による「正しい」評価と比較する。

この動画が準拠ケースとなり、評価尺度のアンカーの役割を果たす。行動基準の目盛りのついた尺度に対して、こちらはケース尺度というわけだ。その例を図18の右側に示した。

ケース尺度が与えられている場合、アンカーとなるケースと比較して評価すればよい。つまりこれは相対的な評価となる。比較対照先のある評価は絶対的な評価に比べノイズが減るので、ケース尺度は数値や形容詞や行動基準の記述のある通常の尺度より検者間信頼性が高い。

準拠枠トレーニングは数十年前から知られており、ノイズが少なく精度の高い評価ができることも実証されている。にもかかわらず、さほど普及していない。理由は容易に推測できる。準拠枠トレーニングにせよ、ケース尺度にせよ、その他のツールにせよ、複雑で時間をとられるのである。

これらのツールが効果を発揮するためには、組織に合わせて、それどころか往々にして評価対象単位に合わせてカスタマイズする必要があり、しかも仕事に必要とされる条件が変わればひんぱんにアップデートしなければならない。となれば、すでに多額の投資をしている人事評価制度にさらに予算を投入することになる。しかし現状はむしろ予算縮小の傾向にある（ノイズ削減のコストについては第6部でもうすこし踏み込んだ分析をしたい）。

加えて、評価者に起因するノイズの抑制に努めようとすれば、それは評価者が個人的な目的で評価におよぼそうとする影響力を抑えることにつながる。マネジャーたちにノイズを減らすためのトレーニングを受けるよう命じるのは、追加的に貴重な時間を投じ、しかもこれまで振るっていた影響力の一部を放棄するよう命じるのと同じことであり、猛反発を食うのはまちがいない。じつのところ、準拠枠トレーニングに関する調査研究の大半は学生相手に実施されたものであって、現場のマネジャーが対象ではないのである。

人事評価という重要なテーマは、実務上でも評価そのものの考え方についても多くの疑問点を浮き彫りにしてきた。たとえば、人と人の相互作用に大きく依存する今日の組織において個人の出来不出来などというものはどの程度意味があるのか、と問う人がいる。それでもなお個人の評価に重要な意味があると考えるなら、自社における能力・実績分布は実際にどうなっているのかを真剣に分析する必要があるのではないか。ほんとうに正規分布なのか。あるいは一握りのスタープレーヤーの業績貢献度が偏って高く、あとは低調なのではないか。また評価の目的が最高の人材を見つけ出すことにあるのなら、全員の人事評価を行いその結果をアメとムチに使ってやる気を出させようとするのは果たしてほんとうに合理的なのか（そして効果があるのか）。

人事評価制度をこれから設計する人あるいは手直しする人は、これらの問いやさらにもっと多くの問いに答えを出さなければならない。ここではこうした問いに真正面から取り組むつもりはない。それよりも、ごく控えめな助言をしておきたい。もしあなたの会社が人事評価を行っているなら、そこにはシステムノイズが大量に存在すること、したがってそのような評価は本質的に無意味であって、ほぼ確実に非生産的であることをわきまえてほしい、という助言である。

このノイズを減らすのは難事業であり、技術的な操作で消去できるものではない。評価者に求められているのはどのような評価のやり方なのか、というところから明確にする必要がある。そこから出発するとおそらくは、評価尺度の明確化・具体化とその尺度を正しく使うためのトレーニングが評価の精度向上に必要だという結論に達するだろう。この方法は、他の多くの分野に応用可能である。

▶こちらもあわせて読みたい

みんなにも読んでほしいですか？

オススメした記事はフォロワーのタイムラインに表示されます！

人事評価システムはなぜ機能不全に陥るのか？ カーネマン最新刊『NOISE』から読み解く

第23章 人事評価の尺度