【理学療法士の疫学：治療成績の解釈】専門病院の治療成績はなぜ低く見えるのか　ー疫学で読み解く数字の構造ー

2026年2月7日2026年2月22日

「A病院、●●専門って書いてあるけど……治療成績、意外と良くないね」

「ほんとだ。近くの病院とあまり変わらない」
「わざわざ時間をかけて行く意味、あるのかな」

「専門病院って言っても、治療成績を見ると、正直、大したことない気がする」

病院選びの場面で、こんな会話が交わされることは珍しくありません。

ここで言う治療成績とは、
治療によって「良くなった人がどのくらいいたか」をまとめた数字のことです。

数字だけを見ると、専門病院を名乗るほどの差は感じられない。
この数字、信じていいのか？この治療成績は、治療そのものの結果なのでしょうか。

この数字だけで病院の実力を判断することはできません。

治療成績は「治療 × 集団」の結果である

治療成績は、治療そのものの性能を直接示す指標ではありません。
どのような患者が集まったかとの掛け算で、初めて数字として現れます。

特に、がん専門病院や高度医療機関では、次のような構造が生じやすくなります。

他院で治療がうまくいかなかった症例が紹介される。
再発や進行といった、治療選択肢が限られた患者が集まる。
全身状態（PS）が悪く、治療そのものを十分に行えない患者も多い。

重要なのは、「重症だから集まる」だけではないという点です。

一般病院では対応が難しい、
・合併症が多い
・治療歴が複雑
・管理に高度な専門性や体制が必要
といった理由で、専門病院に集まってくる患者も少なくありません。

この時点で、
一般病院とはスタートラインの異なる集団が形成されています。
(これを選択バイアスといいます。これは、今後のブログで詳しく説明します)

その結果、
「あまり良くなった人がいない」
「治療成績が低く見える」
という数字が現れます。

しかしそれは、
治療が劣っているからではなく、
より重く、より難しい患者を引き受けている構造の反映
である可能性が高いのです。

また、同じ治療名であっても、
どの治療段階で使われているかは病院によって大きく異なります。

一般病院では、初回治療として使われる一方、
専門病院では、複数の治療を経た後の
三次治療や救済治療として用いられることは珍しくありません。

当然ながら、
同じ治療でも、初回と救済では効き方は違う。
この違いを区別せずに成績を比べれば、
専門病院の治療成績が悪く見えるのは、ほぼ必然です。

さらに、専門病院を受診するということは、
単に「治す」ことだけを目的としていません。

治療の限界を見極める
次の選択肢につなげる
新しい治療を開発・検証する

といった役割も同時に担っています。

この病院の使命そのものが、
集まる患者、選ばれる治療段階、そして最終的に得られる治療成績を規定します。

測定され方も違う可能性がある

同じ「治療成績」でも、
どのくらいの頻度で状態を評価しているかによって、数字は大きく変わります。

専門病院では、その病態を早く特定するために

1か月ごとの検査
状態変化を早期に捉えるための頻回評価

が行われることが少なくありません。

一方で、

３か月ごとにまとめて判定する施設もあります。

ここで何が起きるか。

3か月ごとの評価では、
途中で一時的に悪化していても、
最終判定（3か月）の時点で大きな変化がなければ、
「問題なし」「安定」と扱われることもあります。

1か月ごとに評価すれば、
悪化や進行が早く検出されやすい。
その時点で「良くならない」「進行」と判定されます。

つまり、

測定頻度が高いほど、不利な事象が拾われやすい。

同じ治療をしていても、

1か月評価の施設
3か月評価の施設

では、治療成績が同じになる方が不自然です。

数字は同じ「治療成績」という名前でも、
測っている時間の刻み幅が違えば、中身は別物なのです。

同じ現象でも、
いつ測るか、何回測るかが違えば、
アウトカムの見つかりやすさは変わります。

このように、観察や評価の頻度・タイミングの違いによって
結果の捉えられ方が偏ることを、情報バイアスの一種として検出バイアスと呼びます。
この点も、今後あらためて取り上げていきます。

評価不能例が治療成績を押し下げる構造

専門病院では、早期に状態が悪化する患者や、
有害事象によって治療を中止せざるを得ない患者が多くなりやすい。

このとき問題になるのが、
「評価までたどり着けない人」の存在です。

たとえ、1か月ごとに評価がなされていても、次のような原因が混ざります。

対象疾患以外の合併症（感染症、出血、心血管イベントなど）
主病名以外の併存疾患の増悪
体力・全身状態の低下

つまり、治療効果とは別の理由で判定のための検査が不能になるケースが、一定数含まれます。

こうした人は、そもそも判定の土俵に上がれません。

結果として、

「良くなったかどうか」を判断される前に、評価まで来られなかった人は、
その病気が途中で良くなっていたとしても、
同じ条件で評価されていないため、成功には数えられません。

その分だけ、良くなった人の割合は低く見えます。

ここで重要なのは、
これらの患者が「良くなっていないこと」は事実でも、
同じルールで評価されていないという点です。

これは治療の効果が低いからではなく、
どこまで追いかけ、誰を評価に含めたかという観察構造の違い
によって生じる差です。

どう比較すればいいのか？

結論から言うと、
「同じ条件で比べる」以外に、正しい比較はありません。
そしてその「条件」は、私たちが思っているより、はるかに多いです。

まず固定すべきは「治療前の条件」

最初にやるべきことは、
治療が始まる前の状態を揃えることです。

病期
再発・既治療の有無
全身状態など

これらは、治療効果に直接影響する出発点の条件です。

評価のタイミングとルールを揃える

治療成績は、
いつ、どのように評価したかによって簡単に変わります。

いつ評価したのか
どの頻度で観察したのか
評価不能例をどう扱ったのか

これらが違えば、
数字は同じ「治療成績」という名前でも、中身は別物です。

頻回に評価すれば悪化は早く検出され、
評価間隔が長ければ見逃されることもある。

だからこそ、成績を比べる前に、まず「測り方」を比べます。

それでも残る違いは、統計的に調整する

治療前条件や治療段階を揃えても、
完全に同じ集団になることは、ほぼありません。

年齢や併存疾患、背景因子など、
細かな違いは必ず残ります。
そこで初めて用いられるのが、統計的調整です。

統計的調整
「条件が完全には揃っていない集団同士を、できるだけ公平に比べるための工夫」
というものが存在します。

ここで忘れてはいけない前提があります。

調整できるのは、
測定され、モデルに入れられた要因だけです。

もし、こうした要因があれば、それらは調整のしようがありません。

それは、「理論的に難しい」という話ではなく、
現実のデータ解析で、実際に頻発する制約です。

たとえば、

重症度や背景を表す必要な指標が、そもそも記録されていない
記録はあっても、解析に使える症例数が足りない
患者背景の情報が欠測だらけで、モデルに入れられない
治療選択に影響したはずの判断基準が、カルテ上に残っていない

こうした場合、「あとで統計的に調整する」こと自体が不可能になります。

さらに重要なのは、
比較される相手側にも、同じ質と粒度のデータが必要だという点です。

自施設では詳細な情報を集めていても、比較対象となる別施設に同等のデータがなければ、
その項目は調整に使えません。

つまり、調整とは「解析の工夫」ではなく、
データが揃って初めて成立する前提条件なのです。

調整は、揃えられなかった差を多少「薄める」ことはできても、
測られていない違いや、数が足りない違いを、なかったことにはできません。

だからこそ、調整は
比較を可能にする最後の一手であって、
最初から頼るものではありません。

条件を揃えずに、とりあえずデータを入手して
「あとで統計的に調整すればいい」と考えた瞬間、
その比較は、すでに危うくなっています。

それでも無理なら比べない

条件がどうしても揃えられない場合、
比べないことが、最も誠実な結論になります。

その代わりに行うべきなのは、

この病院は、どんな患者を引き受けているのか
どの治療段階を主に担っているのか
どんな役割や使命を果たしているのか

を言語化することです。

比較できない理由を明確にする。
それ自体が、立派な疫学的アウトプットです。

まとめ

・治療成績は、病院の実力をそのまま示す点数ではありません。

・そこに表れているのは、どんな患者が集まり、どの段階の治療を担い、どう測られたかという構造の結果です。

・治療成績の数字を見るときに問うべきなのは、高いか低いかではなく、その数字は、どんな条件の上に置かれているのか。この一点です。

この考え方は、
リハビリの成果の捉え方や評価の方法にもそのまま役立つと思いました。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

【理学療法士の疫学：治療成績の解釈】専門病院の治療成績はなぜ低く見えるのか ー疫学で読み解く数字の構造ー