生物等価性試験で失敗しない統計の基本
薬のジェネリック製品が本家と同等の効果を持つと認められるためには、生物等価性試験(BE試験)を通過しなければなりません。この試験は、薬が体内でどのように吸収されるかを測定し、テスト製品と参照製品の血中濃度の違いが許容範囲内にあるかを統計的に確認します。しかし、多くのジェネリックメーカーがこの試験で失敗するのは、統計の設計が甘いからです。特に、検出力とサンプルサイズの計算が間違っているケースが最も多いのです。
試験に必要な人数を少なめに設定すると、本当は同等なのに「同等でない」と誤って判定され、試験が失敗します。逆に、必要以上に多くの被験者を募ると、コストが膨らみ、倫理的にも問題になります。FDAやEMAのような規制当局は、このバランスを厳しく監視しています。2021年のFDA報告によると、ジェネリック薬の申請で22%が「サンプルサイズや検出力の計算が不十分」を理由に却下されています。
なぜ検出力80%や90%なのか
生物等価性試験では、検出力(Power)を80%または90%に設定することが標準です。これは、もし2つの製品が本当は同等であれば、その違いを統計的に正しく検出できる確率が80%または90%あるということです。検出力が80%だと、5回に1回は同等なのに「同等でない」と誤判定されるリスクがあります。90%にすれば、10回に1回のリスクになります。
なぜこんなに高いのか? それは、患者の安全と治療効果を守るためです。薬が効かない、あるいは副作用が強くなるような差があれば、命に関わる可能性があります。だから、規制当局は「間違って同等と認める」リスク(第一種の過誤、α=0.05)を極力減らす一方で、「本当は同等なのに見逃す」リスク(第二種の過誤、β)も最小限に抑えようとしています。
EMAは80%の検出力を許容していますが、FDAは特に治療指数が狭い薬(例:ワルファリン、フェニトイン)では90%を求めることが多いです。グローバルに申請する場合、この差が大きな課題になります。90%を目標にすれば、世界中の規制機関に通る可能性が高まります。
サンプルサイズを決める3つの鍵
サンプルサイズは、単なる「何人集めるか」ではありません。3つの重要な数字で決まります。
- 変動係数(CV%):薬の血中濃度が被験者間でどれだけばらつくか。CVが20%なら、ある人は薬がよく吸収され、別の人はあまり吸収されない、という差があるということです。CVが10%の薬なら、18人で十分ですが、CVが30%になると、必要な人数は52人に跳ね上がります。
- 期待される比率(GMR):テスト製品と参照製品の血中濃度の比です。理想的には1.00(完全に同じ)ですが、実際には0.95~1.05の範囲で設定します。ここで「1.00」と楽観的に設定すると、実際の比率が0.95だった場合、必要なサンプルサイズは32%も増えることになります。
- 等価性範囲:通常は80%~125%です。これは、テスト製品のAUCやCmaxが参照製品の80%~125%の範囲に収まれば、同等とみなされます。EMAは一部の薬でCmaxの範囲を75%~133%まで広げています。この範囲が広いほど、必要な人数は減ります。
たとえば、CV=20%、GMR=0.95、検出力80%、等価性範囲80-125%の条件では、必要な被験者は約26人です。しかし、CVが30%に上がると、同じ条件でも52人必要になります。つまり、薬のばらつきが2倍になると、人数も2倍になるのです。
高変動薬には特別なルール
一部の薬は、体内での吸収が非常に不安定です。変動係数が30%を超えると、通常の方法では100人以上が必要になることもあります。そんな薬のために、FDAとEMAは参照スケーリング平均生物等価性(RSABE)という特別な手法を導入しています。
RSABEは、薬の変動が大きいほど、等価性の範囲を広げるという考え方です。CVが35%なら、等価性範囲が70%~143%まで広がる可能性があります。これにより、必要なサンプルサイズは24~48人にまで減ります。これは、患者の負担を減らし、開発コストを抑える画期的な方法です。
ただし、RSABEは適用条件が厳しく、事前に変動性のデータをしっかり持っている必要があります。また、EMAはRSABEをCmaxにのみ認めており、AUCには適用できません。FDAは両方に対応しています。この違いも、グローバル開発の障壁になっています。
ドロップアウトをどう考えるか
試験中に被験者が途中で辞めてしまう(ドロップアウト)ことは、避けられません。風邪をひく、仕事が忙しくなる、体調不良など、理由はさまざまです。
計算したサンプルサイズに、そのままの人数を募っても、実際には人数が足りなくなる可能性があります。だから、業界のベストプラクティスでは、計算値に10~15%を上乗せして募集中の人数を決めます。
たとえば、計算で26人必要と出たなら、実際には30人を募るのが普通です。もしドロップアウトが15%だと仮定すれば、26人の85%は22人。これは検出力が下がるリスクがあります。だから、余裕を見て30人募るのです。
ドロップアウト率を無視してサンプルサイズを決めると、試験が失敗する可能性が高まります。FDAの2021年報告では、サンプルサイズの計算書にドロップアウトの考慮が記載されていないケースが、統計的な不備の18%を占めていました。
なぜCmaxとAUCの両方を同時に考える必要があるのか
生物等価性試験では、通常、AUC(薬の全体的な吸収量)とCmax(最大血中濃度)の2つの指標を評価します。しかし、多くの企業が「Cmaxが通れば、AUCも通るだろう」と考えて、AUCの検出力は無視しています。
これは大きな間違いです。AUCとCmaxは、別々の変動性を持っています。CmaxのCVが20%で、AUCのCVが35%なら、AUCの検出力が低いままでは、全体の検出力は下がります。シミュレーションによると、両方を別々に検定すると、有効な検出力は5~10%下がります。
アメリカ統計協会(ASA)は2021年に、「CmaxとAUCの両方の検出力を同時に考慮すべき」と明確に提言しています。しかし、業界の調査では、このことを実践している企業は45%にすぎません。つまり、半分以上の企業が、試験の失敗リスクを無視しているのです。
計算ツールと専門家の役割
サンプルサイズの計算は、エクセルや手計算ではとても難しいです。専用のソフトウェアが必要です。PASS、nQuery、FARTSSIEなどのツールは、規制当局の要求に合わせて設計されています。たとえば、PASS 15は、RSABEや複数の指標の同時検定に対応しています。
しかし、これらのツールは複雑で、統計の知識がない人には使いこなせません。多くのジェネリックメーカーは、臨床試験担当者が「ネットのサンプルサイズ計算機」で適当に入力して、そのまま申請書に書いているケースがあります。FDAは、このような「根拠のない計算」を厳しく指摘します。
正しいやり方は、統計専門家と共同で計算することです。計算に使ったソフトの名前とバージョン、入力したCV%やGMRの根拠(どこから得たデータか)、ドロップアウトの補正、どちらの指標を重視したか--これらをすべて明確に記録する必要があります。2022年のEMAの拒否事例では、29%が「クロスオーバー設計の順序効果を考慮していない」と指摘されています。つまり、被験者が最初にテスト薬を飲むか、参照薬を飲むかで結果が変わる可能性を無視していたのです。
失敗を避けるためのチェックリスト
生物等価性試験を成功させるには、以下の点を必ず確認してください。
- CV%は、過去の文献ではなく、自社の予備試験データを基準にしているか?(文献値は実際より5~8%低く出ることが多い)
- GMRは、1.00ではなく、0.95~1.05の範囲で保守的に設定しているか?
- 検出力は80%ではなく、90%を目標にしているか?(特に治療指数が狭い薬の場合)
- 等価性範囲は、EMAとFDAの違いを考慮して、最も厳しい基準に合わせているか?
- ドロップアウト率を10~15%上乗せして、実際の募集中人数を決めているか?
- CmaxとAUCの両方の検出力を計算し、低い方を基準にしているか?
- 計算に使ったソフトウェア、バージョン、入力値、根拠をすべて文書化しているか?
これらのチェックを怠ると、数千万円の開発費と1年以上の時間を無駄にする可能性があります。FDAは、2022年にあるCRO(契約研究機関)に、サンプルサイズを25~35%も過小評価していたとして警告文を発行しました。その結果、試験はやり直しとなり、製品の市場投入が1年遅れました。
未来の方向性:モデルベースのアプローチ
今後、サンプルサイズをさらに減らす可能性があるのが、モデル情報に基づく生物等価性(Model-Informed Bioequivalence)です。これは、薬の吸収・分布・代謝のメカニズムを数式でモデル化し、少ない被験者ででも信頼性の高い評価を可能にする方法です。
FDAは2022年の戦略計画で、この手法を推奨しています。試験に必要な人数を30~50%減らせる可能性があります。しかし、2023年現在、この方法を使った申請は全体の5%にすぎません。理由は、規制当局がまだ十分なガイドラインを出していないからです。
今後5年で、このモデルベースのアプローチが主流になる可能性は高いです。しかし、それまでに、現在の統計的手法を正しく使えることが、ジェネリックメーカーの生存の鍵です。変動性を正しく理解し、サンプルサイズを慎重に設計する--それが、患者に安全で安価な薬を届けるための第一歩です。
生物等価性試験で必要なサンプルサイズは、なぜ薬によって違うのですか?
サンプルサイズは、薬の体内でのばらつき(変動係数CV%)に大きく影響されます。CVが低い薬(例:10%)なら、18人で十分ですが、CVが高い薬(例:30%以上)では50人以上必要になります。これは、薬が個人によって吸収されやすさが違うため、より多くの被験者を必要として、平均値を正確に捉えるためです。
検出力を80%から90%に上げると、サンプルサイズはどのくらい増えますか?
CVが20%、GMRが0.95の条件で、検出力を80%から90%に上げると、必要なサンプルサイズは約26人から34人に増えます。約30%の増加です。検出力を上げるほど、人数は増える一方で、その効果は次第に小さくなります。90%以上にしても、人数はさらに増えるものの、検出力の向上はごくわずかです。
RSABEとは何ですか?誰が使えるのですか?
RSABE(参照スケーリング平均生物等価性)は、薬の変動性が非常に高い場合(CV>30%)に使う特別な方法です。変動が大きいほど、等価性の範囲を広げて、少ない人数で試験を成立させます。FDAはCmaxとAUCの両方に適用できますが、EMAはCmaxのみに限られています。この方法を使えば、100人以上必要だった試験が、24~48人で済むことがあります。
サンプルサイズの計算に文献のデータを使うのは危険ですか?
はい、非常に危険です。FDAの調査では、文献から得た変動係数(CV%)は、実際の試験データより平均で5~8%低く出ていることがわかりました。つまり、文献値で計算すると、実際のばらつきより少ない人数で試験を設計してしまい、失敗するリスクが高まります。必ず自社の予備試験データを基準にしてください。
CmaxとAUCのどちらを優先してサンプルサイズを決めればいいですか?
どちらの指標も同等に重要ですが、サンプルサイズは「検出力が低い方」を基準に決めます。たとえば、Cmaxの検出力が90%で、AUCが75%なら、全体の検出力は75%とみなされます。そのため、AUCの検出力を上げるために、サンプルサイズを増やす必要があります。両方の検出力を同時に計算し、低い方を基準にするのが、規制当局が求める正しい方法です。