干货|样本量的确定依据和计算方法

一葉一如来 2023-04-03 发布于广东

展开全文

一、确定依据（这些方法的可信度由强到弱）：

1.预实验结果（也就是这一节往后巴拉一大堆的内容）：可信度最高

2.文献总结情况（meta分析之类的当然最好）：有的时候没做预实验，但是别人做过类似的，或者参考以前的研究结果，那就用这种方法。把别人做过的相似的研究总结一下，然后能出个总效应，代进公式（软件）进行计算，也能计算样本量。

3.既往文献常用的样本量（惯例）：没有过类似的实验，那就看别人研究一般都用到多少受试者，然后自己计算脱落率以后，也用那么多，前期调查过一些，差不多临床试验用20个就可以了；动物实验的话，按惯例就可以了。

二、计算方法：主要针对依据1有预实验结果才计算的样本量

1.明确实验设计，这涉及如何选择检验方法

2.使用合适检验方法，用软件计算得到

3.考虑脱落率的问题。一般为20%以下，也就是最后用的数据。

非劣效性试验是检验一种药物是否不劣于另一种药物的试验，多用于有客观疗效指标的临床研究中，如抗菌药物的临床终点、心血管治疗中的不良事件、肿瘤治疗中的死亡或进展等。非劣效性试验的原假设为试验药(T)总体疗效比对照药(C)总体疗效要差，且差值是-（非劣效性界值）或更小的负值；而备择假设为试验药总体疗效要比对照药好，或者虽然比对照药差，但其差值比-大。拒绝了原假设即可得出试验药比对照药非劣效的结论。

（比如说，开发了一种新药或新的治疗方法，你只要验证了这种方法不比原来的方法差，再加上这种方法的其他便捷之处[给药方便、安全性更好之类的]，所以更[也]值得推广）

等效性试验是检验一种药物是否与另一种药物疗效“相等”的试验（实际为相差不超过一个指定的界值）。例如研究仿制药与原药的疗效是否“相等”、小剂量来替代大剂量的疗效是否“相等”、短疗程药物来替代长疗程药物的疗效是否“相等”。其原假设为总体参数间差别超过或等于一个研究者规定的等效性界值，而备择假设为总体参数间差别小于研究者规定的等效性界值。为了说明“等效”，需要同时进行两次非劣效检验，分别推断。仅当既说明试验药非劣效于对照药，又说明对照药非劣效于试验药时，才能得出两药“等效”的结论。

（我摊牌了，百度的这个不知道对不对，因为它说要做两次非劣性检验，但好像也不常用https://med.sina.com/article_detail_103_2_39765.html，）

优效性试验是检验一种药物是否优于另一种药物的试验，一般对于以安慰剂作为对照的试验常用优效性试验。优效性试验的原假设为试验药(T)总体疗效等于对照药(C)的总体疗效，或试验药劣于对照药；而备择假设为试验药总体疗效优于对照药。拒绝了原假设即可得出试验药比对照药优效的结论。

评估指标的选择：这涉及计算时用哪些指标的数据，一般选择主要研究终点就可以了（这个是自己定的，选择对患者影响最大的项目或者最容易检测的项目，比如KOA可以选择VAS疼痛评分）。

主要研究终点：是指与临床试验所关注的主要问题（主要目的）直接相关的、能够提供最具临床意义和令人信服的证据的终点，常用于主分析、样本量估计和评价试验是否达到主要目的。确证性临床试验中，单一主要终点较为常见，但某些情况下会涉及多个主要终点，对于多个主要终点的研究，通常有两类统计假设策略，即多个主要终点均要求显著和多个主要终点中至少有一个显著。

1）多个主要终点均要求显著：即要求所有主要终点均显著时才认为干预措施有效（此种情况常称为共同主要终点，co-primary）。（也就是根据多个主要临床研究终点计算得到多个样本量，选择最大的那个）

2）多个主要终点中要求至少一个终点显著：即至少一个主要终点显著时就认为干预措施有效。（multiple endpoint）（也就是根据多个主要临床研究终点计算得到多个样本量，选择最小的那个就可以了）

次要研究终点：一项研究肯定不能只评估几个指标，除主要研究终点以外的指标有明显变化，就是次要研究终点。

注意：研究终点是一个事件，而不是指标。患者的疼痛改善（VAS疼痛评分下降），可以是主要研究终点；患者的VAS疼痛评分只是一个评价指标。

还要确定α，β，按照常用的就行了，比如α=0.05，β=0.2，还要考虑双侧检验还是单侧检验。

搬过来一些常见的方法

两组率比较的差异性检验（分类变量）

https://www.sohu.com/a/408011527_120233365

样本量估算（一）：随机对照试验（两组率）比较的样本量计算方法_研究 (sohu.com)

里面也有PASS软件使用方法。

2. 两组均数比较的差异性检验（定量数据）

但是有的时候，不是你说方差齐就齐的，所以最好还是用PASS软件计算好一点。比如软件的使用方法里面也说到了方差是否齐的时候，用不同的计算方法。

样本量估算（二）：随机对照试验（两组均数）比较的样本量计算方法_研究 (sohu.com)

https://www.sohu.com/a/408018107_120233365?spm=smpc.author.fd-d.40.1632462789290K70WCEW

3. 配对设计均数比较的差异性检验（定量数据）

其实公式和上一个是一样的，就是少了个2

样本量估算（三）：配对设计研究定量数据的样本量计算_mmHg(sohu.com)

https://www.sohu.com/a/408021759_120233365?spm=smpc.author.fd-d.39.1632462789290K70WCEW

4.非劣性检验

有的时候用空白对照组会涉及伦理的问题，有些疾病有了比较成熟的方法（A），已经被证明是有作用的。你设计了一种新的方法、新的药物（B），同样也是有一定作用，你想验证这种新方法（B）不比以前的（A）差，那就有三种设计思路

方案一：第一组用A方法，第二组用B方法（非劣性检验）

方案二：第一组不用任何治疗，第二组用B方法（有效性检验，但涉及伦理考虑，不给治疗不合理）

方案三：第一组用A方法，第二组用A+B方法（如果两者没差别，体现不出B方法的作用；如果A+B>A，这不是应该的嘛，但要做出这种效果，临床上比较困难）

非劣性检验比较特殊的是要用到非劣性界值，这个的话，每一种指标都有常用的非劣性界值，可以去百度找找常用的。还要求这个界值经过临床医生评估，需要统计学家和临床医生共同参与计算和判断。（当然了，写标书的话，这些话改改还是能放进去的）

关于界值的确定，其中几种说法可供参考：

有学者对δ提供了可供参考的建议标准，如血压可取5mmHg，胆固醇可取0.52mmol/L(20mg/dl)，白细胞可取500个/mm3等。当δ难以确定时，可酌情取1/5-1/2个标准差或对照组均数的1/10-1/5。对两组率而言，有人建议δ最大不应超过对照组样本率的1/5。δ也不能过小，否则，所需的样本含量可能会太大而不切实际。（非劣效性试验+分类变量-PASS软件教程 - 专栏课程 - 医咖会 ()https://www./zhuanlan/lessons/96/?ty=methods）
界值即容许误差，指可从临床意义角度判定差异的最小值。一般需根据统计学推断和临床意义共同判定。界值具体确定方法参考《非劣效设计临床试验指导原则（征求意见稿）》中提到的方法。当界值难以确定时，两组率之间的比较：δ一般取10%或者最大不超过阳性对照组率的1/5（建议取15%以下的值），两组之间均值的比较：δ可以1/5-1/2个标准差或阳性对照组均数的1/10-1/5。（【原创】医疗器械临床试验中样本量估算 - 案例分析 - 新闻 - 中国医疗器械法规咨询-杭州瑞旭科技集团有限公司 ()https:///md/news/case_analysis/13699.html）

至于如何计算，那就直接上PASS吧

其他参考资料

一文搞懂：非劣效性检验是个啥？有何价值？- 知乎 (zhihu.com)

https://zhuanlan.zhihu.com/p/26588986

更复杂一点的非劣性界值的确定和复合终点终点的问题，了解下面文字即可

例如，在某些情况下，可能由于医疗水平总体改善，疾病或事件的发生率降低了，计算时只能用较近期的研究，如果不能确保近期的试验与当前试验中治疗效果的恒定性，那么选择非劣效性边界时，应当保守一些。为保持已确定的△值（△值是指两种方法的均值之差）的可靠性，应当重视试验的检测灵敏度和严格控制试验的质量，保证阳性对照药在试验中、显示出其应有的疗效。在充分考虑了以上因素的基础上，当试验目的是通过与阳性对照药比较，间接说明试验药优于安慰剂时，在确保试验药和安慰剂的间接疗效差异的95％可信区间的下限>0时，△可选为试验药与对照药疗效差异95％可信区间的下限；但通常选择比这一间接计算提示的数值小一些的值。对试验目的是为说明试验药可代替阳性对照药而疗效无显著降低时(非劣效性试验最常见的目的)，通常做法是以阳性对照药与安慰剂之间预期疗效差异的百分比来确定△值。FDA认为，应该不大于有效药物与安慰剂间疗效差异值的1／2。有些学者提出_3]，选定疗效指标测定的1／5～1／2个标准差，或阳性对照药疗效均数的1／10～1／5，相对数(如率、比值)最大不超过阳性对照组样本率的1／5。但如此确定的理由尚不充分，还须通过临床证据来确认和认可△值无重要差异的意义 ]。实际做法(尤其对市场上目前只有1个有效药物时)是对临床医生进行调查，了解他们认为无关紧要的差异，有多大范围，根据他们回答结果和分析选择△。如果预期试验药的安全性优于阳性对照药(其他情况包括：给药途径更方便、剂量更方便、次要疗效终点更优等)，由于有安全性方面的受益作为补偿，可稍微降低疗效，选择较大的△值，但应能证明疗效优于安慰剂。这种情况下，选择复合的主要终点十分有用，可以用1个终点证明安全性的优效性；而另1个终点证明疗效的非劣效性。

来源：对临床试验统计学假设检验中非劣效、等效和优效性设计的认识 - 临床统计 - 临床研究 ()

http://www./research4/c1115.html

其他研究类型的计算方法可以参考：

临床研究中样本量的估计方法 - 豆丁网 (docin.com)

https://www.docin.com/p-347018251.html

附：

1.提供一些在线计算的网站，可以在里面找其他的方法，一般也用不上

在线样本量计算 ()

https://www./samplesize/

2.比较好用的软件，PASS 15

相对来说操作比较方便，网上资源不少，关键是选对方法（研究设计），然后百度如何操作就行了。

3.自己用公式计算，那就难了。