经典网文分享: 结合自己的经验谈谈，医学实验设计中不能有哪些硬伤？

医学实验应该是个蛮庞大的体系，包括基础和临床。而且所谓幸福的人（好的研究）都有同样的幸福，不幸的人（坏的研究）各有各的不幸，要讲完太多了。我就谈谈临床研究中的RCT吧，因为它本身有很严格的规范（所以比较好回答←_←）。

稍微查了一下，貌似有蛮多人担心这个问题，因为PubMed中就能搜到好几篇老文章讨论临床医学研究中常见的错误。我权且一边搬运一边梳理。

1．没有做充分的文献回顾

这点最容易被忽略，看起来也不像是和设计有直接关系，实际上非常重要，会影响到你的总体方向以及各种策略。比如你要比较治疗某病的A、B两种药物哪个更好，啪嗒啪嗒星夜兼程写了protocol，开题答辩时专家问你，"难道你不造临床更常用的C药的总生存期有xx个月（等等报道过的优势指标）？有没有考虑过，就算A、B之间分出了优劣，人家又为什么要放弃C？"太悲惨了。

每设计一个课题首要任务是充分全面地查新，说不定会发现你的问题别人已经研究过了，或者会发现新的视角。

读同领域的文献时要仔细看一看讨论部分，那里会指出该研究的局限性，以及未来的研究方向，这都是后来人的好参考。如果能再关注得宽泛一点，或许还可以借鉴其他细分领域的设计思路。

如果有较丰富的知识储备、有批判性思维会更好，能看出哪些前人的研究是不合理的，便可提出新的方法去改进，也避免建立在错误的前人基础之上去做新的错误研究。

2. 对受试者没有做好清晰的纳入排除标准

也就是定义好你研究对象的边界。我们知道无论选取多少样本量，都没法代表总体，而最后的结果只是这个样本集合的结果。从样本的情况去推测总体会出现偏差，而我们应该有足够的信息来提示这种偏差，比如纳入了不同种族的两份相似研究的结果不一样，我们就可以推断该疾病或该干预方法可能具有种族差异，否则就会有更多困惑。

另有种常见的困惑是纳入和排除的关系。它们不应该是平行的，不是 "纳入 ≥ 70岁、排除 < 70岁者"，尽管你可能看到一些已发表的研究中也这么表述，其实是浪费语句。

排除应该是在纳入的集合当中排除，比如纳入阿尔茨海默病患者（同时给出诊断标准），排除伴有其他神经退行性病变如XXX、YYY、ZZZ等。

设置排除标准的原因，可能是为了控制干扰因素，也有可能是为了避开一些对实验的干预方法有明确已知风险的人，或排除数据不完善的样本，但更应该充分想清楚自己的研究是为了改善哪些人的医疗条件，避免过度排除而使得研究结果不具有普适性。

3．没有足够的样本量和统计功效

很多研究都知道I型错误率要控制在0.05，但注意到II型错误率的不多。宽松的评审条件下倒也不算硬伤，只是在投稿时可能会遇到审稿人问，你这份研究的power是多少？越来越多的杂志除了邀请相关医学领域的审稿人外，还有一个"统计学审稿人"来把关。

此处power指的就是统计功效，就是1 – II型错误率（ß），通常ß选取0.2，于是power就是0.8。为了达到足够的统计功效，就要纳入足够多的样本，这是在设计时就要计算好的。

计算样本量前要好好检索文献，或根据前期工作，评估观察指标之间可能的效应量、变异（标准差）等等，有很多方便省心的工具，比如这个：

http://ift.tt/2mKxmXc

相应的，不仅在设计之初要估算样本量，到做完分析，也要再计算本研究的实际功效并报告。可能脱落的病例较多，而经费又不足以补充更多的样本量，又或者估算时所采用的效应量可能跟研究中的实际情况有出入，所以计算并报告统计功效是必要的。

4．没有有效的偏倚控制方法

偏倚控制是临床试验中最重要的一项，我想大多数老师都强调过，区分一个研究的好坏、证据的强弱很大程度上依赖于此，也是出镜率最高的问题。设计时的偏倚控制主要包括随机化和盲法。

随机化的技术有很多，从最原始的抛硬币到比较现代的计算机生成随机数等。但要小心一些看起来随机其实并不恰当的方法，比如按住院号、门诊号、入组日期或生日的奇偶等规则。

在策略上，有简单随机化、区组随机化、分层随机化、协变量适应随机化等。越严格细致的方法能越好地控制潜在的混杂因素，但也会有普适性受限的问题，研究者应根据需求选用。

做随机化分组也有好用的工具，比如GraphPad的在线工具：

https://www.http://ift.tt/2DIq6Ru/randMenu/

盲法最好是双盲。如果要做得更好一些，还应该制定盲态确认方案，即在研究过程中阶段性地确认受试者是否知晓自己的分组，如果盲底不小心曝露，这个病例是要剔除的。

5．没有事先确定统计策略

统计确实不是临床医生都很擅长的事，但它在研究中又特别重要，所以最好能找个统计专业的人咨询，为研究全程保驾护航。

在设计阶段最容易犯的错误是数据收集不当。比如血压资料，是要收集原始的血压数据呢，还是仅根据诊断标准记录1级2级3级呢？不同的数据类型应选用不同的统计方法，也会有不同的说服力，要是数据收集到一半才发现这些问题岂不是很惨。

另一个应该在设计时就明确的统计要点是假设检验的方向，是单侧还是双侧？不仅由于在统计上它们拒绝原假设的标准不同，也是反映了你对自己所研究的问题的专业理解。如果有依据推断干预组应该比对照组的效应大或小，就要选择单侧检验；如果大小不明确，或业内存在互相对立的学说，就选双侧。

参考资料：

1． Fifteen common mistakes encountered in clinical research

2． Cochrane collaboration – Tools for assessing risk of bias

3． An overview of randomization techniques: An unbiased assessment of
outcome in clinical research

4． Common statistical and research design problems in manuscripts
submitted to high-impact medical journals

5． Justification of exclusion criteria was underreported in a review of
cardiovascular trials

来源：知乎 www.zhihu.com
作者：酸菜

【知乎日报】千万用户的选择，做朋友圈里的新鲜事分享大牛。点击下载

此问题还有 5 个回答，查看全部。
延伸阅读：
科学家是用怎样的实验方法分辨出在蛋白质胞内转运起效应的膜蛋白的？
有哪些神一般的实验设计？

经典网文分享

结合自己的经验谈谈，医学实验设计中不能有哪些硬伤？

没有评论:

发表评论