مروری بر مفاهیم معنی‌داری آماری و بالینی با رویکرد آزمون فرضیه (p-value)

نوع مقاله : مقاله مروری

نویسندگان

1 استادیار، گروه آمار زیستی و اپیدمیولوژی، دانشکده‌ی بهداشت، دانشگاه علوم پزشکی بابل، بابل، ایران

2 دانشجوی کارشناسی ارشد، گروه آمار زیستی و اپیدمیولوژی، دانشکده‌ی بهداشت، دانشگاه علوم پزشکی بابل، بابل، ایران

چکیده

مقاله مروری




کاربرد و تفسیر معنی‌داری آماری برای اثبات اثربخشی یک مداخله و یا وجود رابطه بین دو متغیر، یک اصل اساسی و ضروری در مطالعات است. بطور سنتی تجزیه و تحلیل داده‌های یک مطالعه با استفاده از آزمون فرضیه و گزارش p-value انجام می‌شود. در دو دهه‌ی اخیر متخصصان آمار و متدولوژی، محاسبه‌ی p-value و به ویژه استفاده از آستانه‌ی پنج درصد برای تأیید معنی‌داری آماری را نادرست می‌دانند. محدودیت‌های p-value مانند وابستگی مقدار آن به حجم نمونه و منعکس نکردن اهمیت بالینی به کرات اشاره شده است. متخصصان آمار و متدولوژی، گزارش تنهای p-value را کافی نمی‌دانند و گزارش شاخص اندازه‌ی‌ اثر و حدود اطمینان بطور ملموسی تأکید شده است. با این حال مقالات متعددی به ویژه در مطالعات غیربالینی، به این امر توجه نکرده و حتی تفسیر صحیحی از p-value انجام نمی‌دهند. هدف نویسندگان این مقاله، ارائه‌ی یک دستورالعمل یکپارچه به پژوهشگران و متخصصین بالینی، به جهت گزارش صحیح معنی‌داری آماری و بالینی یافته‌ها بر اساس اهداف و طراحی مطالعات در علوم پزشکی با رویکرد آزمون فرضیه (گزارش p-value) بود.

کلیدواژه‌ها


عنوان مقاله [English]

An Overview of Statistical and Clinical Concepts with the Approach of Hypothesis Testing (P-value)

نویسندگان [English]

  • Mahdi Sepidarkish 1
  • Zahra Mohammadi Pirouz 2
1 Assistant Professor, Department of Biostatistics and Epidemiology, School of Public Health, Babol University of Medical Sciences, Babol, Iran
2 MSc Student, Department of Biostatistics and Epidemiology, School of Public Health, Babol University of Medical Sciences, Babol, Iran
چکیده [English]

Application and interpretation of statistical significance of association are the basic and necessary principle in medical research. Traditionally, hypothesis testing and reporting p-values are widely used to quantify the statistical significance of observed results. In the last two decades, the calculation of a p-value in research and especially the use of a threshold to declare the statistical significance of the p-value have been challenged. The limitations of p-value, such as the dependence of its value on the sample size and not reflecting the clinical significance, have been repeatedly mentioned. The statisticians and methodologists recommend do not report p-value alone, and reporting of effect size index with corresponding confidence interval is mandatory. However, many researchers do not pay attention to this and do not even interpret the p-value correctly. The present study intended, to provide an integrated instruction for reporting the statistical and clinical significance in medical sciences with the approach of hypothesis testing (reporting p-value).

کلیدواژه‌ها [English]

  • Confidence interval
  • Data analysis
  • Data interpretation
  • Hypothesis
  • Statistics
  1. Nakagawa S, Cuthill IC. Effect size, confidence interval and statistical significance: a practical guide for biologists. Biol Rev Camb Philos Soc 2007; 82(4): 591-605.
  2. Schober P, Bossers SM, Schwarte LA. Statistical significance versus clinical importance of observed effect sizes: what do P values and confidence intervals really represent? Anesth Analg 2018; 126(3): 1068-72.
  3. Perezgonzalez JD. Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing. Front Psychol 2015; 6: 223.
  4. Mayo DG, Spanos A. Severe testing as a basic concept in a Neyman-Pearson philosophy of
    Br J Philos Sci 2006; 57(2).
  5. Davis RB, Mukamal KJ. Hypothesis testing: means. Circulation 2006; 114(10): 1078-82.
  6. Tello R, Crewson PE. Hypothesis testing II: means. Radiology 2003; 227(1): 1-4.
  7. Allua S, Thompson CB. Hypothesis testing. Air Med J 2009; 28(3): 108-53.
  8. Christensen R. Testing fisher, neyman, pearson, and bayes. Am Stat 2005; 59(2): 121-6.
  9. Huberty CJ. Historical origins of statistical testing practices: The treatment of Fisher versus Neyman-Pearson views in textbooks. J Exp Educ 1993; 61(4): 317-33.
  10. Sedgwick P. Pitfalls of statistical hypothesis testing: type I and type II errors. BMJ 2014; 349: g4287.
  11. Lu J, Qiu Y, Deng A. A note on Type S/M errors in hypothesis testing. Br J Math Stat Psychol 2019; 72(1): 1-17.
  12. Newman MC. “What exactly are you inferring?” A closer look at hypothesis testing. Environ Toxicol Chem 2008; 27(5): 1013-9.
  13. Emmert-Streib F, Dehmer M. Understanding statistical hypothesis testing: The logic of statistical inference. Mach Learn Knowl Extr 2019; 1(3): 945-62.
  14. Boulesteix AL, Hable R, Lauer S, Eugster MJ. A statistical framework for hypothesis testing in real data comparison studies. Am Stat 2015; 69(3): 201-12.
  15. Gill J. The insignificance of null hypothesis significance testing. Polit Res Q 1999; 52(3): 647-74.
  16. Altman DG, Bland JM. Standard deviations and standard errors. BMJ 2005; 331(7521): 903.
  17. Lee DK, In J, Lee S. Standard deviation and standard error of the mean. Korean J Anesthesiol 2015; 68(3): 220-3.
  18. O'Brien SF, Yi QL. How do I interpret a confidence interval? Transfusion 2016; 56(7): 1680-3.
  19. Guyatt G, Jaeschke R, Heddle N, Cook D, Shannon H, Walter S. Basic statistics for clinicians: 1. Hypothesis testing. CMAJ 1995; 152(1): 27-32.
  20. Dahiru T. P-value, a true test of statistical significance? A cautionary note. Ann Ib Postgrad Med 2008; 6(1): 21-6.
  21. Andrade C. The P value and statistical significance: misunderstandings, explanations, challenges, and alternatives. Indian J Psychol Med 2019; 41(3): 210-5.
  22. Ioannidis JPA. The proposal to lower P value thresholds to. 005. JAMA 2018; 319(14): 1429-30.
  23. Dick F, Tevaearai H. Significance and Limitations of the p Value. Eur J Vasc Endovasc Surg 2015; 50(6): 815.
  24. Lee DK. Alternatives to P value: confidence interval and effect size. Korean J Anesthesiol 2016; 69(6): 555-62.
  25. Ranstam J. Why the P-value culture is bad and confidence intervals a better alternative. Osteoarthritis Cartilage 2012; 20(8): 805-8.
  26. Altman DG, Bland JM. How to obtain the P value from a confidence interval. BMJ 2011; 343: d2090.
  27. Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN, et al. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol 2016; 31(4): 337-50.
  28. Shreffler J, Huecker MR. Type I and Type II errors and statistical power; 2020.
  29. Pirjani R, Hosseini R, Soori T, Rabiei M, Hosseini L, Abiri A, et al. Maternal and neonatal outcomes in COVID-19 infected pregnancies: a prospective cohort study. J Travel Med 2020; 27(7): taaa158.
  30. Heshmati J, Moini A, Sepidarkish M, Morvaridzadeh M, Salehi M, Palmowski A, et al. Effects of curcumin supplementation on blood glucose, insulin resistance and androgens in patients with polycystic ovary syndrome: A randomized double-blind placebo-controlled clinical trial. Phytomedicine 2021; 80: 153395.
  31. Asgari Z, Hashemi M, Hosseini R, Sepidarkish M, Seifollahi A. Comparison of the number of spindle cells in peritoneal washings between laparoscopic myomectomy with morcellation and open myomectomy without morcellation. J Minim Invasive Gynecol 2021; 28(7): 1391-6.
  32. Shokri-Ghadikolaei A, Bakouei F, Agajani Delavar M, Azizi A, Sepidarkish M. Effects of health coaching on menopausal symptoms in postmenopausal and perimenopausal women. Menopause 2022; 29(10): 1189-95.