مبتلایان به کرونا در ایران: حداقل ۲۲۰ هزار

آرش غفوری ۱۶ اردیبهشت ۱۳۹۹

از اولین روز اعلام وجود بیماری کووید-۱۹(از طریق ویروس کرونا) در ایران، دو پرسشِ بی‌پاسخ همواره مطرح بوده است: این ویروس از چه زمانی وارد ایران شد؟ و رقم واقعی مبتلایان چقدر است؟ در این مقاله توضیح می‌دهم که تعداد مبتلایان به ویروس کرونا در ایران تا روز هفت اردیبهشت حداقل ۲۲۰ هزار نفر است. آمار رسمی در این روز تعداد کل مبتلایان را حدود ۹۰ هزار نفر اعلام کرده بود. همچنین با یک حساب و کتاب ساده، از تعداد افراد بهبودیافته در روزهای مختلف طبق آمار رسمی، به این نتیجه می‌رسم که اولین موارد ابتلا به این بیماری حداقل باید در هفته اول بهمن سال ۱۳۹۸ رخ داده باشند.

در این مقاله، گزارش‌های رسمی توسط وزارت بهداشت را بررسی می‌کنم و ایرادها و موارد قابل بحث آن را توضیح می‌دهم. در عین حال برای تحقیق در مورد دو سئوال اصلی این تحلیل، به این پرسشِ ناخواسته هم پاسخ می‌دهم که چه متغیرهایی، میزان مبتلایان به ویروس کرونا در هر استان را تبیین می‌کنند. برای شروع بحث، از نکته آخر شروع می‌کنم، چون اگر بدانیم آمار مبتلایان به ویروس کرونا در هر استان چگونه و منطبق بر چه متغیرهایی قابل تحلیل است، آنگاه می‌توانیم برآورد دقیق‌تری از مبتلایان استان هم داشته باشیم.

این توضیح را هم بدهم که آنچه که من در این مقاله به آنها استناد می‌کنم، تحلیل آماریِ داده‌های ارائه‌شده توسط وزارت بهداشت در سطح ملی (تا روز سوم فروردین) و دانشکده‌های علوم پزشکی در سطح استانی (تا ۷ اردیبهشت) است. گروهی به این داده‌ها تشکیک وارد می‌کنند و آنرا معتبر نمی‌دانند. فرض کنیم چنین ادعایی درست است؛ یعنی گزارش‌های ارائه‌شده توسط وزارت بهداشت در مورد میزان مبتلایان و کشته‌شدگان دارای حد معینی از خطا و کمتر از رقم واقعی است. اما آیا می‌توان قاطعانه نتیجه گرفت که این داده‌ها ساختگی و محصول عددسازی هستند؟ در مورد داده‌های استانی تا روز سوم فروردین من شواهد کافی که نشان دهد آمار ساختگی است نمی‌بینیم. برعکس، معتقدم که در آمار ارائه‌شده توسط وزارت بهداشت یک خطای سیستماتیک وجود دارد که به صورت همگن در کلِ کشور، آمار را کمتر از رقم واقعی برآورد می‌کند. در چنین حالتی اگر بتوانیم الگوهای رفتاری تعداد مبتلایان به ویروس کرونا را در ایران به تفکیک استان‌ها در یک معادله آماری یا ریاضی توضیح دهیم، آن‌وقت با خوشه‌بندی استان‌ها در گروه‌های همگن و یافتن یک یا چند استان که یافته‌های جامع‌تری نسبت به بقیه دارند به عنوان استان(های) پایه، می‌توانیم با تعمیم این آمار، برای پرسش مورد نظرمان – تعداد واقعی مبتلایان – جواب قابل دفاعی پیدا کنیم.

ما در وب‌سایت ۳۱ داده‌های مبتلایان به ویروس کرونا را در ایران تا روز ۷ اردیبهشت به‌روز کرده‌ایم و در مورد آمار پس از این روز به دلایلی که در مقاله جداگانه‌ای گفته شده است نمی‌توانیم تحلیل آماری قابل دفاعی ارائه کنیم.

شهرنشینی، سن و تعداد تخت‌ در بخش مراقبت‌های ویژه

سه شاخص زیر، اصلی‌ترین متغیرهای مستقلی هستند که در کنار یکدیگر میزان مبتلایان به ویروس کرونا را در استان‌های مختلف ایران – بر اساس گزارش‌های رسمی – تبیین می‌کنند:

– میزان تخت‌ در بخش مراقبت‌های ویژه در استان

– میزان شهرنشینی ساکنان استان

– نسبت افراد بین ۱۸ تا ۲۹ سال در استان

برای بدست آوردن اصلی‌ترین متغیرهای موثر بر میزان مبتلایان به بیماری کووید-۱۹در هر استان، من بیشتر از ۳۰ متغیر شامل متغیرهای مبتنی بر ۱- بخش درمان (تعداد آزمایشگاه‌ها، تخت‌های بیمارستانی، تخت‌های بخش‌های مراقبت‌های ویژه، تعداد درمانگاه، تعداد بیمارستان و …)، ۲- متغیرهای دموگرافیک (سن، جنس، نسبت ساکنان شهری و روستایی و …)، ۳- متغیرهای اقتصادی (تورم، بیکاری و …)، ۴- متغیرهای دیگر (مصرف مواد مخدر، میزان توریست و …) و ۵- یک متغیر برای در نظر گرفتن فراگیری در استان‌های اولیه مانند قم، را در یک معادله رگراسیون چند متغیری مورد سنجش قرار دادم تا ببینم ترکیب کدام یک از این متغیرها، بیشتر از دیگران می‌توانند توضیح‌دهنده آمار استانی مبتلایان به کرونا تا روز سوم فروردین – یعنی آخرین روزی که آمار مبتلایان به تفکیک استان ارائه شده است – باشند.

در این معادله رگراسیون چند متغیری، ۱- میزان تخت در بخش مراقبت‌های ویژه (سی‌سی‌یو و آی‌سی‌یو)، ۲- میزان شهرنشینی ساکنان استان و ۳- نسبت افراد بین ۱۸ تا ۲۹ سال به کل جمعیت استان، سه متغیر اصلی و مستقلی بودند که ترکیب آنها با یکدیگر، بیشتر از هر ترکیب دیگری، توضیح‌دهنده تعداد کل مبتلایان به تفکیک استان‌ها بود و تا حدود ۹۰ درصد آنرا تبیین می‌کرد. با این توضیح که رابطه بین دو متغیر اول و مقدار ابتلا به بیماری کووید-۱۹، مثبت است. یعنی به هر میزان که تعداد تخت در بخش مراقبت‌های ویژه یا میزان شهرنشینی در یک استان بیشتر باشد احتمالا تعداد مبتلایان هم بیشتر است. اما رابطه متغیر سوم یعنی نسبت افراد بین بین ۱۸ تا ۲۹ سال با مقدار ابتلا به بیماری کووید-۱۹، منفی است. یعنی هر مقدار که نسبت افراد بین ۱۸ تا ۲۹ سال در یک استان بیشتر باشد، تعداد افراد مبتلا کمتر خواهد بود. در نمودارهای زیر می‌توانید با انتخاب استان یا استان‌های مختلف، وضعیت تعداد مبتلایان در سوم فروردین را با هر کدام از این سه متغیر به تفکیک استان بررسی کنید. همچنین با تغییر طیف اعداد مشخص‌شده برای هر نمودار میله‌ای، محدوده انتخاب‌شده روی نمودار نشان داده می‌شود (اگر این مقاله را روی دستگاه تلفن همراهِ خود ملاحظه می‌کنید، از میان این سه متغیر فقط گزینه تعداد تخت در بخش مراقبت‌های ویژه فعال است).

برای مشاهده داده‌های خام و تحلیل‌های آماری این مقاله می‌توانید به صفحه گت‌هاب وب‌سایت مراجعه کنید. همچنین برای درک بهتر روش‌های آماری استفاده‌شده در این مقاله و دلایل آن، بخش متدولوژی در بخش انتهایی این مقاله را بخوانید.

تعداد تست‌های کرونا

با بدست آوردن اصلی‌ترین متغیرهای مستقل در تبیین میزان مبتلایان به کرونا در هر استان، نوبت به یافتن متغیر دیگری می‌رسد که ۱- به تنهایی بتواند تبیین‌کننده میزان مبتلایان اعلام‌شده در هر استان باشد و ۲- بتواند در طبقه‌بندی و یافتن خوشه‌های همگن استانی به عنوان متغیر کمکی عمل کند. این متغیر، مقدار تست‌های انجام‌شده در استان‌ها برای یافتن مبتلایان به کروناست. ما می‌دانیم که تعداد مبتلایان در هر استان نسبت مشخصی با تست‌های انجام‌شده در استان دارد، یعنی هر مقدار مبتلایان بیشتر باشد، تست‌های انجام‌شده هم بیشتر است. اما مشکل اصلی در مورد تعداد تست‌ها اینست که تنها در ۱۰ استان، تعداد کل تست‌های انجام‌شده مشخص است. ما آمار کل تست‌ها در سطح ملی را داریم اما در سطح استانی، داده‌های ما منحصر به همین ۱۰ استان و آنهم در بازه‌های زمانی مختلف است. نسبت مبتلایان به تعداد کل تست‌ها در این استان‌ها متفاوت و بین ۹ تا ۴۸ درصد است.

برای بدست آوردن تعداد تست‌های انجام‌شده (یا تست‌هایی که باید انجام می‌شده) در سایر استان‌ها به سراغ متغیرهای قسمت قبل می‌رویم. به این معنی که استان‌ها را بر اساس هر کدام از این متغیرها به صورت جداگانه (سن، شهرنشینی و تعداد تخت‌های بخش مراقبت‌های ویژه) ابتدا به شش گروه خوشه‌بندی می‌کنیم به طوریکه تفاوت خوشه‌ها به لحاظ آماری معنی‌دار باشد. در این حالت ما برای هر متغیر شش خوشه داریم که در هر خوشه استان‌های همسان کنار یکدیگر قرار می‌گیرند. سپس استان‌ها را بر اساس سه متغیر به صورت ترکیبی خوشه‌بندی می‌کنیم. اما این بار استان‌ها را در پنج خوشه مجزا قرار می‌دهیم به صورتی که استان‌های همگن در کنار یکدیگر قرار بگیرند و مانند قسمت قبل، تفاوت آن‌ها به لحاظ آماری معنی‌دار باشد. دلیل تغییر تعداد خوشه‌ها هم در این است که به غیر از استان تهران که به دلیل تعداد زیادِ مبتلایان رسمی در یک خوشه مجزا قرار می‌گیرد، سایر خوشه‌ها حداقل شامل بیشتر از یک استان باشند.

در نمودار زیر می‌توانید با انتخاب شماره خوشه مورد نظر، استان‌هایی که در خوشه‌های همسان قرار گرفته‌اند ملاحظه کنید. همچنین در جدول پایین نمودار اطلاعات کاملی در خصوص هر استان، شماره خوشه مرتبط و متغیرهای مستقل متناظر با آن ارائه شده است.

روش خوشه‌بندی (یا همان Clustering) در اینجا مبتنی بر الگوریتم ریاضی K-Means Clustering است (برای مشاهده داده‌های خام و تحلیل‌های آماری این مقاله می‌توانید به صفحه گت‌هاب وب‌سایت مراجعه کنید. همچنین برای درک بهتر روش‌های آماری استفاده‌شده در این مقاله و دلایل آن، بخش متدولوژی در بخش انتهایی این مقاله را بخوانید).

رقم واقعی مبتلایان: حداقل ۲۲۰ هزار نفر تا روز ۷ اردیبهشت

با داشتن ۵ خوشه مجزا شامل استان‌های همگن در کنار یکدیگر، قطعات پازل ما برای بدست آوردن تعداد کل مبتلایانِ واقعی تقریبا تکمیل‌شده است. خوشه‌های همگن باید نسبتِ برابری از تعداد مبتلایان و تعداد تست‌های انجام‌شده (یا تست‌هایی که باید انجام می‌شده) داشته باشند. در اینجا فقط نیاز داریم که ۱- مبنایی برای تعداد تست‌ها در هر خوشه پیدا کنیم و ۲- یک استان یا چند استان را به عنوان استان(های) مرجع در نظر بگیریم و تعداد تست‌ها و مبتلایان واقعی را در سایر استان‌ها با آن(ها) بسنجیم.

برای بدست آوردن مبنای تعداد تست‌ها در هر خوشه، میانگین رقم تست‌هایِ استان‌هایی که آمار آنها اعلام شده است را در هر خوشه در نظر می‌گیریم و برای اینکه نتایج، کمی محافظه‌کارانه‌تر هر باشد، در تعیین میانگین کل هر خوشه، رقم میانگین کل تعداد مبتلایان به تعداد تست‌ها را هم که از آمارهای روزانه وزارت بهداشت قابل اندازه‌گیری است (چیزی در حدود ۲۱ درصد) در محاسبات خودمان منظور می‌کنیم. با ترکیب کردن این تعداد تست‌ها در مدل و بر مبنای ۵ خوشه در نظر گرفته‌شده برای استان‌ها، تعداد کل تست‌های ما بر اساس پیش‌بینیِ آمارِ رسمی چیزی در حدود ۴۴۱ هزار تست می‌شود که از مقدار کل تست‌های اعلام‌شده (۴۲۰ هزار تا روز ۷ اردیبهشت)، حدود ۱۹ هزار تست بیشتر است (۴ درصد خطا).

برای تعیین استان مرجع هم از آمار استان فارس استفاده شده است. استان فارس از جمله استان‌هایی است که به صورت روزانه آمار تست‌های انجام‌شده را اعلام می‌کند و تا روز ۷ اردیبهشت این رقم تقریبا برابر با ۳۴ هزار تست بود؛ یعنی تقریبا ۸ درصد تست‌های کشور. اگر آمار استان فارس را مبنا در نظر بگیریم و با نسبت تعداد مبتلایان به تعداد تست‌ها، آرای تست‌های انجام شده (یا تست‌هایی که باید انجام می‌شد) را به تفکیک استان‌ها مورد محاسبه قرار دهیم به عدد ۹۱۵۳۰۹ تست می‌رسیم. یعنی برای برآورد دقیق‌تر – و البته محافظه‌کارانه – از میزان مبتلایان به ویروس کرونا در ایران باید تا روز ۷ اردیبهشت، حدود ۹۱۵ هزار تست انجام می‌شد تا آمار واقعی‌تری از مبتلایان به ویروس کرونا در ایران بدست می‌آمد. در اینصورت بر اساس نسبت تعداد مبتلایان به تعداد کل تست‌ها به تفکیک استان‌ها، تعداد واقعی مبتلایان تا روز ۷ اردیبهشت حداقل ۲۲۰۷۲۶ نفر در کل کشور خواهد بود. همانطور که پیش از این توضیح داده شد، این رقم به گونه‌ای محاسبه شده است که حداقلِ مبتلایان را به ما بدهد.

این توضیح هم قابل طرح است که در این تحلیل، من چند بار از عبارت “تست‌هایی که باید انجام می‌شد” استفاده کردم. دلیل این امر اینست که آمار روزانه وزارت بهداشت مبتنی بر تست‌های قطعی مبتلایان است که در سه حالت ممکن است مخاطبان را گمراه کند. اول اینکه در بعضی از استان‌ها، آمار روزانه مبتلایان که به صورت رسمی اعلام می شود از آمار تست‌هایی که نتایج آنها هنوز نیامده است تا چندین برابر کمتر است. دوم اینکه ما آمار زیادی از استان‌هایی داریم که در گزارش دانشگاه‌های علوم پزشکی آنها، یک طبقه‌بندی مشخص تحت عنوان بیماری حاد تنفسی ارائه می‌شود و رقم آن از آمار مبتلایان رسمی کرونا گاهی اوقات تا چهار یا پنج برابر بیشتر است. همچنین مواردی وجود دارند که تعداد افرادی که به علت ویروس کرونا در بیمارستان‌های استان بستری شده‌اند از میزان رقم اعلام‌شده برای مبتلایان به کرونا در استان بیشتر هستند. و سوم هم اینکه در برخی استان‌ها، امکان تست روزانه محدود است و اساسا – حداقل بر اساس منابع رسمی – امکان تست‌گیری بیشتر از حد مشخصی وجود ندارد. در این حالت در نظر گرفتن آمار مبتلایان به کرونا بر اساس نتایج قطعی تست‌های انجام‌شده از اساس گمراه‌کننده است.

کرونا از چه زمانی وارد ایران شده است؟

در مورد زمان ورود کرونا به ایران، طی یکی دو ماه اخیر، حرف و حدیث‌های زیادی به صورت خبر منتشر شده است. ملاحظه من در این مقاله، بررسی اعتبار یا عدم اعتبار منبع، یا درستی یا نادرستی چنین روایت‌هایی، نیست. در اینجا من صرفا بر اساس آمار رسمی منتشر‌شده توسط وزارت بهداشت می‌توانم بگویم که زمان ورود کرونا به ایران، حداقل یک ماه پیش از اعلام اولین گزارش رسمی مبتلایان به کرونا است.

وزارت بهداشت شاخصی تحت عنوان “تعداد مبتلایان فعلی” (Active Case) را به صورت رسمی اعلام می‌کند و نتایج آن به صورت روزانه در وب‌سایت “ورد میتر” که در آن آمار مرتبط با کرونا در جهان بر اساس منابع رسمی کشورها منتشر می‌شود قابل دسترسی است. این رقم حاصل تفریق رقم فوت‌شدگان و رقم بهبودیافته‌گان از تعداد کل مبتلایان است. یعنی اگر رقم فوت‌شدگان، آمار کل مبتلایان و تعداد مبتلایان فعلی (مبتلایان در یک روز مشخص) را داشته باشیم، می‌توانیم تعداد بهبودیافته‌گان (Recovered) را در روزهای مختلف بدست آوریم.

بر این اساس، اولین مورد بهبود یافته (Recovered)، برای روز چهارم اسفند سال گذشته ثبت شده است. در روز ۵ اسفند این رقم کلاٌ ۳ مورد (یک مورد در چهار اسفند و دو مورد در پنج اسفند) و در روز ۶ اسفند این رقم کلا ۲۵ مورد است. اگر دوره نهان این بیماری (حدود ۲ هفته)، مدت زمان انجام تست (در بهترین و خوش‌بینانه‌ترین حالت، ۳ روز) و مدت زمان لازم برای بهبود آن (۲ هفته برای بیماران عادی و بین ۳ تا ۶ هفته برای موارد حادتر) را در نظر بگیریم، می‌توانیم با اطمینان بالایی برآورد کنیم که اولین مورد ویروس کرونا در ایران حداقل بر اساس گزارش‌های رسمی مربوط به هفته اول بهمن سال ۱۳۹۸ بوده است.

متدولوژی آماری

برای بدست آوردن اصلی‌ترین متغیرهای موثر بر میزان مبتلایان به بیماری کووید-۱۹در هر استان، من بیشتر از ۳۰ متغیر را در یک معادله رگراسیون چندمتغیری مورد بررسی قرار دادم. نکته مهم در معادله‌های رگراسیون این است که شما باید به عددی برسید که توضیح‌دهنده رابطه بین متغیرها در معادله باشند (R-Squared) که به آن نمره معادله می‌گوییم و عددی است که در بهترین حالت به صورت تئوریک، یک (۱) خواهد بود. در عین حال به هر میزان که تعداد متغیرها بیشتر شوند احتمالا تحت شرایط معینی، نمره معادله بیشتر خواهد شد. اما باید توجه کنیم که بر اساس پیش‌فرض در این نوع معادلات، ما نمی‌توانیم از متغیرهایی که با یکدیگر رابطه آماری قوی دارند استفاده کنیم.

یعنی اگر تعداد تخت‌های بیمارستانی با تعداد تخت‌های بخش‌های مراقبت‌های ویژه در استان‌های مختلف دارای رابطه آماری قوی است باید یکی از این دو متغیر انتخاب شود و نه هر دو. در معادله ما، اکثر متغیرهای بخش درمان با یکدیگر دارای رابطه آماری قوی بودند و انتظار هم همین است. یعنی به عنوان مثال اگر تعداد بیمارستان در یک استان بیشتر از استان دیگر باشد، انتظار بر این است که تعداد تخت بیمارستانی هم بیشتر باشد.

با این حال متغیری که بیشتر از سایر متغیرهای بخش درمان در ترکیب با متغیرهای دیگر در معادله ما، نمره بیشتری می‌گیرد تعداد تخت‌ در بخش مراقبت‌های ویژه است. این فرض کاملا پذیرفته‌شده‌ای است که اگر تعداد تخت‌های مراقبت‌های ویژه در استان بیشتر باشد، تعداد بیمارستان‌های استان هم بیشتر است و به همین نسبت، تعداد آزمایشگاه‌ها، کلینیک‌های درمانی، تخت‌های عادی و موارد مشابه دیگر (آمار هم همین را نشان می‌دهد). این یافته، می تواند اولین قدم در بررسی تعداد واقعی مبتلایان در هر استان باشد. چرا؟

جواب ساده است. اگر استانی از لحاظ تجهیزات پزشکی و بهداشتی وضعیت بهتری دارد، یعنی فرضا تخت مراقبت‌های ویژه در آن بیشتر است، انتظار می‌رود که امکان بررسی افراد بیشتری را از لحاظ تشخیص ابتلا یا عدم ابتلا به ویروس کرونا هم داشته باشد.

چنین روند ی برای انتخاب دو متغیر مستقل دیگر، یعنی افراد با سن ۱۸ تا ۲۹ سال و نسبت شهرنشینی در استان به کار گرفته شده است. با این توضیح که اگر شهرنشینی انتخاب شد و روستانشینی انتخاب نشد، یا نسبت ساکنان استان در سن بین ۱۸ تا ۲۹ سال انتخاب شده اما سن بالاتر از ۶۰ سال انتخاب نشد، دلیل آن این است که این دو متغیر در ترکیب با یکدیگر و همچنین در ترکیب با تعداد تخت‌های بخش‌های مراقبت‌های ویژه، نمره بیشتری در معادله بدست آوردند. ضمن اینکه به دلیل رابطه قوی آماری با یکدیگر، امکان استفاده از هر دو متغیر، مثلا شهرنشینی و روستانشینی به صورت همزمان، وجود نداشت.

در طبقه‌بندی استان‌ها، من از روش خوشه‌بندی (یا همان Clustering) مبتنی بر الگوریتم ریاضی K-Means Clustering استفاده کردم که یکی از روش‌های یادگیری ماشین به صورت نظارت‌نشده (Unsupervised Machine Learning) است و توسط بسته‌ای با عنوان سای‌پای (SciPy) در زبان برنامه‌نویسی پایتان (Python) انجام شده‌است.

برای مشاهده داده‌های خام و تحلیل‌های آماری این مقاله می‌توانید به صفحه گت‌هاب وب‌سایت مراجعه کنید.

چند نکته در مورد تحلیل‌های آماری وب‌سایت ۳۱ که در تهیه این مقاله مورد استفاده قرار گرفته است:

همانطور که در ابتدای این مقاله گفته شد، وزارت بهداشت از روز چهارم فروردین، ارائه آمار مبتلایان به ویروس کرونا را به تفکیک استان متوقف کرد. آنچه که ما طی روزهای ۴ فروردین تا ۷ اردیبهشت در مورد آمار استانی مبتلایان منتشر کردیم مبتنی بر مدل‌های شبیه‌سازی موسوم به Exponential Smoothing و با سطح اطمینان ۹۵ درصد بر اساس اطلاعات مرتبط با آمار روزانه هر استان و ترکیب سه متغیر سن، شهرنشینی و تعداد تخت در بخش مراقبت‌های ویژه، تا روز قبل از زمان ارائه گزارش است (برای مشاهده داده‌های خام و تحلیل‌های آماری این مقاله می‌توانید به صفحه گت‌هاب وب‌سایت مراجعه کنید).
بدیهی است که هر نوع مدل آماری و تحلیل داده‌ها مبتنی بر شبیه‌سازی و پیش‌بینی، دارای درصدی از خطا است و اساسا نمی‌تواند بدون خطا باشد. ما بر اساس تنظیم و به روزرسانی هر روزه مدل، سعی در کاهش این خطا داشتیم، اما در مورد احتمال و شیوه یا شیوه‌های خطاهای ممکن هم آگاه بودیم. به عنوان مثال اگر به هر دلیل، آمار مبتلایان روزانه در استان‌هایی که گزارش روزانه آنها منتشر نمی‌گردید، در یک روز خیلی بیشتر یا کمتر از معمول می‌شد، این امر در مدل شبیه‌سازی شده ما به مقدار واقعیِ تغییر، قابل اندازه‌گیری نبود. هرچند در برخی استان‌ها مانند مازندران، تهران، سمنان و اصفهان، با اینکه تعداد کل مبتلایان اعلام نمی‌شد، آمارِ افزایش روزانه مبتلایان گاهی اوقات منتشر می‌گردید.
خطای آماری وزارت بهداشت در کمتر اعلام کردن تعداد مبتلایان به ویروس کرونا در ایران در ابتدا یک خطای سیستماتیک بود که طی روزهای گذشته – حداقل از ۴ اردیبهشت – به عددسازی آماری رسید (در این مقاله به صورت کامل در این ارتباط توضیح داده شده است). در خطاهای سیستماتیک، چون میزان خطا به صورت همگن در استان‌های مختلف صورت می‌گیرد، می‌توان با بررسی الگوهای آماری و روندهای کاهشی یا افزایشی و در مواردی مانند مقایسه استان‌ها با یکدیگر یا مقایسه تعداد مبتلایان یک استان در روزهای مختلف به نتایجی رسید که از لحاظ آماری قابل دفاع است. به عبارت بهتر، هرچند ممکن است مقدار واقعی نتایج (به عنوان مثال تعداد مبتلایان) درست نباشد، اما الگوهای رفتاری، به خصوص در سطح استان‌ها قابل مقایسه و در نتیجه قابل تحلیل هستند. بر همین اساس، ما آمار تفکیکی کرونا را در سطح ملی و استانی تا هفتم اردیبهشت به صورت روزانه درصفحه ویژه کرونا منتشر کردیم که این تحلیل‌ هم مبتنی بر همین آمار نوشته شده است.