9
آشنایی با فرایند تحلیل داده و اهمیت آنها در مدیریت داده‌محور

کار با داده‌ها را از کجا شروع کنیم؟

  • کد خبر : 8875
  • 30 مرداد 1402 - 15:52
کار با داده‌ها را از کجا شروع کنیم؟
دکتر رضا شاه‌نظر، پزشک و برنامه‌نویس در مطلبی با عنوان «کار با داده‌ها را از کجا شروع کنیم؟» در شماره ۱۵۹ ماهنامه «مدیریت ارتباطات» به «آشنایی با فرایند تحلیل داده و اهمیت ‌آنها در مدیریت داده‌محور» پرداخته است.

به گزارش ما آنلاین، دکتر رضا شاه‌نظر، پزشک و برنامه‌نویس در مطلب زیر که با عنوان «کار با داده‌ها را از کجا شروع کنیم؟» در شماره ۱۵۹ ماهنامه «مدیریت ارتباطات» منتشر شده است به «آشنایی با فرایند تحلیل داده و اهمیت ‌آنها در مدیریت داده‌محور» پرداخته است:

«بر خلاف آنچه ممکن است از دور به نظر برسد، تحلیل داده یک فرایند چندمرحله‌ای است که هر کدام پیچیدگی‌ها و ملاحظات ویژه‌ای دارد. آنچه از کار یک تحلیلگر داده به چشم می‌آید، معمولاً ماحصل مرحلۀ آخر یعنی تصویرسازی و روایت است، اما بیشترین زمان کار یک تحلیلگر داده صرف چهار مرحلۀ قبل آن می‌شود. حتی اگر قصد ندارید خودتان مستقیماً‌ دست‌به‌داده شوید و تحلیل داده بیاموزید، آشنایی با اهمیت و ملاحظات این مراحل به شما کمک می‌کند تا درک بهتری از دغدغه‌ها و محدودیت‌های تحلیلگران دادۀ پیرامون خود داشته باشید و تعاملی سازنده‌تر در راستای مدیریت داده‌محور کسب‌وکار خود شکل دهید. در این نوشتار قصد داریم با هر یک از این مراحل بیشتر آشنا شویم.

۱- تعریف مسئله: به‌دنبال چه می‌گردیم؟

تحلیل داده دربارۀ هر موضوع،‌ سرشار از تنوع و تعدد مسیرهایی‌ است که هر یک به نتیجه‌ای با جزئیات، دقت،‌ کاربردپذیری،‌ گسترش‌پذیری و فرم متفاوت منجر می‌شود. گاهی اوقات تعدد، تنوع و حجم منابع جمع‌آوری داده و هزینه زمانی جمع‌آوری، پاک‌سازی و تحلیل هر یک از آنها به قدری زیاد است که بدون تعیین یک هدف، انتخاب و طراحی مسیر مناسب و بهینه غیرممکن است و فرایند تحلیل راهی به‌جز بن‌بست یا بی‌راهه نخواهد داشت.
هرچه صورت‌مسئله دقیق‌تر و شفاف‌تر باشد، فرایندهای بعدی تحلیل داده با سرعت و بهینگی بیشتری انجام می‌شود. فرض کنید مدیر یک کسب‌وکار اینترنتی، چند کلمۀ کلیدی مرتبط با کسب‌وکار خود را در گوگل جست‌وجو کرده، اما وب‌سایت خود را در نتایج اول نمی‌بیند؛ بنابراین به‌دنبال دغدغۀ خود دربارۀ سئوی وب‌سایت، به تحلیلگر داده مراجعه کرده و پس از فراهم‌سازی دسترسی او به وب‌سایت دیتاآنالیتیکس، یکی از درخواست‌های زیر را مطرح می‌کند:
با استفاده از داده‌های وب‌سایت ما، رفتار کاربران را تحلیل‌ کن.
می‌خواهم بدانم کدام بخش‌های وب‌سایت ما بازدید بیشتری دارند؟
ورودی کدام صفحات وب‌سایت از موتورهای جست‌وجو کمتر است؟
به نظرتان، در کدام‌یک از این سه مورد، نتیجۀ تحلیل داده به هدف مدیر نزدیک‌تر و برای تصمیم‌گیری کمک‌کننده‌تر خواهد بود؟ به نظر من هیچ‌کدام!
حالت اول که به‌شدت مبهم و کلی است. بدیهی‌ است که در حجم انبوه داده و ارتباطات آنها احتمالاً سهم کمی از تمرکز تحلیلگر داده و گزارش‌های او پیرامون مواردی باشد که در راستای بهبود سئو کمک کند. حالت دوم درخواست با وجود اینکه به‌نسبت دقیق‌تر است، اما از آنجا که علاوه بر سئو، عوامل متعدد دیگری نیز در میزان بازدید صفحات وب‌سایت نقش دارند،‌ احتمالاً نتیجۀ مناسب و مفیدی حاصل نخواهد شد. حتی حالت سوم درخواست، با وجود اینکه به نظر بسیار دقیق‌تر مطرح شده، اما ممکن است به تحلیلی کاملاً گمراه‌کننده منجر شود! زیرا ممکن است کمتر بودن مراجعه از طریق موتور جست‌وجو،‌ به‌دلیل آن باشد که کلمات مرتبط، کمتر جست‌وجو می‌شود، نه آنکه جست‌وجوها به ورود به وب‌سایت منجر نشود!
چاره چیست؟ مدیرِ مثال ما بهتر است دغدغه‌اش را شفاف و کامل با تحلیلگر داده در میان بگذارد. در آن صورت تحلیلگر می‌تواند پس از طرح فرضیه‌ها و مسئله‌هایی کوچک‌تر و دقیق‌تر درباره سئوی وب‌سایت و متغیرهای مؤثر و راهکارهای بهبود آن، داده‌ها را به نحوی مناسب‌تر جمع‌آوری، پاک‌سازی و تحلیل‌ کرده و گزارشی ارائه دهد که برای یک تصمیم‌گیری درست داده‌محور، مطلوب و مفید باشد.

۲- جمع‌آوری داده

به کدام منابع داده‌ و با چه هزینه‌ای دسترسی داریم؟ هر کدام چقدر به هدف ما کمک می‌کند؟
داده‌های مرتبط با هر موضوعی، در شکل‌های گوناگون و منابع متعددی ذخیره شده است. دسترسی به هر یک از این منابع ممکن است دشواری و هزینه‌ای متفاوت داشته باشد. از طرفی هر یک از آنها با توجه به دقت،‌ شمول و ساختارمندی داده‌های ذخیره‌شده،‌ هزینه تحلیل و کاربردپذیری متفاوتی در رسیدن به هدف نهایی خواهد داشت. در نتیجه،‌ یکی از وظایف مهم یک تحلیلگر داده، انتخاب منابع مناسبی‌ است که با کمترین هزینه،‌ بیشترین کمک به تحلیل هدفمند مورد نیاز را فراهم کند. گاهی اوقات نیز کم و کیف داده‌های موجود در منابع گوناگون قابل پیش‌بینی نیست و تحلیلگر داده مجبور است زمان زیادی را صرف جست‌وجو، آزمون‌وخطا و تلاش برای دسترسی به منابع مختلف کند. در گزارش منتشرشده از یک پیمایش تحقیقاتی که در سال ۲۰۱۷ با پرسش از بیش از ۸۰۰ متخصص علم داده در سطوح مختلف مدیریتی توسط The digital analytics association و TMM انجام شد، ۴۴ درصد از مدیران گفتند که بیش از نیمی از زمان تیم تحلیل دادۀ آنها به جای تحلیل صرف دسترسی و آماده‌سازی داده‌ها می‌شود.

۳- پاک‌سازی داده: زمان‌بر و بی‌هیجان، اما کلیدی

حتماً تاکنون با داده‌های ذخیره‌شده در ساختارها و شرایط گوناگون رو‌به‌رو شده‌اید. داده‌ها ممکن است در ساختارهای گوناگونی ذخیره شده باشند؛ از فایل‌های ساختارنیافته نوشتاری گرفته تا صفحاتی از جداول، مانند excel و csv (که spread-sheet نامیده‌ می‌شوند). برخی نیز در ساختارهایی نا‌آشناتر مانند json یا xml قرار دارند و البته بخش مهمی هم در دیتابیس‌های رابطه‌ای مبتنی بر SQL . صرف‌نظر از ساختار ذخیرۀ داده‌ها، ممکن است کیفیت، ریزدانگی و کمیت داده‌های جمع‌آوری‌شده از منابع گوناگون متفاوت باشد. به همین دلیل، پس از جمع‌آوری داده‌ها از منابع مختلف،‌ به انجام اقداماتی روی آنها نیاز است که در اصطلاح پاک‌سازی داده یا Data Cleaning نامیده می‌شود. از جمله آنکه داده‌های پَرت حذف شوند،‌ برای داده‌های ناموجود (missing data) تدابیر لازم اتخاذ شود،‌ واحد اعداد و ریزدانگی دسته‌بندی‌ها یکدست شود و همۀ داده‌ها در ساختاری مشابه و متناسب با ابزار تحلیل فراهم شود. این بخش از فرایند تحلیل داده، اگرچه زمان‌بر و معمولاً به دور از هیجان است، اما شک نکنید که پشت هر تحلیل دادۀ خوب،‌ پاک‌سازی داده‌ای عالی وجود دارد!

۴- توصیف و تحلیل داده: اینجاست که بینش‌ها خلق می‌شوند

این بخش، همان قسمت هیجان‌انگیز کار یک تحلیلگر داده است. این مرحله را می‌توان به دو بخش توصیفی و تحلیلی تقسیم کرد. بخش توصیفی، اقداماتی است که به بررسی،‌ طبقه‌بندی و خلاصه‌سازی داده‌های موجود می‌پردازد و بخش تحلیلی، به انجام تست‌های آماری برای آزمودن فرضیه‌ها یا مدل‌سازی روندها و پیش‌بینی آنها اطلاق می‌شود. مثلاً فرض کنید داده‌های حاصل از یک نظرسنجی کشوری در اختیار شماست. اولین اقدام آن است که داده‌های به‌دست‌آمده را طبقه‌بندی و خلاصه کنیم. مثلاً تعداد شرکت‌کنندگان را به تفکیک متغیرهای گوناگون مانند جنسیت و شهر مشخص می‌کنیم. همچنین شاخص‌هایی مانند میانگین و انحراف معیار را برای متغیرهای کمّی مانند سن یا نمره‌ای که به یک سؤال داده‌اند، به تفکیک متغیرهای متعدد محاسبه می‌کنیم. در این فرایند ممکن است از جداول و نمودارها نیز کمک بگیریم. اینها اقدامات توصیفی مطالعه ما بودند، اما اقدامات بعد از آن که با انجام تست‌های آماری گوناگون، ارتباط بین متغیرهای متعدد و معناداری تفاوت‌ها را مورد سنجش قرار می‌دهیم، اقدامات تحلیلی مطالعه هستند. در نوشتارهای آتی با جزئیات بیشتری به روش‌های توصیف و تحلیل داده‌ها خواهیم پرداخت.

۵- تصویرسازی و روایت

آخرین بخش از هر فرایند تحلیل داده،‌ خلق تصاویر و روایت‌هایی است‌ که بینش‌های به‌دست‌آمده از تحلیل را به‌درستی و در کمترین زمان به مخاطب منتقل می‌کند. فرض کنید در نتیجۀ حاصل از تحلیل و پیش‌بینی افزایش حق عضویت و سود یک کسب‌و‌کار، نمودار زیر حاصل شده است.
حال تصور کنید که به جای نمودار ۱، تصویر زیر را تهیه کرده و به مخاطب ارائه دهیم.
طبیعی است که نمودار ۲، با توجه به حذف جزئیات غیرلازم،‌ تمرکز و شفاف‌سازی روایت و بینش به‌دست‌آمده، در ایجاد ارتباط مؤثر با مخاطب، موفق‌تر باشد. در نوشتار‌های آتی،‌ با ابزارها، روش‌ها و تکنیک‌های تصویرسازی و روایت بینش‌های حاصل از داده‌ها بیشتر آشنا خواهیم شد.

شماره ۱۵۹ ماهنامه «مدیریت ارتباطات» به مدیرمسئولی امیر عباس تقی‌پور و سردبیری علی ورامینی در ۷۶ صفحه و با قیمت ۱۲۰ هزار تومان منتشر شده است. نسخه چاپی «مدیریت ارتباطات» را می‌توانید از دیجی‌کالا و نسخه دیجیتال آن را از مگیران و طاقچه تهیه کنید و برای اشتراک با ۸۸۳۵۶۰۷۶ تماس بگیرید.

لینک کوتاه : https://cmmagazine.ir/?p=8875
  • نویسنده : دکتر رضا شاه‌نظر، پزشک و برنامه‌نویس
  • منبع : شماره ۱۵۹ ماهنامه «مدیریت ارتباطات»

ثبت دیدگاه

دیدگاهها بسته است.