به گزارش ما آنلاین، دکتر رضا شاهنظر، پزشک و برنامهنویس در مطلب زیر که با عنوان «کار با دادهها را از کجا شروع کنیم؟» در شماره ۱۵۹ ماهنامه «مدیریت ارتباطات» منتشر شده است به «آشنایی با فرایند تحلیل داده و اهمیت آنها در مدیریت دادهمحور» پرداخته است:
«بر خلاف آنچه ممکن است از دور به نظر برسد، تحلیل داده یک فرایند چندمرحلهای است که هر کدام پیچیدگیها و ملاحظات ویژهای دارد. آنچه از کار یک تحلیلگر داده به چشم میآید، معمولاً ماحصل مرحلۀ آخر یعنی تصویرسازی و روایت است، اما بیشترین زمان کار یک تحلیلگر داده صرف چهار مرحلۀ قبل آن میشود. حتی اگر قصد ندارید خودتان مستقیماً دستبهداده شوید و تحلیل داده بیاموزید، آشنایی با اهمیت و ملاحظات این مراحل به شما کمک میکند تا درک بهتری از دغدغهها و محدودیتهای تحلیلگران دادۀ پیرامون خود داشته باشید و تعاملی سازندهتر در راستای مدیریت دادهمحور کسبوکار خود شکل دهید. در این نوشتار قصد داریم با هر یک از این مراحل بیشتر آشنا شویم.
1- تعریف مسئله: بهدنبال چه میگردیم؟
تحلیل داده دربارۀ هر موضوع، سرشار از تنوع و تعدد مسیرهایی است که هر یک به نتیجهای با جزئیات، دقت، کاربردپذیری، گسترشپذیری و فرم متفاوت منجر میشود. گاهی اوقات تعدد، تنوع و حجم منابع جمعآوری داده و هزینه زمانی جمعآوری، پاکسازی و تحلیل هر یک از آنها به قدری زیاد است که بدون تعیین یک هدف، انتخاب و طراحی مسیر مناسب و بهینه غیرممکن است و فرایند تحلیل راهی بهجز بنبست یا بیراهه نخواهد داشت.
هرچه صورتمسئله دقیقتر و شفافتر باشد، فرايندهای بعدی تحلیل داده با سرعت و بهینگی بیشتری انجام میشود. فرض کنید مدیر یک کسبوکار اینترنتی، چند کلمۀ کلیدی مرتبط با کسبوکار خود را در گوگل جستوجو کرده، اما وبسایت خود را در نتایج اول نمیبیند؛ بنابراین بهدنبال دغدغۀ خود دربارۀ سئوی وبسایت، به تحلیلگر داده مراجعه کرده و پس از فراهمسازی دسترسی او به وبسایت دیتاآنالیتیکس، یکی از درخواستهای زیر را مطرح میکند:
با استفاده از دادههای وبسایت ما، رفتار کاربران را تحلیل کن.
میخواهم بدانم کدام بخشهای وبسایت ما بازدید بیشتری دارند؟
ورودی کدام صفحات وبسایت از موتورهای جستوجو کمتر است؟
به نظرتان، در کدامیک از این سه مورد، نتیجۀ تحلیل داده به هدف مدیر نزدیکتر و برای تصمیمگیری کمککنندهتر خواهد بود؟ به نظر من هیچکدام!
حالت اول که بهشدت مبهم و کلی است. بدیهی است که در حجم انبوه داده و ارتباطات آنها احتمالاً سهم کمی از تمرکز تحلیلگر داده و گزارشهای او پیرامون مواردی باشد که در راستای بهبود سئو کمک کند. حالت دوم درخواست با وجود اینکه بهنسبت دقیقتر است، اما از آنجا که علاوه بر سئو، عوامل متعدد دیگری نیز در میزان بازدید صفحات وبسایت نقش دارند، احتمالاً نتیجۀ مناسب و مفیدی حاصل نخواهد شد. حتی حالت سوم درخواست، با وجود اینکه به نظر بسیار دقیقتر مطرح شده، اما ممکن است به تحلیلی کاملاً گمراهکننده منجر شود! زیرا ممکن است کمتر بودن مراجعه از طریق موتور جستوجو، بهدلیل آن باشد که کلمات مرتبط، کمتر جستوجو میشود، نه آنکه جستوجوها به ورود به وبسایت منجر نشود!
چاره چیست؟ مدیرِ مثال ما بهتر است دغدغهاش را شفاف و کامل با تحلیلگر داده در میان بگذارد. در آن صورت تحلیلگر میتواند پس از طرح فرضیهها و مسئلههایی کوچکتر و دقیقتر درباره سئوی وبسایت و متغیرهای مؤثر و راهکارهای بهبود آن، دادهها را به نحوی مناسبتر جمعآوری، پاکسازی و تحلیل کرده و گزارشی ارائه دهد که برای یک تصمیمگیری درست دادهمحور، مطلوب و مفید باشد.
2- جمعآوری داده
به کدام منابع داده و با چه هزینهای دسترسی داریم؟ هر کدام چقدر به هدف ما کمک میکند؟
دادههای مرتبط با هر موضوعی، در شکلهای گوناگون و منابع متعددی ذخیره شده است. دسترسی به هر یک از این منابع ممکن است دشواری و هزینهای متفاوت داشته باشد. از طرفی هر یک از آنها با توجه به دقت، شمول و ساختارمندی دادههای ذخیرهشده، هزینه تحلیل و کاربردپذیری متفاوتی در رسیدن به هدف نهایی خواهد داشت. در نتیجه، یکی از وظایف مهم یک تحلیلگر داده، انتخاب منابع مناسبی است که با کمترین هزینه، بیشترین کمک به تحلیل هدفمند مورد نیاز را فراهم کند. گاهی اوقات نیز کم و کیف دادههای موجود در منابع گوناگون قابل پیشبینی نیست و تحلیلگر داده مجبور است زمان زیادی را صرف جستوجو، آزمونوخطا و تلاش برای دسترسی به منابع مختلف کند. در گزارش منتشرشده از یک پیمایش تحقیقاتی که در سال ۲۰۱۷ با پرسش از بیش از ۸۰۰ متخصص علم داده در سطوح مختلف مدیریتی توسط The digital analytics association و TMM انجام شد، ۴۴ درصد از مدیران گفتند که بیش از نیمی از زمان تیم تحلیل دادۀ آنها به جای تحلیل صرف دسترسی و آمادهسازی دادهها میشود.
3- پاکسازی داده: زمانبر و بیهیجان، اما کلیدی
حتماً تاکنون با دادههای ذخیرهشده در ساختارها و شرایط گوناگون روبهرو شدهاید. دادهها ممکن است در ساختارهای گوناگونی ذخیره شده باشند؛ از فایلهای ساختارنیافته نوشتاری گرفته تا صفحاتی از جداول، مانند excel و csv (که spread-sheet نامیده میشوند). برخی نیز در ساختارهایی ناآشناتر مانند json یا xml قرار دارند و البته بخش مهمی هم در دیتابیسهای رابطهای مبتنی بر SQL . صرفنظر از ساختار ذخیرۀ دادهها، ممکن است کیفیت، ریزدانگی و کمیت دادههای جمعآوریشده از منابع گوناگون متفاوت باشد. به همین دلیل، پس از جمعآوری دادهها از منابع مختلف، به انجام اقداماتی روی آنها نیاز است که در اصطلاح پاکسازی داده یا Data Cleaning نامیده میشود. از جمله آنکه دادههای پَرت حذف شوند، برای دادههای ناموجود (missing data) تدابیر لازم اتخاذ شود، واحد اعداد و ریزدانگی دستهبندیها یکدست شود و همۀ دادهها در ساختاری مشابه و متناسب با ابزار تحلیل فراهم شود. این بخش از فرایند تحلیل داده، اگرچه زمانبر و معمولاً به دور از هیجان است، اما شک نکنید که پشت هر تحلیل دادۀ خوب، پاکسازی دادهای عالی وجود دارد!
4- توصیف و تحلیل داده: اینجاست که بینشها خلق میشوند
این بخش، همان قسمت هیجانانگیز کار یک تحلیلگر داده است. این مرحله را میتوان به دو بخش توصیفی و تحلیلی تقسیم کرد. بخش توصیفی، اقداماتی است که به بررسی، طبقهبندی و خلاصهسازی دادههای موجود میپردازد و بخش تحلیلی، به انجام تستهای آماری برای آزمودن فرضیهها یا مدلسازی روندها و پیشبینی آنها اطلاق میشود. مثلاً فرض کنید دادههای حاصل از یک نظرسنجی کشوری در اختیار شماست. اولین اقدام آن است که دادههای بهدستآمده را طبقهبندی و خلاصه کنیم. مثلاً تعداد شرکتکنندگان را به تفکیک متغیرهای گوناگون مانند جنسیت و شهر مشخص میکنیم. همچنین شاخصهایی مانند میانگین و انحراف معیار را برای متغیرهای کمّی مانند سن یا نمرهای که به یک سؤال دادهاند، به تفکیک متغیرهای متعدد محاسبه میکنیم. در این فرایند ممکن است از جداول و نمودارها نیز کمک بگیریم. اینها اقدامات توصیفی مطالعه ما بودند، اما اقدامات بعد از آن که با انجام تستهای آماری گوناگون، ارتباط بین متغیرهای متعدد و معناداری تفاوتها را مورد سنجش قرار میدهیم، اقدامات تحلیلی مطالعه هستند. در نوشتارهای آتی با جزئیات بیشتری به روشهای توصیف و تحلیل دادهها خواهیم پرداخت.
5- تصویرسازی و روایت
آخرین بخش از هر فرایند تحلیل داده، خلق تصاویر و روایتهایی است که بینشهای بهدستآمده از تحلیل را بهدرستی و در کمترین زمان به مخاطب منتقل میکند. فرض کنید در نتیجۀ حاصل از تحلیل و پیشبینی افزایش حق عضویت و سود یک کسبوکار، نمودار زیر حاصل شده است.
حال تصور کنید که به جای نمودار 1، تصویر زیر را تهیه کرده و به مخاطب ارائه دهیم.
طبیعی است که نمودار 2، با توجه به حذف جزئیات غیرلازم، تمرکز و شفافسازی روایت و بینش بهدستآمده، در ایجاد ارتباط مؤثر با مخاطب، موفقتر باشد. در نوشتارهای آتی، با ابزارها، روشها و تکنیکهای تصویرسازی و روایت بینشهای حاصل از دادهها بیشتر آشنا خواهیم شد.
شماره ۱۵۹ ماهنامه «مدیریت ارتباطات» به مدیرمسئولی امیر عباس تقیپور و سردبیری علی ورامینی در ۷۶ صفحه و با قیمت ۱۲۰ هزار تومان منتشر شده است. نسخه چاپی «مدیریت ارتباطات» را میتوانید از دیجیکالا و نسخه دیجیتال آن را از مگیران و طاقچه تهیه کنید و برای اشتراک با ۸۸۳۵۶۰۷۶ تماس بگیرید.