داده کاوی

- دستهبندی: دانش اطلاعاتی
- تاریخ:
«دادهکاوی»[1] عبارت است از فرایند پیدا کردن الگوی پنهان میان انبوه دادههای به ظاهر پراکنده و بیمعنی و استخراج اطلاعات از آنها. برای مثال اینکه فردی از سوپرمارکت محلهشان چه تعداد و با چه تنوعی کیک و تنقلات خریداری میکند، میتواند تعداد اعضای خانواده و فرزندان وی را مشخص کند. یا اینکه با چه فاصله زمانی محصولاتی مثل خمیردندان، مسواک، شامپو، پودر رختشویی و دستمال کاغذی تهیه میکند میتواند میزان اهمیت دادن به بهداشت و تمیزی در آن خانواده را نشان دهد. خریدن شیر کمچرب و پنیر کمنمک و مصرف دیر به دیر نمک و روغن، ممکن است به معنی ابتلا به فشار خون یا بیماری قلبی بوده و اهل مراعات سلامتی کردن باشد. و اگر هم آن فرد بدون سابقه قبلی شروع به خرید پوشک بچه کند، میتوان حدس زد که صاحب فرزند شده و تولدش چه ماهی بوده است. ضمن اینکه ساعت و روزی که معمولاً خریدهایش را انجام میدهد ییا بانکی که معمولاً با کارت آن مبلغ خرید را حساب میکند، میتواند نکاتی درباره شغلش داشته باشد…
در این مثال صاحب مغازه در واقع دادههای خامی را که از مشاهداتش درباره خریدهای مشتریان بدست آورده است، تبدیل به اطلاعاتی تقریبی درباره زندگی اهالی محله میکند. و از این طریق میتواند با تقریب بهتری میزان کالای مورد نیازش را به شرکتهای پخشکننده سفارش دهد. یا با توجه به الگویی که از خرید اهالی محل سراغ دارد، موجود شدن یا تخفیف خوردن کالایی را به آنها یادآوری کند و … .
این مثال ساده، دقیقاً فرایندی است که فروشگاههای بزرگ به منظور مدیریت انبار و زنجیره توزیع خود یا کسب شناخت از ذائقه خریداران و ارائه تخفیف اختصاصی به آنها و در نهایت افزایش فروش و بالا بردن بهرهوری از طریق دادهکاوی کلانداده خریدهای مشتریان به کمک هوش مصنوعی انجام میدهند. مثلاً ممکن است فروشگاهی از طریق دادهکاوی این الگو را کشف کند که اغلب مشتریانی که پوشک بچه میخرند، بیسکوییت مادر هم خریدهاند. وجه ارتباط این دو کالا با هم مشخص است؛ اما احتمالاً میتوان حدس زد که مشتریانی هم وجود دارند که پوشک بچه را از قفسه لوازم بهداشتی برداشتهاند ولی در طول مسیر فراموش کردند به قفسه خوراکی و بیسکوییت هم سری بزنند. لذا صاحبان فروشگاه از تحلیل این داده نتیجه میگیرند که میتوان با نزدیک هم قرار دادن قفسه پوشک و بیسکوییت، فروش را بالاتر برد.

شکل 5: فرایند تبدیل داده خام به اطلاعات از طریق تحلیل دادهکاوی
برهمیناساس، تحلیلهای مبتنی بر دادهکاوی به علت سهولت اجرا و کیفیت نتایج آنها، در حوزهها و صنایع گوناگونی کاربرد دارند:
سکوی نمایش خانگی (VOD) «نتفلیکس»[2] در سال 2011 به عنوان اولین اقدام خود برای تولید سریال اختصاصی، بیش از 100 میلیون دلار روی مجموعه «خانه پوشالی»[3] سرمایهگذاری کرد؛ آنهم در شرایطی که نخستین فصل سریال دو سال بعد و در سال 2013 قرار بود منتشر شود. در آن زمان بسیاری این سرمایهگذاری را نوعی قمار میدانستند. اما بعدها مشخص شد که اقدامی آگاهانه و مبتنی بر اطلاعات بوده است:
-
-
- نتفلیکس پس از بررسی کلانداده سوابق تماشای فیلم 33 میلیون کاربری که در آن زمان داشت، دریافت که بخش عمدهای از آنها فیلم سینمایی «شبکه اجتماعی» ساخته «دیوید فینچر» را به طور کامل تماشا کرده بودند.
- شرکت در ادامه دریافت که اغلب این کاربران فیلمهایی که «کیوین اسپیسی» در آنها بازی میکند را نیز تماشا کردهاند.
- شرکت متوجه شد که نسخه انگلیسی سریال «خانه پوشالی» که در سال 1990 ساخته شده بود در انگلستان همچنان پربیننده است.
-
بر همیناساس، نتفلیکس تصمیم گرفت روی ساخت نسخه جدیدی از داستان «خانه پوشالی» به کارگردانی «دیوید فینچر» و نقشآفرینی «کیوین اسپیسی» به عنوان بازیگر اصلی سرمایهگذاری کند. چراکه میدانست داستان، کاربران انگلیسی را جذب خواهد کرد و کارگردان و بازیگر، آمریکاییها را. نتیجه نیز به گونهای بود که طبق برخی تخمینهای غیررسمی، تعداد کاربران نتفلیکس بعد از فصل اول این سریال در سال 2013، به 57 میلیون مشترک افزایش پیدا کرد![4] و [5] و [6]
البته استفاده از سوابق کاربران در زمینه بازاریابی دادهکاوی به گونههای دیگری هم کاربرد دارد. برای مثال سکوهایی مثل «دیجیکالا» یا «طاقچه» بر مبنای دادهکاوی روی سوابق جستجوی کاربرانشان، کتابها یا کالاهای خاصی را تحت عناوینی مثل «پیشنهاد ویژه برای شما» به طور اختصاصی برای آن مخاطب نمایش میدهند.
همچنین شرکتهای تبلیغات اینترنتی مثل «یکتانت» با نصب «کلوچک» (کوکی) روی مرورگر مراجعهکنندگان به تارنماهای تحت پوشش شرکتشان، داده ردپای دیجیتال کاربران (تارنماهایی که بازدید میکنند، جستجوهایی که دارند و …) را جمعآوری میکند و سپس با دادهکاوی روی آن، سرویس «تبلیغات رفتارمحور»[7] ارائه میکنند. بدین صورت که کاربران را بر اساس شاخصهایی مثل مرد یا زن بودن، خانهدار بودن یا نبودن، کنکوری بودن یا نبودن، داشتن قصد مهاجرت، علاقهمندی به کاهش وزن و فیتنس، اهل مد و زیبایی بودن، داشتن فرزند خردسال و حتی مذهبی بودن یا نبودن بخشبندی میکند و از این طریق به سفارشدهندگان تبلیغ این امکان را میدهد که ویژگیهای مخاطب هدف تبلیغشان را انتخاب کنند و محتوا تبلیغی را فقط به آن افراد نمایش دهند.
مثال جنجالی و پر سروصدای استفاده از دادهکاوی در سیاست به ماجرای انتقال اطلاعات 50 میلیون کاربران آمریکایی فیسبوک به شرکت تحلیل داده کمبریج آنالیتیکا و سپس ارسال تبلیغات سیاسی هدفمند و متناسب با شخصیت هر کاربر در راستای کمپین انتخاباتی دونالد ترامپ برمیگردد که در نهایت باعث پیروزی غیرمنتظره وی در انتخابات ریاست جمهوری سال 2016 این کشور شد![8] درست همان سال، مشابه همین اتفاق در همهپرسی موسوم به «برگزیت» رخ داد و منجر به رای آوردن طرح خروج انگلیس از اتحادیه اروپا شد![9]
هماکنون در ایران نیز برخی شرکتهای دانشبنیان فعال در حوزه تحلیل داده، پیش از انتخاباتهای مجلس و ریاستجمهوری اقدام به جمعآوری دادههای شبکههای اجتماعی (مثلاً نظرات و محتواهای کاربران له یا علیه یک نامزد یا یک جریان سیاسی) میکنند و با تحلیل آنها، میزان مشارکت در انتخابات و حتی نتیجه نهایی آنرا پیشبینی میکنند.[10] و [11]

شکل 6: مقایسه پیشبینی سامانه تحلیل داده «پایشگر» از میزان مشارکت و جناح سیاسی منتخب انتخابات مجلس سال 1398 (برپایه تحلیل نظرات اینستاگرام در دو روز منتهی به انتخابات) با نتایج واقعی و نهایی آن[12]

شکل 7: نتیجه دادهکاوی مرکز «بتا» درباره تحلیل احساسات کاربران توییتر بعد از اولین مناظره انتخابات ریاست جمهوری سال 1400 از طریق دادهکاوی روی 1.7 میلیون توییت[13]

شکل 8: بررسی روند تغییرات محبوبیت نامزدهای انتخابات ریاست جمهوری 1400 قبل و بعد از مناظرههای تلویزیونی بر اساس تحلیل نظرات کاربران اینستاگرام توسط شرکت «لایف وب»[14]
علاوهبر پیشبینی نتایج انتخابات، به کمک دادهکاوی میتوان اقدام به افکارسنجی از کاربران درباره موضوعات روز جامعه کرد و احیاناً اطلاعات حاصل از آنرا در تصمیمگیریهای حکومتی به کار بست: برای مثال بررسی واکنش کاربران به سیاست پرداخت یارانه[15] یا تحلیل عواطف کاربران توییتر نسبت به مشکلات گاز در زمستان[16] یا نظر کاربران درباره مهاجران افغانستانی[17]

شکل 9: تحلیل بیش از یک میلیون محتوا منتشر شده در توییتر، اینستاگرام و تلگرام درباره تغییر سیاستهای پرداخت یارانه در سال 1401

شکل 10: گراف تحلیل توییتهای کاربران درباره مشکلات گاز در زمستان 1401

شکل 11: نمودارهای تحلیل نظرات کاربران ایکس (توییتر) درباره مهاجران افغان
در کنار افکارسنجی، جمعآوری داده و تشکیل کلانداده قابلیتهای ویژهای برای نهادهای نظارتی در زمینه مبارزه با فساد میدهد: مثلاً در شیروان فردی که در یک ماه 10 هزار قرص نان را از یک نانوایی خریده و برای مصرف دام و طیور خشکانده بود از طریق بررسی داده کارتخوانهای هوشمند نانواییها شناسایی و بازداشت شد.[18]
گونه دیگری از دادهها که ارزش بسیار بالایی برای دادهکاوی دارند، دادههای زیستی – نظیر سوابق بیماری افراد یا داروهای مصرفی یا نتایج آزمایشهای پزشکی یا حتی ردپاهای دیجیتال زیستی مثل ضربان قلب، میزان اکسیژن خون، تعداد قدمها، ساعات بیداری، کیفیت خواب و غیره که موبایلها و ساعتهای هوشمند جمعآوری میکنند – هستند و از آنها میتوان در حوزه بهداشت و درمان استفاده کرد. برای مثال شرکتهای بیمهای از طریق تحلیل تاریخچه بیماریهای فرد، نوع درمان، هزینهها و غیره میتوانند موارد مشکوک به تقلب[19] را تشخیص میدهند.[20]
همچنین از طریق دادهکاوی میتوان مشخص کرد که چه افرادی بیشتر به چه بیماریهایی مبتلا میشوند، چه بیماریهایی در آستانه شیوع قرار دارند و برای این منظور چه اقدامات پیشگرانهای باید اتخاذ گردد. نمونه واقعی چنین کاربردی در همهگیری کرونا استفاده شد:
-
-
- سامانه هوشمند تشخیص کرونا که توسط دانشجویان دانشگاه شریف ساخته شده بود برایناساس کار میکرد که تصاویر سیتیاسکن ریه افراد در آن بارگذاری میشد و این سامانه آنرا با الگویی که از طریق یادگیری عمیق روی تصاویر سیتیاسکن ریه تعداد زیادی از مبتلایان کشف کرده بود مقایسه کرده و نتیجه ابتلا را بدون نیاز به پزشک مشخص میکرد.[21]
- مسیریاب نشان از با تحلیل داده موقعیت مکانی کاربرانی که با سرعت پایین حرکت میکنند (پس یعنی احتمالاً پیاده هستند)، نواحی پرتردد پیاده را – که احتمال ابتلا به ویروس در آنها بیشتر است – شناسایی کرده و روی نقشه مشخص میکرد تا افراد در صورت نیاز به خروج از خانه، از نواحی عبور کنند که ترافیک انسانی کمتری دارد.[22]
- پژوهشی که نشان میداد از بررسی میزان جستجوی کلمات مرتبط با کرونا در موتور جستجوی گوگل توسط مردم، میتوان تخمینی از زمان وقوع و میزان ابتلا و تلفات موج بعدی بیماری پیدا کرد.[23]
-

شکل 13: مقایسه میزان جستجوی مرتبط با کرونا در گوگل توسط مردم و تعداد فوتیهای کرونا (تقریباً 10 الی 20 روز بعد از اوج جستجوها شاهد نقطه اوج فوتیها هستیم)
گونه دیگری از دادههای زیستی که بسیار مورد توجه پلتفرمهاست، تصاویر چهره است. چراکه از این تصاویر میتوان به عنوان داده ورودی یادگیری ماشین برای ساخت سامانههای تشخیص چهره و حتی هوش مصنوعی و ساخت تصاویر و ویدیوهای «جعل عمیق»[24] استفاده کرد؛ هوش مصنوعی با تلفیق زدن از تصاویر اولیهای که دارد، تصاویر جدید تولید میکند… لذا هر چه تعداد این تصاویر بالاتر باشد تصاویر بهتر و بدیعتری خلق خواهد کرد.
از اینرو برخی شرکتها تصاویری که کاربران در شبکههای اجتماعی به اشتراک میگذارند را جمعآوری کرده و کلانداده آنرا برای چنین استفادههایی به فروش میگذارند.کما اینکه شرکت متا (فیسبوک سابق) در صفحه معرفی پروژه تشخیص چهرهای که در سال 1393/2014 با نام «دیپفیس»[25] راهاندازی کرده بود، عنوان میکند که الگوریتم آن از دادهکاوی روی چهار میلیون تصویر چهره ایجاد شده است![26]
شرکتهای کوچکتر اما از روشهای خلاقانه دیگری برای جمعآوری آسان و گسترده تصاویر چهرهها استفاده میکنند: برای مثال برنامک (اپلیکیشن) «فیساَپ» با ظاهر سرگرمکننده خود که در آن کاربران تصاویر چهرهشان را بارگذاری کرده و نسخه پیر یا جوان شده آنرا دریافت میکردند توانسته بود تنها دو سال بعد از انتشار، بیش از 150 میلیون عکس چهره جمعآوری کند.[27] این موضوع زمانی در دنیا – خصوصاً آمریکا – جنجالی شد که مشخص شد مالکیت آن در اختیار شرکت «وایرلس لَب»[28] روسیه است و بهطوریکه نگرانی از احتمال استفاده جانبی و بدون نظارت – آمریکاییها – از تصاویر ذخیره شده روی سرورهای روس، واکنش کارشناسان آمریکایی را برانگیخت[29] و [30]، « چاک شومر» – سناتور و رهبر اکثریت دموکرات سنای آمریکا – از «اداره تحقیقات فدرال» (FBI) خواست درباره آن به عنوان یک تهدید سایبری برای ایالات متحده تحقیق کند[31] و افبیآی نیز در پاسخ به وی، برنامک فیساپ را «تهدید بالقوه جاسوسی» دانست.[32]

شکل 14: نمونهای از خروجی ماژول پیر کردن عکس توسط اپلیکیشن فیساپ.

شکل 15: توییت آقای چاک شومر درباره درخواست از نهادهای امنیتی آمریکا برای تحقیق در زمینه احتمال سوءاستفاده اپلیکیشن روسی فیساپ از تصاویر کاربران آمریکایی
از این مثال میتوان ارزش، کاربرد و اهمیت سایر دادههای زیستی مثل اثر انگشت، ضربان قلب، صدا، عنبیه و قرنیه که افشای جمعآوری هر کدام از آنها توسط شرکتهایی مثل «تیکتاک»[33] و [34]، «فیسبوک»[35]، «والمارت»[36]، موضوع شکایتها و صدور جریمههای مختلفی برای آنها در آمریکا بوده است را متوجه شد.
نرمافزارهای مسیریاب مثل «نشان»، «بلد» یا «گوگل مپس» در مواردی ممکن است برای نمایش ترافیک زنده خیابانها از اطلاعات محلی مثل دوربینهای ترافیکی پلیس یا محدودیتهای ترافیکی اعلام شده توسط نهادهای شهری استفاده کنند؛ اما مسلماً کافی نیست، چون در همه معابر چنین اطلاعاتی وجود ندارد. علاوهبراین آنها از گزارش کاربران نرمافزار مبنی بر وجود ترافیک یا رخ دادن تصادف در مسیر نیز استفاده میکنند؛ که باز هم به دلایل مختلف نمیتوان به آن اطمینان کامل داشت. اما روش سوم که رایجتر و کاربردیتر نیز میباشد، دادهکاوی روی کلانداده موقعیت مکانی کاربران است.[37] بدین صورت که داده GPS تمام گوشیهای موبایل را جمعآوری کرده و با تحلیل تعداد، موقعیت و سرعت جابهجایی گوشیهای حاضر در یک خیابان تشخیص میدهند که آیا آنجا ترافیک هست یا خیر.[38] و [39] و [40]
علاوهبراین، کلانداده موقعیت مکانی کاربران میتواند کاربردهای دیگری هم داشته باشد. مثلاً:
-
-
- مسیریاب «نشان» در اولین گزارش سالانه خود براساس تحلیل دادههای ترافیکی و ساعت حرکت کاربران، سحرخیزترین و شبزندهدارترین شهرهای ایران را به ترتیب کرج و قم معرفی کرده بود.[41]
- همچنین از طریق مقایسه آرشیو دادههای ترافیکی روزهای مختلف میتوان تشخیص داد تصمیمات و حوادث (از قبیل اجرای طرح زوج و فرد یا تعطیلی مدارس یا بارش برف) چه اثری بر عبور و مرور خودروها در معابر شهر داشته است.
-

شکل 16: مقایسه میانگین ترافیک معابر شهر تهران در روزهای دوشنبه و سهشنبه 13 و 14 آذر (تعطیلی مدارس به علت آلودگی هوا) و 20 و 21 آذر (وضعیت عادی) به وضوح نشان میدهد تعطیلی شدن مدرسهها علاوه بر حذف اوج شلوغی صبح تهران، بار ترافیکی شهر در طول روز را نیز به طور محسوسی کاهش میدهد.[42]
[1] Data mining
[2] «نتفلیکس» (Netflix) یک شرکت آمریکایی در حوزه نمایش فیلم است. این شرکت در سال 1997 تاسیس شد و در آغاز به عنوان یک سرویس فروش و اجاره دیویدی فیلم فعالیت میکرد. در سال 2007 اما از خدمت پخش جاری (استریم) فیلم و سریال خود رونمایی کرد. نتفلیکس اکنون به عنوان بزرگترین سکوی نمایش خانگی دنیا با بیش از 240 میلیون کاربر فعالیت میکند.
[3] House of Cards
[4] https://builtin.com/big-data/big-data-examples-applications
[5] https://medium.com/@danial.a/how-netflix-used-data-to-create-house-of-cards-a-revolutionary-approach-to-content-creation-b9a114630ddc
[6] https://www.inc.com/associated-press/why-house-of-cards-is-the-foundation-of-netflixs-colossal-growth.html
[7] https://www.yektanet.com/blog/11332/
[8] این ماجرا آنقدر در آمریکا بالا گرفت که مارک زاکربرگ، مالک شبکه اجتماعی فیسبوک، مجبور شد در جلسه استماع کنگره آمریکا رسماً بابت نقض حریم خصوصی کاربران – و احتمالاً کمک به رای آوردن ترامپ – عذرخواهی کند!
[9] فیلم سینمایی «برگزیت» (Brexit) ساخته سال 2019 به چگونگی مداخله در این همهپرسی و اثرگذاری احزاب سیاسی بر نظر رایدهندگان به کمک تحلیل داده و ارسال تبلیغات اختصاصی در شبکههای اجتماعی میپردازد.
[10] https://peivast.com/p/103154
[11] https://t.me/LifewebIR/115
[12] https://t.me/LifewebIR/1828
[13] https://b2n.ir/beta-co-election1400
[14] https://t.me/LifewebIR/2359
[15] https://b2n.ir/beta-co-yarane
[16] https://lifewebco.com/gas-crisis/
[17] https://lifewebco.com/afghan_immigrants/
[18] https://akharinkhabar.ir/social/9820340
[19] Fraud Detection
[20] https://b2n.ir/dataak-datamining-health
[21] https://mehrnews.com/xRBrM
[23] http://payeshjournal.ir/browse.php?a_code=A-10-55-29&slc_lang=fa&sid=1
[24] Deep Fake
[25] شرکت متا ادعا میکند الگوریتمی که در پروژه «DeepFace» توسعه داده است، میتواند ویژگیهایی نظیر جنسیت، سن، احساس و نژاد چهرهها را با دقت 93.7% شناسایی کند. [منبع: https://towardsdatascience.com/using-deepface-for-face-recognition-5f8d1e43f2a6]
[26] https://research.facebook.com/publications/deepface-closing-the-gap-to-human-level-performance-in-face-verification/
[27] https://www.forbes.com/sites/johnkoetsier/2019/07/17/viral-app-faceapp-now-owns-access-to-more-than-150-million-peoples-faces-and-names
[28] Wireless Lab
[29] https://www.technologyreview.com/2019/07/19/102863/faceapp-ai-could-use-your-face-not-for-face-recognition
[30] https://onezero.medium.com/is-faceapps-data-collection-any-worse-than-facebook-s-96153774575e
[31] https://www.npr.org/2019/07/17/742910309/democrats-issue-warnings-against-viral-russia-based-face-morphing-app
[32] https://www.reuters.com/article/idUSKBN1Y62D0
[33] https://findbiometrics.com/tiktok-data-collection-includes-behavioral-biometrics-location-data-071308
[35] https://www.nevis.net/en/blog/are-selfie-apps-and-filter-a-threat-to-online-security
[36] https://www.classaction.org/news/walmart-collected-illinois-shoppers-biometric-data-from-security-cameras-without-consent-lawsuit-says
[37] https://article.tebyan.net/483566
[38] برای بررسی صحت این موضوع، یک کاربر رند آلمانی آزمایشی طراحی کرد و 99 گوشی موبایل را در یک چرخدستی قرار داد و در سطح شهر حرکت کرد! نتیجه کار را در این ویدیو ببینید: aparat.com/v/zscl8
[39] اگر با گوشی اندروید خود در حساب گوگل خود وارد شده باشید، میتوانید آرشیو تمام موقعیتها و مکانهایی که در آنها بودهاید در این نشانی ببینید: maps.google.com/locationhistory