Big Data texnologiyasi va undagi ma’lumotlarni tahlil etish usullari
«Big Data» atamasi «katta ma’lumotlar» degan ma’noni bildirib, uni birinchi marta 2008-yilda «Nature» jurnalining muharriri Klifford Linch ishlatgan. U dunyoda axborot hajmlarining jadal sur’atlarda o‘sishi haqida gapirib, faqatgina yangi vositalar va yanada ilg‘or texnologiyalar ularni o‘zlashtirishga yordam berishini ta’kidlagan.
Linch «katta ma’lumotlar»ga sutkasiga 150 Gb hajmda bo‘lgan har qanday ko‘rinishdagi ma’lumotlar tegishli deb hisoblaydi, ammo hanuzgacha ma’lumotlarni yagona o‘lchov birligi mavjud emas.
Dunyoda raqamlangan ma’lumotlar hajmi tinimsiz o‘sib bormoqda.
IBC kompaniyasining ma’lumotlariga qaraganda, 2003 yilda 5 eksabayt (1 eksabayt = 1 milliard gigabayt) ma’lumot yig‘ilgan. 2015-yil may oyiga qadar dunyoda yig‘ilgan ma’lumotlar hajmi 6,5 zettabaytdan oshgan bo‘lsa, 2020-yilda insoniyat 40-44 zettabayt raqamli ma’lumot hosil qilgan.
«Big Data» – bu juda tez sur’atlarda o‘sib borayotgan katta hajmdagi tizimli va tizimsiz raqamli ma’lumotlar to‘plami. «Big Data» biznes jarayonlarini optimallashtirish va avtomatlashtirish, to‘plangan ma’lumotlarga asoslangan eng samarali qarorlarni qabul qilinishini ta’minlash maqsadida axborotni saqlash va qayta ishlashning innovatsion usullarini o‘z ichiga oladi.
«Katta ma’lumotlar» tushunchasi o‘zi nisbatan yangi bo‘lsa-da, aslida uning kelib chiqishi birinchi ma’lumotlar markazlari va relyasion ma’lumotlar bazalarini ishlab chiqish boshlangan 1960-1970-yillarga to‘g‘ri keladi.
2005-yilda odamlar Facebook, YouTube va boshqa onlayn xizmatlar foydalanuvchilari qancha ma’lumot ishlab chiqarayotganini tushuna boshladilar. Shu yili Hadoop (katta ma’lumotlarni saqlash va tahlil qilish uchun maxsus yaratilgan ochiq kodli platforma) ishlab chiqildi.
2011-yilga qadar katta ma’lumotlar tahlili faqat ilmiy-statistik tadqiqotlar doirasida amalga oshirilgan, ammo 2012-yilning boshiga kelib ma’lumotlar hajmining katta ko‘lamda o‘sishi sababli ularni tizimlashtirish va amalda qo‘llash ehtiyoji tug‘ildi.
2014-yildan boshlab, katta ma’lumotlarga amaliy muhandislik va IT mutaxassislar tayyorlaydigan dunyoning yetakchi oliy o‘quv yurtlari ye’tibor qaratishdi. Keyin Microsoft, IBM, Oracle, YEMC, undan keyin esa Google, Apple, Facebook va Amazon kabi yirik korporatsiyalar qo‘shildi. Bugungi kunda katta ma’lumotlar yirik kompaniyalar va davlat idoralari tomonidan turli sohalarda ishlatilmoqda.
Barcha yig‘ilgan Big Data ma’lumotlari olingan manbalarga qarab tasniflanishi mumkin. AQShning Gartner kompaniyasi «katta ma’lumotlar»ga kiritilgan ma’lumotlarning quyidagi tasnifini taklif qiladi:
1) Operatsion ma’lumotlar. Bu onlayn tranzaksiyalarni qayta ishlash jarayonida mavjud bo‘lgan yoki onlayn tahliliy ma’lumotlar bazasidan olingan mijozlar, yetkazib beruvchilar, hamkorlar va xodimlar to‘g‘risidagi ma’lumotlar. Odatda tranzaksiya ma’lumotlari, aloqa ma’lumotlari va jismoniy shaxslar haqidagi umumiy ma’lumotlarni o‘z ichiga oladi. Ko‘pincha bunday ma’lumotlar qo‘shimcha sensorlar va korxona jarayonlarini monitoring qilish yordamida muvaffaqiyatli to‘planadi. Masalan, bank tizimiga ulangan kassa apparatlari, aqlli hisoblagichlar, ovozli aloqa, radiochastotani identifikatsiyalash va boshqalar;
2) «Qorong‘i» ma’lumotlar. Tashkilotlar tomonidan ataylab saqlanmaydigan yoki to‘planmagan, lekin biznesni yuritish yoki tarmoq xizmatlari bilan ishlash jarayonida tasodifiy (yo‘lda) yaratilgan va Internet arxivlarida qoladigan ma’lumotlar. Bunday ma’lumotlar ommaga ochiq va qisman tahlil qilish uchun tuzilgan, jumladan, elektron pochta xabarlari, elektron shartnomalar, hujjatlar, multimedia, tizim jurnallari va boshqalar;
3) Tijorat ma’lumotlari. Katta ma’lumotlar texnologiyasi imkoniyatlari paydo bo‘lishidan oldin, turli sohalarda qimmatli tijorat ma’lumotlarining agregatorlari mavjud edi. Ushbu agregatorlar obuna ma’lumotlarining o‘z kataloglariga to‘liq kirishni ta’minlaydi. Biroq zamonaviy bozor munosabatlarining potensial investorlar va mijozlar uchun ma’lumotni ochishga yo‘naltirilganligini hisobga olgan holda, tijorat manfaatlariga oid ko‘plab ma’lumotlar raqamli muhitda ochiq joylashtiriladi;
4) Rasmiy ma’lumotlar. Davlat organlari tomonidan tarqatiladigan ma’lumotlar (bayonotlar, press-relizlar, ob-havo prognozlari, munitsipal rivojlanish rejalari to‘g‘risidagi ma’lumotlar), ochiq davlat registrlari, e’lon qilingan normativ-huquqiy hujjatlar (shu jumladan, ularning loyihalari) eng ishonchli va eng ko‘p tuzilgan hisoblanadi;
5) Ijtimoiy tarmoqlar va xizmatlardan olingan ma’lumotlar. Yirik ijtimoiy tarmoqlarning (Facebook, VKontakte, LinkedIn, Twitter, Instagram va boshqalar) funksiyalari, biznes, bozor munosabatlarida jismoniy shaxslarning ishtiroki, yangi va istiqbolli mahsulotlar, xizmatlar, kompaniyalar haqida yana bir ma’lumot manbasini yaratdi. Xabarlar, sharhlar, takliflar («repostlar») maqsadli mijozlarni, tijorat imkoniyatlarini, raqobatbardosh munosabatlarni, biznes va potensial hamkorlarni aniqlash hamda prognoz qilish uchun faol foydalaniladi.
Big Data tahlil qilish uchun zarur bo‘lgan ma’lumotlarni tanlaydi va tizimlaydi, katta ma’lumotlardan ilg‘or tahliliy vazifalarni bajarish uchun sun’iy intellektdan foydalanadi. Ko‘proq katta ma’lumotlar kengaytirilgan tahliliy vazifalar uchun qo‘llaniladi, shu jumladan, sun’iy aql ham.
Tahlil qilishning to‘rtta asosiy usuli mavjud:
- Tavsiflovchi tahlil (descriptive analytics) – eng keng tarqalgan usul bo‘lib, u «nima bo‘ldi?» degan savolga javob beradi hamda real vaqtda kelayotgan va tarixiy ma’lumotlarni tahlil qiladi. Asosiy maqsad ma’lum bir sohadagi muvaffaqiyat yoki muvaffaqiyatsizlik sabablari va uning muntazamligini aniqlash hamda ushbu ma’lumotlardan samarali foydalanish.
- Bashoratli tahlil (predictive analytics) – mavjud ma’lumotlarga asoslanib, voqealarning eng ehtimoliy rivojlanishini bashorat qilishga yordam beradi. Buning uchun shunga o‘xshash xususiyatlar to‘plamiga ega bo‘lgan har qanday ob’yekt yoki hodisalarga asoslangan tayyor shablonlardan foydalanadi.
- Retseptiv tahlil (prescriptive analytics) – bashoratli tahlil bilan solishtirganda undan keyingi daraja. Big Data va zamonaviy texnologiyalar yordamida biznesdagi yoki boshqa faoliyatdagi muammoli nuqtalarni aniqlash va kelajakda qaysi yo‘l bilan ulardan qochish mumkinligini hisoblash mumkin.
- Tashxisli tahlil (diagnostic analytics) – sodir bo‘lgan voqea sabablarini tahlil qilish uchun ma’lumotlardan foydalanadi. Bu hodisalar va harakatlar o‘rtasidagi anomaliyalar va tasodifiy aloqalarni aniqlashga yordam beradi.
Ma’lumotlar yangi boylik manbasiga aylangani sayin, katta ma’lumotlar yechimlari kompaniyalarning o‘sishida tobora muhim rol o‘ynashi kutilmoqda. Kompaniyalar har doim ma’lumotlarga kirish huquqiga ega bo‘lgan, ammo mazmunli ma’lumotlarni olish uchun ma’lumotlarga kirish va qayta ishlash imkoniyati cheklangan. «Katta ma’lumotlar» yechimlari kompaniyalarga ushbu qiyinchiliklarni yengish imkonini beradi.
«Katta ma’lumotlar» tahlili kompaniyalarning asosini tashkil qilib, real vaqtda katta ma’lumotlar to‘plamini boshqarish, qayta ishlash, optimallashtirishga yordam beradi va qaror qabul qilish qobiliyatini yaxshilaydi. Bundan tashqari, katta ma’lumotlar va biznes-tahlilning asosiy maqsadi kompaniyalarga o‘z mijozlarini yaxshiroq tushunishga yordam berish va marketing kampaniyalarini yaxshilashdir.
Ba’zi tarmoqlar katta ma’lumotlardan foydalanishda katta yutuqlarga erishgan bo‘lsa-da, boshqalari hali ham katta ma’lumotlarga yetarli e’tibor qaratishgani yo‘q. 2025 yilga kelib bank sohasidagi katta ma’lumotlar tahlil bozori 62,10 mlrd dollargacha o‘sishi mumkin. Bank sohasidagi katta ma’lumotlarning statistikasiga ko‘ra, jahon bank sektori infratuzilmasi allaqachon katta ma’lumotlarni tahlil qilishni o‘z ichiga oladi.
Masalan, 2013-yil holatiga ko‘ra, jahon moliyaviy sektorning 64 foizi allaqachon katta ma’lumotlarni o‘z infratuzilmasiga kiritgan bo‘lib, 2015-yilda bozor hajmi 12 mlrd dollarga yetgan. 2019-yilga kelib katta ma’lumotlarning bank operatsiyalari tahlili bozori 29,87 mlrd dollarni tashkil etdi. 2020-2025-yillar orasida bank sohasidagi katta ma’lumotlar tahlili bozori o‘rtacha yillik o‘sish sur’ati 12,97 foizni tashkil etishi kutilmoqda.
Katta ma’lumotlar bozori 2020-yilda 198,08 mlrd dollarga baholangan bo‘lsa, 2022-yilga kelib 274,3 mlrd dollargacha o‘sadi va yaqin 5 yillikda yillik o‘sish sur’ati 13,2 foizni tashkil qiladi. 2027-yilga kelib 103 mlrd dollargacha o‘sishi va dasturiy ta’minot segmenti 45 foizni tashkil qilishi kutilmoqda.
BARC ma’lumotlariga ko‘ra, tashkilotlar «katta ma’lumotlar»dan foyda ko‘rmoqda. Xususan, strategik qarorlar qabul qilish imkoniyati 69 foizga, operatsion jarayonlar ustidan ko‘proq nazoratni qo‘lga kiritish imkoniyati 54 foizga, iste’molchilarni yaxshiroq tushunish imkoniyati 52 foizga va xarajatlarni kamaytirish imkoniyati 47 foizga o‘sgan. Katta ma’lumotlar imkoniyatlaridan foydalanayotgan kompaniyalar daromadlarining o‘rtacha 8 foizga oshgani va xarajatlari 10 foizga kamayganini e’tirof etishgan.
Forbes 2025-yilga borib real vaqt rejimida 150 zettabayt yoki 150 trln gigabaytdan ortiq ma’lumotlar tahlil qilinishini bashorat qilgan. Forbes ma’lumotlariga ko‘ra, kompaniyalarning 95 foizdan ortig‘i tuzilmagan ma’lumotlarning bir nechta to‘plamini boshqarishda yordamga muhtoj, kompaniyalarning 40 foizi esa katta ma’lumotlar bilan shug‘ullanish kerakligini aytadi.
StrategyMRC ma’lumotlariga ko‘ra, Hadoop va katta ma’lumotlar bozori hozirda 138,9 mlrd dollarga baholanmoqda va o‘rtacha yillik o‘sish sur’ati 28,5 foizni tashkil qilgan holda 2022-yilda 30 mlrd dollarga o‘sishi kutilmoqda.
Wikibon ma’lumotlariga ko‘ra, katta ma’lumotlar, tahliliy va amaliy ma’lumotlar bazasi yechimlari hajmi o‘n yil ichida 6 foiz o‘rtacha yillik o‘sish sur’atida 2017-yildagi 6,4 mlrd dollardan 2027-yilga kelib 12 mlrd dollargacha o‘sishi kutilmoqda. Hadoop, Kafka, Spark va TensorFlow kabi katta ma’lumotlar ekotizimidagi ochiq kodli platformalarga bo‘lgan talab uning sun’iy intellekt, mashinani o‘rganish, chuqur o‘rganish yoki ma’lumotlar faniga bevosita murojaat qilishi tufayli kamayishi mumkin. Ammo Hadoop, NoSQL, xotira, oqim va boshqa ko‘plab ma’lumotlar bazalari kabi ma’lumotlarni tahlil qilish platformalarining gibrid o‘rnatilishi ma’lumotlar ko‘lami va ma’lumotlar ishlab chiqarish yechimlari bozor ulushini oshiradi.
Bugungi kunda «Big Data» texnologiyalari bozorida AQShning Amazon.com, Inc., IBM, Microsoft, Oracle, Dell Technologies, Cisco Systems, Inc., Cloudera, Inc., Salesforce.com, Inc., Teradata, Tableau Software, Hewlett-Packard, Prolifics, Inc., Xplenty, Clairvoyant, Teradata, EquBot Inc., Dell Technologies, Vmware, Inc. Databrix korporatsiyalari va SAS instituti, Germaniyaning SAP SE va Software AG, Yaponiyaning Fujitsu Limited va CMIC Co., Ltd., Hindistonning Infosys Limited, Xitoyning Huawei Technologies Co., Ltd. va Buyuk Britaniyaning Deloitte Touche Tohmatsu Limited kompaniyalari yetakchilik qilmoqda.
2021-yilda mamlakatlarning global yirik ma’lumotlar va biznes-tahlil bozoridagi ulushi: AQSh – 51%; Yaponiya – 5,7%; Xitoy – 5,5% Buyuk Britaniya – 5,1%; Germaniya – 4,4%; boshqalar – 28,3%.
«Katta ma’lumotlar»ning kelajagi tahlilchilarni talab qiladi. Katta ma’lumotlar hajmi o‘sishda davom etar ekan, unga sho‘ng‘ish va amaliy tushunchalarni olish uchun o‘qitilgan ma’lumotlar tahlilchilariga ehtiyoj ortib bormoqda. «Katta ma’lumotlar» tahlili moliya, hukumat va sog‘liqni saqlash kabi sohalarda o‘zgarishlar yaratish uchun ajoyib imkoniyatlarni taqdim etadi, shuningdek, firibgarlikning oldini olish, tabiiy ofat yuz berganda resurslarni taqsimlash yoki sog‘liqni saqlashni yaxshilash orqali odamlar hayotini o‘zgartirishga yordam beradi.
Tuyg‘un Asatov, «Axborot texnologiyalari va axborot resurslarini rivojlantirish markazi» davlat unitar korxonasi Normativ-texnik hujjatlar ishlab chiqish bo‘limi bosh mutaxassisi
Izoh qoldirish uchun saytda ro'yxatdan o'ting
Kirish
Ijtimoiy tarmoqlar orqali kiring
FacebookTwitter