বিগ ডাটা – এক বিস্ময়কর বিপ্লবের সূচনা

বর্তমানে আমরা বৈষয়িক তথ্য-কেন্দ্রিক বিপ্লব এর মাঝে আছি।প্রতিনিয়ত এবং প্রতিদিনেই, বিভিন্ন বিজনেস কেন্দ্র থেকে এবং অন্যান্য ওয়েবসাইট (টুইটার, ফেসবুক ইত্যাদি) থেকে তাঁদের বিপুল গুরুত্বপূর্ণ তথ্য নির্গত হয়।

“তথ্যের সুনামি” –  কথাটির অর্থ বিপুল তথ্য বিপ্লব। অর্থাৎ দেখা গেছে যে –

¨ আইবিএম এর মতে বর্তমানে সারা বিশ্বে ২.৭ যেটাবাইট (১ যেটাবাইট = ১০২১ বাইট) তথ্য আছে। বর্তমানের প্রায় ৯০% তথ্য যা নির্গত হয়েছে শেষ দুবছর ধরে।

¨ ফেসবুক ব্যবহারকারীর প্রায় ৩০+ পেটাবাইট এর (১০১৫) মতন তথ্য সংগ্রহ এবং বিশ্লেষণ করে।  ১০০ টেরাবাইট এর মতন তথ্য প্রতিদিনেই ফেসবুকে ঢোকে এবং প্রতিমাসেই ৩০ লক্ষকোটি তথ্য ফেসবুকে বিভিন্ন ভাবে ভাগ হয়।

¨ টুইটারে প্রতিদিনেই প্রায় ১৭৫ লক্ষ টুইট হয়।

¨ ওয়াল্ মার্ট প্রতিদিনেই প্রায় প্রতি ঘণ্টায়  ১ লক্ষ এর বেশী তথ্য আদানপ্রদান করে যা কিনা এক বিশাল তথ্য ভাণ্ডারে গিয়ে জমা হয়।

¨ ২০০৯ সালে গুগল দিনে প্রায় ২০ পেটাবাইট এর মতন তথ্য আদানপ্রদান করত।

¨ ২০০৯ সালের থেকে ৪৪ গুণ বেশি তথ্য উৎপাদন হবে ২০২০ সালে।

                    

কিন্তু ভবিষ্যৎ - এর জন্য কিছু প্রশ্ন জেগে উঠছে যেমন - কি টেকনোলজি এই বিপুল পরিমাণ তথ্যকে প্রসেসিং করতে সাহায্য করবে ? বা কী রকম বিজনেস এর উপর কাজ হবে ? বা ডাটা বৈজ্ঞানিক এর কাজ টা কি হবে? ইত্যাদি আলোচনা করা হল ।

  

টেকনোলজি কেন্দ্রিক

¨ “হাডুপ”(Hadoop) নামক এক ওপেন সোর্স সফটওয়্যার এক ডিসট্রিবেউটেট অ্যাপ্লিকেশান

¨  ফ্রেমওয়ার্ক যার কিনা বিপুল তথ্য প্রসেস করার ক্ষমতা আছে।  “হাডুপ” কিন্তু রিলেসানাল ডাটাবেস নয়, একটা অফলাইন/ব্যাচ প্রসেসিং সিস্টেম। “হাডুপ” এর ইকো-সিস্টেমটা হল- এইচ ডি এফ এস অর্থাৎ হাডুপ ডিসট্রিবেউটেট ফাইল সিস্টেম এবং ম্যাপ রেডুস সিস্টেম অর্থাৎ একটা  ডিসট্রিবেউটেট ফ্রেমওয়ার্ক সিস্টেম যা কিনা প্যারালালি কাজ কে এগিয়ে নিয়ে যায়। হাডুপ সিস্টেম এর বৈষয়িক ব্যবহারগুলি হল – যেমন – মার্কেটিং তথ্য বিশ্লেষন, ইমেজ প্রসেসিং, মেশিন লার্নিং, XML মেসেজ প্রসেসিং, টেক্সট প্রসেসিং ইত্যাদি।  

¨ অ্যাপ্যাচে হাইভ (Hive) হল একটা ডাটা ওয়্যারহাউস ইনফ্রাস্ত্রাকচার যা হাডুপ এর উপর তৈরি

¨ হয়েছে, যার কাজ হল তথ্যকে একত্রিত করা, ক্যুয়ারি (Query) করা এবং বিশ্লেষণ করা। ইহা SQL এর মতন ল্যাঙ্গুয়েজ ব্যবহার করে যার নাম হাইভক্যুল (HiveQL)। 

¨ অ্যাপ্যাচে এইচবেস (HBase) হল একটা ওপেন সোর্স, নন-রিলেসানাল, ডিসট্রিবেউটেট

¨ ডাটাবেস মডেল যা জাভা দিয়ে লেখা হয়েছে।  ইহা অ্যাপ্যাচে সফটওয়্যার ফাউনডেশন অ্যাপ্যাচে হাডুপ প্রোজেক্ট এরঅংশ হিসাবে তৈরি হয়েছিল এবং ইহা হাডুপ ডিসট্রিবেউটেট ফাইল সিস্টেম প্ল্যাটফর্ম এর উপর চলে। ইহা ফলট – টলারেন্ত এর উপর ভিত্তি করে বিশাল পরিমান অনাবশ্যক তথ্যকে সঞ্চয় করে।  

¨ অ্যাপ্যাচে মাহউট(Mahout), অ্যাপ্যাচে সফটওয়্যার ফাউনডেশন প্রোজেক্ট, যা কিনা হাডুপ

¨ প্ল্যাটফর্ম এর উপর অবিচলিতভাবে মেশিন লার্নিং অ্যালগোরিদম চলতে দেয় । মাহউট(Mahout) কিছু অ্যালগোরিদম দিয়েছে ক্লাস্তারিং, ক্লাসিফিকেশন এবং কোলাবোরেটিভ ফিলটেরিং, যা প্রদান করা হয়েছে অ্যাপ্যাচে হাডুপ ভিত্তিক ম্যাপ রেডুস সিস্টেমএর উপর।   

¨ এছাড়া অ্যাপ্যাচে ক্যাসান্দ্রা হল এক ওপেন সোর্স, ডিসট্রিবেউটেট স্টোরেজ সিস্টেম যা বিশাল।

¨ পরিমান তথ্য নিয়ন্ত্রণ করে। ইহা বিন্দু মাত্র অসফল না হয়ে উচ্চ কাজ প্রদান করে। অ্যাপ্যাচে ক্যাসান্দ্রার বিশেষ বৈশিষ্ট হল ইহা অবিচলিত, পরিবর্তনযোগ্য,ফলট- টলারেবেল এবং কলাম কেন্দ্রিক ডাটাবেস।  

¨ এছাড়া “R” নামক এক ওপেন সোর্স ল্যাঙ্গুয়েজ সফটওয়্যার প্যাকেজ আছে যা সহজে তথ্যকে

¨ বিশ্লেষন করতে এবং বিভিন্ন বিশ্লেষন কেন্দ্রিক গ্রাফিকাল চিত্র তৈরি করতে সাহায্য করে।

 

বিজনেস কেন্দ্রিক

বর্তমানে বিজনেস রুপান্তর কে এগিয়ে নিয়ে যাওয়ার পিছনে রয়েছে বিগ ডাটার উপস্তিথি। কিছু সফল বিগ ডাটা সংস্থান যারা অনবরত ভাবে নিজেদের বিজনেস কে এগিয়ে নিয়ে যাচ্ছে তাঁদের কাস্টমার কেন্দ্রিক, প্রোডাক্ট কেন্দ্রিক এবং বাজার এর চাহিদার উপর ভিত্তি করে। নতুন করে বিজনেস ব্যবহারকারিকে বোঝা, ডাটা ওয়্যারহাউস এর ডাটা ব্যবহার, ডাটা বৈজ্ঞানিক এর উপস্তিথি ইত্যাদি ডাটা বিশ্লেষনএর জীবনচক্রের অঙ্গ। 

 

ডাটা বিশ্লেষনএর জীবনচক্র

ওয়ালমার্ট - বিজনেস কেন্দ্রিক উদাহরণ

তথ্য সর্বদা কোম্পানি এবং শিল্প এই দুই এর মধ্যে আদানপ্রদান হয়। ওয়ালমার্ট হল এই ধরনের আমেরিকান কোম্পানি যারা তথ্যকে নিজেদের বিজনেস মডেলে ব্যবহার করে। নিম্নে কিছু আলোচনা করা হল –

১. প্রকিউরমেনট – সঠিক দামে, সঠিক সময়ে এবং প্রোডাক্ট এর কোনো ক্ষতি না করে ডেলিভারি করা এমন সাপ্লাইয়ারকে চিহ্নত করা ।

২. ডিসট্রিবেউশান – আবহাওয়া, ছুটির দিন এবং অর্থনীতি কেন্দ্রিক অবস্থা বুঝে ইনভেনট্রিকে সাজান ইত্যাদি তথ্যের উপর ভিত্তি করে বিশ্লেষণ করা হয়।

৩. মার্কেটিং এবং দাম কেন্দ্রিক – কাস্টমার এর কি পছন্দ বা কি ধরনের কাস্টমার,  কোথায় কি ধরনের কাস্টমার আছে তা বোঝা, কি ভাবে বিক্রি করতে হবে, কি রকম দাম হবে ইত্যাদি ঠিক করা।

৪. স্টোর – আবহাওয়া, অনান্য তথ্য এবং কাস্টমারের তথ্য এর উপর ভিত্তি করে কি ধরনের বিক্রির প্যাটার্ন হবে সেটার উপর বিশ্লেষণ করে স্টোর কে চালনা করা ।

৫. হিউম্যান রিসোর্স – এমপ্লয়ীদের চরিত্র বোঝা এবং কোন এমপ্লয়ী কতটা এফেকটিভ এবং সফল , তা বিশ্লেষণ করা এবং সফল সিস্টেম তৈরি করা।  

 

ডাটা বৈজ্ঞানিক কেন্দ্রিক

বিগ ডাটা নিয়ে যারা কাজ করেন তাঁদের ডাটা বৈজ্ঞানিক বলা হয়। ডাটা বৈজ্ঞানিক এর কাজ এবং দায়িত্ব বলতে বোঝা যায় যে সঠিক ভাবে সঠিক দিকে তথ্যকে বিশ্লেষন করা । ডাটা বৈজ্ঞানিক এর জীবনচক্র থেকে বোঝা যায় যে তথ্য অনুসন্ধান, তাকে নিয়ে সঠিক তথ্য এর গঠন তৈরি করা এবং সঠিক ফল পাওয়াই হল প্রধান লক্ষ্য ।

 

১. ডাটা বৈজ্ঞানিক এর জীবনচক্র

২. ডাটা বৈজ্ঞানিক এর কাজের দায়িত্ব