ডেটা কি? সে বিষয়ে আগে একটা ধারণা নেই| ডেটা হলো কতগুলো উদ্দেশ্যহীন নির্দেশনা, যা নির্দিষ্ট কোনো উদ্দেশ্যে সংগৃহীত, প্রক্রিয়াজাত এবং সংরক্ষিত হয়। উদ্দেশ্যহীন এই নির্দেশনাগুলো সাধারণত কোনো চলকের বিপরীতে সংখ্যা, পাঠ, চিত্র, অডিও, ভিডিও বা অন্যান্য ডিজিটাল রূপে সঞ্চিত হয়। সংক্ষেপে বললে চলকের যেকোনো মানকেই ডেটা বলা হয়। সাধারণত ডেটা গোছালো থাকে| কখনও আবার অগোছালো বা দারুণ ভাবে অগোছালো অবস্থায় থাকে।
প্রথমেই ডেটা সাইন্স এবং বিগ ডেটার মধ্যে পার্থক্য বোঝার চেষ্টা করি| উভয় ক্ষেত্রই ডেটা নিয়ে কাজ করতে হয় এবং বিশেষ দক্ষতার প্রয়োজন হয়| উভয়েরই লক্ষ্য সিদ্ধান্ত নেওয়ার জন্য তথ্য থেকে অন্তর্দৃষ্টি এবং জ্ঞান আহরণ করা হয়| উভয়েরই বিভিন্ন বিস্তৃত অ্যাপ্লিকেশন রয়েছে| সঠিকভাবে প্রয়োগ করা হলে উভয়ই স্টেকহোল্ডারদের উল্লেখযোগ্য ভাবে উপার্জন এবং অপারেশনাল দক্ষতার উন্নতি সাধন করতে পারে|
ডেটা সায়েন্স এখন একটি অধ্যায়নের ডিসিপ্লিন। বিগ ডেটা হল বিপুল পরিমাণ তথ্য সংগ্রহ, রক্ষণাবেক্ষণ এবং প্রক্রিয়া করার বিশেষ একটি কৌশল। ডেটা সায়েন্স বিভিন্ন ক্রিয়াকলাপে ডেটা সংগ্রহ, প্রক্রিয়াকরণ, বিশ্লেষণ এবং ব্যবহার সম্পর্কে কাজ করে। এটি আরও অনেকটা ধারণাগত বিষয়। বিপুল পরিমাণ ডেটা থেকে গুরুত্বপূর্ণ এবং মূল্যবান তথ্য বের করার বিষয়ে কাজ করে বিগ ডেটা। ডেটা সায়েন্স হল কম্পিউটার সায়েন্স, ফলিত পরিসংখ্যান, পরিসংখ্যান বা ফলিত গণিতের মতো অধ্যয়নের একটি ক্ষেত্র। অন্যদিকে বিগ ডেটা বলা যায় জটিল ডেটা সেটের প্রবণতা ট্র্যাকিং এবং আবিষ্কার করার একটি কৌশল।
ডেটা সায়েন্সের লক্ষ্য হল ডেটা ড্রিভেন কৌশল অথবা বাণিজ্যিকভাবে বললে পণ্য তৈরি করা। বিগ ডেটা এর লক্ষ্য হল বিদ্যমান ঐতিহ্যগত দিকগুলির মধ্যে বিশাল ডেটা থেকে শুধু গুরুত্বপূর্ণ তথ্য আহরণ করে ডেটাকে আরও গুরুত্বপূর্ণ এবং ব্যবহারযোগ্য করে গড়ে তোলা। ডেটা সায়েন্সে প্রধানত ব্যবহৃত প্রোগ্রাম গুলির মধ্যে রয়েছে SAS, R, Python, জুলিয়া ইত্যাদি কিন্তু বিগ ডেটাতে ব্যবহৃত হয় Hadoop, Spark, Flink, ইত্যাদি টুল।