How does a search engine store data?
আপনি যখন নিশ্চিত হবেন, আপনার ওয়েবসাইটটি ক্রল হয়েছে, তার পরবর্তী ধাপ হলো বিজনেসের জন্য তার ইনডেক্সিং নিশ্চিত করা। আপনার ওয়েবসাইট যদি সার্চ ইঞ্জিন বট খুঁজে পায় এবং ক্রল করে।
এটা জরুরি না যে সার্চ ইঞ্জিন আপনার ওয়েবসাইটটি তাদের স্টোরেজে ইনডেক্সিং করবে। আমরা আগের সেকশনে এ নিয়ে আলোচনা করেছি।
ইনডেক্স হচ্ছে যেখানে আপনার ওয়েবসাইট স্টোর করা হয়। ক্রলার পেজগুলো খুঁজে পাওয়ার পর তা দেখতে ওয়েব পেজ ব্রাউজ করার মতোই দেখায়।
ক্রল করার মধ্য দিয়ে সার্চ ইঞ্জিন পেজের কন্টেন্ট অ্যানালাইজড করে এবং তারপর সব ইনফরমেশন স্টোর করার মাধ্যমে ইনডেক্স করে থাকে।
Can I see how a Googlebot crawler see my pages?
হ্যাঁ, আপনার ওয়েবসাইটের ক্যাশ ভার্সনের একটি স্ন্যাপশট হিসেবে গুগলবট ক্রল করার সময় রেখে দেয়।
গুগল বিভিন্ন ফ্রিকোয়েন্সি অনুসারে ওয়েবপেজের ফল এবং ক্যাশ করে থাকে। প্রতিষ্ঠিত ওয়েবসাইটগুলো গুগল কিছুক্ষণ পরপর কল করে থাকে।
যেমন https://www.prothomalo.com/ এবং কম প্রতিষ্ঠিত ওয়েবসাইটগুলো গুগল একদিন বা তার চেয়েও বেশি সময় পর পর ক্রল করে।
আপনি চাইলে গুগল বটের ক্যাশ ভার্সন SERPS থেকে দেখতে পারেন।
CPA Marketing Full Course Join Now
কীভাবে ওয়েবসাইটের সর্বশেষ ক্যাশ ভার্সন দেখবেন তা নিচের চিত্রে তা দেখানো হলো:

আপনি চাইলে ওয়েবসাইটের শুধু টেক্স ভার্সন দেখতে পারেন যাতে আপনি গুরুত্বপূর্ণ কন্টেন্টগুলো ক্রল এবং ইনডেক্সিং হয়েছে কি না জানতে পারবেন।
Are pages ever removed from the index ? -ইনডেক্স থেকে কি কখনো পেজ রিমুভ হয়ে যায় ?
হ্যাঁ, পেজ ইনডেক্স থেকে রিমুভ হয়ে যেতে পারে।
যেসব কারণে URL ইনডেক্স থেকে রিমুভ হতে পারে তার কিছু কারণ নিম্নরূপ :
- যদি 4XX not found বা SXX error হয়ে থাকে।
- ওয়েবসাইটটি যদি 301 রিডাইরেক্ট সঠিকভাবে না হয়।
- পেজটি ডিলেট করা হয়ে থাকলেও হতে পারে।
- ওয়েবসাইট noindex মেটা ট্যাগ দেওয়া থাকে। ওয়েবসাইটের মালিক পেজটাকে এড়িয়ে যেতে সার্চ ইঞ্জিনকে নির্দেশ দিতে পারে।
- যদি কোনো স্প্যাম বা ভায়োলেন্সের জন্য ম্যানুয়েল পেনাল্টি পেয়ে থাকে। সার্চ ইঞ্জিন গাইডলাইন ব্রেক করার ফলে সার্চ রেজাল্ট এবং ইনডেক্স থেকে রিমুভ করে দিতে পারে ।
- আপনার URL-টি যদি বুক করা থাকে। যদি কন্টেন্টটি পড়ার জন্য বা অ্যাকসেস করার জন্য পাসওয়ার্ড রিকোয়ার্ড থাকে তবে ক্রল করা যাবে না।
আপনি যদি বিশ্বাস করেন যে আপনার ওয়েবসাইটটি আগে গুগলে ইনডেক্স ছিল। কিন্তু বর্তমানে ইনডেক্সে নেই।
তাহলে আপনি URL Inspection tool ব্যবহার করতে পারেন। যাতে আপনি পেজের স্ট্যাটাস চেক করতে পারবেন।

ইনডেক্স করার জন্য রিকোয়েস্ট সাবমিট করতে পারবেন। Google Search Console-এর URL Inspection tool দিয়ে পেজের অন্য কোনো সমস্যা থাকলে তা-ও জানতে পারবেন।
Tell search engines how to index your site – সার্চ ইঞ্জিনকে নির্দেশ করেন কীভাবে আপনার ওয়েবসাইটটি ইনডেক্স করবে
রোবট মেটা ডাইরেক্টটিভস/নির্দেশাবলি ( Robots Meta directives):
মেটা ডাইরেক্টটিভস বা মেটা ট্যাগ হলো একটি নির্দেশাবলি যা সার্চ ইঞ্জিনের জন্য দেওয়া হয়। যেখানে আপনার ওয়েবসাইটটিকে কীভাবে ক্রল এবং ইনডেক্স করবে, তা নির্দেশ করে।
Robots Meta Tags
আপনি সার্চ ইঞ্জিনকে পেজটিকে সার্চ রেজাল্টের জন্য ইনডেক্স না করতে রিকোয়েস্ট করতে পারেন।
আর এসব নির্দেশাবলি Robots Meta Tags-এর মাধ্যমে HTML পেজের সেকশনে বা X-Robots Tag দিয়ে HTTP header-এ ব্যবহার করা হয়।
রোবট মেটা ট্যাগ (Robots meta tag )
রোবট মেটা ট্যাগ সেকশনে HTML ওয়েবপেজে ব্যবহৃত হয়। এটা কোন নির্দিষ্ট বা সব সার্চ ইঞ্জিনের জন্য হতে পারে।
আমরা কিছু কমন মেটা ট্যাগ নিয়ে নিয়ে আলোচনা করব, যা কিনা সচরাচর ব্যবহার করা হয়।
index/noindex:
ইনডেক্স/নোইনডেক্স নিয়ে সার্চ ইঞ্জিনকে বলা হয় কোন পেজকে ক্রল করা হবে কি হবে না।
আপনি যদি noindex ট্যাগ ব্যবহার করেন তবে সার্চ ইঞ্জিন পেজটাকে ক্রল করা থেকে বিরত থাকবে।
স্বাভাবিকভাবে সার্চ ইঞ্জিন সব পেজকে ক্রল করে । তাই আপনি index ট্যাগ ব্যবহার না করলেও হবে আর যদি করেন তবে তা হবে অপ্রয়োজনীয়।
কখন আপনি নো ইনডেক্স ব্যবহার করতে পারবেন :
যেসব পেজের গুরুত্ব কম সেসব পেজকে গুগলে ইনডেক্স করা থেকে বিরত রাখতে আপনি noindex ট্যাগ ব্যবহার করতে পারেন।
যেমন: ইউজারদের পোফাইল পেজ যা ইউজাররা তৈরি করে থাকে। কিন্তু আপনি অবশ্যই তা ইউজারদের ব্যবহার করতে দিতে হবে।
follow/nofollow :
ফলো/নোফলো ট্যাগ দিয়ে সার্চ ইঞ্জিনকে বলা হয় যে কোন পেজকে ফলো বা নো ফলো করবে। follow ট্যাগ দিলে সার্চ ইঞ্জিনবট ওই লিঙ্ককে ফলো করে আর nofollow ট্যাগ দিলে ফলো করে না।
স্বাভাবিকভাবে সার্চ ইঞ্জিন সব পেজকে ফলো করে তাই আপনি follow ট্যাগ ব্যবহার না করলেও হবে আর যদি করেন তবে তা হবে অপ্রয়োজনীয়।
কখন আপনি নো-ফলো ব্যবহার করতে পারবেন:
নোফলো ট্যাগ আবার কখনো নো ইনডেক্স ট্যাগের সাথে ব্যবহার করা হয়। যাতে করে সার্চ ইঞ্জিনবট ওই লিঙ্ককে ইনডেক্স না করে এবং কোনো লিঙ্ক পাস না করে।
Noarchive:
নো আর্কাইভ ট্যাগ দিয়ে সার্চ ইঞ্জিনকে বলা হয় যে কোনো পেজের যেন ক্যাশ ভার্সন কপি করে না রাখে।
স্বাভাবিকভাবে সার্চ ইঞ্জিন কোনো পেজ যখন ক্রল এবং ইনডেক্স করে তখন এক কপি ক্যাশ ভার্সন সংরক্ষণ করে যাতে করে ইউজাররা সার্চ করে রেজাল্ট পেজ থেকে তার আগের ভার্সন দেখতে পায়।
কখন আপনি নো আর্কাইভ ব্যবহার করতে পারবেন :
আপনি যদি কোনো ই-কমার্স ওয়েবসাইট পরিচালনা করেন এবং প্রায়ই পণ্যের দাম ওঠানামা করে তবে আপনি নোআর্কাইভ ট্যাগ ব্যবহার করতে পারেন।
যাতে করে সার্চ ইঞ্জিনে আগের কোনো ক্যাশ ভার্সন সংরক্ষণ না করে। ফলে ইউজারদের সাথে দাম নিয়ে কোনো সমস্যার সম্মুখীন হওয়ার সম্ভাবনা থাকবে না।
X-Robots-Tag
এক্স রোবট-ট্যাগ URL-এর HTTP হেডারে ব্যবহার করা হয়।
আপনি যদি সার্চ ইঞ্জিনগুলোকে ব্লক করতে চান তবে আপনি প্রচলিত HTML ট্যাগগুলো ব্যবহার করতে পারেন। আর আপনি যদি কোনো non-HTML ফাইল বা ফোল্ডার বুক করতে চান তবে এক্স রোবট-ট্যাগ ব্যবহার করুন।
উদাহরণস্বরূপ মনে করুন যে আপনি কোন ফাইল বা ফোল্ডার চান।
(example.com/local-news old-news-to-noindex) ব্লক করতে
<Files – ‘V?no\-newsV.*’>
Header set X-Robots-Tag ‘noindex, nofollow’
</Files>
অথবা কোনো নির্দিষ্ট পিডিএফ ফাইল,
<Files-‘\pdf$’>
Header set X-Robots Tag ‘noindex, nofollow’
</Files>
আপনি যদি robots.txt ফাইল ব্যবহারের বিভিন্ন পদ্ধতি জানেন তবে ক্রলিং এবং ইনডেক্সিংয়ের ওপর রাজত্ব করতে পারবেন এবং যা ওয়েবসাইটকে বিভিন্ন ভুল ব ফাঁদ বাঁচাতে পারবে।