How-does-a-search-engine-store-data

How does a search engine store data?

How does a search engine store data?

আপনি যখন নিশ্চিত হবেন, আপনার ওয়েবসাইটটি ক্রল হয়েছে, তার পরবর্তী ধাপ হলো বিজনেসের জন্য তার ইনডেক্সিং নিশ্চিত করা। আপনার ওয়েবসাইট যদি সার্চ ইঞ্জিন বট খুঁজে পায় এবং ক্রল করে।

এটা জরুরি না যে সার্চ ইঞ্জিন আপনার ওয়েবসাইটটি তাদের স্টোরেজে ইনডেক্সিং করবে। আমরা আগের সেকশনে এ নিয়ে আলোচনা করেছি।

ইনডেক্স হচ্ছে যেখানে আপনার ওয়েবসাইট স্টোর করা হয়। ক্রলার পেজগুলো খুঁজে পাওয়ার পর তা দেখতে ওয়েব পেজ ব্রাউজ করার মতোই দেখায়।

ক্রল করার মধ্য দিয়ে সার্চ ইঞ্জিন পেজের কন্টেন্ট অ্যানালাইজড করে এবং তারপর সব ইনফরমেশন স্টোর করার মাধ্যমে ইনডেক্স করে থাকে।

Can I see how a Googlebot crawler see my pages?

হ্যাঁ, আপনার ওয়েবসাইটের ক্যাশ ভার্সনের একটি স্ন্যাপশট হিসেবে গুগলবট ক্রল করার সময় রেখে দেয়।

গুগল বিভিন্ন ফ্রিকোয়েন্সি অনুসারে ওয়েবপেজের ফল এবং ক্যাশ করে থাকে। প্রতিষ্ঠিত ওয়েবসাইটগুলো গুগল কিছুক্ষণ পরপর কল করে থাকে।

যেমন https://www.prothomalo.com/ এবং কম প্রতিষ্ঠিত ওয়েবসাইটগুলো গুগল একদিন বা তার চেয়েও বেশি সময় পর পর ক্রল করে।

আপনি চাইলে গুগল বটের ক্যাশ ভার্সন SERPS থেকে দেখতে পারেন।

CPA Marketing Full Course Join Now

কীভাবে ওয়েবসাইটের সর্বশেষ ক্যাশ ভার্সন দেখবেন তা নিচের চিত্রে তা দেখানো হলো:

একটি-ওয়েবসাইটের-সর্বশেষ-ক্যাশ-ভার্সন-দেখার-পদ্ধতি-দেখানো-হয়েছে
একটি-ওয়েবসাইটের-সর্বশেষ-ক্যাশ-ভার্সন-দেখার-পদ্ধতি-দেখানো-হয়েছে

আপনি চাইলে ওয়েবসাইটের শুধু টেক্স ভার্সন দেখতে পারেন যাতে আপনি গুরুত্বপূর্ণ কন্টেন্টগুলো ক্রল এবং ইনডেক্সিং হয়েছে কি না জানতে পারবেন।

Are pages ever removed from the index ? -ইনডেক্স থেকে কি কখনো পেজ রিমুভ হয়ে যায় ?

হ্যাঁ, পেজ ইনডেক্স থেকে রিমুভ হয়ে যেতে পারে।

যেসব কারণে URL ইনডেক্স থেকে রিমুভ হতে পারে তার কিছু কারণ নিম্নরূপ :

  1. যদি 4XX not found বা SXX error হয়ে থাকে।
  2. ওয়েবসাইটটি যদি 301 রিডাইরেক্ট সঠিকভাবে না হয়।
  3. পেজটি ডিলেট করা হয়ে থাকলেও হতে পারে।
  4. ওয়েবসাইট noindex মেটা ট্যাগ দেওয়া থাকে। ওয়েবসাইটের মালিক পেজটাকে এড়িয়ে যেতে সার্চ ইঞ্জিনকে নির্দেশ দিতে পারে।
  5. যদি কোনো স্প্যাম বা ভায়োলেন্সের জন্য ম্যানুয়েল পেনাল্টি পেয়ে থাকে। সার্চ ইঞ্জিন গাইডলাইন ব্রেক করার ফলে সার্চ রেজাল্ট এবং ইনডেক্স থেকে রিমুভ করে দিতে পারে ।
  6. আপনার URL-টি যদি বুক করা থাকে। যদি কন্টেন্টটি পড়ার জন্য বা অ্যাকসেস করার জন্য পাসওয়ার্ড রিকোয়ার্ড থাকে তবে ক্রল করা যাবে না।

আপনি যদি বিশ্বাস করেন যে আপনার ওয়েবসাইটটি আগে গুগলে ইনডেক্স ছিল। কিন্তু বর্তমানে ইনডেক্সে নেই।

তাহলে আপনি URL Inspection tool ব্যবহার করতে পারেন। যাতে আপনি পেজের স্ট্যাটাস চেক করতে পারবেন।

Google-Search-Console-এর-URL-Inspection-tool
Google-Search-Console-এর-URL-Inspection-tool

ইনডেক্স করার জন্য রিকোয়েস্ট সাবমিট করতে পারবেন। Google Search Console-এর URL Inspection tool দিয়ে পেজের অন্য কোনো সমস্যা থাকলে তা-ও জানতে পারবেন।

Tell search engines how to index your site – সার্চ ইঞ্জিনকে নির্দেশ করেন কীভাবে আপনার ওয়েবসাইটটি ইনডেক্স করবে

রোবট মেটা ডাইরেক্টটিভস/নির্দেশাবলি ( Robots Meta directives):

মেটা ডাইরেক্টটিভস বা মেটা ট্যাগ হলো একটি নির্দেশাবলি যা সার্চ ইঞ্জিনের জন্য দেওয়া হয়। যেখানে আপনার ওয়েবসাইটটিকে কীভাবে ক্রল এবং ইনডেক্স করবে, তা নির্দেশ করে।

Robots Meta Tags

আপনি সার্চ ইঞ্জিনকে পেজটিকে সার্চ রেজাল্টের জন্য ইনডেক্স না করতে রিকোয়েস্ট করতে পারেন।

আর এসব নির্দেশাবলি Robots Meta Tags-এর মাধ্যমে HTML পেজের সেকশনে বা X-Robots Tag দিয়ে HTTP header-এ ব্যবহার করা হয়।

রোবট মেটা ট্যাগ (Robots meta tag )

রোবট মেটা ট্যাগ সেকশনে HTML ওয়েবপেজে ব্যবহৃত হয়। এটা কোন নির্দিষ্ট বা সব সার্চ ইঞ্জিনের জন্য হতে পারে।

আমরা কিছু কমন মেটা ট্যাগ নিয়ে নিয়ে আলোচনা করব, যা কিনা সচরাচর ব্যবহার করা হয়।

index/noindex:

ইনডেক্স/নোইনডেক্স নিয়ে সার্চ ইঞ্জিনকে বলা হয় কোন পেজকে ক্রল করা হবে কি হবে না।

আপনি যদি noindex ট্যাগ ব্যবহার করেন তবে সার্চ ইঞ্জিন পেজটাকে ক্রল করা থেকে বিরত থাকবে।

স্বাভাবিকভাবে সার্চ ইঞ্জিন সব পেজকে ক্রল করে । তাই আপনি index ট্যাগ ব্যবহার না করলেও হবে আর যদি করেন তবে তা হবে অপ্রয়োজনীয়।

কখন আপনি নো ইনডেক্স ব্যবহার করতে পারবেন :

যেসব পেজের গুরুত্ব কম সেসব পেজকে গুগলে ইনডেক্স করা থেকে বিরত রাখতে আপনি noindex ট্যাগ ব্যবহার করতে পারেন।

যেমন: ইউজারদের পোফাইল পেজ যা ইউজাররা তৈরি করে থাকে। কিন্তু আপনি অবশ্যই তা ইউজারদের ব্যবহার করতে দিতে হবে।

follow/nofollow :

ফলো/নোফলো ট্যাগ দিয়ে সার্চ ইঞ্জিনকে বলা হয় যে কোন পেজকে ফলো বা নো ফলো করবে। follow ট্যাগ দিলে সার্চ ইঞ্জিনবট ওই লিঙ্ককে ফলো করে আর nofollow ট্যাগ দিলে ফলো করে না।

স্বাভাবিকভাবে সার্চ ইঞ্জিন সব পেজকে ফলো করে তাই আপনি follow ট্যাগ ব্যবহার না করলেও হবে আর যদি করেন তবে তা হবে অপ্রয়োজনীয়।

কখন আপনি নো-ফলো ব্যবহার করতে পারবেন:

নোফলো ট্যাগ আবার কখনো নো ইনডেক্স ট্যাগের সাথে ব্যবহার করা হয়। যাতে করে সার্চ ইঞ্জিনবট ওই লিঙ্ককে ইনডেক্স না করে এবং কোনো লিঙ্ক পাস না করে।

Noarchive:

নো আর্কাইভ ট্যাগ দিয়ে সার্চ ইঞ্জিনকে বলা হয় যে কোনো পেজের যেন ক্যাশ ভার্সন কপি করে না রাখে।

স্বাভাবিকভাবে সার্চ ইঞ্জিন কোনো পেজ যখন ক্রল এবং ইনডেক্স করে তখন এক কপি ক্যাশ ভার্সন সংরক্ষণ করে যাতে করে ইউজাররা সার্চ করে রেজাল্ট পেজ থেকে তার আগের ভার্সন দেখতে পায়।

কখন আপনি নো আর্কাইভ ব্যবহার করতে পারবেন :

আপনি যদি কোনো ই-কমার্স ওয়েবসাইট পরিচালনা করেন এবং প্রায়ই পণ্যের দাম ওঠানামা করে তবে আপনি নোআর্কাইভ ট্যাগ ব্যবহার করতে পারেন।

যাতে করে সার্চ ইঞ্জিনে আগের কোনো ক্যাশ ভার্সন সংরক্ষণ না করে। ফলে ইউজারদের সাথে দাম নিয়ে কোনো সমস্যার সম্মুখীন হওয়ার সম্ভাবনা থাকবে না।

X-Robots-Tag

এক্স রোবট-ট্যাগ URL-এর HTTP হেডারে ব্যবহার করা হয়।

আপনি যদি সার্চ ইঞ্জিনগুলোকে ব্লক করতে চান তবে আপনি প্রচলিত HTML ট্যাগগুলো ব্যবহার করতে পারেন। আর আপনি যদি কোনো non-HTML ফাইল বা ফোল্ডার বুক করতে চান তবে এক্স রোবট-ট্যাগ ব্যবহার করুন।

উদাহরণস্বরূপ মনে করুন যে আপনি কোন ফাইল বা ফোল্ডার চান।

(example.com/local-news old-news-to-noindex) ব্লক করতে
<Files – ‘V?no\-newsV.*’>
Header set X-Robots-Tag ‘noindex, nofollow’
</Files>
অথবা কোনো নির্দিষ্ট পিডিএফ ফাইল,
<Files-‘\pdf$’>
Header set X-Robots Tag ‘noindex, nofollow’
</Files>

আপনি যদি robots.txt ফাইল ব্যবহারের বিভিন্ন পদ্ধতি জানেন তবে ক্রলিং এবং ইনডেক্সিংয়ের ওপর রাজত্ব করতে পারবেন এবং যা ওয়েবসাইটকে বিভিন্ন ভুল ব ফাঁদ বাঁচাতে পারবে।

Join our others social media

Leave a Reply

Shopping cart

0
image/svg+xml

No products in the cart.

Continue Shopping