المساعد الشخصي الرقمي

مشاهدة النسخة كاملة : برنامج Googlebot : برنامج زاحف الويب الخاص بـ Google


dealo
01-05-2007, 06:08 AM
برنامج Googlebot : برنامج زاحف الويب الخاص بـ Google



برنامج Googlebot هو برنامج روبوت خاص بـ Google للزحف إلى الويب. وهو يقوم بجمع ملفات من الويب لإنشاء فهرس قابل للبحث لـ محرك بحث Google. وفي هذه الصفحة، ستجد إجابات لمعظم الأسئلة الشائعة عن كيفية عمل برنامج زاحف الويب الخاص بنا.

ولمزيد من المعلومات المفصلة عن كيفية منع برنامج Googlebot من الزحف إلى كل موقعك أو جزء منه؛ الرجاء مراجعة صفحة أوامر الإزالة الخاصة بنا.


1. كم عدد المرات التي سيصل فيها برنامج Googlebot إلى صفحات الويب الخاصة بي؟

بالنسبة لمعظم المواقع؛ يجب ألاَّ يصل برنامج Googlebot إلى الموقع أكثر من مرة واحدة كل عدة ثواني في المتوسط. ومع ذلك - بسبب أعطال الشبكة - من الممكن أن يظهر المعدل أعلى قليلاً في فترات قصيرة.


2. كيف أطالب بعدم قيام Google بالزحف إلى كل موقعي أو أجزاء من؟

الملف robots.txt هو ملف قياسي يمكنه إخبار برنامج Googlebot بعدم تنزيل بعض أو كل المعلومات من مركز خدمة "سيرفر" الويب الخاص بك.
وصيغة الملف robots.txt محددة في
بروتوكول استبعاد الروبوت (http://www.robotstxt.org/wc/exclusion.html#robotstxt) (وصلات لموقع إنجليزي).

ولمعرفة التعليمات المفصلة عن كيفية منع برنامج Googlebot من الزحف إلى كل موقعك أو جزء منه، الرجاء مراجعة صفحة أوامر الإزالة الخاصة بنا. وتذكَّر أن التغييرات التي تقوم بها في ملف robots.txt الخاص بمركز الخدمة الخاص بك لن يتم نقلها على الفور إلى Google؛ وإنما سيتم اكتشافها ونقلها عند قيام برنامج Googlebot بالزحف إلى موقعك مرة تالية.


3. يقوم برنامج Googlebot بالزحف إلى موقعي بسرعة مفرطة. فماذا أفعل؟

الرجاء الاتصال بنا (http://www.google.com.eg/support/bin/request.py?user_type=webmaster&contact_type=googlebot) (وصلات لإصدار إنجليزي) وإرسال عنوان URL لموقعك ووصف تفصيلي للمشكلة. والرجاء أيضًا تضمين جزء من سجل الويب الذي يوضح مرات وصول Google حتى نتمكن من اكتشاف المشكلة بسرعة.


4. لماذا يطلب برنامج Googlebot ملفًا يُسمى robots.txt وهو غير موجود على مركز الخدمة "سيرفر" الخاص بي؟

الملف robots.txt هو ملف قياسي يمكنه إخبار برنامج Googlebot بعدم تنزيل بعض أو كل المعلومات من مركز خدمة "سيرفر" الويب الخاص بك. ولمزيد من المعلومات عن كيفية إنشاء ملف robots.txt؛ انظر بروتوكول استبعاد الروبوت (http://www.robotstxt.org/wc/exclusion.html#robotstxt)(وصلات لموقع إنجليزي). إذا كنت تريد فقط منع رسائل أخطاء "الملف غير موجود" في سجل مركز خدمة الويب الخاص بك، يمكنك إنشاء ملف فارغ يسمى robots.txt.


5. لماذا يحاول برنامج Googlebot تنزيل وصلات غير صحيحة من مركز الخدمة "سيرفر" الخاص بي؟ أو من مركز خدمة (سيرفر) غير موجود؟

من المفترض أن الكثير من الوصلات على الويب سيتم كسرها أو إهمالها في أي وقت معين. وعندما ينشر شخص ما وصلة غير صحيحة لموقعك (ربما بسبب خطأ طباعي أو إملائي) أو يفشل في تحديث وصلات ليعكس التغييرات في مركز الخدمة الخاص بك؛ سيحاول برنامج Googlebot تنزيل وصلة غير صحيحة من موقعك. وهذا أيضًا يفسر سبب وجود طلبات توصُّل في جهاز ليس أصلاً مركز خدمة ويب.


6. لماذا يقوم برنامج Googlebot بتنزيل معلومات من مركز خدمة (سيرفر) الويب "السري" الخاص بنا؟

إنه من المستحيل تقريبًا أن تحتفظ بسرية مركز خدمة (سيرفر) ويب بعدم نشر أي وصلات له. فبمجرد أن يتبع شخص ما وصلة من مركز الخدمة "السري" الخاص بك إلى مركز خدمة ويب آخر، قد يظهر عنوان URL "السري" الخاص بك في علامة الإحالة ويتم تخزينه ونشره بواسطة مركز خدمة الويب الآخر في سجل الإحالة الخاص بهذا المركز. ولذلك؛ فإذا كان هناك وصلة لمركز خدمة الويب "السري" الخاص بك أو لصفحة على الويب في أي مكان؛ فمن المحتمل أن يعثر عليها برنامج Googlebot وغيره من برامج زحف الويب الأخرى.


7. لماذا لا يتبع برنامج Googlebot ملف robots.txt الخاص بي؟

لحفظ سعة النطاق؛ يقوم برنامج Googlebot بتنزيل ملف robots.txt فقط مرة واحدة كل يوم أو عندما نقوم بجلب صفحات عديدة من مركز الخدمة. ولذا، قد يأخذ برنامج Googlebot برُهة من الوقت لمعرفة التغييرات الحادثة في ملف robots.txt الخاص بك. وأيضًا؛ يتم توزيع برنامج Googlebot على أجهزة متعددة. يحتفظ كل منها بسجله الخاص بملف robots.txt الخاص بك.

نحن نقترح دائمًا التحقق من صحة التراكيب في ملفاتك طبقًا للمعيار الموجود في http://www.robotstxt.org/wc/exclusion.html#robotstxt (http://www.robotstxt.org/wc/exclusion.html#robotstxt) (وصلات لموقع إنجليزي). وأحد المصادر الشائعة للمشاكل هو أن ملف robots.txt لم يُوضع في الدليل الأعلى لمركز الخدمة (مثلاً؛ www.myhost.com/robots.txt (http://www.myhost.com/robots.txt))، لأن وضع الملف في دليل فرعي لن يكون له أي تأثير.

كما أن هناك اختلافًا بسيطًا بين الطريقة التي يعالج بها برنامج Googlebot ملف robots.txt والطريقة التي يقول معيار robots.txt أننا ينبغي أن نستخدمها في معالجة هذا الملف (مع مراعاة الفرق بين "ينبغي" و "يجب"). فالمعيار يقول إننا ينبغي أن نتبع أول قاعدة تقبل التطبيق، بينما يتبع برنامج Googlebot أوسع القواعد انطباقًا (أي الأكثر تخصصًا). وهذا الإجراء البديهي يتفق مع ما يفعله الناس في الواقع ومع ما يتوقعون أن نفعله. على سبيل المثال، فكِّر في ملف robots.txt التالي:

User-Agent: *
Allow: /
Disallow: /cgi-bin

إن من الواضح أن قصد مشرف الموقع هنا هو السماح لبرامج الروبوت بالزحف إلى كل شيء ماعدا دليل /cgi-bin. وبالتالي، هذا هو ما نفعله.

لمزيد من المعلومات، الرجاء الاطلاع على الأسئلة الشائعة (http://www.robotstxt.org/wc/faq.html) حول برامج الروبوت (وصلات لموقع إنجليزي). وإذا ظلت المشكلة قائمة، فالرجاء إعلامنا بذلك (http://www.robotstxt.org/wc/faq.html) (وصلات لإصدار إنجليزي).


8. لماذا توجد طلبات توصُّل من أجهزة عديدة على موقع Google.com، كلها بواسطة برنامج user-agent Googlebot؟

لقد تم تصميم برنامج Googlebot بحيث يتم توزيعه على أجهزة مختلفة لتحسين الأداء والحجم مع نمو الويب. وكذلك – وللتقليل من استخدام سعة النطاق - نقوم بتشغيل برامج زاحف عديدة على أجهزة تم وضعها بالقرب من المواقع التي تقوم بفهرستها في الشبكة.


9. هل يمكن إخباري بعناوين بروتوكول الإنترنت IP التي يبدأ منها برنامج Googlebot الزحف حتى يمكنني تنقية سجلاتي؟

تتغير عناوين بروتوكول الإنترنت IP المستخدمة بواسطة برنامج Googlebot من وقت لآخر. وأفضل طريقة لتحديد عمليات الوصول بواسطة برنامج Googlebot هي استخدام برنامج user-agent (Googlebot).


10. لماذا يقوم برنامج Googlebot بتنزيل الصفحة ذاتها على موقعي عدة مرات؟

بصفة عامة؛ ينبغي أن يقوم برنامج Googlebot بتنزيل نسخة واحدة فقط من كل ملف من موقعك أثناء عملية زحف معينة. وفي كثير من الأحيان، يتوقف برنامج الزاحف ويعاد تشغيله؛ مما قد يؤدي إلى قيامه بإعادة الزحف إلى صفحات قام بجلبها مؤخرًا.


11. لماذا لا تظهر صفحات موقعي التي قام برنامج Googlebot بالزحف إليها في فهرسكم؟

لا تقلق إذا لم تتمكن من العثور الفوري على ملفات قام برنامج Googlebot بالزحف إليها في محرك بحث Google. إذ يتم إدخال الملفات إلى فهرسنا سريعًا بعد أن يتم الزحف إليها. ومن حين لآخر؛ لن يتم تضمين الملفات التي جلبها برنامج Googlebot لأسباب عديدة (على سبيل المثال: لأنها تبدو كنسخ طبق الأصل لصفحات أخرى على الويب).


12. ما هي أنواع الوصلات التي يتبعها برنامج Googlebot?

يتبع برنامج Googlebot وصلات HREF و وصلات SRC.


13. كيف أمنع برنامج Googlebot من تتبع الوصلات الموجودة على صفحاتي؟

لكي تمنع برنامج Googlebot من تتبع الوصلات الموجودة على صفحاتك لصفحات أو ملفات أخرى؛ قم بوضع علامة ******************** tag التالية على رأس ملف HTML الخاص بك.

<******************** NAME="Googlebot" CONTENT="nofollow">

ولمعرفة المزيد عن علامات ******************** tags، الرجاء مراجعة http://www.robotstxt.org/wc/exclusion.html#******************** (http://www.robotstxt.org/wc/exclusion.html#********************) (وصلات لموقع إنجليزي)؛ ويمكنك أيضًا قراءة ما يقوله معيار HTML عن هذه العلامات (http://www.w3.org/TR/REC-html40/appendix/notes.html#h-B.4.1.2) (وصلات لموقع إنجليزي). وتذكِّر أن التغييرات التي تحدث في موقعك لن يتم نقلها على الفور إلى Google؛ وإنما سيتم اكتشافها ونقلها عند قيام برنامج Googlebot بالزحف إلى موقعك مرة تالية.


14. كيف اُخبر برنامج Googlebot بألا يقوم بالزحف إلى وصلة صادرة فردية على صفحة ما؟

يمكن أن تستبعد علامات ******************** tags كل الوصلات الصادرة الموجودة في صفحة ما، ولكن يمكنك أيضًا أن تأمر برنامج Googlebot بعدم الزحف إلى الوصلات الفردية بإضافة الصفة المميزة rel="nofollow" إلى الوصلة. وعندما يرى Google الصفة المميزة rel="nofollow" على وصلات، فلن تحصل تلك الوصلات على أي ائتمان عندما نقوم بتصنيف مواقع الويب في نتائج بحثنا. على سبيل المثال؛ الوصلة:

<a href=http://www.example.com/>This is a great link!</a>

يمكن تبديلها بالوصلة:

<a href=http://www.example.com/ rel="nofollow"> I can't vouch for this link</a>.


15. لا أجد إجابة على سؤالي الخاص ببرنامج Googlebot هنا. إلى أين ينبغي أن أرسله؟




الرجاء الاتصال بنا (http://www.google.com.eg/support/bin/request.py?contact_type=webmaster&hl=en)و إرسال الأسئلة (وصلات لإصدار إنجليزي).
هل تحتاج لإزالة محتوى من فهرس Google ؟


هل تحتاج لإزالة محتوى من فهرس Google؟

تعتبر Google شمولية نتائج بحثنا أولوية ذات أهمية قصوى. نحن ملتزمون بتقديم نتائج بحث كاملة وموضوعية لمستخدمينا؛ وعليه، فنحن لا نستطيع أن نشارك في ممارسة الرقابة. نقوم فقط بإيقاف فهرسة موقع ما عندما يطلب مشرف الموقع المسؤول عن تلك الصفحات ذلك، وعندما تقوم تلك الصفحات بإرسال رسائل بريد مزعجة لفهرسنا، أو عندما يكون ذلك مطلوبًا من قِبل القانون. فهذه السياسة تكون ضرورية للتأكد من أن تلك الصفحات لم يتم إزالتها على نحو غير ملائم من فهرسنا.
إزالة موقعك بالكامل


إذا كنت ترغب في استبعاد موقعك بالكامل من فهرس Google، يمكنك وضع ملف في المجلد الرئيسي لمركز الخدمة الخاص بك باسم robots.txt. فهذا هو البرتوكول القياسي الذي تلاحظه أغلب برامج الزاحف الخاصة بالويب من أجل استبعاد مركز خدمة ويب أو دليل ما من فهرس. المزيد من المعلومات حول robots.txt متاحة هنا: http://www.robotstxt.org/wc/norobots.html (http://www.robotstxt.org/wc/norobots.html) (وصلات لموقع إنجليزي). الرجاء ملاحظة أن برنامج الروبوت Googlebot لا يقوم بترجمة رد 401/403 ("محظور"/"ممنوع") لملف إحضار robots.txt وليس للزحف إلى أي صفحة على الموقع.

لإزالة موقعك من محركات البحث ومنع برامج الروبوت من الزحف إليه في المستقبل، قم بوضع الملف robots.txt التالي في المجلد الرئيسي لمركز الخدمة الخاص بك.

User-agent: *
Disallow: /

لإزالة موقعك من Google فقط ومنع برنامج Googlebot من الزحف إلى موقعك، قم بوضع الملف robots.txt التالي في المجلد الرئيسي لمركز الخدمة الخاص بك.

User-agent: Googlebot
Disallow: /

فكل منفذ يجب أن يكون لديه ملف robots.txt خاص به. وبوجه الخصوص، إذا قمت بتقديم محتوى من خلال كلا من بروتوكولات http وhttps، سوف تحتاج ملف robots.txt منفصل لكل من هذه البروتوكولات. على سبيل المثال، للسماح لبرنامج Googlebot بفهرسة جميع صفحات http وعدم فهرسة صفحات https، يجب استخدام ملفات robots.txt الموجودة أدناه.

لبروتوكول http الخاص بك (http://yourserver.com/robots.txt (http://yourserver.com/robots.txt)):

User-agent: *
Allow: /

لبروتوكول https الخاص بك (https://yourserver.com/robots.txt (https://yourserver.com/robots.txt)):

User-agent: *
Disallow: /


ملاحظة : إذا كنت تعتقد أن طلبك عاجل ولا يمكن أن ينتظر للمرة القادمة حتى يقوم Google بالزحف إلى موقعك، استخدم نظام إزالة عنوان موقع URL الآلي (http://services.google.com/urlconsole/controller) (الصفحة موجودة حاليًا باللغة الإنجليزية فقط). لكي تعمل هذه العملية الآلية، يجب أن يقوم مشرف الموقع أولاً بإنشاء ملف robots.txt ووضعه على الموقع المراد إزالته.

سوف يستمر Google في استبعاد موقعك أو الأدلة من عمليات الزحف المتعاقبة إذا كان ملف robots.txt موجود بالفعل في المجلد الرئيسي لمركز خدمة الويب. إذا كنت لا تستطيع الوصول إلى مستوى الأساسي الخاص بمركز الخدمة، يمكنك وضع ملف robots.txt على نفس المستوى الخاص بالملفات المطلوب إزالتها.
سوف يؤدي عمل ذلك أو التقديم من خلال نظام إزالة عنوان URL الآلي إزالة مؤقتة لموقعك لمدة 180 يوم من فهرس Google، بغض النظر عما إذا قمت بإزالة الملف robots.txt بعد معالجة طلبك أم لا.
سوف يؤدي عمل ذلك أو التقديم من خلال نظام إزالة عنوان URL الآلي إلى إزالة مؤقتة لمدة 180 يوم للأدلة المحددة في ملف robots.txt الخاص بك من فهرس Google، بغض النظر عما إذا قمت بإزالة ملف robots.txt بعد معالجة طلبك أم لا.
(سوف يتطلب حفظ ملف robots.txt على نفس المستوى إلى الرجوع إلى نظام إزالة عنوان URL كل 180 يومًا لإعادة إصدار الإزالة).

dealo
01-05-2007, 06:10 AM
إزالة جزء من موقعك بالكامل


الخيار الأول : Robots.txt

لإزالة أدلة أو صفحات فردية من موقع الويب الخاص بك، يمكنك وضع ملف robots.txt في المجلد الرئيسي لمركز الخدمة الخاص بك. لمزيد من المعلومات عن كيفية إنشاء ملف robots.txt، انظر بروتوكول استبعاد برنامج الروبوت (http://www.robotstxt.org/wc/exclusion.html#robotstxt)(وصلات لموقع إنجليزي). عند إنشاء ملف robots.txt الخاص بك، الرجاء تذكُّر ما يلي: عند تقرير أية صفحات يتم الزحف إليها على مُضيف معين، سوف يتبع برنامج الروبوت Googlebot أول سجل في ملف robots.txt مع برنامج User-agent بادئ مع برنامج الروبوت "Googlebot." إذا لم يوجد مثل هذا القيد، فإنه سوف يقوم بإتباع القيد الأول مع وكيل مستخدم لـ "*". علاوة على ذلك، لقد قام Google بتقديم مرونة زائدة لملف robots.txt القياسي من خلال استخدام العلامات النجمية. قد يتضمن عدم السماح للنماذج "*" لمطابقة أي تسلسل من الحروف، وقد تنتهي النماذج بـ "$" لتشير إلى نهاية اسمًًا.

لإزالة كافة الصفحات تحت دليل معين (على سبيل المثال، lemurs)، يجب أن تستخدم قيد robots.txt التالي:

وكيل مستخدم: برنامج Googlebot
Disallow: /lemurs

لإزالة كافة الملفات الخاصة بنوع ملف محدد (على سبيل المثال، .gif)، يجب أن تستخدم قيد robots.txt التالي:

User-agent: Googlebot
Disallow: /*.gif$

لإزالة الصفحات المنشأة بطريقة ديناميكية، يجب أن تستخدم القيد robots.txt:

User-agent: Googlebot
Disallow: /*?


الخيار الثاني : ******************** tags

فهناك معيار أخر، والذي من الممكن أن يكون أكثر تلائمًا لاستخدام صفحة بصفحة، حيث يشتمل على إضافة <********************> tag لصفحة HTML لإخبار برامج الروبوت بعدم فهرسة تلك الصفحة. يتم وصف هذا المعيار في http://www.robotstxt.org/wc/exclusion.html#******************** (http://www.robotstxt.org/wc/exclusion.html#********************) (وصلات لموقع إنجليزي).

لمنع جميع برامج الروبوت من فهرسة صفحة على موقعك، يجب وضع العلامة الوصفية التالية في قسم <HEAD> الخاص بصفحتك:

<******************** NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

للسماح لبرامج الروبوت الأخرى بفهرسة الصفحة على موقعك، ومنع برامج الروبوت الخاصة بـ Google فقط من فهرسة الصفحة، يجب استخدام العلامة التالية:

<******************** NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">

للسماح لبرامج الروبوت بفهرسة الصفحة على موقعك ولكن بعد توجيها بعدم تتبع الوصلات الصادرة، يجب استخدام العلامة التالية:

<******************** NAME="ROBOTS" CONTENT="NOFOLLOW">

ملاحظة : إذا كنت تعتقد أن طلبك عاجل ولا يمكن أن ينتظر للمرة القادمة حتى يقوم Google بالزحف إلى موقعك، استخدم نظام إزالة عنوان URL الآلي (http://services.google.com/urlconsole/controller) (الصفحة موجودة حاليًا باللغة الإنجليزية فقط). لكي تعمل هذه العملية الآلية، يجب أن يقوم مشرف الموقع أولاً بإدراج العلامة الوصفية الملائمة في رمز HTML الخاص بالصفحة. سوف يؤدي عمل ذلك أو التقديم من خلال نظام إزالة عنوان URL الآلي إلى إزالة مؤقتة لتلك الصفحات لمدة 180 يومًا من فهرس Google، بغض النظر عما إذا قمت بإزالة الملف أو العلامات الوصفية robots.txt بعد معالجة طلبك أم لا.




إزالة القصاصات


فالقصاصة هي عبارة عن نص مُقتبس يظهر أسفل عنوان صفحة في نتائج بحثنا ويقوم بوصف المحتوى الخاص بتلك الصفحة..

لمنع Google من عرض قصاصات لصفحتك، قم بوضع تلك العلامة في قسم <HEAD> الخاص بصفحتك:

<******************** NAME="GOOGLEBOT" CONTENT="NOSNIPPET">

ملاحظة : تؤدي إزالة القصاصات أيضًا إلى إزالة الصفحات المخبأة.

ملاحظة: إذا كنت تعتقد أن طلبك عاجل ولا يمكن أن ينتظر للمرة القادمة حتى يقوم Google بالزحف إلى موقعك، استخدم نظام إزالة عنوان URL الآلي (http://services.google.com/urlconsole/controller) (الصفحة موجودة حاليًا باللغة الإنجليزية فقط). لكي تعمل هذه العملية الآلية، يجب أن يقوم مشرف الموقع أولاً بإدراج العلامة الوصفية الملائمة في رمز HTML الخاص بالصفحة.




إزالة الصفحات المخبأة


يقوم Google آليًا بأخذ لقطات مؤقتة من كل صفحة يقوم بالزحف إليها وحفظها في أرشيف. يسمح ذلك الإصدار "المخبأ" بجلب صفحة ويب لمستخدميك إذا كانت الصفحة الأصلية غير متاحة (بسبب فشل مؤقت في مركز خدمة صفحة الويب). يتم ظهور الصفحة المخبأة للمستخدمين تمامًا كما كانت تظهر عندما قام Google بالزحف آخر مرة إليها، ونقوم أيضًا بعرض رسالة في الجزء العلوي من الصفحة لتشير إلى أنها صفحة مخبأة. يمكن للمستخدمين الوصول إلى الإصدار المؤقت وذلك باختيار الوصلة "مخبأة" على صفحة نتائج البحث.

لمنع كافة محركات البحث من عرض وصلة "مخبأة" لموقعك، قم بوضع تلك العلامة في قسم <HEAD> الخاص بصفحتك::

<******************** NAME="ROBOTS" CONTENT="NOARCHIVE">

للسماح لمحركات البحث بعرض وصلة "مخبأة"، ومنع Google فقط من عرض تلك الوصلة، استخدم العلامة التالية:

<******************** NAME="GOOGLEBOT" CONTENT="NOARCHIVE">

ملاحظة : تقوم تلك العلامة فقط بإزالة الوصلة "مخبأة"للصفحة. سوف يستمر Google في فهرسة الصفحة وعرض قصاصة.

ملاحظة: إذا كنت تعتقد أن طلبك عاجل ولا يمكن أن ينتظر للمرة القادمة حتى يقوم Google بالزحف إلى موقعك، استخدم نظام إزالة عنوان URL الآلي (http://services.google.com/urlconsole/controller) (الصفحة موجودة حاليًا باللغة الإنجليزية فقط). لكي تعمل هذه العملية الآلية، يجب أن يقوم مشرف الموقع أولاً بإدراج العلامة الوصفية الملائمة في رمز HTML الخاص بالصفحة.


إزالة وصلة غير مُحدثة ("قديمة")


يقوم Google بتحديث فهرسها بالكامل آليًا على أساس منتظم. عندما نقوم بالزحف إلى الويب، نعثر على صفحات جديدة، ونتجاهل وصلات قديمة، ونقوم بتحديث وصلات آليًا. فالوصلات غير مُحدثة سوف "تتلاشى" في الغالب من فهرسنا أثناء زحفنا التالي.

ملاحظة: إذا كنت تعتقد أن طلبك عاجل ولا يمكن أن ينتظر للمرة القادمة حتى يقوم Google بالزحف إلى موقعك، استخدم نظام إزالة عنوان URL الآلي (http://services.google.com/urlconsole/controller) (الصفحة موجودة حاليًا باللغة الإنجليزية فقط). سوف نقبل طلب الإزالة الخاص بك فقط إذا قامت الصفحة بإرجاع خطأ 404 من خلال مقدمات http. الرجاء التأكد من إنك قمت بإرجاع خطأ 404 حتى إذا قمت باختيار عرض أكثر من نص مألوف لمستخدم صفحة HTML من أجل زائريك. لن يساعد ذلك في إرجاع صفحة تفيد بأن "الملف غير موجود" إذا كانت مقدمات http سوف تظل تقوم بإرجاع رمز الحالة 200، أو طبيعي.




إزالة صورة من صور بحث Google



لإزالة صورة من فهرس صور Google، قم بإضافة ملف robots.txt للمخزن الخاص بمركز الخدمة. (إذا كنت لا تستطيع وضعه في مخزن مركز الخدمة، يمكنك وضعه في مستوى الدليل.)

مثال: إذا كنت ترغب في أن يقوم Google باستبعاد صورة dogs.jpg التي تظهر على موقعك في www.yoursite.com/images/dogs.jpg، (http://www.yoursite.com/images/dogs.jpg،) قم بإنشاء صفحة في www.yoursite.com/robots.txt (http://www.yoursite.com/robots.txt) ثم قم بإضافة النص التالي:

وكيل مستخدم: صور-Googlebot
Disallow: /images/dogs.jpg

لإزالة كافة الصور الموجودة على موقعك من فهرسنا، قم بوضع ملف robots.txt التالي في المجلد الرئيسي لمركز الخدمة الخاص بك:

User-agent: Googlebot-Image
Disallow: /

فهذا هو البرتوكول القياسي الذي تلاحظه أغلب برامج الزاحف الخاصة بالويب من أجل استبعاد مركز خدمة ويب أو دليل ما من فهرس. المزيد من المعلومات حول robots.txt متاحة هنا: http://www.robotstxt.org/wc/norobots.html (http://www.robotstxt.org/wc/norobots.html) (وصلة لموقع إنجليزي).

علاوة على ذلك، لقد قام Google بتقديم مرونة زائدة لملف robots.txt القياسي من خلال استخدام العلامات النجمية. قد يتضمن عدم السماح للنماذج"*" لمطابقة أي تسلسل من الحروف، وقد تنتهي النماذج بـ "$" لتشير إلى نهاية اسم.

لإزالة كافة الملفات الخاصة بنوع ملف محدد (على سبيل المثال، لكي تشمل .jpg وليس صور .gif)، يجب أن تستخدم قيد robots.txt التالي:

User-agent: Googlebot-Image
Disallow: /*.gif$

ملاحظة: إذا كنت تعتقد أن طلبك عاجل ولا يمكن أن ينتظر للمرة القادمة حتى يقوم Google بالزحف إلى موقعك، استخدم نظام إزالة عنوان URL الآلي (http://services.google.com/urlconsole/controller) (الصفحة موجودة حاليًا باللغة الإنجليزية فقط). لكي تعمل هذه العملية الآلية؛ يجب أن يقوم مشرف الموقع أولاً بإنشاء ملف ووضعه robots.txt على الموقع الذي هو بصدده.

سوف يستمر Google في استبعاد موقعك أو الأدلة من عمليات الزحف المتعاقبة إذا كان ملف robots.txt موجود بالفعل في مخزن مركز خدمة الويب.
إذا كنت لا تستطيع الوصول إلى المستوى الأساسي الخاص بمركز الخدمة، يمكنك وضع ملف robots.txt على نفس المستوى الخاص بالملفات المطلوب إزالتها.
سوف يؤدي عمل ذلك أو التقديم من خلال نظام إزالة عنوان URL الآلي إلى إزالة مؤقتة لمدة 180 يوم للأدلة المحددة في ملف robots.txt من فهرس Google بغض النظر عما إذا قمت بإزالة ملف robots.txt بعد معالجة طلبك أم لا.
(سوف يتطلب حفظ ملف robots.txt على نفس المستوى إلى الرجوع إلى نظام إزالة عنوان URL كل 180 يومًا لإعادة إصدار الإزالة).



لمحة عن التقنية



لمحة عن التقنية

تتفرد Google بتركيزها على تطوير "محرك البحث التام" الذي عرَّفه المؤسس المشارك لاري بيدج بأنه "ذلك الشيء الذي يفهم تمامًا ما تعنيه ويعطيك تمامًا ما تريد." ولتحقيق هذه الغاية؛ فقد حرصت Google باستمرار على الابتكار ورفضت التقيُّد بحدود النماذج التقليدية. وكانت النتيجة أن طورت Google من بنيتها التحتية الخدمية وأخرجت لنا تقنية PageRank™ (تصنيف الصفحات) البارعة التي غيرت الطريقة التي تُجرى بها عمليات البحث.

ومن البداية؛ علم مطورو Google أن توفير أسرع النتائج وأكثرها دقة يستلزم نوعًا جديدًا من إعداد مركز الخدمة. وبينما كانت معظم محركات البحث تقوم بتشغيل عدد قليل من مراكز الخدمة الكبيرة والتي كانت غالبًا ما تنخفض سرعتها تحت ضغط عمليات التحميل القصوى؛ كانت Google تقوم بتشغيل أجهزة كمبيوتر متصلة لتعثر بسرعة على إجابة لكل استفسار. وكانت ثمرة الابتكار أوقات استجابة أكثر سرعة وقابلية للتطوير بدرجة أكبر وتكاليف أقل. وبينما كان الآخرون يقومون بالنسخ؛ كانت Google تواصل تطويرها لتقنية البرامج الخلفية لجعلها أكثر فعالية.

إن البرنامج الذي تقوم عليه تقنية بحث Google يُجري سلسلة من العمليات الحسابية المتزامنة ولا يستغرق في ذلك سوى جزء من الثانية. وتعتمد محركات البحث التقليدية اعتمادًا كبيرًا على عدد مرات ظهور الكلمة في صفحة الويب. وتستخدم Google تقنية PageRank™ (تصنيف الصفحات) لفحص بنية وصلات الويب بأكملها ولتحديد أي الصفحات أكثر أهمية. ثم تقوم بعملية تحليل تطابق النص التشعبي لتحديد أي الصفحات ذات علاقة ببحث معين جارٍ. وعن طريق الجمع بين الأهمية العامة والعلاقة بالاستفسار؛ تتمكن Google من وضع أكثر النتائج علاقة وثقة في المقام الأول.

تقنية PageRank (تصنيف الصفحات) : تقوم تقنية PageRank بقياس موضوعي لأهمية صفحات الويب عن طريق حل معادلة تتكون من أكثر من 500 مليون متغير و 2 بليون حد. وبدلاً من عد الوصلات المباشرة؛ تقوم تقنية PageRank بترجمة الوصلة من الصفحة "أ" إلى الصفحة "ب" على أنها صوت من الصفحة "أ" لصالح الصفحة "ب". ثم تقوم هذه التقنية بتقييم أهمية الصفحة حسب عدد الأصوات التي تستقبلها الصفحة.

تُقدِّر تقنية PageRank أيضًا أهمية الصفحة التي يخرج منها صوت؛ وذلك لأن هناك أصواتًا من بعض الصفحات تُعتبر ذات قيمة كبيرة؛ وبالتالي تعطي الصفحة الموصولة قيمة أكبر. والصفحات المهمة تستقبل مستوى مرتفع من تقنية PageRank وتظهر في مقدمة نتائج البحث. وتستخدم تقنية Google الإخبار التجميعي الخاص بالويب لتحديد أهمية الصفحة. ولا يتم أي تدخل أو تحكم بشري في النتائج؛ وهذا هو سبب ثقة المستخدمين في Google كمصدر للمعلومات الموضوعية الخالية من أي تدخل غير شريف.

تحليل تطابق النص التشعبي : يقوم محرك بحث Google بتحليل محتوى الصفحات. ومع ذلك؛ وبدلاً من مجرد البحث عن نص معتمد على الصفحة - والذي يمكن أن يتحكم فيه ناشرو الموقع من خلال العلامات الوصفية العليا (********************-tags) – تقوم تقنية Google بتحليل محتوى الصفحة بالكامل والعوامل المؤثرة في الخطوط والتقسيمات الفرعية والموقع الدقيق لكل لكلمة.
كما تقوم Google بتحليل محتوى صفحات الويب المجاورة لضمان أن النتائج الصادرة هي الأكثر علاقة باستفسار المستخدم.

هذا الموضوع نقلاً عن "معلومات Google لمشرفي المواقع (http://www.google.com.eg/intl/ar/webmasters/index.html)"

mizo_wizo
01-06-2007, 02:53 PM
http://www4.0zz0.com/2007/01/06/14/62910140.jpg

dealo
01-07-2007, 03:08 PM
mizo_wizo تمام يا ميزو دى بيانات بوت جوجل او ما يسمى عناكب جوجل:congrats: