Янв 14

Боремся за качество индекса форума phpBB3 + SEO Mod

Итак, девочки и мальчики, у нас есть замечательный движок форума — phpBB, дополненный не менее замечательным плагином phpBB SEO. В моем случае — версии Advanced.
Я уже писал, про то, как поэтапно доводился форум до ума
1) Убили лишние ВС
2) Поставили мод для генерации ЧПУ
3) Написали мод для генерации карты сайта и добавили эти самые карты в Панели вебмастера на Гугле и Яндексе
Но этого все равно мало. Индекс ПС по-прежнему остается забит всяким ненужным барахлом, от которого толку в SAPE ноль без палочки. А так как сайт мы оптимизируем именно под SAPE, то следует уважить ее требования и удалить мусор. Это те самые страницы, в названии которых содержатся:

  1. viewtopic
  2. viewforum
  3. /member/
  4. postххх.html

Хоть у нас есть карта сайта, данными страницами индекс все равно пестрит в изобилии. Но мы не намерены сдаваться, правда? ;)
Для этого в robots.txt строкой ниже»User-agent: *» мы пропишем следующие директивки.

Disallow: /ucp.php
Disallow: /mcp.php
Disallow: /posting.php
Disallow: /search.php
Disallow: /memberlist.php
Disallow: /member/
Disallow: /*?

Последняя директива запрещает боту поисковика индексировать динамические (с параметрами после символа «?«) страницы.

Далее, закроем для особо упорных ботов тегами <noindex> вот эти вот замечательные ссылочки (всю их прелесть можно оценить, наведя на работающем форуме на них курсор мыши).

В шаблоне viewtopic_body.html это вот эти ссылки -

viewtopic_body.html

В коде шаблона ставим теги следующим образом (речь пойдет про стиль SubSiver2, в остальных,  думаю, аналогично)

<!— IF not S_IS_BOT —><noindex>

</noindex><!— IF S_HAS_POLL —>

<noindex><a href=»{U_VIEW_OLDER_TOPIC}»>

{L_VIEW_NEXT_TOPIC}</a></noindex>

выделены фрагменты кода, где нужно добавить теги <noindex> (отмечены красным)

в viewforum_body.html убираем это:

viewforum_body.html

<noindex><a href=»{S_WATCH_FORUM_LINK}»>{S_WATCH_FORUM_TITLE}</a></noindex>

<noindex><a href=»{U_MARK_TOPICS}»>{L_MARK_TOPICS_READ}</a></noindex>

и на последок в forumlist_body.html

{S_CONTENT_FLOW_END}»><noindex>

и в следующей строке

<!— ENDIF —></noindex>


Сохраняем изменения

Очищаем кэш

Заходим на страницы форума браузером и убеждаемся, что все работает правильно.

Приятной работы!

Янв 11

О картах сайта и индексации больших форумов

Современный крупный сайт со сложной иерархией и большим числом элементов уровня вложенности больше 2х, индексируется поисковым роботом (SE Crawler) весьма посредственно. Виной тому ограничения на глубину (количество уровней внутренних ссылок), заложенныe создателями роботов для уменьшения нагрузки на сервер/исключения из индекса всякой маловажной фигни/ускорения процесса индексирования.

К примеру, в перечне проиндексированных Яндексом страниц достаточно большого форума Mazda Xedos 6 до недавних пор содержалось всего лишь порядка 15% страниц третьего уровня вложенности и 70% — второго. Это — совершенно типичная ситуация для больших динамических сайтов на движке phpBB. Индексируется всякая фигня в бааальшом количестве, а то,  что нужно нам — через пень-колоду. Как я уже писал, я применяю невстроенные в движок форума средства генерации ЧПУ, видимо,  это просто артефакты.

В качестве средства для повышения качества индексации, был разработан аддон к phpBB SEO Mod, позволяющий корректно создавать карту сайта в формате файла в формате XML, сжатого gzip и одновремено пингующий специальный сервис Google.

Результат работы скрипта можно посмотреть вот тут — http://forum.xedos6.ru/sitemap.xml

Данный плагин находится в состоянии alpha и пока не предназначен для установки, т.к. написан весьма коряво. Но если есть желающие посодействовать (умственно) в развитии, я буду очень признателен. Окончательную версию само собой выложим для скачивания :)

Далее, повторюсь. Крайне желательно после создания зарегистрироваться в сервисах Яндекс.Вебмастер и Инструменты Google для вебмастеров и добавить в них свои сайты, в том числе ссылки на sitemap.

Вторым (параллельным) вариантом является указание пауку поискового робота места расположения карты сайта в файле robots.txt

User-agent: *
Host: yourhost.ru
Sitemap: http://yourhost.ru/sitemap.xml

Все крупнейшие поисковики обрабатывают robots.txt и соответственно со временем увидят и проиндексируют Вашу карту сайта (и соответственно, скорее всего добавят в индекс новые страницы), но ручное добавление sitemap завсегда быстрее :)

В течение нескольких недель выдача поисковиков должна проапдейтиться и порадовать Вас бОльшим числом страниц сайта, добавленных в индекс.