Поисковая машина своими руками

Обновлено: 02.07.2024

Чтобы постоянно перенаправлять посетителей, попадающих на сайт, и поисковики на адрес, отличный от запрашиваемого, используется метод 301-го редиректа. Когда сервер отвечает таким образом, это говорит о том, что страница перемещена и предыдущий url больше не актуален. Пройдет переиндексация, после которой поисковикам станет понятно, по какому адресу вы собираетесь вести своих посетителей, и они начнут его демонстрировать. Примечательно, что редирект позволяет сделать потерю преимуществом и усилить поток трафика на свою площадку. Но к этому мы еще вернемся, а пока небольшое вступление.

Для работы со ссылочной массой и составления стратегий продвижения важно классифицировать ссылки. Существует несколько основных типов, на­пример вечные и арендованные, естественные и SEO-ссылки, ссылки, которые зависят от донора, и другие. Эта классификация является основой для разработки ссылочной стратегии. Определить тип ссылки просто, об этом и поговорим в статье.

Поисковая система – это сложный аппаратно-программный комплекс, состоящий из тысяч и даже миллионов серверов, обрабатывающих пользовательские запросы и собирающих данные со всех сайтов сети Интернет, доступных к индексации. Нужно понимать, что компании, которые владеют такими системами, не разглашают информацию об архитектуре, составе и алгоритмах работы своих поисковых комплексов, поскольку это является коммерческой тайной.

  • аппаратного обеспечения – дата-центров, объединяющих физические серверы в единую систему, и сетевых коммуникаций;
  • программной части, отвечающей за логику работы поисковых систем и подготовку выдачи на запросы пользователей.

О каждом из этих компонентов следует сказать отдельно.

Физический уровень поисковых систем

Каждый сервер имеет несколько зеркал, между которыми перераспределяется нагрузка. Так обеспечивается надежное резервирование на случай сбоя или выхода из строя одного из элементов такого массива. Технологии репликации обеспечивают идентичность информации на каждом сервере в режиме реального времени.

Кроме серверного оборудования дата-центры, обслуживающие поисковые системы, оснащены высокоскоростной локальной сетью и несколькими подключениями к Интернету, что обеспечивает их высокую доступность, скорость обработки информации и выдачи результатов пользователю.

Логический уровень работы поисковых систем

Алгоритмы ранжирования оказывают значительное влияние на SEO-трафик, успешность интернет-рекламы, однако владельцы поисковых систем оглашают только общие принципы их работы: качественный контент, полезность информации и т. д. Поэтому СЕО-специалистам приходится искать свои эффективные технологии оптимизации страниц сайта для достижения максимальной отдачи от рекламной кампании.

Поисковая машина — это программа, которая составляет и хранит предметный указатель Интернета, а также находит в нем заданные ключевые слова. Для этого программа составляет так называемый индекс.

Рассмотрим, из каких этапов состоит процесс составления индекса и поиска по нему.

Сбор адресов страниц в Интернете

Чтобы составить индекс по страницам, сначала нужно решить, какие страницы нам нужны. Таким образом, прежде надо составить список страниц — набор адресов тех страниц, по которым будет составляться индекс.

Поскольку сайты и их страницы беспорядочно разбросаны в Интернете, поисковой машине необходимо с чего-то начать. Обычно разработчики поисковой машины загружают в нее некоторый начальный список адресов страниц сайтов (взяв его, например, из какого-нибудь каталога). Затем поисковая машина (ее составная часть — так называемый поисковый робот) собирает с каждой из заданных страниц все гипертекстовые ссылки на другие страницы и добавляет все найденные в ссылках адреса к своему первоначальному набору адресов.

Таким образом, первоначальный набор адресов страниц быстро увеличивается за счет ссылок на другие сайты и страницы и постепенно становится очень большим. Сейчас поисковики обходят и индексируют миллиарды веб-страниц.

Следует обратить внимание на тот очевидный факт, что малоизвестные страницы, на которые никто не ссылается, имеют очень мало шансов автоматически попасть в индекс поисковой машины! Дело в том, что разработчики поисковика не смогут добавить их в начальный список адресов вручную, из-за того что они мало известны, а по ссылкам поисковому роботу до них добраться трудно — из-за небольшого количества этих ссылок. Возможно, поисковый робот и доберется до них когда-нибудь, но далеко не в первую очередь.

Владелец сайта может сам добавить новый адрес страницы в индекс поисковика вручную, используя средства регистрации новых веб-страниц, которые есть во всех поисковых машинах.

Выкачивание страниц

Чтобы поработать с текстом страницы и составить из него индекс, поисковик должен получить этот текст, для чего необходимо выкачать этот текст, то есть запросить у сайта заданную страницу.

Поисковый робот обходит заданный на предыдущем этапе список страниц, выкачивает гигантский объем сырого текстового материала, хранит его на дисках своих компьютеров и передает на индексирование индексному роботу.

Составление индекса, или индексирование

Чтобы составить индекс, индексный робот поисковой машины должен выбрать все слова из всех выкачанных текстов и расположить их в алфавитном порядке, вместе с номерами страниц и разной служебной информацией о каждой странице.

HTML (HyperText Markup Language — язык гипертекстовой разметки) — набор специальных команд для оформления отображаемой на веб-странице информации: текста, изображений, таблиц, форм и т. д.

Как именно устроен индекс, мы подробно расскажем чуть позже.

Поиск

Все предыдущие шаги незаметны для пользователя, поскольку они выполняются в поисковой машине. А вот сам поиск — это и есть то, что видит пользователь. Он вводит в поисковую строку свой запрос (слово или словосочетание), и поисковая машина — о, чудо! — выдает список ссылок на страницы в Интернете.

Как это работает? Когда пользователь вводит какое-нибудь слово в строку запроса поисковика, поисковая машина обращается к индексу, находит запись о заданном слове, извлекает все номера страниц, относящиеся к нему, и показывает пользователю результаты поиска, то есть список страниц.

В списке результатов обычно отображаются заголовок страницы (так называемый титул), дата создания страницы, ее адрес, цитата из текста страницы с подсвеченным искомым словом. Откуда взялась эта цитата, мы расскажем далее, в разделе, описывающем устройство индекса.

Если же в запросе было несколько слов, то поисковая машина сравнивает списки ссылок на страницы для каждого слова и выбирает только те страницы, номера которых повторяются, то есть встречаются в каждом списке страниц для каждого слова. Таким образом, выбираются только те страницы, на которых одновременно встречаются все слова запроса.

Конечно, здесь изложена самая суть механизма поиска по индексу, его основной принцип, а в реальности разработчики поисковиков используют множество разнообразных ухищрений (о некоторых из них вы узнаете ниже).

Чтобы понять, как поисковику удается находить наиболее релевантные страницы, нужно разобраться в том, как устроен индекс поисковой машины.

Как сделать автомобиль из кровельного железа, фанеры и монтажной пены, пальмовых волокон, детского конструктора? Смотрите!

Сделать машину своими руками — задача, достойная настоящего мужчины. Задумываются многие, берутся некоторые, до завершения доводят единицы. Мы решили рассказать истории машин, сделанных, что называется, на коленке. О работах профессиональных кузовных ателье, в том числе российских, типа A:Level или ElMotors, поговорим в другой раз.

Дело мастеров Востока

Больше всего самодельщиков в так называемых развивающихся странах. Позволить себе дорогую машину могут далеко не все, но всем хочется ездить красиво. А на авторское право в этих странах смотрят, скажем так, своеобразно, не по-европейски.

Индийская реплика Bugatti Veyron

Другой индиец, бывший актер, нынешний социальный реформатор, состряпал пародию на Вейрон из Honda Accord. Получилось жутко. Еще один взял за основу Tata Nano. Напомню, что это официально самая дешевая серийная машина мира со своеобразными пропорциями. Очень слабая и медленная. Впрочем, автор этого проекта явно не лишен чувства юмора, ведь Veyron, напротив — один из самых дорогих, мощных и быстрых серийных автомобилей.

Суперкары со свалок

Не отстают от тайских и индийских коллег и китайцы. Молодой рабочий стекольной фабрики Чен Янкси не стал копировать или пародировать чужой дизайн, а сделал свой, авторский. И пусть его машина выглядит прилично только на расстоянии, а ездит лишь 40 км/ч (больше не позволяет установленный электромотор), смеяться над Ченом не хочется. Молодец, что пошел своим путем. Чаще бывает иначе.

Чен Янкси

Бэтмобиль

Чтобы иметь бэтмобиль, не обязательно быть Брюсом Уэйном. Можно просто поработать два месяца на городской свалке.

Чтобы иметь бэтмобиль, не обязательно быть Брюсом Уэйном. Можно просто поработать два месяца на городской свалке.

Lamborghini Reventon

Соседи Ванга Цзианя думают, что сделанный им автомобиль похож на Lamborghini Reventon, и с удовольствием фотографируются за рулем.

Соседи Ванга Цзианя думают, что сделанный им автомобиль похож на Lamborghini Reventon, и с удовольствием фотографируются за рулем.

Как видно, больше всего самодельщики обожают копировать Ferrari и Lamborghini. Внешне. Внутри этой машины авторства Мистера Мита из Таиланда стоит мотоциклетный двигатель Lifan объемом в четверть литра.

Самое смешное и трогательное творение — китайского фермера Гуо из Чженчжоу. Он сделал Lambo для… своего внука. У машины детские размеры — 900 на 1800 мм и электромотор, позволяющий разгоняться до 40 км/ч. Батареи из пяти аккумуляторов хватает на 60 км пути. Гуо потратил на свое детище 815 долларов и полгода работы.

самодельный ламборгини

самодельный rolls-royce

Самавто-2017

Самодельный автомобиль Евгения Данилина

Понимание того как работают поисковые машины просто необходимо вебмастерам. Для них жизненно важна правильная с точки зрения поисковых машин структура документов и всего сервера или сайта. Без этого документы будут недостаточно часто появляться в ответ на запросы пользователей к поисковой машине или даже вовсе могут быть не проиндексированы.

Вебмастера желают повысить рейтинг своих страниц и это понятно: ведь на любой запрос к поисковой машине могут быть выданы сотни и тысячи отвечающих ему ссылок на документы. В большинстве случаев только 10 первых ссылок обладают достаточной релевантностью к запросу.

Естественно, хочется, чтобы документ оказался в первой десятке, поскольку большинство пользователей редко просматривает следующие за первой десяткой ссылки. Иными словами, если ссылка на документ будет одиннадцатой, то это также плохо, как если бы ее не было вовсе.

Основные поисковые машины

Какие из сотен поисковых машин действительно важны для вебмастера? Ну, разумеется, широко известные и часто используемые. Но при этом следует учесть ту аудиторию, на которую рассчитан Ваш сервер. Например, если Ваш сервер содержит узкоспециальную информацию о новейших методах доения коров, то вряд ли Вам стоит уповать на поисковые системы общего назначения. В этом случае я посоветовал бы обменяться ссылками с Вашими коллегами, которые занимаются сходными вопросами 🙂 Итак, для начала определимся с терминологией.

Существует два вида информационных баз данных о веб-страницах: поисковые машины и каталоги.

Поисковые машины: (spiders, crawlers) постоянно исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Примером может быть поисковая система Altavista.

Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы.

Каталоги: в отличие от поисковых машин в каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Примером каталога может служить Yahoo. Конструкция страниц значения не имеет. Далее речь пойдет в основном о поисковых машинах.

Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo.

Запущенная в конце 1995 года, система быстро развивалась. В июле 1996 куплена Magellan, в сентябре 1996 — приобретена WebCrawler. Однако, оба используют ее отдельно друг от друга. Возможно в будущем они будут работать вместе.

Существует в этой системе и каталог — Excite Reviews. Попасть в этот каталог — удача, поскольку далеко не все сайты туда заносятся. Однако информация из этого каталога не используется поисковой машиной по умолчанию, зато есть возможность проверить ее после просмотра результатов поиска.

Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi.

Опция для поиска по умолчанию Ultrasmart. В этом случае поиск производится по обоим каталогам. При опции Ultraseek результаты запроса выдаются без дополнительной информации. Поистине новая поисковая технология также позволяет облегчить поиски и множество других особенностей, которые Вы можете прочитать об InfoSeek. Существует отдельный от поисковой машины каталог InfoSeek Select.

Примерно с мая 1994 года работает одна из старейших поисковых систем Lycos. Широко известная и часто используемая. В ее состав входит поисковая машина Point (работает с 1995 года) и каталог A2Z (работает с февраля 1996 года).

Система OpenText появилась чуть раньше 1995 года. С июня 1996 года стала партнерствовать с Yahoo. Постепенно теряет свои позиции и вскоре перестанет входить в число основных поисковых систем.

Открыта 20 апреля 1994 года как исследовательский проект Вашингтонского Университета. В марте 1995 года была приобретена компанией America Online Существует каталог WebCrawler Select.

Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен еще один каталог Yahoo — Yahooligans для детей. Появляются все новые и новые региональные и top-каталоги Yahoo.

Поскольку Yahoo основан на подписке пользователей, в нем может не быть некоторых сайтов. Если поиск по Yahoo не дал подходящих результатов, пользователи могут воспользоваться поисковой машиной. Это делается очень просто. Когда делается запрос к Yahoo, каталог переправляет его к любой из основных поисковых машин. Первыми ссылками в списке удовлетворяющих запросу адресов идут адреса из каталога, а затем идут адреса, полученные от поисковых машин, в частности от Altavista.

Особенности поисковых машин

Каждая поисковая машина обладает рядом особенностей. Эти особенности следует учитывать при изготовлении своих страниц.

Тип поисковой машины

Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако для абстрактных поисковых машин может случиться, что страницы проиндексированы лучше, чем для полнотекстовых. Это может исходить от алгоритма экстрагирования, например по частоте употребления в странице одних и тех же слов.

Размер поисковой машины определяется количеством проиндексированных страниц. Например, в поисковой машине с большим размером могут быть проиндексированы почти все ваши страницы, при среднем объеме ваш сервер может быть частично проиндексирован, а при малом объеме ваши страницы могут вообще не попасть в каталоги поисковой машины.

Дата индексирования документа

Указанные (submitted) страницы

В идеале поисковые машины должны найти любые страницы любого сервера в результате прохода по ссылкам. Реальная картина выглядит по-другому. Станицы серверов гораздо раньше появляются в индексах поисковых систем, если их прямо указать (Add URL).

Не указанные (non-submitted) страницы

Если хотя бы одна страница сервера указана, то поисковые машины обязательно найдут следующие страницы по ссылкам из указанной. Однако на это требуется больше времени. Некоторые машины сразу индексируют весь сервер, но большинство все-таки, записав указанную страницу в индекс, оставляют индексирование сервера на будущее.

Этот параметр относится только к не указанным страницам. Он показывает сколько страниц после указанной будет индексировать поисковая система.

Большинство крупных машин не имеют ограничений по глубине индексирования. На практике же это не совсем так. Вот несколько причин, по которым могут быть проиндексированы не все страницы:

  • не слишком аккуратное использование фреймовых структур (без дублирования ссылок в управляющем (frameset) файле)
  • использование imagemap без дублирования их обычными ссылками

Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

Тут примерно та же проблема, что и с фреймовыми структурами серверов.

Защищенные паролями директории и сервера

Некоторые поисковые машины могут индексировать такие сервера, если им указать Username и Password. Зачем это нужно? Чтобы пользователи видели, что есть на Вашем сервере. Это позволяет как минимум узнать, что такая информация есть, и, быть может, они тогда подпишутся на Вашу информацию.

Частота появления ссылок

Способность к обучению

Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать, если редко — реже.

Показывает, какими средствами можно управлять той или иной поисковой машиной. Все крупные поисковые машины руководствуются предписаниями файла robots.txt. Некоторые также поддерживают контроль с помощью META-тагов из самих индексируемых документов.

Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает какой URL будет связан с вашими документами. Это важно, поскольку, если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы с несуществующими файлами.

Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или просто очень часто использующиеся слова. А не включают их ради экономии места на носителях. Например, Altavista игнорирует слово web и для запросов типа web developer будут выданы ссылки только по второму слову. Существуют способы избежать подобного.

Влияние на алгоритм определения релевантности

Поисковые машины обязательно используют расположение и частоту повторения ключевых слов в документе. Однако, дополнительные механизмы увеличения степени релевантности для каждой машины различны. Этот параметр показывает, какие именно механизмы существуют для той или иной машины.

По идее, все поисковые машины должны учитывать метаданные при индексации страниц, однако на практике не все это делают.

Этот параметр показывает как поисковые машины генерируют заголовки ссылок для пользователя в ответ на его запрос.

Этот параметр показывает как поисковые машины генерируют описания ссылок для пользователя в ответ на его запрос.

Проверка статуса URL

Очень полезная для вебмастера черта поисковой машины — можно ли проверить насколько глубоко проиндексирован его сервер и есть ли он вообще в индексе поисковой машины.


Если у вас есть сайт на uCoz, магазин, блог, сайт с флеш играми, с фильмами, с мультфильмами, с информацией любого рода.

Тогда этот курс для вас!

Так-же хочу заметить что и для других конструкторов этот курс вполне подходит.

Что в курсе?

В курсе вы найдёте пять видео уроков по настройке сайта на ucoz, которые помогут разобраться и понять как посетители приходят на ваш сайт из поиска.

Так-же один дополнительный бонусный урок, который поможет разобраться с программой.

Программа нужна для анализа слов. Проанализированные слова если добавить на сайт, они будут приводить посетителей из поиска яндекс, google и других поисковиков.


Читайте также: