Заказать расчет стоимости сайта в данной тематике
Позвоните нам
Заказать обратный звонок
Перезвоним через 1 минуту
Разработка сайтов

Создание сайтов для поисковиков


Поисковая система состоит из нескольких частей. Вообще говоря, в безнадежно общем виде (люди могут свободно редактировать, если они чувствуют, что вы можете добавить лучшие описания, ссылки и т.д.)):

Программа-обходчик.

Это та часть, которая проходит через Интернет, захватывает страницы и хранит информацию о них в центральном хранилище данных. В дополнение к самому тексту вам понадобятся такие вещи, как время доступа к нему. Краулер должен быть достаточно умен, чтобы соответствовать контрактному роботу и знать, как часто нужно добираться до конкретного domain.txt и т.д.

Синтаксический анализатор.

Это позволяет вам считывать и анализировать данные, извлеченные искателем, хранить необходимые метаданные, выбрасывать мусор и предоставлять искателю информацию о том, что нужно извлечь в следующий раз.

Индексатор.

Анализатор считывает анализируемый материал и создает инвертированный индекс с терминами, найденными на веб-странице. Применяйте методы НЛП для компиляции таких понятий, как индексирование, перекрестные ссылки и подбрасывание синонимов.

Как работает рейтинг.

Учитывая тысячи URL-адресов, которые соответствуют "Apple", как вы решаете, какие результаты являются лучшими? Но индекс не дает вам такой информации. Вам нужно проанализировать текст, структуру ссылок и другие фрагменты, которые вы хотите увидеть, и сделать некоторые оценки. Это может быть сделано полностью на лету (это действительно сложно) или основано на предварительно рассчитанной концепции"эксперта" (см. PageRank и т. Д.).).

Внешний интерфейс.

Это что-то должно быть разумным в кэшировании результатов, возможно, смешивании результатов из других источников и т. Д. У него есть свой собственный набор проблем.

Мой совет-выбрать то, что вас больше всего интересует, скачать Lucene или Xapian или любой другой проект с открытым исходным кодом, и любая из вышеперечисленных задач, я надеюсь, что-то хорошее: -).

Некоторые ссылки, которые могут быть полезны:"Гибкий веб-поисковик", статья о поисковой системе sphinx, индексации и поиске api в Эстонии. Предназначен для больших баз данных, но модульный и открытый. "Поиск информации, Мэннинг и др.Согласно учебнику по ИК. Здесь представлен обзор того, как построить индекс, различные возникающие вопросы, некоторые обсуждения об обходе и так далее. Бесплатная онлайн-версия(на данный момент)!