Документация
Установка1. Распакуйте файлы, и скопируйте их на сервер, например в/home/youruser/public_html/sphider (позже будем обозначать [path_of_sphider]), 2. На сервере создайте базу данных в MySQL для Sphider'а. a) Откройте командную строку MySQL (войдите под своим паролем): b) В MySQL, напечатайте: CREATE DATABASE sphider; Вы можете использовать любое другое название для базы данных вместо sphider. c) Напечатайте exit , чтобы выйти из MySQL. Для получения дополнительной информации о том, как создать базу данных и дать/получить необходимые привилегии, посетите MySQL.com 3. В папке settings, отредактируйте файл database.php изменение значения у $database, $mysql_user, $mysql_password и $mysql_host (если вы не знаете каково значение параметра $mysql_host то не изменяйте, оставьте это - 'localhost'). 4. Откройте http://.../admin/install.php страницу в вашем браузере, которая создаст таблицы в базе данных, необходимые для Sphider'а, чтобы работать. Альтернативно, таблицы могут быть составлены в ручную, используя tables.sql файл, лежащий в sql папке. В командной строке, напечатайте следующие команды: \u sphider \. [path_of_sphider]/sql/tables.sql 5. В папке admin, отредактируйте файл auth.php, чтобы изменить имя пользователя администратора, и пароль (значения по умолчанию - 'admin' и 'admin'). 6. Откройте http://.../admin/admin.php в браузере и введите логин в указатель. 7. http://.../search.php - страница поиска по умолчанию. Опции индексацииFull(Полный): Индексация всех страниц.To depth(Глубина): Индексирование данной глубины, где значение глубины означает, на сколько "щелчков" далеко может зайти Sphider от стартовой страницы. Глубина со значением 0 означает, что только стартовая страница будет проиндексирована, глубина со значением 1, индексирует стартовую страницу и те страницы на которые указываю ссылки с главной страницы. Reindex(Переиндексация): устанавливая галочку на этом параметре, индексируется полностью сайт и страницы которые уже были проиндексированы раньше. Spider can leave domain(Паук может покинуть domain): По умолчанию, Sphider никогда не оставляет данный domain, чтобы когда ссылки на сайте domain.com, указывающие на страницы сайта domain2.com, не индексировались. Устанавливая галочку на этой опции Sphider может переходить на другие сайты, однако в этом случае очень желательное, чтобы вы указали адреса в списках Must include/must not include (Разрешенные/Запрешенные URL), чтобы индексация не зашла слишком далеко. Must include/must not include(Разрешенные URL / Запрещенные URL): Смотрите здесь. НастройкаЕсли вы хотите изменить настройки по умолчанию Sphider'а, вы можете сделать это или через интерфейс admin, или непосредственно редактируя conf.php файл в папке settings.Чтобы изменить внешний вид страницы поиска по вашему вкусу, измените или добавьте шаблон в папке templates. Достаточно изменить файл search.css, а для изменения заголовка и нижней сноски (header.html и footer.html) соответственно. Более сложные модификации могут быть сделаны через редактирование остальной части файлов шаблона. Список типов файлов, которые не должны индексироваться, указывается в admin/ext.txt. Список общих слов, которые не индексируются, указывается в include/common.txt. Индексация из командной строкиЭто возможно используя url адрес до вашего паука вместо php, используя синтаксис:php spider.php <значения> где <значения>
Например, для индексации http://www.domain.com/test.html с глубиной 2, команда php spider.php -u http://www.domain.com/test.html -d 2 Команда для переиндексации того же URL адреса php spider.php -u http://www.domain.com/test.html -r Индексация pdf и doc файловPdf и doc файлы могут быть проиндексированы установив два дополнительных пакета. Загрузите и установите pdftotext и catdoc и укажите местоположение (путь) в conf.php файле (отметьте, что под Windows, Вы не должны использовать места в определении пути executable). Дополнительно, в admin секции, проверьте Индекс pdf и коробки доктора Индекса (альтернативно, установите $index_pdf и $index_doc на значения 1 в conf.php).Управление индексированием отдельных страниц и участковRobots.txtСамый распространенный способ запретить индексировать указанные страницы в файле robots.txt, этот файл должен находится в корне вебсайта (для получения дополнительной информации о том, как это сделать, см. здесь).Разрешенный / Запрещенный URL списокSphider поддерживает такую функцию, с помощью которой можно указать список необходимых url или слов(значений) содержащихся в url, которые должны или не должны быть добавлены в поиск (для этого в разделе Index(Индекс) нажмите на Advanced options(Расширенные настройки)). Любые url, указанные в поле 'Запрещенные URL', будут проигнорированы. Любые url, указанные в поле 'Разрешенные URL', будут разрешены для индексирования. Каждый url в списке должен быть в отдельной строке. Например, чтобы запретить индексировать форум на вашем сайте, вы можете добавить www.yoursite.com/forum в поле "Запрещенные URL". Это означает, что все URL, содержащие это название в адресе, будут проигнорированы. Использование ссылок в стиле Perl также поддержан. Every string starting with a '*' in front is considered as a regular expression, so that '*/[a]+/' denotes a string with one or more a's in it.Игнорирование страницSphider обращает внимание на rel="nofollow" атрибут в тэге <a href..>, так например страница foo.html в форме линка <a href="foo.html" rel="nofollow"> будет проигнорирована.Игнорирование участков страницSphider поддерживает опцию, исключить части страниц от индексации. Например это может использоваться, чтобы предотвратить однотекстовых результатов поиска, когда определенные ключевые слова появляются в определенной части в большинстве страниц (как ссылки хеадера, нижней сноски или меню). Любая часть страницы между <!--sphider_noindex--> и <!--/sphider_noindex--> комментариями не будет проиндексирована, однако ссылки между этими комментариями не игнорируются. |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
© 2009 Русская поддержка Sphider |