基于轻量级php搜索sphider站内搜索安装说明

  • 时间:
  • 浏览:363
  • 来源:无双科技

安装

1. 解压缩文件,然后将它们复制到服务器,例如,复制到

/ home / youruser / public_html / sphider (后称为[path_of_sphider]) 。

2. 在服务器中,在MySQL中创建一个数据库来保存Sphider数据。

a)在命令提示符下键入(登录MySQL):

mysql -u <您的用户名> -p   出现提示时输入密码。

b)在MySQL中,键入:

CREATE DATABASE sphider;  

当然,您可以为数据库使用其他名称代替 sphider 。

c)使用 exit 退出MySQL。

有关如何创建数据库以及授予/获取必要权限的更多信息,请访问 MySQL.com。

3. 在 设置 目录中,编辑 database.php 文件,然后更改 $ database , $ mysql_user , $ mysql_password 和 $ mysql_host 以更正值(如果您不知道 $ mysql_host 应该是 什么 ,它应该保持原样 -'localhost  ') 。 

4. 在浏览器中 打开 install.php 脚本( 管理 目录),这将创建Sphider操作所需的表或者可以使用Sphider发行版的sql目录中给出的tables.sql脚本手动创建表。 在提示符下,键入 mysql -u <您的用户名> -p sphider_db <[sphider的路径] /sql/tables.sql

5.  在 admin 目录中,编辑 auth.php 以更改管理员用户名和密码(默认值为'admin'和'admin')。

6. 在浏览器中 打开 admin / admin.php 并开始建立索引。

7.  search.php 是默认的搜索页面。

索引选项

完整 :继续进行索引编制,直到没有其他可允许的链接为止。

到深度 :索引到给定的深度,其中深度表示从起始页面可以离开页面的“点击”次数。 深度0意味着只有起始页面被索引,深度为1个索引页开始,所有从它等链接到的网页

重新建立索引 :选中此复选框,索引是即使网页已经被收录被迫。

蜘蛛可以离开网域 :默认情况下,Sphider永远不会离开给定的域,因此不会遵循domain.com指向domain2.com的链接。 通过选中此选项,Sphider可以离开域,但是在这种情况下,强烈建议定义适当的必须包含/必须不包含字符串列表,以防止蜘蛛走得太远。

必须包含/不得包含 :请参阅 此处 以获得说明。

客制化

如果要更改Sphider的默认行为,则可以通过管理界面或直接 在 settings 目录中 编辑 conf.php 来执行此操作 。  要更改搜索页面的外观以适合您的网站,请在 模板 目录中 修改或添加 模板 。 修改 search.css 文件以及页眉和页脚模板( header.html 和 footer.html ) 应该足够了 。 通过编辑其余模板文件,可以进行较大的修改。  admin / ext.txt  中提供了未检查索引的文件类型列表 。 未索引的常用单词列表在 

include / common.txt 。

从命令行使用索引器

可以使用以下语法从命令行蜘蛛化网页:

php spider.php <options>

其中<options>是

-所有重新索引数据库中的所有内容

-u 将网址设置为索引

-F将索引深度设置为全(无限深度)

-d 将索引深度设置为

-l允许蜘蛛离开初始域

-r设置Spider重新索引网站

-m <字符串>设置网址必须包含的字符串(使用\ n作为多个字符串之间的分隔符)

-n <字符串>设置网址不得包含的字符串(使用\ n作为多个字符串之间的分隔符)

例如,要对http:/  / www.domain.com/test.html进行爬网并将其索引到深度2,请使用


php spider.php -u http:/ /ww w.domain.com/test.html -d 2

如果需要要重新索引相同的URL,请使用

php spider.php -u http:/ /ww w.domain.c_om/test.html -r

索引pdf和doc文件

可以通过外部二进制文件为PDF和doc文件建立索引。 下载并安装  pdftotext 和 catdoc 并在conf.php中设置location(path)(请注意,在Windows下,您不应在定义可执行文件的路径时使用空格)。 另外,在“管理”部分中,选中“索引pdf”和“索引doc”框(或者,在conf.php中将$ index_pdf和$ index_doc参数设置为1)。

防止页面被索引

Robots.txt

防止页面被索引的最常见方法是使用robots.txt标准,方法是将robots.txt文件放入服务器的根目录中,或在页面标题中添加必要的meta标签(有关如何为此,请参见 此处 )。

必须包含/不得包含字符串列表

Sphider支持的功能强大的选项是定义站点的必须包含/不包含字符串列表(为此,请在“索引”屏幕中单击“高级”选项)。 在“必须不包括”列表中包含字符串的所有url都将被忽略。 同样,将忽略“必须包含”列表中不包含任何字符串的任何url。 字符串列表中的所有字符串都应以换行符(输入)分隔。 例如,为防止将您站点中的论坛编入索引,可以将ww w.yoursite.com/forum添加到“不得包含”列表中。 这意味着所有包含该字符串的url将被忽略,并且不会被索引。 还支持使用Perl样式正则表达式而不是文字字符串。 每个以'*'开头的字符串都被视为正则表达式,因此'* / [a] + /'

忽略链接

<a href..>标记中的Sphider尊重rel =“ nofollow”属性,因此,例如<a href="foo.html" rel="nofollow>中的链接foo.html被忽略。

忽略页面的一部分

Sphider包含一个选项,可将部分页面排除在索引之外。 例如,当某些关键字出现在大多数页面的某些部分(例如页眉,页脚或菜单)时,这可以用于防止搜索结果泛滥。 <!-sphider_noindex->​​和<!-/ sphider_noindex->​​标记之间的页面的任何部分均未编入索引,但是会跟随其中的链接。


Dome下载地址:

https://www.wsjianzhan.com/morenfenlei/phpsphidersousuozhanneisousuo.html

猜你喜欢

迅睿CMS添加文章模板自定义URL

迅睿CMS添加文章模板自定义URL

1、首先在文章模块添加自定义URL字段diyurl2.设置共享栏目URL规则前面这两项保存后,就修改后台代码/config/rewrite.php规则修改如下 &nb

2021-01-29

请求百度开发平台接口报错解决方案,282004 invalid parameter(s) 及

请求百度开发平台接口报错解决方案,282004 invalid parameter(s) 及'error_code': 282131 'error_msg': 'input text too long'

因为百度开发平台返回的数据都为gbk编码,而json_decode只能转utf-8编码的数据;使用iconv()函数转为utf-8编码;{'error_code':282131

2020-08-07

百度云、阿里云、开启CDN后,PHP获取用户真实IP的方法

百度云、阿里云、开启CDN后,PHP获取用户真实IP的方法

最近网站上CDN,但上CDN的同时,要获取到用户的真实IP地址。虽然网上有很多关于网站在CDN加速的情况下,PHP获取用户真实IP地址的方法,但总觉的不可靠,还是自己测试一下最

2020-08-06

如何使用chrome浏览器模拟微信访问网页?

如何使用chrome浏览器模拟微信访问网页?

APP、微信小程序开发时,我们经常需要使用电脑模拟微信访问,今天就教你如何使用谷歌、360浏览器的F12功能模拟微信访问网页。第一步:使用谷歌浏览器打开网页,按下F12或FN+

2020-08-04

php QRcode::png图片生成base64_encode后图片无法显示,暗中77u/ BOM头,让你猝不及防

php QRcode::png图片生成base64_encode后图片无法显示,暗中77u/ BOM头,让你猝不及防

最近做了一个支付宝的扫码支付功能,网上参考稳献一大篇,马上搬砖上码,功夫不付有心人,很快就OK了,上线服务器测试,既然无法显示二维码,以下是生成的二维码data:image/p

2020-07-31

深圳网站建设扫码支付功能升级维护