PHP+MySQL+sphinx+scws实现全文检索功能详解

站长资源 2026/6/2 佚名

73 1538 73

DDR爱好者之家 Design By 杰米

本文实例讲述了PHP+MySQL+sphinx+scws实现全文检索功能。分享给大家供大家参考，具体如下：

我的个人环境是PHP7.1+MariaDB10.1.23

下载安装资源包

sphinx地址

http://sphinxsearch.com/downloads/release/

PHP的sphinx扩展下载

http://pecl.php.net/package/sphinx

SCWS 下载地址

http://www.xunsearch.com/scws/download.php

SCWS 词库下载地址

http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2

安装过程

因为我的是PHP 7 版本，安装sphinx的时候遇到点问题

安装sphinx

[root@MevHost sphinxb]# mkdir -p /usr/local/src/sphinx
[root@MevHost sphinxb]# cd /usr/local/src/sphinx 
[root@MevHost sphinxb]# tar -xf sphinx-2.2.11-release.tar.gz  
[root@MevHost sphinxb]# cd sphinx-2.2.11-release
// 这里是指定安装的目录，还有引用mysql,(我这里是mariadb的安装目录)
[root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2 --with-mysql=/usr/local/mariadb/
[root@MevHost sphinxb]# make && make install

安装sphinx客户端

这个要安装上，不然安装PHP安装sphinx扩展时会出现报错

[root@MevHost sphinxb]# cd /usr/local/src/sphinx/sphinx-2.2.11-release/api/libsphinxclient  //sphinx-2.2.11-release目录下  
[root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2/libsphinxclient 
[root@MevHost sphinxb]# make && make install

为PHP安装sphinx扩展

[root@MevHost sphinxb]# cd /usr/local/src/sphinx
[root@MevHost sphinxb]# tar zxvf sphinx-1.3.1.tgz  
[root@MevHost sphinxb]# cd sphinx-1.3.1  
[root@MevHost sphinxb]# phpize  
[root@MevHost sphinxb]# ./configure --with-sphinx=/usr/local/sphinx2/libsphinxclient --with-php-config=/usr/local/php/bin/php-config 
[root@MevHost sphinxb]# make && make install

成功后再 php.ini 添加：

extension=sphinx.so

PHP7版本sphinx扩展下载

下载地址

http://git.php.net/"htmlcode">

[root@MevHost sphinxb]# tar -jxvf scws-1.2.3.tar.bz2
[root@MevHost sphinxb]# mkdir /usr/local/scws  
[root@MevHost sphinxb]# cd scws-1.2.3  
[root@MevHost sphinxb]# ./configure --prefix=/usr/local/scws/  
[root@MevHost sphinxb]# make && make install

为PHP安装scws扩展

[root@MevHost sphinxb]# cd /usr/local/src/sphinx/scws-1.2.3/phpext 
[root@MevHost sphinxb]# phpize  
[root@MevHost sphinxb]# ./configure --with-php-config=/usr/local/php/bin/php-config
[root@MevHost sphinxb]# make && make install

在php.ini 加入

extension = scws.so
scws.default.charset=utf-8
scws.default.fpath = /usr/local/scws/etc

安装scws词库

[root@MevHost sphinxb]# tar jxvf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/
#www为php-fpm运行用户
[root@MevHost sphinxb]# chown www:www /usr/local/scws/etc/dict.utf8.xdb

创建MySQL数据源

mtest.sql

/*
Navicat MySQL Data Transfer
Source Database    : mtest
Target Server Type  : MYSQL
Target Server Version : 50505
File Encoding     : 65001
Date: 2017-12-10 17:47:58
*/
SET FOREIGN_KEY_CHECKS=0;
-- ----------------------------
-- Table structure for userinfo
-- ----------------------------
DROP TABLE IF EXISTS `userinfo`;
CREATE TABLE `userinfo` (
 `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
 `userid` int(11) unsigned NOT NULL DEFAULT '0',
 `addtime` datetime NOT NULL,
 `post` varchar(20) NOT NULL DEFAULT '',
 `summary` text NOT NULL,
 PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=21 DEFAULT CHARSET=utf8;
-- ----------------------------
-- Records of userinfo
-- ----------------------------
INSERT INTO `userinfo` VALUES ('17', '1', '2017-12-10 00:24:54', '在CentOS7中使用Sendmail通', 'sendmail');
INSERT INTO `userinfo` VALUES ('18', '2', '2017-12-10 10:24:54', '彻底理解PHP的SESSION机制', 'session');
INSERT INTO `userinfo` VALUES ('19', '3', '2017-12-10 12:24:54', '手把手编写自己的PHPMVC框架实例教程', 'mvc');
INSERT INTO `userinfo` VALUES ('20', '4', '2017-12-10 00:24:54', 'php获取今日、昨日、上周、本月的起始时', '时间');
-- ----------------------------
-- Table structure for users
-- ----------------------------
DROP TABLE IF EXISTS `users`;
CREATE TABLE `users` (
 `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
 `username` varchar(20) NOT NULL DEFAULT '',
 PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8;
-- ----------------------------
-- Records of users
-- ----------------------------
INSERT INTO `users` VALUES ('1', 'Lionee');
INSERT INTO `users` VALUES ('2', 'libber');
INSERT INTO `users` VALUES ('3', 'sysmob');
INSERT INTO `users` VALUES ('4', '学习');

配置sphinx

配置文件在/usr/local/sphinx2/etc

cp sphinx-min.conf.dist sphinx.conf

source users
{
  type      = mysql
  sql_host    = 127.0.0.1
  sql_user    = root
  sql_pass    = 123456
  sql_db     = mtest
  sql_port    = 3306 # optional, default is 3306
  sql_query_pre = SET NAMES utf8 
    sql_query_pre = SET SESSION query_cache_type=OFF 
    sql_query =   SELECT a.id, a.userid,b.username, UNIX_TIMESTAMP(a.addtime) AS addtime, a.post, a.summary  FROM userinfo a left join users b on a.userid = b.id 
  sql_attr_uint = userid 
  sql_field_string = username 
  sql_field_string = post 
  sql_attr_timestamp = addtime
  sql_ranged_throttle = 0 
  #sql_attr_uint   = group_id
  #sql_attr_timestamp = date_added
  #sql_ranged_throttle  = 0
}
source src1throttled : users 
{
  sql_ranged_throttle = 100
}
index users 
{ 
  source = users 
  path = /usr/local/sphinx2/var/data/users 
  docinfo = extern 
  mlock = 0 
  morphology = none 
  min_word_len = 1 
  html_strip = 1 
  charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, U+0116->U+0117,U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D, U+011D,U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, U+0134->U+0135,U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, U+013C,U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, U+0143->U+0144,U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, U+014B,U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, U+0152->U+0153,U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159, U+0159,U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, U+0160->U+0161,U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, U+0167,U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, U+016E->U+016F,U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175, U+0175,U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, U+017B->U+017C,U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, U+0430..U+044F,U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, U+0621..U+063A, U+01B9,U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, U+0671..U+06D3, U+06F0..U+06FF,U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, U+0966..U+096F, U+097B..U+097F,U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, U+0A05..U+0A39, U+0A59..U+0A5E,U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, U+0AE6..U+0AEF, U+0B05..U+0B39,U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, U+0BE6..U+0BF2, U+0C05..U+0C39,U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,U+A807..U+A822, U+0386->U+03B1, U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,U+0389->U+03B7, U+03AE->U+03B7, U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,U+03AF->U+03B9, U+03CA->U+03B9, U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,U+03AB->U+03C5, U+03B0->U+03C5, U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,U+03CE->U+03C9, U+03C2->U+03C3, U+0391..U+03A1->U+03B1..U+03C1,U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, U+03C3..U+03C9, U+0E01..U+0E2E,U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, U+A000..U+A48F, U+4E00..U+9FBF,U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, U+2F800..U+2FA1F, U+2E80..U+2EFF,U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, U+3130..U+318F, U+A000..U+A48F,U+A490..U+A4CF 
  ngram_len = 1 
  ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF 
}
common
{
}
indexer
{
  mem_limit    = 128M
}
searchd
{
  #php
  listen     = 9312
  #mysql
  listen     = 9306:mysql41
  log     = /usr/local/sphinx2/var/log/searchd.log
  query_log    = /usr/local/sphinx2/var/log/query.log
  query_log_format = sphinxql
  read_timeout    = 5
  client_timeout   = 300
  max_children    = 30
  persistent_connections_limit  = 30
  pid_file    = /usr/local/sphinx2/var/log/searchd.pid
  seamless_rotate   = 1
  preopen_indexes   = 1
  unlink_old   = 1
  mva_updates_pool  = 1M
  max_packet_size   = 8M
  max_filters   = 256
  max_filter_values  = 4096
  max_batch_queries  = 32
  workers     = threads # for RT to work
}

启动sphinx

[root@MevHost ~]# pkill searchd
[root@MevHost ~]# /usr/local/sphinx2/bin/indexer --config /usr/local/sphinx2/etc/sphinx.conf --all 
[root@MevHost ~]# /usr/local/sphinx2/bin/searchd --config /usr/local/sphinx2/etc/sphinx.conf

如果出现下面的报错

"Oops! It seems that sphinx was built with wrong endianess (cross-compiling"

我是直接把sphinx下面的config/config.h 改成了他提示的这个 #define USE_LITTLE_ENDIAN = 1，之后make的,

接下来的这段是我们的PHP代码了

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <title>Document</title>
</head>
<body>
  <form method="post" action='test.php'>
    <p>输入：</p> <input type="text" name="q" autocomplete="false">
  </form>
</body>
</html>
<"Content-type: text/html; charset=utf-8");
if($_POST){
$b_time = microtime(true);
$key = $_POST['q'];
$index = "users";
//========================================分词
$so = scws_new();
$so->set_charset('utf-8');
//默认词库
$so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');
//自定义词库
// $so->add_dict('./dd.txt',SCWS_XDICT_TXT);
//默认规则
$so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini');
//设定分词返回结果时是否去除一些特殊的标点符号
$so->set_ignore(true);
//设定分词返回结果时是否复式分割，如“中国人”返回“中国＋人＋中国人”三个词。
// 按位异或的 1 | 2 | 4 | 8 分别表示: 短词 | 二元 | 主要单字 | 所有单字
//1,2,4,8 分别对应常量 SCWS_MULTI_SHORT SCWS_MULTI_DUALITY SCWS_MULTI_ZMAIN SCWS_MULTI_ZALL
$so->set_multi(false);
//设定是否将闲散文字自动以二字分词法聚合
$so->set_duality(false);
//设定搜索词
$so->send_text($key);
$words_array = $so->get_result();
$words = "";
foreach($words_array as $v)
{
  $words = $words.'|('.$v['word'].')';
}
//加入全词
#$words = '('.$key.')'.$words;
$words = trim($words,'|');
$so->close();
echo '<p>输入：'.$key.'</p>'."\r\n";
echo '<p>分词：'.$words.'</p>'."\r\n";
//========================================搜索
$sc = new SphinxClient();
$sc->SetServer('127.0.0.1',9312);
#$sc->SetMatchMode(SPH_MATCH_ALL);
$sc->SetMatchMode(SPH_MATCH_ANY);
$sc->SetArrayResult(TRUE);
$res = $sc->Query($words,$index);
echo "<hr>";
echo "<pre>";
print_r($res);
$e_time = microtime(true);
$time = $e_time - $b_time;
echo $time;
}
exit;
"htmlcode">

## 数据源src1
source src1
{
  ## 说明数据源的类型。数据源的类型可以是：mysql，pgsql，mssql，xmlpipe，odbc，python
  ## 有人会奇怪，python是一种语言怎么可以成为数据源呢？
  ## python作为一种语言，可以操作任意其他的数据来源来获取数据，更多数据请看：（http://www.coreseek.cn/products-install/python/）
  type      = mysql
  ## 下面是sql数据库特有的端口，用户名，密码，数据库名等。
  sql_host    = localhost
  sql_user    = test
  sql_pass    =
  sql_db     = test
  sql_port    = 3306
  ## 如果是使用unix sock连接可以使用这个。
  # sql_sock   = /tmp/mysql.sock
  ## indexer和mysql之间的交互，需要考虑到效率和安全性。
  ## 比如考虑到效率，他们两者之间的交互需要使用压缩协议；考虑到安全，他们两者之间的传输需要使用ssl
  ## 那么这个参数就代表这个意思，0/32/2048/32768 无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。
  # mysql_connect_flags  = 32
  ## 当mysql_connect_flags设置为2048（ssl）的时候，下面几个就代表ssl连接所需要使用的几个参数。
  # mysql_ssl_cert    = /etc/ssl/client-cert.pem
  # mysql_ssl_key   = /etc/ssl/client-key.pem
  # mysql_ssl_ca   = /etc/ssl/cacert.pem
  ## mssql特有，是否使用windows登陆
  # mssql_winauth   = 1
  ## mssql特有，是使用unicode还是单字节数据。
  # mssql_unicode   = 1 # request Unicode data from server
  ## odbc的dsn串
  # odbc_dsn   = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};
  ## sql某一列的缓冲大小，一般是针对字符串来说的。
  ## 为什么要有这么一种缓冲呢？
  ## 有的字符串，虽然长度很长，但是实际上并没有使用那么长的字符，所以在Sphinx并不会收录所有的字符，而是给每个属性一个缓存作为长度限制。
  ## 默认情况下非字符类型的属性是1KB，字符类型的属性是1MB。
  ## 而如果想要配置这个buffer的话，就可以在这里进行配置了。
  # sql_column_buffers  = content=12M, comments=1M
  ## indexer的sql执行前需要执行的操作。
  # sql_query_pre   = SET NAMES utf8
  # sql_query_pre   = SET SESSION query_cache_type=OFF
  ## indexer的sql执行语句
  sql_query    =     SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content     FROM documents
  ## 有的时候有多个表，我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。
  ## 而这个join操作可能非常慢，导致建立索引的时候特别慢，那么这个时候，就可以考虑在sphinx端进行join操作了。
  ## sql_joined_field是增加一个字段，这个字段是从其他表查询中查询出来的。
  ## 这里封号后面的查询语句是有要求的，如果是query，则返回id和查询字段，如果是payload-query，则返回id，查询字段和权重。
  ## 并且这里的后一个查询需要按照id进行升序排列。
  # sql_joined_field = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC
  # sql_joined_field = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC
  ## 外部文件字段，意思就是一个表中，有一个字段存的是外部文件地址，但是实际的字段内容在文件中。比如这个字段叫做content_file_path。
  ## 当indexer建立索引的时候，查到这个字段，就读取这个文件地址，然后加载，并进行分词和索引建立等操作。
  # sql_file_field    = content_file_path
  ## 当数据源数据太大的时候，一个sql语句查询下来往往很有可能锁表等操作。
  ## 那么我么就可以使用多次查询，那么这个多次查询就需要有个范围和步长，sql_query_range和sql_range_step就是做这个使用的。
  ## 获取最大和最小的id，然后根据步长来获取数据。比如下面的例子，如果有4500条数据，这个表建立索引的时候就会进行5次sql查询。 
  ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。
  # sql_query_range    = SELECT MIN(id),MAX(id) FROM documents
  # sql_range_step    = 1000
  # sql_ranged_throttle  = 0
  ## 下面都是些不同属性的数据了
  ## 先要了解属性的概念：属性是存在索引中的，它不进行全文索引，但是可以用于过滤和排序。
  ## uint无符号整型属性
  sql_attr_uint    = group_id
  ## bool属性
  # sql_attr_bool   = is_deleted
  ## 长整型属性
  # sql_attr_bigint    = my_bigint_id
  ## 时间戳属性，经常被用于做排序
  sql_attr_timestamp = date_added
  ## 字符串排序属性。一般我们按照字符串排序的话，我们会将这个字符串存下来进入到索引中，然后在查询的时候比较索引中得字符大小进行排序。
  ## 但是这个时候索引就会很大，于是我们就想到了一个方法，我们在建立索引的时候，先将字符串值从数据库中取出，暂存，排序。
  ## 然后给排序后的数组分配一个序号，然后在建立索引的时候，就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。
  ## 这，就是这个字段的意义。
  # sql_attr_str2ordinal = author_name
  ## 浮点数属性，经常在查询地理经纬度的时候会用到。
  # sql_attr_float    = lat_radians
  # sql_attr_float    = long_radians
  ## 多值属性（MVA）
  ## 试想一下，有一个文章系统，每篇文章都有多个标签，这个文章就叫做多值属性。
  ## 我要对某个标签进行查询过滤，那么在建立查询的时候就应该把这个标签的值放入到索引中。
  ## 这个字段，sql_attr_multi就是用来做这个事情的。
  # sql_attr_multi    = uint tag from query; SELECT docid, tagid FROM tags
  # sql_attr_multi    = uint tag from ranged-query;   #  SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end;   #  SELECT MIN(docid), MAX(docid) FROM tags
  ## 字符串属性。
  # sql_attr_string    = stitle
  ## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段
  # sql_attr_str2wordcount  = stitle
  ## 字符串字段，可全文搜索，可返回原始文本信息。
  # sql_field_string = author
  ## 文档词汇数记录字段，可全文搜索，可返回原始信息
  # sql_field_str2wordcount  = title
  ## 取后查询，在sql_query执行后立即操作。
  ## 它和sql_query_post_index的区别就是执行时间不同
  ## sql_query_post是在sql_query执行后执行，而sql_query_post_index是在索引建立完成后才执行。
  ## 所以如果要记录最后索引执行时间，那么应该在sql_query_post_index中执行。
  # sql_query_post    =
  ## 参考sql_query_post的说明。
  # sql_query_post_index = REPLACE INTO counters ( id, val )   #  VALUES ( 'max_indexed_id', $maxid )
  ## 命令行获取信息查询。
  ## 什么意思呢？
  ## 我们进行索引一般只会返回主键id，而不会返回表中的所有字段。
  ## 但是在调试的时候，我们一般需要返回表中的字段，那这个时候，就需要使用sql_query_info。
  ## 同时这个字段只在控制台有效，在api中是无效的。
  sql_query_info   = SELECT * FROM documents WHERE id=$id
  ## 比如有两个索引，一个索引比较旧，一个索引比较新，那么旧索引中就会有数据是旧的。
  ## 当我要对两个索引进行搜索的时候，哪些数据要按照新的索引来进行查询呢。
  ## 这个时候就使用到了这个字段了。
  ## 这里的例子（http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist）给的非常清晰了。
  # sql_query_killlist  = SELECT id FROM documents WHERE edited>=@last_reindex
  ## 下面几个压缩解压的配置都是为了一个目的：让索引重建的时候不要影响数据库的性能表现。
  ## SQL数据源解压字段设置
  # unpack_zlib    = zlib_column
  ## MySQL数据源解压字段设置
  # unpack_mysqlcompress = compressed_column
  # unpack_mysqlcompress = compressed_column_2
  ## MySQL数据源解压缓冲区设置
  # unpack_mysqlcompress_maxsize = 16M
  ## xmlpipe的数据源就是一个xml文档
  # type     = xmlpipe
  ## 读取数据源的命令
  # xmlpipe_command    = cat /home/yejianfeng/instance/coreseek/var/test.xml
  ## 字段
  # xmlpipe_field   = subject
  # xmlpipe_field   = content
  ## 属性
  # xmlpipe_attr_timestamp  = published
  # xmlpipe_attr_uint = author_id
  ## UTF-8修复设置
  ## 只适用xmlpipe2数据源，数据源中有可能有非utf-8的字符，这个时候解析就有可能出现问题
  ## 如果设置了这个字段，非utf-8序列就会全部被替换为空格。
  # xmlpipe_fixup_utf8  = 1
}
## sphinx的source是有继承这么一种属性的，意思就是除了父source之外，这个source还有这个特性
source src1throttled : src1
{
  sql_ranged_throttle = 100
}
## 索引test1
index test1
{
  ## 索引类型，包括有plain，distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。
  # type     = plain
  ## 索引数据源
  source     = src1
  ## 索引文件存放路径
  path      = /home/yejianfeng/instance/coreseek/var/data/test1
  ## 文档信息的存储模式，包括有none,extern,inline。默认是extern。
  ## docinfo指的就是数据的所有属性（field）构成的一个集合。
  ## 首先文档id是存储在一个文件中的（spa）
  ## 当使用inline的时候，文档的属性和文件的id都是存放在spa中的，所以进行查询过滤的时候，不需要进行额外操作。
  ## 当使用extern的时候，文档的属性是存放在另外一个文件（spd）中的，但是当启动searchd的时候，会把这个文件加载到内存中。
  ## extern就意味着每次做查询过滤的时候，除了查找文档id之外，还需要去内存中根据属性进行过滤。
  ## 但是即使这样，extern由于文件大小小，效率也不低。所以不是有特殊要求，一般都是使用extern
  docinfo     = extern
  ## 缓冲内存锁定。
  ## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问，则它会被交换到磁盘上。
  ## 设置了mlock就不会出现这个问题，这部分数据会一直存放在内存中的。
  mlock      = 0
  ## 词形处理器
  ## 词形处理是什么意思呢？比如在英语中，dogs是dog的复数，所以dog是dogs的词干，这两个实际上是同一个词。
  ## 所以英语的词形处理器会讲dogs当做dog来进行处理。
  morphology   = none
  ## 词形处理有的时候会有问题，比如将gps处理成gp，这个设置可以允许根据词的长度来决定是否要使用词形处理器。
  # min_stemming_len = 1
  ## 词形处理后是否还要检索原词？
  # index_exact_words = 1
  ## 停止词，停止词是不被索引的词。
  # stopwords   = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt
  ## 自定义词形字典
  # wordforms   = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt
  ## 词汇特殊处理。
  ## 有的一些特殊词我们希望把它当成另外一个词来处理。比如，c++ => cplusplus来处理。
  # exceptions    = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt
  ## 最小索引词长度，小于这个长度的词不会被索引。
  min_word_len    = 1
  ## 字符集编码类型，可以为sbcs,utf-8。对于Coreseek，还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5
  charset_type    = sbcs
  ## 字符表和大小写转换规则。对于Coreseek，这个字段无效。
  # 'sbcs' default value is
  # charset_table   = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF
  #
  # 'utf-8' default value is
  # charset_table   = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
  ## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。
  # ignore_chars   = U+00AD
  ## 是否启用通配符，默认为0，不启用
  # enable_star    = 1
  ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。
  ## 最小前缀索引长度
  ## 为什么要有这个配置项呢？
  ## 首先这个是当启用通配符配置启用的前提下说的，前缀索引使得一个关键词产生了多个索引项，导致索引文件体积和搜索时间增加巨大。
  ## 那么我们就有必要限制下前缀索引的前缀长度，比如example，当前缀索引长度设置为5的时候，它只会分解为exampl，example了。
  # min_prefix_len    = 0
  ## 最小索引中缀长度。理解同上。
  # min_infix_len   = 0
  ## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。
  # prefix_fields   = filename
  # infix_fields   = url, domain
  ## 词汇展开
  ## 是否尽可能展开关键字的精确格式或者型号形式
  # expand_keywords    = 1
  ## N-Gram索引的分词技术
  ## N-Gram是指不按照词典，而是按照字长来分词，这个主要是针对非英文体系的一些语言来做的（中文、韩文、日文）
  ## 对coreseek来说，这两个配置项可以忽略。
  # ngram_len   = 1
  # ngram_chars    = U+3000..U+2FA1F
  ## 词组边界符列表和步长
  ## 哪些字符被看做分隔不同词组的边界。
  # phrase_boundary    = ., "_blank" href="//www.jb51.net/Special/856.htm">PHP扩展开发教程》、《PHP网络编程技巧总结》、《php curl用法总结》、《PHP数组(Array)操作技巧大全》、《PHP数据结构与算法教程》、《php程序设计算法总结》及《php字符串(string)用法总结》
希望本文所述对大家PHP程序设计有所帮助。

PHP,MySQL,sphinx,scws,全文检索

DDR爱好者之家 Design By 杰米

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

DDR爱好者之家 Design By 杰米

评论“PHP+MySQL+sphinx+scws实现全文检索功能详解”

暂无评论...

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

昨天有一位朋友在大神群里分享，自己亚服账号被封号之后居然弹出了国服的封号信息对话框。

这里面让他访问的是一个国服的战网网址，com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后，确实是网易的网址，也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情，因为以前都没有出现这样的情况，现在突然提示跳转到国服战网的网址，是不是说明了简体中文客户端已经开始进行更新了呢？

更新日志

2026年06月02日

PHP+MySQL+sphinx+scws实现全文检索功能详解

PHP使用Session实现上传进度功能详解

PHP使用ajax的post方式下载excel文件简单示例

评论“PHP+MySQL+sphinx+scws实现全文检索功能详解”

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

更新日志

友情链接