MongoDB 全文检索与高级查询技巧（十一）

admin
MongoDB
9小时前
2热度
0评论

MongoDB 是一个高性能的 NoSQL 数据库，广泛应用于各种应用场景中。本文将详细介绍如何在 MongoDB 中启用全文检索、创建和使用全文索引、删除全文索引，以及如何使用正则表达式进行复杂查询。此外，我们还将探讨如何使用 GridFS 存储大文件和创建固定集合。通过本文，你将掌握 MongoDB 中这些高级功能的使用方法，提升数据管理和查询效率。

启用全文检索

MongoDB 从 2.4 版本开始支持全文检索功能，目前支持包括丹麦语、荷兰语、英语、芬兰语、法语、德语、匈牙利语、意大利语、挪威语、葡萄牙语、罗马尼亚语、俄语、西班牙语、瑞典语和土耳其语在内的 15 种语言的全文索引。

如果你使用的是 2.6 版本及之后的 MongoDB，全文检索功能默认是开启的。对于早期版本，你需要手动启用全文检索功能。具体操作如下：

> db.adminCommand({ setParameter: true, textSearchEnabled: true })

或者在启动 MongoDB 服务时使用命令行参数：

mongod --setParameter textSearchEnabled=true

创建全文索引

假设我们有一个 posts 集合，其中包含文章内容（post_text）和标签（tags）字段。为了能够高效地搜索文章内容，我们需要为 post_text 字段创建全文索引：

> db.posts.createIndex({ post_text: "text" })

创建全文索引后，你可以使用 $text 操作符进行全文搜索。例如，搜索包含关键词 "runoob" 的文章：

> db.posts.find({ $text: { $search: "runoob" } })

如果你使用的是旧版本的 MongoDB，可以使用以下命令进行全文搜索：

> db.posts.runCommand("text", { search: "runoob" })

使用全文索引

全文索引可以显著提高搜索效率。假设我们的 posts 集合中有以下文档：

{
   "post_text": "enjoy the mongodb articles on Runoob",
   "tags": [
      "mongodb",
      "runoob"
   ]
}

通过全文索引，我们可以快速找到包含特定关键词的文档。例如，搜索包含 "runoob" 的文章：

> db.posts.find({ $text: { $search: "runoob" } })

查询结果将返回包含 "runoob" 关键词的文档：

{
   "_id": ObjectId("53493d14d852429c10000002"),
   "post_text": "enjoy the mongodb articles on Runoob",
   "tags": ["mongodb", "runoob"]
}

删除全文索引

如果你需要删除已创建的全文索引，可以使用 getIndexes 方法查找索引名，然后使用 dropIndex 方法删除索引。例如，假设我们创建的全文索引名为 post_text_text：

> db.posts.getIndexes()

找到索引名后，执行以下命令删除索引：

> db.posts.dropIndex("post_text_text")

使用正则表达式

正则表达式是一种强大的文本匹配工具，MongoDB 使用 $regex 操作符来设置匹配字符串的正则表达式。MongoDB 使用 PCRE (Perl Compatible Regular Expression) 作为正则表达式语言。

假设我们的 posts 集合中有以下文档：

{
   "post_text": "enjoy the mongodb articles on runoob",
   "tags": [
      "mongodb",
      "runoob"
   ]
}

使用正则表达式可以灵活地进行字符串匹配。例如，查找包含 "runoob" 的文章：

> db.posts.find({ post_text: { $regex: "runoob" } })

上述查询也可以简化为：

> db.posts.find({ post_text: /runoob/ })

不区分大小写的正则表达式

如果需要进行不区分大小写的搜索，可以在 $regex 操作符中添加 $options 参数，并设置为 "i"。例如，查找不区分大小写的 "runoob"：

> db.posts.find({ post_text: { $regex: "runoob", $options: "i" } })

查询结果将返回所有包含 "runoob" 的文档，无论大小写如何：

{
   "_id": ObjectId("53493d37d852429c10000004"),
   "post_text": "hey! this is my post on  runoob",
   "tags": ["runoob"]
}

数组元素使用正则表达式

在数组字段中使用正则表达式也非常有用，特别是在处理标签等场景时。例如，查找包含以 "run" 开头的标签：

> db.posts.find({ tags: { $regex: "^run" } })

上述查询将返回所有包含以 "run" 开头的标签的文档。

优化正则表达式查询

使用索引：如果文档中字段设置了索引，使用索引进行查询通常比使用正则表达式匹配所有数据更快。
前缀表达式：如果正则表达式是前缀表达式（即以特定字符串开头），查询速度会更快。例如，正则表达式 ^tut 将查找以 "tut" 开头的字符串。

注意事项

正则表达式中使用变量：如果需要在正则表达式中使用变量，必须使用 eval 将组合的字符串进行转换。例如：
```
var key = "runoob";
var regex = eval("/" + key + "/i");
```
上述代码等同于：
```
{ post_text: { $regex: key, $options: "i" } }
```

GridFS 存储大文件

GridFS 是 MongoDB 提供的一种存储和恢复大文件（如图片、音频、视频等）的机制。GridFS 将大文件分割成多个小的块（默认为 256KB），每个块作为一个文档存储在 chunks 集合中。文件的元数据（如文件名、内容类型等）存储在 files 集合中。

GridFS 添加文件

使用 mongofiles 工具可以方便地将文件存储到 MongoDB 中。例如，将一个 MP3 文件存储到 gridfs 数据库中：

> mongofiles -d gridfs put song.mp3

上述命令将 song.mp3 文件存储到 gridfs 数据库中。如果该数据库不存在，MongoDB 会自动创建。

查看文件信息

可以使用以下命令查看存储在 fs.files 集合中的文件信息：

> db.fs.files.find()

查询结果将返回文件的详细信息，包括文件名、上传日期、文件大小等：

{
   "_id": ObjectId("534a811bf8b4aa4d33fdf94d"),
   "filename": "song.mp3",
   "chunkSize": 261120,
   "uploadDate": ISODate("2014-04-13T11:32:33.474Z"),
   "md5": "e4f53379c909f7bed2e9d631e15c1c41",
   "length": 10401959
}

查看文件块

可以使用以下命令查看存储在 fs.chunks 集合中的文件块信息：

> db.fs.chunks.find({ files_id: ObjectId("534a811bf8b4aa4d33fdf94d") })

上述命令将返回文件的所有块信息，每个块包含文件的一部分数据。

创建固定集合

固定集合（Capped Collections）是 MongoDB 中一种特殊类型的集合，具有固定大小和循环覆盖特性。固定集合非常适合用于存储日志信息和缓存数据。

创建固定集合

使用 createCollection 方法创建固定集合时，需要设置 capped 选项为 true，并指定集合的大小。例如，创建一个大小为 10MB 的固定集合：

> db.createCollection("cappedLogCollection", { capped: true, size: 10000000 })

还可以指定集合中的最大文档数量：

> db.createCollection("cappedLogCollection", { capped: true, size: 10000000, max: 1000 })

判断集合是否为固定集合

可以使用 isCapped 方法判断一个集合是否为固定集合：

> db.cappedLogCollection.isCapped()

转换现有集合为固定集合

如果需要将已存在的集合转换为固定集合，可以使用 convertToCapped 命令：

> db.runCommand({ convertToCapped: "posts", size: 10000000 })

查询固定集合

固定集合中的文档按插入顺序存储，默认情况下查询也是按插入顺序返回。可以使用 $natural 排序选项调整返回顺序：

> db.cappedLogCollection.find().sort({ $natural: -1 })

固定集合的特点

插入速度快：固定集合的插入速度非常快。
查询速度快：按插入顺序查询输出速度非常快。
自动淘汰旧数据：当集合空间用完后，新插入的数据会覆盖最早的文档。

固定集合的用途

存储日志信息：固定集合非常适合用于存储日志信息，因为日志数据通常是按时间顺序插入的。
缓存数据：固定集合可以用于缓存少量的文档，自动淘汰旧数据。

实现 ObjectId 自动增长

MongoDB 没有像 SQL 一样提供自动增长的功能，但可以通过编程方式实现 _id 字段的自动增长。以下是一个示例，展示如何在 products 集合中实现 _id 字段的自动增长。

创建计数器集合

首先，创建一个 counters 集合，用于存储序列值：

> db.createCollection("counters")

然后，向 counters 集合中插入一个文档，使用 productid 作为键：

> db.counters.insert({ _id: "productid", sequence_value: 0 })

创建 JavaScript 函数

创建一个 JavaScript 函数 getNextSequenceValue，用于获取并递增序列值：

> function getNextSequenceValue(sequenceName) {
   var sequenceDocument = db.counters.findAndModify({
      query: { _id: sequenceName },
      update: { $inc: { sequence_value: 1 } },
      new: true
   });
   return sequenceDocument.sequence_value;
}

使用 JavaScript 函数

使用 getNextSequenceValue 函数插入新的文档，并设置 _id 字段为自增的序列值：

> db.products.insert({
   _id: getNextSequenceValue("productid"),
   product_name: "Apple iPhone",
   category: "mobiles"
})

> db.products.insert({
   _id: getNextSequenceValue("productid"),
   product_name: "Samsung S3",
   category: "mobiles"
})

验证插入的文档：

> db.products.find()

查询结果将显示 _id 字段是自增的：


{ "_id": 1, "product_name": "Apple iPhone", "category": "mobiles" }
{ "_id": 2, "product_name": "Samsung S3", "category": "mobiles" }

总结

通过本文，你已经掌握了 MongoDB 中启用全文检索、创建和使用全文索引、删除全文索引、使用正则表达式进行复杂查询、使用 GridFS 存储大文件以及创建固定集合的方法。这些高级功能可以帮助你更高效地管理和查询数据，提升应用性能。希望本文对你有所帮助，祝你在 MongoDB 的学习和应用中取得更大的进步！