進階檢索摘要 (RAG, BERT)

September 14, 2025

在資料檢索中,除了傳統的全文檢索以外,近年來透過機器學習,可以加強用自然語言查詢資料的能力。以下是這些檢索技術的相關研究。

RAG 檢索增強生成

RAG 全名為 Retrieval-Augmented Generation,中文為「檢索增強生成」,是一種結合了搜尋檢索和生成能力的自然語言處理架構。

使用者可以用自然語言發問,藉由 RAG 檢索得到的結果交給 LLM,由 LLM 產生合適的答案,不像以前使用者要從檢索結果找出需要的內容。

BERT

BERT 全名為 Bidirectional Encoder Representations from Transformers。

BERT 用來做字詞嵌入(Word Embedding),將多組字詞放到相同的向量內,與全文檢索 (Full-Text Search) 相比,可以做到類似定義的查詢,代替關鍵字匹配 (Keyword Matching)。

例如以下的例子 (引用自 取代關鍵字匹配 – Sparse Vector 與 BM42 · YWC 科技筆記 ),有機會由 BERT 解決:

 

  • 錯字:使用者查 strawbarry 找不到個體 strawberry
  • 同義詞:查口紅,找不到唇膏
  • 語意:查圓桌,但找到圓桌武士
  • 分詞:查香水,但找到 「香」氛「水」氧機