在資料檢索中,除了傳統的全文檢索以外,近年來透過機器學習,可以加強用自然語言查詢資料的能力。以下是這些檢索技術的相關研究。
RAG 檢索增強生成
RAG 全名為 Retrieval-Augmented Generation,中文為「檢索增強生成」,是一種結合了搜尋檢索和生成能力的自然語言處理架構。
使用者可以用自然語言發問,藉由 RAG 檢索得到的結果交給 LLM,由 LLM 產生合適的答案,不像以前使用者要從檢索結果找出需要的內容。
BERT
BERT 全名為 Bidirectional Encoder Representations from Transformers。
BERT 用來做字詞嵌入(Word Embedding),將多組字詞放到相同的向量內,與全文檢索 (Full-Text Search) 相比,可以做到類似定義的查詢,代替關鍵字匹配 (Keyword Matching)。
例如以下的例子 (引用自 取代關鍵字匹配 – Sparse Vector 與 BM42 · YWC 科技筆記 ),有機會由 BERT 解決:
- 錯字:使用者查 strawbarry 找不到個體 strawberry
- 同義詞:查口紅,找不到唇膏
- 語意:查圓桌,但找到圓桌武士
- 分詞:查香水,但找到 「香」氛「水」氧機