![]()
相信很多小伙伴都有這樣的經(jīng)歷:
用AI搞Demo、演示、草稿,一看效果真不錯。
但真刀真槍干的時候,AI就不靈了,輸出的內(nèi)容東改改西改改,最后還不如自己從頭搞來的快。
做企業(yè)的朋友,應該也有同樣的感受。
在各個業(yè)務中融入AI,然后滿懷憧憬,期待AI能帶企業(yè)起飛。
現(xiàn)實很骨感,絕大多數(shù)企業(yè)都沒得到期望的回報。
![]()
是現(xiàn)在的模型性能還不夠強嗎?
不見得,更大的原因是,模型與真實業(yè)務數(shù)據(jù)之間,有一條鴻溝。
用AI做Demo,是“提示詞工程”。
用AI做業(yè)務,是“上下文工程”。
上下文工程,就是這條鴻溝上架起的橋。
但當前的上下文工程,是搖搖欲墜的木板橋,效率并不高。
而造成這條鴻溝的一大原因,是數(shù)據(jù)層面的混亂。
結構化的、非結構化的、半結構化的,存在數(shù)據(jù)庫的、存在電腦本地的、存在向量數(shù)據(jù)庫的,還有各種模態(tài)的數(shù)據(jù)。
AI模型使用這些數(shù)據(jù),就要用不同的方式,分別獲取不同類型的數(shù)據(jù)。
每種方式都會有信息損失,幾種損失加在一起,造成了更大的損失。
費力,又不討好。
現(xiàn)在,螞蟻旗下的分布式數(shù)據(jù)庫公司OceanBase,在鴻溝上筑起了一座叫「seekdb」的大橋。
什么是OceanBase seekdb
11月18日,OceanBase發(fā)布了首款AI原生混合搜索數(shù)據(jù)庫「seekdb」,還是開源的。
![]()
AI原生,意味著seekdb不是在傳統(tǒng)數(shù)據(jù)庫中融入AI,而是為AI重構數(shù)據(jù)庫。
混合搜索數(shù)據(jù)庫,就是在一個數(shù)據(jù)庫中,統(tǒng)一了標量(字段)、向量(語義特征)和全文數(shù)據(jù)的存儲和檢索,并通過內(nèi)置AI Functions支持多模混合搜索和智能推理。
使用seekdb,開發(fā)者只需三行代碼,就能實現(xiàn)百億級數(shù)據(jù)混合搜索。
OceanBase的CTO楊傳輝表示:“我們認為AI數(shù)據(jù)庫的核心不是向量,而是混合搜索。”
![]()
有的概念可能有些抽象,后面會給大家詳細解讀到。
seekdb強在哪里
混合搜索
![]()
混合搜索就像一位全能的信息偵探,它能讓你在一次查詢語句中,同時運用語義理解(向量搜索)、關鍵詞匹配(全文搜索)和條件篩選(標量過濾)這三種不同的技能,從多個維度鎖定目標。
它采用“先廣撒網(wǎng)再重點捕撈”的智能流程,先快速初選出一批候選結果,再進行精細排序,從而在毫秒間兼顧速度與精度。
舉個例子,一位律師給大模型發(fā)送指令:“找到近五年內(nèi),關于未成年人網(wǎng)絡打賞退款的、且與我的案件情節(jié)相似的勝訴判決書”。
這時大模型會調(diào)用seekdb,數(shù)據(jù)庫中同時進行:關鍵詞匹配(“未成年人”、“打賞”、“退款”)、條件篩選(“近五年”、“勝訴”)、以及語義理解(尋找案情描述“情節(jié)相似”的案例),最后找到精準的數(shù)據(jù)。
而不是從3類不同數(shù)據(jù)庫中分別查詢數(shù)據(jù),這樣可能有遺漏和冗余。
內(nèi)置AI
![]()
seekdb數(shù)據(jù)庫內(nèi)置AI功能,可以接入各種AI模型。
可以在數(shù)據(jù)庫內(nèi)進行向量嵌入、推理、提示詞管理與重排。
這有什么用呢?
舉個例子,你在傳統(tǒng)數(shù)據(jù)庫中存入關于供應商的數(shù)據(jù),后來你要用大模型對比分析與各個供應商合作的情況。
當你查詢數(shù)據(jù)庫時,你會得到與存入時相同的數(shù)據(jù)。(這不是廢話嘛......)
但問題是,這些數(shù)據(jù)可能沒有包含大模型上下文需要的精確信息。
有人會說,大模型本身不就能推理嗎?
是的,但如果上下文數(shù)量巨大,大模型很可能忽略掉某些信息的推理,這點大家應該都深有體會。
如果使用seekdb,供應商數(shù)據(jù)入庫時,庫內(nèi)AI會自動推理出供應商的各種衍生信息,比如類型、規(guī)模、風險等等。
查詢時,就會得到大模型需要的精確信息,大模型輸出結果就會更全面、更精準、更可靠。
SQL原生
![]()
SQL原生,意味著seekdb不是一個功能有限的專用引擎,而是一個繼承了成熟穩(wěn)定的OceanBase核心的全功能數(shù)據(jù)庫。
完整支持ACID事務,確保數(shù)據(jù)準確可靠。
底層基于LSM-Tree存儲架構,讓數(shù)據(jù)可以實現(xiàn)高頻的實時寫入與立即可查,并在寫入的同時就自動構建好全文、向量等多種索引,無需等待。
深度兼容MySQL的語法與協(xié)議,熟悉的工具和代碼幾乎可以無縫遷移。
部署門檻低
![]()
部署seekdb非常容易。
你可以像安裝一個普通的Python庫那樣,通過“pip install”一鍵獲取seekdb。
最低只需1核CPU和2GB內(nèi)存的極低配置就能秒級啟動并順暢運行。
無需復雜的依賴組件,采用單點架構,真正做到開箱即用。
可以非常靈活地融入你的項目:既可以作為嵌入式數(shù)據(jù)庫,僅用幾行代碼就集成到AI應用中,也可以作為獨立的客戶端/服務器進行部署。
這種“比輕量級更輕”的設計,讓seekdb的資源需求遠低于傳統(tǒng)數(shù)據(jù)庫,不僅能無縫部署在服務器和開發(fā)者的個人電腦上,未來甚至能運行在各種移動設備中。
生態(tài)兼容
![]()
seekdb秉承了開放與集成的設計哲學,采用Apache 2.0協(xié)議全面開源。
開發(fā)者可以自由使用、修改和共建seekdb項目,這樣就能以更快的速度持續(xù)進化。
無需復雜適配即可與Dify、LangChain等主流AI框架和MCP協(xié)議無縫集成,無痛嵌入現(xiàn)有AI技術棧。
同時,社區(qū)開源的PowerRAG智能文檔解析框架和PowerMem分層記憶架構,在特定基準測試中達到了頂尖水平,并能大幅降低大模型推理成本。
下面是seekdb與其他數(shù)據(jù)庫的對比:
![]()
一目了然,高下立判。
seekdb能用在哪
seekdb的用處,可太多了。
各類智能化場景中,seekdb都能提供強大的數(shù)據(jù)支撐。
在智能問答與知識管理領域,seekdb能夠為各類RAG應用提供強大支持。
它通過整合外部知識源,有效增強大模型的回答質量,降低幻覺,適用于企業(yè)知識庫、智能客服和個人知識助手等場景,實現(xiàn)更準確、實時的信息交互。
![]()
針對代碼開發(fā)與AI編程,seekdb可對代碼倉庫建立語義向量與全文關鍵詞雙重索引,幫助開發(fā)者快速搜索代碼片段、實現(xiàn)智能補全,并管理代碼的結構化信息。
無論是IDE插件、本地開發(fā)環(huán)境還是在線編程平臺,seekdb都能提升編碼效率與代碼生成質量。
![]()
在語義搜索與內(nèi)容推薦方面,seekdb突破傳統(tǒng)關鍵詞匹配的局限,支持多模態(tài)數(shù)據(jù)的語義理解,輕松實現(xiàn)以文搜圖、商品精準推薦等智能搜索功能,讓搜索引擎更懂用戶意圖。
![]()
對于AI Agent類應用,seekdb提供記憶存儲、元數(shù)據(jù)管理、多模態(tài)數(shù)據(jù)處理等一站式數(shù)據(jù)解決能力,適用于個人生活助手、企業(yè)自動化流程和行業(yè)垂直智能體等,幫助構建具備感知、決策與執(zhí)行能力的智能系統(tǒng)。
![]()
在傳統(tǒng)系統(tǒng)AI化升級中,seekdb高度兼容 MySQL 生態(tài),使現(xiàn)有企業(yè)應用無需大規(guī)模重構,就能嵌入AI能力,覆蓋文檔處理、經(jīng)營分析、財務管理等多種場景,實現(xiàn)從“被動執(zhí)行”到“主動協(xié)作”的智能化轉型。
![]()
此外,seekdb也適用于邊緣與端側智能設備,由于輕量架構與完整功能,可嵌入智能車載、教育終端、醫(yī)療設備等資源受限環(huán)境,并與云端系統(tǒng)無縫協(xié)同,構建端云一體的智能體驗。
![]()
![]()
想要體驗seekdb的朋友,可以去OceanBase官網(wǎng)或GitHub。
官網(wǎng):
https://www.oceanbase.ai/zh-CN/
GitHub:
https://github.com/oceanbase/seekdb
快讓你的AI應用,更加高效吧!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.