NoSQL đang châm lại nhưng AI lại kéo nên

1230
18-09-2024
NoSQL đang châm lại nhưng AI lại kéo nên

Sự tăng trưởng của cơ sở dữ liệu NoSQL chững lại, nhưng AI lại đang là động lực thúc đẩy nhu cầu

Sự phát triển của cơ sở dữ liệu NoSQL đã chững lại trong thời gian gần đây so với cơ sở dữ liệu vector. Tuy nhiên, các nhà cung cấp NoSQL cho rằng các sản phẩm của họ là tốt nhất cho AI.

Vậy điều gì đã xảy ra với cơ sở dữ liệu NoSQL kể từ khi ChatGPT xuất hiện? Các hệ thống cơ sở dữ liệu NoSQL - như kho lưu trữ tài liệu (MongoDB), khóa-giá trị (Redis) và cột rộng (Cassandra) - liệu có còn phát triển trong kỷ nguyên mới của cơ sở dữ liệu vectơ?

Quay trở lại năm 2020, để minh họa cho sự phát triển của các hệ thống cơ sở dữ liệu NoSQL, người viết đã sử dụng biểu đồ sau từ DB-Engines:

Điều đó cho thấy quỹ đạo đi lên mạnh mẽ của các hệ thống như MongoDB, Redis và Cassandra từ năm 2013-2020 (mặc dù có một chút sụt giảm từ cả ba vào cuối giai đoạn đó). So với đường thẳng - và cuối cùng là đi xuống - của các cơ sở dữ liệu quan hệ truyền thống, chẳng hạn như Oracle và MySQL, thì đường cong tăng trưởng của NoSQL là đáng kể.

Với lưu ý rằng biểu đồ này đo lường mức độ tăng trưởng phổ biến (chứ không phải người dùng thực tế), chúng ta có thể thấy rằng cơ sở dữ liệu vectơ đương nhiên đã trải qua một giai đoạn tăng trưởng đột biến kể từ năm 2021 - mặc dù nó dường như đã đạt đỉnh vào cuối năm ngoái. Trong khi đó, kho lưu trữ tài liệu và kho lưu trữ khóa-giá trị đã giảm nhẹ.

Tuy nhiên, nếu chúng ta nhìn vào biểu đồ từ năm 2013, chúng ta có thể thấy rằng tốc độ tăng trưởng của cơ sở dữ liệu vectơ vẫn chưa đạt đến đỉnh điểm của kho lưu trữ tài liệu và kho lưu trữ khóa-giá trị (hãy bỏ qua biểu đồ kho lưu trữ cột rộng, vì tập dữ liệu của nó dường như đã thay đổi trên DB-Engines kể từ bài đăng năm 2020).

Ngoài ra, mặc dù tốc độ tăng trưởng giảm nhẹ, nhưng các hệ thống cơ sở dữ liệu NoSQL vẫn nằm trong số những lựa chọn phổ biến nhất của các nhà phát triển. Biểu đồ dưới đây cho thấy có rất ít thay đổi trong số mười hệ thống cơ sở dữ liệu hàng đầu trong hai năm qua, với sáu hệ thống hàng đầu (bao gồm MongoDB ở vị trí thứ 5 và Redis ở vị trí thứ 6) vẫn giữ nguyên. Chúng tôi cũng thấy rằng bốn hệ thống cơ sở dữ liệu hàng đầu đều là quan hệ; và có nhiều người dùng hơn đáng kể so với MongoDB và Redis.

NoSQL và AI

Khi Redis công bố thay đổi giấy phép gây tranh cãi vào đầu năm nay, Linux Foundation gần như ngay lập tức tuyên bố ủng hộ một nhánh mã nguồn mở của Redis, có tên là Valkey. Lập trường của Redis, công ty, là các nhà cung cấp đám mây lớn có lợi thế thị trường không công bằng và việc cấp phép mới là cách họ đang cố gắng khiến họ phải trả tiền. MongoDB đã thực hiện một động thái tương tự để thắt chặt các hạn chế đối với giấy phép của mình vào năm 2018.

Tôi sẽ để lại cuộc tranh luận về giấy phép mới của Redis cho những người khác, nhưng tôi muốn nêu bật một bài đăng trên blog mà Redis đã xuất bản một ngày sau thông báo của mình. Với tiêu đề “Tương lai của Redis”, nó tập trung rất nhiều vào việc sử dụng AI cho Redis. Giám đốc điều hành Rowan Trollope và Giám đốc công nghệ Yiftach Shoolman đã viết: "Chúng tôi đang đi đầu trong làn sóng GenAI", đồng thời cho biết thêm rằng "chúng tôi là một trong những người đầu tiên nhận ra nhu cầu về chức năng tìm kiếm vectơ trong cơ sở dữ liệu, ngay cả trước khi ChatGPT và LLM trở thành cái tên quen thuộc."

Bài đăng đã trình bày chi tiết kế hoạch cho một trợ lý hỗ trợ AI có tên là Redis CoPilot (hiện đã có sẵn), “cho phép các nhà phát triển tương tác trực tiếp với dữ liệu của họ bằng ngôn ngữ và dịch dữ liệu đó thành mã.” Nó cũng dự định làm cho Redis “càng hiệu quả về chi phí hơn cho các trường hợp sử dụng RAG bằng cách tận dụng lượng tử hóa sản phẩm và cải thiện hơn nữa hiệu suất xử lý vectơ với phần cứng và GPU tiên tiến nhất.”

Đối với MongoDB, nó cũng đang nhắm mục tiêu đến các trường hợp sử dụng AI tạo sinh. Trong một bài đăng gần đây trên The New Stack, Rick Houlihan (trưởng nhóm quan hệ nhà phát triển) đã so sánh rõ ràng giải pháp của nó với PostgreSQL, một hệ thống cơ sở dữ liệu quan hệ nguồn mở phổ biến. Houlihan cho rằng các hệ thống như PostgreSQL không được thiết kế cho loại khối lượng công việc mà AI yêu cầu:

"Xem xét các hạn chế về hiệu suất đã biết của RDBMS khi nói đến các hàng rộng và các thuộc tính dữ liệu lớn, không có gì ngạc nhiên khi các thử nghiệm này chỉ ra rằng một nền tảng như PostgreSQL sẽ gặp khó khăn với loại dữ liệu tài liệu phong phú, phức tạp mà khối lượng công việc AI tạo sinh yêu cầu."

Không có gì ngạc nhiên khi ông kết luận rằng việc sử dụng cơ sở dữ liệu tài liệu (như MongoDB) “mang lại hiệu suất tốt hơn so với việc sử dụng một công cụ đơn giản là không được thiết kế cho những khối lượng công việc này.”

Để bảo vệ PostgreSQL, không thiếu các nhà cung cấp dịch vụ được quản lý cho Postgres cung cấp chức năng tập trung vào AI. Đầu năm nay, tôi đã phỏng vấn một công ty “Postgres as a Platform” có tên là Tembo, công ty đã chứng kiến rất nhiều nhu cầu về tiện ích mở rộng AI. Giám đốc công nghệ Samay Sharma của Tembo nói với tôi: “Postgres có một phần mở rộng có tên là pgvector”. “Vì vậy, điều đó cho phép bạn thêm một kiểu dữ liệu đơn giản gọi là vectơ vào các bảng hiện có của mình. Vì vậy, ngay cả khi bạn có hàng dữ liệu hiện có, bạn chỉ cần thêm một kiểu dữ liệu vectơ - là một nhúng được chuyển đổi."

Dữ liệu AI quá đủ để sử dụng

Tất nhiên, mọi công ty cơ sở dữ liệu hiện nay đều tuyên bố rằng sản phẩm của họ có thể được sử dụng tốt với AI. Mới tháng trước, Oracle đã phát hành bản cập nhật dựa trên AI cho nền tảng phát triển mã thấp Oracle APEX của mình, mà công ty cho biết cho phép những người không phải là nhà phát triển thực hiện các truy vấn vectơ trong vòng chưa đầy hai phút mà không cần biết SQL.

SHARE