Cách khắc phục Data Contamination trong LLMs
Mặc dù sở hữu sức mạnh vượt trội, các mô hình ngôn ngữ lớn (LLM) vẫn tồn tại những điểm yếu cố hữu, điển hình như vấn đề "rò rỉ dữ liệu" gây ảnh hưởng tiêu cực đến hiệu suất hoạt động. Bài viết này Bizfly Cloud sẽ phân tích sâu vào nguyên nhân, tác hại và giới thiệu các giải pháp tiềm năng giúp phát hiện, xử lý cũng như hạn chế tối đa tình trạng rò rỉ dữ liệu trong LLM.
Data Contamination là gì?
Data Contamination (hoặc rò rỉ dữ liệu) trong các mô hình học máy xảy ra khi dữ liệu được sử dụng để huấn luyện mô hình đã bị "nhiễm" bởi dữ liệu chồng chéo, sau đó được sử dụng để kiểm tra hiệu suất của nó.
Vấn đề này thường phát sinh do trong thiết lập học máy tiêu chuẩn, các kỹ sư học máy sẽ chia tập dữ liệu của họ thành ba tập - một để huấn luyện, một để kiểm tra và tập thứ ba để xác thực. Tuy nhiên, những tập dữ liệu riêng biệt này thường cần phải được "làm sạch" trước khi được sử dụng. Nếu có bất kỳ sự trùng lặp nào giữa các tập dữ liệu để huấn luyện, kiểm tra và đánh giá, thì hiệu suất của mô hình sẽ bị thổi phồng một cách giả tạo - giống như một học sinh làm bài kiểm tra tốt một cách đáng ngờ, nhưng chỉ vì chúng được cho biết trước câu trả lời.
Mặc dù việc làm sạch tập dữ liệu cho các mô hình ML cổ điển tương đối đơn giản, nhưng việc này phức tạp hơn với LLM do kích thước của tập dữ liệu cũng như độ phức tạp của chính các mô hình. Ngoài ra, việc thiếu minh bạch ngày càng tăng xung quanh các LLM độc quyền như GPT-4 khiến cho việc phát hiện rò rỉ dữ liệu từ nguồn của nó trở nên khó khăn hơn.
Công cụ nhận diện rò rỉ dữ liệu
Để phát hiện và giảm thiểu rò rỉ dữ liệu, các chuyên gia khuyến nghị nhiều cách tiếp cận khác nhau để giải quyết vấn đề, bao gồm không sử dụng dữ liệu từ Internet nếu có thể, chọn lọc cẩn thận các tập dữ liệu để loại bỏ khả năng trùng lặp và sử dụng một trong số lượng công cụ ngày càng tăng hiện có.
Một trong những công cụ này bao gồm detect-pretrain-code-contamination, một tập lệnh có sẵn công khai được phát triển bởi các nhà nghiên cứu tại Đại học Washington và Đại học Princeton, giúp phát hiện ô nhiễm mã tiền huấn luyện trong các tập dữ liệu.
Cung cấp “hướng dẫn có hướng dẫn” cho các LLM hộp đen là một phương pháp khác để xác định rò rỉ dữ liệu, được phát triển bởi ứng viên Tiến sĩ khoa học máy tính Shahriar Golchin của Đại học Arizona và giáo sư liên kết kiêm người đồng sáng lập lum.ai, Mihai Surdeanu. Ý tưởng là phát hiện ô nhiễm bằng cách “dụ dỗ LLM xuất ra dữ liệu được ghi nhớ của chúng.” Điều này được thực hiện bằng cách đưa các hướng dẫn có hướng dẫn vào mô hình bao gồm tên tập dữ liệu, loại phân vùng và đoạn đầu có độ dài ngẫu nhiên của một phiên bản tham chiếu, sau đó yêu cầu LLM hoàn thành. Nếu kết quả đầu ra của LLM tương tự hoặc khớp với phân đoạn khác của tham chiếu, thì phiên bản đó được coi là bị nhiễm.
Một công cụ khác đang được Golchin và Surdeanu phát triển là Câu đố rò rỉ dữ liệu (DCQ), một công cụ đơn giản và hiệu quả để xác định và ước tính mức độ ô nhiễm có thể có trong tập dữ liệu. Ví dụ, khi đánh giá GPT-4 bằng DCQ, họ nhận thấy mức độ rò rỉ dữ liệu thực tế là 56%, trái ngược hoàn toàn với tỷ lệ ô nhiễm chỉ 25% mà OpenAI báo cáo.
Ngoài những công cụ này, Golchin và Surdeanu còn đưa ra nhiều lời khuyên hơn về cách giảm thiểu rò rỉ dữ liệu.
Trong một cuộc phỏng vấn qua email, Golchin và Surdeanu cho biết: "Phương pháp tiềm năng đầu tiên mà các chuyên gia AI có thể sử dụng là nhanh chóng ngừng sử dụng các tập dữ liệu được xác định là bị nhiễm, cho dù được gắn cờ bởi phương pháp của chúng tôi hay của những người khác. Khuyến nghị thứ hai là tạo các tập dữ liệu và điểm chuẩn riêng tư không được công khai trên internet và sử dụng các tập dữ liệu này để đánh giá chính xác hiệu suất của LLM. Tuy nhiên, những câu hỏi như ai sẽ chịu trách nhiệm quản lý quy trình này, dữ liệu nên được thu thập như thế nào cho những tập dữ liệu này và những người khác có thể truy cập chúng như thế nào là những chủ đề cần được thảo luận thêm."
Hợp nhất mô hình - giải pháp khắc phục Data Contamination
Tuy nhiên, một kỹ thuật đổi mới khác để chống lại rò rỉ dữ liệu là hợp nhất mô hình, liên quan đến việc sử dụng các phương pháp khác nhau để kết hợp nhiều mô hình được đào tạo trước thành một mô hình gắn kết, mà không cần đào tạo chuyên sâu hoặc tài nguyên tính toán.
Một công cụ tiện lợi là mergekit, cung cấp cho các nhà phát triển LLM một “phương pháp mới lạ và thử nghiệm để tạo ra các mô hình tinh vi với một phần nhỏ chi phí, mà không cần đào tạo nặng nề và tài nguyên GPU.”
"Máy móc không học" - hướng đi mới trong xử lý dữ liệu
Các chuyên gia hiện cũng đang xem xét các thuật toán không học máy giúp máy móc “quên” dữ liệu mà chúng đã học được như một phương pháp khác để giải quyết rò rỉ dữ liệu, cũng như giải quyết các lo ngại xung quanh quyền riêng tư, bảo mật và sử dụng AI có đạo đức.
Golchin và Surdeanu giải thích: "Chúng tôi hiện đang nghiên cứu phát triển các phương pháp để khắc phục sự cố này bằng cách sử dụng các kỹ thuật không học máy. Trọng tâm của chúng tôi là tạo ra những cách để LLM quên hoặc bỏ học những thông tin cụ thể đã học được trong quá trình đào tạo trước. Tuy nhiên, việc giải quyết vấn đề này là một thách thức do tính chất kết nối của LLM, vì việc thay đổi một khía cạnh có thể phá vỡ những khía cạnh khác. Hơn nữa, nhiều LLM phải đối mặt với các vấn đề rò rỉ dữ liệu là nguồn đóng, làm tăng thêm độ phức tạp cho nhiệm vụ."
Minh Bạch - Chìa Khóa Nâng Cao Hiệu Quả LLM
Những thách thức này nhấn mạnh sự cần thiết phải minh bạch hơn và xác minh độc lập khi nói đến các LLM đang được các công ty công nghệ lớn phát triển.
Trong những trường hợp này, phân tích rò rỉ dữ liệu thường được thực hiện nội bộ và thường không có bất kỳ cách nào bên ngoài để kiểm tra chéo kết quả. Không biết những mô hình mạnh mẽ này hoạt động như thế nào, không thể biết liệu hiệu suất ấn tượng của những LLM mạnh mẽ này có bị bóp méo một cách giả tạo bởi dữ liệu bị nhiễm hay không.
Đáng chú ý, quy mô của vấn đề ngày càng trở nên rõ ràng hơn với nghiên cứu gần đây cho thấy mức độ ô nhiễm từ 1 đến 45% của các tập dữ liệu cơ bản đằng sau một số LLM nổi tiếng nhất - khiến rò rỉ dữ liệu trở thành một vấn đề tiềm ẩn nhưng phổ biến mà nhiều người đang làm việc trong lĩnh vực AI cuối cùng sẽ cần phải vật lộn với.