Microsoft phát triển một cỗ máy có khả năng nhận diện giọng nói hội thoại ngang ngửa con người

1407
15-05-2018
Microsoft phát triển một cỗ máy có khả năng nhận diện giọng nói hội thoại ngang ngửa con người

Máy móc đã vượt mặt con người trên nhiều lĩnh vực, từ chơi cờ, game show truyền hình (Jeopardy!), Go, nhận diện vật thể, nhận diện khuôn mặt, và cả chơi game máy tính. Nếu bạn nghĩ rằng loài người đang ngày một tụt hậu đằng sau máy móc, có lẽ bạn chẳng hề sai.

Nhưng chỉ cần thử sử dụng bất kỳ phần mềm nhận diện giọng nói nào, và niềm tin của bạn vào loài người sẽ nhanh chóng được khôi phục. Dù đã tốt và ngày một tốt hơn, những hệ thống này chưa bao giờ hoàn hảo. Bạn đang đặt hàng món kem (Ice Cream), hay bạn đang nói "I scream"? Có lẽ là cả hai - đó là những gì một cỗ máy sẽ nghĩ nếu bạn đang nói chuyện với nó.

Do đó, thật an tâm khi biết được nhận diện giọng nói hội thoại thông thường là một thứ mà máy móc vẫn đang gặp nhiều khó khăn, và loài người vẫn là những bậc thầy đối với ngôn ngữ của chính mình.


Microsoft phát triển một cỗ máy có khả năng nhận diện giọng nói hội thoại ngang ngửa con người - Ảnh 1.

Cỗ máy có khả năng nhận diện giọng nói hội thoại ngang ngửa con người

Nhưng quan điểm đó có lẽ sẽ phải thay đổi. Rất sớm thôi. Khi mà hôm nay, Geoff Zweig và các nhà nghiên cứu tại Microsoft Research ở Redmond, Washington cho biết họ đã có một đột phá trong lĩnh vực nhận diện giọng nói và các thuật toán học máy của họ nay đã lần đầu vượt qua con người trong nhận diện giọng nói hội thoại thông thường.

Nghiên cứu nhận diện giọng nói có một lịch sử khá dài. Vào những năm 1950, các máy tính ban đầu có thể nhận diện tối đa 10 từ được nói rõ ràng bởi một người duy nhất. Đến những năm 1980, các nhà nghiên cứu đã phát triển những cỗ máy có khả năng ghi lại những bài nói đơn giản với số từ vựng khoảng 1000 từ. Những năm 1990, máy móc đã có thể ghi lại nội dung khi một người đọc tờ Wall Street Journal, và sau đó là cả một đoạn tin tức trên TV.

Có thể thấy tham vọng của các nhà nghiên cứu ngày một tăng lên theo thời gian. Nhưng những bài test đó lại đơn giản hơn so với các đoạn hội thoại thông thường vì nhiều lý do. Từ vựng trên tờ Wall Street Journal chủ yếu là về kinh doanh và tài chính, và câu văn cũng được viết mạch lạc, đúng ngữ pháp - một điều không phải lúc nào cũng đúng trong hội thoại thông thường. Các bản tin TV thì ít hình thức hơn, nhưng vẫn có tính mạch lạc cao và được phát âm rõ ràng. Mọi ví dụ nêu trên đều được máy móc chinh phục dễ dàng.

Nhưng tác vụ khó khăn nhất - ghi lại một đoạn hội thoại thông thường - vẫn là một thứ mà máy móc chưa với tới được.

Hội thoại thông thường khó hơn đáng kể bởi kích cỡ từ vựng, và bên cạnh từ ngữ con người tạo khi nói còn có tiếng ồn. Con người sử dụng rất nhiều tiếng ồn để quản lý lượt lời trong hội thoại - một loại hình giao tiếp mà các nhà ngôn ngữ học gọi là "kênh phụ" (backchannel).

Ví dụ, uh-huh được dùng để báo hiệu cho người nói rằng anh/cô ta nên tiếp tục nói. Nhưng "uh" là một từ ấp úng chỉ ra rằng người nói còn nhiều điều để nói, một cảnh báo rằng có nhiều thứ khác nữa. Trong quản lý lượt lời, "uh" đóng vai trò đối nghịch với "uh-huh".

Con người có thể phân tích những âm thanh như vậy một cách dễ dàng và hiểu được vai trò của chúng trong một đoạn hội thoại. Nhưng máy móc thì khác.

Năm 2000, Viện Quốc gia về Tiêu chuẩn và Công nghệ đã tung ra một bộ dữ liệu để giúp các nhà nghiên cứu đương đầu với vấn đề này. Bộ dữ liệu chứa các bản ghi của các đoạn hội thoại thông thường trên điện thoại. Một số đoạn nói về một chủ đề nhất định. Số còn lại là các đoạn hội thoại giữa bạn bè với nhau và liên quan đến bất kỳ chủ đề nào có thể.

Phần lớn dữ liệu có mục đích giúp huấn luyện một thuật toán học máy để nhận diện giọng nói. Phần còn lại của dữ liệu là một bài test mà máy móc phải diễn dịch.

Người ta đánh giá hiệu suất bằng số lượng từ mà máy nhận diện sai, và mục tiêu cuối cùng là giúp máy thực hiện việc nhận diện tốt hơn cả con người.

Con người nhận diện giọng nói tốt như thế nào? Khi diễn dịch, con người nhìn chung có tỉ lệ lỗi khoảng 4%. Nói cách khác, chúng ta diễn dịch không chính xác 4 từ trong mỗi 100 từ. Trong quá khứ, máy móc chưa bao giờ đạt kết quả được gần như thế này.

Nhưng Microsoft lần này tuyên bố họ cuối cùng cũng đã đạt được hiệu suất ngang ngửa con người, dù vẫn có một hạn chế quan trọng. Các nhà nghiên cứu Microsoft bắt đầu bằng cách tái định mức hiệu suất của con người trong các tác vụ diễn dịch, với việc gửi các đoạn ghi âm điện thoại trong bộ dữ liệu của NIST đến một dịch vụ diễn dịch chuyên nghiệp và đánh giá tỉ lệ lỗi.

Kết quả thu được khiến mọi người bất ngờ: dịch vụ này có tỉ lệ lỗi là 5,9% đối với các đoạn hội thoại về một chủ đề nhất định và 11,3% đối với các đoạn hội thoại giữa bạn bè và các thành viên trong gia đình với nhau. Hai kết quả này cao hơn nhiều so với chúng ta từng nghĩ.

Tiếp theo, Zweig và các đồng nghiệp tối ưu các hệ thống học sâu của họ dựa trên các mạng thần kinh xoắn với số lớp biến thiên, mỗi lớp lại xử lý một khía cạnh khác nhau của đoạn hội thoại. Sau đó họ sử dụng bộ dữ liệu huấn luyện để dạy cho máy hiểu các bài nói thông thường và để nó thử bộ dữ liệu thử nghiệm.

Kết quả: nhìn chung, hệ thống nhận diện giọng nói của Microsoft có tỉ lệ lỗi tương đương với con người, nhưng loại lỗi mà nó gặp phải lại khá khác biệt.

Lỗi thường gặp nhất mà cỗ máy của Microsoft gặp phải là nhầm lẫn các âm thanh kênh phụ "uh" và "uh-huh". Ngược lại, con người hiếm khi gặp lỗi này và thay vào đó, họ thường nhầm các từ như "a" và "the" hay "uh" và "a".

Không có lý do nào về mặt nguyên tắc giải thích tại sao một cỗ máy không thể được huấn luyện để nhận diện các âm thanh kênh phụ. Zweig và các đồng sự nghĩ  vấn đề mà máy móc gặp với những sai sót như trên có thể xuất phát từ cách mà những tiếng ồn được đánh dấu trong bộ dữ liệu huấn luyện. "Hiệu suất khá nghèo nàn của hệ thống tự động có lẽ đơn giản là do những nhầm lẫn trong chú giải của bộ dữ liệu huấn luyện" - nhóm nghiên cứu cho biết.

Nhìn chung, máy móc có tỉ lệ lỗi ngang ngửa con người ở mức 5,9% đối với các đoạn hội thoại về chủ đề cụ thể, nhưng vượt qua con người trong diễn dịch các đoạn hội thoại giữa bạn bè và gia đình, với tỉ lệ lỗi là 11,1%. "Lần đầu tiên, hệ thống nhận diện tự động đã có hiệu suất ngang ngửa với con người trong tác vụ này" - Zweig nói.

Đó quả là một kết quả thú vị. Microsoft có lẽ rất hào hứng với chiến thắng này của những cỗ máy của hãng, nhưng đây thực ra lại là một điềm gở. Máy móc đang trở nên tốt hơn con người trên lĩnh vực nhận diện giọng nói. Điều này sẽ dẫn đến những hệ quả đáng kể đối với phương thức chúng ta tương tác với máy móc trong tương lai.

Tham khảo: TechnologyReview

TẤN MINH , THEO TRÍ THỨC TRẺ

>> Có thể bạn quan tâm: [Microsoft Build 2018] Kinect vẫn chưa bị khai tử, mà sẽ trở thành một phần của dự án Azure

SHARE