Google nâng cấp công nghệ nhận diện giọng nói: nhanh, nhạy, chính xác ngay cả trong môi trường ồn ào

hôm nay chính thức áp dụng mạng nơron hồi quy ( RNN) giúp khả năng nhận diện giọng nói người dùng của Now được nhanh, nhạy và chính xác hơn ngay cả trong điều kiện môi trường ồn ào mà không tiêu tốn quá nhiều tài nguyên hệ thống. Nâng cấp này hiện đã được áp dụng cho ứng dụng tìm kiếm Google trên iOS, Android và chức năng chuyển giọnh nói thành văn bản trên Android.

google-26-9Từ năm 2012 Google bắt đầu sử dụng mạng ( DNN) để tăng cường độ chính xác khi nhận dạng giọng nói của người dùng, thay thế cho mô hình Gaoxơ hỗn hợp vốn được dùng để nhận diện âm thanh ngôn ngữ từ 30 năm trước. DNN có ưu điểm là nhận diện được ngay lập tức giọng nói của người dùng, từ đó tăng cường độ chính xác khi phân tích nội dung.

Sau đó, Google muốn tiếp tục nâng cấp DNN lên một phiên bản trí thông minh nhân tạo mới nhằm tăng cường thêm độ chính xác. Bây giờ, họ tuyên bố trang bị thêm công nghệ liên kết phân loại thời gian thực và kỹ thuật phán đoán chuỗi câu lệnh cho RNN, cho phép nhận diện giọng nói cực kỳ nhanh, nhạy và chính xác ngay cả trong môi trường ồn ào.

    Công nghệ nhận diện giọng nói hoạt động thế nào?
    Theo công nghệ nhận diện giọng nói truyền thống, sóng âm của giọng nói sẽ được cắt ra thành từng lát nhỏ liên tiếp nhau, gọi là từng “frame âm thanh” có thời lượng 10 ms. Mỗi frame sẽ được phân tích để xác định tần số và kết quả được dùng như một vector đặc trưng cho frame âm thanh đó. Các vector này tiếp tục được đưa qua một mô hình xử lý âm thanh (ở đây là DNN) nhằm xác định phân phối xác suất của từng đơn vị âm thanh.

    Tiếp theo, người ta sẽ sử dụng thêm mô hình Markov ẩn (mô hình thống kê HMM) nhằm gán nhãn cho các chuỗi, từ đó xác định cấu trúc thời gian trong chuỗi phân bố xác suất. Kết quả sẽ được kết hợp với những nguồn dữ liệu khác như Mô hình phát âm nhằm so sánh, tìm ra âm thanh hợp lệ trong ngôn ngữ mục tiêu. Bằng tất cả các thông tin trên, bộ máy nhận dạng ngôn ngữ sẽ xác định được nội dung trong câu nói của người dùng.

    Thí dụ như khi người dùng nói từ “museum” – với các frame âm thanh là /m j u z i @ m/, sẽ khó xác định được âm điểm kết thúc của âm /j/ và điểm bắt đầu của âm /u/ nhưng mô hình nhận diện trước đây không quan tâm tới sự chuyển đổi giữa 2 âm đó mà quan tâm tới việc có những âm này đã xuất hiện.

    Giờ đây, Google sẽ nâng cấp khả năng nhận diện bằng hệ thống mạng nơ ron hồi quy (RNN). Nó sử dụng các cấu trúc lặp phản hồi trong mô hình topo, cho phép xác định được thời gian các âm đó xuất hiện: khi người dùng phát ra âm /u/, hệ thống sẽ xác định chính xác được âm liền trước nó là /j/ và trước đó nữa là /m/. Nói cách khác, RNN có thể hiểu được chính xác từng từ ngữ mà chúng ta nói một cách trơn tru, tự nhiên.

    Chưa dừng lại ở đó, RNN còn được Google trang bị thêm kỹ thuật nhận diện âm trong tình huống bất ngờ mà không cần phải dự đoán trước. Google gọi đây là công nghệ liên kết phân loại thời gian thực, được lập trình để có thể xác định những “chuỗi nổi bật” trong nhiều chuỗi âm trong âm thanh. Và điểm thành công hơn nữa chính là quá trình này có thể được thực hiện theo thời gian thực, đồng thời sau nhiều vòng lặp, quá trình phân tích sẽ trở nên tuyến tính, đơn hướng, phân tích khối lượng dữ liệu nhiều hơn nhưng lại tốn ít tài nguyên hơn so với trước đây.

Hiện tại, công nghệ nhận diện âm thanh mới đã được áp dụng cho ứng dụng tìm kiếm Google trên Android và iOS và dành cho ứng dụng chuyển giọng nói thành văn bản trên Android, đòi hỏi ít tài nguyên tính toán hơn, nhưng lại chính xác hơn, nhạy hơn trong cả môi trường ô nhiễm âm thanh và phản hồi người dùng nhanh hơn.

Theo Tinhte

Bài viết liên quan