6 vấn đề AI phải đối mặt trong nhận dạng giọng nói

Tất cả các công ty lớn đang đầu tư vào nhận dạng giọng nói và thế giới đang dần dần điều chỉnh theo công nghệ mới của Trí tuệ nhân tạo (AI). Vậy tại sao nó lại mất nhiều thời gian như vậy, tại sao nó không phải là một phần của cuộc sống hàng ngày của chúng ta? Dưới đây là 6 lý do tại sao.

Bạn đến một cửa hàng để tìm kiếm một màu sắc và thương hiệu cụ thể của sản phẩm. Bạn hỏi một nhân viên nếu sản phẩm bạn muốn có sẵn. Nhân viên đến kho, kiểm tra hàng tồn kho của anh ta cho sản phẩm và quay lại một lúc sau, chỉ để nói với bạn rằng sản phẩm của bạn không còn nữa.

Bây giờ hãy tưởng tượng điều này, bạn vào cùng một cửa hàng và nói với một thiết bị nhỏ bé sản phẩm bạn muốn mua. Trong vòng một giây, một giọng nói cho bạn biết sự sẵn có chính xác của sản phẩm của bạn và, nếu không có sẵn, sẽ cung cấp cho bạn thông tin chi tiết về các cửa hàng nơi sản phẩm có sẵn.

Thiết bị AI thực hiện điều này bằng cách quét nội bộ thông qua tất cả các hệ thống kiểm kê kỹ thuật số. Với nhiều lợi ích liên quan đến hậu cần chi phí và quan trọng hơn là sự tiện lợi, tại sao nghệ thuật nhận dạng giọng nói và trợ lý cá nhân vẫn chưa được hoàn thiện?

Với khoa học tạo ra những bước tiến lớn trong nhận dạng sóng âm thanh, chúng ta hãy xem xét một số vấn đề chính mà các nhà nghiên cứu đang gặp phải khi giải mã lời nói thành văn bản.

Tiếng ồn

Máy ghi âm phát hiện sóng âm thanh được tạo ra thông qua lời nói. Tiếng ồn nền trong phòng khiến các hệ thống khó có thể hiểu và phân biệt giữa các sóng âm thanh cụ thể từ giọng nói của chủ nhà. Điều này làm mờ âm thanh của các thiết bị, gây nhầm lẫn và hạn chế khả năng xử lý của nó.

Tiếng vọng

Tiếng vang về cơ bản là sóng âm phản xạ trên các bề mặt khác nhau, như tường, bàn hoặc đồ nội thất khác. Điều này dẫn đến sự trở lại vô tổ chức của sóng âm trở lại các thụ thể, do đó làm giảm độ trong.

Dấu

Một loạt các điểm nhấn trong mỗi ngôn ngữ là một yếu tố khác dẫn đến khó khăn trong việc nhận dạng giọng nói. Nếu cùng một từ có thể được phát âm theo một số cách khác nhau, âm tiết và ngữ âm của cùng một từ có xu hướng khác nhau, khiến máy khó xử lý hơn.

Âm thanh tương tự

Các từ và cụm từ nghe có vẻ tương tự có thể ngăn chặn việc mã hóa và giải mã chính xác tin nhắn thoại. Ví dụ, Hãy để chúng tôi phá hủy một bãi biển đẹp, và Hãy nhận ra lời nói, âm thanh rất giống nhau về mặt ngữ âm và có thể dễ dàng gây nhầm lẫn cho thiết bị.

Lỗi máy

Mức độ chính xác của phát hiện giọng nói có tỷ lệ lỗi cao. Máy vẫn phải đối mặt với khoảng 8% -12% lỗi, nhiều hơn gấp đôi so với con người mắc phải trong lời nói hàng ngày. Lỗi trong quá trình mã hóa dữ liệu được thu thập là rất quan trọng đối với hiệu suất, vì đây là bước đầu tiên để các thiết bị ghi âm hành động.

Lời nói vô tổ chức

Việc kết hợp các từ trong các cuộc trò chuyện hàng ngày của chúng tôi, có nghĩa là nhiều từ và cụm từ hợp nhất với nhau. Điều này không phù hợp với máy và giọng nói để nhận dạng văn bản, vì nó khiến việc nhận ra các từ hoặc cụm từ cụ thể sẽ ảnh hưởng đến phản ứng và hành động của thiết bị khó khăn hơn.

Nói chung, cho dù các máy này có tiên tiến đến đâu, các yếu tố trên sẽ tiếp tục là trở ngại cho sự phát triển của các trợ lý AI tiến lên. Tuy nhiên, tốc độ phát triển của khoa học và công nghệ, tất cả các công ty lớn đang tập trung vào việc tạo ra các thiết bị nhận dạng giọng nói tối ưu, và sớm hay muộn họ sẽ bị loại bỏ, và tất cả chúng ta sẽ có một robot hỗ trợ giọng nói sẽ điều hành nhà của chúng ta cũng như cuộc sống của chúng ta

Tìm hiểu thêm về sự kiện RAF 100 và STEM là gì

Hãy chắc chắn theo dõi chúng tôi trên LinkedIn để truy cập nội dung độc quyền của chúng tôi! # raf100event #WhatIsSTEM