Đánh giá chủ đề:
  • 1 Votes - 5 Average
  • 1
  • 2
  • 3
  • 4
  • 5
Vì sao thiết bị điện tử có thể nhận diện được giọng nói của con người?
#1
alien 
Nhận diện giọng nói con người - một công nghệ, hay có thể gọi là một khái niệm đã và đang dần trở nên quen thuộc với tất cả chúng ta ngày nay. Tiện ích của tính năng này đó chính là nó giúp chúng ta tiết kiệm được thời gian thực hiện các thao tác bằng tay, ra lệnh cho thiết bị tìm kiếm hay thực một một tác vụ nào đó mà không cần phải qua nhiều bước rườm rà. Tất nhiên không phải lúc nào máy cũng nhận diện đúng giọng của chúng ta, nhưng với những nỗ lực phát triển và cải tiến không ngừng nghỉ, độ chính xác của chức năng này đã được nâng cao lên một mức đáng kể. Một số ví dụ điển hình về công nghệ này trên các smartphone, tablet hiện nay: Siri trên iOS, Google Now trên Android, hay có thể kể đến ứng dụng Dragon Dictation - có khả năng nhận biết được Tiếng Việt của chúng ta.

[Hình: original.jpg]
Siri và Google Now: hai tính năng nhận diện giọng nói trên smartphone (tablet) tốt nhất hiện nay

Công nghệ rất tuyệt vời này dường như biến chiếc smartphone/tablet khô khan của chúng ta thành một người bạn có thể trò chuyện bất kỳ lúc nào. Vậy có một câu hỏi đặt ra ở đây là: làm sao thiết bị di động lại có thể hiểu được giọng nói của con người?. Bài viết này sẽ đưa ra câu trả lời và giải thích chi tiết vì sao lại như vậy.

1. Chuyển sự chuyển động của các phân tử không khí thành những con số.

Thấy có vẻ rất ảo và ghê gớm nhưng thật sự đây là một trong những yếu tố giúp máy hiểu được giọng nói của chúng ta. Khi bạn nói, phát ra tiếng, âm thanh đi vào microphone của thiết bị hay đi vào bộ phận tiếp nhận âm sẽ làm thay đổi áp suất không khí, tạo ra sự lan truyền các dao động âm trong môi trường không khí, từ đó phát sinh ra sóng âm.

Lúc này, thiết bị của bạn sẽ ghi lại một phép đo sóng tại một thời điểm nhất định, lưu giữ nó và sau đó thực hiện phép đo lại một lần nữa. Nếu như khoảng thời gian giữa hai lần đo là quá dài, máy sẽ bỏ lỡ một số từ ngữ và không nhận diện được một cách hoàn chỉnh. Vì vậy để máy tính/smartphone hay tablet có thể nhận diện được chính xác từng câu chữ của mình, bộ phận thu âm phải tiến hành 8000 phép đo trong một giây, và sẽ tốt hơn nữa nếu nó thực hiện được 44.100 phép đo/giây. Có thể gọi quá trình này là số hoá ở tần số 8 kHz hay 44,1 kHz.

2. Tính toán để phát hiện đúng sóng âm từ người phát ra

Khi đứng ở nơi công cộng, hay ngồi gần một chiếc quạt đang quay, chúng ta sẽ nghe được rất nhiều âm thanh từ nhiều nguồn phát ra. Chính vì vậy để có thể chắt lọc và nhận biết chính xác âm thanh nào từ con người, âm thanh nào từ xe cô, tiếng còi, một loạt các thuật toán đã được thực hiện đối với các sóng âm thanh đã được số hoá, nhằm chọn ra chính xác âm từ lời nói để thực hiện đúng thao tác. Mặc dù vậy, nếu muốn máy hiểu đúng những gì ta nói, bạn nên tìm chỗ nào yên tĩnh hay có ít tạp âm rồi hẳn đã sử dụng chức năng nhận diện giọng nói này.

3. Phân tích sự thay đổi trong tần số

Thông thường những câu nói của chúng ta là một tổ hợp phức tạp các sóng âm với nhiều tần số khác nhau. Sự thay đổi trong tần số, cách nhấn âm khác nhau là những yếu tố rất quan trọng có thể tạo ra sự khác biệt (ví dụ khi phát âm "ah" và âm "ee"). Và để nhận ra chính xác sự khác biệt đó, rất nhiều thuật toán đã được lập trình để có thể chuyển đổi những sóng âm phức tạp trên thành các con số.

4. Nhận biết được từng âm vị

Có tổng cộng khoảng 40 âm vị khác nhau trong Tiếng Anh. Vì vậy để có thể nhận biết chính xác và tránh nhầm lẫn, máy tính cần phải đoán được mỗi một âm vị trong từng câu chữ của chúng ta, để làm được điều này các lập trình viên phải đưa ra hàng loạt ví dụ với nhiều âm vị khác nhau nhằm tập cho máy làm quen và nhận diện chuẩn hơn. Không những vậy, những đặc điểm của âm vị không chỉ thay đổi tuỳ thuộc vào giọng của người nói, nó còn thay đổi dựa vào âm vị đứng ngay trước, thí dụ chữ "t" trong từ "star" có cách đọc khác với chữ "t" trong "city". Tóm lại thiết bị phải hiểu được nhiều âm vị khác nhau trong những ngữ cảnh khác nhau nếu muốn thực hiện đúng yêu cầu mà người dùng đề ra.

5. Chia cắt cụm những âm vị thành cuỗi các từ ngữ phù hợp

Máy tính có khả năng nhận diện giọng nói luôn được trang bị bên trong hệ thống một danh sách chứa nhiều từ vựng được phát âm theo nhiều cách khác nhau. Chính vì điều này, khi đoán một cụm từ nào đó, việc đầu tiên thiết bị thực hiện đó là chia cắt cụm những âm vị thành chuỗi các từ ngữ phù hợp. Phù hợp ở đây là bởi trong một số trường hợp nhất định, việc chia cắt sẽ trở nên sai lệch và phản tác dụng, ví dụ câu "hang ten", nếu chia ra máy sẽ hiểu là "hey, ngten" - một câu hoàn toàn vô nghĩa.

6. Tính toán để đặt đúng từ vào đúng vị trí

Trong một câu nói, rất hiếm khi (có thể nói là không bao giờ) xuất hiện những từ vô nghĩa chen giữa. Ví dụ: "Mình tên điện thoại Huỳnh Quân", rất vô lí đúng không nào. Vậy để tránh sự cố này máy tính cần phải tính toán để đặt đúng từ vào đúng vị trí, nhằm tạo nên chuỗi âm vị với các từ ngữ hợp lệ. Bên cạnh đó, thiết bị cũng phải được làm quen để dễ dàng đoán được từ tiếp theo là gì, ví dụ khi đề cập đến từ "đồng", máy phải tự động lọc ra một số từ khi ghép với "đồng" sẽ có ý nghĩa nhất định như từ "hồ - đồng hồ" hay "chí - đồng chí".

7. Thực hiện yêu cầu

Một khi máy tính đã đưa ra quyết định cuối cùng từ nào là hợp lí, nó sẽ bắt đầu tiến hành các thao tác như yêu cầu. Với Siri hay Google Now, chúng ta sẽ dễ dàng bắt chúng tìm những thông tin trên Internet thay vì gõ từng từ vào khung Google, hay hẹn giờ, đặt lịch hẹn,...Như đã nói ở đầu bài, không có gì là hoàn hảo, trải qua rất nhiều phép phân tích và tính toán, một số trường hợp ứng dụng nhận diện giọng nói sẽ cho ra kết quả sai, nhưng hãy thực tế hơn một chút, việc các nhà phát triển biến chiếc smartphone/tablet có thể nói chuyện như một người bạn quả thật rất đáng kinh ngạc.


Tinhte theo Gizmodo


Có thể liên quan đến chủ đề...
Chủ đề: Tác giả Trả lời: Xem: Bài mới nhất
  G Shock - khác biệt tạo nên nhãn hiệu đồng hồ Casio HoaiThu95 0 2
Bài mới nhất: HoaiThu95
  Đi tìm 3 mẫu đồng hồ Citizen nữ đẹp xuất sắc cho các nữ doanh nhân HoaiThu95 0 11 07-15-2017, 09:02 PM
Bài mới nhất: HoaiThu95
  3 tiêu chí đơn giản để chọn được đồng hồ nữ cao cấp chuẩn xịn 100% HoaiThu95 0 11 07-14-2017, 12:00 PM
Bài mới nhất: HoaiThu95
  Review 5 mẫu đồng hồ Casio Sheen đang được phái nữ mê mẩn hiện nay HoaiThu95 0 16 07-13-2017, 08:16 PM
Bài mới nhất: HoaiThu95
  cổng trục hiện nay đã trở thành thiết bị không thể thiếu cho mọi dự án vietanht 0 8 07-13-2017, 07:10 PM
Bài mới nhất: vietanht
  Làm thế nào để gia đình bạn chọn được một chiếc tivi phù hợp trinhyen 0 15 07-10-2017, 03:06 PM
Bài mới nhất: trinhyen
  Ứng dụng công nghệ Be My Eyes mới cho người khuyết tật tuanxuxu 0 22 06-30-2017, 02:29 PM
Bài mới nhất: tuanxuxu
  Những thói quen hằng ngày giúp điện thoại bảo mật hơn trinhyen 0 15 06-28-2017, 05:28 PM
Bài mới nhất: trinhyen
  Bạn có biết quy trình in 3D được thực hiện như thế nào? nanggat 0 25 06-26-2017, 05:50 PM
Bài mới nhất: nanggat
  Hướng dẫn Điện thoại cũ có thể chống trộm hiệu quả hohazz 0 24 06-15-2017, 02:16 PM
Bài mới nhất: hohazz

Di chuyển nhanh:


Những người đang xem chủ đề này: 1 khách