Google có lẽ là công ty đầu tiên đưa ra ứng dụng dịch tự động (hay còn gọi là dịch máy, machine translation) để phục vụ miễn phí cho người dùng, đó là ứng dụng Google Dịch (Google Translation). Đây cũng là ứng dụng bị người ta nhạo báng rất nhiều vì sự kém chính xác của nó, đến nỗi thấy nơi đâu có những cụm từ tiếng Anh rất ngô nghê là người ta mỉa mai ngay: Chắc là dùng Google Dịch rồi!
Dùng Google Dịch tích hợp trong Google Lens để chụp ảnh một bìa sách (ảnh trái) và ta có bìa sách dịch sang tiếng Việt (ảnh phải). Thực hiện: PHN
Dịch máy, chuyện không hề đơn giản
Dịch máy ( machine translation, thường được viết tắt là MT ) là một hướng ứng dụng trí tuệ tự tạo, nó là sự tích hợp giữa ngôn từ, dịch thuật và khoa học máy tính. MT thực thi dịch một ngôn từ này ( gọi là ngôn từ nguồn ) sang một hoặc nhiều ngôn từ khác ( gọi là ngôn từ đích ) một cách tự động hóa, không có sự can thiệp của con người trong quy trình dịch. MT không đơn thuần là tra từ điển để dịch từng từ, vì như thế nó sẽ thuận tiện dịch “ không sao đâu ” thành “ no star where ”, hay “ miễn bàn ” thành “ no table ”. Ngay cả khi chỉ dịch một từ thôi cũng chưa chắc đã đúng. Ví dụ : đường hoàn toàn có thể dịch là way, road, line … mà cũng hoàn toàn có thể dịch là sugar !
Công việc của MT không chỉ là dịch từng từ mà là dịch từng câu, từng đoạn. Vì vậy, sau khi tìm hiểu các nghĩa có thể của từng từ, nó phải dựa theo ngữ cảnh để chọn nghĩa phù hợp nhất của từ trong ngữ cảnh đó (trong trường hợp từ có nhiều nghĩa). Sau đó phải căn cứ theo quy luật ngữ pháp để bố trí các từ trong câu sao cho hợp lý (chú ý rằng mỗi ngôn ngữ lại có một quy luật ngữ pháp khác nhau).
Bạn đang đọc: Dịch máy – thành quả và những điều chưa đạt được
Tất cả những quy trình trên đều cần đến trí tuệ tự tạo, mà quả thật ngay cả con người cũng chưa chắc là triển khai tốt. Điều khác nhau là ở chỗ nếu con người bí thì sẽ bỏ cuộc, không dịch nữa, còn MT thì dù có bị sai sót trong từng khâu thì vẫn không biết và cứ thế mà đưa ra hiệu quả khiến người đọc buồn cười !
Chính Google Dịch đã liên tục rơi vào thực trạng đó và việc bị người ta chê cười, nhạo báng là … tất yếu. Tuy nhiên, một cách khách quan mà nhận xét thì so với lúc mới sinh ra, Google Dịch đã có những văn minh vượt bậc, những bản dịch lúc bấy giờ đã khá thướt tha và trôi chảy .
Google Dịch đã làm như thế nào?
Google Dịch là dịch vụ không lấy phí của Google dịch nhanh những từ, cụm từ và website giữa tiếng Việt và hơn 100 ngôn từ khác. Dịch Vụ Thương Mại này được tiến hành từ tháng 4-2006, dùng trên web bằng cách truy vấn http://translate.google.com. Google Dịch được cung ứng với dạng ứng dụng ( app ) trên Android vào tháng 1-2010 và trên iOS vào tháng 2-2011 .
Google Dịch không triển khai giải pháp dịch như trình tự triết lý nêu ở trên ( dịch nghĩa từng từ, chọn nghĩa tương thích nhất của từ trong ngữ cảnh, địa thế căn cứ theo quy luật ngữ pháp để sắp xếp những từ trong câu sao cho hài hòa và hợp lý ) mà nó tiếp cận theo một giải pháp khác, gọi là dịch máy thống kê ( Statistical Machine Translation, SMT ). Theo chiêu thức này, Google nhập hàng trăm triệu tài liệu đã được con người dịch sẵn, khi có một câu cần dịch nó sẽ so sánh với những cặp câu dịch sẵn đã có, trải qua 1 số ít nghiên cứu và phân tích và Dự kiến ( nếu không có cặp câu trọn vẹn khớp ) để chọn hiệu quả tương thích. Từ năm 2005, Google đã tàng trữ sẵn khoảng chừng 200 tỷ từ gồm những tài liệu của Liên Hiệp Quốc đã được dịch ra nhiều thứ tiếng khác nhau để làm kho dữ liệu dịch bắt đầu. Google Dịch ( và những ứng dụng dịch khác ) cũng đã tàng trữ hàng trăm triệu tài liệu được con người dịch sẵn để vận dụng giải pháp SMT này. Nhược điểm của giải pháp này là thay vì dịch trực tiếp từ ngôn từ nguồn sang ngôn từ đích, nó phải dịch sang ngôn từ trung gian là tiếng Anh. Ngoài ra, SMT sử dụng những thuật toán tiên đoán để dịch văn bản, nên nó có độ đúng mực ngữ pháp kém .
Tháng 11-2016, Google cho biết Google Dịch sẽ chuyển sang một công cụ dịch máy mô phỏng dây thần kinh ( Google Neural Machine Translation, GNMT ), theo đó công cụ này sẽ “ dịch hàng loạt câu tại một thời gian, chứ không phải từng mảnh một. Nó sử dụng ngữ cảnh rộng hơn này để giúp nó tìm ra bản dịch tương thích nhất, sau đó nó sắp xếp lại và kiểm soát và điều chỉnh để giống như một người nói với ngữ pháp thích hợp hơn ”. Kể từ đó, chất lượng dịch của Google Dịch tốt hơn hẳn. Điều đáng chú ý quan tâm là GNMT do một người Nước Ta đóng vai trò tăng trưởng chủ chốt, đó là chàng trai gốc Huế – tiến sỹ Lê Viết Quốc .
Theo Google, tại thời gian năm 2018, Google Dịch dịch được 100 tỷ từ mỗi ngày. Hiện nay, Google Dịch tương hỗ 103 ngôn từ .
Nỗ lực của Facebook để vượt qua Google trong lĩnh vực dịch máy
Xem thêm: Sam – Wikipedia tiếng Việt
Không có ứng dụng độc lập như Google, nhưng Facebook cũng có công dụng dịch tự động hóa để tương hỗ người dùng. Cụ thể là khi bạn xem trên trang Facebook của mình ( Facebook News Feed ), nếu có những câu viết bằng tiếng quốc tế thì Facebook hiện ngay bên cạnh là phần chọn Xem bản dịch để nó sẽ tự động hóa dịch ra tiếng Việt cho bạn ( ảnh dưới ) .
Theo Facebook, lúc bấy giờ mỗi ngày họ phân phối 20 tỷ bản dịch trên Facebook News Feed. Trên Facebook, mọi người đăng nội dung bằng 160 ngôn từ khác nhau trên hàng tỷ bài viết, trong số đó 2/3 không phải là tiếng Anh. Chính vì thế, việc dịch từ ngôn từ nguồn sang ngôn từ đích mà lại phải trải qua ngôn từ trung gian là tiếng Anh như hầu hết những nơi đều làm sẽ tác động ảnh hưởng rất lớn đến tính đúng mực của nội dung .
Trên News Feed của Facebook, khi nhấp vào Xem bản dịch (ảnh trái) thì ta sẽ có ngay kết quả dịch ra tiếng Việt (ảnh phải). Thực hiện: PHN, ảnh chụp màn hình
Mới đây, ngày 19-10-2020, bộ phận Trí tuệ tự tạo của Facebook ( Facebook AI ) đã ra mắt M2M-100, quy mô dịch máy đa ngôn ngữ ( Multilingual Machine Translation, MMT ) tiên phong hoàn toàn có thể dịch giữa bất kể cặp 100 ngôn từ nào mà không cần dựa vào tài liệu tiếng Anh .
Khi dịch từ tiếng Nhật sang tiếng Việt ví dụ điển hình, hầu hết những quy mô đa ngôn ngữ đều lấy tiếng Anh làm TT vì tài liệu giảng dạy tiếng Anh là phổ cập nhất, nên nó sẽ dịch từ Nhật sang Anh rồi mới dịch từ Anh sang Việt. Mô hình mới của Facebook dịch trực tiếp tài liệu từ tiếng Nhật sang tiếng Việt để giữ nội dung đúng chuẩn hơn .
Sự kiện quan trọng này là đỉnh điểm nhiều năm điều tra và nghiên cứu cơ bản của Facebook AI trong nghành dịch máy. Facebook đang san sẻ cụ thể về cách họ thiết kế xây dựng quy mô và tập dữ liệu đào tạo và giảng dạy MMT phong phú hơn cho 100 ngôn từ. Facebook cũng đang phát hành quy mô, đào tạo và giảng dạy và nhìn nhận để giúp những nhà nghiên cứu khác tái tạo và nâng cao hơn nữa những quy mô đa ngôn ngữ .
Khối lượng tài liệu thiết yếu để “ giảng dạy ” cho máy tăng lên theo bậc hai với số lượng ngôn từ được tương hỗ. Ví dụ : nếu tất cả chúng ta cần 10 triệu cặp câu cho mỗi hướng ( ví dụ hướng Việt – Nhật, Hàn – Pháp … ), thì cần khai thác 1 tỷ cặp câu cho 10 ngôn từ và 100 tỷ cặp câu cho 100 ngôn từ. Bằng cách sử dụng những kế hoạch khai thác mới để tạo dữ liệu dịch, Facebook đã kiến thiết xây dựng tập dữ liệu thực sự “ nhiều – nhiều ” tiên phong với 7,5 tỷ câu cho 100 ngôn từ. Tất cả những tài nguyên khai thác tài liệu này đều tận dụng tài liệu có sẵn công khai minh bạch và có nguồn mở .
Dịch chưa chuẩn nhưng cũng đã giúp ích rất nhiều
Cho dù là đến nay tất cả chúng ta vẫn chưa thể hài lòng trọn vẹn về chất lượng bản dịch của Google hay Facebook, nhưng phải thừa nhận rằng lúc bấy giờ chất lượng dịch đã hơn hẳn 10 năm trước. Đối với những văn bản dài, gần như là không hề tin yêu vào bản dịch mà phải cần đến những nhà chuyên môn xem xét hiệu đính, tuy nhiên dịch máy cũng giúp tiết kiệm chi phí một khoản thời hạn, công sức của con người tương đối lớn của nhà chuyên môn so với phải ngồi đọc và dịch hàng loạt văn bản. Đối với những câu ngắn, bảng hướng dẫn, chú thích … thì dịch máy quả là trợ thủ đắc lực cho những trường hợp không biết ngoại ngữ, nhất là những ngoại ngữ không thông dụng như Thái, Nhật, Hàn …
Phạm Hoài Nhân
Source: https://bem2.vn
Category: TỔNG HỢP