[NHẠC] OK trong khóa học này, chúng ta đã nói nhiều về các phương pháp học máy khác nhau và nhiều ứng dụng nơi mà các loại phương pháp có thể có ảnh hưởng. Nhưng có nhiều thách thức vẫn còn tồn tại trong học máy. Hãy thảo luận về chúng. Một là chúng ta thường có một lựa chọn mô hình để sử dụng. Ví dụ như Khi chúng ta nói về các sản phẩm tư vấn chúng ta đã nói chúng ta có thể sử dụng một mô hình phân loại. Nơi chúng ta có thể lấy các tính năng của người sử dụng và sản phẩm, làm nó qua bộ phân loại này để giả sử người sử dụng thích hay không thích sản phẩm này. Nhưng sau đó chúng ta đã nói về cách sử dụng ma trận tìm thừa số nơi mà chúng ta sẽ học các tính năng về người sử dụng và sản phẩm và sử dụng điều đó để tư vấn các sản phẩm cho người sử dụng. Sau đó chúng ta cũng đã nói về ma trận tìm thừa số, kết hợp hai ý tưởng mô hình có thể cân nhắc cho một nhiệm vụ. Đặc biệt điều này rất phức tạp. Mô hình tôi nên sử dụng và tìm kiếm trên các lựa chọn này vẫn là một thách thức trong học náy. Thách thức quan trọng nữa là chúng ta đối mặt với cách chúng ta đại diện dữ liệu của chúng ta như thế nào? Ví dụ khi chúng ta nói về mô hình tài liệu, nhiệm vụ tra cứu tài liệu chúng ta nói chúng ta có thể sử dụng bộ đếm từ thô, hoặc chúng ta cũng đã nói về việc chúng ta có thể làm bình thường hóa các vecto. Chúng ta có thể sử dụng những thứ như tf-idf cho các từ phổ biến, và để nhấn mạnh các từ quan trọng trong tài liệu. Nhưng thực ra có nhiều các biến khác nhau của tf-idf, chúng ta chỉ cung cấp một ví dụ về việc làm điều này. Bạn cũng có thể nghĩ về việc sử dụng BiTrams và trigrams, có rất nhiều cách chúng ta có thể nghĩ đến việc đại diện các từ xuất hiện trong tài hiệu. Đó là tập dữ liệu của chúng ta mà chúng ta muố đại diện. Nhưng điều đó chỉ cho một tài liệu. Sau đó có thể chúng ta có các hình ảnh. Chúng ta đại diện một hình ảnh như thế nào? Chúng ta đã nói đến một số cách. Chúng ta sẽ nói về những thứ khác nhưng có rất nhiều thách thức với điều đó. Có thể bạn có dữ liệu mà dựa trên mạng, những thứ như là từ Facebook. Bạn có thể có các cấu trúc dữ liệu phức tạp và rất, rất khác, các tập dữ liệu đa dạng. Chúng ta muốn có thể sử dụng các phương pháp chúng ta đã mô tả. Vì thế cách chúng ta đại diện dữ liệu của chúng ta tất nhiên sẽ có tác động kể đến các ảnh hưởng chúng ta tạo ra trên dữ liệu đó. Điều này thực sự là vấn đề rất rất quan trọng và không có một phương pháp cho việc lựa chọn đại diện đúng cho dữ liệu của bạn. Một trong những thách thứ quan trọng và có ý nghĩa mà chúng ta đối mặt trong học máy nhiều ngày là cách mở rộng trong các kích thước. Một khía cạnh của điều này là dữ liệu sẽ ngày càng lớn. Điều này đã được nói đến trong truyền thông. Chỉ cần mô tả một vài tình huống chúng ta đối mặt trong sự phát triển của dữ liệu. Một là có một số lượng lớn nền tảng khác nhau ở đó với mạng xã hội, thu thập dữ liệu qua điện toán đám đông, và các thứ khác như điều này, chia sẻ hình ảnh của bạn, video của bạn. Và đánh giá các nhà hàng và nhiều cách bạn có thể làm trực tuyến và đưa dữ liệu tới thế giới đang phát triển. Một số người làm điều này và cung cấp dữ liệu chỉ phát triển ở mức độ khổng lồ. Chúng ta có nhiều nguồn dữ liệu mới sẵn có với chúng ta. Thêm vào đó cách chúng ta nghĩ đến việc mua sản phẩm, không phải đi tới của hàng nữa, có một ghi chép về điều đó, sản phẩm được mua bán. Chúng ta có các nhà cung cấp như Amazon người mà có các thị trường trực tuyến lớn và thu thập dữ liệu về các sản phẩm khác nhau, các khách hàng và việc mua bán được làm rất nhiều dữ liệu từ các nguồn khác nhau giống như điều này. Và qua các loại web này có nhiều các thiết bị chúng ta có thể dùng bây giờ. Có các thiết bị tôi có thể đeo cái mà theo dõi tất cả các hoạt động tôi làm, cách tôi ngủ như thế nào vào ban đêm. Tôi có thể đeo kính mà thu lại mọi thứ tôi nhìn thấy. Tôi cũng có thể nói về internet vạn vật, có rất nhiều các thiết bị kết nối và các nguồn khác nhau về thông tin liên lạc với những thứ khác. Đó chỉ là một số lĩnh vực chúng ta thấy trong rất nhiều nguồn dữ liệu mới, nhưng tất nhiên là chưa đủ. Chúng ta cũng có thể nói về những thứ như hồ sơ y tế. Một lần nữa bạn không phải đến văn phòng bác sĩ và chỉ có một số ghi chú bằng tay trong tập hồ sơ. Thông họ lấy hồ sơ y tế điện tử và những thứ đó ở trên hệ thống và chúng ta có rất nhiều các hồ sơ y tế điện tử, nó chỉ là một nguồn dữ liệu được phân tích và sử dụng để đổi mới trong y học. Có rất nhiều các tập dữ liệu mới, khá là thú vị. Chúng ta có thể học về cách mọi người điều khiển cơ thể của mình, cách mọi người mua bán và kết bạn và cách họ hoạt động hằng ngày nhưng Khóa học chúng ta cần phải có các phương pháp để phân tích các loại bộ dữ liệu và cấu trúc độc đáo của dữ liệu được thể hiện trong các bộ dữ liệu, và cấu trúc gây nhiễu, danh sách các thách thức thực sự phong phú. Đây là một trong những thách thức trong học máy, là cách xử lí dữ liệu lớn này. Và đồng thời, với dữ liệu lớn, chúng ta cũng đối mặt với thách thức mà thực tế các mô hình chúng ta đang sử dụng để phân tích tập dữ liệu phức tạo ngày càng tăng. Vì thế các mô hình trở nên lớn hơn và phức tạp hơn để trích xuất thông tin từ đó. Tôi không biết liệu đó là một từ, nhưng bạn có điểm của tôi. Đó là các nguồn dữ liệu rất phức tạp và lớn. Ví dụ khi chúng ta nói về việc phân nhóm chúng ta nói đến điều này, ứng dụng nơi bạn có các ghi âm hoạt động của não đượ thực hiện theo thời gian, đây chỉ là một ví dụ, ví dụ nhanh về một mô hình mà được sử dụng để phân tích bộ dữ liệu này và nếu không đi vào chi tiết cái mà hiển thị trên slide mày. Nhận ra rằng có rất nhiều các vòng tròn, nhiều các hàng và điều đó có nghĩa là đây là một mô hình lớn phức tạp. Đúng, dữ liệu ngày càng lớn hơn, mô hình cũng lớn hơn, nhưng điều đó là ok bởi vì bộ xử lí cũng nhanh hơn. Đó là câu chuyện trong một thời gian. Chúng ta đang thấy tỉ lệ ngày càng tăng theo cấp số nhân về tốc độ của bộ xử lí của chúng ta. Nhưng điều đó đã dừng lại khoảng một thập kỉ trước. Và bây giờ cái chúng ta đang thấy là sự tăng trong tốc độ của bộ xử lí cá nhân. Thay vì thế chúng ta phải nghĩ về nhiều cách mới. Và điển hình là chúng ta đang tận dụng những ngày là sự thu thập của bộ xử lí. Và có các kiến trúc khác nhau. Chúng ta có những thứ như GPU, đa lõi, bộ phân nhóm và điện toán đám mây thực sự, thực sự thú vị và các siêu máy tính. Điều đó thật tuyệt. Những thứ này thực sự, thực sự là các nguồn tính toán đầy tiềm năng mà chúng ta có. Nhưng câu hỏi là cách chúng ta sử dụng những điều này trong học máy như thế nào? Và trong học máy chún ta có một số những thách thức chúng ta phải đổi mặt. Một là lấy học máy ra khỏi những điều đó và nghĩ đến cách phân phối chúng trên các bộ xử lý khác nhau và chạy mọi thứ chúng ta muốn chạy một cách rõ ràng. Thách thức nữa là cách chúng ta phân phối dữ liệu trên các máy khác nhau và cách chúng ta làm tất cả những điều này theo cách chúng ta có thể có của các máy cá nhân. Điều đó thể hiện những thách thức chúng ta đang đối mặt trong học máy. Và rất nhiều nghiên cứu thú vị đưa ra để bắt đầu giải quyết các vấn đề này. [NHẠC]