Chúng tôi đang làm việc để khôi phục ứng dụng Unionpedia trên Google Play Store
Lối raIncoming
🌟Chúng tôi đã đơn giản hóa thiết kế của mình để điều hướng tốt hơn!
Instagram Facebook X LinkedIn

Học tăng cường

Mục lục Học tăng cường

Trong ngành khoa học máy tính, học tăng cường (tiếng Anh: reinforcement learning) là một lĩnh vực con của học máy, nghiên cứu cách thức một agent trong một môi trường nên chọn thực hiện các hành động nào để cực đại hóa một khoản thưởng (reward) nào đó về lâu dài.

Mục lục

  1. 7 quan hệ: AlphaGo đấu với Lee Sedol, Hàm softmax, Học máy, Học sâu, Mạng nơ-ron, Quá trình quyết định Markov, Thuật ngữ tin học.

AlphaGo đấu với Lee Sedol

AlphaGo đấu với Lee Sedol, hoặc Trận thách đấu của Google DeepMind (Google DeepMind Challenge Match), là một trận đấu cờ vây gồm 5 ván giữa Lee Sedol - người từng 18 lần vô địch thế giới - và AlphaGo, một phần mềm cờ vây máy tính được phát triển bởi Google DeepMind, được tổ chức tại Seoul, Hàn Quốc, từ ngày 9 đến ngày 15 tháng 3 năm 2016.

Xem Học tăng cường và AlphaGo đấu với Lee Sedol

Hàm softmax

Trong toán học, hàm softmax, hoặc hàm trung bình mũ, là sự khái quát hóa của hàm lôgit biến không gian K-chiều véc tơ  với giá trị thực bất kỳ đến không gian K-chiều véc tơ  mang giá trị trong phạm vi (0, 1 bao gồm cả giá trị 1.

Xem Học tăng cường và Hàm softmax

Học máy

Học máy, có tài liệu gọi là Máy học, (tiếng Anh: machine learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể.

Xem Học tăng cường và Học máy

Học sâu

Học sâu (tiếng Anh: deep learning) là một chi của ngành máy học dựa trên một tập hợp các thuật toán để cố gắng mô hình dữ liệu trừu tượng hóa ở mức cao bằng cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi phi tuyến.

Xem Học tăng cường và Học sâu

Mạng nơ-ron

Sơ đồ đơn giản về một mạng neural nhân tạo Theo nghĩa sinh học, mạng neural (phiên âm tiếng Việt: nơ-ron) là một tập hợp các dây thần kinh kết nối với nhau.

Xem Học tăng cường và Mạng nơ-ron

Quá trình quyết định Markov

Quy trình quyết định Markov (MDP) cung cấp một nền tảng toán học cho việc mô hình hóa việc ra quyết định trong các tình huống mà kết quả là một phần ngẫu nhiên và một phần dưới sự điều khiển của một người ra quyết định. MDP rất hữu dụng cho việc học một loạt bài toán tối ưu hóa được giải quyết thông qua quy hoạch động và học tăng cường.

Xem Học tăng cường và Quá trình quyết định Markov

Thuật ngữ tin học

Dưới đây là danh sách các thuật ngữ dùng trong tin học, xếp theo thứ tự chữ cái của các từ tiếng Anh.

Xem Học tăng cường và Thuật ngữ tin học