Bài thứ hai vào chuỗi bài viết từ bỏ học Machine LearningTrong bài này, ta sẽ tìm hiểu về cost function, một function nhằm dự đoán thù quý giá output với 1 cỗ những cực hiếm input/output mang đến trước.
Bạn đang xem: Cost function là gì
Xem những nội dung bài viết khác tại Machine Learning Course Structure
2. Cost Function2.1. Tân oán học2.2. Đạo hàm (Derivative)1. Các ký hiệuChúng ta đã thống độc nhất 1 cách sử dụng các ký hiệu để biểu lộ những nằm trong tính của một bài bác toán thù.
x(i) sẽ là giá trị đầu vào, cũng rất được call là input feature.
y(i) đang là đầu ra mà ta nạm dự đoán thù.
Một cặp (x(i), y(i)) được call là một trong training example.
Số lượng training example được gọi là m. Bởi vậy, i=1,2,3,…,m
Lưu ý rằng (i) chỉ cần index của quý hiếm, chưa phải số lũy thừa
Ta cần sử dụng ký tự X, Y nhằm thể hiện vùng không khí của input và output
Ví dụ: X = Y = ℝ
Lúc đưa ra một bộ tài liệu training (training set), mục tiêu của họ là tạo nên được một function h thế nào cho h(x) có thể dự đoán khoảng nhất quý hiếm của y.
h là viết tắt mang đến trường đoản cú Hypothesis, nguyên do mang đến tên thường gọi này chỉ solo thuần bởi vì xưa cơ, fan ta viết tên đến nó những điều đó, và nó bị tiêu diệt thương hiệu luôn.
do đó, process của họ đã như sau:

khi y là một trong những giá trị tiếp tục, ví dụ như giá nhà đất, giá chỉ CP, thì đó là một regression problem.
Lúc y chỉ với một vài lượng bé dại các quý hiếm nhất quyết (true/false – yes/no), thì đó là một classification problem.
2. Cost FunctionChúng ta “tính toán” sự chính xác của hàm hypothesis bằng cách thực hiện 1 hàm số. Hàm số đó Gọi là cost function.
Trước Lúc chỉ dẫn bất kỳ một bí quyết giỏi hàm số nào, hãy thuộc tôi hướng đến vào mớ kiến thức hỗn độn mà tôi có lẽ sẽ giúp đỡ chúng ta thấu hiểu câu chữ chủ chốt của Cost Function.
2.1. Toán thù học
2.1.1. Xác xuất với thống kê (Probability và Statistic)
Trong xác xuất những thống kê, gồm một tư tưởng Gọi là Gaussian Distributed.
Đúng rồi, chúng ta ko chú ý nhầm đâu. Gaussian cũng là một tuấn kiệt danh tiếng của…Photosiêu thị, lúc nhưng mà nó có tác dụng nhiễu đi vùng được chọn. Tính năng đó Hotline là Gaussian Blur.
Trong kim chỉ nan xác xuất, phân phối chuẩn chỉnh, tốt có cách gọi khác là phân phối Gauss, phân phối Gaussian, phân păn năn Laplace-Gauss, là một trong những dạng phân phối hận xác xuất liên tiếp (Continuous probability distribution).
Xem thêm: Lamp Stack Là Gì ? Technical Stack Là Cái Khỉ Gì
Snghỉ ngơi dĩ tôi nói tới phân phối chuẩn là bởi vì theo định lý số lượng giới hạn trung trung tâm (Central limit theorem), sinh hoạt dạng tổng thể duy nhất của phân păn năn chuẩn, phân păn năn của tổng tương đối nhiều biến chuyển tự nhiên tự do sẽ sở hữu phân păn năn xấp xỉ chuẩn.
Tức là, con số training example càng những thì từng một training example sẽ sở hữu cực hiếm càng ngay gần với hàm hypothesis của bọn họ.
Tóm lại, ta đã lựa chọn tđam mê số làm thế nào cho khoảng cách tự trang bị thị của hàm hypothesis tới y của những training example là nthêm độc nhất vô nhị.
2.1.2. Pmùi hương sai (Variance)
Trong lý thuyết xác suất và thống kê lại, pmùi hương không đúng của một trở thành hốt nhiên là 1 trong những độ đo sự phân tán thống kê của biến hóa kia, nó ngụ ý các quý giá của đổi thay này thường nghỉ ngơi cách quý giá hy vọng bao xa.
Theo tư tưởng này của phương không nên, đồ vật thị màn trình diễn các quý hiếm mong rằng chính là thiết bị thị hàm hypothesis của bọn họ kia. Phương thơm không nên đó là giá trị cơ mà ta ao ước nó càng bé dại càng tốt
Phương thơm không nên của một biến hóa bỗng dưng là bình phương thơm của độ lệch chuẩn.
Nhỏng vẫn nói tại phần trước, Lúc mà tập cực hiếm nguồn vào training example của bọn họ đủ phệ, thì ta rất có thể coi từng training example là 1 thay đổi bỗng dưng gồm phân phối chuẩn chỉnh.
Vậy ta có:
Tập hợp kỳ vọng = hypothesis

Độ lệch chuẩn:

Phương thơm không đúng = (độ lệch chuẩn)2
Vậy pmùi hương không đúng của tập vừa lòng các training example đã là:

Nhiệm vụ của ta là tìm ra quý giá nhỏ tuyệt nhất của cách làm trên.
2.2. Đạo hàm (Derivative)
Để tìm kiếm giá trị lớn nhất / nhỏ nhất của một hàm số, ta có thể sử dụng đạo hàm.
2.2.1. Một ví dụ tân oán học
Một trái banh được ném nhẹm thăng thiên. Độ cao của trái banh đối với mặt đất trên ngẫu nhiên thời điểm t làm sao được tính bởi vì công thức:
h = 3 + 14t -5t2
Vậy độ dài lớn nhất của trái banh là bao nhiêu?
Ứng dụng đạo hàm, ta giải bài bác toán nàgiống hệt như sau:

Hàm số trên biểu thị cường độ nuốm đổi của độ cao h trên thời khắc t. Như vậy, tại chiều cao lớn số 1, _cường độ đổi khác độ cao h = 0 (bởi vì trái banh không liên tục cất cánh cao lên nữa mà bắt đầu rơi xuống).

Vậy ta có:
14-10t = 0=> t = 1.4Vậy chiều cao lớn nhất là
h = 3 + 14x1.4 - 10x1.4x1.4 = 12.8
2.2.2. Lớn độc nhất vô nhị giỏi bé dại nhất
Làm sao ta biết được một hàm số sẽ sở hữu được giá trị lớn nhất tuyệt nhỏ nhất? Nếu dựa vào đồ gia dụng thị thì trái là một trong giải pháp tốn những thời gian cùng công sức của con người.Tại đây, ta liên tục áp dụng đạo hàm (một lượt nữa):
f"(t) = 14 - 10t với t = 1.4 thì f"(t) = 0=> f""(t) = -10 cùng với t = 1.4 thì f""(t) = -10Đây call là Second Derivative sầu Test, tuyên bố như sau:
khi một hàm số gồm mức độ biến đổi = 0 tại điểm x, thì quý hiếm hàm đạo hàm lần 2 của hàm số đó tại x nếu:
Nhỏ rộng 0: chính là cực hiếm lớn số 1.
Lớn rộng 0: chính là cực hiếm nhỏ độc nhất.
Bằng 0: chưa thể tìm kiếm được cực hiếm mập nhất/nhỏ tuổi tốt nhất của hàm số.
2.3. Công thức
Áp dụng cả 2 phần đạo hàm và tân oán trên, ta vẫn có:

với

Lý vày của số 2 bên dưới mẫu số là để triệt tiêu Lúc ta làm đạo hàm. Nhìn chung, nó không tác động tới tác dụng, bởi vì kim chỉ nam là tìm giá trị nhỏ độc nhất vô nhị của hàm số trên.