This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 United States License.
TOÁN ĐƠN GIẢN - Chương 1 . 1.6
Bài giảng
1.6
ĐIỀU
HÓA ĐƯỜNG THẲNG CHO CÁC ĐIỂM DỮ LIỆU –
THIẾT LẬP MÔ HÌNH HÀM TUYẾN TÍNH .
Chủ đề
- Hồi quy tuyến tính .
- Thiết lập mô hình hàm
tuyến tính .
- Ứng dụng các mô hình
tuyến tính .
Ứng dụng
- Dữ liệu điểm
- Chăm sóc sức khỏe
- Phát tán khí thải
- Thất nghiệp và thu nhập cá nhân .
Khái niệm cơ bản
Điều
hóa đường thẳng cho các điểm dữ liệu – Hồi quy tuyến tính ( Phương pháp bình phương cực tiểu ) – (Mô hình dữ liệu ,BFL đường điều hóa tốt nhất
, Ngoại suy ) - Ứng dụng mô hình (Ngoại
suy , Nội suy) – Điều hóa tốt nhất ( Sai phân hằng cấp 1 )
1. Điều hóa đường thẳng cho các điểm dữ liệu .
Để minh họa cho khái niệm điều hóa chúng ta xét một số ví dụ sau .
Ví dụ * Dữ liệu điểm
. Phòng kỹ thuật công ty E-Digital Technic xây dựng biểu đồ chuyển đổi để so
sánh các dữ liệu của hệ thống tiêu chuẩn mới và cũ trong khoảng 10 năm trước
đây . Hãy xác định mối quan hệ giữa 2 cấp độ này bằng cách thiết lập hàm số
giữa cấp độ mới và cũ . Chấm tọa độ các
điểm trong đó x , y biểu diễn cho cấp độ
cũ và mới . Những điểm dữ liệu này rất gần với đường thẳng của hàm số tuyến
tính .
Bảng dữ liệu như sau .
Vẽ điểm dữ liệu
Có thể phác họa một đường thẳng đi
qua những điểm này tương đối phù hợp
Khi điều hóa bằng hàm tuyến tính ta
sẽ thu được hàm mô hình như sau .
Như vậy có thể hiểu : “Điều hóa (
fitting ) là phương pháp làm đầy , điều chỉnh các dữ liệu điểm ( data points )
thành một biểu thức hàm số thích hợp với các dữ liệu đó “
Ví dụ * Chăm sóc sức khỏe . Bảng dưới đây cho biết số lượng công nhân
viên tại các bệnh viện trong những năm từ
năm 1970 đến 1998 .
Năm
|
1970
|
1975
|
1980
|
1985
|
1990
|
1995
|
1998
|
Người
(1,000)
|
222
|
331
|
415
|
480
|
580
|
644
|
666
|
a. Hãy vẽ dữ liệu điểm với trục x- biểu diễn số năm từ ‘70 , và trục y – biểu diễn số người tương ứng theo năm ( đơn vị 1,000 người ) .
b. Hãy vẽ đồ thị của các hàm số sau và xác định xem đường thẳng nào là điều hóa tốt nhất cho dữ liệu
Lời giải .
a. Sắp xếp dữ
liệu từ 1970 đến 1998 cho nhập liệu x như sau
:
Năm
|
0
|
5
|
10
|
15
|
20
|
25
|
28
|
Người
( 1,000 )
|
Dùng Curve
Expert nhập và vẽ dữ liệu điểm .
Điều hóa bằng hàm tuyến tính (
Linear Fit ) và kiểm tra tính thích hợp của đồ thị đường thẳng
Các hệ số b và a của hàm tuyến tính tìm được .
b. Trong 3 đồ thị hàm số được vẽ dưới
đây y
= 16 x + 242 là gần với hàm điều hóa
y
= 15.909 x +
242.758
2 . Hồi quy tuyến tính .
Xét hai điểm cho trước (x1,y1) và
(x2,y2) , giả thiết rằng x , y có quan hệ tuyến tính , khi đó ta sẽ tìm được đường thẳng nối 2
điểm này . Quá trình tìm phương trình đường thẳng này gọi là hồi quy tuyến tính
. Phương trình thỏa mãn tính chất này được gọi là mô hình toán học của quan hệ
tuyến tính .
Khi các dữ liệu điểm chi ra khuynh hướng tuyến tính , ta có
thể thiết lập đường thẳng xấp xỉ tốt nhất . Đường thẳng này được gọi là đường
điều hóa tốt nhất ( BFL , Best-fitted Line )
.
Ví dụ
: Cho các điểm (5,14),(9,17),(12,16),(14,18),(17,23) .
- Tìm đường điều hóa tốt nhất (BFL)
- Chấm tọa độ các điểm và vẽ đồ thị của BFL trên cùng mạt phẳng tọa độ .
Lời giải .
Xét bảng số liệu sau .
Dùng công thức tính b
và a .
LƯU Ý KỸ THUẬT
Sau khi mô hình của tập hợp dữ liệu đã được tìm thấy, nó có thể được làm tròn cho mục đích báo cáo. Tuy nhiên, không sử dụng một mô hình làm tròn trong khi tính toán, và cũng không làm tròn đáp số trong quá trình tính toán, trừ khi có quy định khác. Khi mô hình được sử dụng để tìm các đáp số ngoại suy hay nội suy khác , nên được làm tròn một cách thích hợp với yêu cầu bài toán , và khi kiểm tra lại không có độ chính xác quá sai biệt so với các xuất liệu gốc .
Ví dụ * Phát tán khí thải Luợng khí thải phát tán ở Hoa Kỳ từ 1986 đến 1995 được cho ở bảng dưới đây
Năm
|
Khí thải ( tấn )
|
Năm
|
Khí thải ( tấn )
|
1986
|
109,199
|
1991
|
93,376
|
1987
|
108,012
|
1992
|
94,043
|
1988
|
115,849
|
1993
|
94,133
|
1989
|
103,144
|
1994
|
98,779
|
1990
|
100,650
|
1995
|
92,099
|
- Sắp xếp các đữ liệu với x là số năm sau 1980 và y là khối lượng khí thải phát tán ( tấn ) . Vẽ các điểm dữ liệu này .
- Viết phương trình đường điều hóa tốt nhất cho các điểm dữ liệu (BFL) .
- Vẽ đồ thị của mô hình tuyến tính trên cùng hệ trục tọa độ với các điểm dữ liệu .
- So sánh sự thay đổi của sự phát tán hằng năm và độ dốc của đường điều hóa tốt nhất BFL .
Lời
giải
a. Từ 1986 đến 1995 , ta sắp xếp lại dữ liệu của x , chọn x = 0 biểu diễn cho 1980 ,
Năm
|
Khí thải ( tấn )
|
Năm
|
Khí thải (tấn)
|
6
|
109,199
|
11
|
93,376
|
7
|
108,012
|
12
|
94,043
|
8
|
115,849
|
13
|
94,133
|
9
|
103,144
|
14
|
98,779
|
10
|
100,650
|
15
|
92,099
|
Dùng CurveExpert tìm BFL .
Nhập và vẽ các điểm dữ liệu .
b. Click vào Apply Fit - > chọn
Linear Fit
Click Info xem kết quả tìm b và a .
4. Hệ số tương quan
tuyến tính .
Ta luôn luôn có thể tìm được BFL cho bất kỳ các tập điểm dữ
liệu , nhưng độ chính xác là bao nhiêu để đường thẳng tìm được có thể đáp ứng
cho mô hình toán học đó ?
Nếu những điểm dữ liệu phân tán xa BFL thì đây là quan hệ
tuyến tính yếu . Ngược lại nếu chúng tập
trung gần với BFL ta có mối quan hệ tuyến tính mạnh và BFL có thể đại diện cho những dự báo nội suy hoặc ngoại suy tốt .
Độ mạnh của khuynh hướng tuyến tính có thể được mô tả bởi hệ
số tương quan tuyến tính , ký hiệu
là r
.
Một cách tổng quát , r càng gần
-1 và 1 , khuynh hướng tuyến tính giữa x và y càng
mạnh khi đó BFL có thể áp dụng cho dự
báo một cách đáng tin cậy . Nếu r
gần 0
, quan hệ tuyến tinh
giữa x
và y yếu đi , BFL không cho ta những kết quả dự báo tốt .
Ví dụ . Cho các diểm
dữ liệu sau (5,14),(9,17),(12,16),(14,18),(17,23) .
Tìm hệ số tương quan tuyến tính r ?
Lời giải .
Ví dụ . * Thất nghiệp và thu nhập cá nhân .
Bảng dữ liệu sau chỉ ra tỷ lệ
thất nghiệp và tổng thu nhập cá nhân tại Hoa Kỳ theo các năm tương ứng .
- Dùng hồi quy tuyến tính để dự báo tổng thu nhập cá nhân nếu tỷ lệ thất nghiệp là 5% ( nội suy ).
- Dùng hồi quy tuyến tính để dự báo tỷ lệ thất nghiệp nếu tổng thu nhập cá nhân là $10 billion ( 10 tỷ USD ) ( ngoại suy ) .
- Những dự báo ở câu (a) và (b) có đáng tin cậy không ? Giải thich ?
Năm
|
Tỷ lệ thất nghiệp
( % )
|
Tổng thu nhập cá nhân
(Tỷ $USD )
|
1975
|
8.5
|
1.3
|
1980
|
7.1
|
2.3
|
1985
|
7.2
|
3.4
|
1990
|
5.6
|
4.8
|
1995
|
5.6
|
6.1
|
2000
|
4.0
|
8.3
|
Lời giải
- Nhập và vẽ các điểm dữ liệu bằng Curve Expert với x là tỷ lệ thất nghiệp , y là tổng thu nhập .
Linear fit để tìm các hệ số của BFL .
c. Với hệ số tương quan tuyến tính r = -0.970438 sát với -1 , có thể kết luận những
dự báo này là có độ tin cậy tốt , quan hệ tuyến tính giữa x và y có mức độ mạnh
.
Ngoài ra , vì r <0
, ta có thể nói rằng tổng thu nhập cá
nhân y
( total personal income ) giảm dần khi tỷ lệ thất nghiệp x (
unemployment rate ) gia tăng .
Trần hồng Cơ
13/05/2012
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 United States License.
Pure mathematics is, in its way, the poetry of logical ideas.
Albert Einstein .
xin cho biết ph pháp bình phương cực tiểu là gì , có áp dụng vào các b toán thực tế không?
Trả lờiXóaGiả sử ta có thể tìm được một đường điều hoá cho tập các điểm dữ liệu T = { Mi(xi,yi) / i = 1,2,... n } có đồ thị biểu diễn (C) : y = f(x) .Gọi khoảng cách ngắn nhất từ điểm Mi @ T đến đường điều hoá (C) ký hiệu là di^2 = (yi - f(xi))^2 . Để (C) là đường điều hoá tốt nhất thì tổng các khoảng cách này phải đạt min nghĩa là các điểm dữ liệu gần sát với đường điều hoá (C) <=> SUM ( di^2 , i =1..n ) đạt cực tiểu .
XóaDo đó ta nói đây là phương pháp bình phương cực tiểu .
Xem thêm http://vi.wikipedia.org/wiki/Bình_phương_tối_thiểu