【kết quả middlesbrough】MIT: Các mô hình ngôn ngữ lớn không hoạt động giống con người
Các mô hình ngôn ngữ lớn (LLMs) là công cụ mạnh mẽ,ácmôhìnhngônngữlớnkhônghoạtđộnggiốngconngườkết quả middlesbrough có khả năng thực hiện nhiều nhiệm vụ khác nhau: từ hỗ trợ sinh viên soạn thảo email đến giúp bác sĩ lâm sàng chẩn đoán ung thư. Tuy nhiên, tính đa năng của các mô hình này cũng khiến cho việc đánh giá chúng khó khăn hơn, vì không thể tạo ra một bộ dữ liệu chuẩn cho tất cả loại câu hỏi mà một mô hình có thể gặp phải.
Để giải quyết vấn đề này, các chuyên gia từ MIT đã nghiên cứu một phương pháp đánh giá mới. Họ cho rằng: việc đánh giá một LLM cần phải dựa trên cách con người hình thành niềm tin về khả năng của mô hình đó.
Nghiên cứu của MIT tập trung vào việc phát triển một khung đánh giá dựa trên sự phù hợp của niềm tin của con người về khả năng của LLM trong thực hiện các nhiệm vụ cụ thể. Họ mô tả cách con người cập nhật niềm tin của mình về khả năng của LLM sau khi tương tác với nó. Các nhà nghiên cứu phát hiện rằng: khi LLM không đáp ứng kỳ vọng của con người, người dùng có thể trở nên quá tự tin hoặc thiếu tự tin về việc sử dụng chúng, dẫn đến hiệu suất kém trong các tình huống quan trọng.
Tổng quát hóa con người
Nghiên cứu do GS. Ashesh Rambachan - giáo sư trợ giảng kinh tế tại Phòng thí nghiệm Hệ thống Thông tin và Quyết định của MIT (LIDS) và các cộng sự thực hiện đã chỉ ra rằng: sự tổng quát hóa của con người - tức là khả năng dự đoán hiệu suất của một LLM dựa trên các phản hồi trước đó - rất quan trọng để đánh giá đúng khả năng của mô hình. Họ đã tạo ra một bộ dữ liệu gồm gần 19.000 ví dụ để đo lường cách con người tổng quát hóa về hiệu suất của các LLM trên 79 nhiệm vụ khác nhau.
Kết quả cho thấy, con người thường tổng quát hóa tốt hơn với các mô hình. Nhưng họ gặp khó khăn khi đánh giá hiệu suất của LLM. Các thí sinh khảo sát có xu hướng dự đoán hiệu suất của LLM kém chính xác hơn so với việc đánh giá hiệu suất của con người. GS. Rambachan cho rằng: “Sự tổng quát hóa của con người có thể bị phá vỡ khi áp dụng cho LLMs, vì các mô hình này không thể hiện các mẫu chuyên môn rõ ràng như con người”.
Đo lường sự không phù hợp
Con người cũng có xu hướng điều chỉnh niềm tin của họ về LLM khi mô hình trả lời sai hơn khi nó trả lời đúng. Nhiều người cũng cho rằng, hiệu suất của LLM trên các câu hỏi đơn giản không ảnh hưởng nhiều đến hiệu suất của nó trên các câu hỏi phức tạp hơn. Trong những tình huống sự phản hồi không chính xác được coi trọng, các mô hình đơn giản có thể vượt qua các mô hình tinh vi như GPT-4.
Một lý do cho sự kém hiệu quả trong việc tổng quát hóa các LLM là do những mô hình này còn mới mẻ, và con người có ít kinh nghiệm tương tác nó hơn so với việc tương tác người - người. GS. Rambachan cho rằng, việc tương tác nhiều hơn với LLM có thể giúp cải thiện khả năng tổng quát hóa của con người về chúng. Nghiên cứu hướng đến có thể cải thiện về niềm tin của con người khi tương tác với LLM và cách tổng quát hóa có thể được tích hợp vào việc phát triển các LLM.
Bài nghiên cứu nhấn mạnh rằng, để huấn luyện và điều chỉnh các LLM hiệu quả, cần phải xem xét cách con người tổng quát hóa về các mô hình này. Bộ dữ liệu các nhà nghiên cứu tạo ra có thể trở thành tiêu chuẩn để so sánh hiệu suất của các LLM liên quan đến hàm tổng quát hóa của con người, từ đó giúp cải thiện mô hình trong các tình huống thực tế.
Alex Imas - giáo sư khoa học hành vi và kinh tế tại Trường Kinh doanh Booth của Đại học Chicago cho rằng, nghiên cứu của MIT có 2 đóng góp quan trọng. Thứ nhất, nó nêu bật vấn đề khi triển khai LLM cho các mục đích chung, nếu người dùng không hiểu rõ khi nào LLM sẽ chính xác hay thất bại, họ có thể gặp khó khăn trong việc tiếp tục sử dụng chúng. Thứ hai, nghiên cứu cung cấp cái nhìn sâu sắc về cách các mô hình xử lý các vấn đề và cho thấy liệu LLM có "hiểu" các vấn đề mà chúng giải quyết hay không.
(Theo: MIT News)
(责任编辑:Cúp C1)
- Phần mềm máy tính chuyển tín hiệu não thành lời nói
- Chuyện ở Hải quan cố đô
- Hải quan TP. Hồ Chí Minh phát hiện hơn 328 tỷ đồng thuế phải thu thêm từ hậu kiểm
- Hải quan Đồng Nai: Thu trên 7 tỷ đồng từ xử phạt vi phạm hành chính
- Ấn tượng không gian trưng bày quảng bá văn hóa
- Tổng biên tập Nhà xuất bản Trẻ Nguyễn Thành Nam qua đời
- Đóng điện thành công MBA thứ 2 tại TBA 500 kV Ô Môn
- U17 Việt Nam có cơ hội lớn giành vé dự VCK U17 World Cup 2025
- MU chọn được HLV mới đầy bất ngờ Ruben Amorim
- Đặt mục tiêu thoái vốn xong tại doanh nghiệp nhà nước không nắm giữ trong năm 2025
- Chỉ xuất khẩu 4
- Pep Guardiola ngả mũ thán phục Sporting của Ruben Amorim
- Thép, xi măng lo bị tiết giảm điện
-
Bình Dương đạt nhiều thành tựu, xây dựng quê hương thông minh, hiện đại
Nhìn lại hành trình đó, có thể tự hào và khẳng định ...[详细] -
Nợ thuế của doanh nghiệp đã ‘chết’, ‘mất tích’ chiếm hơn 38%
Làm thủ tục khai thuế tại Cục Thuế TP.Hồ Chí Minh. Ảnh: NM.Cập nhật về tình hình quản lý nợ và thu h ...[详细] -
U17 Việt Nam sẽ thắng Yemen vào VCK châu Á
Trực tiếp bóng đá U17 Việt Nam vs U17 Yemen: Chiến thắng để đi tiếpTrực tiếp bóng đá U17 Việt Nam vs ...[详细] -
Lamine Yamal được vinh danh Cầu thủ trẻ xuất sắc Kopa Trophy
Trên sân khấu của nhà hát Theatre du Chatelet, cựu danh thủ Ruud Gullit xướng tên Lamine Yamal với d ...[详细] -
Cục Thuế Cao Bằng thu hồi được hơn 600 tỷ đồng tiền nợ thuế trong năm 2024
Cục thuế Cao Bằng tháo gỡ kịp thời vướng mắc thủ tục thuế, tạo thuận lợi cho doanh nghiệpCục Thuế Ca ...[详细] -
Top 10 trận thảm họa của MU với Ten Hag
Cùng VietNamNetnhìn lại 10 trận đấu thảm họa của MU trong nhiệm kỳ kéo dài hơn 2 năm của Erik ten Ha ...[详细] -
Màn triển lãm của Amad DialloĐiều tích cực tiếp diễn sau cuộc chia tay của Erik ten Hag. Sự thay đổi ...[详细]
-
Nhận định bóng đá MU vs Chelsea: Vượt khó cùng Van Nistelrooy
Tin tức đầy hy vọng với fan MU khi CLB vừa chính thức bổ nhiệm Ruben Amorim làm tân thuyền trưởng th ...[详细] -
Nhận định, soi kèo Ponferradina vs Sociedad, 21h30 ngày 5/1: Đẳng cấp vẫn hơn
Nhận định bóng đá Ponferradina vs Sociedad hôm nayCác cầu thủ Ponferradin ...[详细] -
Lịch thi đấu bóng đá hôm nay 25/10
Lịch thi đấu bóng đá hôm nayNGÀY/GIỜTRẬN ĐẤUTRỰC TIẾPBảng I Vòng loại U17 châu Á25/10 16:00Kyrgyzsta ...[详细]
Kính mời độc giả đón đọc báo in Bình Phước hôm nay 6
Tăng thuế tiêu thụ đặc biệt ô tô bán tải: Đưa về đúng mục đích sử dụng
- Loạt nhà dân ở TP.HCM bị sụp lún vì robot đào cống thoát nước
- 5 năm thực hiện Quy chế phối hợp Bộ đội Biên phòng
- Đảng bộ Cục Hải quan TPHCM: Khen thưởng nhiều tập thể, cá nhân
- Kết quả bóng đá Cup C1 hôm nay 6/11
- Lũ rút, chuẩn bị vụ mùa
- 5 năm nữa, dệt may chủ động nguyên phụ liệu
- Thu hút doanh nghiệp nhờ các giải pháp thực chất