antoan.ai

Định luật Goodhart

Goodhart’s law

Định luật Goodhart cho rằng khi một phép đo trở thành mục tiêu, thì nó không còn là một phép đo hiệu quả. Điều này xảy ra ở khắp mọi nơi:

Scott Garrabrant xác định bốn hình thức của định luật Goodhart:

Định luật Goodhart là một vấn đề lớn đối với căn chỉnh AI, bởi vì việc huấn luyện mạng nơ-ron thường liên quan đến việc sử dụng các đại diện cho mục tiêu thực sự của chúng ta. Ví dụ, chúng ta có thể sử dụng "sự chấp thuận của người giám sát" như một cách để đo lường chất lượng đầu ra của mô hình ngôn ngữ lớn. Tuy nhiên, điều này có thể dẫn đến việc AI được huấn luyện để đưa ra đầu ra mà người giám sát tin rằng là chất lượng cao, thay vì những gì thực sự chất lượng cao — ví dụ, nếu một người giám sát huấn luyện AI để trung thực, AI có thể được huấn luyện để đưa ra đầu ra mà người giám sát tin rằng là đúng (ngay cả trong trường hợp người giám sát sai).

aisafety.infp Nguồn

Định luật Goodhart | antoan.ai