اقدام تازه Anthropic برای پایان دادن به مکالمات در موارد خاص
شرکت Anthropic قابلیتهای جدیدی را معرفی کرده که به برخی از بزرگترین و جدیدترین مدلهای هوش مصنوعی این شرکت امکان میدهد در شرایطی که مکالمه با کاربر بهطور مداوم مضر یا آزاردهنده باشد، گفتگو را بهطور کامل پایان دهند. نکته جالب اینجاست که Anthropic تأکید کرده هدف از این اقدام، محافظت از مدل هوش مصنوعی است، نه کاربر انسانی.
البته این شرکت ادعا نمیکند که مدلهای هوش مصنوعی کلود (Claude) دارای احساس یا آگاهی هستند یا میتوانند واقعاً آسیب ببینند. Anthropic در بیانیه خود گفته است که همچنان «اطمینان چندانی درباره وضعیت اخلاقی احتمالی کلود و دیگر مدلهای زبانی بزرگ، در حال حاضر یا آینده» ندارد.
با این حال، این تصمیم در راستای برنامهای جدید اتخاذ شده که Anthropic آن را مطالعه روی «رفاه مدل» (Model Welfare) مینامد. این شرکت میگوید رویکردش بیشتر جنبهی پیشگیرانه دارد و تلاش میکند مداخلات کمهزینهای را برای کاهش خطرات احتمالی به کار گیرد؛ «در صورتی که روزی رفاه مدلها واقعاً معنا داشته باشد.»
این قابلیت فعلاً محدود به Claude Opus 4 و 4.1 است و تنها در موارد «بسیار نادر و حاد» فعال میشود؛ از جمله درخواستهایی مثل محتوای جنسی مرتبط با کودکان یا تلاش برای دریافت اطلاعاتی که میتواند به خشونت گسترده یا اقدامات تروریستی منجر شود.
گرچه چنین درخواستهایی میتواند مشکلات حقوقی و تبلیغاتی برای خود Anthropic ایجاد کند (نمونهاش گزارشهایی که دربارهی چگونگی تقویت توهمات کاربران توسط برخی چتباتها منتشر شده)، اما شرکت میگوید در آزمایشهای پیش از عرضه، Claude Opus 4 تمایل شدیدی به اجتناب از پاسخ به این موارد نشان داده و حتی الگوهایی از «نشانههای آشفتگی ظاهری» در آن دیده شده است.
بر اساس اعلام Anthropic، قابلیت پایان دادن به گفتگو تنها بهعنوان آخرین راهحل استفاده خواهد شد؛ یعنی زمانی که تلاشهای مکرر برای تغییر مسیر مکالمه بینتیجه مانده باشد و امیدی به تعامل سازنده وجود نداشته باشد، یا وقتی کاربر بهطور مستقیم از کلود بخواهد مکالمه را پایان دهد.
در عین حال، این شرکت تأکید کرده که کلود مجاز به استفاده از این قابلیت در شرایطی که کاربر در معرض خطر فوری آسیب رساندن به خود یا دیگران باشد، نخواهد بود.
هنگامی که کلود مکالمهای را خاتمه دهد، کاربران همچنان میتوانند از همان حساب گفتوگوی جدیدی آغاز کنند یا حتی با ویرایش پاسخها، شاخههای تازهای از همان مکالمه مشکلدار ایجاد کنند.
Anthropic این ویژگی را یک «آزمایش در حال اجرا» توصیف کرده و اعلام کرده است که در آینده نیز به بهبود و اصلاح آن ادامه خواهد داد.