اقدام تازه Anthropic برای پایان دادن به مکالمات در موارد خاص

آگوست 18, 2025 Reza

شرکت Anthropic قابلیت‌های جدیدی را معرفی کرده که به برخی از بزرگ‌ترین و جدیدترین مدل‌های هوش مصنوعی این شرکت امکان می‌دهد در شرایطی که مکالمه با کاربر به‌طور مداوم مضر یا آزاردهنده باشد، گفتگو را به‌طور کامل پایان دهند. نکته جالب اینجاست که Anthropic تأکید کرده هدف از این اقدام، محافظت از مدل هوش مصنوعی است، نه کاربر انسانی.

البته این شرکت ادعا نمی‌کند که مدل‌های هوش مصنوعی کلود (Claude) دارای احساس یا آگاهی هستند یا می‌توانند واقعاً آسیب ببینند. Anthropic در بیانیه خود گفته است که همچنان «اطمینان چندانی درباره وضعیت اخلاقی احتمالی کلود و دیگر مدل‌های زبانی بزرگ، در حال حاضر یا آینده» ندارد.

با این حال، این تصمیم در راستای برنامه‌ای جدید اتخاذ شده که Anthropic آن را مطالعه روی «رفاه مدل» (Model Welfare) می‌نامد. این شرکت می‌گوید رویکردش بیشتر جنبه‌ی پیشگیرانه دارد و تلاش می‌کند مداخلات کم‌هزینه‌ای را برای کاهش خطرات احتمالی به کار گیرد؛ «در صورتی که روزی رفاه مدل‌ها واقعاً معنا داشته باشد.»

این قابلیت فعلاً محدود به Claude Opus 4 و 4.1 است و تنها در موارد «بسیار نادر و حاد» فعال می‌شود؛ از جمله درخواست‌هایی مثل محتوای جنسی مرتبط با کودکان یا تلاش برای دریافت اطلاعاتی که می‌تواند به خشونت گسترده یا اقدامات تروریستی منجر شود.

گرچه چنین درخواست‌هایی می‌تواند مشکلات حقوقی و تبلیغاتی برای خود Anthropic ایجاد کند (نمونه‌اش گزارش‌هایی که درباره‌ی چگونگی تقویت توهمات کاربران توسط برخی چت‌بات‌ها منتشر شده)، اما شرکت می‌گوید در آزمایش‌های پیش از عرضه، Claude Opus 4 تمایل شدیدی به اجتناب از پاسخ به این موارد نشان داده و حتی الگوهایی از «نشانه‌های آشفتگی ظاهری» در آن دیده شده است.

بر اساس اعلام Anthropic، قابلیت پایان دادن به گفتگو تنها به‌عنوان آخرین راه‌حل استفاده خواهد شد؛ یعنی زمانی که تلاش‌های مکرر برای تغییر مسیر مکالمه بی‌نتیجه مانده باشد و امیدی به تعامل سازنده وجود نداشته باشد، یا وقتی کاربر به‌طور مستقیم از کلود بخواهد مکالمه را پایان دهد.

در عین حال، این شرکت تأکید کرده که کلود مجاز به استفاده از این قابلیت در شرایطی که کاربر در معرض خطر فوری آسیب رساندن به خود یا دیگران باشد، نخواهد بود.

هنگامی که کلود مکالمه‌ای را خاتمه دهد، کاربران همچنان می‌توانند از همان حساب گفت‌وگوی جدیدی آغاز کنند یا حتی با ویرایش پاسخ‌ها، شاخه‌های تازه‌ای از همان مکالمه مشکل‌دار ایجاد کنند.

Anthropic این ویژگی را یک «آزمایش در حال اجرا» توصیف کرده و اعلام کرده است که در آینده نیز به بهبود و اصلاح آن ادامه خواهد داد.