راهکارهای تشخیص متن هوش مصنوعی؛ چطور فریب نخوریم؟

رسول خردمندی

۲۲ آبان ۱۴۰۳ | ۱۲:۲۴ زمان مورد نیاز برای مطالعه: ۱۱ دقیقه

احتمالا بارها پیش آمده که مطلبی را مطالعه کرده‌اید و از خواندن آن لذت بردید. با این حال، متن مورد نظر را یک انسان ننوشته و شما تنها با یک متن که توسط هوش مصنوعی به رشته‌ی تحریر درآمد مواجه شدید. چطور می‌توان فهمید یک مطلب را یک انسان با دستان خودش نوشته یا تمام اطلاعات توسط هوش مصنوعی تولید شده است؟ در این مطلب قصد داریم روش‌های تشخیص متن هوش مصنوعی را توضیح دهیم. اصلا آیا شناسایی این مورد در زبان فارسی امکان دارد؟

فهرست محتوا

آیا امکان تشخیص متن هوش مصنوعی به زبان فارسی وجود دارد؟
آیا ابزارهای تشخیص‌دهنده‌ی متن هوش مصنوعی قابل اعتماد هستند؟
بهترین ابزار تشخیص محتوای هوش مصنوعی
    ۱. ابزار GPTZero
    ۲. ابزار Corrector
    ۳. ابزار Sapling
    ۴. ابزار duplichecker
    ۵. ابزار hivemoderation
آیا با هوش مصنوعی می‌توان ابزارهای شناساگر را فریب داد؟
تشخیص متن هوش مصنوعی؛ برای زبان فارسی شاید، برای زبان انگلیسی قطعا!

برخی از شرکت‌ها و پروژه‌ها برای اعضای تیم خود شرط گذاشته‌اند که استفاده از مطالب هوش مصنوعی قدغن است. با این اوصاف، این دسته از شرکت‌ها چطور متوجه می‌شوند که چه متنی را هوش مصنوعی نوشته و چه متنی را یک نویسنده‌ی انسان گردآوری و تالیف کرده است؟ ماجرا اینجاست ابزارهای مختلفی تحت عنوان AI Detector در سطح اینترنت وجود دارد که خیلی راحت می‌توان متون مختلف را با آن بررسی کرد. در این مطلب ضمن معرفی برخی ابزارهای رایج و به نسبت معتبر، درباره‌ی سوال‌های رایج پیرامون مسئله‌ی تشخیص متن هوش مصنوعی پاسخ می‌دهیم.

آیا امکان تشخیص متن هوش مصنوعی به زبان فارسی وجود دارد؟

واقعیت امر، در حال حاضر که این مطلب نوشته می‌شود، هیچ ابزاری نمی‌تواند با قطعیت کامل و به طور صد در صد حکم صادر کند که یک متن توسط هوش مصنوعی به زبان فارسی نوشته شده است. با پیشرفت هوش‌های مصنوعی و به خصوص روی کار آمدن نسخه‌های جدید GPT، شناسایی متون هوش مصنوعی توسط یک انسان و ویراستار به شدت کار دشوار و چالش برانگیزی شده است. با این حال، تشخیص متن به زبان انگلیسی به مراتب آسان‌تر از زبان فارسی است؛ چرا که فرمت زبان فارسی همچنان برای بسیاری از ابزارهای تشخیص‌دهنده به خوبی تعریف نشده و این دسته از ابزارها در خوانش و رصد برخی کاراکترهای زبان فارسی ناتوان ظاهر می‌شوند.

بهترین و مهم‌ترین ابزارهای تشخیص متن هوش مصنوعی به زبان فارسی، بررسی لحن و به اصطلاح گرمی جملاتی است که نویسنده در متن خود از آنها استفاده می‌کند. آیا حس خاصی از مطلب می‌گیرید یا از سوی دیگر، تک تک جملات حس سردی و خشکی را به شما القا می‌کنند؟ در حال حاضر تنها عنصری که هوش مصنوعی در تمام زبان‌ها حتی فارسی نمی‌تواند از آن کمک بگیرد، «خلاقیت» یا Novelty است؛ به این معنا که جملات و دایره‌ی واژگان یک مطلب خلق شده توسط هوش مصنوعی را می‌توان در چند سایت دیگر هم به وضوح رویت کرد. در چنین وضعیتی می‌توان به ماشینی بودن متن و عدم دخالت نویسنده در خلق محتوای متنی شک کرد. به زبان بسیار ساده‌تر، صمیمیتی که نویسنده در متن خود با جملات و نوع نگارش خود ایجاد می‌کند، در حال حاضر هوش مصنوعی GPT و جمینای هم قادر نیستند از این مولفه در متون تولیدی خود استفاده کنند.

آیا ابزارهای تشخیص‌دهنده‌ی متن هوش مصنوعی قابل اعتماد هستند؟

به طور کلی نمی‌توان به این دسته از ابزار به طور کامل اعتماد کرد؛ چرا که ساز و کار این دسته از ابزار کاملا مشخص بوده و قدرت انعطاف زیادی را نمی‌توان در ابزارهای تشخیص‌دهنده‌ی هوش مصنوعی انتظار داشت. به طور کلی، ابزارهای شناساگر سعی می‌کنند با مطابقت دادن واژگان، عبارات و جملات موجود در یک متن با دایره‌ی واژگان دیتابیس خود، از منحصر به فرد بودن مطلب اطمینان حاصل کنند. با این حال، در مطالب موجود در بلاگ‌های مختلف به خصوص در حوزه‌‌های علمی، فناوری و پزشکی نمی‌توان به طور کامل به این الگوریتم اعتماد کرد؛ چرا که بسیاری از اطلاعات موجود در متن‌ها ثابت بوده و صرفا جملات و نوع گفتار متفاوت به نظر می‌رسد. در چنین حالتی، ابزارهای شناساگر ممکن است با مشکل مواجه شده و به اشتباه یک مطلب منحصر به فرد را حاصل پردازش‌های هوش مصنوعی تلقی ‌کنند. همچنین بالعکس این سناریو نیز صدق می‌کند. یک کارشناس تولید محتوا می‌تواند به راحتی متد تشخیص توسط ابزارهای مورد نظر را صرفا با افزودن یک شرط در دستورنویسی دور بزند و یک متن منحصر به فرد ایجاد کند که در وب‌سایت‌های دیگر موجود نیست.

بهترین ابزار تشخیص محتوای هوش مصنوعی

در ادامه قصد داریم بهترین ابزارهای تشخیص دهنده‌ی محتوای هوش مصنوعی را معرفی کنیم. همان‌طور که قبلا اشاره کرده‌ایم، الزاما نتیجه‌ی تشخیص توسط این ابزار به منزله‌ی تعیین صد در صد نبوده و حتی این دسته از ابزار نیز می‌توانند به اشتباه یک مطلب را ساخته شده توسط هوش مصنوعی خطاب کنند و بالعکس؛ یعنی ابزار مربوطه، یک متن که توسط انسان نوشته شده را به اشتباه، خلق شده توسط هوش مصنوعی شناسایی می‌کند.

۱. ابزار GPTZero

یکی از متفاوت‌ترین و پیشرفته‌ترین ابزارهای تشخیص دهنده‌ی محتوای هوش مصنوعی به شمار می‌رود. برنامه GPTZero متد جالبی را برای شناسایی محتوای متنی به کار می‌گیرد. این برنامه بر اساس پیچیدگی متن، به هر مطلب نمره می‌دهد و اگر متن خیلی ساده باشد، ابزار GPTZero معمولا آن را ساخته شده توسط هوش مصنوعی می‌داند. با وجود این که GPTZero در زبان‌ انگلیسی جزو بهترین ابزارها تلقی می‌شود، قابلت تشخیص متن به زبان فارسی را نیز داشته و می‌توان از این ابزار برای تولید محتواهای فارسی نیز استفاده کرد. بهره‌برداری از این برنامه کاملا رایگان است. اگر چه، هر روز تنها می‌توانید چند مرتبه از این برنامه استفاده کنید و در صورت نیاز به بررسی‌های بیشتر، باید یک حساب کاربری را در سایت بسازید.

۲. ابزار Corrector

برنامه Corrector جزو معدود ابزارهای آنلاین به شمار می‌رود که محتوای متنی GPT-4 را شناسایی کرده و با استفاده از روش‌های پیشرفته می‌تواند تشخیص دهد آیا یک مطلب توسط یک انسان نوشته شده یا خیر. البته در حال حاضر که این مطلب نوشته می‌شود، برنامه Corrector قادر است حداکثر ۸۰۰ کلمه را در هر بار تلاش مورد تجزیه و تحلیل قرار دهد. سرعت پردازش نیز بسیار بالا بوده و در عرض کمتر از شصت ثانیه می‌توانید نتیجه را مشاهده کنید. این برنامه از زبان فارسی هم پشتیبانی کرده و می‌توان به نتایج این ابزار معمولا اعتماد کرد؛ چرا که برای متون فارسی معمولا خطای محاسباتی دارد.

در حال حاضر این ابزار دارای یک بخش رایگان بوده و برای استفاده از امکانات بخش رایگان برنامه نیاز نیست حتی در وب‌سایت اصلی ثبت نام کنید.

۳. ابزار Sapling

برنامه Sapling یک ابزار بسیار کاربردی برای تشخیص متن هوش مصنوعی است که از ChatGPT و جمینای به خوبی پشتیبانی می‌کند. شبیه به ابزارهای قبلی، شما می‌توانید متن مشکوک خود را در فیلد مشخص در سایت قرار دهید تا برنامه آن را تجزیه و تحلیل کند. از سایر ویژگی‌های مهمی که موجب شده این ابزار را در لیست مقاله قرار دهیم، امکان آپلود فایل ورد و PDF در سایت وجود دارد تا ابزار مذکور بتواند به طور تخصصی یک فایل را برسی کند. همچنین امکان نصب افزونه‌ی ابزار Sapling برای مرورگر فایر فاکس هم وجود دارد. متاسفانه دقت شناسایی Sapling در زبان فارسی به اندازه‌ی ابزارهای قبلی بالا نیست و در شناسایی متون انگلیسی قدرت بیشتری دارد.

۴. ابزار duplichecker

برنامه Duplichecker صرفا یک اپلیکیشن تشخیص متن هوش مصنوعی نیست و قابلیت شناسایی مطالبی کپی را هم دارد. با این حال، دقت این ابزار بسیار بالاست و حتی زبان فارسی را نیز تا حدود قابل توجهی پوشش می‌‌دهد. از مهم‌ترین قابلیت برنامه می‌توان به ویژگی Deep Search آن اشاره کرد که اگر مطلب از منبع دیگری کپی شده باشد، سایت مرجع را شناسایی کرده و لینک آن را هم برای شما پیدا خواهد کرد و حتی متن کپی شده را نیز به شما نشان می‌دهد. ابزار مذکور همچنین این امکان را به شما می‌دهد تا ایرادات مطلب را برطرف کرده و آن را به یک متن منحصر به فرد تبدیل کنید.

این برنامه تا حدودی می‌تواند از زبان فارسی پشتیبانی کند و در نسخه‌ی رایگان می‌توان هر مدل زبان را امتحان کرد. با این حال، با تهیه‌ی نسخه‌ی پولی برنامه می‌توان تا ۲۵ هزار کلمه را تجزیه و تحلیل و به تبع از تمام قابلیت‌های برنامه استفاده کرد.

۵. ابزار hivemoderation

برنامه Hivemoderation یک ابزار بسیار قدرتمند و پیشرفته‌ای به شمار می‌رود که کمتر وب‌سایت و رسانه‌ای آن را معرفی می‌کند. با این برنامه می‌توانید از تقلبی بودن یک متن و محتوا آگاه شوید. hivemoderation قادر است تصاویر، ویدیو و حتی منابع صوتی خلق شده توسط هوش مصنوعی را شناسایی کند. در حالت رایگان می‌توان از تمامی قابلیت‌های برنامه استفاده کرد؛ هر چند محدودیت‌هایی برای استفاده وجود دارد. برای مثال برای شناسایی محتوای متنی، حداکثر تا ۸ هزار کاراکتر می‌توان به طور یکجا بررسی کرد. متاسفانه طی بررسی‌هایی که داشته‌ایم، این ابزار از زبان فارسی پشتیبانی نمی‌کند و هر مدل مطلب به زبان فارسی را منحصر به فرد خطاب می‌کند.

آیا با هوش مصنوعی می‌توان ابزارهای شناساگر را فریب داد؟

این سوالی است که به ذهن نگارنده‌ی این مطلب رسید؛ آیا می‌توان مطلبی را با هوش مصنوعی نوشت که ابزارهای شناساگر هوش مصنوعی در تشخیص آن گمراه شوند؟ به زبان ساده‌تر، آیا ابزارهای هوش مصنوعی معروف مثل ChatGPT توانایی فریب ابزارهای شناساگر هوش مصنوعی را مثل یک انسان دارند؟ برای پاسخ تلاش کردیم با یک دستورنویسی خاص، هوش مصنوعی GPT 4 را مجاب کنیم یک متن خلاقانه و منحصر به فرد شبیه به یک انسان بنویسد.

از ChatGPT پرسیدیم آیا می‌توانی مطلبی را درباره شرکت سامسونگ بنویسی که ابزار GPTZero نتواند متن خلق شده توسط هوش مصنوعی را شناسایی کند. لازم به ذکر است که ابزار GPTZero رسما قاتل متون انگلیسی ساخته شده با هوش مصنوعی تلقی می‌شود و بسیاری از شرکت‌های دنیا از این برنامه برای شناسایی مطالب تقلبی استفاده می‌کنند.

هوش مصنوعی این گونه پاسخ داد که برای دشوار کردن پروسه‌ی تشخیص تلاش می‌کند جملات طبیعی‌تری را به همراه اطلاعات مستند ارائه دهد و در نهایت یک پاراگراف تقریبا ۱۵۰ کلمه‌ای را تحویل داد. این متن را به GPTZero تحویل دادیم و این ابزار به طور صد در صد مطمئن بود که متن توسط هوش مصنوعی نوشته شده است.

در مرحله‌ی بعد، از ابزار Quillbot استفاده کردیم؛ یکی از قدرتمندترین، بهترین و تکامل یافته‌ترین ابزارهای حال حاضر که برای نوشتن مقالات دانشگاهی هم به وفور مورد بهره‌برداری قرار می‌گیرد. یکی از قابلیت‌های بسیار کاربردی کویل‌بات، ویژگی Paraphraser است. شما می‌توانید یک متن را در این بخش قرار دهید تا برنامه در کسری از ثانیه آن را مجدد بازنویسی کند. قابلیت مذکور از زبان انگلیسی و سایر زبان‌های رایج پشتیبانی می‌کند و در حال حاضر در بازنویسی متون فارسی ناتوان است. متن مربوط به شرکت سامسونگ را با کمک این ابزار بازنویسی کردیم.

حالا متن جدید را دوباره توسط ابزار GPTZero آزمایش کردیم. نتیجه حیرت انگیز بود. GPTZero مجدد همان نتیجه‌ی اول را اعلام کرد؛ صد در صد نوشته شده توسط هوش مصنوعی!

در مرحله‌ی آخر، از کمک دستیار هوش مصنوعی ابزار گرامرلی (Grammerly) استفاده کردیم؛ یکی دیگر از ابزارهای قدرتمند آنلاین که کمک دستیار بسیار خوبی برای نویسنده‌های حرفه‌ای تلقی می‌شود. این ابزار از زبان فارسی پشتیبانی نمی‌کند و صرفا برای تالیف مقالات انگلیسی و سایر زبان‌های زنده‌ی دنیا مورد استفاده قرار می‌گیرد. از هوش مصنوعی تعبیه شده در گرامرلی کمک گرفتیم تا متن ساخته شده توسط ChatGPT را به طور حرفه‌ای‌تر تحویل دهد. نتیجه‌ی پردازش هوش مصنوعی گرامرلی را مجدد در GPTZero تست کردیم.

نتیجه‌ی اسکن توسط GPTZero همچنان ثابت بود و هیچ تغییری در پارامترها ایجاد نشد. به نظر می‌رسد ابزارهای شناساگر متن هوش مصنوعی هم از جنبه‌ی لغوی و هم از جنبه‌ی معنوی قادر هستند اصالت متن را به درستی تشخیص دهند.

محتوای ساخته شده توسط ChatGPT را توسط گوگل ترنسلیت به زبان فارسی ترجمه کردیم و مجدد در GPTZero حتی با گزینه‌ی اسکن پیشرفته‌ بررسی کردیم. ابزار GPTZero به نظر می‌رسد این مرتبه فریب خورد و به درستی فرایند تشخیص را انجام نداد.

آیا باید پروسه‌ی ترجمه‌ی متن نوشته شده توسط هوش مصنوعی به زبان‌های دیگر را تنها راه دور زدن ابزارهای شناساگر تلقی کنیم؟ برای تایید این فرضیه، متن ساخته شده توسط ChatGPT را توسط گوگل ترنسلیت به زبان فرانسوی ترجمه کرده و مجدد متن را در GPTZero آزمایش کردیم.

همان‌طور که انتظار می‌رفت، GPTZero این مرتبه به درستی متن را شناسایی کرده و آن را به طور صد در صد خلق شده توسط هوش مصنوعی خطاب کرد. بنابراین می‌توان نتیجه گرفت که این ابزار صرفا زبان فارسی را نتوانسته به درستی درک کند؛ در غیر این صورت، احتمالا نتیجه‌ی مربوط به آنالیز زبان فارسی هم باید به طور قابل توجهی به نتایج مربوط به زبان فرانسوی شباهت داشت.

تشخیص متن هوش مصنوعی؛ برای زبان فارسی شاید، برای زبان انگلیسی قطعا!

در این مطلب با ارائه‌ی یک مثال واقعی تلاش کرده‌ایم تا شما متوجه شوید شناسایی متنی که هوش مصنوعی به زبان فارسی می‌نویسد، همچنان به درستی امکان‌پذیر نیست. در غیر این صورت، محتواهای متنی به زبان انگلیسی و سایر زبان‌های رایج دنیا خیلی راحت توسط ابزارهای مختلف شناسایی می‌شوند؛ حتی اگر واژه‌ها را تغییر دهید و جملات را توسط سایر ابزارها به صورت خودکار بازنویسی کنید.

شاید بپرسید چرا محتواهای زیادی در سطح وب فارسی در این زمینه تولید شده و چرا ابزارهای مختلفی را می‌توان در منابع فارسی زبان مشاهده کرد. پاسخ ساده است؛ ابزارهای مورد نظر برای تشخیص متن انگلیسی به درستی کار می‌کنند، اما برای زبان فارسی رسما ضعیف هستند و در این دسته از وب‌سایت‌ها، صرفا ابزارهایی لیست می‌شوند که در منابع انگلیسی زبان از آنها به عنوان بهترین ابزارهای تشخیص دهنده‌ی متن هوش مصنوعی یاد شده است.

پس تکلیف چیست؟ یعنی به هیچ وجه نمی‌توان با قاطعیت متون فارسی هوش مصنوعی را شناسایی کرد؟ همان‌طور که در ابتدای مطلب توضیح دادیم، تشخیص دقیق این دسته از متون تنها مستلزم شناخت دقیق و عمیق ادبیات و زبان فارسی است. فرد متخصصی که بالای صد مقاله و محتوای متنی را برای وب‌سایت و رسانه‌های مختلف تولید کرده، به طور حتم در تشخیص مطالب هوش مصنوعی تجربه‌ی بهتری را از خود نشان می‌دهد تا ابزارهای معتبری خارجی مثل Undetecable که با فرمت زبان فارسی مشکل دارند. با تمام این تفاسیر، فعلا جست‌وجو برای یافتن یک ابزار مناسب که متون فارسی ساخته شده توسط هوش مصنوعی را مثل GPTZero با قاطعیت اعلام کند، وقت تلف کردن است.

منبع: دیجی‌کالا مگ

سوال و جواب‌های رایج

آیا کسی می‌فهمد ما برای نوشتن مقاله فارسی از ChatGPT استفاده کردیم؟

به طور معمول ابزار دقیقی فعلا برای شناسایی به زبان فارسی وجود ندارد.

بهترین ابزار تشخیص متن هوش مصنوعی به زبان انگلیسی در سال ۲۰۲۴ چیست؟

وب سایت GPTZero یکی از بهترین ابزارها برای شناسایی است.

چطور بفهمیم یک مطلب فارسی را هوش مصنوعی نوشته است؟

باید نوع نگارش و لحن نوشتار را با دقت بررسی کرد.