跳到主要内容

AI 生成检测

概述

目前比较主流的方式有分类器和水印两种。

分类器就是使用人工书写的数据集和 AI 生成的数据集进行训练,做一个经典的二分类。

OpenAI 提供了一个工具判断一段文本是否由 AI 生成。https://platform.openai.com/ai-text-classifier

分类的结果不太乐观,可以参考原文,我这里将他的结果转换成一个表格。分类器输出的概率范围为0-1。

类别阈值人类AI
非常不可能(由 AI 生成,下同)<0.15%2%
不太可能0.1-0.4515%10%
不清楚0.45-0.950%34%
可能0.9-0.9821%28%
大概率>0.989%26%

数据来源:OpenAI API

水印就是通过在模型中选择一系列随机的 token,在生成时让模型使用这些 token,从而通过统计学概率判断是否由某个模型生成。

对抗

对于分类器的方法,本身判断的准确率不够高,甚至不足以做定性的判断。

对于水印的方法,只要对原文做一定修改即可。例如随机替换部分单词为其同义词,或者针对一些水印/隐写方法(例如零宽字符、emoji等)做清理即可。

目前可用的工具

gptzero

https://gptzero.me/