AI 生成检测
概述
目前比较主流的方式有分类器和水印两种。
分类器就是使用人工书写的数据集和 AI 生成的数据集进行训练,做一个经典的二分类。
OpenAI 提供了一个工具判断一段文本是否由 AI 生成。https://platform.openai.com/ai-text-classifier
分类的结果不太乐观,可以参考原文,我这里将他的结果转换成一个表格。分类器输出的概率范围为0-1。
类别 | 阈值 | 人类 | AI |
---|---|---|---|
非常不可能(由 AI 生成,下同) | <0.1 | 5% | 2% |
不太可能 | 0.1-0.45 | 15% | 10% |
不清楚 | 0.45-0.9 | 50% | 34% |
可能 | 0.9-0.98 | 21% | 28% |
大概率 | >0.98 | 9% | 26% |
数据来源:OpenAI API
水印就是通过在模型中选择一系列随机的 token,在生成时让模型使用这些 token,从而通过统计学概率判断是否由某个模型生成。
对抗
对于分类器的方法,本身判断的准确率不够高,甚至不足以做定性的判断。
对于水印的方法,只要对原文做一定修改即可。例如随机替换部分单词为其同义词,或者针对一些水印/隐写方法(例如零宽字符、emoji等)做清理即可。