研究チームはまず詩を自分の手で書き、その詩をもとに「有害な詩的プロンプト」を自動生成するモデルを訓練した。「その結果、人間が書いた詩のほうが攻撃成功率は高かったものの、自動生成された詩的プロンプトも、通常の散文と比べればはるかに高い成功率を示しました ...