OpenAIが「大規模言語モデルが人間の知能にどれだけ近づいたか」を評価する基準を作成