标题：AI模型在生成干净代码方面仍有待提高，对API误用率高达62%

最近，科学家对四个大型语言模型在解决Java编码问题上的表现进行了评估。这些模型包括GPT-3.5、GPT-4、Llama2和Vicuna-1.5。他们使用1208个StackOverflow上的Java编码问题来测试模型，这些问题涉及24个常见的Java API。

评估结果显示，这四个模型的代码质量表现不尽如人意。在零样本测试中，GPT-3.5和GPT-4的API误用率分别高达49.83%和62.09%。虽然Llama2的误用率最低，但这是因为它生成的代码较少。在提供相关示例的一次样本测试中，误用率仍然普遍存在，如下：GPT-3.5（31.13%）、GPT-4（49.17%）、Llama2（47.02%）和Vicuna-1.5（27.32%）。

研究表明，大型语言模型在生成代码时只保证了语义上的正确性，而忽视了意外输入和高负载环境下的稳定可靠性要求。这意味着，虽然模型生成的代码数量增加，但代码质量和可靠性仍需改进。为了提高代码质量，语言模型需要更加注重工程质量，而不仅仅是追求生成更多代码。