大语言模型长文本推断优化技术综述