30倍速训练LLM,90%低内存,支持多GPU。