FacebookRef
看到這一幕,我不知道還要不要分享「如何從頭開始構建優化的LLM推理系統」的短期課程。
好吧,有興趣的朋友,Andrew Ng(吳恩達)旗下的DeepLearning.AI與Predibase合作,教你:
●了解LLM如何一次產生一個token,以及KV快取、連續批次和量化等技術如何加快LLM推理速度並優化記憶體使用以服務多個用戶。
●對這些LLM最佳化的效能進行基準測試,探索服務單一使用者與多個使用者之間的權衡。
●使用LoRA等技術在單一裝置上有效地供應數百個客製化的微調模型,而不犧牲吞吐量。
●使用Predibase的LoRAX框架查看最佳化技術在LLM伺服器上的實際應用。