

最新AI工具和功能加速RTXAIPC上的Windows應(yīng)用開發(fā)生成式AI賦能的筆記本電腦和PC正在推動游戲、內(nèi)容創(chuàng)作、生產(chǎn)力和程序開發(fā)更進(jìn)一步。目前,超過600款Windows應(yīng)用和游戲已在全球超過1億臺GeForceRTXAIPC上本地運行AI,提供快速、可靠的低延遲體驗。在MicrosoftIgnite大會上,NVIDIA與微軟聯(lián)合推出多個工具,幫助Windows開發(fā)者在RTXAIPC上快速構(gòu)建和優(yōu)化AI賦能的應(yīng)用,使本地AI更加便捷。這些新工具使應(yīng)用和游戲開發(fā)者能夠利用強(qiáng)大的RTXGPU加速AI智能體、應(yīng)用助手和數(shù)字人等應(yīng)用的復(fù)雜AI工作流。RTXAIPC通過多模態(tài)小語言模型為數(shù)字人賦能我們來認(rèn)識一下James,一個熟知NVIDIA及其產(chǎn)品的交互式數(shù)字人。James將NVIDIANIM微服務(wù)、NVIDIAACE和ElevenLabs數(shù)字人技術(shù)相結(jié)合,可提供自然的沉浸式交互體驗。NVIDIAACE是一套數(shù)字人技術(shù),可以讓智能體、助手和虛擬形象栩栩如生。為了深度理解信息,以更強(qiáng)的情境感知能力做出響應(yīng),數(shù)字人必須能夠像人一樣在視覺上感知世界。提升數(shù)字人交互的真實感,需要能夠感知和理解周圍環(huán)境更細(xì)微差別的技術(shù)。為此,NVIDIA開發(fā)了多模態(tài)小語言模型,可同時處理文本和圖像信息,在方面表現(xiàn)出色,并針對響應(yīng)速度進(jìn)行了優(yōu)化。NVIDIA即將推出的Nemovision-4B-Instruct模型利用最新的NVIDIAVILA和NVIDIANeMo框架進(jìn)行蒸餾、剪枝和量化,使其體積小到足以在RTXGPU上以開發(fā)者所需的精度運行。該模型使數(shù)字人能夠理解現(xiàn)實世界和屏幕上的視覺圖像,以做出相關(guān)的響應(yīng)。多模態(tài)作為智能體工作流的基礎(chǔ),讓我們得以窺見,屆時數(shù)字人只需極少的用戶輔助,即可進(jìn)行推理并采取行動。NVIDIA還推出了MistralNeMoMinitron128kInstruct系列模型,這是一套專為優(yōu)化的高效數(shù)字人交互而設(shè)計的長上下文小語言模型。這一系列模型提供8B、4B和2B參數(shù)版本的靈活選項,以平衡在RTXAIPC上運行的速度、顯存用量和模型精度。模型單次推理可以處理大量數(shù)據(jù),無需進(jìn)行數(shù)據(jù)分割和重組。這些模型提供GGUF格式,為低功耗設(shè)備的效率進(jìn)行優(yōu)化,并與多種編程語言兼容。利用面向Windows的NVIDIATensorRTModelOptimizer加速生成式AI將模型引入PC環(huán)境時,開發(fā)者面臨著有限的顯存和計算資源,這為本地運行AI提出了挑戰(zhàn)。開發(fā)者希望模型可以被更多人使用,同時精度損失最小。今天,NVIDIA公布了NVIDIATensorRTModelOptimizer(ModelOpt)的更新,為Windows開發(fā)者提供了針對ONNXRuntime部署的模型優(yōu)化方案。借助最新更新,TensorRTModelOpt可將模型優(yōu)化為ONNX格式,以便使用CUDA、TensorRT和DirectML等GPU運行后端在ONNX運行時環(huán)境中部署模型。最新更新使模型可優(yōu)化為ONNX檢查點,以便通過CUDA、TensorRT和DirectML等執(zhí)行提供商在ONNX運行時環(huán)境中部署模型,從而提高整個PC生態(tài)系統(tǒng)的精度和吞吐量。在部署時,與FP16模型相比,這些模型可將顯存占用減少2.6倍。這可提高吞吐量,同時精度損失降到最低,使其能夠在更多的PC上運行。詳細(xì)了解從WindowsRTXAIPC到NVIDIABlackwell驅(qū)動的Azure服務(wù)器等Microsoft系統(tǒng)開發(fā)者如何改變用戶日常與AI交互的方式。