中国科技行业战略：英伟达发布ChatwithRTX，用户门槛大大降低，全民AI时代来临

[Table_yejiao1] 本研究报告由海通国际分销，海通国际是由海通国际研究有限公司，海通证券印度私人有限公司，海通国际株式会社和海通国际证券集团其他各成员单位的证券研究团队所组成的全球品牌，海通国际证券集团各成员分别在其许可的司法管辖区内从事证券活动。关于海通国际的分析师证明，重要披露声明和免责声明，请参阅附录。(Please see appendix for English translation of the disclaimer) [Table_yemei1] 热点速评 Flash Analysis [Table_summary] (Please see APPENDIX 1 for English summary) 事件 2024 年 2 月 13 日，英伟达发布“Chat with RTX”聊天机器人，该应用程序利用了 NVIDIA 自研的技术栈，通过 RTX GPU加速和 TensorRT-LLM 技术，实现了快速、准确、安全的本地 AI 应用。点评英伟达官方推出的可本地部署的大模型应用程序。该应用利用检索增强生成 (RAG)、TensorRT-LLM 和 RTX 加速，基于llama2-13B 和 mistral-7B 两大开源模型，可以使用户便捷地连接到其个人 Windows RTX PC 或工作站的本地资料（文档、笔记、视频或其他数据），并且按照上下文提供答案。Chat with RTX 具备 1）广泛的文件格式支持；2）视频文件处理；3）本地部署；4）友好的 UI 设计等主要特性。针对 RTX 显卡优化推理，受限于底层模型，表现较主流云端 GPT 有较大差距。技术架构上看，Chat with RTX 基于TensorRT-LLM RAG 开发者参考项目 trt-llm-rag-windows 构建而成，底层模型采用开源的 llama2-13B 和 mistral-7B，前端采用 Gradio 架构，并采用英伟达开源的检索增强生成（RAG）算法。得益于针对 RTX 显卡专门设计的推理框架，Chat with RTX 推理过程中显卡效用得到充分发挥，据部分开发者实测 RTX 3090 配置下 mistral 推理速度超过 60 token/s。但另一方面，由于当前支持的 llama2-13B 和 mistral-7B 两个大语言模型相对老旧且中文支持较差，实际性能表现较目前主流云端 GPT 差距较大。最大程度降低用户门槛，有望加速推动本地化 AI 应用全面开花。既此前推出的 AI 开发工具包 NVIDIA AI Workbench，英伟达此次发布的 Chat with RTX 进一步提供了一整套简单易用的 LLM 本地化部署方案，适合占比较大的非开发者群体，极大降低了用户使用门槛，同时解决了数据隐私等痛点，有望使本地大模型应用快速推广到普通用户。同时，得益于小模型性能的快速提高和英伟达持续的开源生态，我们认为 Chat with RTX 或将在开源社区继续迭代，或将随着用户需求逐步培育，进一步刺激本地化 AI 应用全面开花。风险行业竞争加剧，技术发展不及预期。 [Table_Title] 研究报告 Research Report 21 Feb 2024 中国科技战略 China Technology Strategy 英伟达发布 Chat with RTX：用户门槛大大降低，全民 AI 时代来临 NVIDIA Released Chat with RTX: The User Threshold Has Significantly Decreased, Heralding the Arrival of the Era of Ubiquitous AI 姚书桥 Barney Yao 王凯 Kai Wang, CFA barney.sq.yao@htisec.com k.wang@htisec.com 21 Feb 2024 2 [Table_header1] 中国科技战略 China Technology Strategy 什么是“Chat with RTX” “Chat with RTX”是英伟达官方推出的可本地部署的大模型应用程序。该应用利用检索增强生成 (RAG)、TensorRT-LLM 和 RTX 加速，基于 llama2-13B 和 mistral-7B 两大开源模型，可以使用户便捷地连接到其个人 Windows RTX PC 或工作站的本地资料（文档、笔记、视频或其他数据），并且按照上下文提供答案。 “Chat with RTX”的特性： 1）广泛的文件格式：支持包括 .txt、.pdf、.doc/.docx 和 .xml 在内的多种文件格式，将应用程序指向含有这些资料的文件夹，Chat with RTX 工具就会在几秒钟内将它们载入到资料库中。 2）支持视频文件：用户可在 Chat with RTX 里加入 YouTube 视频网址，Chat with RTX聊天机器人即可对视频转录文本并进行上下文查询。 3）本地部署：Chat with RTX 是一个本地部署的应用程序，利用 Nvidia RTX GPU 的强大计算能力，且无需向云服务器传输敏感数据，因此可以提供快速响应的交互体验和更高的数据安全保障。 4）友好的 UI 设计：Chat with RTX 提供了一整套友好的用户界面，适合不同技术背景的用户使用，大大提高了用户的 AI 交互体验。图 1 Chat with RTX 使用案例资料来源：英伟达，海通国际 21 Feb 2024 3 [Table_header1] 中国科技战略 China Technology Strategy “Chat with RTX”的配置要求：平台：Windows PC 显卡：NVIDIA GeForce® RTX 30 或 40 系列 GPU 或配备至少 8GB VRAM 的 NVIDIA RTX™ Ampere 或 Ada Generation GPU 显存：16GB 或更高操作系统：Windows 11 （后测试 Windows 10 即可运行） “Chat with RTX”性能如何？针对 RTX 显卡优化推理，受限于底层模型，表现较主流云端 GPT 有较大差距。技术架构上看，Chat with RTX 基于 TensorRT-LLM RAG 开发者参考项目 trt-llm-rag-windows 构建而成，底层模型采用开源的 llama2-13B 和 mistral-7B，前端采用 Gradio 架构，并采用英伟达开源的检索增强生成（RAG）算法。得益于针对 RTX 显卡专门设计的推理框架，Chat with RTX 推理过程中显卡效用得到充分发挥，据部分开发者实测 RTX 3090 配置下 mistral 推理速度超过 60 token/s。但另一方面，由于当前支持的 llama2-13B 和mistral-7B 两个大语言模型相对老旧且中文支持较差，实际性能表现较目前主流云端GPT 差距较大。图

立即下载

综合

2024-02-22

海通国际

11页

1.94M

[海通国际]:中国科技行业战略：英伟达发布ChatwithRTX，用户门槛大大降低，全民AI时代来临，点击即可下载。报告格式为PDF，大小1.94M，页数11页，欢迎下载。

本报告共11页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共11页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

中国科技行业战略：英伟达发布ChatwithRTX，用户门槛大大降低，全民AI时代来临

关于我们

联系我们

中国科技行业战略：英伟达发布ChatwithRTX，用户门槛大大降低，全民AI时代来临

关于我们

联系我们

小程序

公众号