知乎技术沙龙:自研大模型推理框架 ZhiLight 正式开源

12 月 7 日,知乎自研t正知乎联合 DataFun 举办主题为《大模型应用工程化实践:从实验室到千万级用户产品》的技术沙龙。知乎 AI 算法负责人王界武、技术架机器学习平台负责人王新、沙龙式开百川智能大语言模型资深算法专家王宇龙以及“提示词布道师”李继刚带来大模型相关的大模专业分享和深度交流,吸引来自 15 个行业、130 家企业参会者到场。型推知乎 CTO 孙斌在现场宣布,理框知乎自研的轻量高效大模型推理框架 ZhiLight 正式开源。

知乎直答与推理框架 ZhiLight:知乎加速大模型工程化实践

知乎技术沙龙:自研大模型推理框架 ZhiLight 正式开源

2024 年知乎持续推进大模型工程化实践,知乎自研t正于 6 月、10 月相继推出知乎直答及其专业搜索功能,技术架聚焦专业人士的生产力场景,更是将 AI 搜索推进到更具专业、实用性的沙龙式开深度搜索能力拓展阶段。


(知乎 AI 算法负责人王界武)

在技术沙龙上,大模知乎 AI 算法负责人王界武详细介绍了知乎直答从 0 到 1 的搭建过程,并重点分享了技术方案选型和「踩坑」经历。据介绍,型推知乎直答团队在构建AI问答系统时,对比了两种技术路线:LLM 持续 pretrain+posttrain 以及检索增强生成(RAG)方案,最终后者在成本、时效性、理框准确性、知乎自研t正可扩展性等多维度胜出。技术架当用户提问时,沙龙式开RAG 系统先从知识库检索相关信息作为上下文,再由大语言模型生成回答。团队通过在 Query 理解、召回、大模型生成等多个环节深入优化,显著降低了 AI 的幻觉问题,使得答案具备更高的准确性和权威度。

在专业搜索功能侧,知乎直答团队使用了多种前沿技术。不仅实现了多智能体的协同工作,支持信息查询、内容分析、数学计算等多种功能,还结合大语言模型强大的推理能力,对用户的上下文和提问进行深入分析,从多角度、多层次召回多样且高质量的内容。此外,知乎直答专业搜索还在思维链提示词工程、智能文档解析、动态资源调度等多个技术模块实现突破。

王界武介绍,下一步,知乎直答团队计划将产品与社区深度融合,满足更多场景下用户找答案的需求,在准确性、时效性、交互模式等领域实现更多升级。同时将进一步提升模型的推理能力,使知乎直答具备更强的解决复杂问题能力和使用体验。

除了知乎直答,知乎自研的大模型推理框架 ZhiLight 也在本次活动上正式亮相。知乎机器学习平台负责人王新介绍,知乎在多种型号的英伟达设备上部署了大量的大模型推理服务,优秀的开源项目 vLLM、SGLang 广泛应用于知乎内部。


(知乎机器学习平台负责人王新)

与此同时,知乎也在探索更低成本、更具可扩展性的自研推理框架方案。2023 年开始,知乎与面壁智能合作开发知海图大模型以及一系列大模型训练与推理工程架构。其中 ZhiLight 的设计目标是可以快速部署与实践 LLaMa-like 模型。


(ZhiLight 卡间通讯优化效果)

据介绍,ZhiLight 目前兼容 OpenAI chat/completions 接口,监控指标上与 vLLM metrics对齐,便于日常使用及以及与 vLLM 等开源引擎的性能与稳定性对比。ZhiLight 的优化侧重于 PCIe 卡间通讯优化、内存管理以及并发请求管理优化,同时还集成了 FlashAttention、Marlin、TensorRT、exllama 等开源项目。其中,ZhiLight 通过计算与通讯 overlap 、以及低精度通讯等手段,单层 Transformer 计算时间降低了 40% 以上。


(ZhiLight 引擎的性能表现)

如上图,模型规模达到 70B 时,多卡推理受卡间通讯影响愈加明显,ZhiLight 在 TTFT 指标上要明显优于目前主流的开源推理引擎,并且在 110B 规模情况下 ZhiLight 的优势进一步扩大。


(知乎 CTO 孙斌)

最后,知乎 CTO 孙斌在现场宣布,ZhiLight 已经正式开源(https://github.com/zhihu/ZhiLight)。未来,知乎希望与科技行业、技术从业者一起共建开源开放的交流社区,并推动前沿技术讨论从知乎线上延伸到线下。

AgentAGIPrompt……大模型技术前瞻与畅想

从  Agent 到 AGI 我们还有多远?百川智能大语言模型资深算法专家王宇龙从一个探索 Agent 极限实验开始,详细介绍了为什么要构建 Agent。


(百川智能大语言模型资深算法专家王宇龙)

在他看来,基于 LLM 驱动的智能体相较于传统 Agent,利用了大型语言模型(LLM)的强大能力,彻底改变了智能体的工作方式。这类智能体不仅仅是完成单一任务的工具,它们能够在各种不同的任务之间切换,并且通过理解自然语言来解决问题,其核心能力可以被分解为:规划、记忆、工具使用。

王宇龙还介绍,当前 Agent 面临的主要问题:缺乏理论指导、架构百花齐放、思路千奇百怪、效果参差不齐,并进一步介绍了 Agent 和 LLM 的底层细节。

王宇龙认为,科学之所以可能,是因为存在一些可计算简化的区域,这些区域即使在普遍的不可计算简化之中也允许规律和预测的存在。人工智能有可能以新的方式发现并利用这些简化的区域。AI非常适合通过捕捉数据中的规律来做出近似、「大致正确」的预测,这与人类思维的方式相似。但是它在进行精确、详细的预测时会遇到困难,特别是在面对计算不可约性的时候。

Prompt是什么?「提示词布道师」李继刚在本次交流会分享了关于Prompt的道与术。他提出「Prompt = 表达」,而「表达 = 本意+文意+解意」,并进一步阐述了「本意 = 经验+词汇+知识」的概念,以及大模型与 Prompt 的关系:模型效果 =LLM*(Task+Promt)。


(「提示词布道师」李继刚)

李继刚在会上分享了大量 Prompt 实战经验。他认为,去年 Prompt 的关键词是从短到长,今年的关键词则是从长到短,但最本质的,还是要与大模型实现「共振」。ChatGPT 兴起时,他和很多人一样,给大模型写很长的 Prompt,但今年开始,他更习惯把 Prompt 压缩成一个词来开启大模型的解压过程。在他看来,用最清晰、简洁的表达,指向核心本质,才是切中肯綮的最优解。

李继刚认为,Prompt 工程师应该具备人文和技术两项基本素质,既要能写编程,要有理性数学的思维,又要会写作,有感性表达的思维。


(知乎智能算法部负责人张亚峰)

此次大模型技术沙龙由知乎发起,联合 Datafun 举办,同时也是知乎系列技术沙龙的第一场。知乎智能算法部负责人张亚峰表示,每天都有大量行业内对大模型感兴趣的朋友们在知乎讨论新技术和应用经验,我们会继续把这些高质量的讨论延伸到线下,组织一系列类似的高质量活动,未来知乎将进一步加强与科技行业、技术从业者的交流联动,为互联网行业前沿技术研发和应用贡献力量。