中国科学院:ChatGPT对文献情报工作的影响
ChatGPT 对文献情报工作的影响(简版)1ChatGPT 是什么?ChatGPT(Chat Generative Pre-training Transformer,生成型预训练转换程序)发布于 2022 年 11 月 30 日,是由 OpenAI 公司研发的人工智能对话系统。由于其能在诸多知识领域中给出清晰、详尽的答案,甚至写出接近真人撰写的文章,自推出后便迅速获得关注。ChatGPT 是什么,可以从以下五个方面来把握。(1)ChatGPT 的对外表现是一个聊天机器人。它能够通过学习和理解人类语言来与人进行对话,具有依据对话的上下文环境来回答问题的能力,就像人一样来与人类进行聊天交流。(2)ChatGPT 的实际本质是人工智能生成技术。它是人工智能内容生成(Artificial Intelligence Generate Content,AIGC)技术的具体应用。它在学习人类语言和相关领域知识的基础之上,具有了智能化的内容创作能力,能够自动生成特定的内容。(3)ChatGPT 的关键基础是生成式大规模语言模型。即基于生成式预训练的变换器(Generative Pre-trained Transformer,GPT),它以生成式的自监督学习为基础,从 TB 级训练数据中学习隐含的语言规律和模式,训练出的千亿级别参数量的大规模语言模型。(4)ChatGPT 的核心技术是 InstructGPT。它采用了基于人类反馈的强化学习(Reinforcement Learning with Human Feedback,RLHF),让人工智能模型的产出和人类的常识、认知、需求、价值观保持一致。(5)ChatGPT 的主要特点是与前期类似产品相比,编造事实大幅下降,生成的毒内容更少。它在一定程度上解决了传统语言模型在复杂多领域的知识利用、演绎推理、欺骗性反应等方面的缺陷,使回答更具有用性和真实性,具有编造事实大幅下降,生成的模仿性谎言(imitative falsehoods)、毒内容(toxic output)更少的重要特征。ChatGPT 的核心技术体系如图 1 所示。图 1 ChatGPT 的核心技术体系2人工智能技术迅速发展给文献情报工作的启示以 ChatGPT 为代表的人工智能技术近年取得飞速突破,相关成果广泛应用于各个领域,对社会各行业都产生了巨大冲击。总结近十余年来人工智能的主要发展历程,我们认为人工智能取得突飞猛进的根本原因在于计算机学习知识、开发利用知识的模式已经改变。能够从各类数据资源(语料)中快速高效地学习到隐藏于这些数据资源中的知识是 AI 飞速突破的本质所在。以 ChatGPT 为代表的 AI 技术的迅速发展源于知识学习能力的大幅提升。它带给文献情报机构提升知识学习有以下启示:(1)计算机解决问题模式已改变,机器学习成为获取解决问题所需知识的重要手段。机器学习改变了计算机解决问题的模式。原来是人输入知识让机器解决问题;而现在,是让机器从相关语料中学习知识,再让机器利用学习到的知识去解决相关的问题。在这一过程中,隐藏着重要人类知识的大样本训练语料至关重要。这些以语料为表征的人类知识才是机器学习取得飞速突破的关键。(2)深度学习的性能提升,除模型突破之外,更要归功于语料和算力。各类深度学习模型是基础,大量可计算数据资源(训练语料)是前提,大规模计算能力是催化剂。拥有大样本训练语料和大规模计算能力,使得基于人工神经网络深度学习的知识学习性能大幅提升。(3)自然语言处理的技术已经重写,无监督的预训练对于知识学习有重要价值。基于预训练(Pre-Training)和微调(Fine-Tuning)的两阶段学习方法,改写了自然语言处理(NLP)方式,无监督的预训练具有重要价值。利用大规模非标注语料的无监督的预训练,能够使模型从语料中学习到语言表达模式、文字前后逻辑、知识元间关系等知识内容,提高了模型的泛化能力和鲁棒性。在此基础上只用少量标注语料进行微调,即可在特定下游任务中取得较好的效果。(4)ChatGPT 并不是无来由的横空出世,而是学习能力从量变到质变的重大突破。回顾历史来看,从最初的 1.17 亿参数、5GB 语料、12 层 Transformer的 GPT-1 模型,到目前的 1750 亿参数、45TB 语料、96 层 Transformer、采用人类反馈强化学习的 ChatGPT 模型。ChatGPT 是语料、模型、算法,通过迭代训练不断积累而成的。人工智能知识学习能力上,每一个小小的进步都是有价值的,久久为功,不断进步,最终实现了从量变到质变的转换。(5)ChatGPT 是集成创新的成果,学习能力的提升得益于软件、硬件、技术、语料的有效集成。为了适应模型参数量的激增,OpenAI 收集、标注了更多的原始训练语料;为了实现更贴近人类的对话效果,研发了基于人类反馈的强化学习方法;为了加速模型训练,部署了 28 万个 CPU 内核、1 万个 GPU 的超级计算机。通过软件、硬件、技术、语料有效的集成,才使得 ChatGPT 的知识学习能力获得质的飞跃,造就了当前 ChatGPT 出色的表现。3ChatGPT 对文献情报工作的影响(1)改变文献情报数据组织方式,从表面信息组织到语义内容组织。科技文献情报原始的组织方式往往以题目、摘要、关键词、机构、期刊等表面信息组织为主,较少深入到文献内容中。随着 AI 技术发展,从科技文献中精确挖掘细粒度知识对象的能力得到提升,以科技文献中研究问题、研究方法、实验步骤、数据资料等深入到文献内容的语义内容组织成为可能。(2)改变文献情报知识服务的模式,从信息检索到知识问答。目前,文献情报知识获取服务主要基于文献元数据,通过元数据索引实现对海量科技文献数据的检索与获取。ChatGPT 等技术可以在语义层面理解论文内容,识别结构化细粒度知识元,形成大规模知识网络。ChatGPT 推动了从索引式信息检索方式向问答式知识应答方式的转变。在未来,或许能够实现一种新型的知识问答服务,即用户向智能知识服务平台提问后,平台能够直接生成该问题的答案,并给出答案的相关证据链。(3)改变文献情报分析方法,从手工作坊到大规模智能分析。文献情报分析过程包括数据准备、统计分析、观点提炼以及报告撰写等一系列复杂工作,往往由人类手工完成。类 ChatGPT 人工智能技术已具有观点提炼、内容综述、场景问答、语言翻译、语义分析、智能推荐、辅助决策的潜在能力,可以为情报分析人员提供智能化工具,辅助文献情报分析工作。(4)带来文献情报服务安全问题,须建立风险管控机制。泛知识化大模型不能保证回答质量,而文献情报领域对数据可信度具有更高的要求,基于伪数据、伪造事实生成的情报报告必然是不可信的。掌握智能服务的数据控制权是做好应用的重中之重,同时建立完善的数据循证体系,附加数据证据链、数据来源详情,实现对风险的有效管控和溯源。(5)对用户阅读习惯的影响,引导人机协同阅读新模式。类 ChatGPT 技术可能对用户阅读文献资源的方式带来颠覆性的影响。用户输入待读文献资源,智能技术自动实现知识抽取、关系揭示,通过可视化方式进行展现,支持多维度的语义分析,并以交互式的方式应答用户的问题和设定,形成用户与人
中国科学院:ChatGPT对文献情报工作的影响,点击即可下载。报告格式为PDF,大小1.01M,页数9页,欢迎下载。



