DeepSeek之火,可以燎原
DeepSeek之火可 以 燎 原浙江大学DeepSeek系列专题线上公开课浙江大学人工智能教育教学研究中心中心人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研浙江报告提纲从中华文化基因看DeepSeek成功之道DeepSeek私有化应用方法DeepSeek的二点争议关于人工智能未来发展之路的思考浙江大学人工智能教育教学研究中心中心人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研浙江维克多-D.O.-桑托斯图片来源https://baijiahao.baidu.com/s?id=1809498908099648635&wfr=spider&for=pc唐僧,古典名著《西游记》中的人物。俗家姓陈,乳名江流儿,法名玄奘,号三藏。经藏总说根本教义,即佛学的经典著作记述戒规威仪,即律法和仪轨阐明经义,即历代高僧大德的读书笔记三藏律藏论藏求仁得仁,求佛得佛浙江大学人工智能教育教学研究中心中心人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研浙江维克多-D.O.-桑托斯开放、包容和共享历来是我们中华民族的美德以“自渡”为核心,追求个人和家人的幸福小乘法OpenAI以“利他”为核心,追求普度众生大乘法DeepSeek浙江大学人工智能教育教学研究中心中心人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研浙江维克多-D.O.-桑托斯英文的巴别塔魔咒巴别塔魔咒 :《圣经》中记载的一个故事,人类为了建造一座通天高塔(巴别塔)以彰显自己的智慧和力量,但上帝为了阻止这一计划,让人类说不同的语言,导致沟通障碍,最终高塔未能建成。这个事件象征着人类因沟通不畅而产生的分裂和冲突 。通用词汇,含历史词汇、方言、已经和即将废弃7万17万+专业词汇,各领域总和50万+总词汇量,含废弃词、科技术语100万+核心高频词约1000~2000个广义新增词8500~25000个年存量增量浙江大学人工智能教育教学研究中心中心人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研浙江维克多-D.O.-桑托斯英文将成为AI发展的巨大挑战2050年1.7个地球的算力浙江大学人工智能教育教学研究中心中心人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研浙江维克多-D.O.-桑托斯英文存储的低效和空间浪费图片来源 https://www.51wendang.com/doc/d47cc98a0233007f900cb41e/2cattle 牛meat 肉beaf 牛肉fly 飞airplane 飞机machine 机器英语发展简史浙江大学人工智能教育教学研究中心中心人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研浙江维克多-D.O.-桑托斯汉语的高效和可传承图片来源 https://mbd.baidu.com/newspage/data/dtlandingsuper?nid=dt_4327727722631580564汉字的演变史汉字起源于上古的象形文字,历经甲骨文、金文、小篆、隶书、楷书、简化字等演变,一路传承,蕴含着中华文明的核心基因密码。从甲骨灼烧的裂纹到手机屏幕的像素点,每一次形态革新都烙印着技术与文化的对话。构词法 搭积木,知识迁移现代常用字3700康熙字典46933甲骨文+金文5000存量增量中华字海8.5万生僻字,含古字5万0年几乎为浙江大学人工智能教育教学研究中心中心人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研浙江维克多-D.O.-桑托斯DeepSeek与ChatGPT训练语料对比ChatGPT 4DeepSeek• 总语料规模 13万亿token• 英文语料 占比约92.6%,主要来源于互联网公开文本,包括维基百科、新闻报道、书籍、学术论文、程序代码等• 中文语料 占比仅约0.1%,来源单一,学术文献不足,中文互联网内容(如社交媒体、论坛)噪声较多,需复杂清洗• 总语料规模:14.8 万亿 token,涵盖多语言、数学、编程等领域,其中 87% 代码、10% 英文、3% 中文• 中文语料特点:有约 2.3 亿字精校的古典文献;覆盖网络文学、社交媒体、学术论文等现代文本;通过 “千字文” 式分词算法增强对成语、典故理解• 数据处理技术:•过滤机制:采用多层净化技术(如 “八面受敌法”),数据噪音剔除精度达 99.7%。•分词优化:结合古典语法与现代汉语的分词算法,使成语理解准确率提升 38%。•长上下文支持:通过两阶段扩展训练,将上下文窗口扩展至 128K,增强长文本处理能力。浙江大学人工智能教育教学研究中心中心人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研浙江维克多-D.O.-桑托斯用汉字进行模型训练将在这场AI之争中胜出?中文:英文DeepSeek 1 : 3.33 ChatGPT 1 : 900 浙江大学人工智能教育教学研究中心中心人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研浙江维克多-D.O.-桑托斯大力出奇迹的范式增加参数增加数据提升性能增加算力增加算力算力性能AI垄断产业垄断思想禁锢学术垄断AlexNet18FLOPsBERT-Large20FLOPsGPT323FLOPsGrok32FLOPsGPT-4o27FLOPs浙江大学人工智能教育教学研究中心中心人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研浙江维克多-D.O.-桑托斯中华民族的不屈不挠精神我命由我不由天若前方无路我便踏出一条路DeepSeek的技术突围打破CUDA标准库壁垒,为非英伟达算力芯片提供机会采用思维链提升逻辑性能,实现模
[浙江大学]:DeepSeek之火,可以燎原,点击即可下载。报告格式为PDF,大小9.15M,页数56页,欢迎下载。