Typefully
@Jimmy_JingLv
Log in
How I use LLMs 视频章节总结
Share
•
12 days ago
•
View on X
每个人都应该看一看
@Karpathy
的最新 2h+ 视频:How I use LLMs,了解最牛的“AI 创造者”是如何使用LLMs的,以及为什么要这么用的第一性原理。我最喜欢的就是这一类实操视频,包括写代码,而不是所谓抽象概念的“伪PPT视频”,因为可视化的操作动作,确实能从视觉上,帮你在特定的用例下建立心智模型。这也激励了我自己,继续坚持做这一类实际操作演示的长视频,跟 AK 一样,我也非常鼓励大家多使用语音交互,因为它确实更快捷方便,我最新的 Roam Research 视频 (~1h) 也会重点分享这一点。 视频主题:💡 LLM 应用速览 本视频介绍了大型语言模型(LLM)的基本原理和多种应用,包括信息验证、模型选择、复杂问题解决、信息搜索、深度研究、文档辅助阅读、编程、数据分析、以及利用Claude的Artifacts创建应用。强调验证LLM输出的重要性,并鼓励用户根据需求选择合适的模型和工具。此外,视频还提及LLM在代码编写、语音交互、图像处理、视频生成等方面的应用,以及ChatGPT的记忆功能和自定义指令。最后,强调根据个人需求和偏好,在各种LLM应用中进行实验和选择。 00:00 - Intro into the growing LLM ecosystem 本视频将继续探讨大型语言模型(如ChatGPT)的实际应用。上一期视频深入探讨了这些模型的训练方式和认知原理。本期视频将展示大量示例,介绍各种设置,并分享如何将这些工具应用于生活和工作中。视频将以OpenAI的ChatGPT为例,但也会介绍其他类似的应用,如谷歌的Gemini、Meta的、微软的Copilot、Anthropic的Claude、XAI的Grok,以及中国的DeepSeek和法国的Mistral。观众可以通过Chatbot Arena和Scale AI等排行榜来了解不同模型的性能。虽然ChatGPT是目前功能最丰富的,但视频也会逐步介绍其他模型。 02:55 - ChatGPT interaction under the hood 与大型语言模型(LLM)的互动方式是,我们输入文本,它返回文本作为回应。例如,我们可以要求它写一首关于成为大型语言模型的俳句。LLM擅长写作,所以它们可以写俳句、诗歌、求职信、简历和电子邮件回复。 在底层,我们和LLM之间的“对话”实际上是文本被分解成称为“tokens”的小块。我们的查询和LLM的回复都是tokens序列。我们可以使用工具查看这些tokens。 LLM的“记忆”或“上下文窗口”是一个tokens序列。当我们开始新的对话时,这个tokens序列会被重置。我们可以向这个序列中写入tokens,然后LLM会用它自己的tokens序列来回应。 LLM本身可以被认为是一个压缩的“zip文件”,其中包含了从互联网上学习到的知识(预训练阶段)和人类训练师赋予它的人格(后训练阶段)。这个“zip文件”包含了神经网络的参数,神经网络试图预测序列中的下一个token。LLM的知识可能有点过时,因为它是在一段时间前进行预训练的。重要的是,LLM是一个独立的实体,没有计算器、网络浏览器或其他工具。 13:13 - Basic LLM interactions examples 说话者分享了如何使用大型语言模型(LLM)的两个例子。第一个例子是询问一杯美式咖啡的咖啡因含量,并验证了模型的回答。第二个例子是咨询感冒药,并核对了模型提供的药物成分信息。说话者强调,对于常见且非高风险的信息,LLM可以提供有用的帮助,但需要验证其准确性。此外,说话者建议在切换话题时开始新的聊天,以避免上下文窗口中的token过多,从而提高模型效率和准确性,并降低计算成本。 18:04 - Be aware of the model you're using, pricing tiers 要点是,要清楚你正在使用的模型。不同的LLM提供商(如OpenAI、Anthropic、Google、Grok)提供不同定价层级的模型。例如,OpenAI的GPT-4o比GPT-4o Mini更强大,但需要付费订阅才能获得完整访问权限。根据你的需求和预算,选择合适的模型。如果专业使用,可能需要考虑付费使用更高级的模型。可以尝试不同的提供商和定价层级,找到最适合你的方案。作者甚至会同时使用多个模型,将它们视为“LLM委员会”,以便获得更全面的建议。 22:54 - Thinking models and when to use them 这段视频介绍了“思考模型”的概念,这是通过强化学习训练的大语言模型(LLM),它们在解决问题时会模拟人类的思考过程,例如尝试不同方案、回溯和重新评估假设。这种模型特别擅长解决需要深入思考的数学和代码问题,能显著提高准确率。虽然思考模型需要更长的处理时间,因为它们会生成大量的token,但对于复杂问题来说,等待是值得的。视频中展示了几个例子,说明了思考模型在解决编程问题时比非思考模型更有效。不同的LLM提供商可能会提供不同的思考模型,用户可以根据问题的复杂程度选择是否启用“思考”模式。 31:01 - Tool use: internet search 本节将介绍如何让语言模型使用工具,特别是互联网搜索。 之前的模型只能通过文本交互,像一个封闭的“压缩包”,没有工具。 现在,目标是赋予模型使用工具的能力。 互联网搜索是一个非常有用的工具。 举例来说,如果想知道《白莲花》第三季第二集何时播出,以前需要手动在谷歌上搜索,点击链接,筛选信息。 现在,模型可以自动进行搜索,访问网页,提取内容,然后将所有信息放入上下文窗口,直接给出答案。 模型会发出一个特殊的“搜索”令牌,应用程序会停止采样,根据模型提供的查询进行搜索,并将搜索结果添加到上下文窗口。 这样,模型就可以利用互联网上的最新信息来回答问题,即使这些信息不在其预训练知识库中。 不同的模型和应用对互联网搜索的集成程度不同,有些模型会自动检测是否需要搜索,有些则需要手动选择搜索功能。 演讲者分享了自己使用互联网搜索工具的例子,例如查询市场是否开放、电视剧拍摄地点、公司产品更新、最新传闻、股票走势等。 总之,利用互联网搜索工具,模型可以更有效地获取最新信息,解决各种问题。 42:05 - Tool use: deep research 这个演讲者介绍了一个名为“深度研究”的ChatGPT Pro功能,每月收费200美元。它结合了互联网搜索和深度思考,可以花费数十分钟来研究特定主题。演讲者举例说明,他使用深度研究来了解Brian Johnson的“长寿混合物”中的成分,例如AKG。他展示了如何使用深度研究提出问题,并让模型进行研究,生成包含引用的报告。他还提到了其他类似功能,例如Perplexity的“Deep research”和Grok的“Deep search”。演讲者认为ChatGPT的深度研究目前是最彻底的,但强调所有结果都可能存在幻觉,应作为初步草稿,并需要进一步验证。他还分享了使用深度研究比较浏览器和研究小鼠寿命延长的例子,并展示了一个尝试创建美国LLM实验室列表的失败案例,强调了该工具的局限性。 50:57 - File uploads, adding documents to context 这段视频主要介绍了如何利用大型语言模型(LLM)辅助阅读。核心思想是,通过将具体的文档(例如论文、书籍章节)上传到LLM的上下文窗口中,让LLM能够基于这些文档的内容回答问题、进行总结,从而帮助读者更好地理解和吸收信息。 视频中提到,这种方法尤其适用于阅读专业性强或年代久远的文章,可以显著提高阅读效率和理解程度。 尽管目前还没有便捷的工具能够完美实现这一流程,但作者仍然强烈推荐尝试这种方法,并鼓励大家不要再独自阅读书籍。 59:00 - Tool use: python interpreter, messiness of the ecosystem 大型语言模型(LLM)的一个强大工具是使用Python解释器,让LLM能够编写和运行计算机程序。当遇到复杂问题时,LLM会生成包含Python代码的特殊token,指示应用程序运行该程序并返回结果。LLM接收结果后,会将其呈现给用户。不同的LLM可能拥有不同的工具,例如,有些LLM可以使用Python或JavaScript,而有些则可能没有编程工具,只能尝试在内部计算,这可能导致不准确的结果。因此,需要了解不同LLM的工具能力,以避免依赖不准确的“幻觉”答案。 01:04:35 - ChatGPT Advanced Data Analysis, figures, plots ChatGPT 的高级数据分析功能可以充当初级数据分析师,帮助用户收集、上传数据并进行可视化。用户可以通过搜索工具获取数据,并要求 ChatGPT 绘制图表。然而,需要注意的是,ChatGPT 在处理数据时可能会做出隐含假设或产生幻觉,导致结果不准确。因此,用户必须仔细审查 ChatGPT 生成的代码,验证结果,以避免错误。虽然该功能强大且方便,但用户需要具备一定的代码阅读能力和数据分析知识,才能有效利用并避免潜在的错误。 01:09:01 - Claude Artifacts, apps, diagrams 这段文字介绍了Claude的Artifacts功能,它允许用户通过与Claude对话,让Claude编写并部署定制化的应用程序。例如,用户可以要求Claude根据一段文本生成闪卡应用,Claude会编写React代码,并在浏览器中直接运行该应用。虽然这些应用是本地的,没有后端数据库,但可以实现一些基本功能。此外,Artifacts功能还可以用于生成概念图,例如,用户可以上传一本书的章节,要求Claude创建一个概念图,Claude会使用Mermaid库生成图表,帮助用户理解章节的结构和论点。总而言之,Artifacts提供了一种新的应用开发模式,用户可以通过对话快速创建定制化的工具和可视化内容。 01:14:02 - Cursor: Composer, writing code 说话者展示了大型语言模型(LLM)在编写代码方面的能力,并指出虽然像ChatGPT这样的应用可以在浏览器中部分运行代码,但它们缺乏足够的上下文来进行专业的代码编写。因此,说话者更喜欢使用像Cursor这样的独立应用程序,这些程序可以访问本地文件系统,并利用LLM(如Claude)的API来自动生成和编辑代码。通过Cursor的“composer”功能,用户只需给出高级指令,LLM就能自主地修改多个文件,实现“Vibe coding”。 说话者演示了如何使用Cursor和Claude快速创建一个简单的井字游戏,并添加了诸如获胜时播放音效和显示彩带等功能,展示了这种开发方式的效率和潜力。即使出现问题,用户仍然可以回退到传统的编程方式进行调试和修改。 01:22:30 - Audio (Speech) Input/Output 这段文字主要介绍了如何通过语音与大型语言模型(LLM)进行交互,而不是传统的文本输入。演讲者提到,在手机上使用语音输入更为方便,并介绍了ChatGPT应用中的两种语音模式:一种是将语音转录为文本,另一种是语音模式(稍后介绍)。在桌面端,由于ChatGPT应用本身没有语音转文本功能,演讲者推荐使用第三方应用,如Super Whisper,来实现系统级的语音转文本。此外,许多应用也提供文本转语音功能,可以将模型的回复读出来。总而言之,演讲者鼓励大家多使用语音交互,因为它更快捷方便。 01:27:38 - Advanced Voice Mode aka true audio inside the model 这段文字主要介绍了LLM(大型语言模型)中“真音频”的概念,区别于以往通过文本转换实现的“假音频”。真音频直接处理音频数据,将音频分解成类似文本token的音频块,让模型能够理解和生成音频,从而实现更自然、更强大的语音交互。文章还提到了ChatGPT的“高级语音模式”和Grok应用,展示了真音频在不同场景下的应用,例如模仿不同声音、进行角色扮演等。虽然高级语音模式有时会表现得过于谨慎,但它代表了LLM语音交互的未来方向。 01:37:09 - NotebookLM, podcast generation Google 的 NotebookLM 允许用户上传文本、网页或 PDF 文件作为资料,然后与模型进行互动。除了可以提问并获得答案外,它还能根据上传的资料生成定制的播客。用户可以自定义播客内容,甚至在播客播放过程中提问。演讲者提到他会用这个工具来生成一些小众话题的播客,方便他在散步或开车时收听。他还分享了一个在 Spotify 上名为 "Histories of Mysteries" 的播客系列,这个系列也是用 NotebookLM 生成的,建议听众去收听,以便了解该工具的功能。 01:40:21 - Image input, OCR 大型语言模型(LLM)可以将图像转化为一系列的“令牌”,就像处理文本和音频一样。图像被分割成小块,每个小块用一个预定义的“词汇表”中的最接近的“令牌”来表示。这样,图像就可以被视为令牌流,输入到LLM中。LLM本身并不区分文本、音频或图像令牌,只是学习统计模式。演讲者分享了几个使用LLM处理图像的例子,包括分析营养标签、解读血液测试结果、理解数学表达式、分析牙膏成分以及解释网络迷因。他强调了转录准确性的重要性,并建议分步骤进行,先转录成文本,再提问。他还提到,虽然LLM很有用,但对于医疗信息,最好还是咨询医生。 01:47:04 - Image output, DALL-E, Ideogram, etc. 大型语言模型(LLM)可以生成图像,OpenAI的DALL-E 3是其中一种,能根据任意提示词生成精美图像。虽然演讲者本人不常用DALL-E,但他会用类似功能的其他工具(如Ideogram)来生成YouTube视频的封面和图标。目前,ChatGPT生成图像的方式是先根据提示词生成图像描述,然后将描述发送给独立的图像生成模型。 01:49:15 - Video input, point and talk on app 演示者展示了移动应用上的“高级语音”功能,该功能允许模型通过摄像头观看视频。用户可以对着摄像头展示物体并提问,模型能够识别物体并给出相关信息,例如识别声学泡沫板、书籍(《成吉思汗与现代世界的形成》、《你肯定是在开玩笑吧,费曼先生》)、CO2监测仪(Aeronet 4)和地图(《指环王》中的中土世界地图)。演示者认为该功能对于不熟悉复杂应用的用户(如父母或祖父母)非常友好,他们可以通过摄像头直接与模型互动。虽然底层技术可能并非实时视频流,而是图像快照,但用户体验上感觉像是视频流。演示者个人不常用此功能,但认为它适合向不熟悉技术的人展示。 01:52:24 - Video output, Sora, Veo 2, etc etc. 现在有很多AI视频生成工具,它们发展迅速且效果惊人。虽然演讲者个人不常用这些工具,但他展示了一个月前的推文,比较了不同AI模型生成“丛林中的老虎”的效果。其中,V2模型的效果接近最先进水平,其他模型也各有风格和质量。 01:53:30 - ChatGPT memory, custom instructions 这段视频主要介绍了ChatGPT的两个实用功能:记忆功能和自定义指令。记忆功能允许ChatGPT记住用户在对话中提到的信息,并将其存储在“记忆库”中,以便在后续对话中参考,从而更好地了解用户并提供更相关的回复。用户可以管理和编辑这些记忆。自定义指令功能允许用户调整ChatGPT的个性化设置,例如语气和回复风格,以及提供关于用户身份和偏好的信息,以便ChatGPT更好地满足用户的需求。记忆功能目前可能是ChatGPT独有的,而自定义指令功能在其他LLM中也比较常见。 01:58:38 - Custom GPTs 这段视频主要介绍了如何使用自定义GPTs进行语言学习,特别是韩语。作者展示了三个例子: 1. **韩语词汇提取器:** 输入韩语句子,GPT会提取词汇并以“韩语;英语”的格式呈现,方便制作闪卡。这通过简单的提示工程实现,关键在于提供详细的指令和几个示例(few-shot prompting)。 2. **韩语详细翻译器:** 相比于谷歌翻译等工具,这个GPT能更详细地翻译韩语句子,并逐字逐句地分解翻译,方便理解。同样,通过提供详细的指令和XML格式的示例来实现。 3. **韩语字幕OCR翻译器:** 截取包含韩语字幕的视频截图,GPT会先进行OCR识别,然后翻译并分解句子。 作者强调,自定义GPTs的核心优势在于节省重复提示的时间,将常用的提示保存下来,只需每次输入不同的句子即可。他认为GPT在语言翻译方面优于其他工具,并鼓励用户根据自己的需求创建自定义GPTs。 02:06:31 - Summary 总结:目前大型语言模型(LLM)应用生态系统发展迅速,ChatGPT是其中功能最丰富的,但其他应用也在快速发展,甚至在某些方面超越ChatGPT。选择应用时,需要考虑模型的大小(影响知识和创造力)、是否经过强化学习训练(影响数学、代码和推理能力),以及是否具备互联网搜索、Python解释器等工具。此外,多模态(音频、图像、视频)处理能力也很重要,需要区分模型是原生支持还是通过独立模型连接。最后,还要考虑文件上传、记忆功能、指令等用户体验功能,以及Web和移动应用的功能差异。总而言之,根据个人需求和偏好,在各种应用中进行实验和选择。
bibigpt.co/watch?v=EWvNQjAaOHw