How I use LLMs 视频章节总结

•

每个人都应该看一看 @Karpathy 的最新 2h+ 视频：How I use LLMs，了解最牛的“AI 创造者”是如何使用LLMs的，以及为什么要这么用的第一性原理。我最喜欢的就是这一类实操视频，包括写代码，而不是所谓抽象概念的“伪PPT视频”，因为可视化的操作动作，确实能从视觉上，帮你在特定的用例下建立心智模型。这也激励了我自己，继续坚持做这一类实际操作演示的长视频，跟 AK 一样，我也非常鼓励大家多使用语音交互，因为它确实更快捷方便，我最新的 Roam Research 视频 (~1h) 也会重点分享这一点。视频主题：💡 LLM 应用速览本视频介绍了大型语言模型（LLM）的基本原理和多种应用，包括信息验证、模型选择、复杂问题解决、信息搜索、深度研究、文档辅助阅读、编程、数据分析、以及利用Claude的Artifacts创建应用。强调验证LLM输出的重要性，并鼓励用户根据需求选择合适的模型和工具。此外，视频还提及LLM在代码编写、语音交互、图像处理、视频生成等方面的应用，以及ChatGPT的记忆功能和自定义指令。最后，强调根据个人需求和偏好，在各种LLM应用中进行实验和选择。 00:00 - Intro into the growing LLM ecosystem 本视频将继续探讨大型语言模型（如ChatGPT）的实际应用。上一期视频深入探讨了这些模型的训练方式和认知原理。本期视频将展示大量示例，介绍各种设置，并分享如何将这些工具应用于生活和工作中。视频将以OpenAI的ChatGPT为例，但也会介绍其他类似的应用，如谷歌的Gemini、Meta的、微软的Copilot、Anthropic的Claude、XAI的Grok，以及中国的DeepSeek和法国的Mistral。观众可以通过Chatbot Arena和Scale AI等排行榜来了解不同模型的性能。虽然ChatGPT是目前功能最丰富的，但视频也会逐步介绍其他模型。 02:55 - ChatGPT interaction under the hood 与大型语言模型（LLM）的互动方式是，我们输入文本，它返回文本作为回应。例如，我们可以要求它写一首关于成为大型语言模型的俳句。LLM擅长写作，所以它们可以写俳句、诗歌、求职信、简历和电子邮件回复。在底层，我们和LLM之间的“对话”实际上是文本被分解成称为“tokens”的小块。我们的查询和LLM的回复都是tokens序列。我们可以使用工具查看这些tokens。 LLM的“记忆”或“上下文窗口”是一个tokens序列。当我们开始新的对话时，这个tokens序列会被重置。我们可以向这个序列中写入tokens，然后LLM会用它自己的tokens序列来回应。 LLM本身可以被认为是一个压缩的“zip文件”，其中包含了从互联网上学习到的知识（预训练阶段）和人类训练师赋予它的人格（后训练阶段）。这个“zip文件”包含了神经网络的参数，神经网络试图预测序列中的下一个token。LLM的知识可能有点过时，因为它是在一段时间前进行预训练的。重要的是，LLM是一个独立的实体，没有计算器、网络浏览器或其他工具。 13:13 - Basic LLM interactions examples 说话者分享了如何使用大型语言模型（LLM）的两个例子。第一个例子是询问一杯美式咖啡的咖啡因含量，并验证了模型的回答。第二个例子是咨询感冒药，并核对了模型提供的药物成分信息。说话者强调，对于常见且非高风险的信息，LLM可以提供有用的帮助，但需要验证其准确性。此外，说话者建议在切换话题时开始新的聊天，以避免上下文窗口中的token过多，从而提高模型效率和准确性，并降低计算成本。 18:04 - Be aware of the model you're using, pricing tiers 要点是，要清楚你正在使用的模型。不同的LLM提供商（如OpenAI、Anthropic、Google、Grok）提供不同定价层级的模型。例如，OpenAI的GPT-4o比GPT-4o Mini更强大，但需要付费订阅才能获得完整访问权限。根据你的需求和预算，选择合适的模型。如果专业使用，可能需要考虑付费使用更高级的模型。可以尝试不同的提供商和定价层级，找到最适合你的方案。作者甚至会同时使用多个模型，将它们视为“LLM委员会”，以便获得更全面的建议。 22:54 - Thinking models and when to use them 这段视频介绍了“思考模型”的概念，这是通过强化学习训练的大语言模型（LLM），它们在解决问题时会模拟人类的思考过程，例如尝试不同方案、回溯和重新评估假设。这种模型特别擅长解决需要深入思考的数学和代码问题，能显著提高准确率。虽然思考模型需要更长的处理时间，因为它们会生成大量的token，但对于复杂问题来说，等待是值得的。视频中展示了几个例子，说明了思考模型在解决编程问题时比非思考模型更有效。不同的LLM提供商可能会提供不同的思考模型，用户可以根据问题的复杂程度选择是否启用“思考”模式。 31:01 - Tool use: internet search 本节将介绍如何让语言模型使用工具，特别是互联网搜索。之前的模型只能通过文本交互，像一个封闭的“压缩包”，没有工具。现在，目标是赋予模型使用工具的能力。互联网搜索是一个非常有用的工具。举例来说，如果想知道《白莲花》第三季第二集何时播出，以前需要手动在谷歌上搜索，点击链接，筛选信息。现在，模型可以自动进行搜索，访问网页，提取内容，然后将所有信息放入上下文窗口，直接给出答案。模型会发出一个特殊的“搜索”令牌，应用程序会停止采样，根据模型提供的查询进行搜索，并将搜索结果添加到上下文窗口。这样，模型就可以利用互联网上的最新信息来回答问题，即使这些信息不在其预训练知识库中。不同的模型和应用对互联网搜索的集成程度不同，有些模型会自动检测是否需要搜索，有些则需要手动选择搜索功能。演讲者分享了自己使用互联网搜索工具的例子，例如查询市场是否开放、电视剧拍摄地点、公司产品更新、最新传闻、股票走势等。总之，利用互联网搜索工具，模型可以更有效地获取最新信息，解决各种问题。 42:05 - Tool use: deep research 这个演讲者介绍了一个名为“深度研究”的ChatGPT Pro功能，每月收费200美元。它结合了互联网搜索和深度思考，可以花费数十分钟来研究特定主题。演讲者举例说明，他使用深度研究来了解Brian Johnson的“长寿混合物”中的成分，例如AKG。他展示了如何使用深度研究提出问题，并让模型进行研究，生成包含引用的报告。他还提到了其他类似功能，例如Perplexity的“Deep research”和Grok的“Deep search”。演讲者认为ChatGPT的深度研究目前是最彻底的，但强调所有结果都可能存在幻觉，应作为初步草稿，并需要进一步验证。他还分享了使用深度研究比较浏览器和研究小鼠寿命延长的例子，并展示了一个尝试创建美国LLM实验室列表的失败案例，强调了该工具的局限性。 50:57 - File uploads, adding documents to context 这段视频主要介绍了如何利用大型语言模型（LLM）辅助阅读。核心思想是，通过将具体的文档（例如论文、书籍章节）上传到LLM的上下文窗口中，让LLM能够基于这些文档的内容回答问题、进行总结，从而帮助读者更好地理解和吸收信息。视频中提到，这种方法尤其适用于阅读专业性强或年代久远的文章，可以显著提高阅读效率和理解程度。尽管目前还没有便捷的工具能够完美实现这一流程，但作者仍然强烈推荐尝试这种方法，并鼓励大家不要再独自阅读书籍。 59:00 - Tool use: python interpreter, messiness of the ecosystem 大型语言模型(LLM)的一个强大工具是使用Python解释器，让LLM能够编写和运行计算机程序。当遇到复杂问题时，LLM会生成包含Python代码的特殊token，指示应用程序运行该程序并返回结果。LLM接收结果后，会将其呈现给用户。不同的LLM可能拥有不同的工具，例如，有些LLM可以使用Python或JavaScript，而有些则可能没有编程工具，只能尝试在内部计算，这可能导致不准确的结果。因此，需要了解不同LLM的工具能力，以避免依赖不准确的“幻觉”答案。 01:04:35 - ChatGPT Advanced Data Analysis, figures, plots ChatGPT 的高级数据分析功能可以充当初级数据分析师，帮助用户收集、上传数据并进行可视化。用户可以通过搜索工具获取数据，并要求 ChatGPT 绘制图表。然而，需要注意的是，ChatGPT 在处理数据时可能会做出隐含假设或产生幻觉，导致结果不准确。因此，用户必须仔细审查 ChatGPT 生成的代码，验证结果，以避免错误。虽然该功能强大且方便，但用户需要具备一定的代码阅读能力和数据分析知识，才能有效利用并避免潜在的错误。 01:09:01 - Claude Artifacts, apps, diagrams 这段文字介绍了Claude的Artifacts功能，它允许用户通过与Claude对话，让Claude编写并部署定制化的应用程序。例如，用户可以要求Claude根据一段文本生成闪卡应用，Claude会编写React代码，并在浏览器中直接运行该应用。虽然这些应用是本地的，没有后端数据库，但可以实现一些基本功能。此外，Artifacts功能还可以用于生成概念图，例如，用户可以上传一本书的章节，要求Claude创建一个概念图，Claude会使用Mermaid库生成图表，帮助用户理解章节的结构和论点。总而言之，Artifacts提供了一种新的应用开发模式，用户可以通过对话快速创建定制化的工具和可视化内容。 01:14:02 - Cursor: Composer, writing code 说话者展示了大型语言模型（LLM）在编写代码方面的能力，并指出虽然像ChatGPT这样的应用可以在浏览器中部分运行代码，但它们缺乏足够的上下文来进行专业的代码编写。因此，说话者更喜欢使用像Cursor这样的独立应用程序，这些程序可以访问本地文件系统，并利用LLM（如Claude）的API来自动生成和编辑代码。通过Cursor的“composer”功能，用户只需给出高级指令，LLM就能自主地修改多个文件，实现“Vibe coding”。说话者演示了如何使用Cursor和Claude快速创建一个简单的井字游戏，并添加了诸如获胜时播放音效和显示彩带等功能，展示了这种开发方式的效率和潜力。即使出现问题，用户仍然可以回退到传统的编程方式进行调试和修改。 01:22:30 - Audio (Speech) Input/Output 这段文字主要介绍了如何通过语音与大型语言模型（LLM）进行交互，而不是传统的文本输入。演讲者提到，在手机上使用语音输入更为方便，并介绍了ChatGPT应用中的两种语音模式：一种是将语音转录为文本，另一种是语音模式（稍后介绍）。在桌面端，由于ChatGPT应用本身没有语音转文本功能，演讲者推荐使用第三方应用，如Super Whisper，来实现系统级的语音转文本。此外，许多应用也提供文本转语音功能，可以将模型的回复读出来。总而言之，演讲者鼓励大家多使用语音交互，因为它更快捷方便。 01:27:38 - Advanced Voice Mode aka true audio inside the model 这段文字主要介绍了LLM（大型语言模型）中“真音频”的概念，区别于以往通过文本转换实现的“假音频”。真音频直接处理音频数据，将音频分解成类似文本token的音频块，让模型能够理解和生成音频，从而实现更自然、更强大的语音交互。文章还提到了ChatGPT的“高级语音模式”和Grok应用，展示了真音频在不同场景下的应用，例如模仿不同声音、进行角色扮演等。虽然高级语音模式有时会表现得过于谨慎，但它代表了LLM语音交互的未来方向。 01:37:09 - NotebookLM, podcast generation Google 的 NotebookLM 允许用户上传文本、网页或 PDF 文件作为资料，然后与模型进行互动。除了可以提问并获得答案外，它还能根据上传的资料生成定制的播客。用户可以自定义播客内容，甚至在播客播放过程中提问。演讲者提到他会用这个工具来生成一些小众话题的播客，方便他在散步或开车时收听。他还分享了一个在 Spotify 上名为 "Histories of Mysteries" 的播客系列，这个系列也是用 NotebookLM 生成的，建议听众去收听，以便了解该工具的功能。 01:40:21 - Image input, OCR 大型语言模型（LLM）可以将图像转化为一系列的“令牌”，就像处理文本和音频一样。图像被分割成小块，每个小块用一个预定义的“词汇表”中的最接近的“令牌”来表示。这样，图像就可以被视为令牌流，输入到LLM中。LLM本身并不区分文本、音频或图像令牌，只是学习统计模式。演讲者分享了几个使用LLM处理图像的例子，包括分析营养标签、解读血液测试结果、理解数学表达式、分析牙膏成分以及解释网络迷因。他强调了转录准确性的重要性，并建议分步骤进行，先转录成文本，再提问。他还提到，虽然LLM很有用，但对于医疗信息，最好还是咨询医生。 01:47:04 - Image output, DALL-E, Ideogram, etc. 大型语言模型（LLM）可以生成图像，OpenAI的DALL-E 3是其中一种，能根据任意提示词生成精美图像。虽然演讲者本人不常用DALL-E，但他会用类似功能的其他工具（如Ideogram）来生成YouTube视频的封面和图标。目前，ChatGPT生成图像的方式是先根据提示词生成图像描述，然后将描述发送给独立的图像生成模型。 01:49:15 - Video input, point and talk on app 演示者展示了移动应用上的“高级语音”功能，该功能允许模型通过摄像头观看视频。用户可以对着摄像头展示物体并提问，模型能够识别物体并给出相关信息，例如识别声学泡沫板、书籍（《成吉思汗与现代世界的形成》、《你肯定是在开玩笑吧，费曼先生》）、CO2监测仪（Aeronet 4）和地图（《指环王》中的中土世界地图）。演示者认为该功能对于不熟悉复杂应用的用户（如父母或祖父母）非常友好，他们可以通过摄像头直接与模型互动。虽然底层技术可能并非实时视频流，而是图像快照，但用户体验上感觉像是视频流。演示者个人不常用此功能，但认为它适合向不熟悉技术的人展示。 01:52:24 - Video output, Sora, Veo 2, etc etc. 现在有很多AI视频生成工具，它们发展迅速且效果惊人。虽然演讲者个人不常用这些工具，但他展示了一个月前的推文，比较了不同AI模型生成“丛林中的老虎”的效果。其中，V2模型的效果接近最先进水平，其他模型也各有风格和质量。 01:53:30 - ChatGPT memory, custom instructions 这段视频主要介绍了ChatGPT的两个实用功能：记忆功能和自定义指令。记忆功能允许ChatGPT记住用户在对话中提到的信息，并将其存储在“记忆库”中，以便在后续对话中参考，从而更好地了解用户并提供更相关的回复。用户可以管理和编辑这些记忆。自定义指令功能允许用户调整ChatGPT的个性化设置，例如语气和回复风格，以及提供关于用户身份和偏好的信息，以便ChatGPT更好地满足用户的需求。记忆功能目前可能是ChatGPT独有的，而自定义指令功能在其他LLM中也比较常见。 01:58:38 - Custom GPTs 这段视频主要介绍了如何使用自定义GPTs进行语言学习，特别是韩语。作者展示了三个例子： 1. **韩语词汇提取器：** 输入韩语句子，GPT会提取词汇并以“韩语;英语”的格式呈现，方便制作闪卡。这通过简单的提示工程实现，关键在于提供详细的指令和几个示例（few-shot prompting）。 2. **韩语详细翻译器：** 相比于谷歌翻译等工具，这个GPT能更详细地翻译韩语句子，并逐字逐句地分解翻译，方便理解。同样，通过提供详细的指令和XML格式的示例来实现。 3. **韩语字幕OCR翻译器：** 截取包含韩语字幕的视频截图，GPT会先进行OCR识别，然后翻译并分解句子。作者强调，自定义GPTs的核心优势在于节省重复提示的时间，将常用的提示保存下来，只需每次输入不同的句子即可。他认为GPT在语言翻译方面优于其他工具，并鼓励用户根据自己的需求创建自定义GPTs。 02:06:31 - Summary 总结：目前大型语言模型（LLM）应用生态系统发展迅速，ChatGPT是其中功能最丰富的，但其他应用也在快速发展，甚至在某些方面超越ChatGPT。选择应用时，需要考虑模型的大小（影响知识和创造力）、是否经过强化学习训练（影响数学、代码和推理能力），以及是否具备互联网搜索、Python解释器等工具。此外，多模态（音频、图像、视频）处理能力也很重要，需要区分模型是原生支持还是通过独立模型连接。最后，还要考虑文件上传、记忆功能、指令等用户体验功能，以及Web和移动应用的功能差异。总而言之，根据个人需求和偏好，在各种应用中进行实验和选择。 bibigpt.co/watch?v=EWvNQjAaOHw

JimmyLv.eth (🐣, 🐣) 2𐃏24

@Jimmy_JingLv

🚧 building chatvid.ai bibigpt.co pipigpt.co airss.co 🐣learning & earning while helping others ❤️making software, storytelling videos 🔙alibaba @thoughtworks

Write & publish everywhere
with
Typefully

Join JimmyLv.eth (🐣, 🐣) 2𐃏24 and write better content with AI, cross-post to social media, and grow your audience.

Join 190,000+ creators & companies

How I use LLMs 视频章节总结

Write & publish everywhere with Typefully

Write & publish everywhere
with
Typefully