这篇文章上次修改于 295 天前，可能其部分内容已经发生变化，如有疑问可询问作者。

务SOP概览：

输入【@human】：将Youtube url 链接直接发送给Agent（目前仍是本地localhost服务）

任务一【@Agent】：把用户上传的YouTube Transcript作为输入给到LLM，输出连续的、完整的、可供消费的内容

任务二【@Agent】：对上述输出作更精细的内容编辑：标记每个段落的speaker是谁，根据上下文重新调整段落结构，去掉多余的口语连接词等

任务三【@Agent】：将内容整体翻译为中文

任务四【@Agent】：翻译后的内容进行后处理，例如检查换行、专有名词保留等，保存调整为输出所需的目标格式

任务五【@Agent】：自动推送至Notion供human review，同时保存文件和处理日志到本地

输出【human】：人工介入的工作均在Notion完成，精度浏览和校对精修，确保内容连贯完整，采访称谓正确合理。挑选合适的封面图，排版发布至公众号

注：经多步骤处理后保存至Notion以供human review
实践 & 迭代
最初采用了一个prompt希望完成端到端的内容编辑工作，尝试后发现几个问题 1、视频时长代表的内容太长（deepseek的最大输入64k，最大输出8k），对逐字翻译这个任务来说，一次调用的context window是不够的。2、Youtube的transcript文件输入是带时间轴的短句（如下图），语句非连续，期间还不乏转录错误，很难直接翻译。看似这项任务是text in, text out, 但显然是一个复杂的多步骤工作流

注：处理前的原始transcript文件

注：经过LLM处理后的内容
因此在每个环节的任务，我都为agent设定了属于这个环节的chunk size split strategy，prompt 和对应的temperature参数（输出创造性）。比如在初步的转录环节必须具备一定的创造性，而在翻译环节为了保持原意，temperature则需要相应降低；这和实际工作中每项任务的JD要求各不相同有异曲同工之妙。理论上每个任务环节都应该由更擅长本项任务的base mode来完成，低附加值环节找些简单的Model也能完成（还更省钱），高级任务就找贵的人才。目前图省事就统一采用了Deepseek
LLM经常会搞错访谈里的说话人，导致后期人工编辑成本还是很高。尝试了多次发现这得是个单独的任务，为其设置了单独的context和prompt，把段落邻近的前后文，包括视频简介都作为context给到LLM 才会有比较高的准确率。相信如果能引入搜索API，在整个任务开始前收集并分享更多信息，效果会更好
检查结果时发现，每个Agent负责的中间步骤、每一个环节都可能出错，带来最终结果的不及预期。好比每个工作岗位都可能出错带来工作无法完成（如果是人可能就开始互相甩锅了）。所以为每个环节都单独设定了输入输出检查（KPI？），针对不及预期的任务细看是哪个环节出错，并修改测试，直到最后端到端的任务无需再检查。对于如何当好老板，如何抽象工作、合理分工、给每个角色任务定义好明确的输入输出，仍然是份技术活：给不同任务间找到最大公约数的任务，做好信息隔离又不至于丢失context，为不同的agent设计合理分工不至于重复劳动，背后也像写代码一样需要好的架构设计
意外插曲：deepseek api过年期间宕机导致服务不可用。年初选择deepseek是因为考虑到性价比，没想到过了不久就被全球热情网友冲挂了… 虽然部署了一个重试访问机制，但也导致目前每天处理的任务次数非常有限。还没来得及试第三方的服务或其他模型

注：DeepSeek API服务在25年春节期间持续处于不可用状态
有些Human Labor即使看起来非常微小和简单，但如果每次都需要人工介入，久而久之积累的工作量也是巨大的。举个例子，最初每天手动把本地保存的文件复制到notion中，尽管本身也就要个30秒左右，后来发现每天这30秒消耗的心力远超任务本身（因为这个任务本身是不具备创造性的，久而久之人类就会厌烦），干脆一并在程序中新增了一个环节直接推送至notion了
…

媒体 & 输出
基于上述实践，我新开了一个公众号「逐字学习」，将处理完的内容开源分享给大家
由于目标是日更，这倒逼人工参与的部分不能特别多，必须尽可能让LLM的输出一次成型
编辑公众号时发现头图生成是个问题，所以用midjourney一次性做了百来张头图，每次就随便挑一张用使用，解放每日消耗的心力。（总之希望尽量做到无痛日更…）

我作为「总编辑」这个角色本身，除了本身阅读的时间，目前来看每天算上起标题、编辑、发布的时间可以控制在半小时内。LLM helps a lot

成本 & 价格
假设我们认可上述任务已经能被语言模型较好完成，那么花多少钱可以买到这份智能算力服务？

目前Deepseek定价如下：

以1个小时的翻译处理任务为例，假设平均每分钟150个单词

总单词数：60分钟 × 150 = 9,000单词
原始内容预估token数：9,000 × 1.3 ≈ 12,000 tokens（一般1个单词约等于1.3个token）
任务一：原始内容格式化处理
输入：12,000 tokens（原始文本）+ 500 tokens（prompt）
输出：约15,000 tokens
成本：
- 输入：12,500 × (2元/1,000,000) = 0.025元

输出：15,000 × (8元/1,000,000) = 0.12元

任务二：内容精细编辑
输入：15,000 tokens（上一步输出）+ 500 tokens（prompt）
输出：约16,500 tokens
成本：
- 输入：15,500 × (2元/1,000,000) = 0.0315元

输出：16,500 × (8元/1,000,000) = 0.132元

任务三：翻译
输入：16,500 tokens + 100 tokens（简单prompt）
输出：约33,000 tokens（考虑中文token消耗更大）
成本：
- 输入：16,600 × (2元/1,000,000) = 0.0332元

输出：33,000 × (8元/1,000,000) = 0.264元

任务四：后处理（依靠规则实现）
无

DeepSeek定价
2月8日恢复原价后：
- 输入：0.5元/百万tokens（缓存命中）或2元/百万tokens（缓存未命中）
- 输出：8元/百万tokens

总成本估算
总输入token：约44,600 tokens
总输出token：约64,500 tokens
总成本：

输入成本：0.0892元
输出成本：0.516元

总计：约0.61元/小时
假设每天处理3个视频（总计5小时）的总价格为：
0.61*5 = 3.05元
我们可以计算出，在当前的模型收费水平下，每年只需花费1100元左右，你就可以拥有一个智能助手完成大量的transcript编译任务（总计1800小时的视频任务）。

（注：暂时没有考虑LLM成本进一步下降的情况）

总结 & 未来
对该transcript处理任务本身还有许多优化空间。例如支持更多内容模态的输入。当前Agent的处理方式是text in, text out. 对于没有字幕文件的视频就一筹莫展了。在最前面接一个speech to text的处理模块自然可行，但如果成本急剧上升的话，作为内容消费者的我可能会衡量一下是否值得… 毕竟对大部分人而言，用了20年的免费互联网服务，怎么可能立刻接受一个数字世界的东西要额外收钱呢？
我相信这一切的智能能力都会很快commoditized直到变得很便宜接近免费… 同时我也给自己今年定了个目标，在工作和生活中消耗掉3000元等额的token（等于雇佣一个年薪3000的员工），看看会发生什么
对于成本的计算是有意义的：过去，编译任务只能单纯依靠人力，由于任务单价极高，只有头部内容“雇得起”人工编辑替它完成编译任务，而大量长尾内容是负担不起这个成本的。由于社交媒体高热推荐逻辑的算法导向，使得对长尾内容有需求的读者，没有一种机制能聚合足够多的需求，替他们雇佣人工编辑，完成编译工作
过去的移动互联网时代，对长尾内容的规模化处理解决方案之一，是UGC。依靠大量用户自发贡献智能算力、完成智能编辑任务后，平台给予流量推荐的同时，完成平台和头部内容的商业变现，也诞生了大量资本赢家通吃的奇迹。我好奇的是，LLM的出现对智能处理任务成本造成了巨大冲击，进而导致对长尾内容的处理变得经济上可行，直至最终不需要人工参与后，价值最终会被哪个环节捕获：是大语言模型本身？是任务定义者？是社交媒体平台？还是消费者？
经过一个月的使用，如今每当看到新的公司并购消息、上市新闻、或新鲜的idea，我已习惯了去YouTube上搜一下当事者（可能是builder、founder）的采访稿，并把链接发送给这个agent。AI确实带来了信息平权（从信息本身的视角，而非发布者）。我从那些看似小众、过去从来不会有时间点开耐心看上几个小时的视频内容中，获得了许多有趣的观点和信息，也对受访者有了更全面的了解，开拓了视野。相信随着智能价格会越来越低，会有越来越多人拥有属于自己的信息处理agent，满足个性化的信息处理需求
扩展到其他处于比特世界的智能处理任务，我们也可以用上述计算方法计算成本。比如我们可不可以雇佣一个agent，替你刷社交媒体，这有没有意义？你有没有算过每天在碎片时间浏览的社交媒体内容，总计消耗了多少token？有哪些input是单纯被消耗掉了（for fun），有哪些是被处理后output并形成action的？另外，LLM的多模态理解现在还很贵，从纯成本角度现在让AI替你刷Reddit / Twitter，貌似要比刷小红书/抖音更现实（尽管就信息密度而言可能甚至前者更高）
理查德·道金斯在「自私的基因」中提到，生命个体只是基因的“生存机器”，基因并不在乎个体的生死，只关心自己能否被传递下去。信息天然具备反脆弱性和传播性，在过去的环境中，大量长尾内容无法afford被复制和传播，默默死去。新的环境来临了，适应新环境的信息会被更好地传递和延续
其实直到现在，我也不知道对上述这个帮我完成任务的「智能处理过程」本身，用什么称谓比较合适。我该称呼它为脚本？软件？大语言模型？智能服务？Agent？还是给它起个名字？

有句老笑话是 ”「人工智能」是指尚未发挥作用的任何东西，因为一旦它发挥作用，人们就会「那不是人工智能，只是软件而已。」”

目前它还只是默默等我主动输入信息，替我完成任务；期间也只是某些步骤用到了LLM的特性和能力，距离大家所想象的能主动交互，懂得自我反省，处理任务的agent还有很大距离。但如果有一天我通过自然语言界面和他对话呢？或者有一天早晨醒来，他已经替我从茫茫信息流中阅读并筛选好信息源，并按照我的喜好将一切处理完毕等我review呢？或许有一天，我对他可以不用设定「KPI」而是只用给他设定「OKR」呢？我想那一定是一个更公平、更美好的将来。也期待越来越多的创始人和团队，把他们的热情、创造力和爱投入到建设这个将来的过程中。

最后，如果大家有希望处理的视频内容，也可以私聊链接给我，我转录处理后发回给大家。

Daily

注：目前暂支持如下内容：1、原文为英语 2、两人对话（访谈者和被访谈者）3、视频需要自带YouTube transcript文件，时长不限

Thank you for stopping by
Today is 2025/2/1
This is Tianjie Zhong | Jack

Live a life you will remember

内向的成长

llm 知识流程 sop

Daily

Live a life you will remember

没有评论