这篇文章上次修改于 295 天前,可能其部分内容已经发生变化,如有疑问可询问作者。

务SOP概览:

输入【@human】:将Youtube url 链接直接发送给Agent(目前仍是本地localhost服务)

任务一【@Agent】:把用户上传的YouTube Transcript作为输入给到LLM,输出连续的、完整的、可供消费的内容

任务二【@Agent】:对上述输出作更精细的内容编辑:标记每个段落的speaker是谁,根据上下文重新调整段落结构,去掉多余的口语连接词等

任务三【@Agent】:将内容整体翻译为中文

任务四【@Agent】:翻译后的内容进行后处理,例如检查换行、专有名词保留等,保存调整为输出所需的目标格式

任务五【@Agent】:自动推送至Notion供human review,同时保存文件和处理日志到本地

输出【human】:人工介入的工作均在Notion完成,精度浏览和校对精修,确保内容连贯完整,采访称谓正确合理。挑选合适的封面图,排版发布至公众号

注:经多步骤处理后保存至Notion以供human review
实践 & 迭代
最初采用了一个prompt希望完成端到端的内容编辑工作,尝试后发现几个问题 1、视频时长代表的内容太长(deepseek的最大输入64k,最大输出8k),对逐字翻译这个任务来说,一次调用的context window是不够的。2、Youtube的transcript文件输入是带时间轴的短句(如下图),语句非连续,期间还不乏转录错误,很难直接翻译。看似这项任务是text in, text out, 但显然是一个复杂的多步骤工作流

注:处理前的原始transcript文件

注:经过LLM处理后的内容
因此在每个环节的任务,我都为agent设定了属于这个环节的chunk size split strategy,prompt 和对应的temperature参数(输出创造性)。比如在初步的转录环节必须具备一定的创造性,而在翻译环节为了保持原意,temperature则需要相应降低;这和实际工作中每项任务的JD要求各不相同有异曲同工之妙。理论上每个任务环节都应该由更擅长本项任务的base mode来完成,低附加值环节找些简单的Model也能完成(还更省钱),高级任务就找贵的人才。目前图省事就统一采用了Deepseek
LLM经常会搞错访谈里的说话人,导致后期人工编辑成本还是很高。尝试了多次发现这得是个单独的任务,为其设置了单独的context和prompt,把段落邻近的前后文,包括视频简介都作为context给到LLM 才会有比较高的准确率。相信如果能引入搜索API,在整个任务开始前收集并分享更多信息,效果会更好
检查结果时发现,每个Agent负责的中间步骤、每一个环节都可能出错,带来最终结果的不及预期。好比每个工作岗位都可能出错带来工作无法完成(如果是人可能就开始互相甩锅了)。所以为每个环节都单独设定了输入输出检查(KPI?),针对不及预期的任务细看是哪个环节出错,并修改测试,直到最后端到端的任务无需再检查。对于如何当好老板,如何抽象工作、合理分工、给每个角色任务定义好明确的输入输出,仍然是份技术活:给不同任务间找到最大公约数的任务,做好信息隔离又不至于丢失context,为不同的agent设计合理分工不至于重复劳动,背后也像写代码一样需要好的架构设计
意外插曲:deepseek api过年期间宕机导致服务不可用。年初选择deepseek是因为考虑到性价比,没想到过了不久就被全球热情网友冲挂了… 虽然部署了一个重试访问机制,但也导致目前每天处理的任务次数非常有限。还没来得及试第三方的服务或其他模型

注:DeepSeek API服务在25年春节期间持续处于不可用状态
有些Human Labor即使看起来非常微小和简单,但如果每次都需要人工介入,久而久之积累的工作量也是巨大的。举个例子,最初每天手动把本地保存的文件复制到notion中,尽管本身也就要个30秒左右,后来发现每天这30秒消耗的心力远超任务本身(因为这个任务本身是不具备创造性的,久而久之人类就会厌烦),干脆一并在程序中新增了一个环节直接推送至notion了

媒体 & 输出
基于上述实践,我新开了一个公众号「逐字学习」,将处理完的内容开源分享给大家
由于目标是日更,这倒逼人工参与的部分不能特别多,必须尽可能让LLM的输出一次成型
编辑公众号时发现头图生成是个问题,所以用midjourney一次性做了百来张头图,每次就随便挑一张用使用,解放每日消耗的心力。(总之希望尽量做到无痛日更…)

我作为「总编辑」这个角色本身,除了本身阅读的时间,目前来看每天算上起标题、编辑、发布的时间可以控制在半小时内。LLM helps a lot

成本 & 价格
假设我们认可上述任务已经能被语言模型较好完成,那么花多少钱可以买到这份智能算力服务?

目前Deepseek定价如下:

以1个小时的翻译处理任务为例,假设平均每分钟150个单词

总单词数:60分钟 × 150 = 9,000单词
原始内容预估token数:9,000 × 1.3 ≈ 12,000 tokens(一般1个单词约等于1.3个token)
任务一:原始内容格式化处理
输入:12,000 tokens(原始文本)+ 500 tokens(prompt)
输出:约15,000 tokens
成本:
- 输入:12,500 × (2元/1,000,000) = 0.025元

  • 输出:15,000 × (8元/1,000,000) = 0.12元

任务二:内容精细编辑
输入:15,000 tokens(上一步输出)+ 500 tokens(prompt)
输出:约16,500 tokens
成本:
- 输入:15,500 × (2元/1,000,000) = 0.0315元

  • 输出:16,500 × (8元/1,000,000) = 0.132元

任务三:翻译
输入:16,500 tokens + 100 tokens(简单prompt)
输出:约33,000 tokens(考虑中文token消耗更大)
成本:
- 输入:16,600 × (2元/1,000,000) = 0.0332元

  • 输出:33,000 × (8元/1,000,000) = 0.264元

任务四:后处理(依靠规则实现)

DeepSeek定价
2月8日恢复原价后:
- 输入:0.5元/百万tokens(缓存命中)或2元/百万tokens(缓存未命中)
- 输出:8元/百万tokens

总成本估算
总输入token:约44,600 tokens
总输出token:约64,500 tokens
总成本:

  • 输入成本:0.0892元
  • 输出成本:0.516元

总计:约0.61元/小时
假设每天处理3个视频(总计5小时)的总价格为:
0.61*5 = 3.05元
我们可以计算出,在当前的模型收费水平下,每年只需花费1100元左右,你就可以拥有一个智能助手完成大量的transcript编译任务(总计1800小时的视频任务)。

(注:暂时没有考虑LLM成本进一步下降的情况)

总结 & 未来
对该transcript处理任务本身还有许多优化空间。例如支持更多内容模态的输入。当前Agent的处理方式是text in, text out. 对于没有字幕文件的视频就一筹莫展了。在最前面接一个speech to text的处理模块自然可行,但如果成本急剧上升的话,作为内容消费者的我可能会衡量一下是否值得… 毕竟对大部分人而言,用了20年的免费互联网服务,怎么可能立刻接受一个数字世界的东西要额外收钱呢?
我相信这一切的智能能力都会很快commoditized直到变得很便宜接近免费… 同时我也给自己今年定了个目标,在工作和生活中消耗掉3000元等额的token(等于雇佣一个年薪3000的员工),看看会发生什么
对于成本的计算是有意义的:过去,编译任务只能单纯依靠人力,由于任务单价极高,只有头部内容“雇得起”人工编辑替它完成编译任务,而大量长尾内容是负担不起这个成本的。由于社交媒体高热推荐逻辑的算法导向,使得对长尾内容有需求的读者,没有一种机制能聚合足够多的需求,替他们雇佣人工编辑,完成编译工作
过去的移动互联网时代,对长尾内容的规模化处理解决方案之一,是UGC。依靠大量用户自发贡献智能算力、完成智能编辑任务后,平台给予流量推荐的同时,完成平台和头部内容的商业变现,也诞生了大量资本赢家通吃的奇迹。我好奇的是,LLM的出现对智能处理任务成本造成了巨大冲击,进而导致对长尾内容的处理变得经济上可行,直至最终不需要人工参与后,价值最终会被哪个环节捕获:是大语言模型本身?是任务定义者?是社交媒体平台?还是消费者?
经过一个月的使用,如今每当看到新的公司并购消息、上市新闻、或新鲜的idea,我已习惯了去YouTube上搜一下当事者(可能是builder、founder)的采访稿,并把链接发送给这个agent。AI确实带来了信息平权(从信息本身的视角,而非发布者)。我从那些看似小众、过去从来不会有时间点开耐心看上几个小时的视频内容中,获得了许多有趣的观点和信息,也对受访者有了更全面的了解,开拓了视野。相信随着智能价格会越来越低,会有越来越多人拥有属于自己的信息处理agent,满足个性化的信息处理需求
扩展到其他处于比特世界的智能处理任务,我们也可以用上述计算方法计算成本。比如我们可不可以雇佣一个agent,替你刷社交媒体,这有没有意义?你有没有算过每天在碎片时间浏览的社交媒体内容,总计消耗了多少token?有哪些input是单纯被消耗掉了(for fun),有哪些是被处理后output并形成action的?另外,LLM的多模态理解现在还很贵,从纯成本角度现在让AI替你刷Reddit / Twitter,貌似要比刷小红书/抖音更现实(尽管就信息密度而言可能甚至前者更高)
理查德·道金斯在「自私的基因」中提到,生命个体只是基因的“生存机器”,基因并不在乎个体的生死,只关心自己能否被传递下去。信息天然具备反脆弱性和传播性,在过去的环境中,大量长尾内容无法afford被复制和传播,默默死去。新的环境来临了,适应新环境的信息会被更好地传递和延续
其实直到现在,我也不知道对上述这个帮我完成任务的「智能处理过程」本身,用什么称谓比较合适。我该称呼它为脚本?软件?大语言模型?智能服务?Agent?还是给它起个名字?

有句老笑话是 ”「人工智能」是指尚未发挥作用的任何东西,因为一旦它发挥作用,人们就会「那不是人工智能,只是软件而已。」”

目前它还只是默默等我主动输入信息,替我完成任务;期间也只是某些步骤用到了LLM的特性和能力,距离大家所想象的能主动交互,懂得自我反省,处理任务的agent还有很大距离。但如果有一天我通过自然语言界面和他对话呢?或者有一天早晨醒来,他已经替我从茫茫信息流中阅读并筛选好信息源,并按照我的喜好将一切处理完毕等我review呢?或许有一天,我对他可以不用设定「KPI」而是只用给他设定「OKR」呢?我想那一定是一个更公平、更美好的将来。也期待越来越多的创始人和团队,把他们的热情、创造力和爱投入到建设这个将来的过程中。

最后,如果大家有希望处理的视频内容,也可以私聊链接给我,我转录处理后发回给大家。

Daily

注:目前暂支持如下内容:1、原文为英语  2、两人对话(访谈者和被访谈者)3、视频需要自带YouTube transcript文件,时长不限

Thank you for stopping by
Today is 2025/2/1
This is Tianjie Zhong | Jack

Live a life you will remember