V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  ZhaokunZhang  ›  全部回复第 1 页 / 共 25 页
回复总数  494
1  2  3  4  5  6  7  8  9  10 ... 25  
@beimenjun 通过询问作者得到一份真实场景的数据
一条中长复杂度的 App 自动化 case ,从进入洋葱 App 做题板块,到循环完成 5 道题,并断言结束页结果正确。该 case 实际共请求豆包视觉模型 doubao-seed-1-6-vision-250815 共 33 次。

在执行过程中,我们在调用层实现了 Token 经济熔断机制:当上下文 token 接近一档上限时,主动切断当前会话上下文并开启新一段请求,避免后续 prompt tokens 持续累积进入更高计费档位。这个真实案例中,第 21 次模型请求时 prompt tokens 达到 31,328 ,第 22 次请求被熔断切段后降到 2,982 。

这次真实执行的 token 数据为:总 prompt tokens = 486,363 ,总 completion tokens = 2,613 ,其中 cached tokens = 438,549 ,缓存命中率 90.2%,真实推理 token 为 50,427 。

按该模型一档计价口径估算:未命中输入 0.72 元 / 百万 tokens ,缓存命中输入 0.16 元 / 百万 tokens ,输出 7.2 元 / 百万 tokens 。

费用公式为:

总费用 = 未命中输入 token × 未命中输入单价 + 缓存命中 token × 缓存命中单价 + 输出 token × 输出单价

代入数据:

未命中输入 token = 486,363 − 438,549 = 47,814 ,费用约 0.034 元;缓存命中 token = 438,549 ,费用约 0.070 元;输出 token = 2,613 ,费用约 0.019 元。

所以这条 33 次模型请求的中长复杂度 case ,整体推理费用约为 0.12 元上下。该金额已经包含缓存命中 token 的计费,但未包含缓存存储费;缓存存储费量级很小,暂不计入。
@lancevps 这个可能理解岔了,AI 生成测试用例是输入,AI Phone 做的是执行。目前我们使用的典型场景是:AI 生成测试用例后(比如 cursor 生成的),触发器直接自动调用 ai-phone 开始端到端的真机执行
@clemente 你提的 hook + AI 方式确实在调试和快速验证上很高效,但在我们公司属于开发自测阶段的验证手段,在测试场景里,我们还是需要在真实设备上多端完整走一遍用户流程,确保交互和界面行为都被覆盖。
@kkwwuuww 目前真机手装,后续会加入这个功能,上传分发
@beimenjun 关于经济性和速度,其实做了不少工作:
经济:
开启模型主动式缓存:模型在首次执行测试用例时就会有约 90% 的 token 消耗落在缓存区,消耗其实不算大。
同时有分段逻辑:当模型上下文达到 30K token 时会主动断连,并注入上下文辅助信息,保证执行稳定,同时避免触发模型阶梯计费。
速度:
纯视觉回放比较复杂,要速度会牺牲稳定性,要保证稳定又会牺牲速度,因为无法自动判断每个动作是否准确落下。
目前有三种缓存策略,适配不同场景:
1. 固定轨迹回放
* 按首次执行的动作完整回放,对业务稳定性要求高。
* 每步页面检测严格,保证稳定后执行,但速度一般。
2. 路标缓存回放
* 每步执行后与首次缓存路标对齐,判断动作是否正确。
* 正确就继续回放;不正确就按首次执行真实间隔加载完成,再由 VLM 局部介入修复本步骤,修复后继续缓存回放。
* 静态需求场景下速度最快。
3. 位置重建缓存回放
* 针对业务频繁变动的场景,将首次执行动作抽象缓存,再次执行只询问模型位置,不重新推理。
* 保证实时正确,同时节省成本,速度比首次执行略快。

弹窗/非业务浮层标记逻辑
* 在路标和位置重建回放中,如果弹窗存在,会帮助关闭;不存在则跳过继续回放,保证整体稳定性。
这些方案各自适配不同场景,但天然都对业务稳定性有一定要求。
@cthunter 如果 deepseek 视觉模型全量,估计成本更低。
@WebKit 我这边都是端内 web view 有些需要触发端内桥的功能。主要是这个。 作者本人没 v2 号。
@XuDongJianSama 像我之前呆的杭州、沈阳公司,普遍没有测试岗位,这才找这种的,以前都自测。
@jinxgogo 不是的,从我之前在杭州的经历,这个是减负的。
我初中同学,半路转码。简历造假写我公司,外包退场,转而面试了一家上市公司。他们有背调,但是!他们的背调就是打个电话,随意的问一下。不查流水,不查个税。顺利入职。
4 天前
回复了 Bigshowzyb 创建的主题 macOS Intel MBP 上 Chrome 某些网页很卡
我之前是打开直播网站或者某些视频网站就卡,但是不好意思向公司申请换,后来开发动画编辑器项目,电脑巨卡,没法干活,于是申请了 M1
4 天前
回复了 CaoJiWuMing 创建的主题 职场话题 煎熬,被公司逼迫离职了。
我前司,21 年底裁员,组织架构调整后,有个产品也遇到你这个事了,人事跟她说不算裁员,她就仲裁,公司拖了 3 年,正好疫情,公司以疫情原因一直拖,最后如果不赔偿就开始冻结公司资金了,公司才赔。就是膈应人。
先给老哥说声恭喜。但现在主流的找工作的方式确实悲观占主流。机会没以前的多了。
我公司自己搭建的中转。
- claude-opus-4-6 -> openai/qwen3.6-plus
- 上游: https://dashscope.aliyuncs.com/compatible-mode/v1
- enable_thinking: false
- claude-haiku-4-5-20251001 -> openai/qwen3.6-plus
- 上游同样是阿里 DashScope
- enable_thinking: false
- claude-opus-4-7 -> openai/kimi-k2.6
- 上游: https://api.moonshot.cn/v1
- thinking disabled ,output_config.effort: xhigh
不建议你参与这个事,修改完一次就有下次。按照流程走,慢就慢,要不跟那边的开发商量一下,修改给个预览版,能演示就行。先不上线,上线的事走正常流程。
这事别管,小公司大家低头不见抬头见的。下次别提,如果公司这边 token 不够用了,那就让领导再买。
也有可能公司其他人用呢。
10 天前
回复了 aw2350 创建的主题 职场话题 投简历有感,感觉还是要往南方去
北京的岗位已经变成了,高门槛和近亲(同事圈),好的岗位人刚走立马就来一大堆内推和简历,坏的岗位人也都死死的钉着。对于北京而言,BOSS 直聘已经没什么作用了。
每个公司里无能的领导太多,这个城市已经变成老登城市了。一点一点驱逐着年轻人。
前端 6 年算 7 年了,函授专,目前在自考本,也报了国家开放大学本科。
目前在北京,23k * 13 ,好岗位不流通需要内推。BOSS 上没什么好岗位。
25 年 2 月底裁员,前同事本科,在北京 20 天就找到一家同薪的,我是用了一个月找了一个过渡的。
现在说混到 35 岁有点够呛。AI 发展太快了,两年就转变了很多工作流程和理念。
除非你找一个越老越吃香的,比如电气自动化这种。
12 天前
回复了 zfyime 创建的主题 互联网 为啥最近爆发这么多中转站?
25 年 9 月份 L 站一大堆,只是当时 V2 不让发,现在放开了,允许发。
1  2  3  4  5  6  7  8  9  10 ... 25  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2724 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 49ms · UTC 02:13 · PVG 10:13 · LAX 19:13 · JFK 22:13
♥ Do have faith in what you're doing.