V2EX › rechardwong0522 的所有回复

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

1 2 3 4 5 6 7 8

❮

❯

1 天前

回复了 zehua 创建的主题 › 分享创造 › 写了个 Chrome 插件，把 X.com/Twitter 上的帖子和收藏离线存到本地，已上架 Chrome

你好，上架 chrome 应用商店花了多长时间？

5 月 28 日

回复了 ydt0728 创建的主题 › 问与答 › 寻找视觉处理大佬，多目标 mask 跟踪， SAM2， CoTracker3 / TAPIR (点跟踪)等

先不说研究意义大不大，单是多张牌被遮挡后，后续跟踪只能完全靠猜。

5 月 21 日

回复了 yiroonli 创建的主题 › 问与答 › 为什么有钱人大多都迷信？

@fregie 兄弟，你的 Pho 项目咋不更新了呢？请问本地开发环境配置是啥呀，我跑不起来。如果能看一下 flutter docker -v 就好了，求助。

5 月 20 日

回复了 nosugar 创建的主题 › Twitter › X 中文质量下滑严重，好多争议博流量和 AI 营销，戳评论区查看等等

@yukinotech 这些地方刚好就是垃圾来源地

5 月 20 日

回复了 Amazing10086 创建的主题 › 职场话题 › 兄弟们转行烤串有没有搞头？

手艺要好的话，去大学校门口卖炒饭炒粉啥的，今天我去看生意爆好。十块钱一份，两刀两分钟出锅。当然，前提是好吃实惠。

5 月 20 日

回复了 Matsunatru 创建的主题 › 职场话题 › 找工作，面试通过了，但是经历是编的

V 站真的蛮奇怪的，一方面很多人对现实各种抱怨觉得各种不公，一方面又有很多人支持这样的造假。活脱脱的精致利己主义者。

5 月 20 日

回复了 Matsunatru 创建的主题 › 职场话题 › 找工作，面试通过了，但是经历是编的

@giter 可能涉嫌伪造文书罪

5 月 8 日

回复了 huangyin0514 创建的主题 › 推广 › [送$10] 折腾出来的“满血版” Claude 4.7 / GPT-5.5/Gemini 接口站， Link-AI 邀 V 友内测，不仅是稳定，更是为了不降智

id 120
谢谢老板

5 月 8 日

回复了 l534891619 创建的主题 › 推广 › [压力测试] Codex GPT-5.5 新中转站开业，人人免费领 3 亿 token，评论立送 300 美刀/月会员

FRE-93e5b055
老板发大财！

5 月 8 日

回复了 cxzweb 创建的主题 › 推广 › # GPT-5.4 / 5.5 / 5.3-codex / image2 中转站，评论送 15 美刀

id：467
谢谢老板，恭喜发财！

4 月 27 日

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

最新版本，还是不行呢。

PS E:\kaiwu-windows-amd64> .\kaiwu.exe run .\Qwen3-30B-A3B-UD-Q3_K_XL.gguf

██╗ ██╗ █████╗ ██╗██╗ ██╗██╗ ██╗
██║ ██╔╝██╔══██╗██║██║ ██║██║ ██║
█████╔╝ ███████║██║██║ █╗ ██║██║ ██║
██╔═██╗ ██╔══██║██║██║███╗██║██║ ██║
██║ ██╗██║ ██║██║╚███╔███╔╝╚██████╔╝
╚═╝ ╚═╝╚═╝ ╚═╝╚═╝ ╚══╝╚══╝ ╚═════╝
本地大模型部署器 vv0.2.3 · llama.cpp b8864
by llmbbs.ai · 本地 AI 技术社区

[1/6] Probing hardware...
GPU: NVIDIA GeForce GTX 1070 Ti (SM61, 8192 MB VRAM, 256 GB/s)
RAM: 31 GB UNKNOWN
OS: windows amd64

[2/6] Selecting configuration...
Model: Qwen3-30B-A3B (moe, 29B total / 2B active)
Quant: Q3_K_M (12.9 GB)
Mode: moe_offload (experts on CPU)

[3/6] Checking files...
Using bundled iso3 binary: llama-server-cuda.exe
Binary: llama-server-cuda.exe [cached]
Model: Qwen3-30B-A3B-UD-Q3_K_XL.gguf [cached]

[4/6] Preflight check...
iso3 不可用（ MinSM61 或非 turboquant binary ），回退到 q8_0/q4_0
✓ VRAM sufficient

[5/6] Warmup benchmark...
Probe 1: ctx=32K ... OOM
Probe 2: ctx=16K ... OOM
Probe 3: ctx=8K ... OOM
⚠️ Warmup failed: all ctx probes failed (tried down to 4K)
Using default parameters

[6/6] Starting server...
Waiting for llama-server to be ready (port 11434)...
⚠️ 显存不足，降低上下文至 4K 重试...
Waiting for llama-server to be ready (port 11434)...
Error: failed to start llama-server: 连续 2 次启动失败，即使最小上下文(4K)也无法运行

NVIDIA GeForce GTX 1070 Ti: 8192 MB VRAM
模型 Qwen3-30B-A3B: ~13189 MB
KV cache (4K, q4_0): ~96 MB
预估总需: ~14309 MB

差额: 6117 MB

建议:
1. 选择更小的量化 (Q4_K_M 或 Q2_K)
2. 选择更小的模型

Usage:
kaiwu run <model> [flags]

Flags:
--bench Run benchmark after starting
--ctx-size int 手动指定上下文大小（ 0=自动）
--fast Skip warmup, use cached profile
-h, --help help for run
--host string 监听地址（默认 127.0.0.1 ，用 0.0.0.0 开放局域网） (default "127.0.0.1")
--llama-server string 使用自定义 llama-server 二进制（完整路径）
--reset 清除缓存，重新 warmup 探测最优参数

4 月 23 日

回复了 drooloo 创建的主题 › 职场话题 › 公司的 AI 客服被真人干掉了

个人认为 AI 客服其实不需要用到大模型这样的算力，垂直领域语料有限，再怎么微调也难以给出准确答案，特别是多轮对话场景就更难了。另外，大模型带来的幻觉会严重消耗用户的信任度。就像很多人说的，接电话的第一句就是转人工，目前也没有看到比较好的落地方案。

4 月 22 日

回复了 rechardwong0522 创建的主题 › 新手求助 › 这个网站（https://global.v2ex.co/）是假冒的吗？

@sddyzm 好的，谢谢

4 月 2 日

回复了 gefangshuai 创建的主题 › 分享创造 › 痛定思痛，经过很长一段时间的考虑，决定将 PasteMemo — macOS 智能剪贴板管理器，今天正式开源了！

感谢老哥开源。对于 Swift 初学者来说，PasteMemo 的架构和难度适合用来学习吗？

2 月 9 日

回复了 Moyyyyyyyyyyye 创建的主题 › 分享创造 › 花 4 个月和 3 万刀做了个 Agent 网页支持工具 coolvibe.io，手机/PC 都能看，支持自部署，订阅免费送！

Y3UJ55YR5Y 试试，谢谢