V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  rechardwong0522  ›  全部回复第 1 页 / 共 8 页
回复总数  151
1  2  3  4  5  6  7  8  
你好,上架 chrome 应用商店花了多长时间?
先不说研究意义大不大,单是多张牌被遮挡后,后续跟踪只能完全靠猜。
5 月 21 日
回复了 yiroonli 创建的主题 问与答 为什么有钱人大多都迷信?
@fregie 兄弟,你的 Pho 项目咋不更新了呢?请问本地开发环境配置是啥呀,我跑不起来。如果能看一下 flutter docker -v 就好了,求助。
@yukinotech 这些地方刚好就是垃圾来源地
5 月 20 日
回复了 Amazing10086 创建的主题 职场话题 兄弟们转行烤串有没有搞头?
手艺要好的话,去大学校门口卖炒饭炒粉啥的,今天我去看生意爆好。十块钱一份,两刀两分钟出锅。当然,前提是好吃实惠。
5 月 20 日
回复了 Matsunatru 创建的主题 职场话题 找工作,面试通过了,但是经历是编的
V 站真的蛮奇怪的,一方面很多人对现实各种抱怨觉得各种不公,一方面又有很多人支持这样的造假。活脱脱的精致利己主义者。
5 月 20 日
回复了 Matsunatru 创建的主题 职场话题 找工作,面试通过了,但是经历是编的
@giter 可能涉嫌伪造文书罪
id 120
谢谢老板
FRE-93e5b055
老板发大财!
id:467
谢谢老板,恭喜发财!
最新版本,还是不行呢。

PS E:\kaiwu-windows-amd64> .\kaiwu.exe run .\Qwen3-30B-A3B-UD-Q3_K_XL.gguf

██╗ ██╗ █████╗ ██╗██╗ ██╗██╗ ██╗
██║ ██╔╝██╔══██╗██║██║ ██║██║ ██║
█████╔╝ ███████║██║██║ █╗ ██║██║ ██║
██╔═██╗ ██╔══██║██║██║███╗██║██║ ██║
██║ ██╗██║ ██║██║╚███╔███╔╝╚██████╔╝
╚═╝ ╚═╝╚═╝ ╚═╝╚═╝ ╚══╝╚══╝ ╚═════╝
本地大模型部署器 vv0.2.3 · llama.cpp b8864
by llmbbs.ai · 本地 AI 技术社区

[1/6] Probing hardware...
GPU: NVIDIA GeForce GTX 1070 Ti (SM61, 8192 MB VRAM, 256 GB/s)
RAM: 31 GB UNKNOWN
OS: windows amd64

[2/6] Selecting configuration...
Model: Qwen3-30B-A3B (moe, 29B total / 2B active)
Quant: Q3_K_M (12.9 GB)
Mode: moe_offload (experts on CPU)

[3/6] Checking files...
Using bundled iso3 binary: llama-server-cuda.exe
Binary: llama-server-cuda.exe [cached]
Model: Qwen3-30B-A3B-UD-Q3_K_XL.gguf [cached]

[4/6] Preflight check...
iso3 不可用( MinSM61 或非 turboquant binary ),回退到 q8_0/q4_0
✓ VRAM sufficient

[5/6] Warmup benchmark...
Probe 1: ctx=32K ... OOM
Probe 2: ctx=16K ... OOM
Probe 3: ctx=8K ... OOM
⚠️ Warmup failed: all ctx probes failed (tried down to 4K)
Using default parameters

[6/6] Starting server...
Waiting for llama-server to be ready (port 11434)...
⚠️ 显存不足,降低上下文至 4K 重试...
Waiting for llama-server to be ready (port 11434)...
Error: failed to start llama-server: 连续 2 次启动失败,即使最小上下文(4K)也无法运行

NVIDIA GeForce GTX 1070 Ti: 8192 MB VRAM
模型 Qwen3-30B-A3B: ~13189 MB
KV cache (4K, q4_0): ~96 MB
预估总需: ~14309 MB

差额: 6117 MB

建议:
1. 选择更小的量化 (Q4_K_M 或 Q2_K)
2. 选择更小的模型

Usage:
kaiwu run <model> [flags]

Flags:
--bench Run benchmark after starting
--ctx-size int 手动指定上下文大小( 0=自动)
--fast Skip warmup, use cached profile
-h, --help help for run
--host string 监听地址(默认 127.0.0.1 ,用 0.0.0.0 开放局域网) (default "127.0.0.1")
--llama-server string 使用自定义 llama-server 二进制(完整路径)
--reset 清除缓存,重新 warmup 探测最优参数
4 月 23 日
回复了 drooloo 创建的主题 职场话题 公司的 AI 客服被真人干掉了
个人认为 AI 客服其实不需要用到大模型这样的算力,垂直领域语料有限,再怎么微调也难以给出准确答案,特别是多轮对话场景就更难了。另外,大模型带来的幻觉会严重消耗用户的信任度。就像很多人说的,接电话的第一句就是转人工,目前也没有看到比较好的落地方案。
@sddyzm 好的,谢谢
感谢老哥开源。对于 Swift 初学者来说,PasteMemo 的架构和难度适合用来学习吗?
Y3UJ55YR5Y 试试,谢谢
1 月 29 日
回复了 yuhuanxi 创建的主题 分享创造 历时 10 个月,我开发了个记录 APP
@yuhuanxi 真棒,花了很多心血啊。自己用的话,期待作者开源的一天
2025 年 12 月 21 日
回复了 rechardwong0522 创建的主题 问与答 兄弟们,求推荐安卓主力机
@Tachyonc 今天去试了下三星,确实跟国内品牌风格不一样,而且还挺贵的。
1  2  3  4  5  6  7  8  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1418 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 53ms · UTC 16:58 · PVG 00:58 · LAX 09:58 · JFK 12:58
♥ Do have faith in what you're doing.