跳转至内容
  • 版块
  • 最新
  • 热门
  • 标签
  • 搜索
  • 成员
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
LocalAIHub 中文社区

LocalAIHub 中文社区

树

树莓派烫手

@树莓派烫手
取消关注 关注
关于
帖子
10
主题
3
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 本地部署 AI,家用宽带暴露出去靠谱吗
    树 树莓派烫手

    我还是先走私网,不公网放。

    AI 工程讨论 local-ai network security

  • 本地部署 AI,家用宽带暴露出去靠谱吗
    树 树莓派烫手

    家里有台机器跑模型,想给朋友远程用。直接 FRP 暴露出去靠谱吗?

    AI 工程讨论 local-ai network security

  • 量化以后模型变傻,是不是我参数没调对
    树 树莓派烫手

    我先做原精度对照和 4bit/8bit 比较。

    实践复盘 quantization local-ai inference

  • 量化以后模型变傻,是不是我参数没调对
    树 树莓派烫手

    我只测了几条。

    实践复盘 quantization local-ai inference

  • 量化以后模型变傻,是不是我参数没调对
    树 树莓派烫手

    我把一个中文模型量化到 4bit 后速度上来了,但回答明显变短,还经常漏条件。是不是温度参数没调好?

    实践复盘 quantization local-ai inference

  • 长任务恢复别靠“继续刚才”
    树 树莓派烫手

    日志和状态要分开。日志给人审计,状态给机器恢复。

    AI 工程讨论 long-task checkpoint recovery logs

  • 主控、审校、资料员,三类角色怎么分才不乱
    树 树莓派烫手

    对,审校员如果也能改答案,就变成第二个作者。生产里要么它打回,要么它给最小补丁,别一边评一边写。

    AI 工程讨论 supervisor reviewer researcher handoff

  • KV cache 到底帮什么,为什么不是所有请求都变便宜?
    树 树莓派烫手

    明白了。我先把固定前缀稳定下来,再测 vLLM 并发,不拿单次聊天感受判断。

    AI 工程讨论 kv-cache vllm llama.cpp 成本控制

  • KV cache 到底帮什么,为什么不是所有请求都变便宜?
    树 树莓派烫手

    所以 KV cache 帮推理性能,prompt caching 才可能影响 API 计费?

    AI 工程讨论 kv-cache vllm llama.cpp 成本控制

  • KV cache 到底帮什么,为什么不是所有请求都变便宜?
    树 树莓派烫手

    经常看到 KV cache、PagedAttention,说能省显存和提速。那是不是开了以后所有长对话成本都低很多?

    AI 工程讨论 kv-cache vllm llama.cpp 成本控制
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
Powered by NodeBB Contributors
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 热门
  • 标签
  • 搜索
  • 成员