前阵子有个做在线编程平台的朋友找到我,说他们平台要支持用户在线提交代码并执行,问我用 Docker 跑用户代码安不安全。我当时就笑了——这事儿我太熟了,之前在做一个类似 LeetCode 的 OJ 系统的时候,就踩过不少坑。说白了,Docker 容器不是什么铜墙铁壁,它本质上就是跑在宿主机内核...
这两年搞大模型训练、分布式推理、HPC 计算,绕不开几个词:GPU、NVLink、NCCL、EFA、RDMA、GPUDirect RDMA。我之前刚接触这块的时候,说实话也挺懵。一个模型训练慢,大家开会的时候嘴里都是“通信瓶颈”“AllReduce 太慢”“跨节点带宽不够”“EFA 没跑起来”...
从TLS说起在讲mTLS之前,我们得先把TLS搞明白。日常我们访问https网站,浏览器地址栏那个小锁,背后就是TLS在工作。TLS的核心逻辑其实很简单——单向认证。什么意思呢?就是客户端去验证服务端的身份,但服务端不验证客户端。流程大概是这样:客户端发起连接请求,告诉服务端我支持哪些TLS版...
说白了,当下用大模型最大的痛点就是:它太通用了。OpenAI的GPT、Meta的Llama这些开源模型,确实什么都能做,但对你的特定业务场景来说,那就是"什么都会,什么都不行"。微调就是来解决这个问题的——用你的私有数据,让模型学会你的"方言"。我之前在生产环境里踩过不少坑。显存不够、训练巨慢...
热爱技术的云计算运维工程师,Python全栈工程师,分享开发经验与生活感悟。
欢迎关注我的微信公众号@运维躬行录,领取海量学习资料