开发函数计算的正确姿势——使用 brotli 压缩大文件

网友投稿 278 2022-10-29

大文件问题

函数计算对上传的 zip 代码包尺寸限制为 50M。某些场景中代码包中会超过这一限制，比如未经裁剪的 serverless-chrome ，类似的还有 libreoffice ，此外常见的还有机器学习训练的模型文件。目前解决大文件问题有三种方法

采用更高压缩比的算法，比如本文介绍的 brotli 算法采用 OSS 运行时下载采用 NAS 文件共享

简单的比较一下这三种方法的优劣

方法	优点	缺点
高密度压缩	发布简单，启动最快	上传代码包较慢；要写解压代码；大小受限制不超过 50 M
OSS	下载解压后文件不超过 512 M	需要预先上传至 OSS；要写下载和解压代码，大概 50M/s 的下载速度
NAS	文件大小没有限制，无需压缩	需要预先上传至 NAS；VPC 环境有冷启动时延(~5s)

正常情况下如果代码包能控制在 50M 以下启动较快。而且工程上也比较简单，数据和代码放在一起，不需要额外的写脚本去同步更新 OSS 或者 NAS。

压缩算法

Brotli 是 Google 工程师开发的开源压缩算法，目前已经被新版的主流浏览器支持，作为 HTTP 传输的压缩算法。下面是在网上找到的关于 Brotli 和其他常见压缩算法对比基准测试。

从上面三幅图我们可以看出:相比于 gzip、xz 和 bz2，brotli 有最高的压缩比，接近于 gzip 的解压速度，以及最慢的压缩速度。

然而在我们的场景对于压缩慢这一缺点不敏感，压缩任务只要在开发准备物料的阶段执行一次就好了。

制作压缩文件

下面我先介绍一下如何制作压缩文件。下面的代码和用例都来自于项目 packed-selenium-java-example 。

安装 brotli 命令

Mac 用户

brew install brotli

Windows 用户可以去这个界面下载，7.5M 和 97M

╭─ ~/D/test1[◷ 18:15:21] ╰─ ll total 213840 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium

使用 GZip 打包并压缩，大小为 44 M。

╭─ ~/D/test1[◷ 18:15:33] ╰─ tar -czvf chromedriver.tar chromedriver headless-chromium a chromedriver a headless-chromium ╭─ ~/D/test1[◷ 18:16:41] ╰─ ll total 306216 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rw-r--r-- 1 vangie staff 44M 3 6 18:16 chromedriver.tar -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium

tar 去掉 z 选项再打包一遍，大小为 104M

╭─ ~/D/test1[◷ 18:16:42] ╰─ tar -cvf chromedriver.tar chromedriver headless-chromium a chromedriver a headless-chromium ╭─ ~/D/test1[◷ 18:17:06] ╰─ ll total 443232 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rw-r--r-- 1 vangie staff 104M 3 6 18:17 chromedriver.tar -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium

压缩后的大小为 33M，相比 Gzip 的 44M 小了不少。耗时也非常的感人 6 分 18 秒，Gzip 只要 5 秒。

╭─ ~/D/test1[◷ 18:17:08] ╰─ time brotli -q 11 -j -f chromedriver.tar brotli -q 11 -j -f chromedriver.tar 375.39s user 1.66s system 99% cpu 6:18.21 total ╭─ ~/D/test1[◷ 18:24:23] ╰─ ll total 281552 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rw-r--r-- 1 vangie staff 33M 3 6 18:17 chromedriver.tar.br -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium

运行时解压缩

下面以 java maven 项目为例

添加解压依赖包

org.apache.commons commons-compress 1.18 org.brotli dec 0.1.2

commons-compress 是 apache 提供的解压缩工具包，对于各种压缩算法提供一致的抽象接口，其中对于 brotli 算法只支持解压，这里足够了。org.brotli:dec 包是 Google 提供的 brotli 解压算法的底层实现。

实现 initialize 方法

public class ChromeDemo implements FunctionInitializer { public void initialize(Context context) throws IOException { Instant start = Instant.now(); try (TarArchiveInputStream in = new TarArchiveInputStream( new BrotliCompressorInputStream( new BufferedInputStream( new FileInputStream("chromedriver.tar.br"))))) { TarArchiveEntry entry; while ((entry = in.getNextTarEntry()) != null) { if (entry.isDirectory()) { continue; } File file = new File("/tmp/bin", entry.getName()); File parent = file.getParentFile(); if (!parent.exists()) { parent.mkdirs(); } System.out.println("extract file to " + file.getAbsolutePath()); try (FileOutputStream out = new FileOutputStream(file)) { IOUtils.copy(in, out); } Files.setPosixFilePermissions(file.getCanonicalFile().toPath(), getPosixFilePermission(entry.getMode())); } } Instant finish = Instant.now(); long timeElapsed = Duration.between(start, finish).toMillis(); System.out.println("Extract binary elapsed: " + timeElapsed + "ms"); } }

实现 FunctionInitializer 接口的 initialize 方法。解压过程刚开始是四层嵌套流，作用分别如下：

FileInputStream 读取文件 BufferedInputStream 提供缓存，介绍系统调用带来的上下文切换，提示读取的速度 BrotliCompressorInputStream 对字节流进行解码 TarArchiveInputStream 把 tar 包里的文件逐个解出来

然后 Files.setPosixFilePermissions 的作用是还原 tar 包中文件的权限。代码太长此处略去，参阅 packed-selenium-java-example

Instant start = Instant.now(); ... Instant finish = Instant.now(); long timeElapsed = Duration.between(start, finish).toMillis(); System.out.println("Extract binary elapsed: " + timeElapsed + "ms");

上面的代码段会打印出解压的耗时，真实执行大概在 3.7 s 左右。

最后不要忘记在 template.yml 里配置上 Initializer 和 InitializationTimeout

参考阅读

https://opencpu.org/posts/brotli-benchmarks/ 他帮助用户聚焦自身业务逻辑，以 Serverless的方式构建应用，快速的实现低成本，可扩展，高可用的系统，而无需考虑服务器等底层基础设施的管理。用户能够快速的创建原型，同样的架构能随业务规模平滑伸缩。让计算变得更高效，更经济，更弹性，更可靠。无论小型创业公司，还是大型企业，都受益其中。我们的团队正在迅速扩张，求贤若渴。我们想寻找这样的队友：基本功扎实。既能阅读论文追踪业界趋势，又能快速编码解决实际问题。严谨的，系统化的思维能力。既能整体考虑业务机会，系统架构，运维成本等诸多因素，又能掌控设计/开发/测试/发布的完整流程，预判并控制风险。好奇心和使命感驱动。乐于探索未知领域，不仅是梦想家，也是践行者。坚韧、乐观、自信。能在压力和困难中看到机会，让工作充满乐趣！如果您对云计算充满热情，想要构建一个有影响力计算平台和生态体系，请加入我们，和我们一起实现梦想!

职位描述

构建新一代 Serverless 计算平台，包括：

设计和实现完整可扩展的前端系统，包括身份验证/权限管理，元数据管理，流量控制，计量计费，日志监控等等设计和实现弹性可靠的后端系统，包括资源调度，负载均衡，容错处理等等丰富易用的 SDK/Tools/CLI/控制台用户需求驱动，追踪业界趋势，利用技术推动业务的成长

职位要求

算法/数据结构/操作系统等基础知识扎实，优秀的逻辑思维能力。至少掌握一门编程语言。例如 Java/Go/C/C#/C++。有大规模、高可用分布式系统开发经验者优先。有 Web/Mobile Backends/Microservice 开发经验者优先。良好的沟通能力和团队合作精神，有一定的组织协调能力。本科及以上学历 3 年以上工作经验，通过“阿里巴巴编码规范” 认证的同学优先录取，认证地址：AT alibaba-inc.com

“阿里巴巴云原生技术圈关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践，做最懂云原生开发者的技术圈。”

标签：工具

暂时没有评论，来抢沙发吧~

开发函数计算的正确姿势——使用 brotli 压缩大文件

linux cpu占用率如何看

宝塔数据库如何清理缓存

oracle怎么创建存储过程

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）