首页 > 互联网 >

超500倍完成程序，一个“太极”库，提速效果惊人！

发布时间：2022-09-09 14:31:14 【来源：量子位】

　　丰色发自凹非寺

　　量子位 | 公众号 QbitAI

　　众所周知，Python的简单和易读性是靠牺牲性能为代价的——

　　尤其是在计算密集的情况下，比如多重for循环。

　　不过现在，大佬胡渊鸣说了：

　　只需import 一个叫做“Taichi”的库，就可以把代码速度提升100倍！

　　不信？

　　来看三个例子。

　　计算素数的个数，速度x120

　　第一个例子非常非常简单，求所有小于给定正整数N的素数。

　　标准答案如下：

　　我们将上面的代码保存，运行。

　　当N为100万时，需要2.235s得到结果：

　　现在，我们开始施魔法。

　　不用更改任何函数体，import“taichi”库，然后再加两个装饰器：

　　Bingo！同样的结果只要0.363s，快了将近6倍。

　　如果N=1000万，则只要0.8s；要知道，不加它可是55s，一下子又快了70倍！

　　不止如此，我们还可以在ti.init()中加个参数变为ti.init(arch=ti.gpu) ，让taich在GPU上进行计算。

　　那么此时，计算所有小于1000万的素数就只耗时0.45s了，与原来的Python代码相比速度就提高了120倍！

　　厉不厉害？

　　什么？你觉得这个例子太简单了，说服力不够？我们再来看一个稍微复杂一点的。

　　动态规划，速度x500

　　动态规划不用多说，作为一种优化算法，通过动态存储中间计算结果来减少计算时间。

　　我们以经典教材《算法导论》中的经典动态规划案例“最长公共子序列问题（LCS）”为例。

　　比如对于序列a = [0, 1, 0, 2, 4, 3, 1, 2, 1]和序列b = [4, 0, 1, 4, 5, 3, 1, 2]，它们的LCS就是：

　　LCS(a, b) = [0, 1, 4, 3, 1, 2]。

　　用动态规划的思路计算LCS，就是先求解序列a的前i个元素和序列b的前j个元素的最长公共子序列的长度，然后逐步增加i或j的值，重复过程，得到结果。

　　我们用f[i, j]来指代这个子序列的长度，即LCS((prefix(a, i), prefix(b, j)。其中prefix(a, i) 表示序列a的前i个元素，即a[0], a[1], …, a[i - 1]，得到如下递归关系：

　　完整代码如下：

　　现在，我们用Taichi来加速：

　　结果如下：

　　胡渊鸣电脑上的程序最快做到了0.9秒内完成，而换成用NumPy来实现，则需要476秒，差异达到了超500倍！

　　最后，我们再来一个不一样的例子。

　　反应 - 扩散方程，效果惊人

　　自然界中，总有一些动物身上长着一些看起来无序但实则并非完全随机的花纹。

　　图灵机的发明者艾伦·图灵是第一个提出模型来描述这种现象的人。

　　在该模型中，两种化学物质（U和V）来模拟图案的生成。这两者之间的关系类似于猎物和捕食者，它们自行移动并有交互：

　　最初，U和V随机分布在一个域上；

　　在每个时间步，它们逐渐扩散到邻近空间；

　　当U和V相遇时，一部分U被V吞噬。因此，V的浓度增加；

　　为了避免U被V根除，我们在每个时间步添加一定百分比 (f) 的U并删除一定百分比 (k) 的V。

　　上面这个过程被概述为“反应-扩散方程”：

　　其中有四个关键参数：Du（U的扩散速度），Dv（V的扩散速度），f（feed的缩写，控制U的加入）和k（kill的缩写，控制V的去除）。

　　如果Taichi中实现这个方程，首先创建网格来表示域，用vec2表示每个网格中U, V的浓度值。

　　拉普拉斯算子数值的计算需要访问相邻网格。为了避免在同一循环中更新和读取数据，我们应该创建两个形状相同的网格W×H×2。

　　每次从一个网格访问数据时，我们将更新的数据写入另一个网格，然后切换下一个网格。那么数据结构设计就是这样：

　　一开始，我们将U在网格中的浓度设置为 1，并将V放置在50个随机选择的位置：

　　那么实际计算就可以用不到10行代码完成：

　　@ti.kernel

　　def compute(phase: int):

　　for i, j in ti.ndrange(W, H):

　　cen = uv[phase, i, j]

　　lapl = uv[phase, i + 1, j] + uv[phase, i, j + 1] + uv[phase, i - 1, j] + uv[phase, i, j - 1] - 4.0 * cen

　　du = Du * lapl[0] - cen[0] * cen[1] * cen[1] + feed * (1 - cen[0])

　　dv = Dv * lapl[1] + cen[0] * cen[1] * cen[1] - (feed + kill) * cen[1]

　　val = cen + 0.5 * tm.vec2(du, dv)

　　uv[1 - phase, i, j] = val

　　在这里，我们使用整数相位（0或1）来控制我们从哪个网格读取数据。

　　最后一步就是根据V的浓度对结果进行染色，就可以得到这样一个效果惊人的图案：

　　有趣的是，胡渊鸣介绍，即使V的初始浓度是随机设置的，但每次都可以得到相似的结果。

　　而且和只能达到30fps左右的Numba实现比起来，Taichi实现由于可以选择GPU作为后端，轻松超过了 300fps。

　　pip install即可安装

　　看完上面三个例子，你这下相信了吧？

　　其实，Taichi就是一个嵌入在Python中的DSL（动态脚本语言），它通过自己的编译器将被 @ti.kernel 装饰的函数编译到各种硬件上，包括CPU和GPU，然后进行高性能计算。

　　有了它，你无需再羡慕C++/CUDA的性能。

　　正如其名，Taichi就出自太极图形胡渊鸣的团队，现在你只需要用pip install就能安装这个库，并与其他Python库进行交互，包括NumPy、Matplotlib和PyTorch等等。

　　当然，Taichi用起来和这些库以及其他加速方法有什么差别，胡渊鸣也给出了详细的优缺点对比，感兴趣的朋友可以戳下面的链接详细查看：

　　https://docs.taichi-lang.org/blog/accelerate-python-code-100x

上一篇：这3个层面清晰发现大数据行业的“突破点”
下一篇：最后一页

: 布局橙色云生态链版图工业互联网赋能中小企业智能转型

: 格尔护士：“互联网+护理” 完成上门服务百万余例

: 夯实“奠基石” 走好“升级路” 优化“软环境” 培育“动力源”

: 数智化技术赋能金融创新、产业创新

: 5G催化AI变革，共助元宇宙时代的到来

: 如何突破互联网医疗的信任藩篱，让患者看到“效果”

: 人工智能的黄金时代才刚开始

: 云计算精准协调疫情防控供需高效对接

[ 热点图文 ]

SpaceX将于本周发射试图打破火箭的可重复使用记录

腾讯收购法国休闲游戏制造商Voodoo的少数股权

谷歌警告如果被迫与大媒体分享广告收入免费服务将面临风险

Hammock为房东和房地产经理的经常账户筹集了100万英镑的种子资金

[ 最新资讯 ]

超500倍完成程序，一个“太极”库，提速效果惊人！

　　丰色发自凹非寺　　量子位 | 公众号 QbitAI　　众所周知，Python的简单和易读性是靠牺牲性能为代价的——　　尤其是在计算密集 ...

“聪明的路”仍是一个孤岛，车路协同面临技术壁垒

　　当前车路协同的发展仍面临时空对齐、低时延等技术壁垒，以及商业闭环、信息孤岛等难题。　　·路侧与车侧的建设不同，低级别的自动驾驶 ...

大悦城控股商业首进广州，引进超30家品牌、主题旗舰店

　　为响应广州培育国际消费中心城市的指示，黄埔区推出了极具有黄埔特色的举措。　　当前，商业龙头纷纷进驻，涵盖了高端购物中心、文商旅 ...

华硕灵耀X Fold | 180度折叠，搭载全新12代酷睿，首发19999元

　　网易数码讯，9月7日消息，华硕举行轻薄本秋季新品发布会，带来全新折叠屏笔记本灵耀X Fold、耀Pro14 16 2022以及无畏Pro 2022系列。 ...

Pico第四代6DOF VR一体机：“Phoenix”支持更逼真虚拟化身

　　据UploadVR报道，今年4月，Pico面向欧洲消费者推出Pico Neo 3系列时曾表示，如果未来12个月内Pico发布了新产品，那么，消费者将能获 ...

巨量云图：优化匹配，助力品牌“人找货”“货找人”策略落地

　　以懂你所爱为主题的抖音921好物节即将拉开帷幕。为了帮助商家明确抖音电商人货匹配策略，加快人货匹配效率，提升商品动销与上新表现， ...

[ 热点新闻 ] HOT

联系我们 QQ： 3 38 52 5 5 3 9 0