webdevqa.jp.net

Intelコンパイラを使用したWindowsとLinuxのパフォーマンスの違い:アセンブリの確認

WindowsとLinux(x86-64)の両方でプログラムを実行しています。同じコンパイラー(Intel Parallel Studio XE 2017)と同じオプションでコンパイルされており、WindowsバージョンはLinuxバージョンの3倍高速です。犯人は std :: erf の呼び出しであり、どちらの場合もIntel数学ライブラリで解決されます(デフォルトでは、Windowsでは動的に、Linuxでは静的にリンクされますが、Linuxで動的リンクを使用すると、同じパフォーマンス)。

問題を再現する簡単なプログラムを次に示します。

#include <cmath>
#include <cstdio>

int main() {
  int n = 100000000;
  float sum = 1.0f;

  for (int k = 0; k < n; k++) {
    sum += std::erf(sum);
  }

  std::printf("%7.2f\n", sum);
}

VTuneを使用してこのプログラムをプロファイルすると、WindowsバージョンとLinuxバージョンでアセンブリが少し異なることがわかります。これがWindowsの呼び出しサイト(ループ)です

Block 3:
"vmovaps xmm0, xmm6"
call 0x1400023e0 <erff>
Block 4:
inc ebx
"vaddss xmm6, xmm6, xmm0"
"cmp ebx, 0x5f5e100"
jl 0x14000103f <Block 3>

そして、Windowsで呼び出されるerf関数の始まり

Block 1:
Push rbp
"sub rsp, 0x40"
"lea rbp, ptr [rsp+0x20]"
"lea rcx, ptr [rip-0xa6c81]"
"movd edx, xmm0"
"movups xmmword ptr [rbp+0x10], xmm6"
"movss dword ptr [rbp+0x30], xmm0"
"mov eax, edx"
"and edx, 0x7fffffff"
"and eax, 0x80000000"
"add eax, 0x3f800000"
"mov dword ptr [rbp], eax"
"movss xmm6, dword ptr [rbp]"
"cmp edx, 0x7f800000"
...

Linuxでは、コードが少し異なります。呼び出しサイトは次のとおりです。

Block 3
"vmovaps %xmm1, %xmm0"
"vmovssl  %xmm1, (%rsp)"
callq  0x400bc0 <erff>
Block 4
inc %r12d
"vmovssl  (%rsp), %xmm1"
"vaddss %xmm0, %xmm1, %xmm1"   <-------- hotspot here
"cmp $0x5f5e100, %r12d"
jl 0x400b6b <Block 3>

呼び出された関数(erf)の始まりは次のとおりです。

"movd %xmm0, %edx"
"movssl  %xmm0, -0x10(%rsp)"   <-------- hotspot here
"mov %edx, %eax"
"and $0x7fffffff, %edx"
"and $0x80000000, %eax"
"add $0x3f800000, %eax"
"movl  %eax, -0x18(%rsp)"
"movssl  -0x18(%rsp), %xmm0"
"cmp $0x7f800000, %edx"
jnl 0x400dac <Block 8>
...

Linuxで時間が失われる2つのポイントを示しました。

2つのコードの違いと、Linuxバージョンが3倍遅い理由を説明できるほどアセンブリを理解している人はいますか?

65
InsideLoop

どちらの場合も、WindowsおよびGNU/Linuxのそれぞれの呼び出し規約に従って、引数と結果はレジスタで渡されますonly

GNU/Linuxバリアントでは、xmm1は、合計の累積に使用されます。コールクローバーレジスタ(呼び出し元が保存したもの)であるため、各呼び出しで呼び出し元のスタックフレームに格納(および復元)されます。

Windowsバリアントでは、xmm6は、合計の累積に使用されます。このレジスタは、Windowsの呼び出し規約で呼び出し先が保存されます(ただし、GNU/Linuxのものではありません)。

したがって、要約すると、GNU/Linuxバージョンは両方を保存/復元しますxmm0(呼び出し先[1]内)およびxmm1(呼び出し側)、Windowsバージョンでは保存/復元のみxmm6(呼び出し先)。

[1] std::errf理由を理解する。

42
chill

Visual Studio 2015のWin 7 64ビットモードを使用すると、erf()で使用されているパスの一部に対して次のコードが見つかります(すべてのパスが表示されているわけではありません)。各パスには、メモリから読み取られる最大8(他のパスの場合はそれ以上)の定数が含まれるため、レジスタを保存するための単一のストア/ロードでは、LinuxとWindowsの間で3倍の速度差は生じません。保存/復元に関しては、この例ではxmm6とxmm7を保存および復元します。時間に関しては、元の投稿のプログラムはIntel 3770K(3.5ghz cpu)(VS2015/Win 7 64ビット)で約0.86秒かかります。更新-プログラム10 ^ 8ループ(ループあたり約3ナノ秒)の場合、xmmレジスタの保存と復元のオーバーヘッドは約0.03秒であると後で判断しました。

000007FEEE25CF90  mov         rax,rsp  
000007FEEE25CF93  movss       dword ptr [rax+8],xmm0  
000007FEEE25CF98  sub         rsp,48h  
000007FEEE25CF9C  movaps      xmmword ptr [rax-18h],xmm6  
000007FEEE25CFA0  lea         rcx,[rax+8]  
000007FEEE25CFA4  movaps      xmmword ptr [rax-28h],xmm7  
000007FEEE25CFA8  movaps      xmm6,xmm0  
000007FEEE25CFAB  call        000007FEEE266370  
000007FEEE25CFB0  movsx       ecx,ax  
000007FEEE25CFB3  test        ecx,ecx  
000007FEEE25CFB5  je          000007FEEE25D0AF  
000007FEEE25CFBB  sub         ecx,1  
000007FEEE25CFBE  je          000007FEEE25D08F  
000007FEEE25CFC4  cmp         ecx,1  
000007FEEE25CFC7  je          000007FEEE25D0AF  
000007FEEE25CFCD  xorps       xmm7,xmm7  
000007FEEE25CFD0  movaps      xmm2,xmm6  
000007FEEE25CFD3  comiss      xmm7,xmm6  
000007FEEE25CFD6  jbe         000007FEEE25CFDF  
000007FEEE25CFD8  xorps       xmm2,xmmword ptr [7FEEE2991E0h]  
000007FEEE25CFDF  movss       xmm0,dword ptr [7FEEE298E50h]  
000007FEEE25CFE7  comiss      xmm0,xmm2  
000007FEEE25CFEA  jbe         000007FEEE25D053  
000007FEEE25CFEC  movaps      xmm2,xmm6  
000007FEEE25CFEF  mulss       xmm2,xmm6  
000007FEEE25CFF3  movaps      xmm0,xmm2  
000007FEEE25CFF6  movaps      xmm1,xmm2  
000007FEEE25CFF9  mulss       xmm0,dword ptr [7FEEE298B34h]  
000007FEEE25D001  mulss       xmm1,dword ptr [7FEEE298B5Ch]  
000007FEEE25D009  addss       xmm0,dword ptr [7FEEE298B8Ch]  
000007FEEE25D011  addss       xmm1,dword ptr [7FEEE298B9Ch]  
000007FEEE25D019  mulss       xmm0,xmm2  
000007FEEE25D01D  mulss       xmm1,xmm2  
000007FEEE25D021  addss       xmm0,dword ptr [7FEEE298BB8h]  
000007FEEE25D029  addss       xmm1,dword ptr [7FEEE298C88h]  
000007FEEE25D031  mulss       xmm0,xmm2  
000007FEEE25D035  mulss       xmm1,xmm2  
000007FEEE25D039  addss       xmm0,dword ptr [7FEEE298DC8h]  
000007FEEE25D041  addss       xmm1,dword ptr [7FEEE298D8Ch]  
000007FEEE25D049  divss       xmm0,xmm1  
000007FEEE25D04D  mulss       xmm0,xmm6  
000007FEEE25D051  jmp         000007FEEE25D0B2  
000007FEEE25D053  movss       xmm1,dword ptr [7FEEE299028h]  
000007FEEE25D05B  comiss      xmm1,xmm2  
000007FEEE25D05E  jbe         000007FEEE25D076  
000007FEEE25D060  movaps      xmm0,xmm2  
000007FEEE25D063  call        000007FEEE25CF04  
000007FEEE25D068  movss       xmm1,dword ptr [7FEEE298D8Ch]  
000007FEEE25D070  subss       xmm1,xmm0  
000007FEEE25D074  jmp         000007FEEE25D07E  
000007FEEE25D076  movss       xmm1,dword ptr [7FEEE298D8Ch]  
000007FEEE25D07E  comiss      xmm7,xmm6  
000007FEEE25D081  jbe         000007FEEE25D08A  
000007FEEE25D083  xorps       xmm1,xmmword ptr [7FEEE2991E0h]  
000007FEEE25D08A  movaps      xmm0,xmm1  
000007FEEE25D08D  jmp         000007FEEE25D0B2  
000007FEEE25D08F  mov         eax,8000h  
000007FEEE25D094  test        Word ptr [rsp+52h],ax  
000007FEEE25D099  je          000007FEEE25D0A5  
000007FEEE25D09B  movss       xmm0,dword ptr [7FEEE2990DCh]  
000007FEEE25D0A3  jmp         000007FEEE25D0B2  
000007FEEE25D0A5  movss       xmm0,dword ptr [7FEEE298D8Ch]  
000007FEEE25D0AD  jmp         000007FEEE25D0B2  
000007FEEE25D0AF  movaps      xmm0,xmm6  
000007FEEE25D0B2  movaps      xmm6,xmmword ptr [rsp+30h]  
000007FEEE25D0B7  movaps      xmm7,xmmword ptr [rsp+20h]  
000007FEEE25D0BC  add         rsp,48h  
000007FEEE25D0C0  ret  
3
rcgldr