選擇頁面

試用:AMD GCN - 推出 Radeon HD 7970 和 HD 7950

終於到了我們介紹AMD GCN(Graphics Core Next)架構及其兩個最強大代表Radeon HD 7970和Radeon HD 7950的時候了。

GCN 文章標誌

在 HD 7950 中,我們立即向其中兩個表示敬意,因此我們也有機會測試 CrossFireX,並且我們還對兩張卡進行了調諧測量。 當然,我們還派了一些賽車手來對抗這兩款新炮,看看與上一代 GeForce 和 Radeons 相比,這些卡的加速程度如何。 


在進入參與者和測試之前,我們將仔細研究 GCN 架構並接管 HD 7970 和 HD 7950 的功能。

 所有卡片盒 2k

 圖形核心下一個

2007 年 2900 月,AMD 推出了 Radeon HD 4000 XT 顯卡,該顯卡已經建立在統一著色器架構上。 事實證明,該設計存在許多缺陷,但到 Radeon HD 6900 系列時幾乎完全消除了這些問題,使該公司在桌面顯卡市場上站穩了腳跟。 在這一點上,可以看出現在需要進行徹底的改變。 HD 5“Cayman”系列被認為是第一步。 在這裡,之前的 5 路超標量處理器(VLIW4)已經被 4 路處理器(VLIW7900)取代,Cayman 是第一個處理多個獨立指令流的芯片。 另一個重大創新是引入了兩個“圖形引擎”,它使三角形設置能力翻了一番——增加了曲面細分能力——以及一些元素(光柵化器、層次 Z、曲面細分器)的數量。 他成為我們今天下一級測試的對象。 得益於稱為 Graphics Core Next (GCN) 的架構,迄今為止使用的使用 VLIW 指令的著色器陣列已經過時,取而代之的是所謂的計算單元 (CU)。 GCN 在 Radeon HD XNUMX “Tahiti”系列中首次亮相。

19米

有趣的是,但並不奇怪,由於台積電的 28 納米帶寬製造技術,Tahiti GPU 實現了出色的晶體管密度——它們每 365 平方毫米包含 4,3 億個晶體管。 一個計算單元包含四個 SIMD 和一個標量單元。 AMD 的旗艦 Radeon HD 7970 “Tahiti XT” 與 32 個活動 CU 配合使用,假設總共有 2048 個著色器處理器(四個 16 路 SIMD,64 個 ALU)。 考慮到現在幾代人的進步,乍一看這似乎不是一個突出的價值,但為了更好的效率和利用,我們想聲明,不值得偶然地從這個中得出深遠的結論技術指標。 理論上,一個 CU 的性能相當於一個 Cayman SIMD 單元。 前幾代的一個主要問題是數據依賴性(連續指令依賴於數據),這導致利用率大幅波動。 GCN 架構也是該領域向前邁出的一步,因為它通過流處理消除了以前經歷的依賴關係。 好處僅在於關鍵字:調度、調試、估計預期性能和驅動程序開發也變得更加簡單和透明。 

24

36米一個 CU 不僅包含四個 SIMD 單元,而且還有自己的調度程序、340 KB 的緩衝區存儲和一個紋理集群。 這是 4 × 64 KB 矢量寄存器、64 KB 本地數據共享、4 KB 標量寄存器和 16 KB 容量一級緩存的總和。 上圖顯示了另一個絕對值得一提的組件,即所謂的“Branch & Message Unit”,它在更高效的程序控制方面發揮著作用。
掌握了這麼多信息,我們再來回顧一下“Tahiti XT”圖形處理器的關鍵參數:32 CU(2048個著色器處理器,128個SIMD)、128個紋理單元、512個Load-Store Units,以及總共8,2MB的緩存。 所以女孩的位置馬上就不同了,即使我們才剛剛開始“脫衣服”。

35米前端

在前端方面,我們可以看到與 NVIDIA GF110 的架構相比有顯著差異。 管理基本上不是在 CU 級別進行的。 此任務由命令處理器和異步計算引擎 (ACE) 執行。 該芯片配備了兩個幾何電機,除了 Geometry-Assembler 和 Vertex-Assembler 之外,還可以容納第九代曲面細分器單元。 全球數據共享 (GDS) 促進了與 CU 的通信,這些單元還可以通過它相互共享數據。 前端部分包含兩個光柵化器 - 您可以看到下面的佈局。

37

ROP 和內存接口
AMD Tahiti 包含 8 個 ROP 集群——此時我們找到了與 Cayman 芯片相匹配的。 每個這樣的“陣列”包含四個 ROP 單元和 16 個 Z 採樣器。 值得一提的是,每個集群都有自己的緩存。 另一個重大變化發生了:不再直接連接到內存控制器。 此舉旨在提高靈活性和可用性,我們可能會在 Pitcairn 的上下文中看到這一點...... ROP 可以寫入 768 KB 的 L2 緩存,進而可以被多個單元讀取。 內存接口接收到一個快樂的圖像。 六個 64 位內存控制器的總容量為 384 位。 我們只需為此添加一個詞。 最後! 顯存的默認大小為 3072 MB,但理論上 1536 MB 和 6 GB 也是可能的。

我們希望我們的讀者不要把它看成一個壞名聲,但在這一點上,我們將就後端區域發表我們的個人意見。 表現非常出色的 Barts 與表現相對溫和的 Cayman 芯片之間的關係表明,AMD 芯片的“普遍問題”是 ROP 容量緊張。 大溪地島也沒有取得任何進展,而關於芯片的其他新穎性的頁面仍然可以誇大其詞。 ROP 的作用在比賽中尤為突出,在 GPGPU 任務和應用程序中,他們成為第二小提琴手。 也可以肯定的是,這部分消耗了大量的晶體管,這當然也體現在芯片的尺寸上。

 

到目前為止,AMD 的增強功能在很大程度上滿足了遊戲玩家的需求。 現在至少有90度的轉彎,成為滿足專業需求,更廣泛地使用GPU的強大十字路口。 當然,這不是問題,因為我們基本上是在談論非常粗略的性能水平,這肯定會經得起現代遊戲的考驗幾年。 據傳,不僅AMD,NVIDIA也在用Kepler狹隘地對待ROP。

擴展內存總線是值得稱道的一步。 事實上,設計師別無選擇。 時鐘不能再顯著增加,但芯片正在缺乏數據。 在我們看來,僅此一項舉措就可以將游戲中的性能提高多達 15%。

44DirectX 11.1 和 PCI Express 3.0
PCI-Express 3.0 標準將速度從 16 GB/秒提高到 32 GB/秒,將 PCIe 2.0 的數據傳輸速率提高一倍。 主板製造商立即“咬住了這個話題”,但無論他們多麼想,目前這種開關都沒有提供顯著的優勢。 PCIe 3.0從營銷角度來說是重要武器,是AMD和NVIDIA的強制性標準,也是用戶的又一個“金錢陷阱”。
DirectX 11.1 可以從以下 Windows 操作系統開始征服,其中包含小修復和優化。 根據官方資料,我們可以期待新 API 提供原生立體 3D 支持和更高效的光柵化。 不幸的是,討論如何提高圖形硬件的靈活性和廣泛可用性的最有趣的點可能尚未詳細說明。

31米

Graphics-Core-Next 架構大致如下所示。 當然,芯片不僅服務於玩家的需求,也有完成專業任務的空間。 Tahiti 的理論計算峰值性能(用於雙精度計算)為 947 GFLOP,是單精度浮點運算的四倍。 此外,內存支持 ECC,GPU 熟悉 DirectCompute 11.1、OpenCL 1.2 C ++ AMP API。27 新功能:零核
總的來說,Radeon HD 7900 級別的頂級掠食者習慣於將消費作為禁忌話題,但 AMD 工程師缺乏匠心。 這個想法很簡單但很棒,但並不新鮮。 如果您長時間離開計算機,但出於某種原因不想將其關閉,您可能只想讓顯示器處於待機模式。 得益於 ZeroCore Power 技術,在顯示器關閉的情況下,整個圖形控制器可以斷電,這種形式不需要主動冷卻。 好處是令人信服:零噪音,3 瓦的功耗。 對於許多人來說,這將是一個微不足道的因素,但四路 Crossfire 系統的程序會關閉非主要視頻卡,從而顯著降低您的電費 - 儘管任何考慮這種組件的人都沒有解決能源效率問題。

21a

20

寬域 2.0
新版本的有趣功能之一是它允許您使用多頻段音頻進行多顯示器會議對話。 該程序的正式名稱是離散數字多點 (DDM) 音頻。 Radeon HD 7970 可同時連接三台顯示器,可接收八聲道音頻流。 這可能不是家庭用戶特別感興趣的,但它是新加農炮可以用於多少領域的一個很好的例子。 Catalyst 驅動器也在不斷發展,例如,可以更輕鬆地定位托盤,並允許您編譯自定義分辨率。 值得一提的是,Full HD 立體 3D 內容也可以在 Eyefinity 模式下觀看。 

29米

UVD 和 VCE
UVD 3.0 已經為 DivX/Xvid、MPEG-4 Part 2 MVC 內容提供了硬件加速,而視頻代碼引擎 (VCE) 幾乎相當於 AMD 的 Intel Quick Sync Video。 VCE 是獨立硬件,僅用於加速 H.264 視頻的轉碼。 引擎比圖形處理器中的著色器處理器慢,但更節能。 有兩種模式可供用戶使用。 起初,只有 VCE 有效,它本身比大多數 CPU 都快。 在這種情況下,我們不會遇到減速,我們可以毫無問題地加載視頻卡或中央單元。 第二種選擇是混合模式。 VCE 和 GPU 的算術邏輯單元一起跳轉到任務。 這種“聯姻”顯然對編碼速度有很好的影響,但在這種情況下,如果您最喜歡的遊戲切換到“幻燈片”模式,請不要感到驚訝。

32

現在我們已經了解了理論和數字,讓我們熟悉測試中的三個 GCN 模型!