新款NVIDIA RTX 3080的CUDA核心數量比2080TI增加了一倍,
但破解密碼性能提升了2倍嗎?
https://blog.passware.com/the-new-nvidia-rtx-3080-has-double-the-number-of-cuda-cores-but-is-there-a-2x-performance-gain/
著名密碼破解軟體公司Passware測試最新的RTX 3080顯卡破解密碼效能,RTX 3080擁有8,704個CUDA內核,實作對比 RTX 2080 Ti 4352個CUDA核心.但性能竟然沒有提升多少!!!
這是因為 Nvidia 算CUDA Cores是以SM(Streaming Multiprocessor)的FP32 ALU(算術邏輯單元)的數量變成二倍。
但在密碼破解應用中僅使用INT32單元,與RTX 2080Ti相比,RTX 3080中INT32 運算單元總數量保持不變
但再看競爭對手Elcomsoft的說法
https://blog.elcomsoft.com/2020/12/breaking-passwords-with-nvidia-rtx-3080-and-3090/
認為RTX3080 效能有大幅表現..
那還有得參考比較嗎? OSSLab Geek Lab去查開源破解軟體Hashcat性能 . 發現:
Device #1: GeForce RTX 2080 Ti, 2816/11264 MB allocatable, 68MCU Speed.#1.........: 50515.3 MH/s (44.51ms)
Device #1: GeForce RTX 3080, 9044/10017 MB, 68MCU
Speed.#1.........: 54033.1 MH/s (41.92ms)
這方面來講 似乎Passware與Hashcat測試結果接近,再加上3080短期天價,我們認為若非合Elcomsoft Distributed Password Recovery應用情境,確實不用先買3080卡.
1.在特殊應用情境、軟體、硬體必需整體看待.就算廠商只賣你純硬體但若不夠專業,自然無法搭配最佳效能.
2.做技術要客觀分析狀況而不是堅持某些品牌,技術手法主見.
要多項分析後,以技術為本位風格才能解決高難度技術難題.
#OSSLab #資料救援 #勒索病毒 #GPU #AI
二張卡Hashcat性能比較出處
https://gist.github.com/Chick3nman/bb22b28ec4ddec0cb5f59df97c994db4
https://gist.github.com/binary1985/c8153c8ec44595fdabbf03157562763e
測試指令
* --benchmark-all
* --optimized-kernel-enable
cuda核心數 在 原價屋coolpc Facebook 的最讚貼文
【開箱】全銅散熱模組、鼓風扇獨挑大樑!技嘉 RTX3090 TURBO 24GB顯示卡。
http://www.coolpc.com.tw/phpBB2/viewtopic.php?f=71&t=273052
能將NVIDIA GeForce旗艦卡皇RTX3090顯示卡尺寸縮小至2個SLOT空間、26.7公分長度目前就只有技嘉RTX3090 TURBO 24G辦的到!實在不簡單呀!時脈提供1395MHz、BOOST 1695MHz,採用8奈米安培架構和全新SM架構設計,讓RTX3090擁有10497 CUDA核心數翻倍成長,在過去的Pascal、Turing架構卡王相當少見!搭配第二代RT和第三代Tensor核心技術以及世界最快GDDR6X 19.5Gbps 384bit 24GB記憶體,帶來更大頻寬和更快的速度,開拓最極致8K HDR遊戲...#原價屋開箱 #技嘉 #NVIDIA #RTX3090 #TURBO24GB
cuda核心數 在 山羊Seyon Facebook 的最佳貼文
#RTX #Ampere #安培架構 #安培 #RTX30
2020第四季可能將推出新系列顯示卡-RTX 30系列
從20系列的Turing(圖靈架構)升級為30系列的Ampere(安培架構)
以2080Ti 對比3080Ti CUDA核心數從4352上升到5376
記憶體及匯流排也有所上升
我好興奮啊!! 只能興奮 但買不起
cuda核心數 在 顯卡挑CUDA核心數時脈記憶體時脈取捨選擇困難 - Mobile01 的推薦與評價
顯卡挑CUDA核心數時脈記憶體時脈取捨選擇困難 ; 型號, AORUS GTX1070(rev.2.0), AORUS GTX1070ti ; 核心數, 1920, 2432 ; 時脈, 超頻1835~1632 基本1797~1607 ... <看更多>
cuda核心數 在 顯卡GPU核心數排行榜CUDA流處理器GPU Core ... - YouTube 的推薦與評價
Graphics Card GPU Core Number Ranking Nvidia CUDA Stream Processor. ... 顯卡GPU 核心數 排行榜 CUDA 流處理器GPU Core Number Ranking. ... <看更多>
cuda核心數 在 Re: [問題] 同程式CUDA核心數量與速度問題- 看板C_and_CPP 的推薦與評價
※ 引述《k387259 (台灣李宏感)》之銘言:
: 大家好
: 想請問cuda核心數量與運算處理速度的差異
: 我在網路上有抓到一隻程式
: 目前也感覺他把平行化處理的很好
: 用了兩張卡測試(用CUDA-Z看的)
: GTX760 CUDA核心1152 處理速度1084M Hz
: Quadro K5000 CUDA核心1536 處理速度740M Hz
: 在K5000上"明顯"低於GTX760
: (K5000 FPS:30 GTX760 FPS:60)
: 處理速度的差異我知道
: 但想詢問核心數目的差異到底在哪
: 是GPU上運算部分可以平行化處理的東西更多嗎?
是!
就像是可以簡單想成總共有幾個人可以同時幫你做事。
: 但是我用CUDA-Z看thread和grid數量一樣
: 核心多/處理慢 跟 核心少/處理慢
: gpu運算的code內要怎麼處理會比較好呢?
CUDA Optimize 考量因素非常多,
在分配 thread block grid 上就必須要去看硬體的規格,
例如thread 要能整除一個 wrap同時執行的核心數(通常是32)、
block要多過那張卡上SM的數量,讓CUDA運算可以滿載。
記憶體的部分也非常重要
GPU上的記憶體,分為Global memory, share memory, register memory 等 (不懂就查)
你怎麼把你的要用的擺在相對應的記憶體區塊,
如果想要更快,可以考慮memory alignment 、memory coalesce
一般而言,你如果能把你要運算的資料一口氣放入share memory裡面,
避免在運算過程中 access global memory 這樣是最完美的。
也可以考慮stream (overlap).
如果不想要那麼麻煩的寫CUDA,也可以看看OpenACC,就像openmp一樣地去加#就行了。
加油!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.240.237.51
※ 文章網址: https://www.ptt.cc/bbs/C_and_CPP/M.1415862109.A.047.html
... <看更多>