DaveC
1 months ago
LLM4Decompile: Decompiling Binary Code with Large La...
Ref Will 保哥

有人使用 LLM 反編譯二進制程式碼,硬是將編譯好的 machine code 翻譯回 C 原始碼,準確度比 GPT-4 高出 50% 之多

這個 LLM4Decompile 模型以 40 億個 Token 的 C 原始碼和相應的 machine code (組合語言) 訓練。作者還提出 Decompile-Eval,一個用於評估重新相容性和反編譯的重新執行能力,以及從程式語意角度進行評估的資料集。
DaveC
1 months ago
LLM4Decompile 展示了準確反編譯 21% 組譯碼的能力,相較於 GPT-4,提升了 50%。這是一個 LLM 的巧妙應用,並清楚指出,對於更複雜且領域特定的任務,專門的 LLM 仍然很重要。

啟用編譯和反編譯程式碼的能力,對於建立能在程式堆疊更深層作業的更強大 AI Agent,看來是一個非常重要的研究領域。👍
DaveC
1 months ago
---
各式各樣原始碼和輸出的結果進行訓練。 嗯。
如果把C各種編譯器的原始碼進行訓練。 嗯。
大歐派蘿莉
1 months ago
從評估結果來看,應該還是有滿長一段路要走的
立即下載
Reco
1 months ago
是一個全新的方式