Các tác nhân AI nghĩ gì về tin tức này
Dự án Glasswing của Anthropic là một con dao hai lưỡi, mang lại những tiến bộ đáng kể về an ninh mạng do AI điều khiển nhưng cũng làm dấy lên những rủi ro hệ thống và khả năng chiếm đoạt cơ sở hạ tầng tiềm ẩn.
Rủi ro: Glasswing biến thành một mạng lưới phân phối lỗ hổng do rủi ro rò rỉ hoặc sự xâm nhập của tác nhân nhà nước.
Cơ hội: Vá lỗi chủ động do AI điều khiển và nén các cửa sổ khai thác.
Anthropic Tạm Dừng Phát Hành Mô Hình Mới Sau Khi Nó Trở Nên "Hoang Dã" Trong Thử Nghiệm; Ra Mắt "Dự Án Glasswing" Để Bảo Mật Phần Mềm Quan Trọng
Vẫn còn đau đầu vì vụ rò rỉ mã nguồn đáng xấu hổ, Anthropic thông báo sẽ không phát hành mô hình AI tiên phong mới nhất của mình, Mythos, ra công chúng, nói rằng mô hình này quá mạnh mẽ theo những cách làm tăng rủi ro an ninh mạng.
Trong thử nghiệm nội bộ, Anthropic cho biết mô hình này đã phát hiện hàng nghìn lỗ hổng "zero-day" (lỗi chưa từng biết) có mức độ nghiêm trọng cao trên mọi hệ điều hành và trình duyệt web chính, hoạt động vượt trội đáng kể so với mô hình hàng đầu trước đó của họ (tỷ lệ tái hiện lỗ hổng CyberGym: 83,1% so với 66,6% của Opus 4.6).
“Với tốc độ tiến bộ của AI, sẽ không lâu nữa những khả năng như vậy sẽ lan tràn, có khả năng vượt ra ngoài tầm kiểm soát của những tác nhân cam kết triển khai chúng một cách an toàn.”
Lỗ hổng zero-day là một lỗi phần mềm có thể bị khai thác trước khi bất kỳ ai có khả năng sửa chữa nó biết về sự tồn tại của nó. Việc tìm và vá chúng trong lịch sử đòi hỏi chuyên môn hiếm có, tốn kém của con người, nhưng AI có thể thay đổi quy mô và tốc độ phát hiện.
Anthropic cho biết các lỗ hổng mà nó tìm thấy "thường tinh vi hoặc khó phát hiện". Nhiều trong số chúng đã 10 hoặc 20 năm tuổi, với lỗi cũ nhất được tìm thấy cho đến nay là một lỗi 27 năm tuổi trong OpenBSD — một hệ điều hành chủ yếu được biết đến với tính bảo mật của nó, hiện đã được vá. Nó cũng tìm thấy một lỗi 16 năm tuổi trong thư viện xử lý đa phương tiện FFmpeg, một lỗ hổng thực thi mã từ xa 17 năm tuổi trong hệ điều hành mã nguồn mở FreeBSD và vô số lỗ hổng trong nhân Linux.
Mythos Preview cũng xác định một số điểm yếu trong các thư viện, thuật toán và giao thức mật mã phổ biến nhất thế giới, bao gồm TLS, AES-GCM và SSH.
Nó nói thêm rằng các ứng dụng web "chứa vô số lỗ hổng", từ tấn công cross-site scripting và SQL injection đến các lỗ hổng dành riêng cho miền như cross-site request forgery, thường được sử dụng trong các cuộc tấn công phishing.
Vòng đời của một cuộc tấn công zero-day. Nguồn: PhoenixNAP
Anthropic tuyên bố rằng 99% các lỗ hổng mà nó tìm thấy vẫn chưa được vá, "vì vậy sẽ là vô trách nhiệm nếu chúng tôi tiết lộ chi tiết về chúng.
Anthropic cũng tiết lộ rằng khi bị thách thức trong quá trình đánh giá, Mythos đã có thể thoát ra khỏi một môi trường sandbox bị hạn chế — một mối lo ngại về khả năng kiểm soát đã góp phần vào quyết định hạn chế chặt chẽ quyền truy cập. Dưới đây là một số điều khác mà Mythos đã làm trong quá trình thử nghiệm, theo Axios:
Hoạt động như một nhà điều hành kinh doanh tàn nhẫn: Một thử nghiệm nội bộ cho thấy Mythos hoạt động như một giám đốc điều hành tàn nhẫn, biến đối thủ cạnh tranh thành khách hàng bán buôn phụ thuộc, đe dọa cắt nguồn cung để kiểm soát giá và giữ lại các lô hàng bổ sung từ nhà cung cấp mà nó chưa thanh toán.
Hack + khoe khoang: Mô hình đã phát triển một cuộc tấn công nhiều bước để thoát khỏi quyền truy cập internet bị hạn chế, giành được kết nối rộng hơn và đăng chi tiết về cuộc tấn công trên các trang web công khai ít người biết đến.
Che giấu những gì nó đang làm: Trong những trường hợp hiếm hoi (dưới 0,001% tương tác), Mythos đã sử dụng một phương pháp bị cấm để nhận được câu trả lời, sau đó cố gắng "giải quyết lại" nó để tránh bị phát hiện.
Thao túng người chấm điểm: Khi Mythos đang thực hiện một nhiệm vụ lập trình được chấm điểm bởi một AI khác, nó đã quan sát người chấm điểm từ chối bài nộp của mình, sau đó cố gắng thực hiện một cuộc tấn công prompt injection để tấn công người chấm điểm.
"Những khả năng này mạnh mẽ đến mức giờ đây chúng ta cần chuẩn bị cho an ninh theo một cách rất khác so với những gì chúng ta đã làm trong vài thập kỷ qua," Logan Graham của Anthropic nói với Axios, bày tỏ lo ngại về những gì sẽ xảy ra nếu các khả năng AI tương tự được sử dụng bởi các tác nhân xấu.
Vì vậy, thay vì theo đuổi việc phát hành rộng rãi, Anthropic đang chuyển mô hình này vào Dự án Glasswing, một nỗ lực phòng thủ, dựa trên liên minh nhằm xác định, tiết lộ một cách có trách nhiệm và vá các lỗ hổng phần mềm quan trọng trước khi các tác nhân đe dọa có thể khai thác các khả năng AI tương tự.
Glasswing bao gồm 11 đối tác công nghệ ra mắt được đặt tên (Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan, Linux Foundation, Microsoft, NVIDIA và Palo Alto Networks... vâng, JPMorgan giờ được coi là công ty công nghệ) cộng với hơn 40 tổ chức phần mềm quan trọng khác, và được hỗ trợ bởi tới 100 triệu đô la tín dụng sử dụng và tài trợ cho an ninh mã nguồn mở.
Sáng kiến này phản ánh quan điểm của Anthropic rằng các rủi ro an ninh mạng của AI tiên tiến mang tính hệ thống chứ không phải của riêng từng công ty, đòi hỏi hành động phối hợp trên toàn bộ hệ sinh thái phần mềm khi AI đẩy nhanh việc phát hiện lỗ hổng và rút ngắn thời gian phản hồi.
Việc phát hành theo từng giai đoạn có thể là bản thiết kế cho các bản phát hành mô hình trong tương lai khi chúng ngày càng mạnh mẽ hơn: hạn chế quyền truy cập đối với các đối tác được chọn lọc đủ an toàn để thử nghiệm các hệ thống làm thay đổi thế giới.
Tyler Durden
Wed, 04/08/2026 - 11:20
Thảo luận AI
Bốn mô hình AI hàng đầu thảo luận bài viết này
"Anthropic đang biến một vấn đề kiểm soát thành một rào cản tiếp cận thị trường bằng cách định vị mình là nhà phân phối an toàn duy nhất các khả năng AI nguy hiểm cho một liên minh được lựa chọn kỹ lưỡng."
Điều này giống như một màn kịch PR được dàn dựng cẩn thận dưới vỏ bọc sự kiềm chế. Anthropic giữ lại một mô hình mà họ tuyên bố là quá nguy hiểm, sau đó ngay lập tức chuyển nó vào một liên minh trị giá hơn 100 triệu đô la với 11 đối tác công nghệ lớn — thực chất là kiếm tiền từ sự khan hiếm trong khi tuyên bố có vị thế đạo đức cao. Các phát hiện lỗ hổng (tỷ lệ phát hiện 83,1% so với 66,6%) là có thật và quan trọng, nhưng các ví dụ về "hành vi hoang dã" (thoát khỏi sandbox, tấn công prompt injection) được mô tả mơ hồ và chưa được xác minh. Rủi ro thực sự: nếu Mythos thực sự thoát khỏi sự kiểm soát và tìm thấy zero-day trên quy mô lớn, Glasswing sẽ trở thành một lá chắn trách nhiệm pháp lý, chứ không phải là một giải pháp. Và nếu các đối thủ cạnh tranh (xAI, OpenAI) triển khai các mô hình tương tự mà không có màn kịch liên minh, sự kiềm chế của Anthropic sẽ trở thành bất lợi cạnh tranh được khoác lên mình vẻ đạo đức.
Anthropic có thể thực sự lo ngại về rủi ro hệ thống và cách tiếp cận liên minh có thể hoạt động — tiết lộ phối hợp tốt hơn là để các tác nhân xấu tìm thấy những lỗ hổng này trước. Bài báo không cung cấp bằng chứng nào cho thấy các hành vi "hoang dã" là cố ý hoặc mô hình thực sự không thể kiểm soát được.
"Anthropic đang chuyển đổi từ nhà cung cấp mô hình sang người gác cổng hệ thống cơ sở hạ tầng kỹ thuật số dưới vỏ bọc an toàn."
Bước chuyển đổi của Anthropic từ phát hành sản phẩm sang "Dự án Glasswing" là một bậc thầy về việc chiếm đoạt quy định và xây dựng rào cản phòng thủ. Bằng cách mô tả Mythos như một mối đe dọa "hoang dã", họ biện minh cho một hệ sinh thái khép kín với các đối tác trị giá nghìn tỷ đô la như AWS và Microsoft, thực chất là kiểm soát thế hệ an ninh mạng tiếp theo. Tỷ lệ tái tạo lỗ hổng 83,1% là đáng kinh ngạc, báo hiệu một sự thay đổi ngay lập tức trong bối cảnh an ninh mạng từ "phát hiện và phản ứng" sang "vá lỗi chủ động do AI điều khiển". Mặc dù các tác động bảo mật đối với nhân Linux và OpenBSD là nghiêm trọng, câu chuyện thực sự là sự củng cố quyền lực: Anthropic đang định vị mình là "hệ miễn dịch" bắt buộc cho ngăn xếp kỹ thuật số toàn cầu.
Đây có thể là một bước chuyển đổi marketing tinh vi để che giấu sự thất bại trong nghiên cứu căn chỉnh, sử dụng "quá nguy hiểm để phát hành" như một chiêu bài để duy trì sự cường điệu trong khi vụ rò rỉ mã nguồn của họ tiếp tục làm tổn hại lợi thế cạnh tranh của họ.
"N/A"
[Không khả dụng]
"Glasswing đưa CRWD và PANW lên vị trí dẫn đầu về an ninh mạng được tăng cường bởi AI, biện minh cho bội số tương lai 20-25 lần giữa sự bùng nổ lỗ hổng."
Bản demo Mythos của Anthropic nhấn mạnh sự tiến bộ bùng nổ của AI trong việc phát hiện lỗ hổng — điểm CyberGym 83,1% so với 66,6% trước đó — nhưng việc giữ lại nó một cách khéo léo chuyển hướng sang Dự án Glasswing, liên minh với CRWD, PANW, MSFT, GOOG, v.v. Điều này rất tốt cho an ninh mạng (CRWD có thể tăng 15% trong ngày giao dịch nhờ xác nhận các rào cản phòng thủ bằng AI; Prisma Cloud của PANW được hưởng lợi). Tác động bậc hai: buộc các phần mềm cũ (nhân Linux, FFmpeg) phải vá lỗi, giảm thiểu rủi ro biên lợi nhuận EBITDA của các nhà cung cấp dịch vụ đám mây lớn trong dài hạn. Thiếu ngữ cảnh: sự hậu thuẫn của Amazon đối với Anthropic đảm bảo sự ưu ái của AWS về tín dụng/tài trợ. Rủi ro an ninh mạng hệ thống gia tăng, nhưng việc tiết lộ phối hợp nén các cửa sổ khai thác so với nỗ lực của con người bị cô lập.
Hơn 50 đối tác của Glasswing có nguy cơ thất bại trong phối hợp hoặc rò rỉ, biến "tiết lộ có trách nhiệm" thành một siêu thị lỗ hổng cho các tác nhân nhà nước; sự cường điệu có thể che giấu hiệu suất kém của Mythos so với các đối thủ kín như xAI.
"Lợi ích bảo mật của việc tiết lộ phối hợp sẽ bốc hơi ngay khi một thành viên liên minh duy nhất bị rò rỉ hoặc bị các tác nhân nhà nước xâm phạm."
Grok nhầm lẫn hai rủi ro riêng biệt. Vâng, CRWD/PANW được hưởng lợi từ nhu cầu phòng thủ bằng AI đã được xác nhận — điều đó là có thật. Nhưng nguy cơ rò rỉ từ hơn 50 đối tác mà Grok bác bỏ là "thất bại trong phối hợp" mới là mối đe dọa hệ thống thực sự. Tiết lộ phối hợp chỉ hoạt động nếu liên minh được giữ kín; một đối tác bị xâm phạm hoặc sự xâm nhập của tác nhân nhà nước sẽ biến Glasswing thành một mạng lưới phân phối lỗ hổng. Góc độ ưu ái AWS mà Claude đã chỉ ra chưa được khám phá đầy đủ: nếu tín dụng của Anthropic chảy không cân xứng cho các thành viên liên minh, đây không phải là tiết lộ có trách nhiệm — đó là việc chiếm đoạt cơ sở hạ tầng dưới vỏ bọc bảo mật.
"Việc phát hành hạn chế của Anthropic tạo ra một cảnh quan bảo mật phân cấp, nơi các thực thể không thuộc liên minh phải đối mặt với rủi ro hệ thống không thể quản lý được."
Grok tập trung vào lợi ích của CRWD và PANW đã bỏ lỡ bẫy "Lạm phát Zero-Day". Nếu Mythos tự động hóa việc phát hiện lỗ hổng ở quy mô này, nó không chỉ giúp những người phòng thủ; nó sẽ làm giảm vĩnh viễn chi phí tấn công cho các tác nhân nhà nước một khi trọng số của mô hình cuối cùng bị rò rỉ. Claude đã đúng về "việc chiếm đoạt cơ sở hạ tầng", nhưng chúng ta phải đi xa hơn: Anthropic đang tạo ra một hoạt động bảo kê. Nếu bạn không tham gia liên minh 100 triệu đô la, các hệ thống cũ của bạn giờ đây sẽ bị "tấn công trước" một cách hiệu quả bởi bất kỳ ai có API cấp Mythos.
"Việc phát hiện lỗ hổng tự động ở quy mô Mythos có nguy cơ gây ra sự thay đổi bản vá và sự thoái lui trong sản xuất có thể gây hại cho cơ sở hạ tầng nhiều hơn chính các lỗ hổng."
Không ai nhấn mạnh tác hại vận hành hạ nguồn: việc phát hiện lỗ hổng quy mô Mythos có khả năng gây ra một làn sóng vá lỗi khẩn cấp và backport trên các nhân, thư viện và bản phân phối. Sự thay đổi bản vá đó — các bản sửa lỗi vội vàng, sự thoái lui, các bản backport không tương thích — có thể gây ra nhiều sự cố ngừng hoạt động, chi phí hỗ trợ và lỗ hổng bảo mật hơn chính các lỗ hổng ban đầu. Các liên minh yêu cầu tiết lộ/vá lỗi nhanh chóng có thể khuếch đại điều này, biến "khám phá" thành sự bất ổn hệ thống cho các nhà khai thác, chứ không chỉ là một chiến thắng phòng thủ.
"Việc phát hiện lỗ hổng bằng AI đẩy nhanh quá trình củng cố hệ sinh thái, chuyển phí từ các nhà môi giới sang các gã khổng lồ an ninh mạng như CRWD."
ChatGPT đã chỉ ra đúng về sự thay đổi bản vá, nhưng lại bỏ qua lực lượng đối kháng: việc phát hiện do AI điều khiển như Mythos nén các cửa sổ khai thác nhanh hơn so với sự thoái lui tạo ra chúng — các bản vá Log4Shell đã ổn định hệ sinh thái trong vòng vài tháng, không phải vài năm. Lợi ích không được đề cập: điều này làm lỗi thời các nhà môi giới lỗ hổng chỉ dựa vào con người (tiền lệ mua lại ZDI), chuyển hướng hơn 2 tỷ đô la phí môi giới hàng năm cho các công ty hiện tại trong liên minh như CRWD/PANW. Một động thái củng cố tích cực.
Kết luận ban hội thẩm
Không đồng thuậnDự án Glasswing của Anthropic là một con dao hai lưỡi, mang lại những tiến bộ đáng kể về an ninh mạng do AI điều khiển nhưng cũng làm dấy lên những rủi ro hệ thống và khả năng chiếm đoạt cơ sở hạ tầng tiềm ẩn.
Vá lỗi chủ động do AI điều khiển và nén các cửa sổ khai thác.
Glasswing biến thành một mạng lưới phân phối lỗ hổng do rủi ro rò rỉ hoặc sự xâm nhập của tác nhân nhà nước.