EbookMLCB - ebook Machine Learning cơ bản

Overview

Mã nguồn cuốn ebook "Machine Learning cơ bản", Vũ Hữu Tiệp.

ebook Machine Learning cơ bản pdf-black_white, pdf-color.

Mọi hình thức sao chép, in ấn đều cần được sự đồng ý của tác giả. Mọi chia sẻ đều cần được dẫn nguồn tới https://github.com/tiepvupsu/ebookMLCB hoặc https://machinelearningcoban.com.

Hiện sách giấy không còn được bán nữa.

Nếu bạn gặp bất cứ lỗi nào hoặc cho rằng nội dung có thể được cải thiện, bạn có thể tạo một issue tại đây.

Click Star nếu bạn thấy nội dung cuốn sách có ích. Cảm ơn bạn.

Comments
  • 12.3. GDM

    12.3. GDM

    Chapter 12 GDM, the part I code myself, is different from the result in the book; I checked the code of Mr Tiep also encountered the same situation. Then I detect; specifically, it is the one that initially creates the y value: we use the np.random.random(1000) function, we will return an array with shape (1000,) if we do not notice y.reshape(-1, 1) to match matrix addition and subtraction operations, it will be confusing (because py is different in size, it will treat it as broadcasting). Yes, grad will return a vector, but it returns a matrix because of the confusion above. That leads to consequences; later on, the code does not run correctly. Source code fix : https://bit.ly/3mFp8N1 or https://bit.ly/3iOXImD

    244433855_2846991418944200_9069998415242239147_n 244355556_2846990928944249_1399441177654916885_n

    opened by tuanlda78202 3
  • Lỗi chính tả và đánh máy

    Lỗi chính tả và đánh máy

    Dưới đây là các lỗi mình ghi lại được từ bản in. Tiệp thấy lỗi nào đã sửa rồi thì bỏ qua nhé.

    • Trang 48: Mục lục 2.4.5 bị đẩy dòng
    • Trang 61: hiep => hiệp trong "3.1.9 Ma trận hiệp phương sai"
    • Trang 146: NCB => NBC
    • Trang 149: Hình 11.1 dấu bằng ở "2/3(4/20)^2" có vẻ không chính xác. Đổi chỗ với dấu xấp xỉ có vẻ chuẩn hơn?
    • Trang 176: o.w. => trường hợp còn lại
    • Trang 198: ove => one
    • Trang 205: "c=max_i z_i" => c = max z_i
    • Trang 270: Có nhiều dấu = ở "Không âm và giảm dần"

    Khác

    • Trang 76: Hình 4.1 có 2 đường cùng nét liền. Hình này không rõ trục tung
    • Trang 110: chú thích số 23 để không hợp lý trong bản in, dễ hiểu nhầm thành 0^23.
    • Hình 14.2 nên nới dài ra một chút.
    • Trang 214: Từ biểu diễn nên cho vào ngoặc kép. Mặc dù, mình không tìm được từ nào hay hơn :)
    opened by Typhoon1089 2
  • Source Code trong bản pdf thiếu hoặc không thực hiện được

    Source Code trong bản pdf thiếu hoặc không thực hiện được

    Tiệp check lại những điểm này nhé. Mình ghi lại lâu lâu rồi không rõ đã được sửa chưa

    • Trang 135: hàm kmeans_display không tìm được
    • MNIST hiện tại không download được bằng fetch_mldata, nên ghi chú là dùng fetch_openml thay thế
    • Trang 209-210: hàm pred(W, X) hình như không đầy đủ. Dù sao thì cám ơn Tiệp vì đã bỏ công sức viết một cuốn sách tốt, có giá trị tra cứu rất tốt.
    opened by Typhoon1089 1
  • Các điểm có thể làm rõ hơn

    Các điểm có thể làm rõ hơn

    Có một vài chỗ nếu Tiệp có thể viết rõ ràng hơn thì sẽ tốt hơn

    • Trang 70: không nên kí hiệu là x_i^j cho vị trí (i,j) vì dễ gây hiểu nhầm với số mũ.
    • Trang 69: Có nên giả sử xác suất có dạng Bernoulli trước và ta đi tìm phân phối này không?
    • Trang 75: "đây chính là bài toán tối ưu cho 4.38". Theo mình là 4.9 thì mới chính xác
    • Trang 189: Chưa được rõ ý. Có nên nói ngay từ đầu ta sẽ đi tìm lý do tại sao hàm sigmoid được dùng nhiều nhất. Thay vì cuối cùng mới đưa ra.
    • Trang 215: Có một câu hỏi là tại sao ta bỏ hết hệ số bias "b" tất cả neuron ra? Có lợi gì?
    • Trang 223: Cùng chiều với vector thì có thể hiểu được. còn cùng chiều với ma trận là như thế nào?
    opened by Typhoon1089 1
  • Có thể nhầm giữa việc chia tập huấn luyện và kiểm tra phần ví dụ trang 123

    Có thể nhầm giữa việc chia tập huấn luyện và kiểm tra phần ví dụ trang 123

    Em chào anh Tiệp, Em đang đọc quyển Machine Learning Cơ bản của anh, ở trang 123 anh có viết:

    Tiếp theo, 130 mẫu dữ liệu được lấy ra ngẫu nhiên tạo thành tập huấn luyện, 20 mẫu còn lại được dùng để kiểm tra.

    print(’Labels:’, np.unique(iris_y))
    # split train and test
    np.random.seed(7)
    X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size=130)
    
    print(’Training size:’, X_train.shape[0], ’, test size:’, X_test.shape[0])
    

    Nhưng khi in ra lại ngược lại, em không biết đây có phải là do anh viết nhầm hay do em hiểu sai

    Labels: [0 1 2]
    Training size: 20 , test size: 130
    

    Cám ơn anh rất nhiều.

    opened by nvty13 1
  • Trang 132 của sách, phần K-means clustering

    Trang 132 của sách, phần K-means clustering

    Chào anh,

    Em phát hiện anh đánh máy nhầm ở trang 132, phần k-means clustering. " 10.2.3. Tóm tắt thuật toán Tới đây, ta có thể tóm tắt thuật toán K-means cụming như sau. " Trân trọng, Tân

    opened by TanTranTrieu 0
  • 14. Logistic Regression - Lỗi 0 feature trong MNIST

    14. Logistic Regression - Lỗi 0 feature trong MNIST

    Chào anh, trong chương 14. Logistic Regression, phần 14.5. Xử lý chữ số viết tay, thì sau khi chạy code phân biệt số 0 và 1 em đã gặp lỗi như sau:found array with 0 feature(s) (shape=(138000, 0)) while a minimum of 1 is required. Theo như em tìm hiểu thì cách khởi tạo X0X1 là chưa chính xác và sẽ trả về một array rỗng, vì y_all đang là một Pandas string nên không áp dụng được cách filter của np.where. Em đã chỉnh sửa lại bằng cách chuyển X_ally_all sang numpy array và thu được kết quả giống như trong sách (gần 100%), kiểm thử trên toàn bộ dữ liệu cũng đạt kết quả gần 92% như trong sách (với X_ally_all đều là mảng trong numpy). Em nghĩ rằng cách chỉnh sửa như vậy là chính xác hơn. Mong nhận được phản hồi sớm từ anh ạ. Em xin cảm ơn. ebookML-logreg

    opened by lggvu 0
  • Các anchor (ref) bị lỗi nên chỉ hiển thị ??

    Các anchor (ref) bị lỗi nên chỉ hiển thị ??

    Chào Tiệp,

    mình đọc sách ở đây https://github.com/tiepvupsu/ebookMLCB/blob/master/book_ML.pdf thì phát hiện các anchor (ref) bị lỗi nên chỉ hiển thị ?? Mình xem trên Chrome của MacOs X. Mình cũng kiểm lại trên Windows thì lỗi ?? cũng bị tương tự như vậy.

    Screenshot 2022-01-02 at 09 38 40

    Bạn có thể xem lại được không? Cám ơn bạn.

    Thân.

    opened by hintdesk 1
  • Fix typo

    Fix typo

    https://www.facebook.com/groups/machinelearningcoban/posts/1318574225266648/?cft[0]=AZWBfz3ii45zc1v7v3uKEPJuuUucxI4xr9lvBHc4ifKzR0gL3i6_4xkRfNw4-vavVZvcCgWN2lu2HsVNSGDGwTWGDnI3K9iGq8i7AOuQEF8iJMqcAk4KYl3uYzgFIFT1Qkwgz7_cWo9r7fjAZg7sLF6845PnBrL5CgYTI1Dmv2n7Kq08bJ59Of-oJVnMF-lLOnw&tn=%2CO%2CP-R

    Mục 2.4.6 x_ji -> x_ij.

    opened by tiepvupsu 0
  • Trang 68: môi trường xun quanh -> môi trường xung quanh

    Trang 68: môi trường xun quanh -> môi trường xung quanh

    Có những thuật toán machine learning không luôn trải nghiệm trên một tập dữ liệu cố định. Ví dụ, học củng cố (reinforcement learning) trải nghiệm trực tiếp với môi trường xun quanh

    opened by haiau 1
  • Build latex bị lỗi.

    Build latex bị lỗi.

    Chào anh Tiep,

    Em đã git hết project của anh về định buid lại sau đó chuyển qua định dạng ebook cho máy đọc sách nhưng khi em build thì bị lỗi ạ.

    Đây là log em build bị lỗi . https://i.imgur.com/JRuyL9z.pnghttps://i.imgur.com/JRuyL9z.png

    Em dùng linux. Mong anh xem qua bài của em và giúp em khắc phục lỗi này.

    Cám ơn anh về tài liệu rất quí báu cho cộng đồng ML.

    P/S: À còn một điều nữa trang web https://fundaml.com/ hiện tại ko còn vào dc nữa ạ, anh tạm dừng dự án hay sao ạ ?

    opened by boyboy007000 0
Owner
Machine Learning Engineer at Google
null
Vowpal Wabbit is a machine learning system which pushes the frontier of machine learning with techniques

Vowpal Wabbit is a machine learning system which pushes the frontier of machine learning with techniques such as online, hashing, allreduce, reductions, learning2search, active, and interactive learning.

Vowpal Wabbit 8.1k Dec 30, 2022
CD) in machine learning projectsImplementing continuous integration & delivery (CI/CD) in machine learning projects

CML with cloud compute This repository contains a sample project using CML with Terraform (via the cml-runner function) to launch an AWS EC2 instance

Iterative 19 Oct 3, 2022
Microsoft contributing libraries, tools, recipes, sample codes and workshop contents for machine learning & deep learning.

Microsoft contributing libraries, tools, recipes, sample codes and workshop contents for machine learning & deep learning.

Microsoft 366 Jan 3, 2023
A data preprocessing package for time series data. Design for machine learning and deep learning.

A data preprocessing package for time series data. Design for machine learning and deep learning.

Allen Chiang 152 Jan 7, 2023
A mindmap summarising Machine Learning concepts, from Data Analysis to Deep Learning.

A mindmap summarising Machine Learning concepts, from Data Analysis to Deep Learning.

Daniel Formoso 5.7k Dec 30, 2022
A comprehensive repository containing 30+ notebooks on learning machine learning!

A comprehensive repository containing 30+ notebooks on learning machine learning!

Jean de Dieu Nyandwi 3.8k Jan 9, 2023
MIT-Machine Learning with Python–From Linear Models to Deep Learning

MIT-Machine Learning with Python–From Linear Models to Deep Learning | One of the 5 courses in MIT MicroMasters in Statistics & Data Science Welcome t

null 2 Aug 23, 2022
Implemented four supervised learning Machine Learning algorithms

Implemented four supervised learning Machine Learning algorithms from an algorithmic family called Classification and Regression Trees (CARTs), details see README_Report.

Teng (Elijah)  Xue 0 Jan 31, 2022
High performance, easy-to-use, and scalable machine learning (ML) package, including linear model (LR), factorization machines (FM), and field-aware factorization machines (FFM) for Python and CLI interface.

What is xLearn? xLearn is a high performance, easy-to-use, and scalable machine learning package that contains linear model (LR), factorization machin

Chao Ma 3k Jan 8, 2023
cuML - RAPIDS Machine Learning Library

cuML - GPU Machine Learning Algorithms cuML is a suite of libraries that implement machine learning algorithms and mathematical primitives functions t

RAPIDS 3.1k Dec 28, 2022
mlpack: a scalable C++ machine learning library --

a fast, flexible machine learning library Home | Documentation | Doxygen | Community | Help | IRC Chat Download: current stable version (3.4.2) mlpack

mlpack 4.2k Jan 1, 2023
A toolkit for making real world machine learning and data analysis applications in C++

dlib C++ library Dlib is a modern C++ toolkit containing machine learning algorithms and tools for creating complex software in C++ to solve real worl

Davis E. King 11.6k Jan 2, 2023
A library of extension and helper modules for Python's data analysis and machine learning libraries.

Mlxtend (machine learning extensions) is a Python library of useful tools for the day-to-day data science tasks. Sebastian Raschka 2014-2021 Links Doc

Sebastian Raschka 4.2k Dec 29, 2022
50% faster, 50% less RAM Machine Learning. Numba rewritten Sklearn. SVD, NNMF, PCA, LinearReg, RidgeReg, Randomized, Truncated SVD/PCA, CSR Matrices all 50+% faster

[Due to the time taken @ uni, work + hell breaking loose in my life, since things have calmed down a bit, will continue commiting!!!] [By the way, I'm

Daniel Han-Chen 1.4k Jan 1, 2023
Machine Learning toolbox for Humans

Reproducible Experiment Platform (REP) REP is ipython-based environment for conducting data-driven research in a consistent and reproducible way. Main

Yandex 663 Dec 31, 2022
Uplift modeling and causal inference with machine learning algorithms

Disclaimer This project is stable and being incubated for long-term support. It may contain new experimental code, for which APIs are subject to chang

Uber Open Source 3.7k Jan 7, 2023
A machine learning toolkit dedicated to time-series data

tslearn The machine learning toolkit for time series analysis in Python Section Description Installation Installing the dependencies and tslearn Getti

null 2.3k Jan 5, 2023
Automated Machine Learning with scikit-learn

auto-sklearn auto-sklearn is an automated machine learning toolkit and a drop-in replacement for a scikit-learn estimator. Find the documentation here

AutoML-Freiburg-Hannover 6.7k Jan 7, 2023
MLBox is a powerful Automated Machine Learning python library.

MLBox is a powerful Automated Machine Learning python library. It provides the following features: Fast reading and distributed data preprocessing/cle

Axel 1.4k Jan 6, 2023